三大优势让你理解大数据应用
2019年底到2020年初,新冠肺炎疫情在湖北武汉暴发,并迅速向全国蔓延。疫情来势汹汹,党中央、各级政府和全国军民共克时艰,到三月底,这场倾举国之力的疫情防控“战役”终于初见成效。而在这个过程中,大数据、云计算、人工智能等快速发展的新一代信息通信技术,与疫情期间国家治理的方方面面深度融合,成为科技“战疫”的先锋。大数据作为信息科技的基础,具有体量巨大、数据种类多样、处理速度快和价值密度低等鲜明特点,在疫情追踪、溯源与预警、辅助医疗救治、助力资源合理配置及辅助决策中得到广泛应用,全面配合“智慧战疫”。
大数据应用发挥三大优势
一是整合系统,追踪疫情发展动态。在疫情期间,对疫情的追踪、溯源与预警对于控制疫情扩散发挥着重要作用。确定高危人群、潜在高危人群、潜在风险人群并进行精准排查、预防、监测等,全程都需要数据支撑。工业和信息化部迅速整合资源,建立疫情电信大数据分析模型,统计全国特别是武汉市和湖北省等地区的人员向不同城市流动的情况,从而帮助预判疫情传播趋势、提升各地疫情防控工作效率。中国有16亿手机用户,在疫情防控过程中,运营商凭借所掌握的数据资源规模大、人群覆盖率高、有时空连续性等特点,积极参与了工业和信息化部的大数据咨询。此外,疫情期间,一款“密切接触者测量仪”于2月初投入使用,由于得到卫生健康、民航、交通、铁路等相关部门的权威数据资源支持,普通民众通过输入个人信息就可以查询自己是否为新冠肺炎病人的密切接触者。同时,航空、铁路的实名旅客大数据也能帮助各个城市的防控前线部门, 更快找到疫情高发区返回的人。此外,互联网公司基于手机应用程序(App)定位系统所获取的用户位置信息,也可以帮助判断整体的人口流动方向。
二是辅助医疗,提高救治与科研效率。一方面,可以通过基于大数据的人工智能及其他医学相关技术,辅助或加速确诊病例的判断与救治;另一方面,为了减轻医务人员负担,避免人员交叉感染,越来越多基于大数据的智能机器人在抗疫前线被应用。这些机器人在医院承担为隔离病房配送餐饮、生活用品、医疗物资等任务,新研发的清洁消毒一体机器人还可以对医院内的环境实现自主定位,提前规避密集人流,高效完成清扫任务。同时,大数据还可以识别高风险人群,助力基因检测、疫苗研发等重要的医疗科研工作,提升科研效率。
浙江省杭州市运用数字赋能,利用大数据、移动互联网等手段加强新冠肺炎疫情防控。该平台可以实现自行在线申报,经后台审核生成专属的不同颜色的二维码,作为个人在本地区出入通行的电子凭证,实现一次申报、动态管理、跨域互认、全省通用。
三是合理配置,避免资源“旱涝不均”。首先是整合资源信息,通过大数据查询了解资源分配态势和需求态势。比如主要查询企业信息数据的一款应用程序,在疫情期间重点梳理了生产前线紧缺医疗防护物资的企业信息,并向相关部门提供了一份防护服、消毒喷雾、医用酒精和红外线体温计等四大类生产企业的列表,详细地梳理了这些企业的区块分布、企业规模以及联系方式等信息。相关部门拿到名单后快速梳理产能,制定企业医疗补贴政策和专项扶持,让企业尽快恢复生产。其次是物资精准投送。在整合物资信息的基础上,对接精准物流是一个重要环节。例如,除了常规的物资供应链运转外,为降低疫区配送人员在高危环境下配送时被感染的风险,一款智能仓储自动导航(AGV)机器人在武汉等地区已参与到配送服务。而在河北、内蒙古等农村地区,物流无人机也逐步开展配送工作,为已封闭、隔离的偏远山区提供物流服务。
大数据应用面临三大挑战
疫情防控期间大数据技术的广泛使用既体现出这一信息技术应用的希望所在,也暴露出一些短板,尚需完善提高。
一是数据采集与分析质量亟待提高。大数据本身需要采集海量的全样本数据才可以有基本的数据分析,从而产生有效信息。然而,当前在大数据的收集与分析上都存在很大的盲区和局限性。首先是原始数据采集不准确。至少有两方面原因,一方面是部分数据采集手段落后。比如有的部门、单位还在采取手工作坊式的人工填报或电话问询方式,准确率和效率都低,很难满足大数据分析所需要的规范的海量数据要求;另一方面是数据采集缺乏代表性。比如通过网上足迹来采集数据,就只能代表上网的这部分人,非网民情况仍难以获取,且网上行为本身就可能有欺骗性,这些都会造成原始数据的不准确。其次是数据分析质量有待提高。从疫情分析数据来看,目前公开渠道获取的数据仍存在标准不统一、数据源重复、混乱等情况。大数据的核心在于互联互通,只有融会了多源数据,才能发挥大数据的信息价值。在疫情防控中,数据“孤岛”仍然存在,散落在不同部门无法联通的数据及不同标准分析技术下产生的结果,仍在干扰大数据体现其真正的价值。比如,一些国际学者基于我国学者发表的基础数据,在第一时间快速建立起新冠肺炎的传染模型,与疫情随后发展的实际情况契合度很高。而作为疫情首先暴发的国家,我们最先产生了大量原始数据,却没能发展出这样的建模创新研究。这表明我们在信息科学技术与流行病学的融合,包括分析、评价和预测等领域的联通亟待加强。基础数据的收集是大数据产生有效信息的广度问题,而数据分析则决定了大数据产生有效信息的深度。
二是公民个人信息保护压力倍增。网络数据是大数据时代泄露公民隐私的“重灾区”,尽管大量网络运营团队为保护用户隐私“全天候”工作,但网络钓鱼、恶意软件和错误信息仍在侵害网络用户。实际上,相较于欧美民众,中国民众更愿意提供数据授权给数据公司,但中国民众对自身数据安全越来越重视也是明显趋势。在疫情防控中如果需要使用公众的数据隐私,应该事先告知,依法行事。
三是国家安全潜在风险不容小觑。如果个人数据的暴露仅涉及个人信息安全问题的话,那么上升到国家层面,就成为国家安全问题。数据为王的时代,谁占有了数据,谁就占有了国家秘密,而大数据的泄露就可能成为危害国家安全的大问题。由于我国的网络基础设施均由国外开发引进,大数据平台的基础软硬件系统也尚未实现自主研发,加之微软、苹果等世界主要的互联网企业生产的软件产品均存在不少安全漏洞等,这些都严重威胁着我国大数据平台的安全。被窃取的数据本身不一定会危害国家安全,但随着大数据不断积累,数据分析手段不断提高,将来源于多种渠道、利用多种采集方式获取的具有不同结构的数据汇聚到一起,相互补充、相互印证,就有可能发生从量变到质变的转折,产生关乎国家安全的重要敏感信息。维护国家安全是一个完整的链条。这个链条上的任何一个环节面临威胁,都有可能导致我国家整体安全态势受到严重挑战。新冠疫情防控期间产生的大量基因工程、细胞工程、遗传工程、合成生物学等涉及生物安全的信息及相关医疗卫生信息等,如果不提前加以规范存储和严格保护,未来就有可能成为影响国家安全的巨大隐患。
对抗新冠疫情的“战役”远未结束,大数据将持续为“战疫”助力。但大数据代表的终究只是信息,而非智慧,只有为人类的智慧所用,大数据的能量才会真正暴发。这也是人类最终战胜种种挑战的希望所在。