近年来,大数据、物联网、人工智能等概念备受人们追捧,高科技成为各国越来越关注的一个战略重点。随着互联网与计算机科技的不断发展,越来越多的数据在互联网终端产生、并被记录,存储设备和云计算的进步极大降低了数据存储成本及数据处理成本,使巨量互联网数据得以保存并用于数据分析。且此类巨量数据的分析、利用被证明是可以带来巨大的经济效益的,由此,大数据出现爆发式的发展。
人类社会经历了三次工业革命,从蒸汽时代、电气时代、到信息时代。已经发展了半个多世纪的信息技术到现在开始进入了信息、数据爆炸时代。正如显微镜能观测微生物、望远镜能观测浩瀚宇宙,大数据也为我们提供了一个前所未有的观测世界的角度。比如,2009年谷歌工程师发表了一遍关于他们如何利用用户搜索记录来预测冬季流感传播的论文,文中预测的及时和高效震惊了科学界和公共卫生领域的专家们。相比之下,美国公共卫生部门在防治同年爆发的H1N1流感时,对流感爆发地点和传播路径的调查和预测方面遇到了巨大困难,现有卫生系统信息反馈的滞后为流感防治带来了极大的困难。
大数据时代的思维变革
在大数据时代,各个行业产生了超大量的数据积累,量变引起质变,使得人们对于事物规律的认识和预测方式也发生了质的改变,不再依赖尽量精确的抽样调查,也不再热衷追逐某单一方向的精确,不再那么汲汲于因果关系的探索,而是通过对整体大数据的理解和分析,来获取自己想要的那一部分关于世界的真相。
首先,过去计算机的存储和计算能力有限,人们只能通过抽样的方式从某个大范围的群体中随机抽取极少数的一部分样本来代表他们,我们的数理统计学理论几乎都是基于这个发展起来的。就像,由于我们内存有限,只能将一张高清照片压缩成低精度的照片来存储,每一次压缩都会丢失很多照片原本的信息,且无法找回来。那,在计算机存储能力和计算能力发展成熟的时候,我们完全可以保存这个事物的所有信息,呈现事物原原本本的整体给大家看。在分析这个事物的时候,可以抓取这个事物的各方面信息而不担心失真。这就是利用所有的数据而不仅仅是一小部分数据带来的优势。随机抽样调查可能在某个范围内对某种情况的分析具有较强的针对性,但是在抽样的过程中动用的人力物力资源、如何保证抽样的随机性和准确性以及每针对某方面的调查都需要重新组织抽样调查带来的反复工作都是很值得反思的问题。
其次,在大数据时代,通常得到的数据都是各种信息混杂在一起,也并非所有数据都恰如其分地对应用户的需要,这种混杂性和不精确性在大数据中的允许存在的,大数据通常通过概率来说话而非“确凿无疑”。1954年IBM利用穿孔卡片来进行机器翻译,通过让电脑学会语言的常用规则来翻译语言,但是要做到某些语句在具体场景下的含义就显得非常困难。比如法语中的“bonjour”可能在不同场景、不同语气下会有“早上好”、“吃了吗”、“今天天气不错”、“喂”?等意思,这在不同语言系统中都是非常常见的事情,对于机器翻译来说就无法通过学习常用语言规则来翻译。而20世纪80年代,一个IBM研究人员提出让机器自己估算一个词与另一种语言的一个词的匹配程度来翻译,将300多万句加拿大议会资料翻译成英语和法语,短时间内极大提高了机器翻译能力。到了2006年谷歌通过全球互联网收集全世界的资源来训练计算机,从各种网站上找对译文档,在经过不同质量上万亿语料库的训练,到2012年谷歌数据库涵盖了60多种语言,能接受14种语言的语音输入,完成流利的对等翻译。它把语言视为能够判别的可能性数据,而非语言本身,在庞大的语料库数量上,使得它可以完美解决语料库存在某些错误数据、不够精确的缺点。
再者,传统的方式中,我们对一个事物的分析和预测都是期望通过抽样调查认识事物的本质,事物发展的因果关系,利用因果关系来预测未来。在大数据时代不是这样,因果关系的获取需要巨大的投入,需要通过长时间的基础科学研究,理论分析、试验验证、再到实际应用等一系列过程,所有的这些过程都耗时耗力。当然,这些东西是必要的,但在某些情况下,可能不需要这么大费周章就能获取到我们需要的结果。我们不需要每件事都知道发生的缘由是什么,只需要知道这件事情发生和另一件相关的事情发生的相关关系,就能通过相关的事情来预测我们想要知道的这件事情发生的可能性。而大数据就是找到这些相关关系的绝佳手段,比如,沃尔玛在自己庞大的数据库中发现,每当季节性飓风来临的时候,不止手电筒的销量增加了,蛋挞的销量也增加了,于是沃尔玛便把这两者摆到了一起放在靠近飓风防护用品的旁边,既方便了客户又增加了销量。
大数据时代的商业变革
大数据发展的核心动力来源于人类测量、记录和渴望分析了解世界的好奇心。现在信息技术发展到一定阶段,信息技术的重点由技术转向了信息,大数据也是计算机技术发展到一定阶段的一个象征。随着计算及存储能力的提升,使得原本受限于技术条件无法实现的传统信息开始慢慢转向数据化,所谓数据化就是把现实中的事物和现象转变为可以制表分析的量化形式的过程,而世间万物纷繁复杂,要完成这一过程必须要借助具备更为强大存储和计算分析能力的工具来实现,这就是大数据时代产生的背景和时代需要。地理信息可以数据化成为电子地图、地质调查信息为生活、工程、采矿、航海等提供服务;指纹、虹膜可以成为个人身份信息验证的绝佳手段;基因测序信息可以帮助人们更好地了解自己的身体随年龄和环境的改变产生的变化、下一代的出生前的健康状况;社交软件的信息可以成为分析社会现象、调查大众喜好甚至政治倾向的数据;可穿戴设备可以监测人体心跳、呼吸、睡眠、血压为医疗健康行业更好地了解客户、提供更贴心的服务创造了条件;甚至地板、座垫亦可以采集微妙的个人信息来进行身份识别,突发情况警报等。
此外,数据不再被认为是静止的陈旧的一个东西,用完之后便失去作用了,数据的拥有者不仅仅能在我们已知的某种数据用途上获取商业价值,更有可能在未来我们现在无法预测的某个时间节点对数据进行重组,发现数据蕴藏的更大潜能。谷歌街景和GPS数据所收集的地理位置信息数据一开始的目的仅仅是为了电子地图和导航服务的,到了今天却发现在无人驾驶领域,这样的数据能发挥更大的作用,能够为无人驾驶汽车提供精准的位置服务及复杂场景下计算机视觉识别的训练。发掘数据的潜在商业价值、重复利用数据是大数据的重要特征。作为数据最大采集机构的政府每年要在全国各行业、全方位统计各方面信息(包括我们的国家统计局及各行政主管部门),作为国家发展评估和决策的依据,这部分数据如果能及时公开与社会共享,将为国家的发展和运行提供极大帮助。
大数据时代的管理变革
科技的发展从来不是有百利而无一害的,大数据的发展带来便利和繁荣的同时也给我们的个人隐私造成了极大威胁。我们所有的个人信息、出行、购物、喜好全被“第三只眼”看得清清楚楚,时刻面临着信息泄露、滥用的危险,也饱受被各种推销电话的骚扰。且大型数据公司形成数据垄断,一旦执掌这些机构的人出于什么好坏好意的目的,或者独裁者利用大数据对人民进行监控来维护自己的统治,抹杀异己之声,将造成不可磨灭的可怕后果。因而,大数据发展的同时,需要相应的监管条例来管控数据的使用,避免数据滥用造成的严重后果。