最近,我回国参加了一些大学的研讨会、政府部门的座谈会以及企业的培训活动,主题都是大数据,时下,国内各大报刊杂志也都在探讨这个热门话题,但我发现,中国社会对“大数据”的概念还存在一些不准确的认识甚至观念上的误区,特别是对大数据在国家层面上的战略意义估计不足,亟需深化。
从小数据到大数据
“大数据”是一股新的技术浪潮,也是逐步形成的历史现象,其具体是指随着信息存储量的增多,人类在实践中逐渐认识到,通过数据的开放、整合和分析,能发现新的知识、创造新的价值,从而为社会带来“大科技”、“大利润”、“大智能”和“大发展”等新的机遇。大数据概念的提出,可以追溯到1980年代,但其“数据”二字却和我们传统的理解有所不同。
传统意义上的“数据”,是指“有根据的数字”,但在进入信息时代之后,“数据”二字的内涵在扩大,它不仅指代“数字”,还统称一切保存在电脑中的信息,包括文本、声音、视频等。更重要的是,随着信息技术的进步,其数量在爆炸,特别是新媒体出现之后,数据的收集、保存、维护、使用等任务,成为横跨各个领域的现象和挑战。
大数据之“大”,并不在于其表面的“大容量”,而在于其潜在的“大价值”。有很多例子可以证明,由于新工具的出现,我们从以前的小数据当中也能发现大的价值。例如,美国把20多年的犯罪数据和交通事故数据映射到同一张地图上后惊奇地发现,无论是交通事故和犯罪活动的高发地带,还是两者的频发时段,都有高度的重合性。这引发了美国公路安全部门与司法部门的联合执勤,通过共治数据“黑点”,交通事故率和犯罪率双双降了下来。再例如,最近有学者将白宫200多年总统洗衣服的记录电子化,然后进行分析,也得出了一些新的结论。这些数据,都是地道的小数据。这说明,小数据只要在纵向上有一定的时间积累,在横向上有细致的记录粒度,再和其他数据整合,就能产生大的价值。从这个角度来看,大数据也可以理解为针对某个对象在时空两个维度上的“全息”数据。这种“全息”,在大数据的时代还表现为“多源”,即有多个源头在从不同方向对同一个对象进行数据记录,数据之间可以互相印证。
另外,从全球数据技术投入的资金分布来看,传统的小数据仍然占据绝对的重头。据国际数据集团(IDG)统计,2012年,全球对小数据分析工具的投资为349亿美元,而对大数据分析工具Hadoop的投资仅为1.3亿美元,不及前者的1%。IDG的结论是,传统的小数据软件满足了企业和组织95%的需求。目前行业发展的最新态势,是“大”、“小”数据分析工具趋于一体化并在向“云”迁徙。
大数据的战略意义
大数据的意义,也远远不局限于我们当前众多新闻报道中所津津乐道的“啤酒和尿布”等通过数据挖掘、实现精准营销的故事。事实上,数据挖掘已经不是大数据领域的前沿,取而代之的是机器学习。数据挖掘是指通过特定的算法对大量的数据进行自动分析,从而揭示数据当中隐藏的历史规律和未来的发展趋势,为决策者提供参考。时下兴起的机器学习,凭借的也是计算机算法,但和数据挖掘相比,其算法不是固定的,而是带有自调适参数的,也就是说,它能够随着计算、运行次数的增多,即通过给机器“喂取”数据,让机器像人一样通过学习逐步自我提高改善,使挖掘和预测的功能更为准确。这也是该技术被命名为“机器学习”的原因。这也是大数据之所以被称为革命性现象的根本原因,因为从本质上来说,它标志着我们人类社会在从信息时代经由知识时代快速向智能时代迈进。
不妨举一两个例子,来说明大数据对社会形态的影响以及对国家战略的重要性。
今年以来,一股在线教育的浪潮正在席卷美国的教育领域,一种新型的智能学习平台正在成为高科技领域创新和投资的重点,其中不少公司已经获得了初步成功。如著名的在线教育公司Coursera,已经和普林斯顿、伯克利、杜克、香港理工等全世界30多所大学达成协议,通过其平台免费开放课程。如今这些学校的课程可以实现全球几十万人同步学习。分布在世界各地的学习者不仅可以在同一时间听取同一位老师的授课,还和在校生一样,做同样的作业、接受同样的评分和考试。一些学校看到了这种智能学习平台的价值和潜力,甚至开始投资兴建自己的独立平台,2012年5月,哈佛大学和麻省理工学院就宣布,将投入6000万美元开发一个类似平台,并向全世界免费开放。
这种学习平台的崛起,在美国引起了广泛的关注和激烈的讨论。其中的原因,在于该平台已经不是一个镜头、一段视频那么简单,而能对学习者的学习行为自动进行提示、诱导和评价,从而弥补没有老师面对面交流指导的不足。例如,通过记录鼠标的点击,计算机能够记录你在一张幻灯片上停留的时间,判别你在答错一道题之后有没有回头复习,发现不同的人对不同知识点的不同反应,从而总结出哪些知识点需要重复或强调,哪种陈述方式或学习工具在哪种情况下最有效等规律。
不难发现,该平台之所以强大,正是因为大数据。单个个体学习行为的数据似乎是杂乱无章的,但当数据累积到一定程度时,群体的行为就会在数据上呈现一种秩序和规律。通过收集、分析大量的数据,就能总结出这种秩序和规律,然后有的放矢,对不同的学习者提供有针对性的帮助。哈佛大学和麻省理工学院之所以向全世界免费开放其学习平台,目的也是想让更多的学习者在上面学习,以收集更多的数据,有了数据,它们才能研究世界各国学习者的行为模式,进而打造更好的智能学习平台。
数据驱动的智能时代
前面的例子说明数据正在成为组织的财富和创新的基础,也证明大数据确实在催生一个更加智能的社会。那么,又该如何理解我们正在迈进的这个智能型社会呢?
理解这个问题的关键在于,无论是信息、知识还是智能,在我们这个时代,都是以数据为载体存在的。数据是对客观世界的记录,当我们对数据赋予背景时,它就成为信息;信息是知识的来源,当把信息提炼出规律的时候,它就上升为知识;知识是智能的基础,当电脑、网络能够利用某种知识作出自动判别,采取行动为人类服务的时候,机器智能就产生了。目前,人类记录周围世界的范围正在不断扩大,过去,我们是决定记录什么,现在及将来,我们要进入一个决定不记录什么的时代,同时数据分析的能力不断增强,这都将加速我们迈向智能时代的步伐。智能时代的特点,是无处不在的计算机和网络将像有智商的人一样为人类工作和服务。换句话说,越来越多的工作将被计算机或者机器人所代替。此外,由于精准的计算和预测,整个社会可以像无数个大大小小的齿轮轴承一样,环环相扣,齿齿吻合,日常管理通过数据更加优化,各种任务、合作可以无缝对接,社会运行的成本可大幅降低。
回到上面的例子,不难想象,这种智能学习平台将会给教育行业带来怎样的影响。学校曾经是最重要的教育资源,好的学校更是异常稀缺,由于这种智能平台的普及,在不远的将来,名校将人人可上,也就是说,如果应对得当,中国教育资源匮乏的问题将很快得到有效缓解。对个人来说,随时随地地学习、终身学习都将成为可能,例如,高中生可以尝试大学的课程,离开了校园的人,也可以登录在线平台再和在校生一起听课。这些都是教育工作者探讨多年、孜孜以求的梦想。但硬币的另一面,是中国的教育行业要面对更加激烈的全球化竞争和挑战。过去,是学生争学校;将来,可能是学校在全球范围中争夺学生。发达国家的一流大学会挤压发展中国家普通大学的生存和发展空间,普通大学该如何来吸引生源?它们会不会因此衰落?既然最好的教学视频等学习资源都可以免费获得,教师的角色又需不需要调整?又该如何调整?这些问题,都是大数据时代催生的重大挑战。
智能学习平台只是大数据大潮在教育领域掀起的一朵浪花。毫不夸张地说,大数据将影响人类社会发展的方方面面、优化改造每一个行业,其作用难以限量。我们再以时下另外一个热门名词“智慧城市”为例。近几年来,国内外都兴起了建设智慧城市的浪潮。据国内智慧城市的领军公司神州数码董事局主席郭为介绍:目前,国内已经有60多个城市把建设智慧城市纳入了“十二五”规划,他相信,智慧城市将成为推动中国经济可持续发展的主动力。但从一个更高的角度来看,智慧城市的建设问题,其实是一个城市的大数据综合治理问题:一是要在以前没有收集数据的地方收集数据,这主要是利用物联网的技术;二是要让不同系统的数据有效对接起来,这是系统整合的任务;最后,还要利用数据可视化的技术把海量数据中隐藏的知识揭示、展现出来,让数据中的智慧能够以一种直观的形式流向城市的管理者、决策者和市民大众。也就是说,数据的收集、整合、分析、展现才是智慧城市的核心,未来的智能型城市,必将是数据驱动的城市,而大数据则相当于智慧城市的大脑。郭为还指出,智慧城市的建设,是在用信息技术解决社会治理中的难题,提高人民的幸福指数,这又证明,大数据的应用和价值,绝对不仅仅是在商业领域这么简单。
除了推进社会形态的跃进、加速企业创新,引领新的经济繁荣,我在《大数据》一书中还指出,通过开放数据,大数据还可以成为启动透明政府的利器。这对当下的中国,现实意义毋庸讳言。也正是基于以上种种战略考量,2012年3月,美国联邦政府宣布投入巨资启动大数据的研发任务,并把大数据提到了和历史上的互联网、超级计算机一样的高度,成为国家战略。
政府需要做什么
一是政府机构、行业组织和大型企业要建立专门的数据治理机构来统筹数据治理的工作,例如数据治理委员会、大数据管理局等,数据治理的重点在于数据定义的一致性和数据的质量。在大数据时代,不同系统之间的数据要进行整合,因此要有统一的元数据定义,这不仅是中国而且是全世界当下都在面临的挑战。各个领域和行业的数据标准制定得好,将会起到事半功倍的效果。就单个企业而言,要认识到,未来的竞争是知识生产率而不是劳动生产率的竞争,数据分析产生的价值可能比较碎片化,分布在商业流程的各个环节,数据挖掘的投资回报也有不确定性,但企业领导必须有眼光,把数据治理的工作尽快统筹起来,为增强企业在大数据时代的竞争力做好准备。此外,数据治理机构的首长应该由组织的高层领导担任,否则标准无法推进到全局,也改善不了整个行业或组织的情况。
二是开放数据。数据增值的关键在于整合,但自由整合的前提是数据的开放。开放数据是指将原始的数据及其相关元数据以可以下载的电子格式放在互联网上,让其他方自由使用。开放数据和公开数据是两个不同的概念,公开是信息层面的,是一条一条的;开放是数据库层面的,是一片一片的。开放也不一定代表免费,企业的数据,可以以收费的形式开放。开放也是有层次的,可以对某个群体、某个组织,也可以对整个社会开放。在大数据的时代,开放数据的意义,不仅仅是满足公民的知情权,更在于让大数据时代最重要的生产资料数据自由地流动起来,以催生创新,推动知识经济和网络经济的发展,促进中国的经济增长由粗放型向精细型转型升级。
三是鼓励、扶持基于数据的创新和创业。政策扶持的传统方法,可能是以政府为主导建立大数据产业园,对新兴企业提供办公场所等便利条件或者现金支持,这固然有效,但更有效的方式是调动全社会的力量。例如,拨款支持大数据开源社区、程序员协会等民间组织的建设,通过扶持类似的民间团体,快速推进新技术、新理念在全社会的传播和普及;再例如,以开放的数据为基础,举办应用程序开发大赛,向全社会征询数据使用、创新的意见,主办方可以是政府,也可以是企业,拿出一定的资金,奖励最优秀的应用程序,激发民间蕴藏的创新力量。
四是要在全社会弘扬数据文化。数据文化,是尊重事实、推崇理性、强调精确的文化。要承认,回望历史,中国是个数据文化匮乏的国家,就现状而言,中国数据的公信力弱、质量低,数据定义的一致性差也是不争的事实。这方面,政府应该发挥主导作用,首先在公共领域推行数据治国的理念,要认识到,在大数据时代,公共决策最重要的依据将是系统的数据,而不是个人经验和长官意志,过去深入群众、实地考察的工作方法尽管仍然有效,但对决策而言,系统采集的数据、科学分析的结果更为重要。政府应加大数据治国的舆论宣传,将数据的知识纳入公务员的常规培训体系,力争在全社会形成“用数据来说话、用数据来管理、用数据来决策、用数据来创新”的文化氛围和时代特点。
最后是要围绕个人数据安全,逐步加强隐私立法。任何技术都是双刃剑,大数据也不例外。如何在推动数据开放的同时有效地保护公民隐私,将是大数据时代的一个重大挑战。
新年刚刚拉开序幕,希望中国政府相关部门尽快制定与大数据相关的政策,出台具体的措施,从而抓住历史的机遇、推动中国社会的发展和进步。
2013年,应该成为中国的大数据年。
(2013年1月8日)