1998年,“大数据”概念首次出现在美国《科学》杂志中。近20年来,大数据浪潮一波波向世人扑面而来。有人形容,大数据就像一片无边无际的大海,海面一浪高过一浪,而浪潮之下深不见底。
大数据的核心口号是量化世界,量化世界为创构世界奠定了基础。在大数据的基础上,物数据化和数据物化构成循环。这是因为,物数据化事实上就是物信息化,数据物化实质上就是信息物化。随着现代信息技术的发展,创构活动及其产物与人的存在方式越来越密切地联系在一起。
这里涉及一个新的重要概念:信息。在控制论创始人维纳看来,“信息就是信息,既不是物质也不是能量”。这个定义看上去像是同义反复,却富有深意。比如,物能复制成本呈正比增加,而信息复制的边际成本递减;物能越分享越少,而信息越共享越多。信息的这些重要性质,在作为样本数据的小数据时,显示不出重要性;而在大数据基础上,则变得非同寻常。在大数据的基础上,信息会对人类的文明发展产生极为重要的影响。
面对大数据打开的这扇大门,我们不能不深入思考:这将是怎样的一扇门,又会把我们带进一个怎样的新世界?
■面对一张拍好的平面照片,再要换个角度去观察已不太可能。大数据则几乎保留了全纬度。面对大数据,我们可以从不同的角度进行考察。作为样本数据,小数据是“残缺”的。就像尼采说抽象的概念是“干枯的标本”,样本数据和抽象概念的共同特点都是已经“失活”了。而大数据意味着活数据(动态数据)、全数据
■对于大数据来说,信息是活的,是随着时间而流动的。高速的数据流更能在时间上与现实过程同步,因而跟人类的生存密切联系在一起。不仅如此,只有高速流动的数据,才能提供无限的可能性。以往受速率限制,人们获得的数据和所要反映的内容往往脱节,而数据流的高速率使我们把握对象的手段越来越完善
■有人提出,大数据的价值密度低,数据挖掘相当于“沙里淘金”。其实,对于同一个结构开放的大数据,一些人可能视其为一堆垃圾,毫无意义;而在另一些人看来则会是一座宝库,价值连城。大数据的价值和意义,很大程度上取决于人们的理解,取决于人们的眼光。归根结底,取决于对人的需要及其发展的理解和把握
■信息文明的发展,是一个在大数据基础上的公共信息对称化过程。这就要求,为推动信息文明的发展,必须在公共领域尽可能消除信息不对称。同时,为保持信息文明发展的动力,必须尽可能保护创新专利。这很可能是时代发展的必然趋势。对此,人类社会应当提前进行思考,即如何避免新的社会不公平的出现
关于大数据的具体特征,可以用4个“V”来描述
在技术定义上,大数据最主要的一个着眼点是规模大。但是,大数据的关键性质不主要是规模大,而是完全不同于作为样本数据的小数据。通常,样本数据的获取总是会先设定明确甚至单一的目的。这种取样,一方面可以更好地实现采样前预设的目标,另一方面也抹去了其他的可能性。
大数据的另一个重要性质是维度全。通常,我们拍照会选取一个角度。角度一取,数据就固定了。面对一张拍好的平面照片,再要换个角度去观察已不太可能。大数据则几乎保留了全纬度。面对大数据,我们可以从不同的角度进行考察。作为样本数据,小数据是“残缺”的。就像尼采说抽象的概念是“干枯的标本”,样本数据和抽象概念的共同特点都是已经“失活”了。而大数据意味着活数据(动态数据)、全数据。
关于大数据的特征,最早是用3个V来概括的。几年前,人们认为“3V”不足以描述大数据的特征,又提出了“4V”的描述,即volume、variety、velocity和value。
“volume”一般理解为大量。大数据首先意味着数据量巨大。小数据时代主要由人工创建数据,大数据时代则由机器、网络和人类相互作用生成。大量是大数据的基本特征,但往往被误以为大数据就是大。事实上,这个特征所表达的是大数据规模的整全性。大数据的“大”不是纯粹量的概念,关键是全,是一个质的概念。
“variety”一般理解为多样。这包括大数据来源的多样性和类型的多样性,也包括数据结构的多样性。由于数据结构的多样性和复杂性,大数据的这一特征还意味着数据结构的开放性。举例来说,大自然可以满足人类的生存需要,但我们面对大自然时的作为很有限。而大数据不一样,在以人类需要为出发点的大数据挖掘中,人类可以在这一个无限空间中进行满足自己需要的创构。
“velocity”一般理解为高速。它不仅仅是指技术设备的数据处理速度,更重要的是指实时数据流。样本数据在取样后就是冻结的,而大数据可以实时获取所需信息。对于大数据来说,信息是活的,是随着时间而流动的。正因为如此,对于实时数据流来说,速率就特别重要。高速的数据流更能在时间上与现实过程同步,因而跟人类的生存更密切地联系在一起。不仅如此,只有高速流动的数据,才能提供无限的可能性。以往受速率限制,人们获得的数据和所要反映的内容往往是脱节的,而数据流的高速率使我们把握对象的手段越来越完善。
“value”用以描述大数据的价值。大数据价值特征的重要性不言自明,但大数据也十分复杂。据此有人提出,大数据的价值密度低,数据挖掘相当于“沙里淘金”。其实,对于同一个结构开放的大数据,一些人可能视其为一堆垃圾,毫无意义;而在另一些人看来则会是一座宝库,价值连城。大数据的价值和意义,很大程度上取决于人们的理解,取决于人们的眼光。归根结底,取决于对人的需要及其发展的理解和把握。
显然,这是一个典型的哲学课题。随着大数据的发展,不仅哲学等各学科会越来越相互融合,而且将迎来哲学与科学、社会和生活一体化发展的时代。
沃尔玛的两个案例,开启大数据应用广阔前景
大数据究竟是垃圾还是宝库,涉及的是大数据的应用问题。换句话说,既然大家都认为大数据是个好东西,是个有用的东西,那它到底该怎么使用呢?
就目前而言,大数据应用仍然是一个重要而前沿的话题。其中,大数据中的相关关系和因果关系,是大数据应用和分析研究中的重要问题。大数据凸显了相关关系的巨大魅力,同时也构成了对传统因果观念的冲击。
跨国零售企业沃尔玛“啤酒和尿布”的故事,就是人们津津乐道的大数据应用的一个经典案例。沃尔玛在大数据基础上,用“购物篮方法”分析消费者购物行为时发现,一些男性顾客在购买婴儿尿布时,常常会同时买几瓶啤酒。原来,美国家庭生了小孩,一般是母亲在家照顾孩子、父亲外出采购。而年轻父亲在购买尿布时,常常会顺便给自己买上几瓶啤酒,既解乏又喜庆。由此,沃尔玛推出啤酒和尿布摆在一起的促销方式,吸引了更多有这种需要的顾客前来购物,尿布和啤酒的销量都得到大幅增加。
大数据相关关系在类似行业的成功应用,使一些人提出还要不要深究因果关系的问题。一些极端的观点甚至认为,大数据是关于“是什么”而不是“为什么”的;大数据会自己说话,因而只要相关关系不要因果关系。这种观点显然是兴奋于大数据令人惊叹的实用性。但理性来看,大数据不仅把握相关关系,而且把握作为其根基的因果关系。
“蛋挞和手电筒”就是一个典型的例子。与“啤酒和尿布”案例一样,沃尔玛的大数据表明,很多人在买手电筒的同时还会购买蛋挞。因而,根据这一消费相关性,沃尔玛决定在货架上把这两种产品摆放在一起。但是,如果知道其背后的因果关系,相关销售效果显然会更好。有人发现,人们同时购买手电筒和蛋挞的因果关系涉及北美飓风。原来,飓风来临前人们既需要准备手电筒,又需要准备食物。不过,北美飓风是季节性风暴,如果只知道相关关系而不知道因果关系,就可能一直把手电筒和蛋挞这两类不同商品放在同一货架上。而知道背后的因果关系后,就可以在飓风来临前把蛋挞和手电筒放在一起,而且还可专设飓风用品区域。这样一来,销量显然会大为增加。
可见,只要相关关系、不要因果关系的观点,很容易驳倒。其实,真正关键的问题不在于是相关关系还是因果关系哪个更加重要,而在于怎么理解相关性和因果性之间的关系。
一般来说,传统因果观仅反映日常生活和经典物理学中因果关系的表观现象。这样的因果模型,不仅不能理解大数据的相关关系,而且不能建立起大数据相关关系和因果关系的关联。只有把原因看作因素相互作用的过程,把结果看作因素相互作用过程的效应,才能扩展对因果关系的理解,从而适用于大数据相关关系和因果关系问题的认识。由此建立起来的新因果模型具有内容丰富的结构,呈现出因果模型的过去时态、进行时态和未来时态。它不仅有利于人们理解凝固的因果关系,而且在人们面前敞开了创构未来的广阔空间。显然,这种新的因果关系与现实社会更加接近。
人类将更多与信息打交道,而不是传统的物能
如果把以往的文明形态都看作物能文明的话,那人类社会发展到大数据时代所迎来的,则是一种不同于物能文明的信息文明。作为一种与物能文明相平行的文明形态,信息文明是一种基于信息本性的共享文明。在大数据的基础上,信息的共享本性可以充分展开。
而且,信息文明的发展,是一个在大数据基础上的公共信息对称化过程。这就要求,为推动信息文明的发展,必须在公共领域尽可能消除信息不对称。同时,为保持信息文明发展的动力,必须尽可能保护创新专利。
作为一种人类文明,信息文明是一种基于信息机制的役物文明。在信息文明时代,人类通过信息控制物能,进而使物质通过结构的调整,由一种对人类不那么有价值的材料变成价值更大的材料,从一种不太能满足人的需要的形态变成一种更能满足人的需要的形态,使能量从难以利用的形态变成更容易获得和利用的形态。由此,人类活动更多是直接与信息打交道,而不是传统的与物能打交道。
作为人类文明发展的更高阶段,信息文明还是一种基于信息创构的人性文明。不仅对物能的控制达到全社会甚至全人类实现“物为人役”的水平,使人类活动从以描述认识为主进入到以创构认识为主,而且也意味着全面解放创造力,即人性获得越来越高水平的解放。
大数据打开了信息文明大门,也将释放一系列新的重要问题。这些重大的问题,既涉及个人生活,也涉及社会发展。
一是信息生态问题。由于人越来越以信息方式存在,信息生态理所当然成为一个越来越重要的基础性问题。对人类来说,自然生态或者说物能生态具有切身性,而信息生态不仅具有切身性还更具“切心性”,更切近人的心灵。因此,在自然生态的基础上,信息生态将日益为人所密切关注,成为信息文明时代关乎人类发展的问题。
二是人的存在意义问题。没有物能就没有信息的存在,物能存在是基础。但在信息文明时代,如果一个人仍然主要以物能方式存在,仍然以基于物能的感官享受作为生活意义的主要来源,仍然主要滞留于物能存在方式,那很可能将成为无意义的人群。
在信息文明时代,人类的活动主要是信息活动。只有主要以信息方式存在,并且以创构活动作为自己主要活动方式的人,才能进入意义生产的领域。在这个意义上,信息文明的确意味着一种分化:相对无意义的人群和生产意义的人群。这很可能是信息文明时代发展的必然趋势。对此,人类社会应当提前进行思考,即如何避免新的社会不公平的出现。
三是国家的发展问题。从人类社会发展史可以看到这样一个重要事实:一个大国的真正崛起,通常要引领一种新的文明。信息文明时代的到来,必定伴随着大国的新崛起,不管是现实的还是潜在的大国。在21世纪,中国要和平发展、成为真正的世界大国,有必要在引领信息文明上发力。
总之,如果不能够引领信息文明发展,一个国家就不可能真正实现大国崛起。在这个过程中,国家的兴衰与个人的生存发展不仅联系在一起,而且构成相互依存、协同发展的循环。
作者:王天恩 上海大学社会科学学部教授,美国罗格斯大学和佐治亚理工学院高级访问学者,主要研究领域为马克思主义哲学时代化。在 《中国社会科学》《哲学研究》 发表多篇学术论文和文章。著有《理性之翼》《在过去和未来之间》《微观认识论导论》《历史的逻辑》等专著。主持多项国家社科基金课题,本演讲为国家社科基金重点项目“大数据相关关系和因果关系研究”(17AZX003)的阶段性成果。