在社会转型的紧要关头,中国,作为正在赶超发达国家的发展中国家,被历史赋予前所未有的机遇。
这是涂子沛在其新着《数据之巅》中的一段话。涂子沛是全球知名信息管理专家,他所认为的"中国机遇",指的是大数据。
2012年,《大数据》一书将大数据概念由专业性领域推向了公共话语空间,时任广东省委书记汪洋曾经向省里从事财政工作的干部推荐此书。"大数据"这个带有技术性的词汇,也逐渐被普通读者所了解,作者涂子沛被业界称为中国大数据概念的首要推动人。
涂子沛认为,伴随智能社会的到来,地平线上正在出现一些新的方法来解决一些老问题,这些方法不是钢筋和水泥,而是软件和数据。中国应该增强数据的记录和使用意识,把握并充分利用好这一后发优势。
当前,中国大数据发展到了什么阶段?具备哪些优势?如何应对挑战?本刊记者就此对话涂子沛。
大数据不只是"量"大
在中国,大数据被广泛热议至今已过两年,其受关注度不断上升,涂子沛多次应企业及政府部门的邀请作演讲。他曾表示,大数据项目5年内会在中国遍地开花,现阶段正逐渐步入应用领域。
《支点》:在您的印象中,大数据概念从最初传入中国至今,业界以及舆论界发生了哪些变化?
涂子沛:2012年,国内对于大数据的讨论非常少,我的《大数据》一书在国内首先倡导这个概念,引起了社会关注。2013年,大数据开始频频见诸报端,我自己也接到多场讲座邀请,我能够感受到中国社会对新技术和新理念的渴望。现在,大家都在谈大数据,知识传播很快,还出现了很多关于大数据的应用。最近,上海市筹划建立大数据管理局,表示要开放数据,这些都是很好的现象。
《支点》:不论是从概念普及还是从应用层面,您认为大数据在中国目前处于什么阶段?
涂子沛:技术发展有一个过程,先是普及,热了一段时间后会冷却,然后进入应用的瓶颈期,继而在应用层面突破之后,又会进入一个新的阶段。中国社会关于大数据的概念普及阶段已经完成,例如对于"大数据并不是万能的"这样的讨论也不时出现,这是冷却的标志,标志着我们要开始进入应用层面。
不过关于概念普及需要强调的是,由于大数据本身带有技术特性,白领精英可能认识得深刻些,对于最广大的普通公民来说,大数据概念可能还停留在词语的层面,是被动认知,而不是主动获取的。我在《数据之巅》中也提到,大数据的建设需要顶层设计,自上而下地进行。对政府官员来说,从认识层面就应该知道决策需要数据,管理需要数据,一切从数据出发。
《支点》:大数据的"大"如何理解?比较而言,和之前的数据挖掘与分析在商业中的应用有什么不同?
涂子沛:要知道,我们原来所说的数据大是指数据量大,是有很多很多数据,但大数据不只是"量"大,还包括多源数据、实时数据等。但最根本的,还是这种数据体现出来的大的价值。
多源数据是对同一个事情有多个源头的数据进行多个维度的描述。举个例子,北京师范大学有一位女孩,吃饭时用的钱很少,校方通过数据挖掘认为她有经济困难,但实际上这个女孩在减肥。所以,我们需要多个源头的数据互相印证,这样就不会出现类似美丽的误会。再如一个人的信用,交不交水电费、银行贷款有没有还,这些数据都来自不同部门,如果汇集起来,分析的对象就会更立体,更接近真相。
实时数据也很好理解,因为以前很多数据是滞后的,时效性不强,数据的效用就大打折扣。现在技术上有很好的手段,马上就能够把数据记录下来并拿出来用。从这个角度上看,大数据不仅是量大,而且还多源且实时。正因于此,大数据才有大的价值,才可以用以解决越来越多的问题。
变革商业和社会
从粗放型经济到集约型经济,再到精细型经济,数据的力量逐步彰显,它不仅升级了传统商业模式,同时也在助力更智慧的社会管理。在涂子沛看来,大数据不仅仅是技术现象,而且能够带来商业变革和社会变革。
《支点》: 在您看来,何种机构有数据资产?政府和企业的数据资产分别可以用来做什么?
涂子沛:所有的机构,包括个人,都有数据,但很多数据是死的。所谓死的数据,例如纸张上的数据,没有电子化,就难以整合、挖掘和应用,利用价值不大。
今天的电商,他们因身处互联网时代而占据天然优势,从商业活动的第一天起就开始数据累积,拥有大量的数据资产。以新媒体为例,他们的数据量是极大的,例如视频、图片、文档等,都累积了丰富的数据。
不过,我们在谈大数据的时候,一定不能过多强调"数据量"。比如,传统银行业、保险业的数据量都很大,只是他们普遍还没有把数据利用好。这里有很多原因,比如它们长期是高利润行业,并没有驱动力让他们意识到要把数据用好。
事实上,数据使用是基于精细化竞争带来的结果,现在西方社会已慢慢进入到精细化竞争阶段。虽然我们的经济发展仍是粗放模式,但可以看到,现在很多企业已开始强调精准营销和数据分析,这是个好现象。
《支点》:大数据如何升级商业模式?请您举例说明。
涂子沛:首先,数据本身变成商品,就需要买卖和交换,这是数据拥有权和使用权的转换。我在2012年就提到,淘宝、阿里巴巴的数据,是可以对外开放的,以收取年费的形式提供给有需要的人使用。这种形式在美国已经比较成熟了,商家将数据开放给第三方使用。比如一个小企业想贷款,它需要证明自己的收益很好,收发快递的多少可以从侧面证明其收益情况,它可以授权银行去美国的UPS(注:美国一家全球性的快递公司)查询它收发快递的数据记录,那么银行就可以到UPS去查,但银行需要付费, 这时候数据和使用权就产生了经济价值,新的商业模式就出现了。
《支点》:据您了解,国外对于大数据的应用在哪些领域更为显着?中美发展的差距在哪里?
涂子沛:大家知道,很多国家都已经将大数据发展上升到国家战略层面,例如美国在2012年就提出了大数据战略。目前在中国,虽然广东、上海等部分省市已经在大数据方面有所行动,但整体来看还没有太大的动作,这应该是政策层面的差距。
在科技水平方面,目前中国使用的数据分析软件很多来自于国外,国产的并不多,例如在数据可视化方面,中国就还没有一个成熟的国有品牌。
社会应用方面也存在差距。国内以前不太注重数据记录,也不太注意使用数据,没有把数据真正当作决策依据,而是认为符合自己利益的时候,才拿出来用。对大数据来说,是把它当作服务于决策的工具,还是把它当作决策的基础和依据,两者的内涵完全不一样。
法律完善双刃剑
2013年,美国棱镜门事件刺激了全球数据安全的神经。对于许多个人来说,亦开始有消费者逐渐厌倦其消费信息的"被挖掘"。信息技术的发展的确极大降低了信息存储成本,个人的点滴信息随处都留有痕迹,形成数据影子。人们在享受技术带来便利的同时,也开始感到莫大的恐慌,究竟是谁动了我的数据?
《支点》:有一种观点认为,大数据概念在某种程度上被神话,数据的质量和不开放都将成为其发展瓶颈,您如何评价?
涂子沛:我一直在做数据开放的推动工作,倡导政府开放数据。政府数据是整个社会的基础数据,例如人口数据、天气数据、地理数据等都是最基本的信息来源,政府应该拿出来开放给整个社会使用。开放数据不仅是政府要做的工作,商业机构也应开放他们的数据,有选择地向用户开放,例如之前说到用户利用消息记录去分析自身的消费行为。
数据记录了人的行为,利用数据记录就可以进行行为分析,从而可以优化消费行为,甚至包括饮食结构,例如我上个月的卡路里是不是太高了等等。你需要把这些信息提交给专家分析,这自然就催生了第三方机构。但这个过程还需要法律的完善,也就是说数据在什么情况下可以开放,哪些数据不能开放等。
《支点》:在这个过程中,如何在数据使用和隐私权的保护上达到平衡呢?
涂子沛:这是一个双刃剑。公司收集你的行为数据,因此可以给你推送你需要的产品,你能从中得到好处,但同时你的隐私遭到侵犯,该怎么办?最后的演变一定是商家要把这个权利交给用户,让用户来选择全部关闭还是接受对你的数据进行分析?如果用户有选择权,在他同意后,商家才能对用户数据进行分析。这需要商家对用户的尊重和自觉,但商家要追求利益,尊重和自觉不会从天而降,大家要对他们说"不"。 只有推动立法者立法,才能根本解决这个问题。
《支点》:无可否认,大数据时代带来了新的发展机遇,您认为中国现阶段需要怎样做才能抓住机遇?
涂子沛:数据正变得越来越丰富。如何统筹整合这些数据,对每一个国家都是考验。面对海量数据,我们需要制定数据标准,需要建立数据治理的部门,有了标准和部门,才能对数据进行有效统筹。遗憾的是,我们的政府还没有很好地做数据统筹工作,数据仍处于相对隔离状态。
其实,在利用大数据方面,中国具有很好的后发优势。举个例子,美国用了几十年的努力,才建立了全民信用制度。今天,因为客户的交易流水数据,阿里巴巴在短短几分钟内就可以决定是否发放一笔贷款。充分利用无处不在的数据,中国的全民信用体系就可能在较短时间内以较小成本建立起来。
问题的关键还是要做好顶层设计,例如需要建立一个数据治理部门,来统筹制定各行各业的数据标准。