涂子沛在接受共识网专访
嘉宾简介:涂子沛,信息技术从业者,多家报刊网站专栏作家,华南理工大学公共政策研究院副教授。曾在国内的公共部门和信息领域工作十年,后辞去公职赴美读书,获卡内基梅隆大学信息技术科学硕士、公共管理硕士学位。新著有《大数据:正在到来的数据革命》一书,已由广西师范大学出版社出版。
访谈时间:2012年7月2日下午
访谈地点:广西师范大学出版社(北京贝贝特出版顾问有限公司)
一、大数据:正在到来的数据革命
杨传银:您写《大数据:正在到来的数据革命》这本书的初衷在哪里?您说这不是一本纯粹谈技术的书,而是以技术为背景探讨人和社会的关系的书,这个观察和写作的角度是从什么时候开始建立的?
涂子沛:这本书应该说是时代浪潮的一个产物。我是理工科出身,大学毕业后我的第一份工作就是数据库程序员。十几年之后,我在美国的第一份工作是数据仓库程序员,从数据库变成了数据仓库,这也是我们从小数据时代进入大数据时代的明证。但更巧的是,十几年前,我在中国为政府部门开发数据管理的软件,现在在美国的工作,恰恰又是为美国的政府部门提供数据管理、分析的解决方案。这是一种“轮回”、也是一种“上升”,这种经历让我找到了一个很好的角度来观察、体验、分析两个不同国家如何解决、处理一个相同的问题。无疑,中国在数据收集、使用和管理的各个方面,和美国相比都存在差距。但我发现,最大的差距还是意识和态度。我们的传统文化,长期重定性、轻定量;重观点、轻数据。在现实生活中,数据也往往成为一个任人打扮的小姑娘,得不到应有的尊重,数据的公信力严重不足。但正在到来的大数据时代,数据的作用将前所未有的凸显,数据将成为国家竞争的前沿、企业创新的来源。这些传统和现实的不足,是我们中国社会迈进大数据时代的制约和障碍,我们应该如何应对?对这个问题的思考,催生了这本书。
这本书首先是一本信息时代的科普读本。但我想写的,不仅仅是一本科普书。1997年,我在广东省边防局开发“反偷渡信息管理系统”的软件,那时候我就明白了,要编好一个程序,就必须是商务过程的专家。其实,技术工作永远是从业务中来、到业务中去的,技术归根到底是为人和社会服务的。这个时代,我们好比身处一列快速奔驰的列车,技术就是它的发动机,我觉得幸运的是,作为信息技术的从业者,我在这台发动机的核心部件上工作过,程序员把自己对业务的理解、自己的理念转化为软件,来改造世界。但这不够,因为发动机再强大、程序员再能干也不够,火车要开到哪里去,是政治家、企业家在掌舵把航的。
基于这些体会,我努力尝试在这本书中融合技术、政治、商业三个方面的视角。而且,这本书谈的是“数据革命”,我想任何一种革命,首先都是社会层面的事。
二、大数据时代会使不理性的人更不理性
杨传银:大数据时代有没有可能使不理性的人更不理性呢?
涂子沛:有可能。这是我下一本书计划要讨论的内容。下一本书,我想探讨大数据时代潜在的弊端。这个时代,是个数据奔流的时代,信息无处不在。一个信息开放社会给不理性的人带来的问题是,可能导致他“信息过度窄化”,例如,信息开放的时候,一个偏激的人更容易找到同类,然后放大异常,会变得更加偏激,而在一个信息流动没那么快、相对封闭的时代,偏激的人像是一个“孤岛”,他更有可能会怀疑自己。仔细观察信息时代中的人的境况,你会发现知识水平越高的人往往越顽固,这是因为他更知道怎么去获得支持自己的信息、形成自己的气场。
三、数据开放的界限
杨传银:在数据开放的过程中,政府、公司和个人可能是不一样的,这个数据开放的界限在哪里?
涂子沛:目前,数据开放已经形成了一股潮流。在各个国家数据开放的实践中,基本形成了两个界限,第一就是不危及国家安全,第二是不能侵犯公民隐私。当然,对商业组织来说,还要顾及它的商业利益。
在这几个界限之外的数据,都应该开放,而且是免费开放,其中的道理也很简单,政府收集了数据,用的是纳税人的钱、收集的也是关于纳税人的数据,自然要向纳税人开放。你不能用我的钳子、拨了我的毛,再卖给我收钱,对不对?英国社会这方面的步子迈得比美国还大,一个新的名词:公民数据权,也应运而生了。这是公共领域,商业领域,数据开放也是一个大的趋势,我们也能看到各种各样的商业数据正在走向开放。
对个人来说,关键在于要有能力、渠道、权利去管理和自己身份相关的信息,你可以决定什么时候公开,以及用什么方式公开和自己相关的数据和信息。换言之,你个人对自己的数据必须要有控制权。因为这关系到你的隐私权。
四、中国人有不尊重数据的传统
杨传银:现在国内对数据的重视您关注得多吗?据说国内可能是对内做统计,但是对外创造数据。
涂子沛:我很关注,但总的情况是,不尽人意。我在书中详细阐述了,中国人缺乏尊重数据的传统。我们现在好一些,认识到了数据的重要性,但还是有很多问题,集中表现在,数据普遍缺乏公信力。发布数据,是一件很严肃的工作,我在书中曾经提到,2000年美国国会甚至专门通过了《数据质量法》来确保政府发布数据的质量。这个法律规定,政府发布的数据,其产生方法必须是透明的,也就是说,要说清楚,数据怎么来的,每一个数据,都有要有“出生证”,说明其产生的方法,这样做了,这个数据就是可以“复制”的,这意味着,个人可以通过同样的方法,获得和政府同样的数据和结论。美国的这些经验,我认为,是值得我们借鉴的。
此外,我们还要回到刚刚谈到的开放数据,一个数据是孤立的、难分对错,一片数据才可以互相支持、互证真相,所以,要提高数据的公信力,最好的办法就是开放数据、让老百姓获得一个数据背后的一片数据。
我们社会常见的利用数据弄虚作假的问题,可以总结为几个方面:一是一叶障目,片面解释一个数据,这其中也可能是别有用心、故意为之;二是人为的控制数据的收集和统计过程,使结果产生扭曲和偏差;三是暗箱操作、修改数据;最后就是无中生有、“创造”数据了,这是最糟糕的,因为假数据比没数据对社会的危害还要大。