在德国队7:1大胜巴西之前,德国足球俱乐部在日常训练中引入大数据的例子是涂子沛在演讲时常讲的内容。在德国队捧得大力神杯之后,这个例子还会在涂子沛的讲座中更多地出现。
涂子沛,是数据工作者,也是畅销书《大数据》的作者。今年5月,他的新书《数据之巅》上市。“大数据不只是科技问题,已经涉及社会管理等各个方面,这本新书的初衷是想把大数据这个现象放在历史的纵轴上、通过国际对比,把它分析透。”涂子沛对中国科技网说,他希望能够通过历史的比对,找出中国的优势在哪里、差距在哪里,以及下一步该怎么做。
美国的数据文化是如何形成的
美国的数据文化对历史发展潜移默化的影响作用是《数据之巅》的一条主线。从美国建国之初,人口普查就在美国的制度建设上起到了重要作用;在南北战争时期,人口普查的结果也直接影响了战争的发展;《纸牌屋》之前,1930年代好莱坞就在用统计结果来决定剧本及主角人选……
“人口普查一直都是驱动美国社会大数据发展的一条主线,世界上第一台商业计算机也是为美国人口普查服务的。但这些历史从来没有很系统地分析和介绍到中国来。”涂子沛说。为了完成写作,涂子沛把美国的人口统计史、农业统计史、工业统计史全看了一遍。有人评价说,涂子沛是从用数据重写了美国历史。
利用网络、书籍和档案3个渠道,涂子沛在美国找所需的材料并不困难。“公共图书馆是免费开放,需要的小众图书在亚马逊上也能够买到,它有二手书的交易平台。”在搜集材料的过程中也这位大数据专家感受到了中美在数据文化方面的差距,“我们的历史资料数字化和美国相比存在差距,而大数据需要的是电子化的数据。”
日本可以,中国为什么不可以
《数据之巅》虽是以美国为主体,但全书中最让涂子沛感动的却是书中日本如何在二战后快速崛起的部分——日本企业在战后在美国“质量管理之父”爱德华兹·戴明的帮助下应用统计方法改善全面提升了产品质量,并在短时间内创造了经济奇迹。
豆瓣上有读者评论说,看到这章时“眼泪哗哗的”,而这个部分涂子沛是也留着眼泪写完的。为了把这章写完,涂子沛查阅了几乎所有关于戴明的传记,他联系了每个传记作者,甚至电话联系了戴明的女儿,向她查证一些历史旧事。
“我写这个故事的时候,我想了很多,我想我们应该想一想,问一问,日本行,中国为什么不行。”涂子沛认为,日本15年崛起,有两个答案,一是用好数据,二是他们的学习的精神,这也是最关键的。“要承认自己不行,正心诚意的想西方学。中国近代史的几百年,一直拒绝西方文明,普世价值具有普世性,不能拒绝。”
书中第五章开头,涂子沛引用了陈独秀的话,“吾敢断言曰:伦理的觉悟,为吾民最后觉悟之最后觉悟。”陈的意思是, 中国不仅要学科技、还要学制度、最后要学伦理。”
希望影响政策决策者和企业管理者
第一本书《大数据》,涂子沛兼职写了8个月,而《数据之巅》,辞去工作的涂子沛用了整整8个月的时间。“大数据很新、很热、很重要,我感觉有义务、有一种使命感要把这个话题在中国社会说清楚。《数据之巅》在战略和顶层设计的层面上为大数据的建设提供了思路、指出了我们的差距。”涂子沛希望这本书能够影响政策的决策者和企业管理者。
涂子沛为“之巅”设计了三层含义。第一层含义是政策维度,大数据是人为的现象,因此建设好需要顶层设计。第二个含义是技术维度,使用数据的巅峰的形式是什么?是让机器自动的处理数据使用数据,迈向智能社会。第三层是文化维度,是站在数据的巅峰,看数据是如何兴起的。
“科技符号转化为文化符号是这本书的使命,科技符号是精英的符号,是小众的符号,文化符号是大众的符号,要让数据这个小众的符号变成大众的符号,要让数据的文化的意识,要根植到大众的意识中,让大家都来使用数据,用数据说话,用数据决策、用数据管理。”涂子沛说。
问答精选
问:搜集数据和分析数据哪一更困难?
答:两个都难,只是难点在不同的地方,搜集数据需要的是广度、分析数据需要的是深度、精度。搜集数据更花时间。好比写作,要用一桶水,就要有10桶水,很多时候,海量的材料中,真正有用的只有一句话。
问:下一本书写什么?
答:下一本书要承接《数据之巅》的话题,大数据未来会推动我们的社会迈向智能社会,我会写中国和美国在迈进智能社会中的种种挑战,以及如何应对,将从政策、经济、文化这3个维度上来分析这个问题。
问:国内的大数据还有哪些比较欠缺的地方?
答:使用数据的意识、分析数据的工具、开放数据的理念,这些都是比较欠缺的。我们还没有用数据说话的习惯,我的第一本书,说我们是“差不多民族”,我们的民族讲究含蓄,不求精确,我们的逻辑性、精确性、理性思考的水平都偏低,这都是缺乏数据文化的表现。数据文化首先是尊重事实,其次是追求精确。数据是事实中最尖锐、最精确的事实,你用文字描写的事实,就是没有用数据描写的精确,再次是推崇逻辑和理性。
问:影响中国大数据应该的问题有哪些,如何化解
答:企业基于数据的投资有几个特点,首先,这种投资有不确定性,回报的不确定性。我们经常讲啤酒和尿布的例子,但我们在投资的时候不确定能获得这样的结论,想大海寻宝一样,让管理者犹豫要不要投资。第二,就是基于数据的回报是分散的,分散在企业的各个环节,很难计算他的回报。分散性和不确定性导致了企业在投资时犹豫。此外,数据化的管理是基于精细化管理,我们缺乏数据文化,一个原因是我们的社会还比较粗放,还没到精细化竞争的阶段,但我们在逐渐迈入这个阶段,西方已经进入了这个阶段。
问:对于大数据的发展有没有担忧
答:会有担心,第一个是隐私。第二,常常越精确的东西就越脆弱,我们的数据都存储在云中,一旦计算机停止运行了,那我们的城市也会停止运行。人犯错是个错误,计算机犯错那就是个灾难。人对机器的依赖越来越严重、人机共生的关系越来越明显、人对手机的使用到底是提高了效率,还是降低里效率?这些问题,会引导我们去向哪里,我们还说不清楚,需要更多的研究。
问:对美联社利用机器自动写稿怎么看
答:这是人工智能在新闻媒体的应用,也是我下一本书探讨的问题,因为人工智能的应该越来越多的岗位要被机器取代。但以后还是一定需要记者的,人工智能完成的是一个最基本的工作,到时候会更需要优秀的记者。它替代的是最平庸的,最简单的,重复性最多的工作,这意味着记者的总群体将会收缩。