11月24日,在北京万寿宾馆举办的2016年中国智慧政府发展年会,政府大数据与数据开放论坛上,中国信息协会副会长胡小明以“为电子政务服务的大数据”为题发表了精彩演讲。
中国信息协会副会长 胡小明
非常感谢大家能够参加今天的会,我原来认为下午我做第一个发言,首先是帮助大家适当的休息一下,因为刚吃完饭需要消化。但是我看大家的积极性对我也是一个鼓励,所以我也希望能够跟大家做一次交流。
关于政府电子政务服务的大数据,我们在这里因为大数据太热了。我觉得这里面有风险,希望我们在研究大数据的时候,我们不要被大数据热冲昏头脑。所以应该把这个问题想清楚,哪些是可以解决的,哪些是不能解决的。
平常心对待大数据
第一是要以平常心对待大数据,在宣传热的情况下,我们发现我们更多讲的是大数据的技术、大数据的手段改进。而对大数据的实际应用,仔细来看真正的例子还是少的。我们讲数据挖掘,讲这么多年之后,讲数据挖掘还是啤酒尿布,这说明问题呢?说明在应用领域和技术领域这两者差距还是非常大的。
而现在我们需要的从实际当中来考虑这个问题,我觉得大数据有点被惯坏了。目前大家都在说成立大数据机构,申请大数据经费。但是从大数据实际应用来看,我觉得我们并不是很明确。到底解决什么事情,它能不能做呢?还有很多问题,我觉得大数据从我看来,它只是一个工具。它永远是我们要做目标的仆人。希望大数据的发展和应用,不要走信息资源共享的路,信息资源共享喊了很多年。从国新办的17号文开始到现在已经搞了十五年了。但是在信息资源共享方面到底有多大的进步能说出来,我认为一直没有做好,也没有说出太多东西。当然这里面的原因是非常多的,为什么会这样呢?我觉得有一个非常重要的原因,就是我们把数据资源共享的能力和效果想的太高了,我们以为它能够解决多少问题,实际上它并不能解决那么多问题。
随着社会数据资源的增加,信息共享手段的增加,政府那点数据共享它能所做的贡献是越来越少的。并不是所有的信息共享都是有用的,可以说多数的信息共享并不是很方便。而且他们的成本效益并不都是正的,在这种情况下,你要求全面的信息共享肯定是失败的,正确的做法应该是仔细挑选,可能十项里面只有一两项是好的,你有什么必要推全面的信息共享呢?所以集中精力来做真正有效率的事情,这才是我们该做的。所以说在大数据方面来讲,我们一定要以目标位中心,以平常心来对待大数据。以目标位中心就是不是所有的大数据都是有用的,可以说大部分的大数据都是没有用的,真正有用的东西是少部分的,你必须把有用的挑出来。当你想解决什么问题的时候,这时候你再谈大数据,我认为是有价值的。当你的问题还不清楚想用大数据的时候,我认为这完全是错的,它根本没有用。因为数据资源是不缺的,数据也可以是垃圾。最缺的是你的目标,你到底想干什么,现在我们最大的问题是我们想干什么不清楚,所以我觉得这是一个很大的问题。
目前我们对大数据概念,大家讲的都是不一致的,讲的都不清楚。对于政府的官员来讲,他认为我的政府数据很多,我只要把数据合起来就是大数据。因此他认为他的一切数据都是大数据,你整合起来就多了。为什么会有这种想法呢?有很多的原因,其中一个原因你挂上大数据能够申请经费,能够得到重视,能够符合潮流。如果你没有挂上大数据,你是小数据的整合。所以这个问题也是一个因素,但是这些问题都不重要,最重要的到底什么能解决问题,这是最重要的。
另一个方面来说,我们现在看的大数据,大部分是基本大数据的概念,是从互联网公司来的。互联网公司它有了很高的技术,它能够利用起来大数据。因此这个概念基本上是由互联网巨头决定的,过去也有预测、石油勘探它也是一堆数据,但是都不说它是大数据。互联网出来之后它创造了一种经济,也就是说一个名词,一个概念的出现是和应用结合起来,应用可能带来有效的东西。它就是来自互联网大数据的概念,而政府大数据它基本的概念还是传统的,这两个是不一样的,所以政府大数据整合,并不是我们现在所讲的大数据数据。而是我们传统的数据整合、数据处理、数据分析,它是传统的技术。所以这两个技术是不一样的,它们的概念不一样。
传感器大数据
然后是传感器大数据,为什么?因为我们技术的发展出现了非常多的传感器,而这些传感器,它收集的数据是非常多的,这种数据用在什么地方呢?用于人工智能。比如说无人驾驶汽车以及机器人等等这样的技术,他们也用这个技术。但是这个技术多不多,量大不大,我觉得不是最大。它最重要的特点是什么呢?就是数据处理的过程当中没有人的干预,它是自动化的,所以它们属于人工智能这方面的大数据。
当我们在分析这个问题的时候,我们要关注一下当前你想解决什么问题,其实对不同地区是不一样的。比如说互联网和传感器大数据,什么工业4.0类似这些东西都跟这些有关,对于政府改善服务,它最主要的是整合大数据,这个大数据主要还是在传统的数据范围内,他们需要的技术是不一样的。
对于政府来讲,最重要的东西经常是最简单的,永远是这样,重要的都是简单的。如果它不简单,它就不会重要,重要的都是简单的。我们现有的数据改善服务,这种服务全部都是在大大数据范围内,只是我们说大数据,但是从技术来讲他们都是传统的技术使用和改进。互联网数据也可以来做,但是它并不会在政府工作改进上占据主要的位置,因此对于我们政府的工作来讲,核心的问题是小数据整合最重要,这才是最重要的。
互联网大数据改进是专业部门做的,传感器大数据用于工业智能,用于人工智能改进,建立各种各样的智能系统,它们是有用的。
大数据不适合大决策
下面我再讲一下大数据并不适合于大决策,大家都知道小数据适合大决策,原因是什么呢?当我们的数据量太多的时候,毕竟你关注的范围要窄,你关注的范围窄,你的量才能大,才能深,这么以来你对问题的看法和视角都狭窄。我们处理大决策的问题它需要广阔的视角。对于具体的问题来讲,大数据适合于解决小问题。
另外,很多问题是没有办法依靠大数据的,比如说国际形势发生了变化,现在网上经常在讨论说希拉里和川普他们俩谁上台,他们俩上台政策不一样,你该怎么处理,对世界经济影响也不一样。像这样的问题你能不能用大数据来分析,我觉得是不可能的。但是绝不可能分析出他们的政策会带来什么样的改变,因为这些东西来讲是未来的东西。比如说经济发展美国十几年前的9.11事件,出了很多问题,而这些问题对中国经济发展是有利的,为什么?因为把美国搞乱了,中国有很多的机会。这样重大的政策反而不是大数据能够搞出来的,原因是什么呢?当你数据量太大的时候,你的视野不一定狭窄,如果你的视野宽阔你的数据量并不那么多。所以正因为这个原因,我们要想清楚。
高层决策最主要是靠全面信息,而不是狭窄的数据。我谈了大数据的服务问题,因为我现在在深圳,我帮他们来讨论一些问题,他们总觉得政府的数据资源非常多。我要打通把数据整合,然后我就可以分出来很多东西来支持政府,这是它的一种基本思想。但是这种基本思想一般来说是不行的,为什么?政府的数据实际上一点也不多,总说政府资源占90%,那些都是三十年前的概念,因为那时候没有互联网。现在互联网巨头不比政府的数据多十倍、百倍、千倍。而且政府的数据主要来自于人工调查,人工调查的效率和机器识别的数据是不一样的。所以政府的数据是很少的,你可以把它集合起来解决问题。但是你不是需要靠大数据来分析,而是靠转动的数据分析,来挖掘政府数据的潜能,所以这个很重要。
在这种情况下,如果政府把所有的数据都整合了,然后等着你去打通,去分析出结果,这样行吗?政府信息资源虽然没有开放,但是没有不透风的墙,政府信息代表的东西都会通过各种各样的渠道传递出去,包括我们的手机、聊天、谈话等等。所以在这种情况下,你想有一个非常重大的发现出来是不容易的。
如果你能够发现这些重大信息,你这些能力如何给政府提供。实际上我们提出的东西对政府的官员来讲你的东西是小儿科,是外行。你要依赖大数据政府是不放心的。在这种情况下,你把各种各样的数据整合起来,让它变成一个可视化的服务这反而是有效的。一个可视化的服务队政府官员来讲是很欢迎的,就像我们天天都要看天气预报。我们看天气预报一个月几次台风,可视化数据能够迅速的一眼能够对整体有一个改观。所以说对于政府领导来讲,你提供一个可视化的图,包括云图和变化图。
人工智能发展的过程当中,也是有一个进程的。在六七十年代,当时人工智能非常火,搞来搞去做不下去了。后来人们也做机器发现做来做去也做不下去了,什么时候开始这轮又起来了,核心是它把人工智能改成了大数据,改成了数据学习。实际上里面包含的信息,比如说机器翻译,以前我也见国际歌搞翻译的人,那时候的思想是造型和理解的角度来翻译,现在发现越来越做不下去的。现在的翻译是怎么做的,上一句话是这个,下一句话是那个,什么概率最高用那个,别的东西不管。哪个词出现的频率最高就用哪个,现在我们发现我们的软件越来越快,就是一般打这个字,下个字什么概率最高就提出来,这样对你加快速度就更容易了。
智能化的城市也和我们的大数据应用紧密的结合起来,它这种应用和我们决策的应用是不一样的。实际上数据有两种情况,一个是用在人工智能领域,它应用的系统是自动化的,而提出来之后机器自己来用,因为计算机本身你别看它总是数据,但是它一点都不懂信息,它脑子里面只有数据的概念,它碰到数据算概率,没有别的概率。但是人决策不一样,它会把所有的数据拿过来看一遍、想一遍,这两个用途是不一样的。所以说机器使用大数据和人来使用大数据它是两种不同的使用方式,你会知道为什么人使用大数据结果是不确定的,机器数据是死的。
当我们在研究大数据的时候,一定要从应用出发,而不能从资源出发。一个数据,它是资源,还是垃圾,我们不要认为所有的数据都是资源。因为资源和垃圾它俩没有区别,资源就是垃圾,垃圾就是资源,完全取决于不同的人在这里看,资源和垃圾本身上是一样的,就好像你想删掉就删掉,你删掉的就是垃圾,你不删掉的就是资源,所以垃圾和资源是同一个东西。我们如何区分,它判断标准就是对人工的帮助,所以这就是要注意的事情,我们不能从资源出发,现在我觉得在全国各地处理推广大数据的时候有一个观点我是非常怀疑的,各地做的顶层设计里面。你到底是解决什么问题,你先把数据收集过来。
大数据的发展要在应用中成长,而不是在大楼中成长,这是什么大数据呢?实际上你发现有很多大数据确实可以解决问题,它还需要长期不断的积累,不断的改进。因此有效的大数据你不断的维护它和改进它,它在应用中成长,而不是在你的大楼中成长。
所以如果你没有想清楚做什么,你的大数据组织是非常危险的,它会浪费你很多的资源。你搞一堆垃圾,你还想升官,那样肯定不行,因此你不能这么做,你要挑出来有用的东西,在应用中不断改进,也许它所用到的数据,只是几十分之一就可以了。我的数据卖给你,当时我想卖一点钱,他说我不要,我说你为什么不要,他说我要等我的用户,我的用户咨询到哪一个我买哪一个,宁可贵一点我也要,我不要你们企业的数据,他用的是这样来想的。
在这样的情况下,我们就需要在大数据当中我们要进步,对高层的服务和对基层的服务是不一样的。政府的数据整合最重要的是基层的服务,整合的数据对基层的服务有用,对高层的服务它要了解外体和整体,它并不需要精确的数据。所以我们要把精确的数据送到前线,什么是前线呢?直接为公众服务的,他知道这家是困难户,这家收入多少。然后把整体的趋势可视化的图形送领导,这样领导一眼就知道大概的趋势,这样的话才会更有效。
我们要以解决问题为中心,真正能解决问题的东西不见得数据量大才是能解决问题的。
我举一个例子,美国友一家公司,这个公司花钱花的太多,每一个公司都超预算非常头疼,于是派了一位领导解决这个问题。一开始把帐单都打出来看看有什么不合格,后来计算机打出来他根本没有办法看,谁浪费最多,排第一,每次超支最多的,每个月发一份,然后他就不管了,各个部门都怕自己的排名表靠前,于是很快就把这个问题解决了。解决这个问题并不是靠大数据分析来解决的,而是靠排名表解决的,所以说很多问题要以解决问题为中心,大数据并不是唯一的工具。
大数据被政府惯坏了,只会花钱不会干活了。所以我们要先整合好小数据,所以数据的应用应当始于足下,而不要让大数据误导,这是我讲的一些想法,谢谢大家。