本文为国家信息中心原副主任胡小明授权发布。
原标题:政府数据整合问题研究
NO1数据应用存在的问题
信息共享的效益难题
国内电子政务建设一直强调信息共享,十五年后还在强调信息共享,只能说明信息共享建设始终缺乏成效,使我们不得不考虑是目标有误还是路径不对。电子政务建设的成绩大都集中在政府业务处理自动化方面而非信息共享,只有理清信息共享的效益难题,数据整合才能避免重蹈覆辙。
信息共享迷信导致了思维停滞
缺少质疑精神使信息共享反省始终不到位,长期过度的宣传使人不敢对信息化常识有一点怀疑,信息共享已成为一种迷信,在信息资源稀缺时代强调信息共享尚有一定道理,但在全球信息爆炸之后还持同样的看法就不合理了,只强调增加数据的信息共享只能使资料过剩愈加严重。对信息共享价值的迷信使思维停滞,任凭无效的信息共享蔓延。
工具变成了目标必然导致效益丧失
信息共享效益不好的重要原因是把信息共享当成终极目标,而忘记共享效益才是目标,以为信息共享就是效益,其实信息共享只是工具,工具与效益是两回事,真正有效益的信息共享只是少数,多数信息共享对政府工作并无帮助,效益也无法聚集,有效益的信息共享都是精心设计的结果。
信息共享的效益均来自最终目标实现产生的总效益,有效的信息共享应能降低最终目标实现成本、加快实现进度、提升最终价值。只有对最终成果有贡献的信息共享才是有效的,在信息化建设中稀缺的不再是资料而是最终效益目标,目标导向是提升效益之路。
数据整合理念需要认真反思
一窝蜂的智慧城市建设最容易出现概念不清决心大,事前不想清楚为什么是粗放文化的通病,粗放文化使国内信息化建设缺乏效益。信息化使政府积累的数据资料越来越多,数据整合问题已经提上日程,但是对于什么是数据整合、数据整合的效益如何产生并没有充分讨论,粗放的数据整合与粗放的信息共享都不会产生效益,认真研究政府数据整合的理论与方法已是当务之急。
NO2数据来源、使用方式二维矩阵
精细分类的重要性
电子政务信息共享出现的诸多问题均来自粗放的概念思维,例如系统业务之间的数据共享与决策研究用的信息共享并没有区分,用统一的信息共享交换平台解决两方面的问题其结果是一个都做不好,建设大数据管理中心如果仍旧采用粗放的思维方式,不对数据来源与应用模式的细分只能乱上加乱。面对不断增加的数据复杂性只靠决心大是不行的,方法必须科学,精细分类是降低复杂性的手段,对数据来源与使用方式分类有助于问题的清晰化。
两类数据来源:人工数据与自动化数据
政府工作常用的数据资源一种来自人工,另一种来自自动化设备。人工填报的数据不论是统计调查还是业务记录,都是人脑生产的数据,人工填报数据不可能很快也不能做到精准,人工数据都属于小数据范围,其优点是收集容易处理简单。
自动化设备可以是各种传感器也可以是互联网,当然并不是说数据只要经过互联网就是互联网数据,而是指利用互联网机制自动收集的数据,自动化数据也可称为电脑数据,电脑数据精准而客观且数据生产的效率非常高,远远超过人工数据的规模,所以被称为大数据。小数据与大数据的区别不只是规模更是来源不同。
两类数据应用:系统业务与专家应用
系统业务应用是业务流程对数据的使用,大量出现在政府系统化业务之中,如政府行政许可审批、办理出入境手续、各种网上办事等等,这些服务是精准地按照当事人相关的数据进行操作,其结果是由制度与数据决定而与操作者无关,系统应用只认数据,没有信息概念。
专家应用是在信息层次上使用数据,要从数据中提取信息,与自己的知识经验相结合来进行分析判断,形成新的见解,这是人脑使用数据的模式,常见于政府的决策研究,决策使用信息而非数据,数据要抽象出信息才能应用。
数据应用的四大类型
将两类数据来源(人工数据、自动化数据)与两类应用(系统业务模式、专家应用模式)组合起来,即可得到四种数据的收集与使用状况:
数据操作业务:人工数据——系统业务;
搜索监管业务:自动化数据——系统业务;
信息决策应用:人工数据——专家应用;
优化改进应用:自动化数据——专家应用。
数据整合的四种模式形成如下的2×2矩阵:
▲数据来源——数据使用矩阵图
类型一:数据操作业务
数据操作业务特点
数据操作业务常见于政府的系统化业务,为提高工作效率业务都设计成规范化操作系统,工作人员按标准化流程操作,系统运行结果与操作人无关,是系统在使用数据而非操作人员使用。
政府大多数网上服务均属此类模式,发改委等十部委提出的“一号一窗一网”的服务方案所指的都是此类业务,业务使用的是与服务对象相关的数据,如办理户口、签证等只使用与个人相关的数据,处理结果由数据及规则决定,操作者没有自由量裁空间,其结果是按规范产生的,谁操作都一样。
数据操作型业务质量要求
数据精准:这种业务完全是依据与当事人有关的数据操作,数据不准确就会出错,保证数据的准确是第一位的。
调用迅速:调用迅速是提高效率的关键,要能够跨部门使用政府数据,减少用户跑腿,不仅方便用户、方便工作人员还能减少数据欺骗。
业务数据整合要点
数据操作业务是政府基层服务的主要形式,其使用的数据是用户填报数据与业务流程积累的数据,不同类的业务数据是由不同的业务部门收集的,数据并没有链接,不同部门的数据必然会存在不一致问题,虽然数据都已入库,但未经磨合的跨部门调用是不可能通畅的,数据整合的任务就是要使之流畅化。不同部门业务数据进行整合并不需要数据集中存储,主要是提升按主题标识码调用不同数据库的速度,要统一各部门的主题标识码,要能够核对数据并及时更正错误,排除数据的相互矛盾,使业务数据跨部门查询流畅化。
类型二:搜索监测业务
搜索监测业务的应用场景
搜索监测业务属于大数据资源微观应用业务,常用于案件侦破、危险分子查询、反恐、反欺诈等工作,其关注的焦点是个体信息,目的在于发现异常的个体行为而非普遍性规律。类似于常见的“人肉搜索”。利用各种信息痕迹追踪怀疑目标,也用于对环境的监管,发现超标信号进行预警。
搜索监测型业务使用者主要是安全机构,如公安部门、金融保险部门、政府补贴欺诈防范部门(政府医疗费、困难补助每年都有大量骗费行为)、反恐反洗钱部门等,交通安全部门、环保部门,也包括用户信用服务机构。
搜索监管业务的数据处理要求
搜索监测型业务使用的数据源包括记录人们信息痕迹的大数据资源,如互联网查询记录、移动电话记录、ETC车辆行动记录、视频画面、信用卡使用记录等等,很多数据源涉及到个人隐私,使用必须谨慎,要依法办事。
对于重要的社会安全治理,政府会建设城市感知网收集数据进行安全监管,例如人流危险监管、公共设施安全监管、环境保护监管、食品、药品监管等,这些数据的整合主要措施是压缩内容、实现可视化展示,提高数据的利用效率。
搜索监测数据整合关键
搜索监管业务使用的大数据资源非常专业化,对原始数据整合是不可能的,因此数据整合主要是在结果层次上,这种应用要从大数据中搜索特殊的个体数据,数据整合主要是整合搜索出的结果数据,建立特殊目标的数据库,例如建立违规黑名单、收集欺诈洗钱怀疑目标等等,减少服务风险等。
对感知网渠道获取的监管大数据资源的整合主要是建立可视化图形系统及建立监管预警的标准,提升系统的自动化预警、报警能力,可视化系统可以提升环境安全态势的直观性,有助于管理人员更方便地理解态势。
记录用户的金融行为可以建立用户的征信数据库,记录用户的交通驾驶行为可以建立用户交通风险数据库。
类型三:信息决策应用
信用决策应用特点
信息决策应用模式主要用于政府和企业的领导层决策,政府宏观决策需要多方面的信息,政府不会靠数据直接决策,先要从数据集提取信息,并与已有的信息、经验结合起来进行判断,进而制定出带有普遍性的政策。高层决策信息更多来自小数据,小数据宏观性好,容易看懂,而很少会利用大数据,大数据处理复杂,只有经专家处理后浓缩的信息可供领导层决策参考。
大数据对政府高层决策贡献不大,因为数据量越大其涉及的信息面反而越窄,政府决策需要依赖很多不能数字化的信息,如社会经济发展态势,重大的国际国内事件,社会公众的情绪意见等,宏观决策使用数据的规模并不大,主要是掌握趋势,而这些数据主要来自统计数据。
领导层信息来源
城市领导的主要工作是解决城市发展中的一些棘手的问题,监督与激励部门领导做好分管的工作,领导干部的决策能力是长期工作积累的结果,数据与信息的作用是潜移默化的,很少出现利用数据资源对某项决策进行辅助决策的局面。领导层的洞察力主要在于平时对数据与信息的利用。
领导层的信息来源更多是通过人际渠道,数据利用主要是统计数据,会更多利用专家们研究的成果,领导层会非常关心其它地区的做法,特别是规模相当城市的数据及采取的一些举措。
信息整合关键是少而精
领导层最关注的是整体的态势,包括全球、全国、本省、本市的基本数据,这些数据主要是统计数据,数据量不需要很大但查询要方便,尤其本地区数据是工作汇报的重要内容。对领导层而言查询方便比数据完整更重要。
除了关注宏观统计数据之外,领导层通常很关注类似规模地区的发展数据、相关政策措施,地区数据中心要多收集此类数据供领导层参阅,经济专家对形势的分析也为领导关注,专家的文章往往太长,领导时间稀缺看不下来,数据中心可整理出摘要供领导查阅。
类型四:经营优化应用
经营优化应用场景
经营优化主要适用于企业应用特别是企业自用大数据资源的应用。亚马逊利用自己积累的数据来分析用户的购买喜好,成功地向用户推荐新书,电信运营商利用大数据挖掘用户的使用习惯定向推荐服务套餐,大型商场利用自动收款机分析用户的消费心理,这些大数据的使用方法都是围绕着公司业务进行的,旨在改进公司销售,互联网公司利用大数据改进广告收益,金融公司使用大数据降低金融风险。
政府本身并没有太多的大数据资源,政府数据还是以小数据为主,即使把众多小数据整合起来还是小数据规模,用好小数据应是政府数据整合的重点。但是政府可以与拥有大数据的企业合作,利用企业的数据资源与信息渠道改进政府工作。国家信息中心与蚂蚁金服和腾讯网络合作,共同收集各地智慧城市公众反映大数据来评价智慧城市发展水平取得了很好的效果。
经营优化数据应用特点
企业大数据资源主要来自本公司业务,这种大数据资源最适合改进本公司业务,目前发展得也最快。政府利用企业的大数据资源有一定难度,企业原始数据不愿意给政府,因企业需要保护公司用户的隐私及公司的商业秘密。政府不必非要企业的原始数据,可以订购企业的分析成果与可视化数据产品,这类数据产品不侵害企业利益因而企业愿意配合。
社会大数据资源的整合
企业利用大数据资源改进业务有自身的需求,政府并不需要进行管理,企业向社会开放大数据资源是市场行为政府也不需要干预。政府可以采购企业大数据资源的加工成果,如大数据分析报告、大数据可视化产品等,政府可以规划城市所需的多种大数据产品,向社会开放数据产品采购清单,向企业系统采购,不仅政府自用还将向社会开放,使大数据资源物尽其用。
NO3需求导向创造效益
信息爆炸与数据价值
信息资源爆炸时代数据资源早已不再稀缺,信息会通过各种方式向外泄漏,想回避都不容易。按照经济学理论,供应增加必然带来边际效用下降,数据价值下降是不可避免的趋势。
数据价值下降是竞争的结果,以提供信息为目的的数据价值下降最快,因为类似的数据太多了,政府内部的数据资源会受到外部资源的激烈竞争。以提供信息为主要目的的数据中心会丧失原有的重要性。
政府的业务数据却不会受到外部竞争,业务数据是用户办事过程记录的数据,是继续办事的依据不可被替代,在政府服务精细化改进中会有更大作用,整合的业务数据会不断增值,这应当是数据中心今后工作的重点。
数据整合不需要面面俱到
数据整合是提升应用效益的工具,数据整合本身并不是目标,工具并不是效益的来源,恰当的目标选择才是效益的来源,选择就是在增添智慧。政府数据整合既然不是终极目标就不必整合全部数据,只需整合有用的数据,要选择那些使用频率高、使用价值高的数据入手,放弃使用率不高的数据整合,集中精力将有用的数据整合做得更好。
数据整合要从具体目标起步
信息共享做不好的原因之一是捆绑了通用平台,想靠信息共享交换平台来解决不同的信息共享问题,结果与设想大相庭经,在没有积累大量具体经验之前开发通用系统是不会成功的,数据整合工作要吸取这一教训,先从具体项目入手,特殊目标效益未实现之前,不要搞普遍性解决方案。
现在国家发改委、网信办等十部委联合提出了“一号、一窗、一网”的惠民服务要求,这已经是一项非常具体的要求,能够实现上述服务需要的跨部门数据使用已不容易了,即使在该任务中,也要挑选最重要、最有影响、使用频率高而无重大难点的任务先做,以用户满意率提升为中心,完成任务是当务之急。通用平台让软件公司去想,政府不必自找麻烦。
大数据整合更不必操之过急
国内大数据应用才刚刚开始,很多地方还处于既无经验又无资源的阶段,建设大数据中心实在勉为其难,不如集中精力把小数据应用做好,大数据应用可让大企业和大城市多试,待他们成功了再学不迟。政府应用大数据没有竞争性,早做晚做没有差别,政府不必学企业争先恐后地大数据,把公众急需的小数据服务做好就是成功之路。