11月23-24日,“2017互联网+智慧中国年会”在北京万寿宾馆召开。本届年会以“智绘城市 数造未来”为主题,以数字政府、智慧城市、互联网+政务服务、数据治理、信息社会等为主要议题。会议由中国社会科学院信息化研究中心、北京国脉互联信息顾问有限公司联合主办,国脉海洋信息发展有限公司、浙江蟠桃会信息技术有限公司协办,共有来自全国部委/省/市/区县电子政务、智慧城市、大数据主管领导、行业专家、企业代表、主流媒体千余人参会。
在“2017政务信息系统整合共享与数据资产普查研讨会”上国脉海洋常务副总经理、高级咨询师王路燕以《大数据时代政府数据资产管理实践》为主题进行了分享。
国脉海洋常务副总经理、高级咨询师王路燕
以下是会议现场发言实录(根据速记和录音整理,未经本人审核)
今天在这里跟大家分享国脉在目前政府数据资产方面的探索和实践,政府管理要有基础和经验,我结合我们做过的浙江和海南及其他地方的实际案例与大家分享在大数据的时代数据资产的管理实践经验。
一、大数据时代的讨论热点
首先来看一下大数据时代讨论的热点,大数据概念提出几年来,现在关于大数据的讨论主要从三个角度来讲:
第一个是大数据技术,现在做大数据,就要有平台、传统的数据仓库以及实时的计算,这些都要涉及到方方面面的大数据技术。政府要做新的技术,要做大数据架构,我们有时候会问他们:到底哪些数据?这些数据的哪些部分适合哪些技术?很多地方企业都没有想明白这个问题。
第二个是应用场景,这个图是银行给的场景,现在有这么多数据,这些数据到底要用在什么业务上?它的应用场景是什么?很多政府部门以业务需求为导向的做大数据,都是不切合实际的。
应用场景
第三个是数据交易,这是最近的热词,以前公司都讲有金融的资产、人力的资产、物资的资产,但是现在企业都在想做数据资产,包括国内外的一些专家、研究机构都在探讨自身数据资产怎么进行估值,怎么样能够进入企业的资产负债表,最后能够变成实际的价值。同时我们梳理了一下,目前全国各地成立的数据交易中心,这里我们只是列举了一些,贵阳有两个,贵阳大数据交易所、贵阳现代农业大数据交易中心。说到数据交易,数据在交易过程中,它是不是真的适合被交易,数据的一些特性是不是符合?在数据的数据质量方面,哪些数据的量、数据资产被盘点清楚了?这些问题都没有考虑。
二、面临的问题
通过对大数据时代热点的讨论,我们可以通过这些问题来进行导向,政府部门它的到底有哪些数据和系统?产生了哪些业务?这些数据系统之间,关系是什么样的?这些都是不清楚的。最后总结起来就是数据资产不清晰,数据价值难以体现出来、数据质量是不可控的、质量不高因为我们没有从底层开始做这个系统、业务,这些都是面临的问题。
三、Gartner-数据管理成熟度
这个图是一个国外的研究机构出的数据管理成熟度的分析,大家可以看到,左边是2016年的内容,右边是今年的。这里有一个非常有趣的现象,可以看到红色的那些点,代表还没有到达成熟期之前,这个词已经过时了。通过图可以看到,2016年有三个词过时,一个是大数据,一个是大数据技术,从侧面说明大数据发展这么多年里,现在这个词已经过时了,原先叫大数据,现在大数据是一个常态了,刚出来的时候觉得很难处理,现在大家顺应了这个趋势,所以说这个词已经过时了。
Gartner-数据管理成熟度
2017年有两个红点,一个是数据目录,第二个也是大数据相关的,这两个词以后还会过时,这些词的成熟度反映了大家关心大数据未来的发展趋势和方向,包括现在重点的关注度在哪?那么我们如何解决这些问题?
四、数据管理体系-DAMA模型
针对以上问题,我们也做了一些相关的研究,这是国内提出的数据知识管理体系,提到数据管理分为十个层面,从数据的架构管理、开发、操作到元数据管理、数据质量管理、数据安全管理、主数据管理、数据仓库管理、文档和内容管理,最后到数据治理。这十个层面之间的关系是什么样的?我认为基础的核心工作首先要做数据的架构管理,然后做数据的开发,最后进行数据的操作,任何一个数据从无到有,都要经过这三个步骤。得到这些数据后,这些数据还不能用,我们还要去关注数据的三项方案,这三个专项的方案对应的是要做下面所有的特性和核心工作,从数据治理角度这些都是要做的。
数据治理和数据管理这两个概念一直在混淆,数据治理具有方向性的,我的工作组织、体制机制、人员怎么样,而数据管理管理是一些具体的工作。
五、数据生命周期
这些我们可以从两个角度去判断,第一个是从空间的视角,第二个是从时间的视角。从空间的视角看,我做了一个类比,上面一张图是关于中国历史的,为什么中国是一个集权的国家?其实这跟中国历史有关,也跟中国的地理有关,因为中国以前有水患,黄河发水是四处流的,不管国家的边界、区域、省份,水患发起来就四处流,要有一个相对集权的体制去治理水患。
数据生命周期
类比到数据,从空间的角度,数据从哪里来,经过哪些环节,最后到哪里去。从时间的视角,数据的生命周期从数据的规划、标准、开放、实施、维护,以前我们没有关注数据的生命周期,我们关注是的系统下面的数据周期,以前我们做系统的规划、分析、设计、开放到最后的部署上线,基于这个系统做数据的管理创建,这时候再考虑数据质量的问题,数据质量要求是不是符合提出的目标,其实这时候已经晚了,整个数据生命周期在规划分析的时候就要考虑进去,这是围绕数据生命周期来讲的。
六、政府数据管理体系
政府数据管理体系
针对数据的生命周期,我们提出了政府数据管理体系。我认为最重要的有四个:
第一个是数据资产体系,如何把数据资产理清楚,资产不是独立的,要理清楚关系。
第二个是数据的标准体系,如何进行编码的标准、分类的标准、分层的标准,
第三是数据架构体系,基于这些标准如何加架构?如何做模型设计?
第四是数据服务体系,基于这些模型,如何做整个的数据服务,包括交换共享、数据应用。
七、数据基因架构体系
我们对应的做了整个数据基因的架构体系,包括理论上、概念上的数据需求,从最开始的数据元和政府数据清单的梳理做资产的管理,通过一些技术手段做数据的采集,最后形成数据治理来提升整个数据的服务。
关于数据基因的服务体系,我们围绕整个数据的体系提出了十个体系和九大服务,所有的产品都是技术加服务结合在一起做相关的工作。下面我讲一下应用案例,如何把十大系统和九大服务体现在案例上面的。
八、应用案例-数据资产管理
我们做贵州资产登记的时候思考了很多,政府数据资产是什么?如何定义它?我们做了很多的权属关系,数据资源的登记项包括这些清单的要素是什么,做了很多的梳理工作,梳理完之后,我们做了一张资产地图,以下是我们应用的实际落地的几个案例。
1.广州市的数据资产管理系统
广州市的数据资产系统时,我们梳理一级委办局,信息系统近500个,系统资源近3000项,数据字段近25万项,我们会选取一些出现频率高的,对它做一些追溯的分析,做一些标准化和实际质量的报告。
2. 深圳气象局做元数据的标准体系
深圳气象局做元数据的标准体系,包括数据资产地图和气象领域目录的分类。
3.浙江省信息系统普查
我们给浙江省做了全省的信息系统普查,普查了近1000多个系统。然后对这些系统普查之后,做了一个诊断,系统填报上来的清单有个自动诊断的功能,根据相应的条件进行设置,比如说孤岛系统,我们要定义什么是孤岛系统,按照量化去设计;比如业务专网,跟其他网络不能通的,肯定是孤岛。这个系统中跟其他系统没有关联的是一个孤岛系统。我们扫描识别没有上云的、访问程度低的,日均少于1000的系统,这些条件设置好以后,系统自动会出一个诊断报告,告诉你这个系统要达到什么标签,这是在浙江省在做的政务信息系统。
数据目录梳理,我们做了很多地方的案例。这是我们目前梳理的一个主要路径,首先从我的应用系统,我们现在的系统导向以应用为导向,就是引用系统里面有哪些数据,这些数据采用的结构是什么,这个表结构可以通过采集的方式,只要部门提供给你系统的用户名和访问的网址和密码,你都可以把表结构提取过来,可以形成相应的数据资源目录。
这个目录不是说表结构里面是怎么样就怎么样,是要进行分层分级分类。对数据进行分层分级分类以后,就形成了一个数据目录,基于这个数据目录上,我们提出了一个概念叫做目录梳理的流程即未来相应的所有部门,要去创建它的表或者修改它的表,它的路口一定要在这个目录系统的路口,去生成相应的数据的库表,把数据库表结构导入前置系统中,然后部门再推送相应的数据。
我们也在海南省做这一块相应的工作,包括跟国家层面的系统对接,包括淮安我们做了80个部门的对接。
后面一个案例是大家比较关心的,我们做到业务层面的浙江省的数据供需对接的案例,浙江省提出了几个概念,第一个是数据项,数据项是我的证照、表格、结构化类的数据,然后由这些数据项组成了相应的数据,数据是在针对这些事项需要的材料,比如证照、批文,这些统称所需要的数据。事项数据串是说事项要实现"跑一次",它涉及的数据集有些是可以自行填写的,有可能是部门内部共享的,有可能是我形成一个事项数据串。到我的事项,我对这个事项的解析非常清楚,我的这些事项要实现"跑一次",这些材料涉及到哪些数据项,数据项是如何打通的?
相对应的数据共享的业务应用系统分为两种部门,一个是需求部门,一个是数源部门。需求部门可以对事项去串需求,然后对数源部门去进行相关数源的确认,然后我们现在梳理了省级单位前100项,包括形成一个后续对接的情况。
具体在做的过程中,我们还做了一项工作是数据标准化的工作。我们发现部门的需求是各种各样的,比如说一个证照、营业执照、营业执照副本、营业执照正本、印业执照复印件、工商营业执照、港商企业法人营业执照,其实这代表的都是一个营业执照,那么怎么样进行规范化?我们做了一个技术数据字段标准,就是数源部门确认后就会加到这个标准里面。下一次需求部门提出来的时候,在这个标准词里面会自动匹配过去。需求部门去提相应的需求,提了一个需求以后,这个需求就会对应的发送给这个数源部门,数源部门登录这个系统,他就会来进行确认,这个数据字段提出的需求,是不是数源?如果是,它要确认,要确认这个数据是哪个材料?是哪个业务系统?哪个事项产生的?它的来源是什么?然后我们根据数源部门提供的形成这个数据责任表。当然也可以说不是数源,我们把这类数据进行系统派发,部门来进行命名,到底哪个部门才是权威的数源部门,这是支撑"最多跑一次"一体化政务服务平台梳理好之后,通过共享平台实现真正能够实现一次去办理。有些字段可以通过共享,不需要再重复填写,材料不需要重复提交。
很多地方说,真正实现只要去一次或者两次,很多前提是这些材料的代提,最难的是你如何做好这些材料的收集。浙江省做的工作是不要重复提交材料的,就是通过减材料这些环节。
这是非常完善的一个体系,前面是一个需求体系,后面是完善的共享体系,如何通过部门的需求清单,相应的需求提出来以后,把责任清单的数据归集到数据资源中心,最后通过共享接口获得想要的数据。
政府从2007年就在做数据共享这件事情,为什么做了十几年,到现在为止还是在做?我们分析了一下,有几个问题:
第一个是数据的形式,之前许多的资源目录和交换平台、共享平台,有许多数据在上面,梳理出来的数据哪些部门真的看得懂、用得上,这些数据到底是不是真正发挥了价值?我经常看到部门报数据说,报送量是多少,在这其中它到底发挥了哪些价值。
第二个是管理模式,如何实现可持续的数据共享体系?我们在做浙江省项目时提出了一个概念叫做数据的共享,你要有一个共享需求,这个需求一定要与部门相关、能够立即用的,一定要有一个完善的共享体系,整个共享平台一定是非常健全的,最后形成整个数据之间的流动,归集起来就是能够使数据真正的活下来、用起来。
我们是理念+实际操作相结合的公司,包括我们自己对数据本质的理解,对政府做了这么多年咨询工作的经验总结,对政府业务的逻辑,以及我们自己对数据的落地实施案例,今天的分享主要到这里,谢谢大家。
演讲PPT下载:大数据时代政府数据资产管理实践.pdf