11月28-29日,由中国社会科学院信息化研究中心和北京国脉互联信息顾问有限公司联合举办的“2018智慧中国年会”在北京隆重召开,以“数据赋能智慧中国”为主题,共有来自全国部委、省、市、区县电子政务、智慧城市、大数据主管领导、行业专家、企业代表、主流媒体千余人参会。

  本文系DAMAChina专家田景熙于11月29日上午在“2018智慧中国年会”分论坛六——“微服务与数据赋能平台构建与实践研讨会”上的演讲,内容通过现场速记整理,未经本人审核。

image.png

【DAMAChina专家田景熙】

  大家好,今天围绕《统一元数据标准动态管理解决方案》的主题跟大家做分享,主要讲三个问题:

  第一、政务元数据管理中的问题;

  第二、元数据标准化管理的需求;

  第三、介绍基于DPS/DPM解决方案思路。

  关于元数据管理中的问题。首先形成共识,一种说法元数据是定义和描述其他数据的数据;另一种权威说法是信息和文件,数据在经历了很长时间后,对用户仍有可理解性和共享性。

  针对电子政务数据元,我们国家一个比较领先的省市做过一次调查,此次调查共计有30多个数据项,120个机构。调查发现在系统中有命名冲突、定义冲突,格式冲突、分类冲突、结构冲突、描述冲突等多个问题,是影响数据融合和资源再造以及政府数据价值提升的大问题。

  从数据治理角度来看,应该从什么地方入手?

  1、物理数据:文件、记录及格式、视图、索引、数据字典...;

  2、逻辑数据:实体、属性、关系、规则、业务名、定义...;

  3、内容数据:语义、语境、语用、语法...;

  4、管理数据:数据项、数据模型、数据使用、数据质量、变更...;

  5、整合数据:数据源/渠/汇、数据目录、数据转换、EAI、迁移和变换...;

  6、运行数据:数据组件、服务、消息、标记、触发、进程、关联...;

  7、业务数据:业务定义、业务架构、业务规则、业务分析、业务关联、业务整合活动、角色、作业、输入/出、工作流、流程规则...;

  8、元数据管理:采集、识别、分析、标准化处理、组合、注册、发布...;

  各行业标准很多定义是冲突的,原因是从国际标准、国家标准上,对元数据标准化的研究非常混乱。针对元数据注册系统,建立的逻辑架构,系统管理进行标准化后,对元数据管理系统起到了很大作用。但只是孤立的考虑元数据的规则,并未结合具体应用。

  一、元数据标准化滞后:以ISO11179为代表

  先讲两个概念,第一,注册是指赋与数据元明确定义与标识,使各方获得其规范化的描述;

  第二,注册系统是指统一存储、加工与描述数据元的信息:注册标识符、定义、名称、值域,元数据和管理属性等。这可以为电子政务提供一个案例和解决思路。

  如今我们遇到问题,主要是孤立考虑元数据定义的规范以及其形态与结构注册的标准化,不涉及应用,不能解决跨系统资源整合中的各类矛盾。后续会朝着ISO8000+ISO22745系列(主数据标准与开放式主数据词典)发展。

  二、问题与思路

  第一,元数据长期作为附属资源,是导致许多领域数据开发与应用无法深入的主要原因;观念改进上,应将其当作基础性、独立性、自在性、能动性的价值资源来重新看待;

  第二,元数据的单元一、孤立、局部标准化远不敷数据管理与应用的需求;

  第三,元数据的标准化,应面向其作为基础资源设施来设计、规划、建设、运维与管理;

  第四,元数据的标准化是分层级、结构化、过程性的系统性标准化;

  第五,政务数据治理的目标是构建统一的政务资源的元数据管理体系。

  三、元数据资源标准化的层次架构

  层次标准化架构符合人类语言的演化与发展:

  (1)数据元标准化指的是数据元是构成信息资源的最小单位,相当于语言中的字、词;

  (2)复合数据元标准化指的是由数据元组成,相当于语言中的词组、成语等;

  (3)数据段标准化指的是中等规模信息单位,等效于语句;是预定义的复合数据元的固定搭配与组合。

  元数据标准化要求有构成独立的、基础政务数据资源设施;与应用无关以及综合标准化(包括统一、简化、序列化、组合化、集成化)。

  通过以上手段,可以实现提升数据的结构性与重用性;增加资源内聚度,降低波动效应、减小资源共享与交换的难度与成本,提升资源质量与管理性。

  四、数据点空间(DPS)与数据点模型(DPM)的基本概念

  1.以多维“特征轴”组织元数据,称数据空间(DS)---各特征元数据轴具有正交性、序列性、组配性,独立建设维护;

  2.任何实体数据在DS中,映射为各轴上的点位,称“数据点(DP)”;

  3.DP用于数据对象特征描述。选择DS的各轴,抽取其中各点位(区段),为“数据点模型(DPM)”;

  4.DPM可描述:实体、概念、关系、业务、过程、规则……;可按需增减与组配各轴。

  五、数据点模型(DPM)的意义

  第一,数据点空间(DPS)以数学为工具,为对象给出元数据资源配置集(DP);形态为文字,坐标值,提升资源的可计算性与安全性;

  第二,DPS不寻求直接的语义计算,而构建正交语义轴中的特征集,以及各集合间的转换;

  第三,DPS中,实体数据不再仅依靠人工描述,可通过计算机资源点筛选与适配来组成。计算机可逐步掌握在特定业务与语境下的元数据资源的查询、供应与适配,为从宏观、中观到微观层面的资源描述提供全新途径;

  第四,DPS不再使用单一资源目录,各语义轴自成目录体系,N轴组成N(N-1)/2个“资源面”,再组成“数据超方”,通过轴间的旋转、组配等能自行构建规模宏大的资源体系。

  六、DPM的数据表示

  1、DPM的空间结构

  用三元组(X,F,T)表示某政务域

  X为论域,为描述元素集合;F为论域的特征需求与元数据轴的映射规则,用函数F:X→Y表示;

  Y是n维语义空间;T为论域的架构,指其中各元素间的关联/构成(语义层)。

  则DPM的语义空间结构示意为:

image.png

  (1)论域X可扩充各领域元数据轴;

  (2)可按论域内的元素关系对描述分解与细化。

  2、DPM的时序结构——对各语义正交的元数据轴,前述函数F(x)随业务进程需要不同的特征数据元,其时序进程形态为F(R)

image.png

  3、DPM的扩展形态

image.png

  R为元数据需求扩展集;如Ri(i=1,2,3…)表示业务类、流程类、操作类、管理类等元数据,可动态维护;Rij(i=1,2,3…;j=1,2,3…)表DPS对各元数据轴的点位映射。如:业务类元数据集由“业务数据定义集、业务规则集、数据模型集…”

  七、DPM的语义展示

image.png

  第一,对象类标识—元数据对象的类别标识,区分元数据对象集中的不同对象类;

  第二,关键特征—构成元数据对象的核心特征,其集合可唯一区别元数据,用于对元数据对象的检索;

  第三,一般特征—元数据对象的使用特征,结合论域系统生命周期的描述需求,考虑元数据对象在元数据系统运行各阶段和各种应用系统中体现出的使用特征。

image.png

  注:获取更多会议信息及嘉宾演讲资料,欢迎登录“2018智慧中国年会官网”。

image.png

现场照片直播分享:

image.png

责任编辑:qinpeng