摘要:为研究跨系统和跨部门的政府大数据平台如何实现数据治理, 文章采用案例研究法, 选取宁波市三个政府部门建设的政府大数据平台, 对各平台的高层管理者、负责人和技术人员开展了半结构化访谈以收集定性数据。案例分析揭示出跨系统和跨部门的数据治理路径涌现为数据集成、数据一致性、数据处理、数据存储和数据共享五个方面。研究表明:业务驱动是决定政府大数据平台数据治理路径的关键。
一、问题提出
为推动经济转型, 提升政府治理能力及国家竞争力, 国务院印发《国务院关于积极推进“互联网+”行动的指导意见》及《促进大数据发展行动纲要》, 文件提出通过布局大数据基础设施平台实现数据共享、数据交换和数据开放。实践层面, 为深化互联网与社会经济领域的融合并推进大数据发展和应用, 各省市相继开展政府大数据平台的建设实践。理论层面, 政府大数据平台带来的联接力与创新力促进了政务数据的共享、开放和交换, 有利于推进简政放权、创新政府治理方式、优化市场服务并加强市场监管。但信息治理环境下政府信息化建设遗留的信息治理、信息安全等问题未完全解决。进入大数据时代, 建设政府大数据平台同样面临大数据4V (Variety, Volume, Velocity, Value) 特征的挑战, 这些因素成为阻碍数据共享、数据安全、数据主权、数据治理实现的障碍, 大数据治理正是为应对这些挑战提出的解决路径。
目前对大数据治理的研究局限于对大数据治理概念的界定, 其中代表性的研究包括:Soares将其定义为信息治理的一部分, 是与大数据优化、隐私、变现、多功能协作相关的政策制定。在此基础上, 梁芷铭提出, 为应对大数据的挑战, 大数据治理是运用技术工具进行大数据管理、整合、分析及挖掘的行为, 并按照对象将其划分为人、物、数据、技术四位一体的框架。此外, 大数据背景下通用的数据治理体系框架包括数据持久化层、数据集成层 (主数据) 、统一建模层、数据质量层、元数据管理层和数据治理人员组织层。
文献调研的结果表明, 现有研究主要集中于对大数据治理概念框架的探讨, 缺乏对其实施细节的研究和解释, 同时缺乏对大数据治理实现过程的实证支持。为了填补这一研究空白, 本文提出以下研究问题:跨系统和跨部门的政府大数据平台如何实现数据治理?鉴于当前政府大数据平台数据治理实践和理论的探索性, 本文采用案例研究方法。
二、研究方法及数据收集
针对跨系统和跨部门的政府大数据平台如何实现数据治理的研究问题, 论文采用案例研究方法, 并通过多案例增强结论的说服力。遵循理论抽样原理, 论文选取了宁波市三个政府部门建立的大数据平台数据治理实践为案例, 首要原因是宁波市大数据发展过程中呈现的大数据治理实践为本研究提供了实证支持。根据《宁波市人民政府关于推进大数据发展的实施意见》, 宁波市以国家城市大数据综合示范应用城市、国家级大数据创业中心和城市大数据产业基地为未来发展目标。宁波市代表了政府大数据平台数据治理的先进水平, 其在大数据发展和应用中取得的成绩, 包括国家新型城镇化综合试点城市、国家创新型试点城市、2015中国十大智慧城市等, 尤其是海曙区的政务大数据共享和开放建设获得2017大数据产业峰会的“大数据应用优秀案例奖”, 提供了典型的政府大数据平台数据治理中国方案和地方经验。更为根本的原因在于宁波市政府大数据中心、宁波市智慧城市管理中心以及宁波市海曙区经济和信息化局三者建设的大数据平台均包含完整的数据治理过程, 具有数据融合、业务融合和系统融合特征, 且三者之间的治理模式存在近似之处, 符合逐项复制的原则。
在数据收集方面, 本研究通过不同数据来源为研究结论提供三角互证, 主要包括访谈、政策及文献调查。其中主要的数据来源于半结构化访谈, 选取每个平台的高层管理者、负责人及技术人员共9人开展访谈, 访谈围绕“大数据治理、大数据标准及大数据质量”展开, 在每项访谈中, 访谈对象围绕组织的整体业务情况、平台的建设情况进行介绍, 并演示了平台的具体功能及其数据、业务及系统的融合过程。
本研究主要采取以下方式提高收集数据对结论的支持度。首先, 对不同级别对象进行访谈以避免个人偏见, 其中高层管理者负责平台的顶层设计, 由负责人进行整体规划, 技术人员负责具体的功能及技术细节实现。其次, 采用多源数据, 并在不同平台的访谈对象间寻求规律和差异进行相互印证, 以避免可能的偏见。最后, 对访谈对象做匿名化处理, 鼓励访谈对象积极参与并提供准确信息。
在数据分析方面, 通过归纳性分析产生政府大数据平台数据治理的主要内容。随后的第一项任务是进行内部案例分析, 对各平台的数据治理问题进行研究。第二项任务是在复制逻辑的指导下进行跨案例分析, 采用表格形式提炼不同平台的共性和差异, 初步形成政府大数据平台数据治理的路径, 并通过不同平台进行相互印证。最为重要的过程是在理论和访谈数据及文献之间进行循环分析, 形成最终的研究结论。
三、政府大数据平台数据治理案例特点
本研究调研的宁波市三个政府部门建立的大数据平台, 均为政府部门内部为促进数据流转建立的跨系统和跨部门的大数据平台。表1总结了三个案例的特点。
在建设层级方面, 海曙区与宁波市政府大数据平台的一个关键区别是, 区级平台直接面向实际工作和业务活动, 而市级平台不负责具体业务只负责任务分配, 与市级平台相比, 区级平台面向业务的数据共享需求更为强烈。
关于管理模式, 政府大数据平台的管理模式沿袭了我国条块分割的管理体制。海曙区与宁波市大数据平台及其城管系统的数据融合平台, 因涉及不同职能部门间的数据流转, 因而实行横向职能管理;但对于城管系统内部, 则在行业内部实行自上而下的垂直管理, 其中的一个显著不同是专业部门建设的大数据平台与业务直接相关。
表1 政府大数据平台数据治理案例特点
就数据来源而言, 海曙区建立的大数据平台以职能部门提供的应用数据为主, 与之相似, 市级政府大数据平台同样以职能部门提供的数据为来源, 两个平台本身并不拥有数据资源;与之相区别的是, 市级智慧城管平台的数据来源于城管系统的业务活动。
四、政府大数据平台的数据治理路径
鉴于数据资源作为政府核心资产的重要属性, 本文探讨的数据治理聚焦于政府大数据平台以数据为对象开展的治理活动。课题组主要围绕“大数据治理、大数据标准及大数据质量”展开访谈, 本文仅讨论与数据治理相关的数据。按照数据治理输入、过程和输出三个阶段对案例数据进行分析, 跨系统和跨部门的政府大数据平台的数据治理问题涌现为数据集成、数据一致性、数据处理、数据存储和数据共享五项具体内容。图1描述了三个政府大数据平台的数据治理路径。
(一)凭业务需求实现数据集成
根据政府信息化发展历程及数据治理理论, 信息化是数据集成的背景和环境。由于信息系统建设造成“信息孤岛”问题, 为减少冗余数据、保障数据一致性、促进信息共享, 数据集成成为政府部门的必然选择, 并由早期的信息系统集成发展到云计算环境下的数据集成。为实现数据集成, 现有学术研究中对数据集成方法和技术的探索包括:数据仓库、数据交换、模式集成、数据复制及综合型集成。现有研究表明, 信息化是数据集成的诱因, 数据集成主要依靠技术方法实现。区别于现有研究, 本研究揭示出数据集成与业务需求的关联性。
图1 跨系统和跨部门的政府大数据平台数据治理路径
参考现有研究中对数据集成的定义, 本文将政府大数据平台的数据集成定义为:政府各部门将异构、分布、相互关联的多源数据集成到统一的政府大数据平台, 实现数据资源的有效组织和部门间数据共享。通过对文献和访谈资料的整理, 表2揭示了数据分析的结果及代表性观点, 描述了基于业务需求的政府数据集成。
表2 基于业务需求的政府大数据平台数据集成
实际访谈的结果显示政府大数据平台的数据集成起源于职能部门的业务需求, 现有研究同样表明集成方法的选择依赖于业务应用系统的需求。在政府各职能部门履行职责的过程中, 因业务办理产生对其他政府部门的数据需求。为实现各部门数据交换和共享的需求, 政府大数据平台集成了不同部门的数据资源。在平台上, 职能部门的业务需求直接决定其数据集成的内容和范围, 对于与各部门业务需求无关的数据, 并不属于大数据平台数据集成的对象, 即数据集成取决于业务需求。
值得注意的是, 政府大数据平台集成数据资源的来源与数据权属问题。智慧城市管理中心实行纵向专业管理, 直接面向业务需求, 其建设的智慧城管大数据平台主要实现专业范围内数据资源的集成, 说明数据集成与业务的关联性。与此相区别, 区级和市级政府大数据平台本身并不产生业务数据, 其数据资源主要来自于与业务直接相关的各职能部门, 平台集成的数据资源依然归属于各业务部门, 但平台为各部门提供了数据交换和数据共享的渠道。两种类型的大数据平台均表明数据集成与业务需求的相关性。
综合以上分析, 政府信息化建设及数据集成技术并非数据集成的决定性因素, 政府部门的业务需求是数据集成的关键原因和重要依据。虽然数据集成涉及数据碎片、冗余数据、数据一致性等问题, 但其并非必然导致数据集成。案例数据表明, 政府数据集成与业务需求直接相关, 尤其是业务需求直接决定数据资源集成的内容和范围。
(二)依业务活动保障数据一致性
云计算为大数据提供了分布式存储和数据处理的平台。现有的大数据平台主要采用云计算服务模式, 由于数据存储于不同节点, 同时由于分布式数据处理造成数据不一致现象, 数据一致性保障正是用于解决数据不一致问题。
政府大数据平台中的数据一致性主要关注不同业务部门关于同一主体的数据一致性问题。虽然保障政府数据一致性是现有研究的共识, 并通过政策、法律、标准实现约束, 但现有研究并未明确其制定依据。与现有研究相反的是, 访谈数据显示政府部门数据不一致很正常。表3描述了基于业务活动保障政府大数据平台的数据一致性。
表3显示, 政府大数据平台保障数据一致性的依据是业务活动。平台数据来源于同一业务活动, 且数据依业务活动的变更而更新。此外, 为保障不同部门关于同一主体的数据一致性, 大数据平台提供的辅助措施包括:不同部门间数据的比对, 通过数据普查进行核验, 以及在实际工作中进行验证。案例研究显示, 三个部门在多年的工作中并未因数据一致性问题造成困扰, 即数据一致性并非政府大数据平台的关注焦点。
与之相反, 由于各部门业务活动的差异, 数据不一致被视作正常。在宁波市大数据中心调研过程中, 平台的负责人明确表示:数据不可能一致。关于数据不一致的原因与业务活动密切相关:第一, 业务部门承担业务活动, 即使是同一主体的数据同样会因业务活动的差异存在不一致;第二, 由于三个政府大数据平台的建设者和使用者之间不存在直接的领导隶属关系, 即使数据不一致, 平台仅有告知的责任与义务, 并无强制执行的权力和保障;第三, 对于业务部门而言, 由于数据的采集和使用有责任单位, 业务部门不具有使用其他业务部门数据的权利。
表3 基于业务活动保障政府大数据平台数据一致性
综合来看, 大数据平台的数据一致性主要由业务活动决定, 但数据一致性问题并未造成实际工作的困扰。反之, 由于业务活动的差异, 数据不一致现象客观存在, 政府大数据平台的数据治理出现由保障数据一致性到接受数据不一致的趋势。但数据一致性保障及数据不一致现象均以业务活动为决定因素。
(三)据业务场景开展数据处理
数据处理是政府大数据平台的核心功能, 是实现数据利用、数据共享的关键环节。大数据处理是对数据的鉴别、积累和分析, 在此项研究中主要涉及数据处理的依据、权限及结果。现有文献调研的结果显示, 元数据是实现数据从无序到有序的重要依据, 主要在政府数据统计中发挥作用, 但由于标准不一亟待构建统一的元数据标准;在政府大数据平台开展科学、合理分类是进行数据处理的共识, 中国政府公开信息整合服务平台曾以内容和行政区进行分类, 但其效果并不理想;在权限方面, 目前仅限于对政府大数据平台使用权限的探索。综合现有研究成果, 其与访谈结果最为明显的差异在于数据处理与业务场景的分离性, 具体如表4所示。
表4 基于业务场景的政府大数据平台数据处理
访谈结果揭示, 业务场景决定政府大数据平台数据处理的输入和输出。一方面, 区别于现有文献, 就政府大数据平台的输入而言, 实践中大数据平台在数据处理之初将数据的业务属性纳入考虑范围, 以元数据作为数据处理依据, 并赋予业务部门提供元数据说明的自主权, 以保障业务与平台之间的连接。另一方面, 关于数据处理结果的输出, 三个平台数据处理的结果均提供面向应用的数据利用, 支持按照业务场景组合应用数据。
鉴于业务场景的差异, 三个平台同样存在数据处理的差异。对于与业务并无直接关联的政府大数据平台, 其元数据参照标准呈现多样化特点;但对于专业性更强、与业务直接关联的智慧城管平台, 则以具有专业属性的行业标准为主要依据。同时, 大数据平台数据处理的权限与业务场景直接相关, 由于市级政府大数据平台与业务无直接关联, 平台仅提供数据共享的渠道, 因而业务场景的无关性决定其数据处理过程不具有数据查看的权限。
上述结果表明, 业务场景直接决定政府大数据平台数据处理的依据、权限和结果, 其中元数据用于保障平台数据输入与原始业务的相关性, 业务场景决定数据处理的权限, 平台的数据输出同样提供根据业务场景组合数据的功能。总之, 基于业务场景开展数据处理, 在保证数据业务属性的基础上实现了面向业务场景的政府跨部门数据利用。
(四)以业务应用确保数据存储
大数据存储是为满足应用需求获取数据的方式, 与数据存储和数据管理相关, 现有的大数据存储技术包括:分布式文件系统、No SQL数据库、New SQL数据库和大数据查询平台。具体到政府大数据平台的数据存储, 在现有文献中, 无论是政府开放数据平台, 亦或对政府信息资源管理的顶层规划, 均包含对数据存储的讨论, 但并未明确多源数据具体的存储方式及其相关依据。与现有研究提出的大数据均应存储于云平台相区别, 表5揭示出业务应用直接影响大数据平台的数据存储。
表5 基于业务应用的政府大数据平台数据存储
案例数据显示, 政府大数据平台的数据依然存储在各业务部门。由于业务部门直接面向业务应用, 同时大数据平台尤其是横向职能型大数据平台与业务的分离性, 直接决定业务数据的存储依然在各业务部门。由此区分出两种数据存储类型:一类直接面向应用, 由承担具体业务的业务部门存储;另一类面向共享, 为大数据平台的技术存储与备份, 平台仅提供共享的渠道, 即业务部门提供的数据仅用于共享, 技术存储与业务应用无关。后者在存储时间、存储技术等方面具有一定的灵活性, 但不同平台技术存储的差异仍有待整体规划。
以上分析表明, 政府大数据平台的数据存储以业务应用为决定因素, 由于平台与应用的分离性, 因而数据存储依然由业务部门负责。大数据平台则主要提供数据资源的技术存储及备份功能, 对于此类存储, 未来仍有待于明确存储时间、存储技术、存储管理以实现大数据平台的数据治理。
(五)由业务部门决定数据共享
现有对政府跨部门信息共享的研究表明, 信息共享影响因素是其中的一项重要研究内容。目前对信息共享影响因素框架体系的代表性研究包括:基于政府跨部门信息共享的情境, 形成政策、组织、社会和技术四类因素;对于地方政府跨部门信息共享的研究形成资源、动力、认识和信任四大因素;此外还包括技术、组织管理、法律政策框架。这些研究潜在的假设是政府各部门不愿共享信息, 因而为促进政府跨部门信息共享, 激励机制、标准规范、推进体系等内容成为学界研究的重点。事实上, 数据分析结果揭示本研究所调研的宁波市政府各部门对共享数据是比较积极主动的, 并且平台上数据共享的权限是由业务部门决定, 如表6所示。
表6 基于业务部门的政府大数据平台数据共享
如前所述, 政府大数据平台起源于业务部门对其他业务部门的数据需求, 并以最终实现跨部门信息共享为目的, 因而数据共享是业务部门的共识。换言之, 政府大数据平台的关注问题不是数据愿不愿共享, 而是数据如何有效共享。所调研机构的解决方案是将平台上数据共享的决策权保留在业务部门, 由业务部门决定数据共享的内容、范围、条件和方式等。具体措施是由政府大数据平台与各业务部门签订保密协议试行数据流通规范、制定数据管理办法等。案例研究再次证明政府大数据平台的数据治理与业务的关联性。
关于由业务部门而非大数据平台决定数据共享的原因, 首先是体制问题, 各平台的建设者之于平台的使用者并无直接的领导与隶属关系, 并不具备决策的权利;其次是能力问题, 各业务部门直接与业务活动相关, 而平台的建设者只发挥协调、沟通作用, 并无决策的人力和物力支持;最后是平台定位, 政府大数据平台建设的初衷是为了促进数据流通, 核心在于调动各方积极性, 而非削弱业务部门的权利。
上述分析表明, 与现有文献研究的主流观点相反, 政府跨部门数据共享的影响因素众多, 但由于存在业务需求, 各业务部门对数据共享表示支持, 而非各部门不愿共享数据。同时宁波市三个跨系统跨部门的政府大数据平台数据共享的经验揭示, 将数据共享的决策权保留在业务部门, 以减少业务部门数据共享的顾虑是有效的大数据平台数据共享路径。
五、结语
通过以上对三个跨系统跨部门的政府大数据平台数据治理路径的案例分析, 本研究发现:第一, 政府信息化的发展并非必然导致数据集成, 数据集成起源于业务需求;第二, 平台上数据的一致性主要依靠业务活动保障, 区别于保障数据的一致性, 更为关键的发现是由于业务活动的差异性, 数据不一致被视为正常;第三, 大数据平台通过规定数据处理的依据、权限和结果实现对基于业务场景数据处理的限定;第四, 区别于面向数据共享的大数据平台本身采取的技术备份, 面向业务应用的数据存储仍然保留在业务应用部门;第五, 现有关于数据共享的研究以部门不愿共享为其假设, 但案例数据显示各部门对于数据共享持支持态度, 并且平台上数据共享的权限保留在业务部门。以上五方面表明政府大数据平台的数据治理路径以业务为驱动。
政府大数据平台数据治理是为打破条块分割的管理体系, 实现跨系统跨部门数据共享而提供的探索性解决路径。本研究得出政府大数据平台数据治理的关键是业务驱动, 其实质是保持平台上数据与业务的关联性, 尊重业务需求实现数据集成, 遵循业务活动规范保障数据一致性, 遵守业务场景开展数据处理, 遵照业务应用要求确保数据存储, 遵从业务部门规章制度要求决定数据共享。
总体而言, 现有关于政府大数据平台数据治理的研究局限于概念性研究, 缺少与业务的关联。本文的研究贡献在于:通过提供实证支持, 将政府大数据平台的数据治理问题具化为数据集成、数据一致性、数据处理、数据存储和数据共享五方面, 发现业务驱动是跨系统跨部门政府大数据平台数据治理的有效路径。未来仍将持续关注业务驱动的政府大数据平台数据治理的有效路径及其实现方式。