原标题:开放数据的现实困境
随着政府信息化水平的不断提升,政府部门在履行职责过程中生成、获取和保存了大量数据,成为国家最主要的数据保有者。政府数据与公众生产生活息息相关,是大数据不可或缺的重要组成部分。在大数据时代,政府率先将自己保有的数据开放给社会进行增值开发和创新应用,将引领大数据发展,推动经济增长和社会进步,创造巨大的公共价值。因此,可以说大数据建立在开放数据的基础上。
开放数据的定义与标准
根据世界银行的定义,开放数据(open data)是指数据可以被任何人自由免费地访问、获取、利用和分享。《开放数据宪章》将开放数据定义为具备必要的技术和法律特性,从而能被任何人、在任何时间和任何地点进行自由利用、再利用和分发的电子数据。以上定义都突出强调了开放数据供社会进行充分利用和再利用,意在释放数据能量,创造社会经济价值。
对于开放数据的标准,“开放政府工作组”提出,数据在满足以下八项条件时可称为“开放”:完整,除非涉及国家安全、商业机密、个人隐私或其他特别限制,所有的政府数据都应开放,开放是原则,不开放是例外;一手,开放从源头采集到的一手数据,而不是被修改或加工过的数据;及时,在第一时间开放和更新数据;可获取,数据可被获取,并尽可能地扩大用户范围和利用种类;可机读,数据可被计算机自动抓取和处理;非歧视性,数据对所有人都平等开放,不需要特别登记;非私有,任何实体都不得排除他人使用数据的权利;免于授权,数据不受版权、专利、商标或贸易保密规则的约束或已得到授权使用(除非涉及国家安全、商业机密、个人隐私或特别限制)。这八大标准意在确保开放数据对社会能真正有用和易用,已被国内外开放数据实践和研究领域普遍采纳,作为评估开放数据水平的标准。
《开放数据宪章》也提出了开放数据的六大原则,分别为:默认开放、及时和全面、可获取可利用、可比较和关联、为改善治理与公众参与、为实现包容性发展与创新。这些原则都与以上开放数据的定义和标准相呼应,其中,默认开放原则是指政府数据应以开放为原则,不开放为例外,因为“自由获取和利用政府数据能对社会和经济带来巨大价值”。
开放数据与相近概念的差别
“开放政府数据”和“政府信息公开”这两者既有联系,又有所区别。
首先,从目的上看,政府信息公开的主要目的是保障公众的“知情权”,提高政府透明度,促进依法行政,侧重于其政治和行政价值;而“开放政府数据”则强调公众对政府数据的利用,重在发挥政府数据的经济与社会价值。《国务院促进大数据发展行动纲要》中也指出,率先在重要领域实现公共数据资源合理适度向社会开放,从而“带动社会公众开展大数据增值性、公益性开发和创新应用,充分释放数据红利,激发大众创业、万众创新活力”。
第二,从开放对象上看,“政府信息公开”侧重于“信息”层面的公开,而“开放政府数据”则将开放深入到了“数据”层。“数据”是第一手的原始记录,未经加工与解读,不具有明确意义,而“信息”是指经过连接、加工或解读之后被赋予了意义的产品。可以说,“数据”是原材料,而“信息”是数据加工后的产品,开放原始数据对于开发利用的潜力和价值远大于只开放经过加工后的信息。
第三,在推进过程中,政府信息公开的工作重点在于政府一方,公开信息即已完成目标,而开放政府数据则需要在政府和利用者两个方面同时着力,开放数据本身并没有全部完成这项工作,使数据被社会充分开发利用才是根本目的。
还需要指出的是,政府通过媒体或在网站上发布数据或提供单条的数据查询功能,并不等同于政府数据开放。这些发布的数据一般是不完整的、经过加工的、不可机读的、不可下载或以接口形式导入的,因为无法直接对其进行再利用,不符合开放数据的标准。
此外,“开放政府数据”与“政府信息资源再利用”也具有差异。后者所指的社会对政府信息资源的再利用,一般须事先得到政府部门的授权许可,在这一过程中,对于政府信息资源的利用仍是有条件的、有特定对象的和有限度的,因而并不符合开放政府数据免于授权的标准,而且“政府信息资源再利用”的对象仍是“信息”,并未明确提到“数据”。
下表对以上概念进行了梳理,从左向右表示从“知情”到“利用”,从下至上表示从“信息”层深入到“数据”层。政府信息公开强调的是对信息层的公开,而开放政府数据则将开放深入到数据层;政府数据发布的对象虽然是数据层,但其目的是确保知情权,而不是促进数据的利用;政府信息资源增值利用虽然强调了利用,但这种利用是有限制的。只有右上角的“开放政府数据”明确提出对数据层面的自由利用。
开放数据现状与问题
近年来,开放政府数据在许多国家迅速推进。2009年5月,美国联邦政府数据开放平台www.data.gov正式上线,成为世界首个一站式的政府数据开放平台,目前已开放了近20万个数据集供社会免费利用,覆盖农业、商业、气候、消费、生态、教育、能源、金融、卫生、制造、海洋、公共安全、科研、地方政府等十多个主题。英国政府也推出了Data.gov.uk网站,将中央政府与地方政府部门的数据向社会开放。目前已有几十个国家和地区以及国际组织在开展政府数据开放工作。
我国的一些地方也已开始探索开放政府数据。上海市政府数据服务网于2012年6月上线,成为我国大陆地区首个政府数据开放平台,目前已涵盖了经济建设、资源环境、教育科技、道路交通、社会发展、公共安全、文化休闲、卫生健康、民生服务、机构团体、城市建设等11个重点领域。北京市、武汉市、无锡市、青岛市等地也已推出政府数据开放平台。
参照开放数据的原则与标准,复旦大学数字与移动实验室于2015年对北京市、上海市、贵州省、武汉市、无锡市、湛江市、宁波市海曙区、佛山市南海区8个地方的开放数据平台开展了一项研究,以评估我国开放数据的现状。结果表明,目前我国开放政府数据还存在数据量少、价值低、可机读比例低、动态数据少,数据授权协议条款模糊等问题。截至2015年5月,这8个地方中,公开数据最多的是武汉市(635个),然而,在武汉市开放的635个数据集中,仅有343个为可机读数据,开放可机读数据最多的上海市,共398个。在数据格式上,只有北京市100%提供了开放格式(CSV)。仅无锡市和宁波海曙区两个地方确保了对其提供的数据永久免费,而其他地方仅对数据的免费性设有一个模糊的时间期限。各地的数据授权协议均未能对用户的自由使用权利,特别是商业使用权利予以明确清晰的保障。整体上,各地仅有13.75%的数据属于动态数据,即承诺数据将按月、周、日进行更新,或实时更新,但即使这少部分数据中平均也仅有17.21%的数据按承诺实现了更新,其中无锡市按承诺更新比例最高,达到62.5%。
总体上,目前我国各地的数据开放工作在数量和价值上离社会需求仍有很大差距,无法满足经济发展与社会创新领域的需求,大量高价值且不涉及国家安全、商业机密和个人隐私的数据尚未开放,开放数据工作仍有很大提升空间。