摘要:大数据时代的来临为我国社会信用体系建设提出了新的发展要求, 顺应时代潮流, 构建全国统一的信用信息数据平台是必然趋势, 据此提出了公共信用信息数据归集应遵循的一般性原则。运用实证法对“苏州市公共信用信息基础数据库和服务平台”建设实践进行了分析。肯定了信用信息平台取得的现实性成果, 同时分析了数据归集与共享中存在的质量问题, 从技术和制度层面论述了提高数据质量的对策, 并展望了大数据视角下数据归集的新思路。

  随着云计算等现代新兴信息技术的广泛深入应用, 大数据 (big data) 吸引了越来越多的关注, 其应用领域也逐渐融入到社会的各行各业, 带来了一个崭新的大数据时代。在征信领域中, 数据是其业务开展的基本资料, 通过大数据的相关技术可以将各种数据进行采集、分类、整理、加工从而形成信息产品, 并在必要时提供给用户使用, 提高了征信服务的质量和工作效率。为应对大数据潮流, 江苏省政府下发了《江苏省大数据发展行动计划》, 明确规定在信用大数据方面, 实现信用信息归集、交换的全覆盖。苏州市也积极响应政策, 调整优化网络结构, 完善功能, 建成“一网三库一平台”的架构, 持续实施信用信息“提质扩面”工程, 提高数据归集质量和效率, 积极推进“互联网+信用”, “以用促进”, 完善服务平台。然而, 由于我国征信行业发展较晚, 尚处于起步阶段, 还有诸多问题待解决。

  本文基于各省市出台的相关信用信息管理条例, 首先提出了信用信息数据归集应遵循的一般性原则, 然后从数据归集的质量问题出发, 通过一个典型的信息共享平台实例——“苏州市公共信用信息基础数据库和服务平台”的建设实践, 分析数据归集与共享中存在的问题, 从技术和制度层面研究提高数据归集质量的对策和方法, 以期为信用信息系统建设和信息服务水平提升提供参考。

  一、公共信用信息数据归集的原则

  目前, 虽然各级地方政府都陆续出台相关信用信息管理条例, 例如《湖北省社会信用信息管理条例》《威海市公共信用信息管理办法》《深圳市公共信用信息管理办法》等相关文件, 都从法律上肯定了信用信息的重要性;然而, 对于数据归集, 大多数条例仅仅是提及, 深层次的归纳总结尚不明确, 各地在归集数据时没有统一标准规范, 从而导致各种数据丢失、失真等现象。据此, 从各省市颁布的条例、办法中总结出数据归集应遵循的一般性原则。

  第一, 共享性原则。为深入贯彻落实“创新、协调、绿色、开放、共享”的发展理念, 政府各部门归集形成的公共信用信息原则上应予以共享, 涉及国家秘密和安全的, 应按相关法律法规执行。公共信用信息按共享类型可以分为无条件共享 (即可提供给所有部门以及社会群体使用的信息) 、有条件共享 (即可提供给相关社会群体共享使用或仅能够部分提供给所有社会群体共享使用的信用信息) 和不予共享 (即不宜提供给其他部门共享使用的信用信息) 三种类型。各部门业务信息系统原则上通过国家电子政务内网或国家电子政务外网承载, 通过共享平台与其他政务部门共享交换数据, 并加快建设本地共享平台以进行数据对接。共享平台牵头部门应该建立完善的信用信息资源目录分类、采集、共享交换、平台对接、网络安全保障等方面的标准, 形成完善的公共信用信息资源共享标准体系。

  第二, 安全性原则。为保护数据的内向性和机密性, 维护国家利益和社会秩序, 保护数据形成者自身的合法权益, 在信用信息数据归集的过程中必须重视数据的安全性, 特别是在网络环境下, 数据的安全性问题更应引起人们的关注。安全性原则应包括以下具体内容:一是要求相关部门统筹建立公共信用信息数据归集管理机制和评价机制, 各部门和数据归集平台管理单位应加强对信用信息归集、使用等全过程的身份鉴别、授权管理和安全保障, 确保归集数据的安全。二是各社会主体在利用信用信息时要保护商业秘密和个人隐私不受侵害, 同时, 应当注意维护数据形成单位与个人的合法利益, 尊重他们提出的对部分涉及商业秘密和个人隐私信息的限制利用的意见。

  第三, 准确性原则。数据的准确性在归集过程中是至关重要的, 只有归集准确的数据才能实现各系统的无缝对接以及平台之间的互通互享, 从而实现系统的实时和动态更新, 以满足各社会主体查询利用的需要。所以, 必须确保所归集的数据与本部门所掌握数据的一致性, 同时, 应按照国家信息资源相关标准进行信息资源的采集、存储、交换和共享工作, 坚持“一数一源”、多元校核, 统筹建设公共信用信息资源目录体系和共享交换体系。归集其元数据, 根据标准元数据定义消除数据项的歧义性, 从根本上保证数据的原始记录性, 统筹规划, 合理归集。

  上述三大原则分别从不同的方面保证了数据的准确性和安全性, 优化了数据归集的质量, 在一定程度上有利于归集工作的顺利开展。另外, 公共信用信息归集应实行目录管理, 公共信用信息的项目内容、公开属性、更新频率、使用权限、数据格式、归集程序、归集路径、归集时限、披露方式等要素应由信用信息目录规定, 从而确保信息的准确性和安全性。

  二、案例简介——苏州市公共信用信息基础数据库和服务平台

  自2003年起, 苏州市就着手建设征信平台, 成立市社会信用体系建设领导小组并于同年颁布了《苏州市企业信用管理办法》, 整个项目围绕信用制度、征信平台、行业信用建设、信用服务市场培育、企业信用管理等目标强力推进。2012年, 市公共信用基础数据库和服务平台系统建设正式拉开序幕, 并于2014年成立了市公共信用信息中心。此后, 整个信用服务平台的运作已逐渐成熟并形成了自己的架构模式。

  (一) “一网三库一平台”的架构模式

  目前, 苏州市公共信用信息服务平台已形成了以“一网三库一平台”为核心的架构模式。具体包括:一个目标 (一网三库一平台) , 两级模式 (市、县两级) , 四层结构 (对外服务层、业务功能层、基础设施层、系统软件层) , 五大模块 (部门前置机子系统、数据交换接口系统、中心数据处理系统、中心业务管理系统、信息服务及生成信息产品系统) , 六大安全措施 (安全管理制度、应用安全、数据安全、物理安全、系统安全及网络安全) 。五大模块相辅相成, 共同致力于一个目标, 使信用信息数据安全、风险防范、技术和管理得到了良好的配合 (参见图1) 。

图1 公共信用信息服务平台架构

  (二) 平台与数据库的对接

  目前, 苏州市公共信用信息服务平台已与包括市教育局、市人民法院、市工商局、水利局等39家成员单位的业务系统、4县6区的前置平台对接, 与包括“诚信南京”“信用无锡”“诚信姑苏”等22家地方信用平台相链接。企业信用基础数据库收录了100多万家企业数据, 数据总量达5000万条, 个人信用数据库达2000多万条, 形成了8个大类数据, 总数据达7000多万条。苏州公共信用信息服务大厅的运转日渐成熟。与此同时, 由企业提供强有力的技术支持来维护平台的日常运行, 企业、政府各部门以及用户三方共同围绕服务平台这个中心来进行相关的数据交接、运行, 从而最终生成信用产品, 方便了公民对个人信用信息的查阅。同时, 实现了静态的信用主体基础信息与动态的各类监管执法信息相互关联和有机统一 (参见图2) 。

图2 公共信用信息平台运行

  (三) 信用产品的推出

  目前, 该平台主要以提供信用报告为主。据统计, 截至2017年6月已产生了大约3328份信用报告, 为各企事业单位的信用评估做出了极大贡献。随着平台运行日渐成熟, 各种信用产品也将陆续推出。除信用报告之外, 还产生了基于信用报告的信用咨询服务以及信用评价方法等28类专项服务。既方便了公民对信用信息的查阅, 又促使平台不断改进技术方法, 推陈出新。

  诚然, 苏州市公共信用信息服务平台自运行以来, 取得的成效尤为可观, 也给其他省市征信平台建设以借鉴意义。然而, 其中依然存在一些亟待解决的问题, 尤其是在数据归集方面值得深思。

  三、公共信用信息数据归集的现存问题

  信用信息系统数据归集的信息主要是获得相应资质或受到相应处罚的市场主体的信息, 具体分为基本信息、行政许可资质信息和违法违规信息等三大类。通过对苏州市公共信用信息基础数据库的调研发现, 在公共信用信息的数据归集和共享方面还存在信息孤岛、信息安全、数据归集标准等方面的问题。

  (一) “信息孤岛”依然存在

  所谓的“信息孤岛”, 是指相互之间在功能上不关联互助、信息不能共享互换以及信息与业务流程和应用相互脱节的计算机应用系统。大体可分为数据孤岛、业务孤岛、管控孤岛、系统孤岛四种类型。其中, 在征信行业中数据孤岛现象比较严重, 它存在于所有需要进行信用信息数据共享和交换的系统之间。不同部门间的数据信息不能共享, 采集、整理、交换的数据不能进行交流, 数据出现脱节, 即产生信息孤岛。

  征信服务平台中“信息孤岛”的产生主要是技术层面的问题。例如, 许多垂直管理政府部门 (如工商、法院、税务、银行等) 的信用信息都采用数据集中交换模式集中统一存储和共享, 这就导致有些数据不能及时归集到信用服务平台的信息系统, 而出现严重的数据脱节现象。另外, 数据从分散到集中再到应用必须经过采集、转换、筛选、加工、交换等数据处理和交换过程。任何一个过程的数据处理质量得不到保证, 数据中心的数据质量就难以得到保证, 而信息的共享服务完全有赖于数据中心的数据。因此, 在数据归集过程中, 其质量依赖于供需双方分别保证。

  另外, 由于信用信息中有些属于敏感信息, 所以在归集过程中也会出现数据孤岛问题, 尤其是在涉及到隐私权的问题上。例如, 在归集公安对个人的处罚、交通处罚等信用信息时, 为保护个人隐私, 许多相关信用信息都不会归集到信用服务系统中。导致数据归集情况不能满足日益增长的查询、应用需求。这也是导致“信息孤岛”现象的一个重要因素。

  (二) 信息的安全性仍待加强

  信息安全是使数据处于安全不被威胁的状态, 避免数据被恶意访问、泄露、丢失, 保证它的真实准确、可读性。征信信息系统中的信息安全主要表现在信息的保密性、完整性、准确性以及可用性。

  以苏州市信用信息服务平台为例, 其数据归集主要包括两种形式。一是数据库直连, 工商等中央垂直管理的政府部门采取的就是这种形式。这种形式采用的是数据库对数据库的模式, 各个数据库之间都有安全的物理隔离措施, 通过专线进行输送。只要前期的数据采集没有质量问题, 那么归集之后的数据就可以是准确的且安全可靠的;另一种是通过“诚信苏州”网站进行及时报送。而这种模式就可能出现人为的失误, 因为所有的数据信息都是人工录入网页, 再由网站进行数据报送, 这就直接导致数据的安全性、准确性得不到保证, 存在泄密、错报、漏报的可能性, 严重影响业务活动的质量和效率。

  (三) 数据归集的标准尚未统一

  由于不同的政府部门采用不同的数据存储格式, 在传输过程中采用不同的数据接口、不同的接口参数, 导致归集之后的数据格式各异。例如, 目前苏州信用平台收录的行政许可大约有60.5万余条, 但同样是行政许可, 在“日期”的标注上, 有的许可文件有明确的发证日期和生效日期, 而有的只是有发证日期, 或者有的文件只是有使用日期。在日期格式上没有做到很好的统一。再如, 在行政处罚上, 有罚款、责令改正和罚款、限期整改以及吊销执照等几种方式, 然而处罚的力度和具体的实施范围没有做到统一标准。此外, 除了行政许可和行政处罚, 其他方面的数据归集还没有相应的数据标准和数据库接口参数, 归集来的数据依然是杂乱无章的。数据归集的标准不统一必然会影响信息的共享, 公共信用信息归集的标准亟待统一。

  四、大数据视角下公共信用信息数据归集的策略

  大数据的快速发展加速了技术变革, 使得数据归集更加自动化、准确化和及时化。同时又对公共信用信息数据归集提出了新的发展要求。为适应大数据的背景, 必须建立科学的信用信息归集机制, 实现静态的信用主体基础信息与动态的各类监管执法信息相互关联、有机统一, 以达到整合各类信息资源, 消除“信息孤岛”, 确保归集的数据完整、准确、及时以及动态更新。

  (一) “顶层设计”深化公共信用信息服务

  顶层设计就是要从制度、法律法规上进行完善, 建立相关的数据归集方面的法律法规。国际上信用体系比较完善的国家, 都十分重视信用的立法。在信用体系最发达的美国, 颁布了《公平信用报告法》等16部信用管理法律。我们应借鉴美国的经验, 制定信用管理相关的法律法规, 建立信用信息征集和使用的长效机制。2017年6月颁布的《网络安全法》就为公共信用信息数据归集提供了法律保障。除此之外, 还应尽快出台《个人信息保护法》《征信法》等完善信息安全、数据管理等方面的法律法规, 确保公共信用信息数据的规范性和准确性。同时, 通过整体规划使横纵打通。一方面推动全国信用信息平台与地方信用信息平台“纵向”互联互通, 实现信用数据的跨区交换共享;另一方面推动信用信息共享平台与部门或行业信息平台“横向”交换共享, 实现信用数据的跨行业交换共享, 打破数据孤岛现象。

  (二) 打通数据标准, 消除歧义性

  打通数据标准, 即以统一的社会信用代码为基础, 建立全国统一的公共信用信息目录标准、系统建设标准、信息安全技术标准和信用行业服务标准。最重要的是定义标准元数据, 消除数据的歧义性。为了提高信息系统的数据质量, 首先需定义数据资源的标准元数据。以苏州市信用信息服务平台为例, 目前主要是统一社会代码、统一格式, 以及定义标准元数据目录, 以消除不同部门数据之间的歧义性。同时, 在定义具体数据项属性时, 含义一定要描述清晰, 不能存在异义性, 这是提高系统数据质量的基础。通过标准元数据的定义, 首先可以消除各数据项的歧义性, 规范信息存储和展现格式;其次, 可以用标准元数据作为基准对归集数据进行校验、转换和对比, 以形成初步“干净”的数据集。

  (三) 完善信息安全基础设施

  完善信息安全基础设施, 首先就要完善物理隔离措施, 即加强网络的建设, 优化网络架构, 加强CA (certificate authority, 认证机构) 和RA (registration authority, 注册机构) 两种管理实体建设。目前, 苏州已建成“一网三库一平台”的网络架构, 应该在此基础上更加完善系统, 实现数据归集与系统升级同步进行, 推动数据库更新与时俱进。同时, 还应注意与政务网等进行物理隔离, 实行专人负责制, 加强信息的安全基础设施建设。

  (四) 引进先进的数据处理技术

  大数据根植于云计算技术, 利用云计算强大的数据处理能力, 可以为挖掘大数据丰富的信息提供强有力的工具。利用云计算技术、数据挖掘技术等先进的数据处理技术, 实现信用数据的自动化、批量化归集, 对数据进行智能化、精准化的比对、清洗和更新, 确保信用数据准确、实时、全面。目前, 苏州市信用平台主要是采用基础的数据处理技术, 利用系统技术自动完成对数据的去重、纠正逻辑错误、规范格式以及数据应用等的处理。可以在此基础上引入国外相关方面的数据处理工具, 例如Hadoop等, 用高传输率来访问应用程序的数据, 正适合那些有着超大数据集的应用程序, 不仅可以提高工作效率, 更能在数据源头对数据质量进行精准的把握。

  (五) 加强相关人员的技能培训

  数据归集工作对专业人员有着严格的要求, 不仅涉及到专业技术, 还对信息的安全性、保密性等有一定的要求。如果数据归集不及时, 归集到的数据不完整、标准不统一等不仅会影响到相关信用产品的质量, 而且还会降低工作人员的效率, 徒增不必要的麻烦。加强对信用信息数据归集方面的人员培训, 是提高工作效率、完善工作质量的必然要求。尤其是要加强银行等重点行业, 以及政府、事业单位等的专业技术人员、金融从业人员等重点人群的各类专业技术培训和职业道德培训, 进而实现信用大数据的高效利用和充分共享。

  五、结语

  综上所述, 解决公共信用信息数据归集问题, 提高信用信息服务质量, 除了要加强数据质量保障的制度建设、人才建设, 更要立足于自身, 采用科学、先进的技术手段, 在最大程度上对数据进行筛选、去重、清洗、校验, 从整体上把握数据质量, 在实践中找到完善平台数据质量的方法和原则。在统一代码、统一标准的基础上将归集的数据制成电子地图以做大数据分析处理, 从而挖掘有用的信用信息, 打造出更多的信用产品, 实现信用产品服务的常态化。

  大数据的相关技术有着广阔的发展前景, 借助于这些先进技术, 未来公共信用信息数据归集会朝着更加自动化、智能化的方向发展。各国政府、自然人、法人及社会团体对信用信息产品的要求越来越高, 而在大数据背景下利用云计算、数据挖掘等先进技术对信用信息服务进行管理, 可提高公共服务保障水平, 增强政府与公民之间直接的双向互动和交流, 从而实现公共信用信息的充分共享以及信用产品服务的常态化。

责任编辑:qinpeng