数据,是继土地、劳动力、资本、技术四大生产要素之后的第五大生产要素,中国政府已提出要加快培育数据要素市场。随着人工智能技术的飞速发展,大模型的开发更离不开高质量的数据支持。在此背景下,澎湃科技推出“第五要素——上海市数据科学重点实验室数据要素产业化系列报道”,关注由上海市数据科学重点实验室策划的数据要素产业化系列论坛。论坛第五期以公共数据运营与智能应用为主题,探讨当前公共数据运营的主要关切和实施路径,并结合智能化应用案例梳理剖析在实践层面存在的痛点。
公共数据是数据要素市场化改革中的一类关键数据,公共数据如何有效运营,赋能各级政府、千行百业、千家万户?1月16日,数据要素产业化系列论坛(第五期)围绕公共数据运营与智能应用,探讨当前公共数据运营的实施路径和痛点。
复旦大学公共绩效与信息化研究中心主任、复旦大学计算机科学技术学院教授牛军珏认为,从公共数据的下一步来看,政府部门是大买主,但购买数据的动力在哪、如何使用数据,这值得需要思考。
复旦大学大数据学院青年研究员陈思明表示,深究数据要素概念,应思考如何从数据的特异性中提取共性,并实现标准化,同时保留特异性。当前各种数据需求涌现,未来5-10年让数据更加可视化,让用户更直观感知数据特性,挖掘其中的价值是关键。
以下是圆桌实录,有部分删减。
肖仰华(上海市数据科学重点实验室主任):近期有专家指出有效释放公共数据价值是数据要素乘数效应的重要源泉。公共数据如何通过有效运营,赋能各级政府、千行百业、千家万户?有哪些好的路径,还存在哪些问题?
牛军珏(复旦大学公共绩效与信息化研究中心主任、复旦大学计算机科学技术学院教授):政府尤其是基层政府现在在数据上面临的核心问题,他们是数据的提供者,事实上他们所有的表格标签每天在填,但当他们想要一个更大范围的数据,比如省里在交通领域的数据时,他们获取不到。所以接下来不管是运营还是价值变现,首先要解决这个问题,这样基层的创造力、应用的动力可能就突出了。第二个问题是政府使用数据的动力在哪?公共数据的下一步,一方面是由企业大规模使用,但政府部门本身也是一个非常大的买主,但购买数据的动力在哪里,以及如何使用数据,这两个问题可以思考。
陈思明(复旦大学大数据学院青年研究员):数据要素概念可以联想到以前传统的生产要素。但数据作为一个要素,不但不同质,而且非常异质化,每个数据的记录和表达都不一样。所以如果我们真的要深究数据要素概念,应该思考如何从数据的特异性中提取共性,进行标准化,同时保留特异性。在数据要素可交易、流通的层面,它到底需要什么,这就涉及到另一方面——供和需的问题。需求方拿数据能够来实现价值,无论是获得需求方本身没有的信息也好,还是跟原有数据耦合关联产生新发现也好,都可以通过数据获得新的看不到的东西,我们可以思考这个过程是否可以标准化或至少半标准化。数据要素的使用从数据治理、数据清理到最后数据价值的使用,这一过程其实是我们把供和需的概念拿去平齐。现在的问题是有各种五花八门的数据,各种格式、结构不同的内容,每个地方的需求也不一样,怎样设计一种方法能够让供和需做到平齐或相对平齐,在这里有所突破,就能发挥数据作为要素的力量。
第二,从微观技术上来说数据可视化技术。2011年我刚开始念数据可视化方向博士时,国内几乎没人知道这是一个研究方向,2010年时我接触数据可视化相关技术,大数据大概是2014年火热地被提出来,大概在2015年时可视化的东西慢慢出来了,比如数据大屏。以前大家不知道可视化是什么,慢慢有了数据大屏展示功能的概念。我们现在做的可视分析是再往前进一步,可视化让数据通过图形化手段,展示出数据背后的含义和价值,背后要结合数据挖掘和人机交互做数据分析。
现在,各种数据需求涌现。接下来5-10年把数据变得更加可视化,让用户更直观感知数据的特性,挖掘其中的价值是关键。数据那么多、那么大、那么复杂,异构数据各种各样,如果不通过可视化的方式就无法理解。理解数据之后才可以进一步挖掘其中的价值,考虑利用人工智能大模型自动挖掘。这也就是我们正在做的把数据自动生成可视化,我们能够通过人工智能自动化提炼数据价值和不同的重要维度,满足需求。顺着数据超市的概念讲,可视化能做一些数据的橱窗,把不同数据像商品一样摆在橱窗上,让大家看到、更好地理解,就更有意向去买数据,促进交易。
赖致远(福建大数据一级开发有限公司副总经理):我们希望通过公共数据资源的一级开发,实现公共数据资源价值释放,支持数字政府建设,赋能千行百业。简单来说,就是让公共数据“供得出”、“流得动”、“用得好”。如何实现这个目标?首先要实现供需两端对接与互相促进,其次,广义的数据治理应囊括数据应用,如果不理解具体应用场景就很难有效开展数据治理工作。有三个关键的方向需要重点推进:一是制度,二是产业生态,三是技术。
制度方面主要由政府牵头,推进公共数据更好地开发利用及交易流通,其中包括数据治理、应用规范和安全管理、分类分级的开发利用机制的完善和数据交易流通的机制设计等。
产业方面,如果从政府的角度来看,需要更具宏观性,关注产业链上下游,其中包括数据生产、数据交易流通、数据融合、数据运营、数据开发等单位,还包括在这个过程中的技术、业务服务支撑单位,实际上涵盖了产业链各方面,需要扶持培育。国企则更多通过市场化方式促进生态链发展。由于数商市场起步晚、数商生态不完善以及企业数字化水平不足,在大数据产业培育过程中更需要各方积极深入产业,推动产业数字化提升,尤其要提升本地特色产业的数字化水平。
技术方面,我们一直在思考技术如何促进大数据应用。近年来,通用大模型出现并迅速发展,我们应重点关注垂直应用,即如何在垂直领域充分利用数据提升效率、加快创新。此外需要善于利用大模型,结合传统技术,包括统计模型、计量经济学模型、传统机器学习模型以及专家规则模型等,形成产业级、行业级垂直领域大模型应用,加快公共数据开发利用。
吕蔚(税友软件集团股份有限公司数据业务总经理):我们主要的合作对象是政府部门,致力于推动政府信息化和数据应用方面的发展。在实际工作中,对政府部门的公共数据要素应用有一些自己的理解。首先,基层和省级之间存在获取数据的问题,这不仅仅是基层向省级获取数据的问题,有时在同一层级的不同部门之间,数据并没有良好互通和共享。这个问题的本质在于缺乏对哪些数据可以开放、哪些不可以开放、哪些应该开放的标准。在推进过程中,如需使用数据,就只能通过一事一议,根据业务场景推进。
其次,政府部门对第三方数据有很大需求,但缺乏手段。而政府对第三方应用数据的标准也高度融合,许多部门对同类数据的需求高度相似。如果能建立一个机制,集中采购政府部门需要的第三方数据,并集中管理数据质量和标准,有可能避免政府部门分头采购、自行采购和重复采购问题。
此外,各省的大数据中心主要是建设数据库,将许多政府部门的数据进行汇总。但各部门天然的业务壁垒导致跨部门的数据难以把握。尽管一些省份已经建设了数据资产目录,但由于业务天然差异,实际应用时很难理解跨部门数据。这造成了许多实际上可以通过跨部门数据应用来推进的工作并未充分挖掘。如果能够推动政府间共享数据的业务标准化和业务融合,由数据局牵头,统一梳理业务标准,可能会产生一些成熟效应,改变原有业务流程。
林中美【易信(厦门)信用服务技术有限公司副总经理】:易信公司的角色定义为省大数据集团一级开发公司生态下的二级数据服务商。首先,公共数据市场需求非常庞大。作为数据使用方,我们希望公共数据能够更加开放,只有这样我们才能更好地用数。第二点是在数据开放之后,我更希望从数据要素乘数效应的角度出发,结合产业或行业充分运用数据。
从两个具体方向来看,首先是关于公共数据的应用,比如水、电、煤等数据。在政府招商或地方产业分析过程中,需要大量这类数据,例如当地的营商环境和经济发展指数。这就需要进行产业链分析,所以涉及营收、税收等数据。具备这些数据,我们就能够提供有针对性的信息,高效进行招商工作。另外,对于引进来的企业,我们还需要在日常进行有效监测和服务。比如引进了很多企业,但如何知道空壳企业占比,这对于监管工作来说是一个重要指标,需要充分利用大量公共数据,这部分就面向政府侧的应用。我们在实际业务服务过程中发现,各种产业或行业对公共数据需求很多,因此我们希望这些数据能够更加开放。
其次,厦门易信依托设置在厦门的国家信用大数据创新中心,深耕各垂直领域的数据服务。在工程行业中,公开招投标数据就是一个非常重要的维度。这类数据主要用于构建企业经营画像。通过企业的画像分析,就能够应用在金融风控场景,从而赋能产业。通过这种方式,我们能够解决工程领域中小微企业融资难、融资贵问题,从数据需求到数据产品再到金融场景赋能,形成完整的数据应用闭环。
因此,公共数据需求在市场上是迫切的。场景应用更需要共同探索才能达到数据要素的乘数效应。
肖仰华:在新一代信息技术(人工智能、区块链等)快速发展演进时,对公共数据深层次赋能经济社会发展、培育智能应用,带来了哪些机遇和挑战?反过来,公共数据的应用对有关信息技术的演进发展又会产生怎样的影响?当前的应用多关注大范围(例如省级、国家级)、行业级、标准化应用,实际上县区等基层应用需求呈现出鲜活性强、迫切性高等特点,同时也存在应用相对零散、标准化程度低等特点,地市或县区层面的公共数据运营应当着重注意哪些问题,又有哪些发展建议?
牛军珏:技术在整个公共数据的开发和应用过程中扮演着关键的支持角色。这涵盖了隐私计算以及未来效率的方方面面,实际上,这些都需要技术相关的应用。特别是我们需要思考如何整合数据以及从中发展出什么样的知识结构,来和未来的大数据和大模型相结合。这方面对技术的要求非常高。其次,在技术架构上,考虑到政策的统一性,需要在福建进行一次积极尝试。这个尝试可以包括设立一个一体化的部门,由具备技术能力的一体化公司和集团来统筹考虑整个省的技术架构。我认为在基础架构方面已经打下了非常良好的基础。总的来说,技术在公共数据领域的作用至关重要,从隐私计算到整合数据、发展知识结构,再到全省技术架构的一体化考虑,这些都需要高水平的技术支持。
郑磊(复旦大学数字与移动治理实验室主任、复旦大学国际关系与公共事务学院教授):管理实际上与刚才提到的供应商、技术、安全、效率和公平性都密切相关,这些方面也需要进行有效管理。首先,我们需要考虑管理体制的问题,然后深入研究各个环节中的机制设计,包括收益机制和激励机制等。我们需要思考如何确保数据既能够提供,又能够得到充分利用。在这方面,我们的管理工作还需要解决一系列问题,技术和制度这两方面需要同步提升。单纯依赖制度或技术是不够的,将法律条文写进去是必要的,但没有技术来支持,无法确保其真正落地;但仅仅依赖技术也会导致单兵突进,难以跟上整体进展,容易形成信息孤岛。
其次,去年大模型问世后,我们开始思考过去强调的数据集开放更多是指结构化数据,而接下来语料文本类数据的开放,如法律文书等,对于大数据和大模型可能至关重要。我们的互联网快速发展到移动互联网,但移动互联网的很多数据都集中在一些公司平台上,相对封闭。今年“数据要素×”文件提到要鼓励企业数据开发,比如社交媒体平台和搜索引擎后台都有大量文本数据,这些数据的开放开发对于大数据和大模型都至关重要。
陈思明:大模型的本质是知道一个词去预测下一个词,它是一种概率模型,为什么它能成功?因为人的语言描述承载的是整个世界运行的逻辑,或者说整个世界可以用语言描述出来,把这一套逻辑学会了,就能做人和人之间的交流。现在各行各业的数据出来,通用大模型有通用能力,每科都考70分,把大模型变成领域专家,甚至变成领域顶尖专家,专门把某一个领域训练到100分,其实是把每一个领域的数据利用起来,开放各种数据要素,这符合数据应用的本质。
赖致远:首先从技术方面来看,有三个关键方面需要考虑。一是确权、登记评估、交易流通等环节需要借助区块链等技术支持。二是在数据融合环节,需要通过隐私计算、联邦学习等方式,以及国外流行的数字空间概念,充分融合社会数据和公共数据。三是在数据开发和利用阶段同样需要运用技术,特别是目前大模型技术的应用。大模型技术是通用的,但在具体行业和领域中存在大量垂直应用机会。
其次,关于如何下沉到基层赋能基层的问题,福建明确要求全省一盘棋、上下一体化,省级平台不仅仅是为省直机关单位提供服务的平台,更要赋能全省。这意味着平台能力要下沉九市一区、 84个区县、1960多个乡镇。不仅是数据下沉,能力和技术也要下沉。数据下沉需要很多技术手段支持,例如如何通过技术更好地进行权限管理,如何在特定场景下更好地管控数据。此外还有能力下沉,如分析研判等能力。以数据辅助经济决策为例,省级层面更多考虑宏观经济和宏观指标的变化,地市层面更注重产业链建设、产业政策的完善。到了区县层面,更关注具体企业龙头发展,乡镇则直接服务于企业。虽然每一级政府考虑的颗粒度和宏微观程度不同,但背后所依赖的技术能力可能是相似的。技术能力需要根据不同场景进行优化。
吕蔚:近几年,我们一直在研究各地政务云和大数据中心,由于建设时间、当时的技术水平和其他原因的差异,各地大数据平台的基础底座存在较大差异,技术壁垒也较大,如果要真正实现全国或全省一盘棋,对数据统一综合应用,就涉及到跨平台建模和运算问题,这些问题需要解决。其次,随着各地信息系统的垂直管理系统不断建设,各级信息系统可能会不断积累大量计算资源,这些资源可能会处于闲置状态,因此是否能够将这些闲置计算资源作为整体大数据平台统一规划下的计算节点进行再利用,是需要考虑的问题。比如县级原有的一些闲置计算节点后续可以作为大数据平台上的计算节点,为数据投放提供算力支持,使其在平台内进行应用。
林中美:首先,在技术方面,除了在需要密态情况下进行数据传输,结合隐私计算和区块链技术,今天我们还谈到了更多关于大模型的应用。在实际业务应用中,我们对这一领域的需求相当大。大规模、多元、异构的数据汇聚对于完整的揭示社会经济发展规律、预测未来的发展趋势、对风险或舆情进行预警等都得到了发展,而这种发展必将随着社会力量的参与越来越快,并且衍生出更多应用场景。第二个方面是从基层应用的角度来看,主要需要解决两个核心问题,一是产业的深度融合,二是为民生提供更多赋能。在产业方面,我们结合当地特色,例如旅游或农业,进行深度融合,将公共数据赋能产业。在民生方面,例如医疗和教育,我们也希望将其融合进来,让应用更加贴近民生实际需求。
更多精彩,请关注“官方微信”
国脉,是大数据治理、数字政府、营商环境、数字经济、政务服务、产业服务等领域的专业提供商。创新提出“软件+咨询+数据+平台+创新业务”五位一体服务模型,拥有营商环境流程再造系统、营商环境督查与考核系统、政策智能服务系统、数据基因、数据母体、产业协作平台等几十项软件产品,长期为中国智慧城市、智慧政府和智慧企业提供专业咨询规划和数据服务,运营国脉电子政务网、国脉数字智库、营商环境智库等系列行业专业平台,广泛服务于发改委、营商环境局、考核办、大数据局、行政审批局、优化办等政府客户和中央企业。