11月28-29日,由中国社会科学院信息化研究中心和北京国脉互联信息顾问有限公司联合举办的“2018智慧中国年会”在北京隆重召开,以“数据赋能 智慧中国”为主题,共有来自全国部委、省、市、区县电子政务、智慧城市、大数据主管领导、行业专家、企业代表、主流媒体千余人参会。
本文系北京中润普达公司CEO杜小军先生于11月28日下午在“2018智慧中国年会”分论坛三--“人工智能赋能智慧政府研讨会”上的演讲,内容通过现场速记整理,未经本人审核。
【北京中润普达公司CEO 杜小军】
我是一个人工智能领域的重建者,今天想跟大家分享我们团队在人工智能领域做的一些事情。
目前大家对大数据、人工智能、包括区块链都非常关注,我们团队在2014年初创办时就是围绕中文语义识别。我们的子公司大家都有所了解:东湖大数据交易中心、江苏省大数据工程实验室、华东江苏大数据交易中心、钱塘工业大数据交易中心,以及正在筹建的国家气象大数据服务平台等。中文语义识别是我们公司的一项技术,如果说大数据是生产资料,那么人工智能就是生产力,区块链就理解为生产关系。所以下一个十年、二十年我们回过头来看今天谈的大数据,其中很多事情就迎刃而解。因此,我是从生产力的角度看中文语义识别怎么推动人工智能的利用和发展。
一、人工智能中文语义识别
(一)人工智能产业发展三大阶段
计算智能阶段(50年代-90年代):代表是计算机,机器基于计算智能有很强的数据处理和分析能力。从全球来看,这个阶段对数据的质量,尤其是数据的颗粒度、算法要求极高,这是目前人工智能发展在这个阶段可以达到一定的水平,中国和美国在人工智能领域竞争非常激烈。
感知智能阶段(90年代末-2010年):代表是深蓝系统、智能手机,在这个阶段人工智能机器能说会写。感知智能就是现在说的互联网,随着芯片成本的进一步下降,单个芯片价格低至几分钱,数据的传感、采集、爆发形成超出人类想象的数据链。人工智能从语音阶段逐步发展到机器发育阶段,特点包括语音、图像、视频解析,这些也越来越精准,有些能达到80%的精准。目前中美开始在这个领域全面竞争,中国在这个领域有些超过美国。
认知智能阶段(2010年末到现在):代表是Alpha Go,具有自主学习能力。从去年开始,Alpha Go在中国力度加大,它是人工智能三大顶层核心技术之一,让机器具备人的思考能力。我们把前两者称为弱的能力,而强能力都来至于对语言的真正理解,赋予机器具有思考的能力。
(二)认知智能是未来人工智能发展的核心焦点
国务院《新一代人工智能发展规划》明确表示未来5-10年在人工智能领域需要建立数据驱动、以自然语言理解为核心目标的认知计算模型,形成从大数据到知识结构化、从知识结构化转换成具有决策能力的新一代技术革命。这在整个新一代人工智能规划的八大基础技术里非常重要的一项,多部委已经把自然语言(NLP)为核心的认知计算技术作为人工智能自制核心技术开展技术突破,并且逐步推动产业化。从2017年新兴技术曲线来看,基于认知计算和智能机器人里最核心的还是认知计算,就是以自然语言理解为基础。
(三)认知智能(中文语义识别)迎来巨大产业发展契机
预计到2025年底,43%的文字处理工作将由人工智能系统自动完成。中国在图像识别、人工智能、单点技术方面已经遥遥领先于全球,未来七年,认知交互的全球市场,每年增长率将达到34.9%。据估算,2024年的全球市场规模保守估计将达到720亿元美元。国内资本对于自然语言处理的投入相当巨大,至2017年底,已披露融资总额累计超54亿元。随着技术带来的产业化的突破,市场非常巨大。
(四)人工智能-认知智能的应用场景
认知智能可以分析网页、文件、邮件、音频、论坛、社交媒体中的大量数据,应用领域广泛,既可以直接应用于医疗、教育、金融、工业、影视、农业等多行业,也可以通过技术接口应用于所有智能语音交互场景,如智能家居、车载语音、可穿戴设备、VR、机器人等。数字政府方面,国内有些城市已开始试点,未来人与政府打交道只需要与机器见面,机器就像城市大脑,帮你解决一切人能解决的问题,当然这是一个远景。但现在已经在逐步实现,包括一些城市的标准化的东西,这个标准化不需要人来思考,机器去学习就行,人和机器的交互未来就是人和政府的大脑之间的交互,所以智能语义识别被看作未来人工智能技术中最值得期待的应用场景。
二、技术支点和创新点
(一)20多项独创发明专利:基于中文分词矩阵技术的类脑智能系统和装置
2018年6月,中润普达正式申报中文语义类脑辅助系统(魔系AI)。首次提出把人脑当作一个复杂的信息处理系统来考虑,从整体和动态的角度,架构一个中文分词(包括意群)认知矩阵及模型,在此基础上让各场景的汉语分词(包括意群)认知矩阵及模型之间形成协同竞争关系和类脑信息加工模式,完成类脑系统计算,并解释语言、分词、意群以及句子等生成的神经机制和原理。举例:现在机场的机器人能够背诵唐诗、唱歌,还包括现在广泛应用的智能音响、人工智能设备,这些都叫做弱的人工智能。我们需要具备学习力的机器人,能够和人沟通,目前整个机器人市场在往这个方面转型,一个聪明的算法、一个崭新的系统、一个中文的大脑、一个颠覆性应用正在逐步实现创新。
(二)中文语义类脑辅助系统技术能力理论支点
“不要去设计机器人,而是培养机器人。”让机器像人类一样思考,必须具备像人一样的理解、推理、可视化、交互、学习等几个基础要素,每一个要素里面有庞大的基于类脑的相关功能,这个功能有的超出目前工程师的技术,需要新的办法来解决。
(三)中文语义识别技术使命:让机器像人类一样思考
中润普达自主研发的中文大数据的核心技术--中文认知矩阵和动态平衡模型计算技术,是领先的创新的中文大数据关键计算技术。利用独立开发的“人工神经元网络”数学算法模型,将海量的非结构化和结构化的数据放到模拟器中去,让魔系 AI主脑进行学习。随着时间的推移,产生突变,培养它让其成为具有自主学习意识的机器大脑,可应用到所有人工智能生态链条中。举例:百度搜索会留痕,下次登录会根据访问行为推荐搜索内容,坦率讲这不是机器学习,这是服务器日志的自主记忆、主动推送。国内在自主学习机器人方面还有很长的路要走,在这个产业,缺乏大量的创新,需要太多的专家、投资和创新的失败。我们团队是从另外一个角度在一点点的创新里面实现了3-6岁小孩的水平,机器人通过数据的不断喂养,能够实现与人的基本交流,比如你讲一个笑话,它能根据上下文或语义理解也讲一个笑话,还有在医疗方面也有一些类脑的案例。路途虽遥远,但这也是产业化的必经之路。
(四)5个人工智能语义识别技术应用产品(试商用)
目前中润普达推出了5个人工智能语义识别技术应用产品:
魔系AI - 海量文本处理智能平台:通过计算机自动对(中文)文本信息进行快速识别、检索、分类和精确定位,并能在不同语境下进行语义分析;是一个崭新的更高级的计算机自动识别与检索中文文本处理系统。
裂云AI - 精准营销智能平台:通过接入各大运营商和各大数据源机构的大数据平台,以自建分布式DMP平台为基础,提供精准人群标签和用户画像,应用于征信、精准营销、金融、保险、快销、汽车等等行业,为给各类大数据应用服务提供创新产品。
冲霄AI - 政务智能决策平台:国内首个基于AI的新一代政务大数据可视分析平台,适用于工商、工会、税务、环保、安监、质检、旅游、城管、文明等各种场景,为政务或商业决策提供重要参考,提升组织的决策精准性和前瞻性。
神通AI - 商业智能决策平台:基于AI的商业大数据可视分析工具平台。能够最大限度地利用数据获得最大的价值,实现商业的智能决策,提高数据管理和数据资产的变现能力。
傲天AI - 写作和传播智能机器:国内首家基于AI的文章全生命周期(从创作到传播)自运行机器人。它通过对海量文章的深度学习,总结了万余种不同题材、体裁和场景下的文章结构,从而让机器具备自动写作能力。
三、技术实践和应用路径
(一)魔系AI-中文语义类脑辅助系统
魔系AI为各类机器人配备中文语义大脑,使其能够听懂和了解用户的基本意思和声音,更好地与人类交互,完成多种匹配的动作及相关的指令。这个系统我们走的是不同的技术路径,帮助我们少走一些弯路。
(二)我们做的是让机器与人沟通交流的人工智能中文语义类脑辅助系统
我们专注于中文,中国人对中文的语义理解远比外国人强,在这个领域,王选院士发明的“汉字激光照排系统”,全球占有99.7%的规模,到现在还没有哪个互联网技术或其他技术达到这样的水平,激光照排技术的核心就是对中文的解读。
在具体的场景目标任务条件下,通过添加分词(意群),并植入这个类脑计算系统,无需写代码,系统可以帮助网络、机器和设备等实现让机器和设备具备自我学习、发现、理解、推理等各类能力,并形成自我知识体系;它让机器能像人一样,实现智能对话、智能客服、智能聊天、句子生成、知识发现、知识生成、模式识别、智能分析等,并能够按照要求辅助处理专属应用场景的知识和业务。
(三)快速搭建中文语义类脑(魔系AI)
魔系AI具体方法是:按照魔系AI的操作程序,只需添加分词、意群和句子,导入模板,即可应用到各类场景之中;为每一个机器、设备、终端都能够装上专属场景的、有知识、会聊天、能决策、自学习,并且有性格、有情感的中文语言交流、沟通的大脑系统;结合大数据,魔系AI搭建了有效的深度学习的算法,在数据足够的情况下, 魔系AI的“神经元网络”系统将会以阶梯式的速度进行深度自我学习和调整。
(四)未来魔系AI 和行业深度结合
与云、端、芯形成产品生态:芯片端提供一整套的软硬件一体的落地方案,终端领域提供人工智能交互软件通过云端数据整合、分析、运算从而提供更精准的服务。
IOT时代无限的终端入口:开放的终端入口快速积累用户信息,持续向云端进行数据传递。
应用领域:强大的技术体系从语音识别、语义理解到语音合成集云端服务为一体,首个独创的工程架构体系实现行业最先的效果和稳定性。
(五)魔系AI试商用阶段进展
目前已经在深圳某法院开展人工智能法院建设试点工作,和部分重点医院合作开展健康医疗大数据的AI产品研发;部分城市开展“城市大脑”技术应用实践(湖北省十堰市、江西上饶市和湖北荆州市)。
魔系AI智能“吾真”问诊系统 -- 湖北十堰三甲医院太和医院
应用于诊疗的全过程,实现诊前智能分诊、挂号;诊中智能导诊、语音电子病历;诊后慢性病康复辅助等,建立医疗各分支领域智能知识库,打造快速精准的智能医疗体系。
魔系AI法律助手 -- 深圳某法院
通过分词矩阵技术,构建法律知识逻辑系统,精准地找到与案件相关各种信息和文档,降低人力搜索卷宗的时间成本;通过法律机器人,快速解答法律方面的问询,节省咨询的人力成本。
魔系AI语音交互系统 -- 东风汽车公司
结合已有的车载系统,用语音搜索行程路线、操控车内设备、查询目的地天气状况,在意外发生时报修拖车、保险理赔等,让魔系AI帮车主解决行车中遇到的问题。
(六)魔系AI平台的应用效果目标:让人回归人的价值
为什么要发展人工智能,人工智能能够提升生产力。当人每周只需要工作2天的时候,这就是生产力的体现。智能问答可以解决85%以上常见问题,在问答匹配、理解语义上准确率高达97%;通过魔系进行文档处理,较人工相比处理效果提升59倍,准确率95%以上;在某些领域,可以替代60%以上的人工,极大降低了企业经营成本和提升效率。这是让人回归人的价值最实在的体现。
(七)应用场景:为每一台机器人赋予一个类脑辅助系统
为每一个机器、设备和终端都装上一个魔系AI专属场景的中文交流、沟通的类脑辅助系统。基于基础的数据元,交易中心本来就是数据流通的中心,期望各类数据能培养机器人,包括语音识别、图像识别、标注、分析、挖掘等海量的结构和非结构化数据需要在一定场合适用不同的机器人。当然这些不是光靠中文语言技术能实现的,还涉及到图像识别、语音识别、机器学习等基础技术。解决方案方面包括各行业的机器人方案,可以广泛应用到数字政府、医疗、智能办公等领域。
四、小结
今天介绍的是我们团队做的一些研发,并不能代表这个产业的最高水平,但是在这个方向上我们会持续不断地投入,也希望得到各位的指导和关注,谢谢大家!
附:国脉,是领先的大数据治理和数字政府专业提供商。创新提出“软件+咨询+平台+数据+创新业务”五位一体服务模型,拥有数据基因和水巢DIPS两大系列几十项软件产品,长期为中国智慧城市、智慧政府和智慧企业提供专业咨询规划和数据服务,广泛服务于信息中心、大数据局、行政服务中心等政府客户、中央企业和金融机构。自2004年成立以来,已在全国七大区域设立20余家分支机构、5大技术研发基地,服务客户2000余家,执行项目5000余个,连续多年开展中国政府网站、智慧城市、互联网+政务、营商环境等公益评估评选活动。被业界誉为中国信息化民间智库知名品牌、电子政务优选咨询机构,国内首倡智慧政府理念,首创智慧城市、数据治理、互联网+政务评价体系,首推数据资产普查、全口径数据资源目录、数据元标准化、数源确认与供需对接、最多跑一次事项梳理、营商通等产品,信息资源编目、公共数据普查等业务全国占有率和影响力名居榜首。
注:获取更多会议信息及嘉宾演讲资料,欢迎登录“2018智慧中国年会官网”。
现场照片直播分享: