当前,全球已进入大数据时代,大数据正以一种革命风暴的姿态闯入人们生产和生活,影响着我们的工作与思维,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。今天我们有幸采访到了《大数据革命》的作者、中国大数据产业的布道者和开拓者,数据科学家,也是一个有情怀的学者和创业者赵勇博士来详细给我们讲述大数据的发展与未来。
专家介绍:赵勇
美国芝加哥大学博士,师从世界网格之父Ian Foster教授;曾就职于IBM美国研发中心、美国Argonne国家实验室,其SWIFT系统数据算法平台享誉数据科学界,具体应用到例如: 美国能源部的SDSS斯隆数字天空扫描项目, 美国航空航天局NASA的AstroPortal天文数据网关项目,引力波探测LIGO,欧洲大型强子对撞机(LHC) ……曾就职于美国Microsoft总部西雅图,次年即荣获微软杰出员工奖,中国计算机学会大数据专家委员会发起委员,国内首位撰写大数据技术专著的作者,作品《架构大数据》、《大数据革命》;曾任清华大学大数据处理中心CTO,组建国内第一支专业化大数据技术团队。
以下为采访主要内容:
数邦客:赵博士,请您帮我们介绍一下中国西部互联网与大数据产业分会是一个什么样的组织。
赵勇:中国西部互联网与大数据产业分会是由中国西部12省、市、区范围内从事互联网与大数据研究、开发、应用、服务的企业、机构和个人组织成立的地方性、行业性、非营利性的社会团体。汇集西部近500家大数据企业及科研机构、院校和业内知名投资人,同时获得清华大数据产业联合会西部分会的全力支持。分会结合了产业、行业的优势资源与中国西部的地缘和市场优势,借助“实施国家大数据战略,推进数据资源开放共享”的国家战略,推动、促进西部地区的大数据和相关产业的发展,打造中国西部大数据产业高地。
数邦客:您作为大数据的“传道者”最近也参加了不少的政府、企业的培训,请问您目前大数据在各行业的应用都有哪些?应用效果如何?
赵勇:我自2010年从美国微软辞职回国到现在,每年都会对政府、企业、机构进行几十次的培训和讲座,始终在传播大数据之“道”。如果做个阶段区分的话,2010—2012年是大数据概念在中国模糊了解的时期,当时大数据这个名词才刚刚出现,我讲的云计算和数据科学、大部分人听不懂、不了解。2013—2014年大数据的培训和讲座受到的关注就越来越多了。2015年到现在大数据方面的培训和讲座往往能激起强烈反响,通过三个阶段的对比可以发现,大数据的发展从概念普及、社会重视、行业热炒、应用落地到国家战略,在短短几年时间内整个产业生态发生了巨变。
我去美国留学的目的就是致力于数据科学的学习和研究,也是奔着世界网格之父Ian Foster教授去的芝加哥大学,在Ian Foster教授门下学了七年,之后进入微软,回国之后我做的第一件事就是传道,普及云计算及大数据概念,第二件事就是将先进的大数据技术运用到具体的行业中。2012年我组建国内第一支专业化的大数据团队,并相继在国家电网、中国民航、教育、安监、金融、医疗、交通、农业、车联网等多个行业落地,其中大多数应用都是开拓性的成果。
在国内许多战略性行业的软件还被IOE垄断的时候,我把大数据技术的突破点选择在长期被IBM,Oracle公司垄断的国家战略行业航空和电力系统。
2013年首先为中航信研发了基于大数据的新一代民航信息系统、订票实时查询系统、动态航班联程性能优化系统,基于海量数据的储存、查询、分析的综合平台。同时团队又为东方航空建立数据挖掘平台、电子商务网站优化系统。在航空领域的大数据技术成功应用,是我带领团队在中国大数据产业应用的一个突破性案例,打破了Oracle等国外公司对中国民航信息行业的垄断,经过几年的发展,中航信公司的软件和平台实现了完全国产化。
而对于另一家被IBM和Oracle公司长期垄断的国家电网,团队为国家电网业务系统一级部署顶层架构设计,形成电网内部改革的指导性方案,为国电量身打造了“财务实时运营监管系统改造方案”和“用电信息采集系统改进方案”,填补了海量数据在国内电力行业应用的空白。
就应用效果和意义而言,这两个应用不仅解决了他们的痛点,也为这些大公司节约了数百万美金的研发费用,最重要的是为去IOE国家战略和软件国产化树立了标杆。
数邦客:您是如何理解数据开放与大数据应用之间的关系?
赵勇:数据开放对大数据应用有很大的促进作用,像美国从2009年建立了政府数据开放平台data.gov,每年带动的数据创新和应用的产值高达3万亿美元。我们都知道数据源是大数据应用的基础,中国有将近70%的数据是掌握在政府手里,而如BAT这些大的互联网公司掌握了20%左右的数据,其余10%的数据碎片化的分散到各个领域,从这个比例就可以得出一个基本的结论,那就是掌握数据源资源的政府开放数据直接影响着大数据产业的发展。
值得欣喜的是,随着对数据价值的重视程度越来越高,数据价值的转化问题成为政府重大的课题,我国的大数据发展行动纲要已经明确制定了政府各部委的数据开放日程表。今后政策支持会越来越有力,开放的步伐也会越来越快,数据资产的交易需求也会越来越大。但数据开放同样面临着很多问题和细节,比如数据的所属权、使用权;数据开放的边界、层级;开放标准;访问格式;数据安全的保障、隐私的规避等等问题,这些都需要去解决。但我相信数据开放一定是大趋势,数据开放的程度将直接影响到大数据产业的发展速度。
数邦客:大数据产业链上都包括哪些环节,每个环节有哪些特点?咱们产业分会在大数据全产业链上又是如何参与的?
赵勇:大数据的产业链从技术层面上来说,分为大数据的基础设施支撑、数据采集、数据存储、数据处理、数据的展示和交互、数据的应用、数据的运营支撑和安全保障等环节。目前在全球产业链的角度来看,每个环节都出现了细分的技术开发商和服务商。当前技术发展的重点集中在了数据处理、交互和应用环节,比如目前火遍全球的AlphaGo和深度学习、认知科学和人工智能;还有VR/AR。大数据在各行各业深入应用并都朝着智能化的方向发展。
从商业应用的角度来说,大数据产业链分为大数据的理论和方法论研究、大数据标准的制定、大数据的培训和人才培养、大数据高端咨询服务、大数据的技术开发及实施,大数据交易和交换、大数据产业孵化,以及大数据的投融资和产业发展基金等。
我们产业分会和清数公司一开始就站在产业链的高度,着力构建系完整的大数据产业生态链,从大数据技术应用、研究开发、产品落地、人才培养、资源整合、产业孵化的多个维度打造一个大数据全产业链闭环。
产业链以国家十三五发展规划的大数据国家战略为政策引导,通过构建大数据全产业生态链,结合“大众创新、万众创业”的双创氛围,融入工业智造、智慧城市、军民融合、信息扶贫、北斗卫星这些大产业的发展背景,让大数据发展紧扣中国科技、经济、社会发展趋势。
我们首先发起和成立了中国西部互联网与大数据产业协会、清华大数据产业联合会西部分会、中国西部大数据学院、四川大数据产业联盟、四川智慧城市专业委员会等多个协会组织,以协会和专家智库作为企业和资源整合、人才交流和培养、市场拓展、营销宣传平台。同时在2015年创办成都清数科技有限公司,以清数科技作为大数据产业链的产品研发和行业应用为主体,相继成立控股承载协会运营和人才培训的金数智创科技有限公司、承载智慧城市项目运营的中数智城科技有限公司、承载第五维国际大数据孵化器的清数华创科技有限公司、承载项目工程实施的分秒云创科技有限公司,同时还以技术参股形式参股数十家成长性优质的大数据应用公司。
我们以协会为基础依托平台,以成都清数科技有限公司作为大数据技术和产品、大数据应用研发和实施的平台;以大数据产业基金、大数据投资基金作为大数据金融投融资平台;以第五维国际孵化器作为大数据产业创新创业平台,以大数据研究院、大数据实验室作为大数据深度科研平台。以集群模式打造中国第一艘大数据航母,技术研发是驱动航母前进的动力引擎,产品和应用是航母的战斗武器,协会和机构是保驾护航的护卫舰,资金和人才为航母提供源源不断的后勤支援。
数邦客:4月13日,国家促进大数据发展部际联席会议召开第一次会议,会议审议通过了《促进大数据发展三年工作方案(2016-2018)》、《促进大数据发展2016 年工作要点》,以及正在制定大数据产业“十三五”发展规划,国家频繁出台相关文件办法,您对此有什么看法?
赵勇:从2015年开始,国家对大数据行业的关注可以说达到了前所未有的高度。之前欧美国家都已经把大数据列为国家战略,大数据的发展将直接关乎我们的国际竞争力。国家密集出台关于发展大数据的规划和文件,释放出一种强烈的信号,那便是从国家层面将发展大数据作为长期可持续发展的国家战略,并为此战略配套一系列的具体发展政策和行动方案,国家的公共数据将逐渐开放,沉睡的数据将被激活,数据的价值将直接转化为生产力,驱动创新创业发展。
中国的很多企业正处于转型升级的关键期,双创形势也是如火如荼,工业智造逐步推进,大健康医疗、北斗卫星、WIFI信息扶贫,这些关乎国家未来发展的领域都会紧密的与大数据产业相结合,因此数据公开的步伐和政策支持的力度正在加大,随着国家政策面的强力支撑,产业基金、风险投资也在积极跟进,未来几年内,大数据的发展将引来爆发式增长,带来丰厚的投资回报。
数邦客:我们知道您著作了《大数据革命》、《架构大数据》相关书籍,请问您认为大数据将会进行一场什么样的革命?
赵勇:自2012年维克托?迈尔?舍恩伯出版《大数据时代》一书之后,拉开了大数据研究的先河,我和清华、微软、百度的一些专家在总结多年的学术研究和实践经验的基础上,出版了国内第一本理论与实践结合的专著《大数据革命-理论、模式与技术创新》,从理论、模式与技术创新层面深入解析大数据的产业落地和价值边界。之后出版的技术专著《架构大数据-大数据技术与算法解析》更深入的从技术及算法的专业角度,全面阐释大数据相关技术、算法和应用场景,是国内比较全面的大数据入门和进阶的专业书籍,成为大数据技术人员的经典教材,成书一上架就已经售罄,经过几次再版依然很受欢迎。近十年来我在云计算和大数据学术领域,接连出版过《云计算—资源管理调度》、《数据中心资源优化调度—原理与实践》、《算法谜题》、《模糊测试—强制发掘安全漏洞的利器》等12部著译作,在国际计算机书籍、期刊和会议上发表了60多篇技术和应用的前沿论文。
我个人认为的大数据革命是对传统的生产方式颠覆性的革命,首先是大数据成为新型的生产要素,可以替代劳动力、资本和自然资源,改变原有的要素组成和成分。其次大数据具备基因特质,基因的交叉融合可以产生新型的数据应用和价值。2015年底我首次提出大数据“黑洞理论”和“核聚变理论”,随着数据的聚集,数据的质量越来越大,数据流转速度越来越快,可以把周边所有相关的数据和资源都全部吸附进去,形成一个巨大的数据黑洞。未来在全球能形成几个这样的数据黑洞,我们也在着力打造一个。另外多种数据源进行聚合的时候可以产生密度更大,质量更大的数据粒子,这个聚合就是个核聚变过程,最后能释放出巨大的数据核能量,这种能量的爆发在未来能改变世界的政治、经济、科技、民生的发展,直接将人类从BT时代带入DT时代,成为世界文明和科技发展的重要推手。
数邦客: 您认为大数据领域未来的超级公司将如何诞生?工具型还是服务型公司更有可能成功?
赵勇:我们比较美国和中国的大数据公司,可以看到美国注重的是平台和数据分析,而中国目前还侧重在应用方面投资。工具和平台类的公司具备更长久的生存能力,并且可以被应用到各个行业方向,因而其未来的产值也是值得期待的,而应用领域则很容易面临同类竞争。比如前一阵很流行的企业征信应用,刚开始只有几家比较有名,而现在已经遍地都是了。同样国外由于行业比较细分和规范化,因而大数据相关的咨询和服务市场也很大,而国内这样的服务市场还未成型,因而基于数据的服务和交易等公司都尚属早期,但在未来一定会发挥大的作用。真正大数据领域的超级公司,我认为还是像上述的大数据黑洞理论所说的,按照共享经济的模式,整合行业资源,打造大数据产业生态链,能够形成这个领域的超级独角兽。
数邦客: 您认为在未来3-5年大数据应用最广泛的领域有哪些,原因是什么?
赵勇:我们经过前期的实践,总结出了大数据领域的创新创业方法论,并提出了具体的十个衡量指标,比如价值密度、行业约束、数据全量度、地理区域覆盖度等,具体的指标定义和衡量可以参考《大数据革命》这本书。总的来说,我们摸索出金融、教育、医疗、旅游、工业这些领域大数据的前景最为广阔。从工业企业来说,我们的信息化和自动化、智能化程度相比德国、美国还落后非常多,对数据、机器人、3D打印这些领域的需求巨大。而其他几个领域,都关乎每个个体的生活和工作质量,单用户价值大,容易取得爆发式的应用和增长。我们在教育和医疗行业也取得了一些突破性的进展。我之前在清华大数据处理中心带领团队所研发的数学教育机器人,就能部分取代高级的数学教师,对初高中数学的作业、试题可以做到智能的识别、判卷和评测,提供给初高中学生最贴心的个性化数学辅导。这套系统也将参加明年的数学高考,目标是考取重点线。在医疗领域我们打造的“天人中医”大数据健康养生平台,也汇集了全国几千名中医专家,为全国用户提供个性化的中医健康养生服务,同时传承和弘扬中医国粹。
数邦客:赵博士,您作为数邦客的平台的入驻专家,还希望您能多与我们的会员多多进行在线沟通、答疑。另外想请问您,从专家角度来看,您觉得数邦客平台还应该加强提供哪方面的服务?
赵勇:数邦客——数聚天下,邦扶产业,客至如家,共创未来。前期对于行业的热点报道,还有这次的大数据领域专家访谈都做得非常成功,树立了行业影响力。我觉得今后可以在行业沟通、交流,以及领域发展的合作方面建立渠道和提供工具,促进平台凝聚力和行业融合。
记者:刘丹 数邦客运营总监