2017年6月11日,由中国新一代IT产业推进联盟指导,CIO时代学院、光明网联合主办,北大软件工程研究中心、北达软、政府采购信息报社协办,CIO时代APP承办的“第十一届中国电子政务高峰论坛暨2017中国新型智慧城市创新50强授牌”在京隆重举行。万山数据CTO、北大信息化与信息管理研究中心技术顾问鲁四海在活动中发表了题为《智慧城市中的大数据分析服务》的主题演讲。以下为演讲实录:
万山数据CTO、北大信息化与信息管理研究中心技术顾问 鲁四海
大家下午好!各位专家都提到了在新型智慧城市建设中,大数据是非常重要的,大数据的实施落地,如何让数据产生经济效益将是智慧城市建设中的重点工作。
先从时间维度看,2013、2015、2017都有说是大数据的元年,但主题词确有不同,2013是技术,2015年是集中、共享、开放,2017却是进向全面数字化、数据驱动业务创新的起点。显然智慧城市是大数据的主要应用领域。
大数据在智慧城市的应用主要体现在四个方向:对于政府是提供决策支持;对于企业是监控、创新引导;对于市民是提供智能分析,实现智慧生活,例如通过智能地图出行;通过大数据优化城市发展与环境的问题。
从技术层面看,智慧城市重要支撑是物联网、大数据技术。物联网解决数据感知和智慧化响应,大数据技术则是两个过程中最核心的过程,是通过数据挖掘将数据变成知识、变成决策、变成行动指令的过程。
大数据之于智慧城市如此重要,那在建设过程是否也面临一些问题和挑战,我们团队调研发现主要有以下几个方面:
一是数据安全问题制约数据开放;二是用户不能便捷使用数据进行分析;三是统一的平台如何满足不同部门对数据的要求;四是很多数据不是鲜活的,建设好大数据平台,其中很多数据可能是历史的。从技术视角看,缺少一个敏捷数据分析平。
敏捷大数据分析平台,四个特点:
第一,它是面向用户的。大数据分析不仅是IT部门或数据分析师的事情,它应有运营和BD、PR的参与。例如企业,可能是客服,政府是市民服务热线等服务机构。
第二,一定要面向业务场景。在不同的领域,比如交通、社区服务,在使用过程中,日报、周报能够反馈过来。
第三,即时计算。如果一个分析需要几个小时或更长时间,对于普通用户是完全接受不了的。
第四,支持探索式的分析。要做到探索式的分析要做好三个方面的事情,一是数据的可视化,分析人员看到的数据是可理解的,而不是数据库中的英文字母;二是分析的可视化,指的是分析的过程所见即所得的;三是算法模型的可视化,对于业务用户“看得见”可用的模型,能简单地调用相关模型算法,然后连接自己的数据就要能实现数据挖掘。
提到敏捷分析时,大家可能会想是不是讲敏捷BI。此敏捷非彼敏捷。最大的区别在于敏捷BI重视工具本身的轻便,即安装部署的轻便,而忽视的使用户的轻便和功能的丰富程度。所以导致很多人一说敏捷就是HTML5、图表、不建、直接分析等,敏捷的最终目的是让业务用户参与数据分析,实际上这几点解决不了这个问题。
需要的未来发展的敏捷数据平台应该具备以下特点:
第一,多数据源集成;
因为大数据分析挖掘一定是广泛维度的数据才能产生它的价值。
第二,业务化语言表达;
对于分析人员,不是容易看懂数据标的东西。
第三,未来的建设应是集约化的;
工具平台是可以通用的,大部分数据应是共享的,当然也存在个性化数据。未来的平台是一种这样的结构,平台层应是功能上完全通用,能够通过多租户的技术供给不同组织使用。在这个过程中,不同的租户可以享受一些公共开放的数据,但也有自己配置管理的权限,这样才可达到快速发展的过程。
第四,灵活的数据管理。
将分散的数据快速实现逻辑集中,跨表、跨库等问题不需要分析师的关注,他只需要分析他所得东西,分析师要找到数据,然后选择合适的模型算法和可视化工具,快速完成分析。
第五,KPI;
作为一个分析平台,分析后要反映到业务过程中,其中很重要的一点是有很多的KPI,通过KPI监控,把异常即时反馈到业务过程中,通知到人及时做出决策,通知到系统及时做出反馈。
第六,算法库;
很多基础算法是通用的,只是数据的不同。比如环比、同比等,根据业务场景的特点,用的时候选择相应的数据对应可能出现的结果。
万山数据提供的敏捷分析平台即是按这样的应用需求设计,不仅有丰富的功能,还在数据安全管理、共享开放上下了很多功夫,同时兼容各种数据分析环节中的事实标准,比如报表兼容Jasper、BIRT,图表兼容Hightcharts、ExtJS,数据挖掘完全支持R语言,还能直接集及TOS的ETL任务调度……
最后,介绍一下万山数据,北京万山数据科技有限公司,核心团队由来自于著名科研机构、知名企业的大数据专家组成。是中国新新一代IT产业推进联盟孵化的首家大数据公司。我们主要提供两个方向的产品和服务:大数据分析技术与工具、数据分析服务。
技术与工具包括大数据敏捷分析平台、文本数据的挖掘平台、大数据多屏互动系统,解决从数据集成、分析到交互中的问题。仅有工具是不够的,数据分析需要模型、算法,还需要对数据资源的全面了解、对数据质量的管理,因此我们提供了大数据资源规划的服务,主要解决三个问题,知道有什么数据,哪些数据是可用的,以及解决怎么用的问题。谢谢大家!