摘要:随着物联网、大数据等IT技术的快速发展, 产生了大量多源异构的数据, 但这些数据往往是各自为政、孤立存在, 数据中蕴藏的知识和价值不能得到有效释放。首先分析了工业大数据的现状和特性, 针对大数据时代的数据应用挑战, 提出元数据驱动的大数据服务平台的体系结构, 利用元数据实现数据标准化管理, 并驱动合适粒度的数据服务, 实现大数据时代的数据自服务平台, 推动数据共享和价值释放。

  随着物联网、大数据等IT技术的快速发展, 包括电力企业在内的行业均产生大量的数据, 其数据储存也占据着大量的资源, 依据相关数据限制, 在未来的发展中其数据总量呈现上升趋势, 大数据时代属于一场前所未有的革命。当前大数据主要应用在互联网、传统商业领域, 主要是开展客户挖掘、购物行为预测, 购物需求分析等。在信息时代下, 工业化生产逐渐朝着智能化、柔性化的方向发展。不管是在生产设备, 或者是感知设备均属于数据的生产者。依据相关资料显示, 制造行业内的数据储存量明显高于其他行业。在2012年其数据储存量已经接近于2EB。随着数据储存量的增长, 其管理难度、数据种类也在不断变化, 呈爆炸式增长趋势, 直接导致工业大数据爆发。德国的4.0工业、美国的工业互联网行业的深入发展以及“中国制造2025”规划, 将促使智能化分析与物联网实现密切配合, 以此对现存的生产方式、管理方式进行转变。德国4.0工业也提出过“智能工厂”“智能物流”等发展理念, 在任何一种发现理念中, 其数据属于底层核心。工业4.0就是将多源异构的数据整合并支撑前端智能的过程。无疑, 数据将会渗透到企业运营的整个生命周期, 推动制造业向智能化转型, 意味着工业大数据时代到来。

  结合相关资料, 工业大数据本身具备采样性、多样性的排列顺序, 其数据还具备混杂性的特点。工业数据主要分为密集数据、慢数据、快数据。通过深入分析发现, 工业数据还具有多源性、广泛性、动态性的特点, 在工业数据的应用与管理上存在着较多的问题与挑战。主要是因为工业数据涉及的部门较多, 其涉及的领域也比较广, 在实际工作中面临着数据安全、所有权、质量、管理、控制等问题。加之当前我国对工业数据管理与控制上还未能形成统一的管理制度与管理固定, 在实际的管理中“信息孤岛”现象普遍存在。这就对工业产生的海量数据, 如何进行合理管理, 科学储存, 以此提升数据资源的利用率, 成为当前工业行业改革的重点问题之一。

  使用元数据, 能够对工业数据进行目录化管理, 实现数据服务, 这类技术能够弥补传统数据集中中的缺陷, 特别是数据集成不完善问题。从而能使工业大数据能得到更好的存储和共享。

  一、平台体系架构

  多源异构的数据就像一个个信息孤岛, 如何集成到统一的数据中心并在统一管理下对外提供数据服务是研究的重点。为了打破数据壁垒, 释放数据价值, 应用元数据管理技术建立元数据管理平台, 实现元数据的采集、变更、删除及检索, 并在元数据的驱动下实现数据的抽取、转换、加载, 结合数据标准管理、数据模型管理和数据质量管理, 建立电子化数据目录, 最终实现统一的对外数据服务。

图1 元数据驱动的大数据服务平台架构

  数据中心将来源于设备状态监测、企业管理信息系统等不同来源、不同特性的数据通过统一的ETL过程存储下来, 并在此过程中实现元数据的采集和稽核, 建立电子化的数据目录并存储在元数据库中, 同时在服务平台上建立适当粒度的数据服务。外部应用可以在元数据管理平台中检索元数据和数据服务, 并构成数据服务请求进而访问数据, 从而实现应用系统以自助式、自主式的方式获得数据, 真正意义上打破数据壁垒, 实现工业大数据环境下的数据自服务, 释放数据价值。

  二、关键技术

  (一)元数据管理

  元数据是一种结构化的信息, 用于对某项信息资源进行描述、解释、定位, 使其易于提取和使用。工业大数据时代, 如何从海量数据中发现知识进行分析成为难题。为此通过元数据管理高效支撑海量数据资产的快速识别定位、高效有序管理和智能便捷应用, 使决策者知晓数据资产概况, 管理者知晓数据资产的健康运行状况, 使用者知晓数据资产的来龙去脉。

  元数据包括业务元数据、技术元数据和管理元数据。元数据管理以业务模型为切入点, 以数据模型 (特指基于业务原始数据且未进行逻辑加工处理的模型) 为中心, 制定业务模型和数据模型标准, 管理数据模型、数据应用、数据集成、数据处理、数据视图等对象元数据信息, 监控标准的执行情况。

图2 元数据管理模型

  元数据管理包含元数据采集、元数据维护、元数据发布、血缘分析、影响度分析、表关联度分析、元数据稽核等功能。通过自动采集ETL转换过程, 对结构化、非结构化的数据进行统一管理, 进而支撑上层数据服务。

  (二)数据标准管理

  数据标准管理要符合企业数据标准管理的相关办法, 落实数据标准管理相关人员的职责, 固化数据标准管理的流程规范。

  数据标准管理通过采集抽取元数据, 建立标准数据与元数据映射, 并对关键元数据进行筛选, 按照业务、地域、系统3个维度进行划分形成数据目录, 数据目录支持按维度下钻浏览, 同时支持数据标准对数据地图进行探索;数据标准管理支持数据分布智能查询、数据分布浏览功能。可根据元数据信息及专业数据, 结合业务经验, 将具有词典意义的单词定义为标准单词, 也可将多个单词组合成业务术语或技术用语。

  (三)数据模型管理

  数据模型管理是对企业概念模型、逻辑模型和物理模型进行统一管理, 覆盖模型的设计、发布和应用等各阶段。数据模型管理将企业模型管理规范、模型与数据库映射管理导入数据模型管理组件中, 并提供模型信息维护、版本管理、业务模型与物理模型映射等功能。数据模型管理也提供模型的可视化展现、在设计期、开发期、运行期的模型分析比对、模型的分发功能, 进行模型的全生命周期管理。

  (四)数据服务总线

  数据服务总线建立基于元数据和数据模型的对外数据服务, 采用基于数据模型的可视化配置的方式, 节省繁复的接口脚本编写过程, 提高数据服务的效率。

  数据服务总线提供的统一的数据服务目录, 对数据资产的产生、位置、责任单位、共享范围、更新维护方式、服务方式等方面的信息进行全面描述, 为企业提供统一的数据资源全景地图, 明确信息资源有什么, 在哪里, 谁负责, 做到“信息清、资源清”。

  通过数据服务标准化开放访问, 帮助数据中心和应用中心实现应用和数据分离, 提高应用开发效率和生产效率。访问接口支持Web Service、Http/Rest、FTP等, 并提供统一的服务封装能力, 将对外共享的数据按照一定粒度封装为独立的服务实体, 尽可能屏蔽内部的细节, 只提供标准化的交互接口, 保证了数据的安全性和数据交换的标准化。

  三、应用实践

  中国南方电网有限责任公司调峰调频发电公司成立于2006年7月, 隶属于中国南方电网有限责任公司。公司主要负责南方电网区域内的调峰、调频电厂的运营、维护、管理和建设工作。其工作目的是为南方电网提供优质运行服务, 确保南方电网的安全性、经济性。目前, 公司的已投运机组容量642万k W, 在建机组容量158万k W, 前期开发项目容量660万k W。公司的管辖范围主要包括:调峰、调频、调相、事故备用等, 是确保电网安全运行的关键环节, 直接带动了当地经济的发展。

  当前调峰调频发电公司正在开展围绕发电设备状态监测的状态监测中心研究与建设工作。其软件环境分为数据中心和应用中心两大部分。数据中心集中存储设备准实时数据和管理业务的结构化数据, 分为采集层、存储层、数据仓库层、数据服务层。应用中心以轻量化应用的思路, 遵循OSGi技术规范, 支持PC端、移动端的组件化应用。

图3 状态监测中心软件环境逻辑架构图

  通过应用元数据驱动的数据服务平台, 状态监测中心的数据中心已具备各类准实时的设备监测数据和结构化的业务系统数据统一采集、存储、综合管理、分析和数据服务等功能, 初步实现应用和数据的解耦, 为设备实时管理、企业实时管控和科学决策提供支持。

  四、结论

  随着数据的指数级爆发式增长, 企业信息化转型和数字化驱动的迫切需求, 如何应对大数据时代, 从数据中发现知识并驱动企业发展, 成为当前的热点问题。提出元数据驱动的数据服务平台, 适合大数据的存储分析应用需求, 是实现数据自服务、推动企业数据化运营的可行路线。在未来的工作中, 要考虑如何将数据服务平台支撑的应用效果反馈到平台中, 实现闭环的数据服务体系, 对设备监测和企业管理进行控制优化。

  作者:佘俊 周宇鹏 王林 董天波 兰天

责任编辑:qinpeng