最具影响力的数字化技术在线社区

168主编 发表于 2021-1-31 15:49:02

大数据平台——元数据管理系统的设计与实现

本帖最后由 168主编 于 2021-1-31 15:50 编辑

来源:中国联通网研院网优网管部IT技术研究团队作者:董润莎
1. 引言      随着信息时代的发展,企业建立了多种IT系统用于支持企业日常运作,同时,企业管理层需要利用已经累积的大量数据制定出对企业发展具有战略价值的决策。大数据背景下的信息流动是一个典型的信息供应链( Information Supply Chain,ISC )。
      这里,“ETL”是指数据的提取、转换和装载,它是数据加工的第一个步骤,将不同业务系统的数据处理成更加统一的表达方式;“数据仓库”按照时间或业务维度来存放ETL后的数据集合,用于支持管理人员决策;数据市场、分析报告工具促进数据仓库中策略性的业务数据转换为企业业务知识及战略。ISC描述了企业数据使用的过程,用于实现ISC各阶段的软件工具和产品需要对所处理的数据有全面理解。      元数据作为描述数据的数据,进一步地说,作为描述流程、信息和对象的数据,是理解数据含义和如何使用数据的关键。为了达成信息供应链关于数据使用的目的,各阶段软件工具和产品需要参与到数据交换及互操作过程,这要求它们对描述数据的元数据有共同的理解,即一系列软件工具和产品在元数据层就必须有效集成。      企业不同部门使用多种业务系统提高了管理和经营效率,但各个IT系统之间由于定位不同,缺少统一数据标准,因此数据共享程度低、数据冗余现象突出;并且各类业务系统的使用人员对业务定义的理解不同,导致企业数据管理与数据分析工作面临严峻挑战。在建设和开发统一的数据仓库系统时,为了加强系统数据管控能力以便对企业经营分析系统各类应用提供数据支撑,需要采用基于元数据的管理方法,即建立元数据管理系统。本文介绍了企业大数据平台在设计和实现元数据管理系统方面的探索。2. 元数据基本概念元数据的分类      元数据贯穿ISC信息流动的全过程,按照各阶段可以分为数据源元数据、ETL元数据、数据仓库元数据、数据市场元数据、应用服务层元数据。其中,数据仓库元数据描述了数据仓库内数据的结构和建立方法,包括表、列、查询、商业规则以及数据仓库的数据交换方法等。为了支持企业信息系统技术、管理和业务等方面的应用,元数据可进一步划分为三类:技术元数据、业务元数据和管理元数据。这三类元数据描述如下
[*]技术元数据:技术元数据是描述经营分析系统中技术领域相关概念、关系和规则的数据,主要包括对数据结构、数据处理过程的特征描述,覆盖经营分析系统数据源接口、数据仓库与数据集市存储、Hadoop平台、ETL、OLAP、数据封装和前端展现等部分;
[*]业务元数据:业务元数据是描述经营分析系统中业务领域相关概念、关系和规则的数据,主要包括业务术语、指标定义和业务规则等信息;
[*]管理元数据:管理元数据是描述经营分析系统中管理领域相关概念、关系和规则的数据,主要包括人员角色、岗位职责和管理流程等信息。

      实施元数据管理能够提供关于企业数据资产和数据使用流程的全局视图,为保证数据质量,实现数据的完整性、一致性和准确性奠定基础。由于软件产品和工具的开发使用历史不同,元数据的格式和语义,以及访问它的接口通常偏重于每个产品的有效操作,而不是与其它产品的元数据交换。为了保证ISC环境中数据能够顺利流动,也便于用户对系统的应用和维护,实现元数据标准化是解决问题的关键。元数据标准CWM      在世界范围内,元数据联盟 Meta Data Coalition(MDC)开发了技术中立、与厂商无关的 OIM(元数据开放信息模型,Open Information Model)标准,而对象管理组织 Object Management Group(OMG)于2000年起采用了 CWM (公共仓库元模型,Common warehouseMetamodel)标准。为了推动标准并使业界广泛认同,MDC成员后来合并进OMG,由OMG发布了统一标准CWM。目前,CWM已成为数据仓库领域元数据管理的事实标准。      由于现实世界中常以形式化的模型来描述某个对象,例如用建筑师用一副设计图建立起一栋房子的模型。构造元数据模型(称为元模型)的目的是要表达具体的元数据实例。元模型基于统一建模语言(Unified ModelingLanguage,UML)来描述。      作为数据仓库领域一个完整的元模型标准,CWM 提供了构造描述一个完整ISC 的所有组件的元数据所需要的语法和定义,为数据仓库和业务分析提供了一组基于模型的元数据集成方案的核心构件,包括:      一个公共元模型,定义数据存储和业务分析的共享元数据;一种公共交换格式,用于交换数据仓库和业务分析中的共享元数据的格式;一个公共程序设计接口,用于访问数据仓库和业务分析中的共享元数据。      实际上,CWM 是由多个不同却密切相关的元模型组成,每个元模型表示了ISC 环境的一个子域,下图描述了CWM 的总体结构。https://vlambda.com/img?url=http://mmbiz.qpic.cn/mmbiz/IABePxMMqmGWfic2wq60OdlUT9FWoFa2uts82FM2CfmafCcvUN0VzR8fEzVyzEVmpJsq8z7d627Ulib22ibvdkOwA/0?wx_fmt=png
      最底层的对象模型层包括四种元模型:核心元模型、行为元模型、关系元模型和实例元模型。核心元模型定义了UML语言核心中最基本的静态建模元素。基础层元模型扩展了对象模型层的模型元素,从而可以表示ISC各阶段的公共服务。资源层定义了组成ISC各种不同类型数据资源的元模型。分析层指定了数据资源模型之间以及数据资源与各种分析模型之间的资源和目标的映射、转换。每一个元模型(或包)致力于解决数据仓库领域和业务分析领域的某个特定建模问题。使用时,可根据需要来选择使用某些层的某几个包,上层的包只依赖于下层的包,而对象模型层的核心元模型是一个必选的基础包。3. 元数据管理系统设计元数据管理系统的业务需求      元数据对ISC各阶段数据顺利流动具有重要意义,因此建立一个集中管理元数据的系统对于企业数据管理与使用十分必要。针对大数据平台数据仓库系统在数据管理方面存在的问题,元数据管理系统存在如下业务需求:      统一定义业务术语和业务指标及其相关关系,解决数据歧义问题;视图化展示数据资产、数据管理团队及其责任关系;管理和维护数据源变化、数据流程变更、数据生命周期,实现数据清理和优化;监控数据使用,统计数据影响,展示数据血缘,控制数据质量;开放元数据基础数据能力,提供元数据服务支撑。元数据管理系统的功能设计      基于业务需求,对元数据管理系统的功能模块分为:
[*]元数据获取模块:ISC各阶段元数据的统一收集、存储和输出。包括自动获取和手工获取两部分。随着大数据技术迅猛发展,从HDFS 上自动获取Hadoop平台元数据也非常重要。
[*]元数据存储模块:包括存储元数据以及元模型。
[*]元数据功能模块:包括元数据基础操作(查询、新增、修改和删除等管理操作)、元数据分析(包括业务指标一致性分析、数据血统分析、数据影响分析等)、元数据权限管理以及元数据服务封装等。
[*]元数据应用模块:包括元数据基础能力开放、报表指标优化清理应用、指标运算关系分析应用等。

元数据管理系统架构      目前有三总常见的元数据管理系统架构:中心式架构、分布式架构和联邦式架构。      中心式架构又称集中式架构,它将ISC各阶段组件的元数据统一收集到中心元数据存储库,而组件内没有或只保存极少量的元数据。中心元数据存储库具有元数据管理和操作权限,每个组件都可以访问中心元数据存储库。由于中心元数据存储库保存了唯一一份完整的元数据集合,各组件访问的元数据是一致的。但这种架构的缺点也很明显,各个组件可能是由不同厂商开发的,内部元数据格式并不一定相同,通常也会有组件内部自己的元数据存储。因此,这种架构对元数据层面的集成化要求非常高。https://vlambda.com/img?url=http://mmbiz.qpic.cn/mmbiz/IABePxMMqmGWfic2wq60OdlUT9FWoFa2ueUST5iaZQlTIQzRyIzxrBcGtdlWHw6j9ic0iaPfia5DRiaoTLvUicRlGDl5Q/0?wx_fmt=png
      分布式架构是指在ISC各阶段组件中存在多个局部元数据存储库,它们之间的元数据交换途径包括元数据桥或元数据交换标准,目前通常采用CWM标准。这种架构实现相对简单,但由于缺乏元数据的统一管理,元数据可能存在重复、不一致,使用起来比较困难。https://vlambda.com/img?url=http://mmbiz.qpic.cn/mmbiz/IABePxMMqmGWfic2wq60OdlUT9FWoFa2uu4XBwQP0F8bIegUMuUw1tIqHsntcrJXrtOKBLjFL8GrkzmyJ0sbtWQ/0?wx_fmt=png      联邦式架构结合了以上两种架构的优点,同时存在多个局部元数据存储库以及一个中心元数据存储库。组件可访问自身局部元数据存储库,也可以访问中心存储库中共享的元数据。https://vlambda.com/img?url=http://mmbiz.qpic.cn/mmbiz/IABePxMMqmGWfic2wq60OdlUT9FWoFa2uXpIiaY9tJpcczQeIXPjvPqZvbStFnB2iaE4QpRZojmr4RahHYzcLxbUA/0?wx_fmt=png      在元数据管理系统的实际建设中,具体采用何种架构,需要结合项目需求、项目可行性、项目成本等各类因素综合考虑。4. 元数据管理系统实践探索      通常,大数据平台的元数据管理系统需要在软件厂商元数据基础产品之上进行定制开发,以满足企业的特别需求以及技术规范,例如扩展CWM的元数据模型。      下面以Primeton 的元数据管理系统基础产品MetaCube6.0为例,针对上文内容进行具体阐述。该产品采用集中式架构和关系型数据库存储,遵循元数据标准CWM。登陆系统之前该元数据管理系统已经根据角色不同分配好了产品用户账号,终端用户通常采用网页浏览器方式登陆。https://vlambda.com/img?url=http://mmbiz.qpic.cn/mmbiz/IABePxMMqmGWfic2wq60OdlUT9FWoFa2urrOmbMsafhHCyicicEFaeROOkGgrRLbLx5PCy4icZicWEyYGicNn2OMD5kw/0?wx_fmt=jpeg      MetaCube系统支持的元数据来源有:
序号元数据来源类型元数据来源
1关系数据库Oracle、SQL Server、DB2
2建模工具ERWin、PowerDesinger
3数据集成工具Datastage、PowerCenter
4BI工具Cognos、BI Office、BO
5调度工具Automation
6开发语言及脚本Perl(日志方式) 、SP(注释方式)
7客户化元数据Excel数据、关系数据库数据
8大数据HadoopHive、Hbase
      系统功能模块如下图所示:https://vlambda.com/img?url=http://mmbiz.qpic.cn/mmbiz/IABePxMMqmGWfic2wq60OdlUT9FWoFa2uWia6Iuib6icjpsPCVORNEGUZR3YudH3AgVYTWcMiaKMXiaBnyyXz8b8JsZA/0?wx_fmt=jpeg
      主要功能有:
[*]元模型的创建、编辑和管理(基于CWM)。https://vlambda.com/img?url=http://mmbiz.qpic.cn/mmbiz/IABePxMMqmGWfic2wq60OdlUT9FWoFa2uGvDYiaXicianP64gJiaGwXd1yUTfWzlb7G6YMpokw95Fan3w4ZnEbIVt8Q/0?wx_fmt=jpeg

[*]数据资产系统视图:包含系统、服务器、数据库、物理模型、数据标准、数据质量、ETL与OLAP、报表、组织架构和作业相关的业务元数据、技术元数据、管理元数据,视图清晰展示了ISC各阶段组件内部的数据信息、数据流程。同时,系统还提供了数据地图功能,方便从宏观上展示各组件之间的数据流向关系。https://vlambda.com/img?url=http://mmbiz.qpic.cn/mmbiz/IABePxMMqmGWfic2wq60OdlUT9FWoFa2uf3rqQkguBpJKUeSsiaqI0DhQbwlmSuFyPYyb9oU7LjfHs561opkTKicA/0?wx_fmt=png

[*]元数据的浏览、查询和编辑:基于元数据树状展示来定位元数据,浏览单个元数据基本信息、子元数据信息、与之相关连的元数据;支持模糊匹配与精确查找元数据;支持新增、删除和修改元数据以及元数据之间的关联关系。https://vlambda.com/img?url=http://mmbiz.qpic.cn/mmbiz/IABePxMMqmGWfic2wq60OdlUT9FWoFa2uPzfDJk8ibmNb1O5cfxnWyTahibhNHL29tOjymTnxqMyaiaVFr5mwUqLyA/0?wx_fmt=png

[*]元数据分析:包括元数据血统分析、影响分析、表关联度分析等。https://vlambda.com/img?url=http://mmbiz.qpic.cn/mmbiz/IABePxMMqmGWfic2wq60OdlUT9FWoFa2ufZAjEPKia0t05OUFKV41CgAJzsvpv61AOiaialS0fTvQjeIEdMs4mXoYQ/0?wx_fmt=png

[*]版本控制:包括查看历史版本的元数据、对比任意两个版本的元数据属性差异以及从历史版本中恢复元数据信息。https://vlambda.com/img?url=http://mmbiz.qpic.cn/mmbiz/IABePxMMqmGWfic2wq60OdlUT9FWoFa2uuxckIPef5F2TKU9zuYZTNbx6Rxa3XAeLA6NoMEFRaawGcibk0Sv33cQ/0?wx_fmt=png

[*]其它功能:包括诸如元数据的变更订阅、元数据的检核、支持用户创建视图收藏自己关注的元数据、导出共享元数据等功能。

      在搭建企业级元数据管理平台时,通常会针对需求并基于某基础产品定制开发。因此业务驱动对元数据管理系统的实施十分重要,在具体建设时,可根据需求逐步迭代开发。5. 结论      本文讨论了大数据平台在元数据管理系统方面的需求及结构,初步探索了元数据管理系统的实践方法。针对信息供应链各阶段来说,目前国内元数据的集成和管理水平还不高,尚未发挥应有的作用。另外,企业内部基于元数据的业务需求收集机制不够完善,限制了元数据管理系统的演进和发展。总之,元数据管理系统建设仍需要在实际工作中具体完善,相关研究也需要深入开展。
-END-https://vlambda.com/img?url=http://mmbiz.qpic.cn/mmbiz/IABePxMMqmGnhqTvCARBySur7pkV4TZ8icKv2Pw6y0B6TWkYcwm8yLk17urgU4Hxice3HSEFP4ysC9oXSUcrMjFQ/0?wx_fmt=png
声明:本文为中国联通网研院网优网管部IT技术研究团队独家提供。
页: [1]
查看完整版本: 大数据平台——元数据管理系统的设计与实现