马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
本帖最后由 rosemanor 于 2020-3-7 20:57 编辑
一、 概述 1.1背景介绍 随着大数据技术的不断发展以及对大数据价值的深入挖掘,越来越多的企业已将数据视为数据资产进行管理和研究。将数据当作核心资源的时代,数据呈现出战略化、资产化、社会化等特征。企业和政府部门经历了IT系统的建设都存在了海量的数据,并且这些海量的数据分散在不同角落,导致了数据资源的利用复杂和管理困难。想从统一的全局的业务视角去概览整个企业或是政府部门内部的数据信息,存在响应迟缓,时效不够,工作效率低,成本高昂,或是根本无法做到。如何有效的管理我们的数据资源使之为政府、企业机构提供有效的数据驱动,是大数据时代必须要解决的问题。首先必须理清我们当前面临的问题:系统分散使系统之间的关系不清、各个系统内的数据标准从何而来、数据质量如何保障、分散的数据如何集中、如何快速的找到需要的数据、如何有效的监控数据。针对上诉的问题,数据治理平台以数据为核心,实现了贯穿数据全生命周期的管理模式,通过对异构数据环境的综合管理,构建标准化、流程化、一体化的数据管理体系,确保数据架构合理、条理清晰、过程可控、知识可传承。 1.2产品定位 以“标准、治理、共享”为核心理念,数据治理平台提供一套完整的数据治理方案。数据治理平台以元数据为核心,驱动数据标准、数据开发以及数据质量管理,通过完整可持续的元数据管理与应用,保证数据标准可落地、数据开发可管理、数据质量可稽核。
图 总体定位
1.3产品优势
1.3.1自动化对标命名规范 准确的标准化命名是实现有效数据治理的基础。数据治理平台可根据预置命名规则一键生成标准命名。命名规范支持企业字典标准的结合的自动对标命名,实现自动化分词对标命名规范。 1.3.2多类型数据源适配 数据治理平台可管理多种数据源,适配多种数据源的连接。具体如下: 另外平台具备可扩展的适配接口,目前不支持的数据源可通过接口化、配置化的方式实现新增数据源的快速适配。 1.3.3定制化元模型管理 元模型是标准化、多维度的元数据管理模型,通过定制化的元模型管理可实现灵活多行业的元数据模型适配功能。数据治理平台提供数据库环境内置的元数据类型支持,支持用户按需定制元模型结构,形成统一的元数据信息,特别适合业务元数据的管理。 1.3.4自动化元数据采集
平台提供元数据自动化采集和解析功能,通过程序分析,日志解析,文件导入的形式自动获得数据的关联关系。在元数据采集和血缘关系解析阶段,可以大大减轻人为工作量,提高元数据采集、分析的效率。 1.3.5强大的元数据分析功能
相较于传统单一的元数据血缘分析,数据治理平台提供血缘分析、影响分析、关联关系分析三种元数据分析方式,满足多种元数据分析要求。元数据血缘分析从当前关注的数据表为中心实现上游关联表的回溯;元数据影响分析从当前关注的数据表为中心实现下游影响表的下转;元数据关联关系分析从当前关注的数据对象(接口、程序、表)为中心,展示上下游的关联对象关系。 1.3.6全面的数据质量管理功能
数据治理平台的数据质量管理功能不只是在事后实现问题数据的发现和报告,关键是通过事前的上线控制以及事中的开发质量稽核实现全生命周期的数据质量管理。此外产品提供数十种质量检查函数并通过自定义脚本实现灵活的质量规则扩展功能。
1.3.7全景式的数据资产地图展示
在数据资产可视化方面,数据治理平台通过统一的元数据分析形成企业级的数据目录,并通过全景化可视化的数据地图充分展示当前数据资产的总体分布情况、新增情况、使用情况、标准状况、健康状况等信息。数据资产地图的最终交付形态可根据用户需求灵活定制。 二、产品结构 2.1总体平台架构
数据治理平台的基础与核心是元数据采集与解析引擎。功能层分为数据标准化管理、数据质量管理、数据开发管理、调度管理以及运维监控管理。门户层具备系统视图、数据地图、数据目录等功能,提供功能操作交互和视觉效果。 三、产品功能 3.1数据架构统一管理 数据架构是IT信息化架构的重要组成部分,用来解决“如何管理数据”和“如何使用数据”的问题。通过数据架构的统一管理,可以实现如下四个目标: 1、实现数据标准化 2、减少数据冗余,提高数据质量 3、消除信息孤岛,实现数据在系统间的广泛共享。 4、发挥数据价值,为用户带来高附加价值。 具体来看平台通过严格的权限管理进行角色、用户、团队、资源的授权管理。系统通过菜单分配给角色,将角色授权给用户,达到系统功能权限的控制。通过创建不同的使用团队,团队间通过开放、申请,授权等操作达到对数据对象权限的管控。最终达到整个数据架构的划分的目标。 3.2审批流程统一管理平台针对数据标准发布、物理模型发布、逻辑模型发布提供统一的审批流程管理功能。使用平台自有的流程编辑器可实现便捷的流程节点设计、灵活的审批人员设置,以可视化的方式满足多种流程审批场景。
图 流程编辑
3.3数据源统一管理
数据治理平台支持多种数据源的连接,包括主流的关系型数据库、Excel/CSV文本数据源,基于hadoop的大数据平台,大数据平台以及其它标准JDBC协议的数据源。具体数据源如下:
类型 | | | 主流关系型数据库:ORACLE、MYSQL、DB2、支持HDFS、HIVE、HBASE、TBASE等大数据平台 支持POSTGRESQL、ES、SOLR等NOSQL数据库 | | 支持EXCEL和CSV文件作为数据源,读取文件中的数据 | | 支持KETTLE、POWERDESINGER、FINE REPORT等工具 |
3.4数据标准统一管理
数据治理平台立足于从根本上提高生产开发和数据管理的效率,提供了一套关于数据标准的全生命周期管理办法。系统支持多元标准的制定,进行统一的管理,并提供相应的查询入口,方便用户快速的查找到相应的标准。具体来看特点如下: 通过数据标准的制定,能够有效防止用语的混乱使用,进一步保障数据的质量和正确性。 数据标准的制定为模型开发、主数据质量检查、元数据质量检查提供自能化帮助 内置多种数据标准体系,可通过多种方式进行灵活扩展和维护,包含手工录入、批量导入、自动化
3.5元数据管理
系统提供从已有系统中采集元数据信息,支持采集任务配置和采集的模型结果信息的查看。支持关系数据库、大数据平台、KETTLE、BIREPORT、SQL、存储过程、建模工具等系统的元数据信息采集。 元数据维护支持对元数据信息进行如血缘关系的调整,模型字段信息的添加、修改等。支持元数据的血缘分析和影响分析,了解数据的脉络和影响范围,为数据中心的运行和维护提供支撑。此外元数据维护支持元数据版本自动生成,进行版本间的任意比较,以及元数据版本回退,记录元数据的变更信息,确保元数据的正确性,以及元数据使用的可靠性。 3.6数据质量管理
数据治理平台内置空值检查、值域检查、重复数据检查、脚本检查、波动检查、规范检查等多种常用的检查规则,用户可以组合不同的规则对数据对象进行检查,并对检查时间进行灵活的配置。
图 数据质量规则配置
同时针对具体的一张物理表可查看其配置的全部规则内容,对每项规则可进行编辑、移除以及启动、停用操作。
图 数据质量规则查看
平台提供对质量检查结果的查看,可对按照规则发现的问题数据的清单,统计错误总数和检查总数,使管理者掌握数据的质量情况。在报告形式上支持定制化开发,按照不同库、不同问题类型、各表等维度提供总体视图,从数据质量趋势、问题类型、问题对象来分析信息系统的数据质量的情况。
图 数据质量报告
3.7数据目录管理
数据目录是数据治理平台主要成果展示窗口之一,数据资源目录为不同的角色提供不同的意义。系统维护者可以通过数据目录了解详细的技术处理信息,在数据目录可以查看汇聚层的接口信息,标准数据层的标准数据模型,专题分析数据模型。通过数据目录的血缘关系快速的查看数据的出处,通过影响分析可以快速准确的定位数据的使用者。数据使用者通过数据资源目录可以快速的找到需要的数据,并了解数据的结构、含义、以及位置。
图 数据目录管理
3.8数据资产视图
数据治理平台提供全方位的数据资产视图,一目了然的掌握用户数据的全部情况。包含数据分布、数据量、数据趋势、数据质量、标准化程度、服务调用情况、数据流转等情况。
图 数据资产视图
四、部署环境 4.1环境要求 服务端对硬件配置、操作系统、软件环境、应用服务器和数据库均有限定,具体配置如下表:
| | | | 普通服务器 CPU:高端服务器专用4核 内存:16G以上 磁盘:100G级+ | 普通服务器 CPU:高端服务器专用8核 内存:32G以上 磁盘:500G级+ | | | | | | | | | 4.2部署方式部署方式和说明如下: 4.3客户端环境
浏览器:推荐使用Chrome60以上版本 硬件配置:4G内存,1G以上显存。 来源:数据狐
|