马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
一、文章概述 马云曾经讲过“互联网已经从IT时代进入到DT时代”,可见互联网的大佬非常看重数据。数据已经是各个公司最宝贵的资产,之前在【数据仓库篇】讲的都是公司数据建设的方法,那么公司如何才能把自己的数据资产建好,管理好和使用好呢?要做到这些可谓是任重道远,不仅仅需要正确的方法论和管理策略,更需要我们开发出一个好的管理工具,将复杂的业务数据流程简单化、可视化。因此我们需要开发一款高效的大数据实时/离线任务开发、调度和数据管理的可视化工具,下面将从三个主要方面介绍数据资产管理。
二、数据资产管理概述
1、数据地图管理
数据地图是面向整个基础数仓->数据中台->数据集市的统一查询和管理工具。数据地图的主要功能是为数据开发者提供所有数据信息,通过元数据信息的收集、数据血缘关系探查、数据权限管理、数据生命周期管理等手段,解决“有哪些数据可以用,怎么用”、“在哪里可以找到这些数据”、“补充数据会影响到哪些任务”等难题。
数据地图管理需要具有如下功能: 基础管理:自动地探查系统中的表信息,按照owner、集群、主题、表名、分区、字段、存储等信息,同时也支持简单的数据预览功能。 数据血缘关系管理:根据任务主题、任务节点、脚本程序等因素自动建立起来的血缘关系,实现数据链路的可查。 生命周期管理:面对数据爆炸式的增长,对数据表进行生命周期管理十分必要。全覆盖整个数据体系的生命周期管理,可以提高存储系统的利用效率。合理的数据生命周期管理要保证温热数据占整个数据体系的大部分;为了保证数据资产的完整性,对于重要的基础数据要长期保存;对于数据中间计算过程数据,在保证满足绝大多数应用访问历史数据的前提下,缩短保留生命周期,可以有效的降低存储成本。 权限管理:通过合理划分表的安全等级,建立表级、【字段级】的权限授权、审批流程,以保障数据安全。 类目体系管理:所谓类目体系管理也可以理解为主题管理+业务分析管理,就是把相关业务的数据打标签,需要支持多级表的类目管理、实现最短的时间内找到所需数据表的目标。 操作记录管理:对新建、删除、更新表结构等操作做自动的记录,对于高安全等级的表结构变更,需要自动发送邮件+短信等信息到leader岗以及责任人。并且要实现数据操作踪迹可查询。
2、数据模型管理
数据模型管理主要是为了解决数据架构设计和数据开发不一致的问题。为达到数据开发者的表名、字段名的规范性,架构师从工具层面合理地进行模型分层、主题划分和统一开发规范,其实就是规则配置和对表名、字段名的定期校验,这一部分可以参考“【数据仓库篇】数据中台建设规范”。
3、数据质量管理 在实际工作过程中,即使数据计算任务没有报警,也不能代表数据就是正确的。比如源数据异常、代码逻辑修改后有问题等情况下,数据计算任务是正常的,但会造成数据的不准确。数据质量管理的核心是保证数据的准确性。完善的数据质量工具需要包含:准确性校验规则,双表(多表)校验,输出校验报告。具体可以参见“【数据质量篇】数据质量维度介绍”。
保障数据质量,可以从事前、事中、事后入手。事前,我们可以制定每份数据的数据质量监控规则,通常检测规则数量和数据本身的重要程度正相关;事中,通过对调度中的数据进行质量监控,对不符合预期的重要数据错误节点,可以强制杀死,使后面的节点不执行,做到宁可不出数据,也不要出错误的数据;事后,需要对整个数据质量情况进行打分和分析,将一些不足和需要改进的地方反馈出来,以促使整个大数据体系健康发展。
三、总结
DT时代带来了数据爆炸式地增长,管理好、治理好、利用好这些数据资产十分必要。带给我们数据开发者的挑战是,你不仅仅需要懂得如何写SQL,更需要掌握多种开发技能,在宏观层面管理好数据资产。
作者:清和 来源:大数据漫路求索
|