马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
本文为您介绍如何监控数据质量、设置表的质量监控规则和监控提醒等。 前提条件
在进行本实验前,请首先完成数据采集和数据加工中的操作。
背景信息
数据质量是支持多种异构数据源的质量校验、通知、管理服务的一站式平台。数据质量以数据集(DataSet)为监控对象,目前支持MaxCompute数据表和DataHub实时数据流的监控。当离线MaxCompute数据发生变化时,数据质量会对数据进行校验,并阻塞生产链路,以避免问题数据污染扩散。同时,数据质量提供历史校验结果的管理,以便您对数据质量分析和定级。在流式数据场景下,数据质量能够基于Datahub数据通道进行断流监控,第一时间告警给订阅用户,并且支持橙色、红色告警等级以及告警频次设置,最大限度减少冗余报警。 数据质量开发流程- 针对已有的表进行监控规则配置,配置完成后进行试跑,验证该规则是否适用。您可以根据试跑结果,确认此次任务产出的数据是否符合预期。建议每个表规则配置完成后,都进行一次试跑操作,以验证表规则的适用性。
- 试跑成功后,将该规则和调度任务进行关联。在规则配置完成且试跑成功的情况下,您需要将表和其产出任务进行关联,以便每次表的产出任务运行完成后,都会触发数据质量规则的校验,以保证数据的准确性。
- 关联调度后,每次调度任务代码运行完成,都会触发数据质量的校验规则,以提升任务准确性。数据质量支持设置规则订阅,您可以针对重要的表及其规则设置订阅,设置订阅后会根据数据质量的校验结果进行告警,从而实现对校验结果的跟踪。如果数据质量校验结果异常,则会根据配置的告警策略进行通知。
说明- 每张表在完成规则的配置后,都需要进行试跑、关联调度和规则订阅等操作。
- 数据质量会产生额外的计算费用,更多详情请参见数据质量概述。
新增表规则配置如果已经完成数据采集和数据加工实验,请确认您是否已拥有数据表:ods_raw_log_d、ods_user_info_d、ods_log_info_d、dw_user_info_all_d和rpt_user_info_d。 完成确认后,请单击左上角的图标,选择全部产品 > 数据质量后,单击左侧导航栏中的规则配置,进行表规则的配置。您可以在规则配置页面输入表名,搜素需要设置的表。 在设置表规则强度时,数据仓库中越底层的表,设置强规则的次数越多。这是因为ODS层的数据作为数仓中的原始数据,一定要保证其数据的准确性,避免因ODS层的数据质量太差而影响其它层的数据,及时止损。 数据质量还为您提供任务查询功能,以便查看已配置规则的校验结果,详情请参见任务查询。
|