本文为您介绍如何监控数据质量、设置表的质量监控规则和监控提醒等。
前提条件在流式数据场景下,数据质量能够基于Datahub数据通道进行断流监控,第一时间告警给订阅用户,并且支持橙色、红色告警等级以及告警频次设置,最大限度减少冗余报警。
数据质量开发流程如果已经完成数据采集和数据加工实验,请确认您是否已拥有数据表:ods_raw_log_d、ods_user_info_d、ods_log_info_d、dw_user_info_all_d和rpt_user_info_d。
完成确认后,请单击左上角的图标,选择全部产品 > 数据质量后,单击左侧导航栏中的规则配置,进行表规则的配置。您可以在规则配置页面输入表名,搜素需要设置的表。
ods_raw_log_d表的数据来源为oss_workshop_log,数据是从OSS中获取到的日志数据,其分区格式为${bdp.system.bizdate}(获取到前一天的日期)。
对于此类每天产出的日志数据,您可以配置表的分区表达式。分区表达式有如下几种,您可以选择 dt=$[yyyymmdd-1] 。表达式的详情请参见调度参数。选择分区表达式后,单击确认。
单击左上角的图标,选择全部产品 > 运维中心。
单击左侧导航栏中的周期任务运维 > 周期任务,找到oss_数据同步任务,右键单击选择配置质量监控。在配置质量监控对话框中,选择表名(ods_raw_log_d)和分区表达式dt=$[yyyymmdd-1]),单击添加即可。
单击关联调度,可以与已提交到调度的节点任务进行绑定,系统会根据血缘关系给出推荐绑定的任务,也支持自定义绑定。
在关联调度对话框中,输入节点ID或节点名称,单击添加。添加完成后,即可完成与调度节点任务的绑定。ods_user_info_d是用户信息表,您在配置规则时,需要配置表的行数校验和主键唯一性校验,避免数据重复。
ods_log_info_d数据主要来源于解析ods_raw_log_d表中的数据。鉴于日志中的数据无法配置过多监控,只需要配置表数据不为空的校验规则即可。
dw_user_info_all_d表是针对ods_user_info_d和ods_log_info_d表的数据汇总,由于流程较为简单,ods层已配置了表行数不为空的规则,所以该表无需进行数据质量监控规则的配置,以节省计算资源。
rpt_user_info_d表是数据汇总后的结果表。根据该表的数据,您可以进行表行数波动监测和针对主键进行唯一值校验。
在设置表规则强度时,数据仓库中越底层的表,设置强规则的次数越多。这是因为ODS层的数据作为数仓中的原始数据,一定要保证其数据的准确性,避免因ODS层的数据质量太差而影响其它层的数据,及时止损。
数据质量还为您提供任务查询功能,以便查看已配置规则的校验结果,详情请参见任务查询。
欢迎光临 168大数据 (http://www.bi168.cn/) | Powered by Discuz! X3.2 |