最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

[实践案例] MaxCompute数据质量监控

[复制链接]
跳转到指定楼层
楼主
发表于 2020-5-20 12:51:45 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

本文为您介绍如何监控数据质量、设置表的质量监控规则和监控提醒等。

前提条件
在进行本实验前,请首先完成数据采集和数据加工中的操作。
背景信息
数据质量是支持多种异构数据源的质量校验、通知、管理服务的一站式平台。数据质量以数据集(DataSet)为监控对象,目前支持MaxCompute数据表和DataHub实时数据流的监控。当离线MaxCompute数据发生变化时,数据质量会对数据进行校验,并阻塞生产链路,以避免问题数据污染扩散。同时,数据质量提供历史校验结果的管理,以便您对数据质量分析和定级。

在流式数据场景下,数据质量能够基于Datahub数据通道进行断流监控,第一时间告警给订阅用户,并且支持橙色、红色告警等级以及告警频次设置,最大限度减少冗余报警。

数据质量开发流程
  • 针对已有的表进行监控规则配置,配置完成后进行试跑,验证该规则是否适用。您可以根据试跑结果,确认此次任务产出的数据是否符合预期。建议每个表规则配置完成后,都进行一次试跑操作,以验证表规则的适用性。
  • 试跑成功后,将该规则和调度任务进行关联。在规则配置完成且试跑成功的情况下,您需要将表和其产出任务进行关联,以便每次表的产出任务运行完成后,都会触发数据质量规则的校验,以保证数据的准确性。
  • 关联调度后,每次调度任务代码运行完成,都会触发数据质量的校验规则,以提升任务准确性。数据质量支持设置规则订阅,您可以针对重要的表及其规则设置订阅,设置订阅后会根据数据质量的校验结果进行告警,从而实现对校验结果的跟踪。如果数据质量校验结果异常,则会根据配置的告警策略进行通知。


说明
  • 每张表在完成规则的配置后,都需要进行试跑、关联调度和规则订阅等操作。
  • 数据质量会产生额外的计算费用,更多详情请参见数据质量概述


新增表规则配置

如果已经完成数据采集和数据加工实验,请确认您是否已拥有数据表:ods_raw_log_d、ods_user_info_d、ods_log_info_d、dw_user_info_all_d和rpt_user_info_d。

完成确认后,请单击左上角的图标,选择全部产品 > 数据质量后,单击左侧导航栏中的规则配置,进行表规则的配置。您可以在规则配置页面输入表名,搜素需要设置的表。

  • 配置ods_raw_log_d表规则。
    • 单击ods_raw_log_d表后的配置监控规则。
    • 在已添加的分区表达式模块,单击+,添加分区表达式。

      ods_raw_log_d表的数据来源为oss_workshop_log,数据是从OSS中获取到的日志数据,其分区格式为${bdp.system.bizdate}(获取到前一天的日期)。

      对于此类每天产出的日志数据,您可以配置表的分区表达式。分区表达式有如下几种,您可以选择 dt=$[yyyymmdd-1] 。表达式的详情请参见调度参数

      说明 如果表中无分区列,可以配置无分区,请根据真实的分区值配置对应的分区表达式。

      选择分区表达式后,单击确认。


    • 单击右上角的创建规则,在模板规则对话框中进行配置。
    • 单击添加监控规则,选择规则模板为表行数,固定值,设置规则的强度为强、比较方式为期望值大于0。ods_raw_log_d表的数据来源于OSS上传的日志文件,作为源头表,您需要尽早判断该表的分区中是否存在数据。如果该表没有数据,则需要阻止后续任务运行。如果来源表没有数据,后续任务运行无意义。
      说明 只有强规则下红色报警会导致任务阻塞,阻塞会将任务的实例状态置为失败。


      配置完成后,单击批量保存。

      说明 该配置主要是为了避免分区中没有数据,导致下游任务的数据来源为空的问题。


    • 单击右上角的试跑,在试跑对话框中,选择调度时间,单击试跑。试跑可以立即触发数据质量的校验规则,对配置完成的规则进行校检。试跑完成后,单击试跑成功!点击查看试跑结果,即可跳转至试跑结果页面。

    • 进行关联调度。数据质量支持和调度任务关联。在表规则和调度任务绑定后,任务实例运行完成都会触发数据质量的检查。您可以通过以下两种方式进行表规则和任务的关联调度:
      • 在运维中心页面关联表规则

        单击左上角的图标,选择全部产品 > 运维中心。

        单击左侧导航栏中的周期任务运维 > 周期任务,找到oss_数据同步任务,右键单击选择配置质量监控。

        在配置质量监控对话框中,选择表名(ods_raw_log_d)和分区表达式dt=$[yyyymmdd-1]),单击添加即可。

      • 在数据质量页面关联表规则在规则配置页面,单击关联调度,配置规则与任务的绑定关系。

        单击关联调度,可以与已提交到调度的节点任务进行绑定,系统会根据血缘关系给出推荐绑定的任务,也支持自定义绑定。

        在关联调度对话框中,输入节点ID或节点名称,单击添加。添加完成后,即可完成与调度节点任务的绑定。
        关联调度后,表名后面的小图标会变成蓝色。



    • 配置任务订阅。单击订阅管理,设置接收人以及订阅方式,目前支持邮件通知、邮件和短信通知、钉钉群机器人和钉钉群机器人@ALL。
      订阅管理设置完成后,您可以进入我的订阅页面查看和修改。

      说明 建议订阅全部规则,避免校验结果无法及时通知。



  • 配置ods_user_info_d表规则。

    ods_user_info_d是用户信息表,您在配置规则时,需要配置表的行数校验和主键唯一性校验,避免数据重复。


    • 配置一个分区字段的监控规则,监控的时间表达式为dt=$[yyyymmdd-1]。配置成功后,在已添加的分区表达式中可以查看成功的分区配置记录。
    • 分区表达式配置完成后,单击右上角的创建规则,进行数据质量的校验规则配置。选择规则模板为表行数,固定值、强弱为强、比较方式为大于以及期望值为0。
    • 添加列级规则,设置主键列(uid)为监控列。选择模板类型为重复值个数,固定值、强弱为弱、比较方式为小于以及期望值为1。
    • 配置完成后,单击批量保存。

    说明 该配置主要是为了避免数据重复,导致下游数据被污染的情况。


  • 配置ods_log_info_d表规则。

    ods_log_info_d数据主要来源于解析ods_raw_log_d表中的数据。鉴于日志中的数据无法配置过多监控,只需要配置表数据不为空的校验规则即可。


    • 配置表的分区表达式为dt=$[yyyymmdd-1]。
    • 配置表数据不为空的校验规则,规则强度设置为强,比较方式设置为期望值不等于0。
    • 配置完成后,单击批量保存。
  • 配置dw_user_info_all_d表规则。

    dw_user_info_all_d表是针对ods_user_info_d和ods_log_info_d表的数据汇总,由于流程较为简单,ods层已配置了表行数不为空的规则,所以该表无需进行数据质量监控规则的配置,以节省计算资源。


  • 配置rpt_user_info_d表规则。

    rpt_user_info_d表是数据汇总后的结果表。根据该表的数据,您可以进行表行数波动监测和针对主键进行唯一值校验。


    • 单击已添加的分区表达式模块的+,配置表的分区表达式为dt=$[yyyymmdd-1]。
    • 单击右上角的创建规则,在添加监控规则对话框中添加列级规则。设置主键列(uid)为监控列,选择规则模板为重复值个数,固定值、强弱为弱、比较方式为小于以及期望值为1。
    • 继续添加监控规则和表级规则,选择规则模板为表行数,7天波动率、强弱为弱,设置橙色阈值为0.1%、红色阈值为50%(此处阈值范围根据业务逻辑进行设置)。
      说明
      • 橙色阈值和红色阈值必须大于0%。
      • 此处监控表行数是为了查看每日UV的波动,以便及时了解应用动态。



    • 配置完成后,单击批量保存。

在设置表规则强度时,数据仓库中越底层的表,设置强规则的次数越多。这是因为ODS层的数据作为数仓中的原始数据,一定要保证其数据的准确性,避免因ODS层的数据质量太差而影响其它层的数据,及时止损。

数据质量还为您提供任务查询功能,以便查看已配置规则的校验结果,详情请参见任务查询


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-20 14:52

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表