最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

数据中台建设6步法

[复制链接]
跳转到指定楼层
楼主
发表于 2019-10-24 11:21:26 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
“横向规划,纵向切入”八字方针是建设数据中台的标准模式。
所谓“横向规划”即在进行企业数据中台规划时,需要打通企业的所有业务板块。多业态的综合型企业尤其需要进行横向规划,比如,现在的地产公司除了主营的地产业务板块,还拥有周边教育、酒店、文旅、社区零售等衍生板块。这些板块沉淀的会员数据、交易数据、服务数据都十分宝贵,但只有在进入数据中台、经过融通后才能真正成为企业的资产。因此,在规划企业数据中台的时候必须全盘考虑,横向规划。
那么为什么要纵向切入呢?“罗马城不是一天建成的”,数据中台建设涉及数据平台建设、数据模型建设、数据治理、数据业务服务等方方面面的体系化工程,不可能一蹴而就。在如今追求价值快速变现的数字经济时代,需要快速找到数据中台的速赢点,因此需要从最可能体现业务价值的数据需求出发,倒推需要采集什么数据源作为生产资料,需要创建什么算法模型,需要满足哪些业务场景,需要提供什么数据服务,先围绕一个场景的闭环快速搭建起数据中台的各种能力,实现业务价值赋能。然后按照全景规划依次迭代,逐步实现整个企业的全局数据中台。
具体来看,数据中台建设总结为“规划、集成、建模、研发、管理、服务”6步法,如下图所示。

数据中台建设6步法

·总体规划
建设数据中台是一个系统化工程,需要从长计议,在建设之前要做好以下几项规划:
  • 哪些数据域需要纳入到数据中台规划中,建设的先后顺序(判断的标准是这些域的业务形态是否已经稳定),有哪些潜在的数据应用需求。
  • 数据中台的物理形态是什么,需要从建设成本、企业IT资源状况等多角度评估是采取公有云还是私有云部署。
  • 根据接入的数据域情况规划集群配置,规划满足未来3年数据中台的容量,以及根据大约的作业数量推导出集群的配置情况,需要多少个核心的CPU、多大的内存参与计算。
  • 进行技术选型规划,根据企业实际情况确定以开源+自研为主还是采购成熟产品。

·数据集成
在做好数据中台的总体规划之后,接下来需要动工建设。建设的第一步自然是按照规划中的数据源进行接入集成。需要根据数据应用的场景,反向推导、确定数据集成的方式,比如哪些数据源需要进行实时采集,哪些数据需要离线采集;离线采集的频率是多少,是按天采集还是按小时采集。

·模型建设
模型建设是数据中台的重要工作,数据中台建设的成败关键在于数据模型设计规划得是否合理。数据模型分为分析模型和算法模型,分析模型是所有模型建设的基石。模型设计师要设计出通用高效的设计模型,首要条件就是要熟悉业务,不但要熟悉底层业务系统的业务流程,还要深刻领会数据应用场景。
数据建模分为5个步骤:选择业务过程、声明聚合粒度、确定模型的维度信息、确定事实以及冗余维度。
数据建模5步骤

1)选择业务过程:数据模型必定来自于某一个业务流程,举例来说,交易分析模型一定来自于交易订单流程,在设计模型之时需要梳理出所有的订单流程(线上、线下)。

2)声明粒度:统计粒度的确定是模型设计的关键环节,粒度定义得太细,不利于支撑上层数据分析汇总;粒度定义得太粗,又不能满足前端多变的个性化数据分析需求。基于此,在设计模型的时候需要进行分层建设,随着层级的越高,统计粒度会越粗。

3)确定维度:维度即在业务过程中的主题,比如用户维度、商品维度、店铺维度。在建设模型的时候就需要从业务过程出发,提前预设可能会分析的维度,统一纳入到数据模型中。

4)确定事实:事实即模型中的指标,是模型中的核心,在进行指标定义的时候需要重点关注是否全面覆盖了本主题域中的指标,并且需要判定哪些指标可以相加,哪些指标不能相加。比如“销售量”可以在任何维度上进行相加,而“客户数”“库存量”这种指标则不能在某些维度上进行累加。

5)冗余维度:冗余维度的目的是让数据模型更加丰满,避免在计算统计中关联太多维度而产生复杂的计算逻辑,影响性能。因此,在模型设计的最后一步应尽量带上确定好的维度字段的属性,比如,客户维度需要带上客户的性别、年龄段、居住地、等级等各种维度。

最后,模型设计需要指明各种模型的数据计算逻辑,为接下来的数据研发进行指导,主要设计出指标统计的业务口径,并将这些业务口径转化为伪代码,指导开发人员进行数据研发。

·通用研发
模型设计完成后,开发人员就按照模型设计文档,在模型设计师的指导下进行数据研发。研发包含数据萃取、数据聚合分析、算法实现以及作业调度等功能的开发。
与业务系统或者数据应用的研发不同的是,数据研发较少直接与需求人员对接,开发人员主要与模型设计师进行反复沟通,准确理解模型设计师的模型设计意图。
可以将数据中台的数据研发过程比喻成数据加工流水线,模型中的代码研发只是流水线中的一个部件,在每个模型部件研发完成后,还需要通过调度程序将这些作业有序地串联起来,并且组织好这些作业的依赖和触发关系。

·资产管理
数据模型以及基于数据模型的调度均是数据中台沉淀的数据资产。数据资产需要规范的管理与治理,才能确保数据中台有序运转,确保数据真正成为提升企业业务价值的资产。
资产管理最基础的工作是做好元数据管理。元数据涵盖了采集的数据接口、创建的数据模型、数据模型中的指标以及作业与作业之间的依赖关系。将这些元数据有序地展示出来,就形成了企业的数据资产。
治理数据资产不是事后治理,而是在数据模型所涉及的表、指标所涉及的字段等信息进入数据中台时,就通过数据同步机制自动登记到元数据表中。

·数据服务
“茶壶里有了饺子倒不出,等于没有饺子。”数据资产要能支撑上层的应用才能体现出数据资产的价值,否则那只能叫数据。因此提供一种数据服务能力统一对外服务,这是非常关键的事情。通过建设数据服务达到以下几个能力:
  • 数据接口标准化:针对数据交互接口提供统一的数据在线服务视图,可进行数据查询、上报、通知;针对批量数据提取,提供标准化的数据对外输出能力,支撑文本、数据库等在线服务。

  • 在线交互实时化:针对业务系统数据交互,提供各业务系统数据对接的统一服务平台;针对实时数据分析汇总服务,提供指标级数据统一口径,在线实时数据服务调用。


  • 数据开发可视化:提供服务接口的可视化配置能力,降低接口开发技术要求,易于掌握和维护;提供数据服务可视化管理界面,统一维护、统一管理。

文章摘自:机械工业出版社《中台战略:中台建设与数字商业》 2019年9月出版

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-2 22:38

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表