168大数据

标题: 实战案例解析:如何参照阿里OneData构建数据指标体系? [打印本页]

作者: 168主编    时间: 2020-5-27 17:07
标题: 实战案例解析:如何参照阿里OneData构建数据指标体系?
随着业务规模的扩大,各类相关的数据量增大、数据指标也越来越多,如果缺乏指标体系就会造成难以衡量产品/活动效果、难以判断整体业务发展状况等问题。而本文就通过拆解阿里制定指标的规范,来为我们建立数据指标体系做一些参考。


在建立OneData之前,阿里数据有30000多个指标,其中,即使是同样的命名,但定义口径却不一致。即使是中等规模的公司,也是如此,随着数据量的增大,数据指标也会越来越多,缺乏指标体系的管理会存在各种各样的问题。
一、指标不规范带来的问题 1. 在数据指标概念=0时,业务方按“我觉得”来办事,难以衡量效果
产品设计、运营同学通常是:我觉得用户会喜欢我们新推出的这个功能,我觉得新推的活动,活动效果会很好…..
那领导就要问了,这个“觉得”有什么依据么?怎样衡量用户喜欢这个新增的功能?怎样判断活动效果好,多少人参与或是多少转化?
这样一提问,其实设计者们也云里雾里的,一脸懵逼,别问设计原因,问就是回答其它竞品也有这个功能,所以我们也做……
是不是觉得自己也中招了?
不过已经有大批产品人员已经意识到传统的盲目设计、抄袭式设计时代已经过去,数字化产品时代已到来的现状,开始尝试用数据指标来辅助业务决策。于是开始进入下一阶段…
2. 此时数据指标概念=0.5,有单点数据指标,但难以看出整体业务问题
这种情况下通常是想到什么业务指标,就用什么业务指标。
比方说看到神策、友盟数据分析类厂商通常会用GMV、日活用户、月活用户、PV、UV、页面停留时长等数据,于是产品设计人员先将其照搬进来,再结合具体使用的时候,会想到一些指标,然后逐个往上加。
以网约车为例,今天的GMV降低50%,是什么原因导致呢?
分析人员回复说:受疫情影响,乘客下单量降低20%。
这是平台当前已有指标,那还有30%呢?是什么问题导致的?
于是分析人员一查数,发现在线司机数、接单司机数降低30%,于是匆匆的又把临时想到的这两个指标,简单的描述了一下业务含义,经过一系列的沟通协调,让研发临时添加。
这种方式会存在什么问题呢?
二、理解OneData指标规范
既然不提前设计指标体系会出现诸多问题,那指标体设计流程是什么?如何保证指标体系的规范设计呢?
下面我们先来看看阿里是如何制定指标规范的:
以维度建模作为理论基础,构建总线矩阵,定义业务域、数据域、业务过程、度量/原子指标、维度、维度属性、修饰词、修饰类型、时间周期、派生指标等。
1. 业务域
比数据域更高维度的业务划分方法,适用于特别庞大的业务系统,且业务板块之间的指标或业务重叠性较小。例如用车业务板块包含乘客端、司机端,电商业务板块包含商城、返利模块。
2. 业务过程
业务过程可以概括为一个个不可拆分的行为事件,如下单、支付、评价等业务过程/事件。
看到这一系列的名词,很多人可能就开始懵逼了,业务域倒还能理解,简单来说就是对不同业务的分类;业务过程也容易理解,相当于画业务流程图呗。
那数据域又是何方神圣?
3. 数据域
是联系较为紧密的数据主题的集合,是对业务对象高度概括的概念层归类,目的是便于数据管理与应用。
简而言之,数据域就类似于我们电脑桌面要建立不同的文件夹来存储数据,这些个文件夹名就是数据域。
维度、维度属性、修饰这些怎么理解?有什么用途?
4. 维度
是度量的环境,用来反映业务的一类属性,这类属性的集合构成一个维度,可以从who-where-when-what层面来看。
5. 维度属性
维度属性隶属于维度,相当于维度的具体说明,如用户维度中性别为男、女。
6. 修饰词
指除了统计维度以外指标的业务场景。
7. 修饰类型
对修饰词的抽象划分。
简而言之,维度和修饰都可以理解为原子指标的一些限定条件,懂sql的会更好理解一些,一般是写sql时,放在where语句后边的。
8. 度量/原子指标
原子指标和度量含义相同,某一业务行为事件下的度量,是业务定义中不可拆分的指标,如注册数。
9. 时间周期
用来明确数据统计的时间范围或是时间点,如最近30天、自然周、截至当日等。
10. 指标类型
包含原子指标、派生指标。
例如:原子指标=完单量,派生指标=近一周iOS乘客完单量,包含时间周期=近一周,修饰词=iOS,维度=乘客,原子指标=完单量。
三、制定自己的指标体系规范
接下来参考阿里的onedata数据标准,搭建网约车体系中的数据指标。
1. 调研业务需求与分析业务流程
1)调研业务需求
充分的业务调研是指标体系构建的基础,在数据指标体系搭建项目启动前,需要与各业务方详细了解具体业务、梳理清楚关键业务流程。
需求采集可分为定量、定性采集两种类型,定量地发放调研问卷形式,广泛采集业务需求;定性地进行用户访谈,深度挖掘业务应用场景和核心需求。详细的需求采集与分析方式之前《需求采集与需求分析》这篇文章有写过,此处不再展开,可做参考。
2)分析业务流程
根据阿里巴巴onedata的最佳实践,业务过程可以概括为一个个不可拆解的行为事件。为梳理数据之间的逻辑关系和流向,首先要理解用户的业务过程,了解业务过程中涉及的数据系统。
下面以网约车体系为例,梳理司机端、乘客端的业务流程以及数据指标。
乘客端流程可划分为:注册/登陆、下单、服务、支付、评价/客服投诉。
核心流程中所产生的业务指标:
司机端业务流程可划分为:
业务流程中产生的核心业务指标:
在明确用户的业务过程后,需要根据分析决策的业务,划分数据域,并在相应的数据域下拆解具体的业务过程。
2. 划分数据域
数据域:是联系较为紧密的数据主题的集合,是对业务对象高度概括的概念层归类,目的是便于数据管理与应用。
这里相当于对数据进行分类,类似于我们电脑桌面要建立不同的文件夹来存储数据。我们的数据是面向不同业务人员,比方说市场、运营、客服、风控等人员,而其关注的业务模块大不相同。
而我们技术人员还要给他们提供各种不同的数据指标,找起来工作效率低,服务器计算成本高(你想想在电脑搜索框查某一文件名时,是不是很慢),业务人员也难以及时得到数据。没办法,那我就做个数据的分类吧,方便我们快速找数据,以及未来横向扩展数据。
所以在划分数据域时,我们也要注意:
这里就相当于电脑上的文件夹命名,要包含当前所有的文件(数据),产生新文件时,能够放到已有文件或者是方便新建一个文件。
可以根据对业务需求、各个模块的业务流程进行分析,进行数据域的划分。通常数据域划分可以根据企业部门划分,如客服、运营、市场等;也可以按照业务过程或者业务板块的功能模块划分。
例如网约车体系中用车业务域可划分为如下表所示的数据域,依据实际业务过程进行归纳、抽象得出数据域。
3. 定义指标规范——总线矩阵构建
我们梳理了业务域、数据域、业务过程的整体框架,接下来针对指标规范进行设计。
简单点理解,相当于我们设计了文件夹的一级、二级、三级目录结构规范,现在要对该文件命名结构规范进行设计。
常用的指标基本是按照个人理解给予的命名,并没有特别的规范,比如说日活/月活用户量、近一个月下单量、完单金额等。但随着数据指标的增多,出现了很多限定条件下的指标,比如近7天北京快车下单量这样的指标,这个指标是如何设计得到的,有没有一套指标规范设计呢?
如上图所示,设计指标时需清晰定义业务域=用车业务、数据域=服务域、业务过程=下单、维度=城市、属性=北京、时间周期=近7天、修饰词=快车、度量/原子指标=下单量。通过增加对原子指标的约束条件,规范产生派生指标=近7天北京快车下单量,提供一套通用的指标定义标准,方便不同业务部门的人理解指标含义。
以网约车体系中的服务域为例,制定如下总线矩阵,划分业务过程为下单、派单、决策、开始行程、完单。
总线矩阵是数仓架构师会用的比较多,对于产品人员会比较难理解,其实就类似于数学中矩阵和排列组合,一个原子指标的维度限制条件组合不同,可得到成千上万个派生指标。
总结
本文主要从数据产品角度介绍,如何基于阿里OneData进行网约车指标体系建设。通过对业务分析、数据域划分及总线矩阵构建,来建立一套指标设计规范。通过建立指标规范,可以提升研发和业务方的指标获取效率,为后续自助式分析打下基础。
在设计指标规范过程中发现会产生成千上万个指标,那这些指标哪些是真正给业务方提供指导意义的呢?
下一篇将会讲解如何根据GSM模型和AARRR模型确定核心业务指标,以及如何设计指标字典。
来源:一个数据人的自留地 ,作者:草帽小子






欢迎光临 168大数据 (http://www.bi168.cn/) Powered by Discuz! X3.2