168大数据

标题: 以好奇心日报为业务原型,说说大数据平台的数据建模过程 [打印本页]

作者: 168主编    时间: 2018-12-27 17:21
标题: 以好奇心日报为业务原型,说说大数据平台的数据建模过程
今天我们以好奇心日报为业务原型,探讨下数据模型建设过程(本人非好奇心员工,好奇心老板看见如果觉得对数据化运营有所帮助记得给我加鸡腿)。

数据模型是数据平台的基石,是平台搭建过程中最最基础、也是最最重要的环节,为后续数据清洗(ETL)、开发数据报表等工作保驾护航。数据建模做的好,后面工作也会更容易,模型做的不到位,一些报表做起来耗时耗力又吃资源,甚至无法实现。
数据建模一般要经历主题和主题域分析、概念模型、维度设计、指标整理、逻辑模型、物理模型。
好奇心是内容型产品,有NEWS、LABS两个频道,有不同新闻分类和独立的栏目,商业模式以在线广告为主。
为什么选好奇心日报?一方面它确实是目前鱼龙混杂的内容产业中的一股清流,新媒体的一个标杆,以好奇心驱动坚持做有品质的内容、筛选最有价值信息、全球最新动态; 更主要的是它的产品线全面,有APP、PC网站、移动网站、订阅号、小程序,同时也运营着今日头条、网易、微博等各大媒体公号,且成绩有目共睹。产品线全面、业务规模适中,作为业务原型讨论数据建模最合适不过了。
案例说明
了解数据仓库的,都知道数据仓库是面向主题,也就是其中的数据是按主题进行组织的。
首先从分析主题入手,主题是在较高层次上对业务数据进行梳理、归类,一个主题基本对应一个宏观的分析面。
主题域是确定主题中包括的数据分析范围及边界,确定了主题及主题域,数据平台对外输出能力也基本确定了。
好奇心业务来说可以分为内容生产运营、营销、用户、广告收入四个方面;再对主题进一步细化出子主题,例如广告主题可以拆除订单分析、营收分析、广告位分析、品牌主分析、业绩分析,子主题也就是主题的边界。
下面我们分别展开说说四个主题的内容:
用户分析
分基本信息、行为分析、商业兴趣三个子主题。
内容运营
可以分为流量分析、内容分析、作者分析、第三方平台分析。
营销推广
分为推广分析、渠道分析、活动分析。
广告收入
分为营收分析、广告订单分析、广告位分析、品牌主分析。
从总收入、订单、单个广告位、品牌主、销售经理、销售大区不同维度分析收入贡献,挖掘销售潜力,降低广告库存,提高售卖率和广告单价。
模型建立概念模型
是主题的基础上,识别出主题中的对象,以及建立对象之间的关系,列出对象的较核心的属性。
例如我们为好奇心日报提炼出产品(App、PC网站、小程序等)、用户、用户行为、文章、编辑等对象,并描述了对象之间的关系以及表述对象的核心属性。
逻辑模型
是将概念模型具象化,为对象增加必要的属性。
下图是使用一款在线工具ProcessOn画的部分逻辑模型,还可以使用更专业的建模工具ERWin和PowerDesigner。
物理模型
是把上述逻辑模型的内容,在具体的物理介质上实现出来,确定字段类型、取值范围、采用MySQL、Oracle等建立数据库表,这里就不详细展开介绍。
最后对业务涉及的维度和度量进行梳理,维度越丰富,粒度越细,做数据分析时就可以挖地越深入。
正如数据仓库权威专家Kimball所说:数据仓库的能力直接与维度属性的质量和深度成正比。比如时间维度可以分为季度、月、周、日四个层次,但周和日还可以还可以细化出周天、日时段两个子维度,汇总一段时间内的周一到周日的启动次数(日然运营,排除推广干扰),可以看出用户从周一到周日的使用规律,同时还可以组合地域,看某一地方用户周一到周日的使用规律,日时间段同理。当然粒度越细,对数据收集和处理的要求越高。
维度建模
维度建模有专门的方法论,需要根据业务规模、最终需求设计合理的维度模型。
下面是根据业务梳理的维度和度量指标,大家可以尝试组合下,是否能够满足日常运营的需要,如果觉得不够可以考虑下怎么扩展。
维度
用户
时间
地域
流量来源
Syndication
Organic
Socail
营销渠道
应用分发渠道
广告推广
广告位名称
广告位类型
投放创意
Socail
活动
产品及版本
设备
业务
广告
指标体系
用户指标
流量指标
行为指标
广告指标
模型指标
题图来自 Unsplash ,基于 CC0 协议
作者:百川,微信公众号:修炼大数据(studybigdata)






欢迎光临 168大数据 (http://www.bi168.cn/) Powered by Discuz! X3.2