168大数据

标题: 美团数据仓库的演进 [打印本页]

作者: 乔帮主    时间: 2015-3-9 14:57
标题: 美团数据仓库的演进
美团数据仓库,在过去的两年中,与我们的业务一起高速发展。在这一演进过程中,有很多值得总结和沉淀的内容。这篇文档回顾下美团数据仓库这两年发展过程中遇到的各种问题,为什么选择了现在的技术方案,每一个功能和模块是在什么情况下产生的,解决的是什么问题,中间有过哪些弯路。既可以作为大家熟悉美团数据仓库构建过程的一篇文档,也可以作为初次建立数据仓库的参考。
史前时代
在正式建设美团数据仓库之前,数据组也为各部门提供数据支持,不过那个时候的数据需求还比较少,而且也相对简单。
通常的做法是:
这是简单明了的流程,但是随着需求的增加和精细化,有一些问题变得很棘手,并严重影响的开发效率:
引入ETL
数据仓库的学术定义有很多版本和特点,其中有几个词能概括这一段工作的特点,规范和集成。
首先需要建立一个DB用于保存从各个数据源提取出来的数据。
这一时间的一个重要工作是,引入了一个工具——ETL。ETL是Extract(抽取),Transform(转换),Load(载入)的首字母组合。顾名思义,ETL工具的功能就是抽取数据,经过加工后,再载入到新的位置。
ETL的优点是:
这一时间也同时确定了很多规范:
用数据表示逻辑,典型例子是,不再使用各种时间函数来计算时间,而是建立一个日期表,把某一天的各种信息属性全部算出来存在一张表里,需要的时候只要连表就可以得到。大大降低了时间逻辑出错的可能性并简化了开发。
将数据分为维度数据,事实数据,衍生数据,聚合数据等类型, 以及第一版的命名规范。 为后续数据的组织和管理奠定了基础。
数据仓库的基础数据建设,一直是数据组的一个主要工作,直到2011年Q4,随着各种数据需求的增加,在如何使用数据上,有了一些新想法。
尝试OLAP
要做数据仓库,而不是数据坟墓,数据如果不被使用,就毫无用处。怎么能供各部门更好的使用这些数据呢?我们要做平台,可供人去探索数据的平台。
2011年下半年,随着美团业务的高速发展,用数据支撑运营变得越来越重要,各种数据需求出现了一个井喷期,开发人手比较少,一时间有些捉襟见肘。
有没有方法能让需求方自助的获取数据,而不依赖RD呢,想到了一个非常流行的概念是OLAP——联机分析处理(相对于OLTP——联机事务处理),目标是做成一个自助探索工具的平台。
从2011年Q4开始到2012Q1,数据组开始调研试用开源的OLAP工具套件。耗时较长,从调研和最后试用的情况看,现有的OLAP系统不适合我们。
有几个主要的问题:
数据仓库是一套完整的环境
2012Q1时,数据仓库出现了很多新的棘手的问题。
针对这些问题,分别开发了相应的工具。
协作开放
美团的数据需求发展非常快,这体现在数据规模的增长,数据分析人员的增长,数据分析复杂程度的增长。2012年下半年,快速发展的数据需求让原有的数据仓库架构达到了瓶颈。无论是DB的计算和存储能力,还是开发人员的精力,都达到了很高的负荷。而且由于开发流程和提取数据的重复劳动很多,团队士气也比较低落。这一时间的迫切工作是,如何能让需求方自助获取数据并分析,如何能让数据的计算和存储方便的扩展。
从2012年中开始,重点推进了几项工作以解决上述问题:
还有很多挑战
美团的成长速度非常快,数据的规模和复杂度还将十倍百倍的增长;业务多样且变化迅速。如何能够在海量数据基础上进行数据的管理、加工、分析以支持快速成长的业务,后续还面临很多挑战。
我们期待对数据敏感、对管理海量复杂数据、对建设大型互联网电商数据仓库有兴趣的朋友们,加入美团数据仓库团队!







欢迎光临 168大数据 (http://www.bi168.cn/) Powered by Discuz! X3.2