168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

1 2 3 4 5
开启左侧

数据中台到底是什么?

[复制链接]
发表于 2018-1-10 23:54:02 | 显示全部楼层 |阅读模式

作者:傅一平 就职于浙江移动大数据中心  
阿里提出了“大中台,小前台”,其中台事业部包括搜索事业部、共享业务平台、数据技术及产品部,数据技术及产品部应是数据中台建设的核心部门。
那么,数据中台到底是什么?具体包含哪些内容?跟大数据平台是什么关系?在架构层面是怎么体现的?数据中台跟产品又有什么关系?
阿里数据技术及产品部的掌门提倒了数据中台的具体含义,这里引用他说的话:
“很多人会把数据比作“石油”,马老师(马云)也说过,阿里巴巴要成为全球电子商务的“水电煤”。我们现在搭建的数据中台,就是希望扮演“发电厂”的角色。”
“我们知道,电力的发展可以分为几个阶段,最开始是一些有能力的企业自己发电,后来出现新的工业产能,有的企业电用不掉,有的却不够用,这时候国家机构就出来了,会去搭建国家级的电网,不管是核能发电,还是风力发电、水力发电,最大程度地保障不同群体的用电需求。”
“我们数据中台也是这样一个运转思路,我们落到实处是一个倒三角形,从下往上分为四个部分——”
“第一是数据技术。没有数据中台的时候,不管是阿里内部还是各商家,大家都有自己的数据中心、机房、小数据库。但当数据积累到一定体量后,这方面的成本会非常高,而且数据之间的质量和标准不一样,会导致效率不高等问题。因此,我们需要通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。”
“第二是数据资产。数据中台把阿里系的数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而保证为集团各业务和商家提供高效服务。”
“第三和第四都是数据服务,包括服务商家和服务小二。例如生意参谋和阿里指数,就是数据中台中面向商家端提供的数据服务。”
“数据中台服务阿里,说白了更多是在为各位商家服务。平台会确保大家在使用数据的过程中,口径、标准、时效性、效率都有保障,能有更高的可靠性和稳定性。”
以上说得好像都对,但逻辑上有些是无法自洽的,比如这里的数据技术跟阿里云的数据技术是什么关系?数据中台要不要承担hadoop/ETL这类平台和工具的研发?生意参谋是个端到端的产品,似乎不能划为数据中台?
当然,从职能看,作为中台部门的确需要基于产品直接服务一线客户,而不是往后退,这也是以前笔者对于数据中台最大的困惑,一直在想这个数据中台的部门绩效该如何定呢?没有业务的滋养中台如何迭代优化呢,阿里算是解惑了。
但如果把直接的产品当成中台显然是不合理的,阿里提了数据中台,忙坏的倒可能是那些做数据架构和数据管理的,因为架构讲究逻辑严密,本质和边界必须定义清楚,没有歧义,否则做事就会很茫然,不知道该怎么入手。
比如哪天领导问你,我们企业的数据中台有没有,要向阿里学习啊,有了清晰的概念你就可以做映射了,否则就会显得手足无措,这种事情其实很多。
笔者的企业最近在做IT规划,很多人就对数据中台要带一些产品职能有异议,记得以前笔者还把营销平台当成中台,号称也是赋能所有营销人员的,这就是概念不清造成的问题。
说来也奇怪,网上很难找到数据中台的更科学解释,能找到的大多也不够清晰,与大数据平台有千丝万缕的关系,笔者最近正好在思考这个问题,特此分享于你,当然仁者见仁,智者见智了。
所谓数据中台,即实现数据的分层与水平解耦,沉淀公共的数据能力,笔者认为可分为三层,数据模型、数据服务与数据开发,通过数据建模实现跨域数据整合和知识沉淀,通过数据服务实现对于数据的封装和开放,快速、灵活满足上层应用的要求,通过数据开发工具满足个性化数据和应用的需要,见下图(以某运营商为例):
640.webp.jpg
1、数据模型
数据模型是分层次的,以前叫作数据仓库模型,笔者这里概括为三层,基础模型一般是关系建模,主要实现数据的标准化,我们叫作“书同文、车同轨”,融合模型一般是维度建模,主要实现跨越数据的整合,整合的形式可以是汇总、关联,也包括解析,挖掘模型其实是偏应用的,但如果用的人多了,你也可以把挖掘模型作为企业的知识沉淀到中台,比如离网挽留的模型具有很大的共性,就应该有人把它规整到中台模型,以便开放给其它人使用,中台的中是相对的,没有绝对的标准。
2、数据服务
将数据模型按照应用要求做了服务封装,就构成了数据服务,这个跟业务中台中的服务概念是完全相同的,只是数据封装比一般的功能封装要难一点,毕竟OLTP功能的变化有限,而数据分析受市场因素的影响很大,变化更快,导致服务封装的难度变大。
随着企业大数据运营的深入,各类大数据应用层出不穷,对于数据服务的需求非常迫切,大数据如果不服务化,就无法规模化,比如浙江移动封装了客户洞察、位置洞察、营销管理、终端洞察、金融征信等各种服务共计几百个,每月调用量超过亿次,灵活的满足了内外大数据服务的要求。
3、数据开发
但有数据模型和数据服务还是远远不够的,因为再好的现成数据和服务也往往无法满足前端个性化的要求,这时候就得授人以鱼不如授人以渔了,数据中台的最后一层就是数据开发,其按照开发难度也分为三个层次,最简单的是提供标签库(DMP),用户可以基于标签的组装快速形成营销客户群,一般面向业务人员,其次是提供数据开发平台,用户可以基于该平台访问到所有的数据并进行可视化开发,一般面向SQL开发人员,最后就是提供应用环境和组件,让技术人员可以自主打造个性化数据产品,以上层层递进,满足不同层次人员的要求。
对于标签库(DMP)到底是属于SaaS还是PaaS是有争议的,但标签库这类平台显然较生意参谋类产品更中台一点,因为其通用性更强,专有业务的特性不是非常明显,笔者还是认为可以归为中台。
应该来讲,数据开发中的组件,比如页面组件、可视化组件什么的,归属到业务中台似乎更合理,但其实也要看企业的实际情况,哪里用的多就可以归属到哪里,没有绝对的标准了。
以上划分方式在逻辑上还是说得通的,但还有很多没有考虑进来,比如算法服务、机器学习引擎、hadoop、MPP等等,笔者觉得算法服务应该属于数据服务的一种类型,但h a d o o p、MPP、机器学习引擎更底层一点,应属于私有云或公有云的范畴了,比如笔者看到阿里云就提供了MaxCompute这类机器学习服务。
关于数据中台的分层看似简单,但笔者却纠结了好久,很多边界是模糊的,最近看的一本书提到,新的概念如果跟既有知识体系不相符,一定要努力搞清楚,不能人云亦云,只要能表达出自己的观点,即使还是错了,也有了被人家纠正的机会,对于事物理解的不深入,大多是不求甚解导致的概念不清的结果。
最近新零售很热,各路大仙都出来诠释新零售的概念,大家可以想想新零售到底是什么?

楼主热帖
168大数据(www.bi168.cn)是国内首家系统性关注大数据与数据科学的社区媒体与产业服务平台!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2018-4-22 12:44 , Processed in 0.110050 second(s), 21 queries , Xcache On.

Powered by BI168社区

© 2012-2014 海鸥科技

快速回复 返回顶部 返回列表