数据中台建设杂谈

发表于 2019-7-3 11:51:50

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

您需要登录才可以下载或查看，没有帐号？立即注册

x

现状
公司属于是互联网金融行业，但因为只是中小型企业，技术积累较少，数据部门也是16年未开始组建的。最初只是一个提数小组，为业务部门提供他们需要的数据，直到上层领导有意走数据驱动业务的方式，才创建了数据部，也可能只是为了赶时髦，毕境17年，各种GB、TB已经满天飞。

于是领导就带领着大家搞起了大数据，创建了最初的仓库平台、搭建了报表平台、可视化平台，对业务提供支撑。几乎没有相关技术储备，可以说从０到１，轰轰烈烈，加班加点搞了几个月，初见成效。在做大数据平台的同时，也引入了一些数据应用产品，比如多维分析的saiku，BI工具SuperSet，用于提供报表和提数需求；并且也开发了自己的数据管理平台、统一调度中心，可以小有成就。

18年年初（3月初左右）公司上层决策创建金融事业中心并单独运营，部门负责人被抽离到金融，并带走部分核心人员，再加上离职人员，技术所剩无几，导致后续大数据平台停步不前，没有什么新的产品开发，日常工作即停留在对原有系统的使用上，应对越来越多的提数需求和个性化的业务定制需求，响应乏力。同事们也有心改造，但无奈人员缺乏，技术储备不足等原因，未能见成效。

当然，近1年多的时间同事们也没有闲着，在完成工作的时事，尝试了一些大数据应用的技术和方案，算是做了些相关技能的存储。

设想

2018Q4研发中心架构调整，欲建立去中心化的开发平台，即各业务部门各自管理自己的应用和数据，同时同步到数据中台。各业务部门对其它部门的数据需求，统一走数据中台。所以数据部又一次走到了风口，面临压力，着手改造。

现有的数据仓库架构
如下图所示，按照业内标准的数据架构，数据采集层、数据计算层、数据服务层、数据应用层进行描述。

首先是从各业务部门数据库，通过OGG、Sqoop、DataX、Kettle等工具同步定时同步数据到数据中心存储系统上，包括大数据平台HDFS、关系型数据库。然后提供几种查询平台，如kylin、hive、Oracle等，进行数据获取，如通过Kylin建模的方式，离线预处理T-1的离线数据；通过oracle数据库，提数人员写SQL查询等，得到想要的数据，目前只支持离线数据。数据同步完成对，外的的数据服务，目前提供了手工提数工单、数据网关接口、帆软BI报表、帆软可视化等方式对业务部门提供查询。

标准数据中台构架

如下图所示

通用的数据中台架构，即从数据同步->模型抽象->对外应用进行划分，其中操作层作了些同步、清洗、日志采集等收集数据的事情；公共维度对业务数据进行建模，划分度量、维度等对数据进行建模，当然也可以采用其它建模方式；应用数据层是对创建好的数据对外提供服务的方式，包含传输数据的渠道、展示数据的方式等。

从我们现有的架构的数据仓库架构来看，最初也是按照这个架构进行设计的。但从具体的实现去分析实则存在很多的问题，及需要改进的地方。下面对现有架构的问题进行一下分析。

存在的问题
当前系统架构，对于技术的应用边界、所选技术的性能等问题没有明确的说明。大致列举如下：