168大数据

标题: 中国电信的“天翼大数据飞龙平台”长啥样? [打印本页]

作者: 168主编    时间: 2018-7-2 08:51
标题: 中国电信的“天翼大数据飞龙平台”长啥样?
本帖最后由 168主编 于 2018-7-2 08:53 编辑

2018年世界移动大会在上海召开,有幸去观摩了下,说来惭愧,由于一直在运营商从事IT相关工作,对于通信技术却是门外汉,因此有点刘姥姥逛大观园的感觉,回来一定要好好学习,对于5G等技术需要有个更深入的理解,而不是简单的知道个名词。

大会上有不少的大数据能力展示,而吸引我的却是中国电信的天翼大数据飞龙平台,电信是录了一个天翼大数据飞龙平台的操作视频,因此其实能看到很多的平台细节,笔者赶忙把主要页面拍下来,分享给大家。

其实电信展示的不是平台能力,而是对于大数据的端到端的管理能力,主要分为集群管理、数据采集、作业调度、数据管理与分析及数据可视化五部分,笔者就结合展示的内容和自己的实践谈谈对于这些功能的理解,希望于你有启示。



1、集群管理


由集群管理视图可以一窥电信大数据平台当前拥有的hadoop技术组件和监控的主要指标,当然截图只能看到监控的功能,更为重要的是比如集群资源的分配,回收等功能,也包括数据的视图和赋权,如果能将这些操作管理功能用高体验、可视化的方式管理起来,那定制化能力是相当的强了。

随着hadoop应用的深入,当前对于平台脚本性能的自动诊断分析变得非常迫切,经常发现HIVE的很多SQL突慢突快,而要追踪到诸如数据倾斜等原因耗时很长,如能提供这类逐层推进,庖丁解牛般的分析能力,对于大数据平台的利用效率肯定会大幅提升。

2、数据采集


数据采集是大数据平台最为核心的组件了,从上图可以看到天翼飞龙大数据平台支持的主要采集类型:

FTP:批量离线采集

Kafka:消息中间件,一个采集的缓冲器,在实时采集中用得最多了

flume:现在实时采集的核心组件了,可以分布式以记录级方式采集,现在flume+kafka变成了标配

storm:实时采集后往往需要实时处理,storm是可选的一种

当前主流的采集组件都支持以可视化、流程化的方式进行采集的配置,下图显示了flume采集写hdfs的流程:


其实除了以上的采集组件,还有诸如关系型数据库的采集,比如ORACLE、GBASE等,关系型数据库的增量采集,比如OGG等,部署SDK的APP采集,比如阿里的采集平台,还有采集的变种异构交换,就是能实现诸如ORACLE到GBASE,GBASE到Hadoop等交换能力,这些都是非常现实的对于采集平台的要求,挑战其实是非常大的。

当然采集平台不仅要做好功能,还要做好体验,不仅要支持图形,也要支持批量导入,比如很多场景就不适合一个个用流程配,不仅要采集准确,还要能具备实时预警能力,比如直接基于采集日志告警等等,要实现这些能力并非易事,采集平台闭门造车其实很难做好,一般是靠运营迭代出来的。

3、作业调度


调度是作业的执行引擎,看上图左边是支持的作业类型,既有shell,python等脚本,也有MR、HIVE等作业形式,通过可视化方式可以非常方便的完成一个端到端的任务,这个任务可以包括很多的作业,这些作业互相之间千丝万缕的关系通过可视化流程来定义,每个作业由什么触发、怎么触发可以通过设置作业属性来确定,灵活度是相当高的,比如上图右上角的一个配置就是说这个作业每间隔10分钟触发一次。

除了面上的功能,调度最核心的就是要构建一个强大的分布式作业调度引擎,要确保海量作业能及时分配到调度资源,能够高并发的执行,记得以前数据管理平台很多作业延时就是因为调度资源不够等待所致,情况严重就会产生死锁问题,因为依赖作业太多了,大家互相等待。

4、数据管理与分析


数据管理分析绝对是整个大数据管理平台的核心,因为它决定了平台的内涵,从上图左边列表大致可以看到要实现的功能:

数据地图:估计就是数据字典了

基础数据申请、应用数据申请:团队或个人可以申请要能访问的数据资源

我的申请管理:上图右边显示的是数据申请的具体页面,可以看出来电信的数据资源是分层分级分主题管理的,因此可以申请某个主题下所有的数据表访问权,还是比较灵活的,平台甚至提供了以下图形化选择主题的模式:


数据开发:没有拍到相关页面,可以肯定的是支持可视化的开发模式,因为数据开发处理逻辑是比较简单的,一般可以通过表+脚本的模式串接起来,非常容易实现拖拉操作。

5、数据可视化



从上图可以看到,平台提供了很多可视化模板,通过组装的方式形成特定的可视化页面,然后针对每个模板配置数据表就可以展示了,实现思路大同小异,笔者倒觉得很多定制化数据管理平台的可视化功能有点鸡肋,因为诸如可视化这类功能通用性太强了,开源有大量可用的丰富图形组件,集成进来的可视化功能实用性就不强了,未来这类平台应该走向更为开放。

笔者特意找到了天翼大数据飞龙平台的一则获奖新闻:“4月18日,中国电信在中国信息通信研究院主办的“2018大数据产业峰会”上,中国电信集团公司申报的“中国电信天翼大数据飞龙PaaS平台”项目,荣获“最佳大数据产品奖”。

这次算看到真身了,通过简单的这个视频展示分析,笔者觉得天翼大数据飞龙平台最大的价值点就是能将集群管理、采集管理、开发管理、调度管理及可视化进行了统一集成,因为每个环节如果隔离就意味着巨大的管理成本和数据流通成本,而一般的大数据管理平台很难做到这一点,因为受限于产品开放性等众多的因素,比如采集平台的厂家就不愿意开放服务接口。

在大数据平台建设完成后,其实企业最需要的是大数据平台的端到端管理能力,除了BAT,现在国内能集大成者的企业也屈指可数,即使能,也不大可能面面俱到,天翼大数据飞龙平台看起来已经走通了一些流程,但PaaS这类平台的坑很多,在产品还是定制,开放还是封闭方面等方面困难重重,平台的运营优化将是长期的过程。
作者:傅一平 就职于浙江移动大数据中心
来源:与数据同行






欢迎光临 168大数据 (http://www.bi168.cn/) Powered by Discuz! X3.2