最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

中国电信的“天翼大数据飞龙平台”长啥样?

[复制链接]
跳转到指定楼层
楼主
发表于 2018-7-2 08:51:07 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 168主编 于 2018-7-2 08:53 编辑

2018年世界移动大会在上海召开,有幸去观摩了下,说来惭愧,由于一直在运营商从事IT相关工作,对于通信技术却是门外汉,因此有点刘姥姥逛大观园的感觉,回来一定要好好学习,对于5G等技术需要有个更深入的理解,而不是简单的知道个名词。

大会上有不少的大数据能力展示,而吸引我的却是中国电信的天翼大数据飞龙平台,电信是录了一个天翼大数据飞龙平台的操作视频,因此其实能看到很多的平台细节,笔者赶忙把主要页面拍下来,分享给大家。

其实电信展示的不是平台能力,而是对于大数据的端到端的管理能力,主要分为集群管理、数据采集、作业调度、数据管理与分析及数据可视化五部分,笔者就结合展示的内容和自己的实践谈谈对于这些功能的理解,希望于你有启示。



1、集群管理


由集群管理视图可以一窥电信大数据平台当前拥有的hadoop技术组件和监控的主要指标,当然截图只能看到监控的功能,更为重要的是比如集群资源的分配,回收等功能,也包括数据的视图和赋权,如果能将这些操作管理功能用高体验、可视化的方式管理起来,那定制化能力是相当的强了。

随着hadoop应用的深入,当前对于平台脚本性能的自动诊断分析变得非常迫切,经常发现HIVE的很多SQL突慢突快,而要追踪到诸如数据倾斜等原因耗时很长,如能提供这类逐层推进,庖丁解牛般的分析能力,对于大数据平台的利用效率肯定会大幅提升。

2、数据采集


数据采集是大数据平台最为核心的组件了,从上图可以看到天翼飞龙大数据平台支持的主要采集类型:

FTP:批量离线采集

Kafka:消息中间件,一个采集的缓冲器,在实时采集中用得最多了

flume:现在实时采集的核心组件了,可以分布式以记录级方式采集,现在flume+kafka变成了标配

storm:实时采集后往往需要实时处理,storm是可选的一种

当前主流的采集组件都支持以可视化、流程化的方式进行采集的配置,下图显示了flume采集写hdfs的流程:


其实除了以上的采集组件,还有诸如关系型数据库的采集,比如Oracle、GBASE等,关系型数据库的增量采集,比如OGG等,部署SDK的APP采集,比如阿里的采集平台,还有采集的变种异构交换,就是能实现诸如ORACLE到GBASE,GBASE到Hadoop等交换能力,这些都是非常现实的对于采集平台的要求,挑战其实是非常大的。

当然采集平台不仅要做好功能,还要做好体验,不仅要支持图形,也要支持批量导入,比如很多场景就不适合一个个用流程配,不仅要采集准确,还要能具备实时预警能力,比如直接基于采集日志告警等等,要实现这些能力并非易事,采集平台闭门造车其实很难做好,一般是靠运营迭代出来的。

3、作业调度


调度是作业的执行引擎,看上图左边是支持的作业类型,既有shell,python等脚本,也有MR、HIVE等作业形式,通过可视化方式可以非常方便的完成一个端到端的任务,这个任务可以包括很多的作业,这些作业互相之间千丝万缕的关系通过可视化流程来定义,每个作业由什么触发、怎么触发可以通过设置作业属性来确定,灵活度是相当高的,比如上图右上角的一个配置就是说这个作业每间隔10分钟触发一次。

除了面上的功能,调度最核心的就是要构建一个强大的分布式作业调度引擎,要确保海量作业能及时分配到调度资源,能够高并发的执行,记得以前数据管理平台很多作业延时就是因为调度资源不够等待所致,情况严重就会产生死锁问题,因为依赖作业太多了,大家互相等待。

4、数据管理与分析


数据管理分析绝对是整个大数据管理平台的核心,因为它决定了平台的内涵,从上图左边列表大致可以看到要实现的功能:

数据地图:估计就是数据字典了

基础数据申请、应用数据申请:团队或个人可以申请要能访问的数据资源

我的申请管理:上图右边显示的是数据申请的具体页面,可以看出来电信的数据资源是分层分级分主题管理的,因此可以申请某个主题下所有的数据表访问权,还是比较灵活的,平台甚至提供了以下图形化选择主题的模式:


数据开发:没有拍到相关页面,可以肯定的是支持可视化的开发模式,因为数据开发处理逻辑是比较简单的,一般可以通过表+脚本的模式串接起来,非常容易实现拖拉操作。

5、数据可视化



从上图可以看到,平台提供了很多可视化模板,通过组装的方式形成特定的可视化页面,然后针对每个模板配置数据表就可以展示了,实现思路大同小异,笔者倒觉得很多定制化数据管理平台的可视化功能有点鸡肋,因为诸如可视化这类功能通用性太强了,开源有大量可用的丰富图形组件,集成进来的可视化功能实用性就不强了,未来这类平台应该走向更为开放。

笔者特意找到了天翼大数据飞龙平台的一则获奖新闻:“4月18日,中国电信在中国信息通信研究院主办的“2018大数据产业峰会”上,中国电信集团公司申报的“中国电信天翼大数据飞龙PaaS平台”项目,荣获“最佳大数据产品奖”。

这次算看到真身了,通过简单的这个视频展示分析,笔者觉得天翼大数据飞龙平台最大的价值点就是能将集群管理、采集管理、开发管理、调度管理及可视化进行了统一集成,因为每个环节如果隔离就意味着巨大的管理成本和数据流通成本,而一般的大数据管理平台很难做到这一点,因为受限于产品开放性等众多的因素,比如采集平台的厂家就不愿意开放服务接口。

在大数据平台建设完成后,其实企业最需要的是大数据平台的端到端管理能力,除了BAT,现在国内能集大成者的企业也屈指可数,即使能,也不大可能面面俱到,天翼大数据飞龙平台看起来已经走通了一些流程,但PaaS这类平台的坑很多,在产品还是定制,开放还是封闭方面等方面困难重重,平台的运营优化将是长期的过程。
作者:傅一平 就职于浙江移动大数据中心
来源:与数据同行

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-26 07:34

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表