最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

[PPT] 一只传统企业大数据平台团队的绽放!

[复制链接]
跳转到指定楼层
楼主
发表于 2019-5-15 15:47:02 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
起这么献媚的题目,难免会有PMP之嫌,但互联网时代了,也没必要避讳,讲究的还是实事求是。
记得有位前领导说过,IT就是让人忘记它的存在,如果做到这一点,就算成功了。相对互联网公司的技术团队,传统企业还是比较内敛的,这个可能受企业文化影响,但内敛不表示保守。
作为直接旁观者,亲眼见证了一个传统企业大数据平台的蹒跚起步,从无到有,从问题不断到日渐完善,团队也在不断壮大,姑且就叫它A公司的大数据平台技术团队。
马云说过,只要用钱能解决的问题都不是问题,但这句话,在大多数传统企业并不适用,我们并没有很多钱,或者说不能用很多的钱,比如不可能突破机制限制用百万年薪去请到现成的顶级技术专家,往往需要在没有很多钱的情况下解决问题。
传统企业在大数据人才的争取上也非常困难,这是无法回避的现实,互联网公司当下对于人才的搜刮,叫作秋风扫落叶。
传统企业大数据技术团队挑战很大,特别是想要能力自主掌控的。这里就从一个旁观者的角度来谈谈A公司的大数据技术团队,也许可以看到不一样的东西。
A公司的大数据平台规划非常艰难。
诸如BAT,大数据平台是摸爬滚打过来的,经历了大量的实际验证才走到今天这一步,投入的研发力量难以计数。
大数据平台对于传统企业,却是一声惊雷,几乎没有任何储备,就要迎接技术的冲击,这也是很多企业一时不知所措的原因。虽然有合作伙伴的相关产品,但现在有哪家公司的大数据产品可以说是成熟的呢,稳定性及高可用程度能够达到以前小型机的高度?
但各家公司的大数据平台方案还是纷至沓来,BAT又朱玉在前,在乱花渐欲迷人眼中,需要有大师出现,能根据自己企业的特点制定出适合的大数据方案,兼顾商业和开源的益处,同时也要考虑新技术的不确定性。
但A是有底蕴的。
在BAT的技术一日千里的时候,A公司的大师也没有闲着,虽然没有很多人,但对于大数据的技术演进方向研究很深,这得益于这个开放的时代,但如果只叫不学习,就只能剩下抱怨和被新技术淘汰了。
在此之前,A公司的大师,已经对大量的技术进行了测试,这为平台方案的制定奠定了坚实的基础,当然,也有很多误判,走了不少弯路,但当前采用的方案,基本是能想到的最好的妥协的方案了,后面的事实证明了这一切。
何谓最好,就是它在可见的几年内,能真正顶上去了,能够用起来了,能够把得住,技术无止境,够用就好,这是务实的原则。
A公司的团队用了一年时间,完成了下面所有系统的建设,并纳入生产,速度很快,成为推动大数据商业变现的利器。
A团队做了很多创新,年底集群将接近1000台,数据量超过10PB,虽难以比肩BAT,但在传统企业里,也算是很大的单集群了。
提出了ETL和基础数据处理集群物理统一,逻辑分散的原则,解决了采集文集少落一次地的问题,这个对于做ETL的人来,价值很大。
提供了租户资源隔离能力,即所见即所得,为A公司对外变现商户入驻等商业模式的成功奠定了坚实的基础,当前,开出的租户超过100个,支撑了公司对外商业变现零的突破。
让公司内部每个地市和团队都拥有了独立使用大数据平台的能力,开始从传统的小型机的数据集市过渡到hadoop,奠定了全民使用大数据的基础,这在以前很难想象。
事实上,只要一线无法接触大数据平台的数据,无法直接在这个平台上建模,就不能说这个企业有了运营大数据的能力,如果仅仅是捣鼓几张表到传统的数据集市,那也是没有多大价值的事情。
MPP:
从DB2过渡到EXDATA、ASTER、GBASE,也许大家觉得奇怪为什么选择这么多型号,这也是A团队实践的结果,传统企业需要在有限的条件下,选择合适的组件来满足各种场景的业务需求。
现在A公司GBASE为核心的数据仓库完整替代传统DB2,性能提升数倍,解决了老大难问题,要知道,A公司是传统企业,上有考核,下有业务,稳定性是无法规避的最大的问题。DB2从2003年开始建设,到现在历经10多年,从PXXX到现在的P780,要替换它非常不易。
也务实的选择了EXDATA作为报表的服务器,对于多并发的小型OLAP任务,显然,EXDATA是最佳人选,为什么是这样,实践得出的结果。
TD的ASTER虽说测试不顺利,但其自带核心算法的能力,也让其占有一席之地,A公司的N度交往圈模型,是完全依赖其函数完成的。
A公司的数据仓库层面彻底淘汰了小型机,算是旅程碑的事件,要为团队点赞,也为国产数据库喝彩。
A公司的方案不能说最好,但这是实践的结果,也经受住了生产的考验。
流处理:
A公司的流处理的选型经历了大量的论证和测试,最终A大师当机立断,选择了商用的IBM SREAM,淘汰了Storm,当前每天承担着近千亿的记录处理量。这套流处理为实时营销、反欺诈等实时应用场景奠定了坚实的基础,比如基于该引擎的自主研发的照妖镜实时欺诈干预系统每月挽回的客户损失就超过百万。
还有数不清的产品在用和要用这套平台,公司的标签体系也将逐步由静态向实时转变以适应公司转型,但没有这个平台,什么都不可能发生。
内存数据库:
实时营销涉及复杂的SQL在线计算,需要选用合适的分布式SQL内存数据库,A公司的大师们到处找开源的产品,然后进行测试,最终还是找到了,当前,实时营销每天要处理的记录超过几十亿条。
还有,为了支撑实时查询,引入了HBASE和Redis,为了满足在线分析,引入了IMPALA,为了并行挖掘,搭建起了可用的Spark环境,为了资源高效利用,打造了数据中心操作系统DCOS,还有……。
每一个组件虽然很光鲜,但真要用起来,问题还是很多,毕竟实验和生产是两个境界的事情。
平台运维:
建立起平台对于大数据技术团队只是个开始,更艰难的是日常的运维,面对如此多而新的复杂的技术组件,统计了下,某月光是Kafka的一个组件出现的问题就超过10次,但技术团队还是趟过去了,熬夜虽变成是常态,但技术团队却是越加成熟,也感谢携手的合作伙伴团队的努力。
虽然是以A公司为例,但可以看到,传统企业要搞大数据面临的技术环境非常复杂,技术之路走起来非常艰难。
开放协作:
在乱花渐欲迷人眼的技术丛林中,A公司也团聚了合作伙伴,但相比互联网公司动辄上百成千的研发团队,A公司的技术人员数量,也许连零头都没有.....。
完全的自研对于传统企业不现实,不可能什么都从头搞起,需要借道合作伙伴,共同成长,能抓到老鼠的就是好猫,况且这是个开放的世界,相互协作,产业才能真正繁荣,寡头出现并不是好事。何谓好呢,只要满足了自身的业务要求的技术就是好的技术。
事实上,传统公司搞大数据技术,相对BAT巨鳄,亦或比对新的互联网公司,面临的新挑战也前所未有:
在面对开源技术的不确定性上,需要承担以往小型机时代高可用性带来的巨大压力,要以更加创新的精神去更新自己的存量技术体系;
在人才的储备和引进上,面临互联网公司的激烈人才竞争,要面对薪酬被吊打的节奏,培养和留住人才成为巨大的课题。
在突破创新和保障稳定上,需要在机制的夹缝中生存,做好两者的平衡,很多传统企业的业务容错性要求要比互联网企业更苛刻,这个的确压缩了技术创新的空间。
在技术上下沟通上,要在缺乏足够的商业模式下,以技术领先业务半步的视角,说服管理者做这个有前途但短期可能缺乏规模效益的事情,何其艰难。
虽然大数据平台只是个基础,最终的变现还是需要靠建模和运营,但大家都知道这个是中流砥柱。
因此,为中国移动浙江公司大数据平台的技术团队点赞,一只致力于技术创新的队伍。
花絮:
为什么叫A公司的技术人员为大师,我的理解来自玩的一个剑侠情缘三游戏,因为里面有个职业叫少林,秃头难看且操控要求很高,因此玩的人凤毛麟角,但总有高人愿意去玩这个职业,出道后,大家都尊称他们为大师,因为各个武艺非凡。因此,笔者喜欢称技术能力超群的人为大师。
作者:傅一平  目前就职于某电信运营商,从事大数据相关工作。

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-30 20:02

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表