最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

万字长文解析“数据中台”的硅谷实践

[复制链接]
跳转到指定楼层
楼主
发表于 2020-9-13 11:41:59 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x



4月18日下午,智领云联合创始人&CTO,前EA(艺电)大数据平台高级工程经理宋文欣博士首度在智领云技术直播中开讲,向参加直播的数百位观众讲述了硅谷“数据中台”的故事。实际上,经过前几次的直播,很多人已经对数据中台有了更深入的了解。不过,可能大家还有这样的疑问,就是中国的数据中台市场如此火热,而国外数据中台就没有什么声音。其实,事实并不是这样,硅谷的公司其实已经早于中国建设了所谓的”数据中台“。只不过,在国外,并没有数据中台这个称谓,而是统一以数据平台的名称命名,但是这个数据平台已经具备了我们所说的数据中台的全部功能。
那么,作为全球技术风向标的硅谷企业的“数据中台“到底什么样,他们的“数据中台”是如何建设的?想必很多人对此多充满着好奇和疑问,而宋文欣博士从美国纽约州立石溪大学计算机取得博士学位之后就开始在硅谷从事大数据方面的工作,并曾经任职美国四大引擎之一的Ask.com以及久负盛名的美国EA(艺电),因此,由他来讲述硅谷“数据中台”的故事,称得上是恰如其分。
硅谷的“中台论”
宋文欣博士在直播开始就强调,在硅谷,并没有“中台”这个称谓,而是统称为数据平台,但是硅谷的数据平台实践与数据中台的理论是基本吻合的。中台由阿里巴巴的马云提出,并付诸于实践,形成了阿里“大中台,小前台”的战略。之后,“中台”开始风靡一时。
中台的火热,实质上也反映了中国数据驱动热潮逐步升温,正在同更先进的技术同步的趋势。虽然硅谷没有中台这样一个词,但硅谷的各厂商很早就已经开始了“中台”的建设,比如说EA,众所周知,中台的故事源于SuperCell这个游戏公司,它之所以发展的非常好,以一个小小的规模就能够创造很大的价值,就是因为它有一个统一的游戏开发的平台或者称之为中台。EA同样也有一个这样的游戏引擎开发平台,就叫做寒霜。寒霜是一个拥有可视化界面,可以非常方便地加载各种地图,做出各种光影效果以及音效的技术中台,最初是为《战地》系列游戏打造的。通过寒霜引擎,可以很轻松实现控制诸如雨点的大小,雪花片的形状等等功能。现在,寒霜引擎已经成为EA几乎所有游戏的开发引擎,这极大的提高了EA游戏的开发效率,这就是技术中台在硅谷实践的一个典型的例子。
Airbnb是共享民宿领域的一个佼佼者,它的数据中台架构从左到右,依次是Event Logs,包括MySQL Dumps数据源,通过Kafka,Sqoop进行数据采集。Sqoop是批量采集,Kafka是实时采集,之后进入名叫Gold的主生产Hive集群,通过复制了以后,变成一个名叫Sliver的Hive集群。然后还有一个Spark的集群,进行Spark计算。整个集群的调度系统使用了Airflow Scheduling。Airflow Scheduling是Airbnb推出的一个工作流管理的开源软件,Airflow与前面提到的Oozie,是两个比较常用的工作流管理开源软件。不过,Airflow从性能和使用上来说,应该是比Oozie更先进的工作流管理软件。下面支持两个集群的就是Presto Cluster存储,Presto的存储计算能力比Hive更加的高效快速。右边是一些BI的工具。这个架构基本上也是和EA、Twitter的架构基本上相同,只是各个环节的组件不同。数据中台在Airbnb的应用也很广泛的,像自然语言分析,房价预测、回归分析预定、协同过滤分析房东喜好等。
硅谷建设“数据中台”面临的挑战
在直播的最后,宋文欣博士谈到了硅谷企业建设“数据中台”面临的一些挑战。
第一个挑战就是大数据的组件繁多,部署升级比较困难。hadoop生态有几百个组件,每个组件之间的依赖相当的复杂,每一次Hadop集群的升级、扩展,都是一个非常复杂的工作,要进行长达一个月的计划,准备。最后的操作也基本上是以天为单位,有时候甚至需要两、三天时间才能完成。
第二个挑战就是数据流调度工具的局限。数据流调度工具一般安装都比较复杂,同时,还存在性能瓶颈。像Airbnb用的Airflow,安装就需要有一定的编程的能力,整个流水线的部署还是相对来说复杂了一点。EA用的Oozie在作业数量接近八千到一万以后,经常会出现调度机制失灵的现象。
第三个挑战就是缺少统一的全局数据资产管理。在数据中台中,有四个要素,就是用户、数据、应用和资源。这四大要素,每两两之间的关系分析,在应用过程中经常会用到,比如,在Oozie中,我们曾经就做了一个工具,能够去找到数据和它运行数据的作业之间的关系,但这只是覆盖了其中两个要素,而像用户和资源这两个要素,还是没有统一管理起来,也就是说目前市面上还没有一个产品能够真正的把这四个元素都统一管理起来。
第四个挑战是选择的困难。如此多的组件,究竟应该如何选择?每家企业都有自己的业务特点,每家企业都要求稳定性、可靠性。那么在这种情况下,应该如何选择?这对于很多建设数据中台的企业来说,也是一个痛点。
最后一个挑战,是中美同样面临的情况,就是人才难得。宋文欣博士在EA的时候,基本上头一年的时间每天都在面试,整个面试过了五六百人。因此,人才难得永远是一个挑战,即便是是在硅谷这样一个高科技公司云集的环境中。同样,国内也是如此。大数据人才的培养,目前还没有能够跟上,但数据中台建设的热潮已经滚滚而来,各个企业也都已经意识到数据中台的建设是一个必经之路,这也导致大数据方面的人才更加难得。
宋文欣博士表示,而应对这样的一些挑战,其实也是他之所以回国创立智领云公司的初衷。智领云就是想通过一个标准化的数据中台产品来解决这些挑战和难点。比如说针对大数据组件部署难的问题,智领云的数据中台采用了纯粹的云原生架构,通过容器化大数据组件的方式,大大简化了大数据平台部署难、升级难的问题。智领云的数据流水线工具,是一个分布式的流水线作业管理系统,具有非常优异的性能,在内部测试中,同时处理几万个作业毫无问题。同时,它采用的是完全可视化的操作,通过鼠标拖拽即可完成相关工作。此外,它的编程也是相当的简洁,全局的人工智能管理。智领云还开发了一个资源管理系统,能够把用户、数据、应用和资源统一的管理起来,背后支撑这个系统是一个类似Google爬虫的系统。在整个系统中,把所有元数据、用户数据、用户的访问记录等所有的资源体系都能够挖掘出来,建立各种关联,统一的展示在用户面前。这就是智领云做得工作,选择困难,迎难而上。
宋文欣博士最后总结,在整个大数据平台/数据中台建设中,不论是大数据组件的部署,还是大数据组件的应用、配置,智领云都把它做成了标准化组件,这使得用户在使用时感觉非常简单。用户可以很简单的使用、配置整个系统。如果觉得某个组件性能不符合要求,用户也可以轻松的把它淘汰掉或者升级。同时,通过使用智领云这样一个标准化的数据中台以后,整个大数据的建设工作、运维工作都可以做到了很大程度的简化,用户需要的可能只是一些专业的、在企业业务领域内专家级的数据科学家或者是维护云原生平台的一些IT运维人员,而不必去考虑如何才能招募到一些大数据专家或者大数据公司来开发一个数据中台,这对于解决人才招聘难的问题,同样也是一个很好的解决方案。
直播问答精选:
1.硅谷有没有数据中台概念?数据平台和中国数据中台有何异同?
没有太对区别,但在提法上面说法有点不同,实质的建设内容是一样的。快速迭代,上线,能力共享,复用,自助式等。理论上硅谷没有技术中台,业务中台,数据中台等的区分,但是建设内容是一样的。
2.数据中台如何保证安全方面的问题?
数据中台重要特性是多租户,在EA也是一样,每个部门能看到和使用的数据都是不同的,是一个多租户的形式。在游戏采集的时候,每个国家都会对数据安全性进行控制,这个是有硬性规定的。这也是为什么EA要自己开发数据采集的工具。一般采用单点登录(LDAP)的方式来保证安全性。
3.硅谷的方案能否理解为私有的解决方案,硅谷有没有提供数据中台SaaS化的服务?
各个公司的数据中台都是私有的方案,但是不代表他们之间没有共性,总体建设的方式基本是一致的。建设方法是公开的。硅谷没有SaaS化的数据中台,但是有SaaS化的服务,例如有公司把Hive的计算引擎做成SaaS化服务的案例。但这是一种服务,不能称为数据中台。Amazon提供一些基础性的服务,但是也不能称之为中台。云服务上也没有提供一个SaaS化的服务来服务各个企业。安全性也是一个重要的考虑因素。
4.数据中台如何打通来自不同平台的数据?
没有一个开源的软件或商业化软件可以实现,但是我们的产品可以帮助实现,这些外部数据有些接口可以把数据引流进来。但是国内的数据都提供丰富的接口管理,我们的产品也做了数据采集接口开发,后面也会把这个做成通用的产品。
5.数据湖未来发展的趋势?
数据湖在数据中台是个逻辑性的组织部分,所有的原始数据,没有经过任何处理,形成的就是一个数据湖。数据仓库里可以建立模型后,通过数据湖到数据仓库的匹配,把数据规整,进行转换。数据湖是数据中台比不可少的过程
未来发展:采集工具的丰富,轻松构建从数据湖到数据仓库的通道,让数据湖的物理模型和数据仓库的逻辑模型进行对接,稳定的构建数仓的各种表及数据集市的表
6.硅谷互联网公司的实践能否应用到国内的企业?
这就是智领云创建的初衷,传统的企业在解决这些问题是很困难,帮助传统企业在建设过程中不需做大量的人力物力投入,快速搭建,实现数据中台的建设,这就是我们产品的出发点,解决传统企业建设数据中台难点。
7.实时数据分析的数据中台有什么特殊考虑?
实时采集,需要重点考虑稳定性、高可用、易扩展,系统构建,设计实现要非常谨慎,不出故障还能快速应对流量的变化,这些是构建的基本原则,可选择kafka架构作为基础,把实时处理的整个架构搭建起来。

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-19 19:39

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表