全球最具影响力的数据智能产业服务和职业发展平台

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
开启左侧

从MPP数仓迁移至Spark:案例与最佳实践分享

[复制链接]
发表于 2019-5-15 17:57:42 | 显示全部楼层 |阅读模式
本文资料来自2019-03-24在上海举办的 hadoop+Spark生态技术开放日。

分享者:孙爱旭和朱立鹏,ebay高级数据工程师。Apache Spark 以及 Apache Chukwa 的 Committer,Apache Livy PMC。
本次主要分享关于迁移实际案例与最佳实践更加深入的探讨。在迁移过程中,我们遇到了很多的预料之外的问题,如字符集问题,数字进位问题,各种OOM等等,更加深入地了解了Spark和RDMBS之间的差异。在弥补鸿沟和解决问题的过程中,我们做了很多的实践,贡献给了社区很多的反馈,也解决了很多的bug。即便对于Spark当前不能处理的场景,比如recurisve query,也有了一些可行的探索。此外,我们现在还开发了一套自动化框架来帮助加速迁移工作。在这次分享中,我们会深入迁移的关键步骤,并分享踩过的一些坑,最后会介绍我们的自动化工具,如SQL Converter等。相信对正工作在类似的任务或者即将开展类似工作的工程师们会有所帮助。

楼主热帖
168大数据(www.bi168.cn)是国内首家系统性关注大数据科学与人工智能的社区媒体!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2019-8-21 13:42 , Processed in 0.098175 second(s), 20 queries , Xcache On.

Powered by BI168社区

© 2012-2014 海鸥科技

快速回复 返回顶部 返回列表