从MPP数仓迁移至Spark：案例与最佳实践分享

发表于 2019-5-15 17:57:42

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

您需要登录才可以下载或查看，没有帐号？立即注册

x

本文资料来自2019-03-24在上海举办的 hadoop+Spark生态技术开放日。

分享者：孙爱旭和朱立鹏，ebay高级数据工程师。Apache Spark 以及 Apache Chukwa 的 Committer，Apache Livy PMC。

本次主要分享关于迁移实际案例与最佳实践更加深入的探讨。在迁移过程中，我们遇到了很多的预料之外的问题，如字符集问题，数字进位问题，各种OOM等等，更加深入地了解了Spark和RDMBS之间的差异。在弥补鸿沟和解决问题的过程中，我们做了很多的实践，贡献给了社区很多的反馈，也解决了很多的bug。即便对于Spark当前不能处理的场景，比如recurisve query，也有了一些可行的探索。此外，我们现在还开发了一套自动化框架来帮助加速迁移工作。在这次分享中，我们会深入迁移的关键步骤，并分享踩过的一些坑，最后会介绍我们的自动化工具，如SQL Converter等。相信对正工作在类似的任务或者即将开展类似工作的工程师们会有所帮助。

帐号		自动登录	找回密码
密码			立即注册

从MPP数仓迁移至Spark：案例与最佳实践分享

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

站长推荐 /1