最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

Mortar Data CEO兼创始人Mortar K Young:如何利用Redshift实现大数据集成

[复制链接]
跳转到指定楼层
楼主
发表于 2015-1-2 23:29:45 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

Mortar是一个稳健的可以无缝连接最好的数据技术的平台,使得初创企业可以快速发展坚实的基础。用户可以连接到任何数据源,做任何转换或算法,随后通过一个命令就可以在生产环境获得一个可扩展的,健壮的工作负载。在几天或几周内,Mortar就可完成基础设施、配置、multitech集成、和监测的自动化任务,就让高价值的项目投入生产,而不需要几个月或几年的时间。

Mortar Data CEO兼创始人Mortar K Young

我们来自哪里

我以前是纽约市教育技术公司--Wireless Generation的一名员工。这家公司非常的成功:我们构建了一些真正有趣的产品,公司最终以4亿美元的价格被收购。

但是我和同事有个很棘手的问题。我们发现对于学生使用大数据集学习强大的建模和数据分析的时候,效率真是低得令人沮丧。

差不多同时,新兴的hadoop生态系统产生的新技术已经可以利用分布式计算大规模并行复杂数据处理任务,就像我们运行学生数据的那些任务。但在这些新技术领域没有资深技术专家,因为对大多数工程师来说入门门槛太高了。

我们决定改变这种状况,于是在2011年创建了Mortar Data公司,为工程师和数据科学家提供一个平台,让他们能够轻松、及时地访问最好的数据技术--去除设置和配置的麻烦,不用头疼基础设施,更不用手足无措的祈求一切顺利不被未知的错误破坏。

大量,杂乱的数据

众所周知,数据无处不在,这也是一个问题。

如果在生产环境中运行app,你会采集用户在app中进行操作的各种数据。你通过网站、CRM和用户沟通交流服务获取的数据,甚至是不起眼的地方的一点小数据都不放过。你明白我的意思。数据无处不在。

财富1000强的企业和其他大公司的问题更糟,他们不仅有大量的数据,而且数据通常遍布许多存储仓,其中一些数据已经不再活跃,只是躺在那里,布满灰尘。

也许每一个数据源在某一个点上来说是有用的,但是不集成所有数据,访问数据存储就无法解决很多大的、重要的方针指定问题。不幸的是,将数据手动的集成到一起几乎是不可能的,特别是处理大量数据的时候。

扫清混乱

为了保持低成本和操作简单,我们利用AWS为用户提供其需求的高效且无限的计算能力。Amazon Redshift,这是亚马逊随需应变型数据仓库,使用ad-hoc查询或集成BI工具作为图形界面来提供了一种理想的方式处理大数据,综合报告和数据分析。Redshift的速度非常快,没有提前委托就可以随需应变,简单并且有伸缩性。所以,2013年才发布的Redshift现在就已经成为AWS有史以来增长最快的服务了。

我们第一次用Redshift分析从自己的网站app收集到的一些数据时,发现了两件事情:第一,Redshift和我们耳闻的是一样的;第二,Mortar是加载一个Redshift数据库最佳的方式。

凡是工作带有“数据”头衔的人都知道,整理和处理数据是一部分巨大的工作。数据生成的表单很少有随时可用的。还需要标准化、处理、整理减少问题字段。

在其他技术中,Mortar平台运行Apache Pig,其执行简单的,可读的,分段数据处理脚本作为分布式MapReduce工作(在亚马逊EMR服务上)。Pig的数据流语言对于转换数据是极其高效,这使得它非常适合从任何数据源中获取混乱的原始数据,并且整理、预处理准备集成的数据。因此,我们马上就发现我们的客户可以集成大数据源——通过利用管道整理数据输入到Redshift的Pig脚本。

但这只是成功的一半。为了真正有用,数据库必须保持数据最新,理想情况是需要最小限度的维护和手动操作。这就是Mortar平台带有的另一部分功能。Spotify开发和开源的 Luigi在被无数公司使用(包括Stripe,Capital One,Asana,和Foursquare),是一个用于策划多级数据处理工作的框架,可以结合Luigi和Mortar,一个工程师可以自动化数据管道,包括任何多重依赖技术。

例如,如果任务B取决于任务A,你会希望管道先触发任务A,完成之后再触发任务B。最终,你就可以安排整个管道定期或连续运行了。

这意味着你可以轻松地执行模块化Pig脚本,每个脚本处理不同来源的数据,以及将所有数据自动定期输入到Redshift。这样的管道听起来复杂但实际上是非常有弹性的:如果管道的一部分由于某种原因失败了,Mortar可以自动重试。Luigi会恢复中断处管道的工作,节省了时间和计算成本。加上我们建成了全面监控和警报系统来拯救客户脱离夜不能寐。我们是一群pager-carrying工程师,所以知道这点是多么的重要。

成功案例

当你在初创公司工作,你永远不会知道你工作的通往哪里。例如,当我们开始创立Mortar时,Redshift甚至还不存在,所以我们不知道构建什么能与之紧密配合好,并且当构建好了我们的Redshift功能,也不知道谁会使用它或者它会为客户开放哪种新发现。

因此,大约一个月以前,我们兴奋地阅读了Michael Erasmus写的博客,他是我们的客户——Buffer公司的一位工程师。Buffer在使用Mortar建立一个新架构将数据持续输入到Redshift之前是被“淹没在数据”中的。

在Redshift上运行图形化BI工具Looker,Buffer所有突然出现的数据对公司每个人需要它的人都是立即可用的。Erasmus说,即使是技术不太好的团队成员“都能快速上手Looker并满足自己的数据需求,想出惊人的见解真的很快。”

通过Redshift,Buffer公司任何人现在都可以在短时间内分析5亿条记录,而不是等待数据团队的某个人为他们写一个定制查询。这是他们从度量和分析过程中删除了的巨大瓶颈,应该能帮助他们为客户提供更好的服务。我们为创建出帮助他们这么做的东西感到非常自豪。

继续前进

我们的客户现在使用Mortar来生成建议,运行预测分析,构建机器学习模型,以及使用Amazon
Redshift集成多个数据源到中心的、可进的、易查询的数据库。应用工具诸如Redshift,我们正在推进使命任务让客户免于花费90%的时间到模板任务上,这样他们就可以花100%的时间解决具体业务上有趣的问题。

原文链接: https://medium.com/aws-activate-startup-blog/modern-data-integration-with-mortar-and-redshift-fed7aff67519



楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-16 12:19

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表