最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

MapR意欲将SQL on Hadoop推向新的高度

[复制链接]
跳转到指定楼层
楼主
发表于 2014-10-2 21:37:29 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
为了彻底摆脱管理规划的束缚并告别在内容探索前需要对输入数据进行的长时间ETL(即提取、转换与加载)任务,MapR在其hadoop发行版中引入了Apache Drill分布式ANSI SQL查询引擎。
为了帮助用户告别一系列强度极高的数据工程处理任务,MapR日前对其Hadoop发行版进行了更新、核心内容在于引入Apache Drill 0.5。
Drill是一款开源分布式ANSI SQL查询引擎,旨在进行自助式数据探索——它属于谷歌Dremel系统的开源版本,搜索巨头将其作为BigQuery服务的核心组件之一实现内部大型数据集的查询工作。Apache Drill的既定目标是拥有扩展至上万台甚至更多服务器的强大能力,同时保证用户可以在数秒之内处理PB级别数据以及上万亿条记录信息。
Drill查询引擎拥有以下各项能力:
• =在不改变原生格式的前提下进行数据探索(包括Parquet、JSON文件以及HBase表),而且无需数据库管理员的介入。
• 对不断变化且来自MongoDB等NoSQL数据存储体系以及在线REST API的半结构化/嵌套式数据进行分析。
• 创建出能够同时包含多种不同Hadoop数据源的查询机制,例如文件、HBase表以及Hive表。
• 重复使用现有SQL技术集、商务智能工具以及Apache Hive部署方案。
“我们对此感到非常兴奋,因为它真正开启了SQL-on-Hadoop的发展新时代,”MapR公司首席营销官Jack Norris表示。“其关注重点在于为Hadoop带来自助式数据探索能力,且完全无需IT部门的介入。”
这是因为Drill能够为用户带来让SQL查询直接面向多种数据格式加以运行的能力,它可以被用于对刚刚传输到的实时数据进行探索、而不再需要相关技术人员花费数周时间筹备管理规划或者设置ETL任务。通过这种方式,它成功地帮助使用者在处理多种数据源时拥有了即时性自助式数据探索方案。
“企业用户希望能够对保存在Hadoop以及NoSQL数据库当中的数据加以访问,并利用现有SQL分析技能将这种访问能力拓展到更为广泛的实际使用者群体当中,”451研究机构数据平台与分析研究主管Matt Aslett指出。“Apache Drill有能力帮助用户访问Hadoop当中存储的数据,而且完全无需制定任何集中式规划。除此之外,包含嵌套与重复域等复杂数据结构的NoSQL数据集也可以得到直接使用,这在传统SQL-on-Hadoop方案当中是完全不可想象的。”
“其它任何一款SQL-on-Hadoop解决方案,无论是Hive、Tez或者其它什么产品,在运行当中都需要依赖于固定的规划与模式,”Norris同时补充称。“无论大家着眼于MapReduce、Hive或者其它任何一种SQL-on-Hadoop解决方案,都需要某种中间人机制负责处理建模、数据转换以及分析支持等任务。Drill的亮点则正在于此——可以在无需等待的前提下实现数据探索,而这无疑会让用户拥有令人振奋的速度与敏捷性优势。”
MapR公司将Drill打包塞进了MapR 4.0.1版本,此版本日前刚刚闪亮登场。这款Hadoop发行版最新版本对自身面向各类用例的实时处理能力进行了显著扩展,具体用例类型包括业务应用程序、交互式查询以及数据流处理等。
新版本当中还包含多套批处理框架,具体有MapReduce 1.x与2.x(基于YARN)以及Spark(0.9与1.0.2版本)。它还支持五项SQL-on-Hadoop技术方案:Hive(0.11、0.12与0.13版本)、Drill(0.5版本)、SparkSQL(1.0.2版本)、Impala(1.3.1版本)并且拥有与惠普Vertica相集成的认证资质。它新增了面向HBase(0.94.21与0.98.4版本)的支持能力以及MapR-DB NoSQL技术。此外,最新的MapR还拥有三项机器学习与图形库方案,分别为Mahout(0.8与0.9版本)、MLLib(0.9与1.0.2版本)外加GraphX。

关于MapR:
MapR公司是美国加州的圣何塞市的一个企业管理软件公司,主要专注于可用性和数据安全优化和开发、销售Apache Hadoop的衍生软件,对Apache Hadoop主要贡献有:HBase、Pig (编程语言)、Apache Hive以及Apache ZooKeeper。MapR的Apache Hadoop发行版的要求提供完整的数据保护、无单点故障,这大大的提高了其性能与易用性。MAPR被亚马逊云服务选择为亚马逊弹性云EC2的升级版本。
MapR软件号称下一代Hadoop,使Hadoop变为一个速度更快、可靠性更高、更易于管理、使用更加方便的分布式计算服务和存储平台,同时性 能也不断提高。它将极大的扩大了Hadoop的使用范围和方式。它包含了开源社区的许多流行的工具和功能,例如Hbase、Hive。它还100%和 Apache Hadoop的API兼容。它能够为客户节约一半的硬件资源消耗,使更多的组织能够利用海量数据分析的力量提高竞争优势。目前有两个版本,M3和M5,其中M3是免费的,M5为收费版(有试用期)。


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-9 13:19

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表