最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

[综合] 近实时运算的利器---presto在公司实践

[复制链接]
跳转到指定楼层
楼主
发表于 2017-6-29 23:16:47 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
1.起因
公司hadoop集群里的datanonde和tasktracker节点负载主要集中于晚上到凌晨,平日工作时间负载不是很高。但在工作时间内,公司业务人员有实时查询需求,现在主要
借助于hive提供业务人员日常查询。总所周知,hive是一个基于MR的类SQL查询工具,它会把输入的查询SQL解释为MapReduce,能极大的降低使用大数据查询的门槛,
让一般的业务人员也可以直接对大数据进行查询。但一个弊病也是很明显,它的查询速度由于基于MR,会是非常的让人着急。


Spark,Storm横行的时代,spark由于耗用内存高而很难满足这种改良的需求,Storm由于和hive不是一个套路,本身实时流处理的思路也和我们的需求差距较大,所以,
寻求一个能提供类似SQL查询接口,并且速度比较接近于实时,能利用现有集群硬件的实时SQL查询引擎成为一个现有hive的替代查询引擎。如果有这个引擎,可以利用
datanode,tasktracker上空闲的内存构成一个分布式的“数据加载内存池”,将数据加载到内存后,再进行计算,这样无疑会提高大数据查询的速度。
幸好,创造了hive的facebook,不负众望,创造了这么一款神器---presto。下面我们来看presto能给我们带来什么。


插图:日常各个dn和tt的节点的内存使用情况,白天有比较多的空闲时段

2.presto的介绍
英文出处:Martin Traverso(Facebook)。

Presto是一个分布式SQL查询引擎, 它被设计为用来专门进行高速、实时的数据分析。它支持标准的ANSI SQL,包括复杂查询、聚合(aggregation)、连接(join)和窗口函数(window functions)。

Presto的运行模型和Hive或MapReduce有着本质的区别。Hive将查询翻译成多阶段的MapReduce任务, 一个接着一个地运行。 每一个任务从磁盘上读取输入数据并且将中间结果输出到磁盘上。 然而Presto引擎没有使用MapReduce。它使用了一个定制的查询和执行引擎和响应的操作符来支持SQL的语法。除了改进的调度算法之外, 所有的数据处理都是在内存中进行的。 不同的处理端通过网络组成处理的流水线。 这样会避免不必要的磁盘读写和额外的延迟。 这种流水线式的执行模型会在同一时间运行多个数据处理段, 一旦数据可用的时候就会将数据从一个处理段传入到下一个处理段。 这样的方式会大大的减少各种查询的端到端响应时间。


3.presto部署
首先安装jdk 1.8,下载jdk 1.8后,解压
tar zxf jdk1.8.0_45.tar.gz
设置1.8为默认的jdk
rm /usr/java/latest ln -s /usr/java/jdk1.8.0_45 /usr/java/latest

在/etc/profile里设置
export JAVA_HOME=/usr/java/default
然后运行:
source /etc/profile生效设置。
下载presto。
wget https://repo1.maven.org/maven2/c ... server-0.100.tar.gz
解压presto
tar zxf presto-server-0.100.tar.gz
由于presto有个调度节点和工作节点的区别,所以,我们先配置调度节点。可以在部署后,就用单节点模式,即调度和工作节点为同一台服务器来进行测试。
首先配置etc/catalog/hive.properties
connector.name=hive-hadoop2hive.metastore.uri=thrift://192.168.1.xxx:10001hive.config.resources=/etc/hadoop/conf/core-site.xml,/etc/hadoop/conf/hdfs-site.xml说明:
connector.name是当前集群是hadoop版本,有hadoop1,hadoop2,cdh4,cdh5等可选,详细可以参考plugin目录里支持类型。
hive.metasore.uri是对应hive数据源提供的thrift接口,不然presto怎么有元数据呢?
hive.config.resources是对应hadoop配置。
然后配置:etc/node.properties
node.environment=productionnode.id=ffffffff-ffff-ffff-ffff-ffffffffffffnode-103-15node.data-dir=/opt/presto/data

重要的,每个节点都有自己唯一id,不然不好协同工作了。
所以,node.id一定是一个唯一的id
node.data-dir是本机的一个presto数据文件目录。

最后配置:etc/config.properties
coordinator=true
node-scheduler.include-coordinator=truehttp-server.http.port=1089task.max-memory=1GBdiscovery-server.enabled=truediscovery.uri=http://node-103-15:1089
http-server.http.port指明调度节点的端口,很重要啊,presto集群的机器都得和这个端口通讯。discovery.uri=http://node-103-15:1089 也很重要,调度节点的地址,端口,好好指定,集群唯一的。
4.遇到问题解决
首先遇到问题就是jdk的兼容,由于presto只兼容1.8以上jdk,以前hadoop的1.6,1.7都不行。
所以要将presto部署好,势必和以前hadoop环境的jdk有冲突。所以,干脆将系统jdk升级到1.8.
然后stop tasktracker,stop datanode,最后又重启datanode,tasktracker.最后启动presto.
./launcher start
最后启动presto cli进行查询
./presto-cli  --server node-103-15:1089 --catalog hive --schema default
注意,presto-cli是将presto-cli-excute.jar进行重命名,并且chmod后而来的。
最后比较尴尬的是,presto对lzo支持不好,特别是分片的lzo,基本就不支持,这个没办法,presto本身就讲明了
不支持。哎,哪位有办法,可以联系下我。

5.presto和hive的性能比较
用同一个SQL做查询,3台服务器presto是:
[img=0,100]file:///D:/Documents/Tencent%20Files/119643/Image/C2C/A%257%25@%7D4@%25%7B@_$77_4E5V@1M.png[/img]

采用hive查询是:



基本上查询速度快了10倍。
综上所述,presto是一个部署容易,又能较好利用空闲内存的近实时查询引擎。

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-15 21:06

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表