168大数据

标题: Hive架构优点及使用场景 [打印本页]

作者: 168主编 时间: 2019-6-24 19:28
标题: Hive架构优点及使用场景
本帖最后由 168主编于 2019-6-24 19:31 编辑

先阅读初识hive
Hive在大数据生态环境中的位置

Hive架构图

client 三种访问方式

1、CLI(hive shell)、command line interface（命令行接口）
2、JDBC/ODBC(java访问hive)，
3、WEBUI(浏览器访问hive)
Meta store 元数据存储
元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列、分区字段、表的类型（是否是外部表）、表的数据所在的目录等；
默认存储在自带的derby数据库中，推荐使用采用MySQL存储Metastore；
Driver
包含：解析器、编译器、优化器、执行器；
1、解析器：将SQL字符串转换成抽象语法树AST，这一步一般都用第三方工具库完成，比如antlr；对AST进行语法分析，比如表是否存在、字段是否存在、SQL语义是否有误(比如select中被判定为聚合的字段在group by中是否有出现)；
2、编译器：将AST编译生成逻辑执行计划；优化器：对逻辑执行计划进行优化；
3、执行器：把逻辑执行计划转换成可以运行的物理计划。对于Hive来说，就
是MR/TEZ/Spark；
举例 select substring(ip,0,4) ip_prex from bg_log ;
执行顺序：首先在metastore查询-->sql解析-->查询优化--->物理计划-->执行MapReduce

优点及使用场景

作者：志辉聊码
链接：https://www.jianshu.com/p/c977c7906b86

欢迎光临 168大数据 (http://www.bi168.cn/)