168大数据

标题: 面向Hadoop框架的高级语言: Apache Pig [打印本页]

作者: 乔帮主    时间: 2014-9-25 16:14
标题: 面向Hadoop框架的高级语言: Apache Pig
Apache Pig是用来处理大规模数据的高级查询语言,配合Hadoop使用,可以在处理海量数据时达到事半功倍的效果,比使用Java,C++等语言编写大规模数据处理程序的难度要小N倍,实现同样的效果的代码量也小N倍。Apache Pig为大数据集的处理提供了更高层次的抽象,为mapreduce算法(框架)实现了一套类SQL的数据处理脚本语言的shell脚本,在Pig中称之为Pig Latin,在这套脚本中我们可以对加载出来的数据进行排序、过滤、求和、分组(group by)、关联(Joining),Pig也可以由用户自定义一些函数对数据集进行操作,也就是传说中的UDF(user-defined functions)。
Pig有两种运行模式:Loca模式和MapReduce模式。当Pig在Local模式下运行时,Pig只访问本地一台主机;当Pig在MapReduce模式下运行时,它将访问一个Hadoop集群和HDFS的安装位置。这时,Pig将自动地对这个集群进行分配和回收。因为Pig系统可以自动对MapReduce程序进行优化,所以当用户使用Pig Latin语言进行编程的时候,不必关心程序运行的效率,Pig系统将会自动对程序进行优化,这样可以大了节省编程时间。Pig的Local模式和MapReduce模式都有三种运行方式,分别为:Grunt Shell方式、脚本文件方式和嵌入式程序方式。
Pig是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义(如日志文件)。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。
Pig在数据类型上的设计理念总结为一句口号:pig吃任何东西,输入数据可以支持任何格式,pig天生支持那些流行的格式,如制表符分隔的文本文件,用户也可以增加函数支持其他的数据格式文件,pig不需要元数据或者数据的schma,但如果有也可以利用。
Apache Pig基本架构
Pig的实现5个主要部分构成:
与Hive对比
Pig的应用场景
Pig包括:
Pig的优点:
Pig主要用户
Pig的主要开发者
Pig工具
Pig定位
Pig Latin语言和传统的数据库语言很相似,但是Pig Latin更侧重于数据查询。而不是对数据进行修改和删除等操作。pig语句通常按照如下的格式来编写。
LOAD和STORE语句有严格的语法规定。关键是灵活使用转换语句对数据进行处理。
Pig Latin的特性:
Pig Latin 程序有一系列的 operation 和 transformation 组成。每个操作或变换对输入进行数据处理,然后产生输出结果。这些操作整体上描述了一个数据流。Pig 内部,这些变换操作被转换成一系列的 MapReduce 作业。Pig 不适合所有的数据处理任务,和 MapReduce 一样,它是为数据批处理而设计的。如果只想查询大数据集中的一小部分数据,Pig 的实现不会很好,因为它要扫描整个数据集或绝大部分。
参考资料







欢迎光临 168大数据 (http://www.bi168.cn/) Powered by Discuz! X3.2