开源ETL工具：Kettle

乔帮主 发表于 2014-9-25 16:13:29

Kettle也叫PDI，在2006年Kettle加入了开源的BI组织Pentaho，正式命名为PDI，英文全称为Pentaho Data Integeration。Kettle是“Kettle E.T.T.L. Envirnonment”只取首字母的缩写，这意味着它被设计用来帮助你实现你的ETTL需要：抽取、转换、装入和加载数据；翻译成中文名称应该叫水壶，名字的起源正如该项目的主程序员MATT在一个论坛里说的那样：希望把各种数据放到一个壶里然后以一种指定的格式流出。Kettle允许管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么，而不是你想怎么做。Kettle中有两种脚本文件，转换（transformation）和工作（job），transformation完成针对数据的基础转换，job则完成整个工作流的控制。Kettle整体结构图：http://www.biaodianfu.com/wp-content/uploads/2014/08/kettle.pngKettle的术语：
[*]Transformation：转换步奏，可以理解为将一个或者多个不同的数据源组装成一条流水线。然后最终输出到某一个地方，文件或者数据库等。
[*]Job：作业，可以调度设计好的转换，也可以执行一些文件处理（比较，删除），还可以上传下载文件、发送邮件、执行Shell命令等。 Job与Transformation的差别是：Transformation专注于数据的ETL，而Job的范围比较广，可以是Transformation，也可以是Mail、SQL、Shell、FTP等等，甚至可以是另外一个Job。
[*]Hop：连接Transformation步骤或者连接Job（实际上就是执行顺序）的连线。
[*]Transformation hop：主要表示数据的流向。从输入，过滤等转换操作，到输出。
[*]Job hop：可设置执行条件：无条件执行、当上一个Job执行结果为true时执行、当上一个Job执行结果为false时执行

Kettle家族目前包括4个产品：Spoon、Pan、CHEF、Kitchen。
[*]SPOON 允许你通过图形界面来设计ETTL转换过程（Transformation）。
[*]PAN 允许你批量运行由Spoon设计的ETL转换 (例如使用一个时间调度器)。Pan是一个后台执行的程序，没有图形界面。
[*]CHEF 允许你创建任务（Job）。任务通过允许每个转换，任务，脚本等等，更有利于自动化更新数据仓库的复杂工作。任务通过允许每个转换，任务，脚本等等。任务将会被检查，看看是否正确地运行了。
[*]KITCHEN 允许你批量使用由Chef设计的任务 (例如使用一个时间调度器)。KITCHEN也是一个后台运行的程序。
简单的可理解为：
[*]Spoon：Transformation设计工具（GUI方式）
[*]Pan：Transformation执行器（命令行方式）
[*]Chef：Job设计工具（GUI方式）
[*]Kitchen：Job执行器（命令行方式）
Kettle是由纯JAVA编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。要运行kettle工具必须安装Sun公司的JAVA运行环境，安装好java环境后，在操作系统环境变量path中配置jre路径，把kettle工具压缩包解压后可直接使用。Spoon是一个图形用户界面，它允许你运行转换或者任务，其中转换是用Pan工具来运行，任务是用Kitchen来运行。Pan是一个数据转换引擎，它可以执行很多功能，例如：从不同的数据源读取、操作和写入数据。Kitchen是一个可以运行利用XML或数据资源库描述的任务。通常任务是在规定的时间间隔内用批处理的模式自动运行。下面是在不同的平台上运行 Spoon所支持的脚本：
[*]Spoon.bat：在windows 平台运行Spoon。
[*]Spoon.sh：在 Linux、Apple OSX、Solaris 平台运行 Spoon。
资源库是用来保存转换任务的，用户通过图形界面创建的的转换任务可以保存在资源库中。资源库可以使多用户共享转换任务，转换任务在资源库中是以文件夹形式分组管理的，用户可以自定义文件夹名称。资源库有两种形式：
[*]Kettle database repository，即保存在各种常见的数据库资源库类型，用户通过用户名/密码来访问资源库中的资源，默认的用户名/密码是admin/admin和guest/guest。
[*]Kettle file repository，保存在服务器硬盘文件夹内的资源库类型，此类型的资源库无需用户进行登录，直接进行操作。
资源库并不是必须的，如果没有资源库，用户还可以把转换任务保存在xml文件中。为了方便管理，建议用户建立并使用数据库类型资源库Kettle database repository。Kettle的应用场景：
[*]表视图模式：在同一网络环境下，对各种数据源的表数据进行抽取、过滤、清洗等，例如历史数据同步、异构系统数据交互、数据对称发布或备份等都归属于这个模式；传统的实现方式一般都要进行研发（一小部分例如两个相同表结构的表之间的数据同步，如果SQL Server数据库可以通过发布/订阅实现）。
[*]前置机模式：这是一种典型的数据交换应用场景，数据交换的双方A和B网络不通，但是A和B都可以和前置机C连接，一般的情况是双方约定好前置机的数据结构，这个结构跟A和B的数据结构基本上是不一致的，这样我们就需要把应用上的数据按照数据标准推送到前置机上，此时可通过Kettle实现；
[*]文件模式: 数据交互的双方A和B是完全的物理隔离，这样就只能通过以文件的方式来进行数据交互了，例如XML格式，在应用A中我们开发一个接口用来生成标准格式的XML，然后用介质在某一时间把XML数据拷贝之后，然后接入到应用B上，应用B上在按照标准接口解析相应的文件把数据接收过来；
Kettle转化功能介绍
[*]Kettle 中有两种脚本文件，transformation (.ktr)和 job(.kjb)，transformation 完成针对数据的基础转换，job 则完成整个工作流的控制。
[*]所有功能支持控件化，使用简单
[*]支持多样化数据源类型：
[*]基本的文本文件
[*]Access、Excel、XML、Property文件格式
[*]MDX查询语言、 Cube文件、Streaming XML数据流
[*]自动产生空记录或者行
[*]从XBase类型文件(DBF)读取数据
[*]关系型数据库
[*]获取系统信息如文件名称、系统时间等

[*]特殊目标数据源支持
[*]把数据写入到Cube
[*]把数据写入XML

[*]支持多种查询
[*]调用数据库存储过程
[*]基本的数据库查询
[*]判断表以及列、操作系统文件是否存在
[*]从URL接收查询
[*]使用Web服务查询信息
[*]使用数据流中的值作为参数来执行一个数据库查询
[*]流查询：从转换中其他流里查询值

[*]转换功能
[*]值映射、分组、去重、拆分字段、行列转换
[*]复制行

[*]支持的脚本
[*]JS脚本
[*]SQL脚本
[*]正则表达式

[*]支持渐变维度更新
[*]批量加载：
[*]Greenplum Bulk Loader
[*]Oracle Bulk Loader
[*]MSSQL Bulk Loader
[*]MYSQL Bulk Loader
[*]PostgreSQL Bulk Loader

[*]支持分区表和集群
[*]支持大数据对接
[*]Avro Input
[*]Cassandra Input &
Kettle作业功能介绍
[*]可以执行操作系统命令和操作：
[*]Ping 主机
[*]写日志
[*]发送邮件
[*]从POP Server获取邮件并保存在本地
[*]比较文件夹、文件
[*]创建、复制、移动、删除、压缩文件
[*]从HTTP获取或者上传文件
[*]操作延迟等待

[*]判断文件是否存在
[*]执行JavaScript、SQL、Shell脚本
[*]支持安全FTP获取、上传文件
[*]删除远程文件
[*]支持SSH2上传下载
Kettle的功能非常强大，数据抽取效率也比较高，开源产品，可以进行第三方修改，工具中的控件能够实现数据抽取的大部分需求。所有功能支持控件化，使用简单。官方网站：http://community.pentaho.com/projects/data-integration/独家整理KETTLE培训文档：http://wenku.baidu.com/view/6f78f70b581b6bd97f19ea91.html

页: [1]

168大数据's Archiver

开源ETL工具：Kettle