168大数据

标题: 开源ETL工具:Kettle [打印本页]

作者: 乔帮主    时间: 2014-9-25 16:13
标题: 开源ETL工具:Kettle
Kettle也叫PDI,在2006年Kettle加入了开源的BI组织Pentaho,正式命名为PDI,英文全称为Pentaho Data Integeration。Kettle是“Kettle E.T.T.L. Envirnonment”只取首字母的缩写,这意味着它被设计用来帮助你实现你的ETTL需要:抽取、转换、装入和加载数据;翻译成中文名称应该叫水壶,名字的起源正如该项目的主程序员MATT在一个论坛里说的那样:希望把各种数据放到一个壶里然后以一种指定的格式流出。
Kettle允许管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。Kettle中有两种脚本文件,转换(transformation)和工作(job),transformation完成针对数据的基础转换,job则完成整个工作流的控制。
Kettle整体结构图:
Kettle的术语:
Kettle家族目前包括4个产品:Spoon、Pan、CHEF、Kitchen。
简单的可理解为:
Kettle是由纯JAVA编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。要运行kettle工具必须安装Sun公司的JAVA运行环境,安装好java环境后,在操作系统环境变量path中配置jre路径,把kettle工具压缩包解压后可直接使用。Spoon是一个图形用户界面,它允许你运行转换或者任务,其中转换是用Pan工具来运行,任务是用Kitchen来运行。Pan是一个数据转换引擎,它可以执行很多功能,例如:从不同的数据源读取、操作和写入数据。Kitchen是一个可以运行利用XML或数据资源库描述的任务。通常任务是在规定的时间间隔内用批处理的模式自动运行。下面是在不同的平台上运行 Spoon所支持的脚本:
资源库是用来保存转换任务的,用户通过图形界面创建的的转换任务可以保存在资源库中。资源库可以使多用户共享转换任务,转换任务在资源库中是以文件夹形式分组管理的,用户可以自定义文件夹名称。资源库有两种形式:
资源库并不是必须的,如果没有资源库,用户还可以把转换任务保存在xml文件中。为了方便管理,建议用户建立并使用数据库类型资源库Kettle database repository。
Kettle的应用场景:
Kettle转化功能介绍
Kettle作业功能介绍
Kettle的功能非常强大,数据抽取效率也比较高,开源产品,可以进行第三方修改,工具中的控件能够实现数据抽取的大部分需求。所有功能支持控件化,使用简单。
官方网站:http://community.pentaho.com/projects/data-integration/
独家整理KETTLE培训文档:http://wenku.baidu.com/view/6f78f70b581b6bd97f19ea91.html







欢迎光临 168大数据 (http://www.bi168.cn/) Powered by Discuz! X3.2