Kettle4.4配置使用文档说明
Kettle使用文档

1.Kettle简介Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。
Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。
Kettle主要由资源库、数据库、作业(job)、转换、步骤五部分组成,资源库是用来存储用户所编写的作业和转换(即kjb文件和ktr文件)一般是在数据库中存储,方便用户的查找和使用。
数据库就是处理数据是需要的数据库。
作业是用来确定一个工程中需要使用的转换和转换的执行顺序。
转换是数据在ktr文件中的具体转换过程,类似于Java的一个方法,而作业就类似于java的一个类,它可以调用各种不同的方法(转换)。
2.Kettle框架搭建(1)下载安装可以从下载最新版的Kettle软件,同时,Kettle 是绿色软件,下载后,解压到任意目录即可。
(2)配置环境变量使用Kettle前提是配置好Java的环境变量,因为Kettle是java编写,需要本地的JVM的运行环境。
配置Java环境变量可参考:/zzq900503/article/details/9770237配置Kettle环境变量步骤:一、在系统的环境变量中添加KETTLE_HOME变量,目录指向kettle的安装目录:D:kettledata-integration(具体以安装路径为准)二、新建系统变量:KETTLE_HOME变量值:D:kettledata-integration(具体以安装路径为准,Kettle的解压路径,直到Kettle.exe所在目录)三、选择PATH添加环境变量:变量名:PATH变量值:%KETTLE_HOME%;(3)Kettle工具的运行在Windows系统下运行,只需要解压kettle文件后,双击data-integration文件夹中的Spoon.bat文件在Linux下运行则双击data-integration文件夹中的Spoon.sh文件3.Kettle的基本概念(1)作业(job)负责将【转换】组织在一起进而完成某一块工作,通常我们需要把一个大的任务分解成几个逻辑上隔离的作业,当这几个作业都完成了,也就说明这项任务完成了。
(全)Kettle产品部署文档

安装.netframework步骤1、运行安装包文件NDP461-KB3102436-x86-x64-AllOS-ENU.exe,如下图准备开始安装2、准备过程完成后,出现下图界面,选择同意许可,并点击“确定”按钮开始安装3、开始验证并安装软件,如下图4、安装完成,点击“完成”按钮。
5、重新启动计算机以完成安装。
安装JDK步骤1、运行安装包文件jdk-8u181-windows-x64.exe,选择“下一步”按钮开始安装,如下图2、选择合适的安装路径(建议安装到C盘目录),之后选择“下一步”按钮继续,如下图3、开始安装,如下图4、继续安装,点击“确定”按钮,如下图5、选择jre目录,并选择“下一步”继续,如下图6、等待安装,如下图7、完成安装,选择“关闭”按钮结束安装,如下图JDK环境变量配置步骤1、右键计算机,选择“系统属性”项,如下图2、选择“高级系统设置”,如下图3、选择“环境变量”,如下图4、在“系统变量”栏中(注意,不是“用户变量”),选择“新建”按钮,如下图5、输入新建的环境变量的变量名和变量值变量名:JAVA_HOME变量值:C:\Program Files\Java\jdk1.8.0_181(即JDK的安装目录)之后点击“确定”按钮,如下图6、按照步骤4,再新建一个系统环境变量,并输入变量名和变量值变量名:CLASSPATH变量值:.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;(注意最开始的点不能省略)之后点击“确定”按钮,如下图7、在“系统变量”栏中,选择变量名为“Path”的项,并选择“编辑”按钮修改Path环境变量的值,在Path变量值的最前面添加:%JAVA_HOME%\bin;(注意分号必须要),之后点击“确定”按钮,如下图8、所有内容设置完成后,点击“确定”按钮保存设置,如下图9、在系统属性中点击“确定”按钮,保存所设置的系统属性,如下图10、按组合键Ctrl + R,再打开的运行窗口中输入cmd,进入命令行操作,如下图11、在弹出的命令行窗口中输入javac,并回车,出现下图内容,则表示设置成功。
Kettle 4.4.0 教程

kettle4.4.0教程1.Kettle介绍1.1.什么是kettleKettle 也叫PDI,在2006年Kettle 加入了开源的BI 组织Pentaho, 正式命名为PDI,英文全称为Pentaho Data Integeration。
Kettle 是“Kettle E.T.T.L. Envirnonment”只取首字母的缩写,这意味着它被设计用来帮助你实现你的ETTL 需要:抽取、转换、装入和加载数据;翻译成中文名称应该叫水壶,名字的起源正如该项目的主程序员MATT 在一个论坛里说的哪样:希望把各种数据放到一个壶里然后以一种指定的格式流出。
Spoon是一个图形用户界面,它允许你运行转换或者任务,其中转换是用Pan 工具来运行,任务是用Kitchen来运行。
Pan是一个数据转换引擎,它可以执行很多功能,例如:从不同的数据源读取、操作和写入数据。
Kitchen是一个可以运行利用XML或数据资源库描述的任务。
通常任务是在规定的时间间隔内用批处理的模式自动运行。
1.2.Kettle的安装要运行kettle工具必须安装Sun公司的JAVA运行环境,kettle 4.3.0需要运行java 1.6或者更高版本,Kettle的下载可以到/取得最新版本。
kettle不需要安装,安装好java环境后,在操作系统环境变量path中配置jre 路径,把kettle工具压缩包解压后可直接使用。
1.3.运行Spoon下面是在不同的平台上运行Spoon所支持的脚本:spoon.bat:在windows 平台运行Spoon。
Spoon.sh:在Linux、Apple OSX、Solaris 平台运行Spoon。
1.4.使用介绍双击spoon.bat之后依次出现以下界面Kettle提供了资源库方式的方式来整合所有的工作,但是因为资源库移植不方便,所以我们选择没有资源库,取消选项,点击按钮。
1.5.Transformation转换介绍文件->新建->转换,创建一个新的transformation,点击保存到本地路径。
kettle操作文档

Kettle操作文档1.Kettle介绍。
(2)2. Kettle下载。
(2)3.使用规范和注意事项。
(3)3.1.配置数据库的全局变量。
(3)3.2.文件命名规范(不要用汉字)。
(3)3.3.文件存放位置。
(3)3.4.配置启动任务文件。
(3)3.5.注意事项。
(4)4. Kettle部署使用。
(4)4.1.启动kettle。
(4)4.2.创建转换文件。
(5)4.2.1.使用标识字段实现新增数据。
(5)4.2.2.使用时间戳实现新增或修改数据。
(11)4.2.3.使用时间比较实现新增或修改数据。
(14)4.2.4.使用对某一数据值比较实现新增或修改数据。
(17)4.3.创建任务文件。
(19)4.4.命令行启动任务。
(20)1.Kettle介绍。
ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于政府部门来说,经常会遇到大数据量的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少。
Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高效稳定,提供了图形化界面,使用很方便。
Kettle中有两种脚本文件,transformation和job,transformation 完成针对数据的基础转换,job则完成整个工作流的控制。
2.Kettle下载。
Kettle可以在http://2.2.2.240/bbs/网站下载kettle压缩包,因kettle为绿色软件,解压即可使用。
这个压缩包,公司加了一些功能,跟官网下载的不太一样,建议使用公司论坛上的压缩包。
资料网站:/。
注:解压路径尽量不要有中文。
.kettle:存放kettle的一些环境变量信息,资源库的信息。
jre6:存放java运行库文件(1.6版本)。
launcher:存放启动的文件以及启动的配置信息。
lib:存放kettle的库文件。
Kettle配置使用说明

Kettle配置使用说明Kettle配置使用说明1.文件结构1.1 kettle4.0.1该文件夹存放的是kettle4.0.1的桌面应用程序,/kettle4.0.1/Spoon.bat是运行软件的一个批处理文件,双击运行。
1.2 workspace该文件夹存放的是以各个警种总队全拼命名的分别存放.ktr文件和.job文件的文件夹。
Start.job是一个启动总纲。
1.3 script该文件夹是存放的数据库建库脚本,目前是oracle10g版本1.4 model存放的是powerDesign的cdm概念模型文件用于根据需要生成pdm和script。
2.文件路径配置本系统使用的都是系统所在路径的相对路径,不管处于什么目录下都请将kettle4.0.1和workspace的文件夹放在同一目录之下。
当然你可以随意改变文件夹的名称。
3.运行环境配置先运行一次/kettle4.0.1/Spoon.bat,Linux就不说了,如果你用的是windows系统,那么你可以在/${userhome}/.kettle下找到一个.kettle的文件夹主要说下:Response.xml-记录资源库信息(自己去勾)Kettle.property-这是好东西,可以让你在软件中任何可以使用到环境变量的地方使用到里面的配置信息(键-值对配置),类似全局变量。
当然是有利有弊,配置点什么数据库连接和一些常用的东西之外别把那里当仓库,想下全局变量定义的多了会给系统带来什么风险。
A_fileInput=file:///E:/Test_Server/srcFile/A_fileOutput=file:///E:/Test_Server/errFile/这2个属性是配置读取的Excel文件和输出错误的Excel文件用到的路径配置。
由于文件名命名的差异和存放位置的不同需要使用者自行配置。
有在系统内修改文件路径的风险,当然这是没有办法避免的,只能在项目初期和用户有这方面的约定俗成。
KETTLE简单使用说明文档

KETTLE简单使用说明文档1. 下载和安装要运行此工具你必须安装SUN 公司的JAVA 运行环境 1.4 或者更高版本,相关资源你可以到网络上搜索JDK 进行下载。
设置JAVA 运行环境变量,JAVA_HOME 和PATHKETTLE 的下载可以到/取得最新版本,下载后解压,就可以直接运行。
2.kettle主要有两部分组成,主对象树,核心对象,3.新建一个kettle文件(数据库之间做处理)1)转换右键点击新建,如图所示2) 设置数据库连接,上图DB连接右键新建(支持多库连接): 如图:3)核心对象里面有很多组件,通过拖拽来供给我们做操作,如图4)添加一个源输入,打开输入文件夹,可以看到各种输入类型,支持文件,数据库等。
如图5)这里通过数据库操作,那我们这里拖拽一个表输入组件6)双击打开,可以看到你可以选择上面连接的数据库,然后通过获取sql语句来选择你要输入的源表进行操作。
并且sql语句支持传递变量参数和占位符参数,以及多表关联sql。
如下图7)输入表已经OK,那输出表呢,那我看下输出组件。
如图8)选中两个组件,右键新建节点连接。
如下图9)双击打开表输出,选择输出的数据库,以及目标表和输入表与目标表的字段映射10)映射选择以及匹配11)点击箭头弹出启动界面,点击启动,该kettle文件即可执行数据的迁移了12)上面是一个简单的数据库转换操作。
在表输入和表输出直接可以加不同组件对数据进行筛选过滤。
通过转换文件夹下的组件。
如图转换可以处理中文乱码,字段数字的计算,值的转换,序列的生成等等脚本可以用java代码,javascript,sql脚本等等查询支持调用存储过程,两个表直接关联查询等等以上只是针对kettle工具的简单实用介绍。
KETTLE使用说明

KETTLE使用说明在本使用说明中,我们将详细介绍如何使用KETTLE完成一些常见的数据处理任务。
第一步:安装和启动KETTLE在Windows中,双击运行Spoon.bat文件来启动KETTLE。
在Linux 和Mac OS中,打开终端,进入KETTLE目录,输入"./spoon.sh"命令来启动KETTLE。
第二步:创建一个新的数据流程启动KETTLE后,您将看到一个图形化界面。
在左上角的工具栏中,有一个新建按钮,点击它来创建一个新的数据流程。
在创建数据流程时,您需要为其指定一个名称。
完成后,点击确定按钮。
第三步:添加数据源在左侧的工具箱中,您可以找到各种组件,如输入步骤、输出步骤、转换步骤等。
为了演示,我们先添加一个输入步骤。
在工具箱中,找到输入步骤,并将其拖放到主界面中。
然后,双击该步骤,在弹出的对话框中配置数据源。
在配置对话框中,您需要指定数据源的类型,如文本文件、Excel文件、数据库等。
根据不同的类型,您可能需要提供相应的连接信息。
完成配置后,点击确定按钮。
在数据流程中,您可以使用转换步骤对数据进行处理。
为了演示,我们使用一个简单的转换步骤来删除重复的数据。
在工具箱中,找到去重复步骤,并将其拖放到已添加的输入步骤的下方。
然后,双击该步骤,在弹出的对话框中配置参数。
在配置对话框中,您需要指定要去重的字段。
您可以选择多个字段以进行复合去重。
完成配置后,点击确定按钮。
第五步:添加输出在数据流程中,您也需要指定一个输出步骤来保存处理后的数据。
在工具箱中,找到输出步骤,并将其拖放到已添加的去重复步骤的下方。
然后,双击该步骤,在弹出的对话框中配置输出格式和目标文件。
在配置对话框中,您需要指定输出的格式,如文本文件、Excel文件、数据库等。
根据不同的格式,您可能需要提供相应的连接信息。
完成配置后,点击确定按钮。
第六步:保存和运行数据流程完成对数据流程的配置后,点击工具栏中的保存按钮来保存数据流程。
Kettle使用手册及测试案例

一、【kettle】window安装与配置1、下载kettle包,并解压2、安装jdk,并配置java环境a).打开我的电脑--属性--高级--环境变量b).新建系统变量JA V A_HOME和CLASSPATH变量名:JA V A_HOME变量值:C:\Program Files\Java\jdk1.7.0[具体路径以自己本机安装目录为准]变量名:CLASSPATH变量值:.;%JA V A_HOME%\lib\dt.jar;%JA V A_HOME%\lib\tools.jar;c). 选择“系统变量”中变量名为“Path”的环境变量,双击该变量,把JDK安装路径中bin目录的绝对路径,添加到Path变量的值中,并使用半角的分号和已有的路径进行分隔。
变量名:Path变量值:%JA V A_HOME%\bin;%JA V A_HOME%\jre\bin;3、配置kettle环境在系统的环境变量中添加KETTLE_HOME变量,目录指向kettle的安装目录:D:\kettle\data-integration4、启动spoonWindows直接双击批处理文件Spoon.bat具体路径为:kettle\data-integration\Spoon.batLinux 则是执行spoon.sh,具体路径为:~/kettle/data-integration/spoon.sh二、使用Kettle同步数据同步数据常见的应用场景包括以下4个种类型:➢ 只增加、无更新、无删除➢ 只更新、无增加、无删除➢ 增加+更新、无删除➢ 增加+更新+删除只增加、无更新、无删除对于这种只增加数据的情况,可细分为以下2种类型:1) 基表存在更新字段。
通过获取目标表上最大的更新时间或最大ID,在“表输入”步骤中加入条件限制只读取新增的数据。
2) 基表不存在更新字段。
通过“插入/更新”步骤进行插入。
插入/更新步骤选项:只更新、无增加、无删除通过“更新”步骤进行更新。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Kettle配置使用文档说明一、安装配置Kettle系统环境1.安装前准备JAVA安装文件下载地址:/technetwork/java/javase/downloads/java-archive-downloa ds-javase6-419409.html1.Windows下安装JDK1.6,并配置环境变量##下载Jdk1.6.exe直接执行安装程序2.Linux下配置JDK1.6,并配置环境变量###下载JDK1.6到目录/usr/java/###更改JDK可执行权限chmod +755 jdk1.6.xx.bin###执行安装./jdk1.6.xx.bin###配置JAVA环境变量vi /etc/profile# java 1.6 setupJAVA_HOME=/usr/java/jdk1.6.0_43PATH=$JAVA_HOME/bin:$PATHCLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/libexport JAVA_HOME PATH CLASSPATH###应用环境变量source /etc/profile###查看JAVA版本信息java -version2.Kettle下载解压到指定目录,下载kettle标准版工具包:/project/pentaho/Data%20Integration/4.4.0-stable/p di-ce-4.4.0-stable.zip解压到目录: D:\data-integration (目录可根据实际情况自定义)二、Kettle基本操作过程数据库操作说明:生产数据库: 10.176.0.221 DB : e2tms4 用户名: e2tms4 密码:1234567本地文本文件: D:\Db_file\outfile.txtKettle数据仓库: 10.176.0.221 DB : kettledb用户名: kettle 密码:12345671.启动Kettlet应用程序,打开D:\data-integration\下面的Kettle.exe或Spoon.bat,出现Kettle的欢迎界面之后出现用户登录界面,先不加载配置,点击”没有资源库”,打开程序主界面,2.kettle界面显示3.Kettle配置说明新建transformation文件,双击左边转换将创建一个新的transformation(也可以通过菜单里面的文件-新建-转换方式新建文件),点击另存为,保存到本地路径,例如保存到D:/etltest下,保存文件名为EtltestTrans,kettle默认transformation,文件保存后后缀名为ktr。
4.创建数据库连接池.在transformation页面下,点击左边的”主对象树”,右键”DB连接”选择”新建”,配置数据库连接,配置写成后点击”Test”查看数据库连接情况,如下提示表示正常,点击OK确认保存配置.使用以上方式,创建以下数据连接池.生产数据库master-data1: 10.176.0.221 DB : data1 用户名: data1 密码:1234567 生产数据库master-data2: 10.176.0.221 DB : data2 用户名: data2 密码:1234567 Kettle数据仓库kettledb: 10.176.0.221 DB : kettledb用户名: kettle 密码:1234567 配置完成后显示以下列表:5.导入测试数据,(现实数据库中不需要以下操作)生产数据库1: 10.176.0.221 DB : data1 用户名: data1 密码:1234567USE data1;CREATE TABLE userInfo (id int(11) NOT NULL,name varchar(20) DEFAULT NULL,age int(11) NOT NULL,address varchar(20) DEFAULT NULL,PRIMARY KEY (`id`)) ENGINE=InnoDB DEFAULT CHARSET=utf8;INSERT INTO userInfo(id,NAME,age,address) VALUES(1,'aaa',22,'成都市二环路'); INSERT INTO userInfo(id,NAME,age,address) VALUES(2,'东方红',25,'中国北京'); INSERT INTO userInfo(id,NAME,age,address) VALUES(3,'123',19,'广州白云区');生产数据库2: 10.176.0.221 DB : data2 用户名: data2 密码:1234567 Use data2;CREATE TABLE `login` (`id` int(11) NOT NULL,`realname` varchar(20) DEFAULT NULL,`username` varchar(20) DEFAULT NULL,`password` varchar(20) NOT NULL,`active` int(11) DEFAULT '0',PRIMARY KEY (`id`),UNIQUE KEY `realname` (`realname`),UNIQUE KEY `username` (`username`)) ENGINE=InnoDB DEFAULT CHARSET=utf8;insert into login values(1,'aaa','admin','admin',0);insert into login values(2,'东方红','test','test',1);insert into login values(3,'123','xxx123','123456',1);本地文本文件: D:\Db_file\dbfile.txt 文件内容:sid; sname; teacher34; 123;徐老师78;aaa ;李老师152; 东方红;Mr Wu三、使用Kettle抽取、转换、装载数据1.表输入:在EtltestTrans页面下,点击左侧的【核心对象】,点击【输入】,选中【表输入】,拖动到主窗口释放鼠标。
双击工作区中【表输入】图标,数据库连接选择刚刚创建好的连接名为Oracle的数据库连接,在主窗口写入对应的查询语句:SELECT ID, NAME, AGE, ADDRESSFROM `userInfo`ORDER BY NAME同上所述,将master-data2生产数据库2也加入到表输入界面中.SELECT Id, realname, username, password, activeFROM loginORDER BY realname2.表连接查询在EtltestTrans页面下,点击左侧的【核心对象】,点击【连接】,选中【Merge Join】,拖动到主窗口释放鼠标:点击表输入,按住shift键,再拖动鼠标到Merge Join,这时就实现了在两个组建之间的连线。
如图:3.第一次连接查询双击工作区中的Merge Join,在出现的窗口里:步骤名称命名为:表连接查询第一个步骤选择:master-data1表输入第二个步骤选择:master-data1表输入连接类型选择:FULL OUTER在连接字段里,第一个步骤写:NAME,第二个步骤写:realname(或者自动获得连接字段后将多余字段删除)4.文本文件输入数据在EtltestTrans页面下,点击左侧的【核心对象】,点击【输入】,选中【文本文件输入】,拖动到主窗口释放鼠标。
双击这个图标,进入编辑窗口:在文件或目录中选择输入的文件,点击增加.打开字段选项,点击获取字段,显示出文本文件中所有字段信息,删除多余空白字段,点击预览记录,显示文本文件中取数据条数信息后显示出文本文件数据内容.5.第二次连接查询再次拖入一个表连接查询图标,将上次的查询结果与文本文件相连,再进行一次表连接查询。
6.插入/更新在EtltestTrans页面下,点击左侧的【核心对象】,点击【输出】,选中【插入/更新】,拖动到主窗口释放鼠标。
将它与第三次表连接查询进行连线。
7.将数据导入指定kettledb数据仓库双击”插入/更新”图标,进入编辑窗口。
数据库连接选择数据仓库的kettledb数据库,目标表选择对应的datatable表,在查询关键字里,表字段写name(表示仓库表里的字段),流里的字段1里写入NAME(即上一个步骤输入的内容里的NAME)。
比较符用”=”号。
第一次向数据仓库导入数据时,点击SQL选项,查看创建表语句结构,点击Execute执行创建..8.执行工作流,进行数据导出导入.点击运行,测试创建的transformation是否成功。
点击这个按钮,就会执行ETL过程,这时我们可以查看数据仓库的表,如果有数据,并符合我们的要求,那么说明我们的transformation成功了。
四、创建job工作流过程,Job就是把一个或多个transformation按照一定的顺序组合起来,形成一个流程。
1.创建job文件,通过菜单里的“文件-新建-作业”就可以创建一个job文件,点击另存为D:\etltest\jobtest.kjb。
2.创建工作作业流程拖入图标并连线,在EtlscriptJob页面,点击【核心对象】,点击【通用】,选中【START】拖动到主窗口释放鼠标,再选中一个【Transformation】,拖动到主窗口释放鼠标,建立【START】与【Transformation】之间的连接。
3. 编辑”开始”流程双击”START”图标,就进入编辑窗口,可根据实际需求更改定时时间操作。
4. 编辑transformation流程双击”transformation”图标,就进入编辑窗口。
输入job名称:如Etl-testpro,点击转换文件名后面的按钮,浏览我们我们要转换的文件,并选中。
其他的选项可以根据实际需要再进行配置。
点击确定按钮,退出编辑窗口。
图中各选项,根据实际情况进行选择使用.5.运行JOB工作流点击按钮,就可以运行这个job,运行情况会在界面下显示,job跟上面的转换其实是完成了同样的工作,job可以把多个transformation放在一起组成一个流程,什么时候用job 或transformation,是根据需要来定的,比如只有一个transformation时,就可以直接用transformation,但如果这个转换需要定时,那么就必须用job了。