kettle使用方法说明文档

合集下载

Kettle使用文档

1.Kettle简介Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，数据抽取高效稳定。

Kettle 中文名称叫水壶，该项目的主程序员MATT 希望把各种数据放到一个壶里，然后以一种指定的格式流出。

Kettle主要由资源库、数据库、作业（job）、转换、步骤五部分组成，资源库是用来存储用户所编写的作业和转换（即kjb文件和ktr文件）一般是在数据库中存储，方便用户的查找和使用。

数据库就是处理数据是需要的数据库。

作业是用来确定一个工程中需要使用的转换和转换的执行顺序。

转换是数据在ktr文件中的具体转换过程，类似于Java的一个方法，而作业就类似于java的一个类，它可以调用各种不同的方法（转换）。

2.Kettle框架搭建（1）下载安装可以从下载最新版的Kettle软件，同时，Kettle 是绿色软件，下载后，解压到任意目录即可。

（2）配置环境变量使用Kettle前提是配置好Java的环境变量,因为Kettle是java编写，需要本地的JVM的运行环境。

配置Java环境变量可参考:/zzq900503/article/details/9770237配置Kettle环境变量步骤：一、在系统的环境变量中添加KETTLE_HOME变量，目录指向kettle的安装目录：D:kettledata-integration（具体以安装路径为准）二、新建系统变量：KETTLE_HOME变量值：D:kettledata-integration（具体以安装路径为准，Kettle的解压路径，直到Kettle.exe所在目录）三、选择PATH添加环境变量：变量名：PATH变量值：%KETTLE_HOME%;（3）Kettle工具的运行在Windows系统下运行，只需要解压kettle文件后，双击data-integration文件夹中的Spoon.bat文件在Linux下运行则双击data-integration文件夹中的Spoon.sh文件3.Kettle的基本概念（1）作业（job）负责将【转换】组织在一起进而完成某一块工作，通常我们需要把一个大的任务分解成几个逻辑上隔离的作业，当这几个作业都完成了，也就说明这项任务完成了。

kettle使用手册

kettle使用手册Kettle使用手册一、Kettle简介1.1 Kettle概述Kettle（也被称为Pentaho Data Integration）是一款开源的ETL（Extract, Transform, Load）工具，它能够从各种数据源中提取数据，并进行各种转换和加工，最后将数据加载到指定的目的地中。

Kettle具有强大的数据处理功能和友好的图形化界面，使得数据集成和转换变得简单而高效。

1.2 功能特点- 数据抽取：从多种数据源中提取数据，包括关系型数据库、文件、Web服务等。

- 数据转换：支持多种数据转换操作，如字段映射、类型转换、数据清洗等。

- 数据加载：将转换后的数据加载到不同的目的地，如数据库表、文件、Web服务等。

- 调度管理：支持定时调度和监控，可自动执行数据集成任务。

二、安装与配置2.1 系统要求在安装Kettle之前，请确保满足以下系统要求： - 操作系统：Windows、Linux、Unix等。

- Java版本：JDK 1.8及以上。

- 内存：建议至少4GB的可用内存。

2.2 安装Kettle最新版本的Kettle安装包，并按照安装向导进行安装。

根据系统要求和个人需求进行相应的配置选项，完成安装过程。

2.3 配置Kettle在安装完成后，需要进行一些配置以确保Kettle正常运行。

具体配置步骤如下：- 打开Kettle安装目录下的kettle.properties文件。

- 根据实际需要修改配置项，如数据库连接、日志路径、内存分配等。

- 保存修改并重启Kettle。

三、Kettle基础操作3.1 数据抽取3.1.1 创建数据源连接打开Kettle，左上角的“新建连接”按钮，在弹出的窗口中选择待抽取的数据源类型（如MySQL、Oracle等），填写相关参数并测试连接。

3.1.2 设计数据抽取作业- 打开Kettle中的“转换”视图。

- 从左侧的工具栏中选择适当的输入组件（如“表输入”或“文件输入”），将其拖拽到设计区域中。

kettle使用手册

1打开程序，点击spoon.bat其实对于简单的数据库数据的抽取，基本只需要转换(.ktr格式)和作业(.kjb格式)这两种东西。

下面就是建立一个转换的步骤：a 点击文件-->新建-->转换。

b 在左侧的树状列表中选“主对象树”，新建DB连接(参照第4点)。

c 在核心对象-->输入这个地方拖出一个表输入，在“输出”目录下拖出“表输出”，按住shift，从一个对象拖到另一个对象可进行连线。

2基本作业由开始，转换，成功3步骤组成。

步骤之间使用shift+左键连线。

2.1‘1’代表无条件执行；2.2‘2’代表上一步执行完成后，再执行下一步；2.3‘3’代表不执行，左击连接线使其生效（绿色）或失效（灰色）。

3打开具体步骤中的转换流程，点击‘Transformation’跳转至相应具体转换流程，编辑此转换具体路径，双击转换，弹出窗口，‘1’为相对路径，点击‘2’选择具体Visit.ktr转换，为绝对路径。

4建立数据库连接，输入相应信息测试，成功即可图45转换具体设置，如图4，‘表输出’至‘文本文件输出’流程跳接线为错误处理步骤，当输出格式不能满足表输出的目的表结构类型时，将会将记录输出到‘文本文件输出’中的记录中。

5.1双击‘表输入’，输入相应的SSQL语句，选择配置数据库连接，或新增，预览查询生成的结果（如果数据库配置中使用变量获取，此处预览生成错误）。

5.2双击‘表输出’，选择数据库连接，‘浏览’选择相应目标表，（此处‘使用批量插入’勾选去除，目的是在错误处理步骤中无法使用批量处理，可能是插件兼容问题）6表输出插件定义a) Target Schema：目标模式。

要写数据的表的Schema的名称。

允许表明中包含“。

”对数据源来说是很重要的b) 目标表：要写数据的表名。

c) 提交记录数量：在数据表中用事物插入行。

如果n比0大，每n行提交一次连接。

否则不使用事务，速度会慢一些。

d) 裁剪表：在第一行数据插入之前裁剪表。

kettle使用方法

kettle使用方法一、什么是kettle?Kettle是一款功能强大的开源ETL (Extract, Transform, Load) 工具，用于处理各种数据的抽取、转换和加载。

它提供了可视化的界面，使用户能够轻松地创建和管理数据流程。

二、kettle的安装和配置1.下载kettle安装包，并解压到指定目录。

2.进入kettle目录，在终端中运行spoon.sh (Linux/Mac) 或spoon.bat(Windows) 启动kettle。

3.在弹出的窗口中，点击”File”菜单，选择”Preferences”打开配置页面。

4.在配置页面中，设置kettle的选项，如数据连接、插件路径等。

三、kettle中的数据流程1.创建一个新的数据流程：点击工具栏上的”新建”按钮，在弹出的对话框中选择”Transformation”创建一个新的转换，或选择”Job”创建一个作业。

2.在数据流程中，可以拖拽各种组件来构建转换或作业，如数据输入、数据输出、转换、聚合等。

3.连接组件：使用鼠标拖拽连线工具，连接各个组件，定义数据的流向。

4.配置组件：双击组件，如数据输入组件，可以配置数据源的连接信息、查询语句等。

5.定义转换规则：在转换组件中，根据需要配置字段映射、条件过滤、转换函数等。

6.运行数据流程：点击工具栏上的”运行”按钮，运行数据流程并查看结果。

四、kettle的常用组件和功能1.数据输入：用于读取数据源的组件，支持多种数据源，如数据库、文件、Web服务等。

2.数据输出：用于将数据写入目标的组件，支持多种输出格式，如数据库表、文件、Web服务等。

3.转换组件：用于对数据进行转换的组件，如字段映射、类型转换、条件过滤、聚合等。

4.调度和监控：kettle提供了作业调度和监控的功能，可以定时执行作业、生成报表等。

5.插件扩展：kettle支持插件扩展，用户可以根据需要开发自己的插件，用于处理特定的数据源或转换规则。

kettle操作文档

Kettle操作文档1.Kettle介绍。

(2)2. Kettle下载。

(2)3.使用规范和注意事项。

(3)3.1.配置数据库的全局变量。

(3)3.2.文件命名规范（不要用汉字）。

(3)3.3.文件存放位置。

(3)3.4.配置启动任务文件。

(3)3.5.注意事项。

(4)4. Kettle部署使用。

(4)4.1.启动kettle。

(4)4.2.创建转换文件。

(5)4.2.1.使用标识字段实现新增数据。

(5)4.2.2.使用时间戳实现新增或修改数据。

(11)4.2.3.使用时间比较实现新增或修改数据。

(14)4.2.4.使用对某一数据值比较实现新增或修改数据。

(17)4.3.创建任务文件。

(19)4.4.命令行启动任务。

(20)1.Kettle介绍。

ETL（Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程），对于政府部门来说，经常会遇到大数据量的处理，转换，迁移，所以了解并掌握一种etl工具的使用，必不可少。

Kettle是一款国外开源的etl工具，纯java编写，绿色无需安装，数据抽取高效稳定,提供了图形化界面，使用很方便。

Kettle中有两种脚本文件，transformation和job，transformation 完成针对数据的基础转换，job则完成整个工作流的控制。

2.Kettle下载。

Kettle可以在http://2.2.2.240/bbs/网站下载kettle压缩包，因kettle为绿色软件，解压即可使用。

这个压缩包，公司加了一些功能，跟官网下载的不太一样，建议使用公司论坛上的压缩包。

资料网站：/。

注：解压路径尽量不要有中文。

.kettle:存放kettle的一些环境变量信息，资源库的信息。

jre6:存放java运行库文件（1.6版本）。

launcher：存放启动的文件以及启动的配置信息。

lib：存放kettle的库文件。

Kettle配置使用说明

Kettle配置使用说明Kettle配置使用说明1.文件结构1.1 kettle4.0.1该文件夹存放的是kettle4.0.1的桌面应用程序,/kettle4.0.1/Spoon.bat是运行软件的一个批处理文件,双击运行。

1.2 workspace该文件夹存放的是以各个警种总队全拼命名的分别存放.ktr文件和.job文件的文件夹。

Start.job是一个启动总纲。

1.3 script该文件夹是存放的数据库建库脚本,目前是oracle10g版本1.4 model存放的是powerDesign的cdm概念模型文件用于根据需要生成pdm和script。

2.文件路径配置本系统使用的都是系统所在路径的相对路径,不管处于什么目录下都请将kettle4.0.1和workspace的文件夹放在同一目录之下。

当然你可以随意改变文件夹的名称。

3.运行环境配置先运行一次/kettle4.0.1/Spoon.bat,Linux就不说了,如果你用的是windows系统,那么你可以在/${userhome}/.kettle下找到一个.kettle的文件夹主要说下：Response.xml－记录资源库信息（自己去勾）Kettle.property－这是好东西,可以让你在软件中任何可以使用到环境变量的地方使用到里面的配置信息(键-值对配置),类似全局变量。

当然是有利有弊,配置点什么数据库连接和一些常用的东西之外别把那里当仓库,想下全局变量定义的多了会给系统带来什么风险。

A_fileInput=file:///E:/Test_Server/srcFile/A_fileOutput=file:///E:/Test_Server/errFile/这2个属性是配置读取的Excel文件和输出错误的Excel文件用到的路径配置。

由于文件名命名的差异和存放位置的不同需要使用者自行配置。

有在系统内修改文件路径的风险,当然这是没有办法避免的,只能在项目初期和用户有这方面的约定俗成。

kettle操作文档

Kettle操作文档1.Kettle介绍。

(2)2. Kettle下载。

(2)3.使用规范和注意事项。

(3)3.1.配置数据库的全局变量。

(3)3.2.文件命名规范（不要用汉字）。

(3)3.3.文件存放位置。

(3)3.4.配置启动任务文件。

(3)3.5.注意事项。

(4)4. Kettle部署使用。

(4)4.1.启动kettle。

(4)4.2.创建转换文件。

(5)4.2.1.使用标识字段实现新增数据。

(5)4.2.2.使用时间戳实现新增或修改数据。

(11)4.2.3.使用时间比较实现新增或修改数据。

(14)4.2.4.使用对某一数据值比较实现新增或修改数据。

(17)4.3.创建任务文件。

(19)4.4.命令行启动任务。

(20)1.Kettle介绍。

Kettle是一款国外开源的etl工具，纯java编写，绿色无需安装，数据抽取高效稳定,提供了图形化界面，使用很方便。

Kettle中有两种脚本文件，transformation和job，transformation 完成针对数据的基础转换，job则完成整个工作流的控制。

2.Kettle下载。

Kettle可以在http://2.2.2.240/bbs/网站下载kettle压缩包，因kettle为绿色软件，解压即可使用。

这个压缩包，公司加了一些功能，跟官网下载的不太一样，建议使用公司论坛上的压缩包。

资料网站：/。

注：解压路径尽量不要有中文。

.kettle:存放kettle的一些环境变量信息，资源库的信息。

jre6:存放java运行库文件（1.6版本）。

launcher：存放启动的文件以及启动的配置信息。

lib：存放kettle的库文件。

kettle操作文档

Kettle操作文档1.Kettle介绍。

(2)2. Kettle下载。

(2)3.使用规范和注意事项。

(3)3.1.配置数据库的全局变量。

(3)3.2.文件命名规范（不要用汉字）。

(3)3.3.文件存放位置。

(3)3.4.配置启动任务文件。

(3)3.5.注意事项。

(4)4. Kettle部署使用。

(4)4.1.启动kettle。

(4)4.2.创建转换文件。

(5)4.2.1.使用标识字段实现新增数据。

(5)4.2.2.使用时间戳实现新增或修改数据。

(11)4.2.3.使用时间比较实现新增或修改数据。

(14)4.2.4.使用对某一数据值比较实现新增或修改数据。

(17)4.3.创建任务文件。

(19)4.4.命令行启动任务。

(20)1.Kettle介绍。

Kettle是一款国外开源的etl工具，纯java编写，绿色无需安装，数据抽取高效稳定,提供了图形化界面，使用很方便。

Kettle中有两种脚本文件，transformation和job，transformation 完成针对数据的基础转换，job则完成整个工作流的控制。

2.Kettle下载。

Kettle可以在网站下载kettle压缩包，因kettle为绿色软件，解压即可使用。

这个压缩包，公司加了一些功能，跟官网下载的不太一样，建议使用公司论坛上的压缩包。

资料网站：。

注：解压路径尽量不要有中文。

.kettle:存放kettle的一些环境变量信息，资源库的信息。

jre6:存放java运行库文件（1.6版本）。

launcher：存放启动的文件以及启动的配置信息。

lib：存放kettle的库文件。

libext:存放用到的外部库文件。

libswt:存放用到的界面库文件。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Kettle使用方法说明文档
1.安装程序
解压pdi-ce-4.0.0-stable.zip到任意盘符，解压后点击根目录下Spoon.bat如下图所示。

点击cancel
2.创建表到表直接抽取
本实例演示的是在Oracle数据库zhwater下的zh用户里面表sys_user转换到本地Oracle数据库orcl下的zw用户下的表sys_user。

演示过程是建立transform将数据从zh.sys_user抽取到zw. sys_user 里面。

两个表结构相同。

a) 建立转换
进入系统后如下图所示，双击转换。

b)创建源和目标数据库连接
c)建立转换步骤
点开【输入】——>【表输入】将表输入拉到右侧。

双击右侧的表输入，如下图，配置
点开【输出】——>【插入/更新】将其拉到右侧。

按住shift先后左键点击表输入和插入/更新的图标。

双击插入/更新图标，点击【获取字段】和【获取和更新字段】
用来查询的关键字保留主键USERID，其余删掉。

点击确定保存，点击上方验证无错误后，点击执行，如下图。

数据库中可以看到数据已从zh.sys_user抽取到zw.sys_user
D）保存文件
保存文件的文件名不能是中文，文件路径不能包含中文
3.创建带数据聚合的表到表抽取
本实例演示的是在数据库SG186ND下的basic_data用户里面的两个表sc_work_ticket 和t_sc_work_ticket。

演示过程是建立transform 将数据从sc_work_ticket抽取到t_sc_work_ticket里面。

即模拟基础表到主题表抽取过程。

a) 源数据获取
转换和链接创建过程见上节说明。

将表输入step拉入图中
双击表输入，配置源连接。

b) 数据分组
将【Memory Group by】拖入图中，并按住shift连接表输入和Memory Group by。

点开【Memory Group by】，将基础表中涉及维度的字段加入分组内。

需要聚合的度量加入到聚合内，并在名称处重命名为主题表内对应字段名称。

注：此处聚合类型选择
如果为计数则选择【个数】。

如果为通过是否值判断个数，选择【求和】。

如果为累积值，选择【求和】。

c) 时间处理
将【Modified Java Script Value】（在脚本里面）拖入图中，并按住shift连接。

点开【Modified Java Script Value】，将处理时间语句写入。

并点击下方的【获取变量】。

注：如果需要进行其他操作（去掉空值，转码等）可在此写js语句进行操作。

d) 更新/插入
将【插入/更新】（在输出里面）拉入到图中，并按住shift连接。

点开【更新/插入】，将查询关键字下方选上维度字段，更新字段下方选上聚合度量。

下图中，month_id是上部js中计算得出。

流字段下的前三个字段是第二步【Memory Group by】聚合得出，后三个字段是分组字段。

下图中为抽取的源数据和目标数据。

4.定时抽取设置
a) 建立job
点击【文件】→【新建】→【作业】，如下图将【STRAT】拉入图中。

将【Transformation】拉入到图中，按住shift连接。

点开【Transformation】，将test转换加进去，并重命名job为test。

b) 设置定时抽取
双击【START】，设定自动抽取时间。

下图中显示为间隔5分钟自动执行抽取。

点击执行，如下图。

点击【Launch】，执行job。

到达指定时间后，自动执行job，然后进行下一次执行等待。

如下图。

c) 命令行执行
编写test.bat内容如下
E:\kettle\data-integration\Kitchen.bat /norep /file E:\kettle\test.kjb其中红色部分为安装路径下Kitchen.bat文件所在位置，蓝色部分为job 文件所在位置。

注意：/norep和/file前面都有一个空格。

点击执行即可。

会出现下图所示内容，表示执行过一次job，正在等待下次执行时间继续执行，不要关闭cmd窗口即可。