Kettle命令行使用说明
kettle使用手册

kettle使用手册Kettle使用手册一、Kettle简介1.1 Kettle概述Kettle(也被称为Pentaho Data Integration)是一款开源的ETL(Extract, Transform, Load)工具,它能够从各种数据源中提取数据,并进行各种转换和加工,最后将数据加载到指定的目的地中。
Kettle具有强大的数据处理功能和友好的图形化界面,使得数据集成和转换变得简单而高效。
1.2 功能特点- 数据抽取:从多种数据源中提取数据,包括关系型数据库、文件、Web服务等。
- 数据转换:支持多种数据转换操作,如字段映射、类型转换、数据清洗等。
- 数据加载:将转换后的数据加载到不同的目的地,如数据库表、文件、Web服务等。
- 调度管理:支持定时调度和监控,可自动执行数据集成任务。
二、安装与配置2.1 系统要求在安装Kettle之前,请确保满足以下系统要求: - 操作系统:Windows、Linux、Unix等。
- Java版本:JDK 1.8及以上。
- 内存:建议至少4GB的可用内存。
2.2 安装Kettle最新版本的Kettle安装包,并按照安装向导进行安装。
根据系统要求和个人需求进行相应的配置选项,完成安装过程。
2.3 配置Kettle在安装完成后,需要进行一些配置以确保Kettle正常运行。
具体配置步骤如下:- 打开Kettle安装目录下的kettle.properties文件。
- 根据实际需要修改配置项,如数据库连接、日志路径、内存分配等。
- 保存修改并重启Kettle。
三、Kettle基础操作3.1 数据抽取3.1.1 创建数据源连接打开Kettle,左上角的“新建连接”按钮,在弹出的窗口中选择待抽取的数据源类型(如MySQL、Oracle等),填写相关参数并测试连接。
3.1.2 设计数据抽取作业- 打开Kettle中的“转换”视图。
- 从左侧的工具栏中选择适当的输入组件(如“表输入”或“文件输入”),将其拖拽到设计区域中。
kettle使用方法说明文档

Kettle使用方法说明文档1.安装程序解压pdi-ce-4.0.0-stable.zip到任意盘符,解压后点击根目录下Spoon.bat如下图所示。
点击cancel2.创建表到表直接抽取本实例演示的是在Oracle数据库zhwater下的zh用户里面表sys_user转换到本地Oracle数据库orcl下的zw用户下的表sys_user。
演示过程是建立transform将数据从zh.sys_user抽取到zw. sys_user 里面。
两个表结构相同。
a) 建立转换进入系统后如下图所示,双击转换。
b)创建源和目标数据库连接c)建立转换步骤点开【输入】——>【表输入】将表输入拉到右侧。
双击右侧的表输入,如下图,配置点开【输出】——>【插入/更新】将其拉到右侧。
按住shift先后左键点击表输入和插入/更新的图标。
双击插入/更新图标,点击【获取字段】和【获取和更新字段】用来查询的关键字保留主键USERID,其余删掉。
点击确定保存,点击上方验证无错误后,点击执行,如下图。
数据库中可以看到数据已从zh.sys_user抽取到zw.sys_userD)保存文件保存文件的文件名不能是中文,文件路径不能包含中文3.创建带数据聚合的表到表抽取本实例演示的是在数据库SG186ND下的basic_data用户里面的两个表sc_work_ticket 和t_sc_work_ticket。
演示过程是建立transform 将数据从sc_work_ticket抽取到t_sc_work_ticket里面。
即模拟基础表到主题表抽取过程。
a) 源数据获取转换和链接创建过程见上节说明。
将表输入step拉入图中双击表输入,配置源连接。
b) 数据分组将【Memory Group by】拖入图中,并按住shift连接表输入和Memory Group by。
点开【Memory Group by】,将基础表中涉及维度的字段加入分组内。
kettle的使用方法

kettle的使用方法Kettle是一种用于数据集成和转换的开源工具,也被称为Pentaho Data Integrator(PDI)。
它提供了一套功能强大的工具,可以帮助用户从不同的数据源中提取、转换和加载数据。
本文将介绍Kettle 的使用方法,帮助读者快速上手使用该工具。
一、安装Kettle您需要从Kettle官方网站下载最新版本的安装包。
安装包通常是一个压缩文件,您可以将其解压到您选择的目录中。
然后,通过运行解压后的文件夹中的启动脚本来启动Kettle。
二、连接数据源在使用Kettle之前,您需要先连接到您的数据源。
Kettle支持多种类型的数据源,包括关系型数据库、文件、Web服务等。
您可以使用Kettle提供的连接器来连接到您的数据源,或者根据需要自定义连接器。
连接成功后,您可以在Kettle中查看和操作您的数据。
三、创建转换在Kettle中,数据转换是通过创建转换作业来实现的。
转换作业是由一系列的转换步骤组成的,每个步骤都执行特定的数据操作。
您可以使用Kettle提供的各种转换步骤,如数据提取、数据过滤、数据转换、数据加载等,来构建您的转换作业。
四、配置转换步骤在创建转换作业后,您需要配置每个转换步骤的参数和选项。
例如,在数据提取步骤中,您需要指定要提取的数据源和查询条件。
在数据转换步骤中,您可以定义数据的转换逻辑,如数据清洗、数据合并、数据计算等。
在数据加载步骤中,您需要指定目标数据表和加载方式。
五、运行转换作业完成转换步骤的配置后,您可以运行整个转换作业,将数据从源数据源提取、转换和加载到目标数据源。
在运行转换作业之前,您可以选择性地预览转换结果,以确保数据操作的准确性和一致性。
Kettle还提供了调试功能,可以帮助您快速定位和解决转换作业中的问题。
六、调度转换作业除了手动运行转换作业之外,Kettle还支持将转换作业安排为定期执行的任务。
您可以使用Kettle提供的调度功能,根据您的需求设置转换作业的执行时间和频率。
kettle操作手册

1.什么Kettle?Kettle是一个开源的ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)项目,项目名很有意思,水壶。
按项目负责人Matt的说法:把各种数据放到一个壶里,然后呢,以一种你希望的格式流出。
Kettle包括三大块:Spoon——转换/工作(transform/job)设计工具(GUI方式)Kitchen——工作(job)执行器(命令行方式)Span——转换(trasform)执行器(命令行方式)Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高效稳定。
Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
2.Kettle简单例子2.1下载及安装Kettle下载地址:/projects/pentaho/files现在最新的版本是 3.6,为了统一版本,建议下载 3.2,即下载这个文件pdi-ce-3.2.0-stable.zip。
解压下载下来的文件,把它放在D:\下面。
在D:\data-integration文件夹里,我们就可以看到Kettle的启动文件Kettle.exe或Spoon.bat。
2.2 启动Kettle点击D:\data-integration\下面的Kettle.exe或Spoon.bat,过一会儿,就会出现Kettle的欢迎界面:稍等几秒,就会出现Kettle的主界面:2.3 创建kettle后台管理点击【新建】,新建资源库信息这里我们选择KETTLE 后台管理数据库的类型,以及配置JDBC设置完成后,点击【创建或更新】,将会在指定的数据库里面新建KETTLE的后台管理数据表。
再设置【名称】,点击【确定】。
回到登陆界面,选择新建的【资源库】,输入用户账号密码(默认账号:admin,密码:admin)进入KTETTLE 的开发界面2.4 kettle说明主对象树:转换(任务),作业(JOB)核心对象:主对象中可用的组件2.5 值映射组件使用的字段名:源字段目标字段名:目标字段源值:源数据的值目标值:替换的值注:最好先将源值去空格,再进行替换2.6 增加常量组件名称:映射字段类型:字段类型格式:数据格式长度:值:常量的值2.7计算器组件新字段:映射字段计算:计算类型字段A,B,C:需计算的字段值类型:数据的类型2.8获取系统信息组件名称:显示的名称类型:显示的类型(系统时间,IP,指令等等)2.9增加序列组件值的名称:映射值的名称起始值:序列的初始值增加值:设置增加的值最大值:设置最大值2.10 表输出组件数据库连接:设置数据库目标表:设置目标的表提交记录数量:设置提交数量忽略插入错误:跳过错误,继续执行指定库字段:数据库字段:选择插入的字段2.11 多路选择(Switch/Case) 组件更多路选择的字段:设置Switch的字段分支值的数据类型:设置值的类型分支值:值:设置case的值目标步骤:跳过的操作步骤缺省的目标步骤:未通过的操作步骤2.12 Null if... 组件名称:选择替换的字段需要转换成NULL的值:需要转换成NULL的值2.12 执行SQL脚本组件数据库连接:选择数据库SQL script :输入要执行的SQL语句参数:设置要替换的参数字段2.13 Modified Java Script Value 组件Java Script:脚本的输入:输入字段:输出字段字段名称:定义的字段名改成为:新的字段名类型:字段类型Replace Value:是否替换的值2.14 合并记录组件旧数据源:输入数据源新数据源:输入数据源匹配关键字段:匹配关键字段数据字段:数据字段2.15 记录关联(笛卡尔输出) 组件条件:输入关联的条件2.16 Merge Join 组件第一个步骤:第一个操作的步骤第二个步骤:第二个操作的步骤步骤选择的字段:步骤关联的字段2.17 行转列组件关键字:选择表的关键字分组字段:分组的字段目标字段:选择目标在字段VALUE:值字段名称关键字值:关键字值类型:数据类型2.18 生成随机值组件名称:新生成字段名类型:随机数的类型2.19 去除重复行组件字段名称:关键字的字段忽略大小写:是否忽略大小写注意:去掉重复行需先排序2.20 插入/ 更新组件数据库连接:选择数据库目标表:选择目标表不执行任何更新:是否执行更新操作查询的关键字:关键字更新字段:选择要插入更新的字段2.21 表输入组件数据库连接:选择数据库SQL:输入SQL语句预览:数据预览获得SQL查询语句:获得SQL查询语句2.22 排序记录组件字段名称:选择排序的字段名称升序:是否升序大小写敏感:是否区分大小写2.23 XML输出组件文件名称:输出文件的名称跟路径扩展:扩展名2.24 文本文件输出组件文件名称:输出文件的名称跟路径扩展:扩展名2.25 Write to log 组件日志级别:选择日志级别字段:选择打印的字段2.26 过滤记录组件条件:输入条件发送True给的步骤:返回True的步骤发送false给的步骤:返回false的步骤2.27 JOB定时组件重复:是否重复类型:选择类型2.28 转换组件转换文件名:选择执行转换的文件指定日志文件:输出日志文件2.5 命令行运行ktr和kjb在上面的过程中,我们都是在IDE工具中,直接点击按钮进行运行文件的,但在实际中,我们需要脱离IDE,进行单独的运行,这时就必须用到命令行来运行文件了。
kettle使用方法

kettle使用方法一、什么是kettle?Kettle是一款功能强大的开源ETL (Extract, Transform, Load) 工具,用于处理各种数据的抽取、转换和加载。
它提供了可视化的界面,使用户能够轻松地创建和管理数据流程。
二、kettle的安装和配置1.下载kettle安装包,并解压到指定目录。
2.进入kettle目录,在终端中运行spoon.sh (Linux/Mac) 或spoon.bat(Windows) 启动kettle。
3.在弹出的窗口中,点击”File”菜单,选择”Preferences”打开配置页面。
4.在配置页面中,设置kettle的选项,如数据连接、插件路径等。
三、kettle中的数据流程1.创建一个新的数据流程:点击工具栏上的”新建”按钮,在弹出的对话框中选择”Transformation”创建一个新的转换,或选择”Job”创建一个作业。
2.在数据流程中,可以拖拽各种组件来构建转换或作业,如数据输入、数据输出、转换、聚合等。
3.连接组件:使用鼠标拖拽连线工具,连接各个组件,定义数据的流向。
4.配置组件:双击组件,如数据输入组件,可以配置数据源的连接信息、查询语句等。
5.定义转换规则:在转换组件中,根据需要配置字段映射、条件过滤、转换函数等。
6.运行数据流程:点击工具栏上的”运行”按钮,运行数据流程并查看结果。
四、kettle的常用组件和功能1.数据输入:用于读取数据源的组件,支持多种数据源,如数据库、文件、Web服务等。
2.数据输出:用于将数据写入目标的组件,支持多种输出格式,如数据库表、文件、Web服务等。
3.转换组件:用于对数据进行转换的组件,如字段映射、类型转换、条件过滤、聚合等。
4.调度和监控:kettle提供了作业调度和监控的功能,可以定时执行作业、生成报表等。
5.插件扩展:kettle支持插件扩展,用户可以根据需要开发自己的插件,用于处理特定的数据源或转换规则。
Kettle的使用说明

KETTLE使用说明简介Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。
Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。
Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。
Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
Kettle可以在/网站下载到。
注:ETL,是英文Extract-Transform-Load 的缩写,用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。
ETL 一词较常用在数据仓库,但其对象并不限于数据仓库。
下载和安装首先,需要下载开源免费的pdi-ce软件压缩包,当前最新版本为5.20.0。
下载网址:/projects/pentaho/files/Data%20Integration/然后,解压下载的软件压缩包:pdi-ce-5.2.0.0-209.zip,解压后会在当前目录下上传一个目录,名为data-integration。
由于Kettle是使用Java开发的,所以系统环境需要安装并且配置好JDK。
žKettle可以在/网站下载ž 下载kettle压缩包,因kettle为绿色软件,解压缩到任意本地路径即可。
运行Kettle进入到Kettle目录,如果Kettle部署在windows环境下,双击运行spoon.bat 或Kettle.exe文件。
Linux用户需要运行spoon.sh文件,进入到Shell提示行窗口,进入到解压目录中执行下面的命令:# chmod +x spoon.sh# nohup ./spoon.sh & 后台运行脚本这样就可以打开配置Kettle脚本的UI界面。
Kettle配置使用说明

Kettle配置使用说明Kettle配置使用说明1.文件结构1.1 kettle4.0.1该文件夹存放的是kettle4.0.1的桌面应用程序,/kettle4.0.1/Spoon.bat是运行软件的一个批处理文件,双击运行。
1.2 workspace该文件夹存放的是以各个警种总队全拼命名的分别存放.ktr文件和.job文件的文件夹。
Start.job是一个启动总纲。
1.3 script该文件夹是存放的数据库建库脚本,目前是oracle10g版本1.4 model存放的是powerDesign的cdm概念模型文件用于根据需要生成pdm和script。
2.文件路径配置本系统使用的都是系统所在路径的相对路径,不管处于什么目录下都请将kettle4.0.1和workspace的文件夹放在同一目录之下。
当然你可以随意改变文件夹的名称。
3.运行环境配置先运行一次/kettle4.0.1/Spoon.bat,Linux就不说了,如果你用的是windows系统,那么你可以在/${userhome}/.kettle下找到一个.kettle的文件夹主要说下:Response.xml-记录资源库信息(自己去勾)Kettle.property-这是好东西,可以让你在软件中任何可以使用到环境变量的地方使用到里面的配置信息(键-值对配置),类似全局变量。
当然是有利有弊,配置点什么数据库连接和一些常用的东西之外别把那里当仓库,想下全局变量定义的多了会给系统带来什么风险。
A_fileInput=file:///E:/Test_Server/srcFile/A_fileOutput=file:///E:/Test_Server/errFile/这2个属性是配置读取的Excel文件和输出错误的Excel文件用到的路径配置。
由于文件名命名的差异和存放位置的不同需要使用者自行配置。
有在系统内修改文件路径的风险,当然这是没有办法避免的,只能在项目初期和用户有这方面的约定俗成。
kettle在linux上的运行方法

kettle在linux上的运行方法在Linux上运行Kettle是一种常见且广泛使用的数据集成工具。
下面将介绍如何在Linux 系统上安装和运行Kettle。
步骤一:下载Kettle首先,我们需要从Kettle官方网站下载适用于Linux系统的安装包。
Kettle的安装包通常以tar.gz格式提供,用户可以选择适合自己系统的版本进行下载。
步骤二:解压安装包下载完成后,使用命令行进入下载目录,可以使用以下命令解压tar.gz文件:```tar -zxvf kettle.tar.gz```解压完成后,在目录中将会生成一个名为“kettle”或者类似名字的文件夹。
步骤三:设置环境变量接下来,我们需要设置Kettle的环境变量,以便可以在任何位置运行Kettle。
编辑用户主目录下的.bashrc文件:```vi ~/.bashrc```在文件末尾添加以下行:```export KETTLE_HOME=/path/to/kettleexport PATH=$KETTLE_HOME:$PATH```请将`/path/to/kettle`替换为步骤二中解压得到的kettle文件夹的路径。
然后保存并关闭文件。
输入以下命令使环境变量生效:```source ~/.bashrc```步骤四:启动Kettle在命令行中输入以下命令以启动Kettle:```kitchen.sh```这将启动Kettle的作业运行器。
如果需要运行转换,请使用以下命令:```pan.sh```此外,您还可以通过命令行参数为Kettle作业或转换提供所需的参数。
至此,你已成功在Linux上安装和运行Kettle。
您可以开始使用Kettle执行各种ETL(提取、转换和加载)任务,将数据从一个地方传输到另一个地方,实现数据集成和数据分析等功能。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Kettle命令行使用说明1.KETTLE简介说到ETL开源项目,Kettle当属翘首,项目名称很有意思,水壶。
按项目负责人Matt 的说法:把各种数据放到一个壶里,然后呢,以一种你希望的格式流出。
呵呵,外国人都很有联想力。
看了提供的文档,然后对发布程序的简单试用后,可以很清楚得看到Kettle的四大块:1)Chef——工作(job)设计工具(GUI方式)2)Kitchen——工作(job)执行器(命令行方式)3)Spoon——转换(transform)设计工具(GUI方式)4)Span——转换(trasform)执行器(命令行方式)1.1.Chef——工作(job)设计器这是一个GUI工具,操作方式主要通过拖拖拉拉,勿庸多言,一看就会。
何谓工作?多个作业项,按特定的工作流串联起来,开成一项工作。
正如:我的工作是软件开发。
我的作业项是:设计、编码、测试!先设计,如果成功,则编码,否则继续设计,编码完成则开始设计,周而复始,作业完成。
1.1.1.Chef中的作业项包括:1)转换:指定更细的转换任务,通过Spoon生成。
通过Field来输入参数;2)SQL:sql语句执行;3)FTP:下载ftp文件;4)邮件:发送邮件;5)检查表是否存在;6)检查文件是否存在;7)执行shell脚本:如dos命令。
8)批处理:(注意:windows批处理不能有输出到控制台)。
9)Job包:作为嵌套作业使用。
10)JavaScript执行:这个比较有意思,我看了一下源码,如果你有自已的Script引擎,可以很方便的替换成自定义Script,来扩充其功能;11)SFTP:安全的Ftp协议传输;12)HTTP方式的上/下传。
1.1.2.工作流如上文所述,工作流是作业项的连接方式。
分为三种:无条件,成功,失败,为了方便工作流使用,KETTLE提供了几个辅助结点单元(也可将其作为简单的作业项):Start单元:任务必须由此开始。
设计作业时,以此为起点。
OK单元:可以编制做为中间任务单元,且进行脚本编制,用来控制流程。
ERROR单元:用途同上。
DUMMY单元:什么都不做,主要是用来支持多分支的情况,文档中有例子。
1.1.3.存储方式支持XML存储,或存储到指定数据库中。
一些默认的配置(如数据库存储位置……),在系统的用户目录下,单独建立了一个.Kettle 目录,用来保存用户的这些设置。
1.1.4.LogView可查看执行日志。
1.2.Kitchen——作业执行器是一个作业执行引擎,用来执行作业。
这是一个命令行执行工具,没啥可讲的,就把它的参数说明列一下。
1)-rep:Repositoryname任务包所在存储名2)-user:Repositoryusername执行人3)-pass:Repositorypassword执行人密码4)-job:Thenameofthejobtolaunch任务包名称5)-dir:Thedirectory(don'tforgettheleading/or\)6)-file:Thefilename(JobXML)tolaunch7)-level:Thelogginglevel(Basic,Detailed,Debug,Rowlevel,Error,Nothing)指定日志级别8)-log:Theloggingfiletowriteto指定日志文件9)-listdir:Listthedirectoriesintherepository列出指定存储中的目录结构。
10)-listjobs:Listthejobsinthespecifieddirectory列出指定目录下的所有任务11)-listrep:Listthedefinedrepositories列出所有的存储12)-norep:Don'tlogintotherepository不写日志嗯,居然不支持调度。
看了一下文档,建议使用操作系统提供的调度器来实现调度,比如:Windows可以使用它的任务计划工具。
1.3.Spoon——转换过程设计器GUI工作,用来设计数据转换过程,创建的转换可以由Pan来执行,也可以被Chef所包含,作为作业中的一个作业项。
下面简单列举一下所有的转换过程。
(简单描述,详细的可见Spoon文档)1.3.1.Input-Steps:输入步骤lTextfileinput:文本文件输入可以支持多文件合并,有不少参数,基本一看参数名就能明白其意图。
lTableinput:数据表输入实际上是视图方式输入,因为输入的是sql语句。
当然,需要指定数据源(数据源的定制方式在后面讲一下)lGetsysteminfo:取系统信息就是取一些固定的系统环境值,如本月最后一天的时间,本机的IP地址之类。
lGenerateRows:生成多行。
这个需要匹配使用,主要用于生成多行的数据输入,比如配合Addsequence可以生成一个指定序号的数据列。
lXBaseInputlExcelInputlXMLInput这三个没啥可讲的,看看参数就明了。
1.3.2.Output-Steps:输出步聚lTextfileoutput:文本文件输出。
这个用来作测试蛮好,呵呵。
很方便的看到转换的输出。
lTableoutput:输出到目的表。
lInsert/Update:目的表和输入数据行进行比较,然后有选择的执行增加,更新操作。
lUpdate:同上,只是不支持增加操作。
lXMLOutput:1.3.3.Look-up:查找操作lDataBaselStreamlProcedurelDatabasejoin1.3.4.Transform转换lSelectvalues对输入的行记录数据的字段进行更改(更改数据类型,更改字段名或删除)数据类型变更时,数据的转换有固定规则,可简单定制参数。
可用来进行数据表的改装。
lFilterrows对输入的行记录进行指定复杂条件的过滤。
用途可扩充sql语句现有的过滤功能。
但现有提供逻辑功能超出标准sql的不多。
lSortrows对指定的列以升序或降序排序,当排序的行数超过5000时需要临时表。
lAddsequence为数据流增加一个序列,这个配合其它Step(Generaterows,rowsjoin),可以生成序列表,如日期维度表(年、月、日)。
lDummy不做任何处理,主要用来作为分支节点。
lJoinRows对所有输入流做笛卡儿乘积。
lAggregate聚合,分组处理lGroupby分组,用途可扩充sql语句现有的分组,聚合函数。
但我想可能会有其它方式的sql语句能实现。
lJavaScriptvalue使用mozilla的rhino作为脚本语言,并提供了很多函数,用户可以在脚本中使用这些函数。
lRowNormaliser该步骤可以从透视表中还原数据到事实表,通过指定维度字段及其分类值,度量字段,最终还原出事实表数据。
lUniquerows去掉输入流中的重复行,在使用该节点前要先排序,否则只能删除连续的重复行。
lCalculator提供了一组函数对列值进行运算,用该方式比用户自定义JAVASCRIPT脚本速度更快。
lMergeRows用于比较两组输入数据,一般用于更新后的数据重新导入到数据仓库中。
lAddconstants:增加常量值。
lRowdenormaliser同Normaliser过程相反。
lRowflattener表扁平化处理,指定需处理的字段和扃平化后的新字段,将其它字段做为组合Key进行扃平化处理。
1.3.5.除了上述基本节点类型外还定义了扩展节点类型lSPLITFIELDS按指定分隔符拆分字段lEXECUTESQLSCRIPT执行SQL语句lCUBEINPUTlCUBEOUTPUT1.3.6.其它l存储方式:与Chef相同。
l数据源(Connection);见后。
lHops:setp连接起来,形成Hops。
lPluginsteptypes等节点:这个没仔细看,不知如何制作Pluginstep。
lLogView:可查看执行日志。
1.4.Pan——转换的执行工具命令行执行方式,可以执行由Spoon生成的转换任务。
同样,不支持调度。
参数与Kitchen 类似,可参见Pan的文档。
1.5.其它Connection可以配置多个数据源,在Job或是Trans中使用,这意味着可以实现跨数据库的任务。
支持大多数市面上流行的数据库。
1.6.个人感觉:(本人不成熟的看法)1、转换功能全,使用简洁。
作业项丰富,流程合理。
但缺少调度。
2、java代码,支持的数据源范围广,所以,跨平台性较好。
3、从实际项目的角度看,和其它开源项目类似,主要还是程序员的思维,缺少与实际应用项目(专业领域)的更多接轨,当然,项目实施者的专注点可能在于一个平台框架,而非实际应用(实际应用需要二次开发)。
4、看过了大多数源码,发现源码的可重用性不是太好(缺少大粒度封装),有些关键部分好像有Bug。
比如:个别class过于臃肿,线程实现的同步有问题。
5、提供的工具有些小错,如参数的容错处理。
1.7.命令行执行实例使用资源库(repository)登录时,默认的用户名和密码是admin/admin。
当job是存放在资源库(一般资源库都使用数据库)中时,使用Kitchen.bat执行job时,需使用如下的命令行:Kitchen.bat-repkettle-useradmin-passadmin-jobjob名当job没有存放在资源库而存放在文件系统时,使用Kitchen.bat执行job时,需使用如下的命令行:Kitchen.bat-norep-fileuser-transfer-job.kjb可以使用命令行执行job后,就可以使用windows或linux的任务调度来定时执行任务了命令,在控制台执行测试。