kettle公司内部培训手册
Kettle用户操作手册1

Kettle用户操作手册1.kettle介绍1.1 什么是kettleKettle是“Kettle E.T.T.L. Envirnonment”只取首字母的缩写,这意味着它被设计用来帮助你实现你的ETTL 需要:抽取、转换、装入和加载数据;它的名字起源正如该项目的主程序员MATT所说:希望把各种数据放到一个壶里然后以一种指定的格式流出。
Spoon是一个图形用户界面,它允许你运行转换或者任务。
1.2 Kettle 的安装要运行此工具你必须安装 Sun 公司的JAVA 运行环境1.4 或者更高版本,相关资源你可以到网络上搜索JDK 进行下载,Kettle 的下载可以到/取得最新版本。
1.3运行SPOON下面是在不同的平台上运行Spoon 所支持的脚本:Spoon.bat: 在windows 平台运行Spoon。
Spoon.sh: 在Linux、Apple OSX、Solaris 平台运行Spoon。
1.4 资源库一个Kettle资源库可以包含那些转换信息,这意味着为了从数据库资源中加载一个转换就必须连接相应的资源库。
在启动SPOON的时候,可以在资源库中定义一个数据库连接,利用启动spoon时弹出的资源库对话框来定义,如图所示:单击加号便可新增;关于资源库的信息存储在文件“reposityries.xml”中,它位于你的缺省home 目录的隐藏目录“.kettle”中。
如果是windows 系统,这个路径就是c:\Documents andSettings\<username>\.kettle。
如果你不想每次在Spoon 启动的时候都显示这个对话框,你可以在“编辑/选项”菜单下面禁用它。
admin 用户的缺省密码也是admin。
如果你创建了资源库,你可以在“资源库/编辑用户”菜单下面修改缺省密码。
1.5 定义1.5.1 转换主要用来完成数据的转换处理。
转换步骤,可以理解为将一个或者多个不同的数据源组装成一条数据流水线。
kettle操作手册

1.什么Kettle?Kettle是一个开源的ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)项目,项目名很有意思,水壶。
按项目负责人Matt的说法:把各种数据放到一个壶里,然后呢,以一种你希望的格式流出。
Kettle包括三大块:Spoon——转换/工作(transform/job)设计工具(GUI方式)Kitchen——工作(job)执行器(命令行方式)Span——转换(trasform)执行器(命令行方式)Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高效稳定。
Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
2.Kettle简单例子2.1下载及安装Kettle下载地址:/projects/pentaho/files现在最新的版本是 3.6,为了统一版本,建议下载 3.2,即下载这个文件pdi-ce-3.2.0-stable.zip。
解压下载下来的文件,把它放在D:\下面。
在D:\data-integration文件夹里,我们就可以看到Kettle的启动文件Kettle.exe或Spoon.bat。
2.2 启动Kettle点击D:\data-integration\下面的Kettle.exe或Spoon.bat,过一会儿,就会出现Kettle的欢迎界面:稍等几秒,就会出现Kettle的主界面:2.3 创建kettle后台管理点击【新建】,新建资源库信息这里我们选择KETTLE 后台管理数据库的类型,以及配置JDBC设置完成后,点击【创建或更新】,将会在指定的数据库里面新建KETTLE的后台管理数据表。
再设置【名称】,点击【确定】。
回到登陆界面,选择新建的【资源库】,输入用户账号密码(默认账号:admin,密码:admin)进入KTETTLE 的开发界面2.4 kettle说明主对象树:转换(任务),作业(JOB)核心对象:主对象中可用的组件2.5 值映射组件使用的字段名:源字段目标字段名:目标字段源值:源数据的值目标值:替换的值注:最好先将源值去空格,再进行替换2.6 增加常量组件名称:映射字段类型:字段类型格式:数据格式长度:值:常量的值2.7计算器组件新字段:映射字段计算:计算类型字段A,B,C:需计算的字段值类型:数据的类型2.8获取系统信息组件名称:显示的名称类型:显示的类型(系统时间,IP,指令等等)2.9增加序列组件值的名称:映射值的名称起始值:序列的初始值增加值:设置增加的值最大值:设置最大值2.10 表输出组件数据库连接:设置数据库目标表:设置目标的表提交记录数量:设置提交数量忽略插入错误:跳过错误,继续执行指定库字段:数据库字段:选择插入的字段2.11 多路选择(Switch/Case) 组件更多路选择的字段:设置Switch的字段分支值的数据类型:设置值的类型分支值:值:设置case的值目标步骤:跳过的操作步骤缺省的目标步骤:未通过的操作步骤2.12 Null if... 组件名称:选择替换的字段需要转换成NULL的值:需要转换成NULL的值2.12 执行SQL脚本组件数据库连接:选择数据库SQL script :输入要执行的SQL语句参数:设置要替换的参数字段2.13 Modified Java Script Value 组件Java Script:脚本的输入:输入字段:输出字段字段名称:定义的字段名改成为:新的字段名类型:字段类型Replace Value:是否替换的值2.14 合并记录组件旧数据源:输入数据源新数据源:输入数据源匹配关键字段:匹配关键字段数据字段:数据字段2.15 记录关联(笛卡尔输出) 组件条件:输入关联的条件2.16 Merge Join 组件第一个步骤:第一个操作的步骤第二个步骤:第二个操作的步骤步骤选择的字段:步骤关联的字段2.17 行转列组件关键字:选择表的关键字分组字段:分组的字段目标字段:选择目标在字段VALUE:值字段名称关键字值:关键字值类型:数据类型2.18 生成随机值组件名称:新生成字段名类型:随机数的类型2.19 去除重复行组件字段名称:关键字的字段忽略大小写:是否忽略大小写注意:去掉重复行需先排序2.20 插入/ 更新组件数据库连接:选择数据库目标表:选择目标表不执行任何更新:是否执行更新操作查询的关键字:关键字更新字段:选择要插入更新的字段2.21 表输入组件数据库连接:选择数据库SQL:输入SQL语句预览:数据预览获得SQL查询语句:获得SQL查询语句2.22 排序记录组件字段名称:选择排序的字段名称升序:是否升序大小写敏感:是否区分大小写2.23 XML输出组件文件名称:输出文件的名称跟路径扩展:扩展名2.24 文本文件输出组件文件名称:输出文件的名称跟路径扩展:扩展名2.25 Write to log 组件日志级别:选择日志级别字段:选择打印的字段2.26 过滤记录组件条件:输入条件发送True给的步骤:返回True的步骤发送false给的步骤:返回false的步骤2.27 JOB定时组件重复:是否重复类型:选择类型2.28 转换组件转换文件名:选择执行转换的文件指定日志文件:输出日志文件2.5 命令行运行ktr和kjb在上面的过程中,我们都是在IDE工具中,直接点击按钮进行运行文件的,但在实际中,我们需要脱离IDE,进行单独的运行,这时就必须用到命令行来运行文件了。
kettle使用手册

1打开程序,点击spoon.bat其实对于简单的数据库数据的抽取,基本只需要转换(.ktr格式)和作业(.kjb格式)这两种东西。
下面就是建立一个转换的步骤:a 点击文件-->新建-->转换。
b 在左侧的树状列表中选“主对象树”,新建DB连接(参照第4点)。
c 在核心对象-->输入这个地方拖出一个表输入,在“输出”目录下拖出“表输出”,按住shift,从一个对象拖到另一个对象可进行连线。
2基本作业由开始,转换,成功3步骤组成。
步骤之间使用shift+左键连线。
2.1‘1’代表无条件执行;2.2‘2’代表上一步执行完成后,再执行下一步;2.3‘3’代表不执行,左击连接线使其生效(绿色)或失效(灰色)。
3打开具体步骤中的转换流程,点击‘Transformation’跳转至相应具体转换流程,编辑此转换具体路径,双击转换,弹出窗口,‘1’为相对路径,点击‘2’选择具体Visit.ktr转换,为绝对路径。
4建立数据库连接,输入相应信息测试,成功即可图45转换具体设置,如图4,‘表输出’至‘文本文件输出’流程跳接线为错误处理步骤,当输出格式不能满足表输出的目的表结构类型时,将会将记录输出到‘文本文件输出’中的记录中。
5.1双击‘表输入’,输入相应的SSQL语句,选择配置数据库连接,或新增,预览查询生成的结果(如果数据库配置中使用变量获取,此处预览生成错误)。
5.2双击‘表输出’,选择数据库连接,‘浏览’选择相应目标表,(此处‘使用批量插入’勾选去除,目的是在错误处理步骤中无法使用批量处理,可能是插件兼容问题)6表输出插件定义a) Target Schema:目标模式。
要写数据的表的Schema的名称。
允许表明中包含“。
”对数据源来说是很重要的b) 目标表:要写数据的表名。
c) 提交记录数量:在数据表中用事物插入行。
如果n比0大,每n行提交一次连接。
否则不使用事务,速度会慢一些。
d) 裁剪表:在第一行数据插入之前裁剪表。
Kettle 公司培训手册(DOC 20页)

Kettle 培训手册一、Etl 介绍ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于金融IT 来说,经常会遇到大数据量的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少。
Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高效稳定。
Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
二、kettle 部署运行将kettle2.5.1文件夹拷贝到本地路径,例如D 盘根目录。
双击运行kettle文件夹下的spoon.bat文件,出现kettle欢迎界面:稍等几秒选择没有资源库,打开kettle主界面创建transformation,job点击页面左上角的创建一个新的transformation,点击保存到本地路径,例如保存到D:/etltest下,保存文件名为EtltestTrans,kettle默认transformation 文件保存后后缀名为ktr点击页面左上角的创建一个新的job,点击保存到本地路径,例如保存到D:/etltest下,保存文件名为EtltestJob,kettle默认job文件保存后后缀名为kjb 创建数据库连接在transformation页面下,点击左边的【Main Tree】,双击【DB连接】,进行数据库连接配置。
connection name自命名连接名称Connection type选择需要连接的数据库Method of access选择连接类型Server host name写入数据库服务器的ip地址Database name写入数据库名Port number写入端口号Username写入用户名Password写入密码例如如下配置:点击【test】,如果出现如下提示则说明配置成功点击关闭,再点击确定保存数据库连接。
KETTLE使用说明(中文版)

1.2 安装kettle 要运行Kettle ,必须按安装java 环境1.4或以上版本,kettle下载可以到: 取得最新版本。(pdi-ce-4.0.1-stable.zip) 1.3 运行spoon 下面是不同平台上运行spoon 所支持的脚本 : spoon.bat windows 平台运行Spoon. Spoon.sh linux 平台运行Spoon. 1.4 资源库 一个Kettle 资源库可以包含那些转换信息,这意味着为了从数据资源中加载一个转 换,你必须连接相应的资源库。
3.1 选项
1. Connection name :定义转换或任务访问的连接的唯一名称,可自行 设置,但不能为空。 2. Connection Type:连接的数据类型 3. Access: 可以是Native(JDBC),odbc, oci,jndi.一般选择JDBC 4. HostName: 指定数据库部署的主机或者服务器的名称,也可以指定IP 地址。 5. DataBase Name :指定连接的数据库的名称,如果是ODBC方式就指定 DSN名称。 6. port Number : 设定数据库监听的TCP/IP端口号 7. user Name / password : 指定连接数据库的用户名和密码
2. 局限性 这只是一个简单的SQL 编辑器,它不可能完 全知道超过20种它所支持的数据库的方言。 这意味着创建存储过程,触发器或者其他的 数据库对象可能带来很多问题。在这种情况 下,应考虑使用数据库自带的工具。
4.数据库浏览器
1. 描述 数据库浏览器只显示可用的表,视图或者目 录
5.新建一个转换
岗位职责三工作总结项目运维项目实施银青高速视频监控东毛隧道停车场项目全面实施ip设置贵州独平高速项目全面实施监控室机柜布线四心得体会在这段时间的学习过程中我对部门很多产品从零学起刚到公司的时候感觉压力很大经过这些时间的认真学习和实际操作调整心态现已完全能融入公司的各项岗位职责和管理制度中
kettle使用手册

Spoon.bat修改在set opt=*最后"-Dfile.encoding=UTF-8",解决乱码问题表输入替换SQL语句中的变量:变量用‘?’ 表示从步骤中插入数据:这个组件之前的流程名称新建/编辑Wizard(向导)填写数据库连接名称(选择数据库连接类型和数据库访问类型)NEXT端口号默认NEXT点击测试数据库连接获取SQL查询语句选择表或者视图,确定也可以自定义SQL语句.预览查询查询所需关键字:字段1为流入字段查询返回的值:字段为数据库表字段,可以起个别名,类型不选可能导致跨库乱码获取查询关键字:流入的所有字段获取返回字段:所选数据库表所有字段Switch/CaseSwitch字段:流入的字段Case值数据类型:视情况而定Case值:此处为空时-转到-查询DEPT_CODE 默认目标步骤(default):自定义流程,如图字段选择移除:移除流入字段元数据:修改元数据字段选择和修改:如果指定了移除和元数据就不能选择列映射增加常量添加一列到元数据流中设置字段值替换流字段的值表输出主选项默认不是临时表的话,千万不要选中剪裁表,这个用于删除表中的数据勾选’指定数据库字段’后才能操作’数据库字段面板’提交记录数量:每次批处理的数量,一批对应一个事务输入字段映射不要随便点’猜一猜’空操作什么也不做删除查询所需的关键字:删除的条件插入/更新不推荐使用比较流中和数据库表的值,不同则更新编辑映射:同表输出字符串替换过滤两个或以上中文并设置为空串去除重复记录注意:去除的记录要排序,否则只去除连续的值行扁平化详解:/Document/detail/tid/73025Access输入选择mdb格式文件,支持正则过滤Kettle增量更新/s/blog_6d35752501015dtm.html 获取系统信息类型预览记录计算器如下是移除元数据流字段,新数据流加负号Kettle变量(1)名称对应参数值:可以写SQL函数,比如sysdate+1,to_date()等相对应的变量名(2)位置对应参数获取系统信息此处添加两个变量作为增量的值设置变量变量活动类型:2)通过属性文件(常用)在C:\Users\${userName}\.kettle\kettle.properties中添加变量(key=value)Java Virtual Machine:S系统级作用域,凡是在一个java虚拟机下运行的线程都受其影响。
Kettle绝密内训实战培训

Kettle 的安装
要运行此工具你必须安装Sun 公司的JAVA 运行环境1.4 或 者更高版本,相关资源你可以到网络上搜索JDK 进行下载 绿色免安装,解压即可用。 在不同的平台上运行Spoon 所支持的脚本: Spoon.bat: 在windows 平台运行Spoon。 Spoon.sh: 在Linux、Apple OSX、Solaris 平台运行Spoon。
编辑输出表控件属性
然后点击绿色按钮,启动转换
保存转换
可以查看执行结果
可以加入执行SQL脚本
在核心对象中有很多控件可用来实 现数据的ETL功能。
创建作业
从左侧通用栏目中拖拽两个控件
双击Transformation 1进行编辑
保存jobs后执行任务 后执行任务 保存
Kettle 调度
Kettle 四大家族
SPOON允许你通过图形界面来设计ETL转换过程(Transformation)。例如,从一个 SAP系统抽取数据,并把这些数据存储到一个文件里的转换任务如下:
PAN允许你批量运行由Spoon设计的ETL转换(例如使用时间调度器)。Pan是一个后台 执行的程序,没有图形界面。 CHEF允许你创建任务(JOB)。任务通过允许每个转换、任务、脚本等,更有利于自 动化更新数据仓库的复杂工作。任务通过允许每个转换、任务、脚本等。任务将会被 检查,看看是否正确运行了。(下面是一个chef的任务图)。
Kettle 文件,出现
Kettle案例
案例描述: 把文本文件中的格式化数据导入到oracle 数据库的指定表中
打开Kettle 选择没有资料库
创建数据库连接
创建数据库连接
输入数据源连接名称,选择数据源类型和 访问方式
2024年史上最强Kettle培训教程

配置环境变量
将Kettle的bin目录添加到 系统环境变量PATH中
2024/2/29
启动服务
在命令行中输入kettle.bat (Windows)或kettle.sh (Linux/MacOS)启动服 务
服务端口
默认端口为8080,可通过 配置文件进行修改
6
常见问题解决方案
问题1
无法启动服务
解决方案
作有很大的帮助。
2024/2/29
30
行业发展趋势分析
2024/2/29
大数据时代下的数据处理需求
随着大数据时代的到来,数据处理需求越来越大,Kettle作为一种高效的数据处理工具, 将会得到更广泛的应用。
Kettle在数据仓库建设中的地位和作用
数据仓库是企业级数据集成和存储的重要平台,Kettle在数据仓库建设中扮演着重要的角 色,能够实现数据的快速集成和转换。
2024/2/29
27
06
总结回顾与未来展望
2024/2/29
28
关键知识点总结回顾
Kettle工具介绍和使用场景:包括Kettle的基本概 念、特点、使用场景等,让学员对Kettle有一个 全面的了解。
Kettle组件和功能介绍:介绍了Kettle中的各种组 件和功能,如输入/输出组件、转换组件、脚本组 件等,以及如何使用这些组件完成复杂的数据处 理任务。
2024/2/29
数据抽取、转换和加载(ETL)过程详解:详细讲 解了ETL过程中的各个环节,包括数据抽取、清洗 、转换、加载等,以及如何使用Kettle实现这些 操作。
Kettle性能优化技巧:分享了在使用Kettle过程中 如何优化性能,提高数据处理效率的方法和技巧 。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Kettle 培训手册
一、Etl 介绍
ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于金融IT 来说,经常会遇到大数据量的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少。
Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高
效稳定。
Kettle中有两种脚本文件,transformation和job,transformation完成针
对数据的基础转换,job则完成整个工作流的控制。
二、kettle 部署运行
将kettle2.5.1文件夹拷贝到本地路径,例如D 盘根目录。
双击运行kettle文件夹下的spoon.bat文件,出现kettle欢迎界面:
稍等几秒
选择没有资源库,打开kettle主界面
创建transformation,job
点击页面左上角的创建一个新的transformation,点击保存到本地路
径,例如保存到D:/etltest下,保存文件名为EtltestTrans,kettle默认transformation 文件保存后后缀名为ktr
点击页面左上角的创建一个新的job,点击保存到本地路径,例如保
存到D:/etltest下,保存文件名为EtltestJob,kettle默认job文件保存后后缀名为kjb 创建数据库连接
在transformation页面下,点击左边的【Main Tree】,双击【DB连接】,进行
数据库连接配置。
connection name自命名连接名称
Connection type选择需要连接的数据库
Method of access选择连接类型
Server host name写入数据库服务器的ip地址
Database name写入数据库名
Port number写入端口号
Username写入用户名
Password写入密码
例如如下配置:
点击【test】,如果出现如下提示则说明配置成功
点击关闭,再点击确定保存数据库连接。
一个简单的ktr 例子
目的:
将一个数据库导入到另一个数据库中。
操作步骤:
创建一个transformation,命名为etlTestTrans.ktr,创建数据库连接
ods,点击【Input】,选中【表输入】,拖到主窗口,释放鼠标,双击打开
如下图
点击【Transform】,选中【字段选择】,拖到主窗口,释放鼠标
点击【Output】,选中【表输出】,拖到主窗口,释放鼠标
建立【文本文件输入】和【字段选择】与【字段选择】和【表输出】的连接
双击【表输出】,目标表中写入ZT_TEST_KETTLE,,确定保存
双击【字段选择】,点击获取选择的字段,再点击Edlt Mapping,点击OK 确定,编辑所有字段对应关系,点确定。
点击运行这个转换。
,则将上一个ktr中生成的文本,导入到数据库当中。
一个简单的kjb例子
目的:
将上一个transformation在一个job里面调用执行。
操作步骤:
在etlTestJob页面,点击【Core Objects】,点击【Job entries】,选中【START】拖动到主窗口释放鼠标,再选中【Transformation】,拖动到主窗口释放鼠标,建立【START】和【Transformation】之间的连接。
双击【Transformation 】,在Transformation filename 中写入
E:\kettleWorkspace\etlTestTrans.ktr,确定保存。
点击保存创建好的job。
点击运行这个转换。
待所有任务都显示成功,则为job调用transformation运行成功。
一个增量的例子
增量更新按照数据种类的不同大概可以分成:
1. 只增加,不更新,
2. 只更新,不增加
3. 即增加也更新
4. 有删除,有增加,有更新
下面针对前三种做一个增量的ETL抽取。
过程如下:
根据前面讲解的例子一样,首先建立源表(fina_test1)和目标表(fina_test2),整个设计流程如下:
其中第一个步骤(输入-目标表)的sql 大概如下模式:
select ifnull(max(date_seal),'1900-01-01 00:00:00') from fina_test2
你会注意到第二个步骤和第一个步骤的连接是黄色的线,这是因为第二个table input (输入-源表)步骤把前面一个步骤的输出当作一个参数来用,所有Kettle用黄色的线来表示,第二个table input(输入-源表)的sql 模式大概如下:
SELECT * FROM fina_test1 where date_seal>?
后面的一个问号就是表示它需要接受一个参数,你在这个table input(输入-源表)下面需要指定replace variable in script 选项和执行每一行为选中状态,这样,Kettle 就会循环执行这个sql , 执行的次数为前面参数步骤传入的数据集的大小。
关于第三个步骤执行插入/更新步骤需要特别解释一下,
Kettle执行这个步骤是需要两个数据流对比,其中一个是目标数据库,你在目标表里面指定的,它放在用来查询的关键字左边的表字段里面的,另外一个数据流就是你在前一个步骤传进来的,它放在用来查询的关键字的右边,Kettle首先用你传进来的key 在数据库中查询这些记录,如果没有找到,它就插入一条记录,所有的值都跟你原来的值相同,如果根据这个key找到了这条记录,kettle会比较这两条记录,根据你指定update field 来比较,如果数据完全一样,kettle就什么都不做,如果记录不完全一样,kettle就执行一个update 步骤。
备注:主键被修改得数据认为是新记录
删除的数据由在仓库中需要保留无需考虑
然后点击新建-job,然后job的核心对象job entries拉出组建,进行执行抽取。
创建kettle资料库
资源库是用来保存转换任务的,用户通过图形界面创建的的转换任务可以保存在资源库中。
资源库可以是各种常见的数据库,用户通过用户名/密码来访问资源库中的资源,默认的用户名/密码是admin/admin
资源库并不是必须的,如果没有资源库,用户还可以把转换任务保存在xml 文件中。
如果用户需要创建一个资源库,在资源库的登录窗口(P DI 启动时的第一个窗口)
中有【新建】按钮,点击该按钮弹出新建资源库窗口,
在该窗口中选择一个数据库连接,如果没有事先定义的数据库连接,则还要点击【新建】按钮,来创建一个数据库连接。
选择数据库连接后,要为该资源库命名,作为这个资源库的唯一标志,
最后选择【创建或更新】按钮来创建这个资源库。
资源库可以使多用户共享转换任务,转换任务在资源库中是以文件夹形式分组管理的,用户可以自定义文件夹名称。
如何使用kettle读取包含多行表的Excel文件
如果Excel 工作表的表头只有一行,使用Kettle 读取这样的文件是很容易的.
如果Excel 工作表的表头是多行的, 或者是分级的就需要在内容标签下正确设置列名所占行数才可以读取.
考虑这样的一个工作表
如果想把里面的12列数据都读出来, 就要考虑如何处理多级表头.
步骤设置的详细描述:
步骤一选择文件名,现在文件或目录里到所要添加的excel文档,然后点击,确定后,点击,
步骤二选择要读取的工作表名称和要读取的内容在工作表里的起始位置, 也就是表头开始的行号和列号(这里行号和列号是以0 开始的)
步骤三设置要读取的内容的一些属性, 这里要设置表头的所占行数是4行.
步骤四错误处理, 选择如果有错误终止还是继续, 错误信息保存的文件等.
(图略)
步骤五选择字段, 如果前面的三个步骤(不包括错误处理步骤)都设置正确, 在这个页面选择"获取字段" 字段按钮, 就会获得所有的列名称和数据类型.
这里我们可以看到: 多级表头中各级表头的名称被叠加起来, 形成了唯一的列名.
点击[预览] 按钮可以预览到数据
对于表头跨连续的多行, 但不分级的情况也可以使用上述方式处理.
kettle注释:
1、kettle的控制流可以设置一些简单的时间,并且可以实现隔断天、周、月(三个只
能选一个,不能选那个月的那周那日),但是kettle工具不能关,如果关了,必须重新启动。
2、kettle里面缺少一个编辑的字段的插件,导致字段编辑很麻烦,这只能先sql中进
行手写,这个对写sql的要求很高。
一个kettle字段转换(截取)的例子
大致的流程是:
表输入还是正常的sql查询,没有添加参数。
字段转换(截取)是在进行修改。
具体样式如下:
具体的用法:
transform Functions 里面包括了字符、数字的一些函数方法,这些函数方法可以解决一些字段需要转化的问题。
Input fields和Output fields 里面包括了从表输入进来的字段(数据)。
字段主要转化的操作界面:
注意下:substr(xxx,1,2) 中的1代表是第一位开始,2代表是取2位,在这里面还可以添加if等语句,进行编写。
在字段选择那里面要配置从js过来的字段,点击列映射(前提是已经和表输出连接上),这个字段对应要根据你实际从js倒过来的字段和目标表相对应的字段一一对应。