kettle

kettle
kettle

Kettle 学习

1:资源库的两种形式

Kettle database repository :数据库资源库

Kettle file repository :文件资源库,保存在服务器硬盘中

2:kettle中的转换和作业

Kettle中有两种脚本文件,transformation(.ktr)和job(.kjb)

作业:分为串行执行和并行执行,同一条线上的两个步骤会先执行前面的再执行后面的,每个步骤分为:true和false

3.表对表的例子

字段选择可以对字段筛选、转型、更名等。

4文件到表的例子

5 表到文件的例子

6 JAVASRIPT的例子

变量定义

var jsStr = “hello world”;

Var javastr = new https://www.360docs.net/doc/5c16496283.html,ng.String(“java.String”);

writeToLog(“m”,str);//打印字符串到日志中

Var num = 1;

Var arr = new Array();

Arr.push(“添加元素到数组末尾”);

Var arr1 = new Array(3,”FTPDW”);

If语法

Var bool =true;

If(bool){

Alert(“正确”)}

Else{

Alert(“错误”)}

For语法

Var arr = new Array(1,”2”,”this i s string”);

For(var i =0 ;i

If(arr[i]==2)

{alert(“the value is ”+arr[i])}}

方法定义

Var str = “shj”

Function sayHello(name){

If(name==null)

Return “hello”+str;

Else

Return “hello”+name

}

writeToLog(“m”,sayHello());

异常处理:

Try{

Var value =100/0;

}catch(e){

Throw new https://www.360docs.net/doc/5c16496283.html,ng.Exception(“除数不能为0”+e)}//防止未知错误的产生所采取的措施,异常处理的好处不用绞尽脑汁的考虑各种错误

7.FTP的文件上传和下载

8.合并连接

Job:把一个或多个tansformation按照一定的顺序组合起来,形成一个流程

1 .开始(start)

2 什么时候用job

如果转换需要定时,那么就必须用job,多个transformation 需要组成一个流程时也必须使用job

3.kettle的日志输出

日志输出是检查程序的重要手段,也是程序维护的必不可少的环节

Kettle在日志输出方面有很好的控制功能,kettle日志输出共分为7个等级:没有日志

(nothing)、错误日志(Error)、最小日志(minimal)、基本日志(basic)、详细日志(Detail)、调试日志(Debug)、行级日志(Rowlevel),默认为基本日志。

Nothing 不显示任何输出

Error 仅仅显示错误信息

Minimal 显示最小的日志

Basic 缺省的日志基本

Detail 给出日志输出的细节

Debug 调试目的、调试输出

Rowlevel 打印每一行记录的信息

转换日志输出说明

I 当前步骤生成的记录数(从表输出、文件读入)

O 当前步骤输出的记录数(输出的文件和表)

R 当前步骤从前一步骤读取的记录数

W 当前步骤向后面步骤抛出的记录数

U 当前步骤更新过的记录数

E 当前步骤处理的记录数

常用组件

input

1.从本地文本文件输入数据

2.表输入

3.获取系统信息

Output

1.文本文件输出

2.表输出

3.插入/更新

4.更新

5.删除

LOOKUP

1.数据库查询

2.流查询:将目标表读取到内存,通过查询条件对内存中的数据库进行查询

3.调用数据库存储过程

Tranform

1.字段选择:选择需要的字段,过滤掉不用的字段,也可以做数据库字段对应

2.过滤记录:根据条件对记录进行分类

3.排序记录:将数据根据某条件,进行排序

4.空操作:无操作

5.增加常量:需要增加的常量字段

Scripting

编写javascript 脚本,对数据进行相应的处理

Mapping

映射(子转换):数据映射

Job

Set variables 设置环境变量

Get variables 获取环境变量

Job entries

Start 开始

Dummy 结束

Transformation 引用transformation流程

Job 引用job 流程

Shell 调用shell 脚本

SQL 执行sql语言

ftp 通过ftp 下载

Table exists 检查目标表是否存在返回布尔值

File exists 检查文件是否存在返回布尔值Javascript 执行javascript脚本

Create file创建文件

Delete 删除文件

Wait for file 等待文件文件出现后继续下一个环节File compare 文件比较

KETTLE组件介绍与使用

KETTLE组件介绍与使用 4.1 Kettle使用 Kettle提供了资源库的方式来整合所有的工作,; 1)创建一个新的transformation,点击保存到本地路径,例如保存到D:/etltest下,保存文件名为Trans,kettle默认transformation文件保存后后缀名为ktr; 2)创建一个新的job,点击保存到本地路径,例如保存到D:/etltest下,保存文件名为Job,kettle默认job文件保存后后缀名为kjb; 4.2 组件树介绍 4.2.1Transformation 的主对象树和核心对象分别如下图:

Transformation中的节点介绍如下: Main Tree:菜单列出的是一个transformation中基本的属性,可以通过各个节点来查看。DB连接:显示当前transformation中的数据库连接,每一个transformation的数据库连接都需要单独配置。 Steps:一个transformation中应用到的环节列表 Hops:一个transformation中应用到的节点连接列表 核心对象菜单列出的是transformation中可以调用的环节列表,可以通过鼠标拖动的方式对环节进行添加: Input:输入环节 Output:输出环节 Lookup:查询环节 Transform:转化环节 Joins:连接环节 Scripting:脚本环节 4.2.2 Job 的主对象树和核心对象分别如下图: Main Tree菜单列出的是一个Job中基本的属性,可以通过各个节点来查看。 DB连接:显示当前Job中的数据库连接,每一个Job的数据库连接都需要单独配置。 Job entries/作业项目:一个Job中引用的环节列表 核心对象菜单列出的是Job中可以调用的环节列表,可以通过鼠标拖动的方式对环节进行添加。 每一个环节可以通过鼠标拖动来将环节添加到主窗口中。 并可通过shift+鼠标拖动,实现环节之间的连接。

Kettle开源ETL平台_安装配置及使用说明v1.1

KETTLE 开源ETL软件】【安装配置与使用说明】 2015 年09 月

修订记录

目录 修订记录 (2) 1.安装与配置 (4) 1.1ETL 与K ETTLE概述 (4) 1.2K ETTLE的下载与安装 (7) 1.2.1Windows下安装配置 ............................................ Kettle 8 1.2.2Linux 下安装配置.................................................. Kettle 10 1.2.3Kettle 下安装..................................................... JDBC数据库驱动15 1.2.4下配置资源库连接 (15) 1.2.5Kettle 下 Hadoop Plugin 插件配置 (17) 2.KETTLE组件介绍与使用 (19) 2.1K ETTLE SPOON使用 (19) 2.1.1组件树介绍 (20) 2.1.2使用示例.......................................................... 1 23 2.1.3使用示例.......................................................... 2 37 2.1.4使用Kettle 装载数据到..................................... HDFS 48 2.1.5使用Kettle 装载数据到 (iv) 52 2.1.6使用 Kettle 进行 hadoop的 mapreduce图形化开发 (52) 2.2K ETTLE PAN的使用 (63) 2.3K ETTLE KITECHEN的使用 (64) 2.4C ARTE添加新的ETL执行引擎 (65) 2.5E NCR加密工具 (68)

Kettle开发使用手册

Kettle开发使用手册2017年4月

版本历史说明

1.Kettle介绍 1.1.什么是Kettle Kettle是纯Java编写的、免费开源的ETL工具,主要用于抽取(Extraction)、转换(Transformation)、和装载(Loading)数据。Kettle中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。在这种思想的设计下,Kettle广泛用于不同数据库之间的数据抽取,例如Mysql数据库的数据传到Oracle,Oracle数据库的数据传到Greenplum数据库。1.2.Kettle的安装 Kettle工具是不需要安装的,直接网上下载解压就可以运行了。不过它依赖于Java,需要本地有JDK环境,如果是安装4.2或5.4版本,JDK需要1.5以上的版本,推荐1.6或1.7的JDK。 运行Kettle直接双击里面的批处理文件spoon.bat就行了,如图1.1所示: 图1.1

2.Kettle脚本开发 2.1.建立资源库(repository仓库) Repository仓库是用来存储所有kettle文件的文件系统,由于数据交换平台服务器管理kettle文件也是用Repository仓库,因此我们这边本地的kettle开发环境也是要用到该资源库。建立资源库的方式是工具 --> 资源库- -> 连接资源库,这时候弹出一个窗口,我们点击右上角的“+”号,跟着点击下面的kettle file repository选项,按确定,如图2.1所示: 图2.1 跟着在右上角选择一个目录,建议在kettle路径下新建repository文件夹,再选择这个文件夹作为根目录,名称和描述可以任意写,如图2.2所示: 图2.2 建完后会kettle工具会自动连接到repository资源库,每次打开kettle 也会弹出一个窗口让你先连接到资源库。在连接到资源库的情况下打开文件就是资源库所在目录了,如图2.3所示。注意你在资源库建的目录结构要跟数据交换平台的目录结构一致,这样写好kettle脚本,保存后放的路径能跟交换平台的目录结构一致了。

kettle应用实践(转)

kettle应用实践(转) 今天早上在网上看到了kettle发布了最新的版本,忽然想起最近其实做了不少工作应该是ETL工具的拿手好戏,赶紧下载下来看看,看是否能够在实际的工作中应用起来。 顺便讲一下,为啥看到kettle会两眼发光。 最近写了好几个小程序,用于从一个ftp去获取数据,然后转发至另一个ftp去,或者是从一个数据库获取数据然后保存至本地的数据库中,使用的是jdk中的Timer实现的定时调度,本来也没什么问题,连续运行几个月都不会出错。 可是最近网络不是太好,周期性抽风,ping包时,每5分钟大概 会丢7-8个包,从而导致程序也会假死,过一段时间后就不正常干活了,估计是因为用了数据库连接池的问题,要是每次发起数据库连接可能就不会有问题了,偷懒也不想改了,因为网络最终肯定是会修好的 :-) 但是想试试ETL工具,因为后面还有一些类似的东西要处理,不想写代码了,用别人的轮子感觉比较好,呵呵 首先下载了kettle的最新版,kettle3.1,解压后即可运行,一般的开发人员稍微摸索一下,看看例子简单的转换还是会做的,今天小试了一把,有几个注意点记下来。 1.使用资源库(repository)登录时,默认的用户名和密码是admin/admin 2.当job是存放在资源库(一般资源库都使用数据库)中时,使用 Kitchen.bat执行job时,需使用如下的命令行: Kitchen.bat /rep kettle /user admin /pass admin /job job名 3.当job没有存放在资源库而存放在文件系统时,使用Kitchen.bat执行 job时,需使用如下的命令行: Kitchen.bat /norep /file user-transfer-job.kjb 4.可以使用命令行执行job后,就可以使用windows或linux的任务调度来 定时执行任务了 在一开始使用命令行方式执行job时,总是报如下的错误,琢磨了好长时间总算整明白正确的方式了。 Unexpected error during transformation metadata load No repository defined!

ETL及kettle介绍

目录 1. ETL知识 (3) 1.1. ETL定义 (3) 1.1.1. 定义 (3) 1.1.2. 前提 (3) 1.1.3. 原则 (3) 1.2. 模式及比较 (4) 1.3. ETL过程 (7) 1.3.1. 总流程 (7) 1.3.2. 数据抽取流程 (8) 1.3.3. 数据清洗流程 (8) 1.3.4. 数据转换流程 (10) 1.3.5. 数据加载流程 (11) 1.4. 问题分析 (12) 1.4.1. 字符集问题 (12) 1.4.2. 缓慢变化维处理 (14) 1.4.3. 增量、实时同步的处理 (14) 1.4.4. 断点续传 (15) 1.5. ETL工具 (15) 2. Kettle简介及使用 (16)

2.1. 什么Kettle? (16) 2.2. 下载及安装Kettle (17) 2.3. Kettle简单例子 (19) 2.3.1. 启动Kettle (19) 2.3.2. 创建transformation过程 (20) 2.3.3. 创建job过程 (41) 2.3.4. 命令行运行ktr和kjb (45)

1.ETL知识 1.1.ETL定义 1.1.1.定义 ●定义: 数据的抽取(Extract)、转换(Transform)、装载(Load)的过程。 ●目标: 数据优化。以最小代价(包括对日常操作的影响和对技能的要求) 将针对日常业务操作的数据转化为针对数据仓库而存储的决策支持型数据。 1.1. 2.前提 ●确定ETL范围 通过对目标表信息的收集,确定ETL的范围 ●选择ETL工具 考虑资金 运行的平台、对源和目标的支持程度、可编程的灵活性、对源数据变化的监测、数据处理时间的控制、管理和调度功能、对异常情况的处理 ●确定解决方案 抽取分析、变化数据的捕获、目标表的刷新策略、数据的转换及数据验证 1.1.3.原则 ●应尽量利用数据中转区对运营数据进行预处理。保证数据的安全性、集 成与加载的高效性。

kettle入门例子大全

Kettle 培训技术文档0507 Etl 介绍 ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于金融IT 来说,经常会遇到大数据量的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少。 Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高 效稳定。Kettle中有两种脚本文件,transformation和job,transformation完成针 对数据的基础转换,job则完成整个工作流的控制。 kettle 部署运行 将kettle2.5.1文件夹拷贝到本地路径,例如D 盘根目录。 双击运行kettle文件夹下的spoon.bat文件,出现kettle欢迎界面:

稍等几秒 选择没有资源库,打开kettle主界面

创建transformation,job 点击页面左上角的创建一个新的transformation,点击保存到本地路 径,例如保存到D:/etltest下,保存文件名为EtltestTrans,kettle默认transformation 文件保存后后缀名为ktr 点击页面左上角的创建一个新的job,点击保存到本地路径,例如保 存到D:/etltest下,保存文件名为EtltestJob,kettle默认job文件保存后后缀名为kjb 创建数据库连接 在transformation页面下,点击左边的【Main Tree】,双击【DB连接】,进行 数据库连接配置。

connection name自命名连接名称Connection type选择需要连接的数据库Method of access选择连接类型 Server host name写入数据库服务器的ip地址Database name写入数据库名 Port number写入端口号 Username写入用户名 Password写入密码 例如如下配置:

pentaho介绍

一、Pentaho 整体架构 cc 二、Client tools 1. Report Designer 报表创建工具。如果想创建复杂数据驱动的报表,这是合适工具。 2. Design Studio 这是基于eclipse的工具,你可以使用它来创建手工编辑的报表或分析视图xaction 文件,一般用来对在report designer中无法增加修改的报表进行修改。 3. Aggregation Designer 帮助改善Mondrian cube 性能的图形化工具。 4. Metadata Editor 用来添加定制的元数据层到已经存在的数据源。一般不需要,但是它对应业务用户在创建报表时解析数据库比较容易。 5. Pentaho Data Integration 这是kettle etl工具。 6. Schema Workbench 帮助你创建rolap的图形化工具。这是为分析准备数据的必须步骤。 三、Pentaho BI suit community editon安装 硬件要求: RAM:At least 2GB Hard drive space:At least 1GB Processor:Dual-core AMD64 or EM64T 软件要求: 需要JRE 1.5版本,1.4版本已经不再支持。 修改默认的端口8080,打开\biserver-ce\tomcat\conf目录下的server.xml文件,修改base-urlhttp://localhost:8080/pe ntaho中的端口号。否则administration-console中不能连接到bi server。 四、配置数据库连接 如果要是pentaho bi server能连接到关系数据库,需要将相应数据库driver的jar包拷贝到server/biserver-ce/tomcat/common/lib目录。 为了能在administration console中创建数据库连接并测试,需要将相应的数据库driver 的jar包拷贝到server/administration console/jdbc目录。下面是具体关系数据库连接设置说明。 1、连接oracle数据库。

pentaho-Kettle安装及使用说明(例子)

Kettle安装及使用说明 1.什么Kettle? Kettle是一个开源的ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)项目,项目名很有意思,水壶。按项目负责人Matt的说法:把各种数据放到一个壶里,然后呢,以一种你希望的格式流出。Kettle包括三大块: Spoon——转换/工作(transform/job)设计工具(GUI方式) Kitchen——工作(job)执行器(命令行方式) Span——转换(trasform)执行器(命令行方式) Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高 效稳定。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。 2.Kettle简单例子 2.1下载及安装Kettle 下载地址:https://www.360docs.net/doc/5c16496283.html,/projects/pentaho/files 现在最新的版本是 3.6,为了统一版本,建议下载 3.2,即下载这个文件pdi-ce-3.2.0-stable.zip。 解压下载下来的文件,把它放在D:\下面。在D:\data-integration文件夹里,我们就可以看到Kettle的启动文件Kettle.exe或Spoon.bat。 2.2 启动Kettle 点击D:\data-integration\下面的Kettle.exe或Spoon.bat,过一会儿,就会出现Kettle的欢迎界面:

稍等几秒,就会出现Kettle的主界面: 2.3 创建transformation过程 a.配置数据环境 在做这个例子之前,我们需要先配置一下数据源,这个例子中,我们用到了三个数据库,分别是:Oracle、MySql、SQLServer,以及一个文本文件。而且都放置在不同的主机上。 Oralce:ip地址为192.168.1.103,Oracle的实例名为scgtoa,创建语句为:create table userInfo( id int primary key,

自己总结的Kettle使用方法和成果

KETTLE使用自己总结的Kettle使用方法和成果说明 简介 Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。 Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。 Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。 Kettle可以在https://www.360docs.net/doc/5c16496283.html,/网站下载到。 注:ETL,是英文Extract-Transform-Load 的缩写,用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。ETL 一词较常用在数据仓库,但其对象并不限于数据仓库。 下载和安装 首先,需要下载开源免费的pdi-ce软件压缩包,当前最新版本为5.20.0。 下载网址:https://www.360docs.net/doc/5c16496283.html,/projects/pentaho/files/Data%20Integration/然后,解压下载的软件压缩包:pdi-ce-5.2.0.0-209.zip,解压后会在当前目录下上传一个目录,名为data-integration。 由于Kettle是使用Java开发的,所以系统环境需要安装并且配置好JDK。 ?Kettle可以在https://www.360docs.net/doc/5c16496283.html,/网站下载 ? 下载kettle压缩包,因kettle为绿色软件,解压缩到任意本地路径即可。运行Kettle 进入到Kettle目录,如果Kettle部署在windows环境下,双击运行spoon.bat 或Kettle.exe文件。Linux用户需要运行spoon.sh文件,进入到Shell提示行窗口,进入到解压目录中执行下面的命令: # chmod +x spoon.sh # nohup ./spoon.sh &后台运行脚本 这样就可以打开配置Kettle脚本的UI界面。

Kettle使用手册

Kettle培训手册 Etl介绍 ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于金融IT来说,经常会遇到大数据量的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少。 Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高效稳定。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。 kettle部署运行 将kettle2.5.1文件夹拷贝到本地路径,例如D盘根目录。 双击运行kettle文件夹下的spoon.bat文件,出现kettle欢迎界面:

稍等几秒 选择没有资源库,打开kettle主界面

创建transformation,job 点击页面左上角的解并到本地路径,例如保存到D:/etltest下,保存文件名为EtltestTrans,kettle默认transformation 文件保存后后缀名为ktr 点击页面左上角的解并到本地路径,例如保存到D:/etltest下,保存文件名为EtltestJob,kettle默认job文件保存后后缀名为kjb 创建数据库连接

在transformation页面下,点击左边的【Main Tree】,双击【DB连接】,进行数据库连接配置。 Connection name自命名连接名称 Connection type选择需要连接的数据库 Method of access选择连接类型 Server host name写入数据库服务器的ip地址 Database name写入数据库名 Port number写入端口号 Username写入用户名 Password写入密码 例如如下配置:

Kettle命令行使用说明

Kettle命令行使用说明 1.KETTLE简介 说到ETL开源项目,Kettle当属翘首,项目名称很有意思,水壶。按项目负责人Matt 的说法:把各种数据放到一个壶里,然后呢,以一种你希望的格式流出。呵呵,外国人都很有联想力。 看了提供的文档,然后对发布程序的简单试用后,可以很清楚得看到Kettle的四大块: 1)Chef——工作(job)设计工具(GUI方式) 2)Kitchen——工作(job)执行器(命令行方式) 3)Spoon——转换(transform)设计工具(GUI方式) 4)Span——转换(trasform)执行器(命令行方式) 1.1.Chef——工作(job)设计器 这是一个GUI工具,操作方式主要通过拖拖拉拉,勿庸多言,一看就会。 何谓工作?多个作业项,按特定的工作流串联起来,开成一项工作。正如:我的工作是软件开发。我的作业项是:设计、编码、测试!先设计,如果成功,则编码,否则继续设计,编码完成则开始设计,周而复始,作业完成。 1.1.1.Chef中的作业项包括: 1)转换:指定更细的转换任务,通过Spoon生成。通过Field来输入参数; 2)SQL:sql语句执行; 3)FTP:下载ftp文件; 4)邮件:发送邮件; 5)检查表是否存在; 6)检查文件是否存在; 7)执行shell脚本:如dos命令。 8)批处理:(注意:windows批处理不能有输出到控制台)。

9)Job包:作为嵌套作业使用。 10)JavaScript执行:这个比较有意思,我看了一下源码,如果你有自已的Script引擎, 可以很方便的替换成自定义Script,来扩充其功能; 11)SFTP:安全的Ftp协议传输; 12)HTTP方式的上/下传。 1.1. 2.工作流 如上文所述,工作流是作业项的连接方式。分为三种:无条件,成功,失败,为了方便工作流使用,KETTLE提供了几个辅助结点单元(也可将其作为简单的作业项):Start单元:任务必须由此开始。设计作业时,以此为起点。 OK单元:可以编制做为中间任务单元,且进行脚本编制,用来控制流程。 ERROR单元:用途同上。 DUMMY单元:什么都不做,主要是用来支持多分支的情况,文档中有例子。 1.1.3.存储方式 支持XML存储,或存储到指定数据库中。 一些默认的配置(如数据库存储位置……),在系统的用户目录下,单独建立了一个.Kettle 目录,用来保存用户的这些设置。 1.1.4.LogView 可查看执行日志。 1.2.Kitchen——作业执行器 是一个作业执行引擎,用来执行作业。这是一个命令行执行工具,没啥可讲的,就把它的参数说明列一下。 1)-rep:Repositoryname任务包所在存储名 2)-user:Repositoryusername执行人 3)-pass:Repositorypassword执行人密码

ETL及kettle介绍知识讲解

E T L及k e t t l e介绍

目录 1. ETL知识 (3) 1.1. ETL定义 (3) 1.1.1. 定义 (3) 1.1.2. 前提 (3) 1.1.3. 原则 (3) 1.2. 模式及比较 (4) 1.3. ETL过程 (7) 1.3.1. 总流程 (7) 1.3.2. 数据抽取流程 (8) 1.3.3. 数据清洗流程 (8) 1.3.4. 数据转换流程 (10) 1.3.5. 数据加载流程 (11) 1.4. 问题分析 (12) 1.4.1. 字符集问题 (12) 1.4.2. 缓慢变化维处理 (13) 1.4.3. 增量、实时同步的处理 (13) 1.4.4. 断点续传 (14) 1.5. ETL工具 (14) 2. Kettle简介及使用 (15) 2.1. 什么Kettle? (15) 2.2. 下载及安装Kettle (15) 2.3. Kettle简单例子 (17) 2.3.1. 启动Kettle (17) 2.3.2. 创建transformation过程 (18) 2.3.3. 创建job过程 (38) 2.3.4. 命令行运行ktr和kjb (42)

1.ETL知识 1.1.ETL定义 1.1.1.定义 ●定义: 数据的抽取(Extract)、转换(Transform)、装载(Load)的过程。 ●目标: 数据优化。以最小代价(包括对日常操作的影响和对技能的要求) 将针对日常业务操作的数据转化为针对数据仓库而存储的决策支持型数据。 1.1. 2.前提 ●确定ETL范围 通过对目标表信息的收集,确定ETL的范围 ●选择ETL工具 考虑资金 运行的平台、对源和目标的支持程度、可编程的灵活性、对源数据变化的监测、数据处理时间的控制、管理和调度功能、对异常情况的处理 ●确定解决方案 抽取分析、变化数据的捕获、目标表的刷新策略、数据的转换及数据验证 1.1.3.原则 ●应尽量利用数据中转区对运营数据进行预处理。保证数据的安全性、集 成与加载的高效性。 ●ETL的过程应是主动“拉取”,而不是从内部“推送”,其可控性将大 为增强。 ●流程化的配置管理和标准协议 ●数据质量的保证 正确性(Accuracy):数据是否正确体现在现实或可证实的来源 完整性(Integrity):数据之间的参照完整性是否存在或一致

ETL工具kettl应用说明

Kettle工具在实际中的应用说明 一:资源库的设置 Kettle提供了两种资源库的选择方式:数据库存放、本地文件存放。 数据库 该方式是通过数据库连接直接在数据库里面创建kettle表,表里面记录着你所做的任何保存过的记录以及转换和任务。此方法是远程存放的方式,具有可多人共享一个资源库的优势,但是也存在资源库不稳定的缺点。 以下就数据库资源库具体怎么实现做一下介绍: 第一: 在tools选项下面有 在资源库选项里面有连接资源库选项,点击之后会出现如下界面:

刚开始的时候是没用任何连接的,需要根据自己的需要选择创建。 笔:修改资源库连接 加:添加新的资源库 叉:删除选中资源库 点那个加号图标就可以进入到新建选项页面: 在中间的显示栏中:第一行代表着写入到数据库的资源库、第二行代表着保存到本地的资源库。 点击第一行进入如下界面:

点击新建按钮将会新建数据库连接,如果已经有你需要的数据库连接也可以选择你需要的。 上面就是新建数据库页面,根据你的需要选择具体的数据库连接方式,填写好完成之后点击一下测试按钮,就可以知道数据库连接是否成功。 到这里,资源库的连接已经做了一半了。接下来介绍另一半要做的事情。

回到这个页面,填写唯一的ID、名称,然后点击创建或更新按钮,之后会出现一些SQL语句,执行这些语句,如果成功的话就创建成功了,如果失败则要检查一下数据库。最后点击确定按钮就成功了。 这个时候就可以连接资源库了。 选择你创建的资源库,admin用户的默认密码是admin ,点击OK就行了。

本地 接下来简单介绍一下本地资源库,其实是很简单的。 选择第二行。将会看到如下页面: 这个就是本地的页面,比数据库简单多了,选择一下存放路径,给它一个ID号和名称,点击OK就可以了。 资源库建好之后就会进入到主页面了: 这个就是主页面了,表面上是空空如也的。 关于资源库的设置就就讲到这里了,关于更多的介绍请参照官方说明文档!

KETTLE+JAVA+API+开发实战记录

前言: 为什么要用Kettle和KETTLE JA V A API? Kettle是什么?kettle:是一个开源ETL工具。kettle提供了基于java的图形化界面,使用很方便,kettle的ETL工具集合也比较多,常用的ETL工具都包含了。 为什么使用KETTLE JA V A API:就像kettle文档所说:KETTLE JA V A API :Program your own Kettle transformation,kettle提供了基于JA V A的脚步编写功能,可以灵活地自定义ETL过程,使自行定制、批量处理等成为可能,这才是一个程序员需要做的工作,而不仅是象使用word一样操作kettle用户界面。 KETTLE JA V A API 实战操作记录: 一、搭建环境:到http://www.kettle.be网站下载kettle的源码包,加压缩,例如解压缩到d:\kettle目录 二、打开eclipse,新建一个项目,要使用jdk1.5.0,因为kettle的要使用System.getenv(),只有在jdk1.5.0才被支持。提起getenv(),好像有一段几起几落的记录,曾一度被抛弃,现在又被jdk1.5支持了。 三、建一个class :TransBuilder.java,可以把d:\kettle\ extra\TransBuilder.java 的内容原样拷贝到你的TransBuilder.java里。 四、根据需要编辑源码。并需要对原程序进行如下修改,在头部增加: import org.eclipse.swt.dnd.Transfer; //这个包被遗漏了,原始位置kettle根目录\libswt\win32\swt.jar //add by chq(https://www.360docs.net/doc/5c16496283.html,)on 2006.07.20 (后来发现,不必加这个引用,因为编译时不需要) 五、编译准备,在eclipse中增加jar包,主要包括(主要依据extra\TransBuilder.bat): \lib\kettle.jar \libext\CacheDB.jar \libext\SQLBaseJDBC.jar \libext\activation.jar \libext\db2jcc.jar \libext\db2jcc_license_c.jar \libext\edtftpj-1.4.5.jar \libext\firebirdsql-full.jar \libext\firebirdsql.jar \libext\gis-shape.jar \libext\hsqldb.jar

kettle使用手册

1打开程序,点击 spoon.bat 其实对于简单的数据库数据的抽取,基本只需要转换(.ktr格式)和作业(.kjb格式)这两种东西。下面就是建立一个转换的步骤: a 点击文件-->新建-->转换。 b 在左侧的树状列表中选“主对象树”,新建DB连接(参照第4点)。 c 在核心对象-->输入这个地方拖出一个表输入,在“输出”目录下拖出“表输出”,按住shift,从一个对象拖到另一个对象可进行连线。 2基本作业由开始,转换,成功3步骤组成。步骤之间使用shift+左键连线。 2.1‘1’代表无条件执行; 2.2‘2’代表上一步执行完成后,再执行下一步; 2.3‘3’代表不执行,左击连接线使其生效(绿色)或失效(灰色)。

3打开具体步骤中的转换流程,点击‘Transformation’跳转至相应具体转换流程, 编辑此转换具体路径,双击转换,弹出窗口,‘1’为相对路径,点击‘2’选择具体Visit.ktr 转换,为绝对路径。

4建立数据库连接,输入相应信息测试,成功即可 图4 5转换具体设置,如图4,‘表输出’至‘文本文件输出’流程跳接线为错误处理步骤,当输出格式不能满足表输出的目的表结构类型时,将会将记录输出到‘文本文件输出’

中的记录中。 5.1双击‘表输入’,输入相应的SSQL语句,选择配置数据库连接,或新增,预览查询 生成的结果(如果数据库配置中使用变量获取,此处预览生成错误)。 5.2双击‘表输出’,选择数据库连接,‘浏览’选择相应目标表,(此处‘使用批量插 入’勾选去除,目的是在错误处理步骤中无法使用批量处理,可能是插件兼容问 题) 6表输出插件定义 a) Target Schema:目标模式。要写数据的表的Schema的名称。允许表明中包含“。”对数据源来 说是很重要的 b) 目标表:要写数据的表名。

kettle公司内部培训手册

Kettle 培训手册 一、Etl 介绍 ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于金融IT 来说,经常会遇到大数据量的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少。 Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高 效稳定。Kettle中有两种脚本文件,transformation和job,transformation完成针 对数据的基础转换,job则完成整个工作流的控制。 二、kettle 部署运行 将kettle2.5.1文件夹拷贝到本地路径,例如D 盘根目录。 双击运行kettle文件夹下的spoon.bat文件,出现kettle欢迎界面: 稍等几秒

选择没有资源库,打开kettle主界面 创建transformation,job

点击页面左上角的创建一个新的transformation,点击保存到本地路 径,例如保存到D:/etltest下,保存文件名为EtltestTrans,kettle默认transformation 文件保存后后缀名为ktr 点击页面左上角的创建一个新的job,点击保存到本地路径,例如保 存到D:/etltest下,保存文件名为EtltestJob,kettle默认job文件保存后后缀名为kjb 创建数据库连接 在transformation页面下,点击左边的【Main Tree】,双击【DB连接】,进行 数据库连接配置。 connection name自命名连接名称 Connection type选择需要连接的数据库 Method of access选择连接类型 Server host name写入数据库服务器的ip地址 Database name写入数据库名 Port number写入端口号 Username写入用户名 Password写入密码 例如如下配置:

Pentaho ETL工具Kettle转换实现原理

关于Pentaho ETL工具Kettle转换实现原理的研究·ETL和Kettle简介 ETL即数据抽取(Extract)、转换(Transform)、装载(Load)的过程。它是构建数据仓库的重要环节。数据仓库是面向主题的、集成的、稳定的且随时间不断变化的数据集合,用以支持经营管理中的决策制定过程。 Kettle 是”Kettle E.T.T.L. Envirnonment”只取首字母的缩写,这意味着它被设计用来帮助你实现你的ETTL 需要:抽取、转换、装入和加载数据;翻译成中文名称应该叫水壶,名字的起源正如该项目的主程序员MATT 在一个论坛里说的哪样:希望把各种数据放到一个壶里然后以一种指定的格式流出。 Kettle的四大块: Chef——工作(job)设计工具(GUI方式) Kitchen——工作(job)执行器(命令行方式) Spoon——转换(transform)设计工具(GUI方式) Pan——转换(trasform)执行器(命令行方式) Spoon 是一个图形用户界面,它允许你运行转换或者任务,其中转换是用Pan 工具来运行,任务是用Kitchen 来运行。Pan 是一个数据转换引擎,它可以执行很多功能,例如:从不同的数据源读取、操作和写入数据。Kitchen 是一个可以运行利用XML 或数据资源库描述的任务。通常任务是在规定的时间间隔内用批处理的模式自动运行。下面将具体介绍Pan,和Kitchen在ETL中的实现过程。 ·数据转换原理及具体实现过程 大致步骤如下:

转换的过程中(在windows环境下),首先会调用Pan.bat,这一步主要是做一些初始化,连接验证,环境设置,检查之类;然后在Pan的最后一步会调用launcher.jar包,这个包用于启动JDBC驱动,并向JDBC传入相关连接信息和参数,然后开始传数据,最后是完成数据传输,关闭相关协议,写入日志。 首先来看Kitchen的实现,Kitchen在一个job中一般包含以下几个步骤: 转换:指定更细的转换任务,通过Spoon生成。通过Field来输入参数; SQL:sql语句执行; FTP:下载ftp文件; 邮件:发送邮件; 检查表是否存在; 检查文件是否存在; 执行shell脚本:如dos命令。 批处理:(注意:windows批处理不能有输出到控制台)。 Job包:作为嵌套作业使用。 SFTP:安全的Ftp协议传输; HTTP方式的上/下传。 以下是一个简单的ETL过程:

Kettle的使用说明

KETTLE使用说明 简介 Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。 Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。 Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。 Kettle可以在https://www.360docs.net/doc/5c16496283.html,/网站下载到。 注:ETL,是英文Extract-Transform-Load 的缩写,用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。ETL 一词较常用在数据仓库,但其对象并不限于数据仓库。 下载和安装 首先,需要下载开源免费的pdi-ce软件压缩包,当前最新版本为5.20.0。 下载网址:https://www.360docs.net/doc/5c16496283.html,/projects/pentaho/files/Data%20Integration/然后,解压下载的软件压缩包:pdi-ce-5.2.0.0-209.zip,解压后会在当前目录下上传一个目录,名为data-integration。 由于Kettle是使用Java开发的,所以系统环境需要安装并且配置好JDK。 ?Kettle可以在https://www.360docs.net/doc/5c16496283.html,/网站下载 ? 下载kettle压缩包,因kettle为绿色软件,解压缩到任意本地路径即可。运行Kettle 进入到Kettle目录,如果Kettle部署在windows环境下,双击运行spoon.bat 或Kettle.exe文件。Linux用户需要运行spoon.sh文件,进入到Shell提示行窗口,进入到解压目录中执行下面的命令: # chmod +x spoon.sh # nohup ./spoon.sh & 后台运行脚本 这样就可以打开配置Kettle脚本的UI界面。

英语词根词缀大全

indeed ad. 真正地;确实,实在 deed n. 行为,行动;功绩;契约 相关单词act vi. 行为,做;起作用 n. 行为 ag,act=to act(行动) agency n. 代理;代理处 agent n. 代理人,代理商 agony n. 极度痛苦 action n. 行动;作用 active a. 活跃的,积极的;在活动中的 activity n. 活动,活跃;行动 actor n. 男演员 actress n. 女演员 actual a. 实际的,事实的 actually ad. 实际上;竟然 react vi. 起作用,反应;反对,起反作用;起化学反应 reaction n. (to)反应;反作用 exact a. 确切的,精确的 exactly ad. 确切地;恰恰正是,确实 interaction n. 相互作用,相互影响 inter=between,among interfere vi. 干涉,介入;阻碍,干扰 interference n. 干涉,介入;阻碍,干扰 interior a. 内部的;内地的,国内的 n. 内部;内地 intermediate a. 中间的;中级的 n. 中间体,媒介物 interpret vt. 解释,说明 vi. 口译,翻译 interpretation n. 解释,口译 interpreter n. 译员,口译者 interview n./v. 接见,会见;面谈,面试 interval n. 间隔,间距;(幕间)休息 internal a. 内的,内部的;国内的,内政的 相关单词 external a. 外部的,外面的 ex-=fully,out exterior a. 外部的,外面的 n. 外部 explain v. 解释,说明 example n. 例子;榜样,模范 形近单词 sample vt. 抽样,取样 词根词缀组2 block n.街区;木块;障碍物; vt.堵塞,拦阻 barrier n.屏障;障碍 bar=bar(横木) embarrass vt.使窘迫,使为难 bar n.酒吧间,售酒的柜台;条,杆;栅,栏; vt.阻止,阻拦 barrel n.桶,筒 与“容器”相关的单词

Kettle5.x使用步骤带案例超详细版精编版

Kettle使用方法介绍 1、Kettle概念 Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix 上运行,绿色无需安装,数据抽取高效稳定。 Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。 Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。 Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。 2、下载和部署 下载kettle压缩包,因kettle为绿色软件,解压缩到任意本地路径即可 3、Kettle环境配置 1.安装JDK(略) 2.测试JDK安装成功(略) 3.运行Kettle Windows下找到$KETTLE_HOME/spoon.dat,双击运行 欢迎界面如下图所示:

4、KETTLE组件介绍与使用 4.1 Kettle使用 Kettle提供了资源库的方式来整合所有的工作,; 1)创建一个新的transformation,点击保存到本地路径,例如保存到D:/etltest下,保存文件名为Trans,kettle默认transformation文件保存后后缀名为ktr; 2)创建一个新的job,点击保存到本地路径,例如保存到D:/etltest下,保存文件名为Job,kettle默认job文件保存后后缀名为kjb; 4.2 组件树介绍 4.2.1Transformation 的主对象树和核心对象分别如下图:

相关文档
最新文档