大数据预处理技术 第2章 Kettle工具的初步使用

合集下载

kettle新手教程

kettle新手教程

kettle新⼿教程1、kettle介绍kettle是⼀个ETL(Extract, Transform and Load抽取、转换、加载)⼯具,ETL⼯具在数据仓库项⽬使⽤很频繁,kettle也能够应⽤在下⾯⼀些场景:在不同应⽤或数据库之间整合数据把数据库中的数据导出到⽂本⽂件⼤批量数据装加载数据库数据清洗集成应⽤相关项⽬是个使⽤kettle使⽤很easy,通过图形界⾯设计实现做什么业务,⽆需写代码去实现。

因此,kettle是以⾯向元数据来设计。

kettle⽀持⾮常多种输⼊和输出格式。

包含⽂本⽂件。

数据表。

以及商业和免费的数据库引擎。

另外,kettle强⼤的转换功能让您⾮常⽅便操纵数据。

以下展⽰⼀个简单的“Hello World”演⽰样例,本教程将告诉你怎样轻松⽤kettle⼯作。

让你有基础可以学习更复杂的转换功能。

安装kettlekettle设计⼯具spoon介绍hello world演⽰样例⼜⼀次设计helloworld演⽰样例2、⼊门演⽰样例学习2.1、安装kettle⾸先通过官⽹下载kettle;需求环境:kettle须要jre1.5及以上版本号。

能够通过oracle官⽹免费下载;kettle安装kettle⽆需安装。

直接解压zip⽂件到指定的⽬录。

在类unix操作系统上。

须要运⾏下⾯脚本:cd Kettlechmod +x *.sh执⾏kettle中的⼀个图形⽤户界⾯叫spoon,spoon能够设计转换和作业,也能够执⾏转换和作业,以下的内容将继续介绍他们。

2.2、kettle设计⼯具spoon介绍Spoon是⼀个图形设计⼯具,⽤来设计和測试数据交换处理流程,也能够通过命令⾏(终端)运⾏处理流程。

资源库和⽂件在spoon中设计作业和转换。

kettle提供两种⽅式存储:资源库和⽂件;假设你选择资源库,spoon第⼀次启动时须要创建资源库。

选择⽂件⽅法,作业保存⽂件是的扩展名是KJB。

转换⽂件的扩展名为KTR,为了简化学习,以下教程採⽤后者。

kettle使用手册

kettle使用手册

1打开程序,点击spoon.bat其实对于简单的数据库数据的抽取,基本只需要转换(.ktr格式)和作业(.kjb格式)这两种东西。

下面就是建立一个转换的步骤:a 点击文件-->新建-->转换。

b 在左侧的树状列表中选“主对象树”,新建DB连接(参照第4点)。

c 在核心对象-->输入这个地方拖出一个表输入,在“输出”目录下拖出“表输出”,按住shift,从一个对象拖到另一个对象可进行连线。

2基本作业由开始,转换,成功3步骤组成。

步骤之间使用shift+左键连线。

2.1‘1’代表无条件执行;2.2‘2’代表上一步执行完成后,再执行下一步;2.3‘3’代表不执行,左击连接线使其生效(绿色)或失效(灰色)。

3打开具体步骤中的转换流程,点击‘Transformation’跳转至相应具体转换流程,编辑此转换具体路径,双击转换,弹出窗口,‘1’为相对路径,点击‘2’选择具体Visit.ktr 转换,为绝对路径。

4建立数据库连接,输入相应信息测试,成功即可图45转换具体设置,如图4,‘表输出’至‘文本文件输出’流程跳接线为错误处理步骤,当输出格式不能满足表输出的目的表结构类型时,将会将记录输出到‘文本文件输出’中的记录中。

5.1双击‘表输入’,输入相应的SSQL语句,选择配置数据库连接,或新增,预览查询生成的结果(如果数据库配置中使用变量获取,此处预览生成错误)。

5.2双击‘表输出’,选择数据库连接,‘浏览’选择相应目标表,(此处‘使用批量插入’勾选去除,目的是在错误处理步骤中无法使用批量处理,可能是插件兼容问题)6表输出插件定义a) Target Schema:目标模式。

要写数据的表的Schema的名称。

允许表明中包含“。

”对数据源来说是很重要的b) 目标表:要写数据的表名。

c) 提交记录数量:在数据表中用事物插入行。

如果n比0大,每n行提交一次连接。

否则不使用事务,速度会慢一些。

d) 裁剪表:在第一行数据插入之前裁剪表。

kettle的使用方法

kettle的使用方法

kettle的使用方法Kettle是一种用于数据集成和转换的开源工具,也被称为Pentaho Data Integrator(PDI)。

它提供了一套功能强大的工具,可以帮助用户从不同的数据源中提取、转换和加载数据。

本文将介绍Kettle 的使用方法,帮助读者快速上手使用该工具。

一、安装Kettle您需要从Kettle官方网站下载最新版本的安装包。

安装包通常是一个压缩文件,您可以将其解压到您选择的目录中。

然后,通过运行解压后的文件夹中的启动脚本来启动Kettle。

二、连接数据源在使用Kettle之前,您需要先连接到您的数据源。

Kettle支持多种类型的数据源,包括关系型数据库、文件、Web服务等。

您可以使用Kettle提供的连接器来连接到您的数据源,或者根据需要自定义连接器。

连接成功后,您可以在Kettle中查看和操作您的数据。

三、创建转换在Kettle中,数据转换是通过创建转换作业来实现的。

转换作业是由一系列的转换步骤组成的,每个步骤都执行特定的数据操作。

您可以使用Kettle提供的各种转换步骤,如数据提取、数据过滤、数据转换、数据加载等,来构建您的转换作业。

四、配置转换步骤在创建转换作业后,您需要配置每个转换步骤的参数和选项。

例如,在数据提取步骤中,您需要指定要提取的数据源和查询条件。

在数据转换步骤中,您可以定义数据的转换逻辑,如数据清洗、数据合并、数据计算等。

在数据加载步骤中,您需要指定目标数据表和加载方式。

五、运行转换作业完成转换步骤的配置后,您可以运行整个转换作业,将数据从源数据源提取、转换和加载到目标数据源。

在运行转换作业之前,您可以选择性地预览转换结果,以确保数据操作的准确性和一致性。

Kettle还提供了调试功能,可以帮助您快速定位和解决转换作业中的问题。

六、调度转换作业除了手动运行转换作业之外,Kettle还支持将转换作业安排为定期执行的任务。

您可以使用Kettle提供的调度功能,根据您的需求设置转换作业的执行时间和频率。

kettle使用方法

kettle使用方法

kettle使用方法一、什么是kettle?Kettle是一款功能强大的开源ETL (Extract, Transform, Load) 工具,用于处理各种数据的抽取、转换和加载。

它提供了可视化的界面,使用户能够轻松地创建和管理数据流程。

二、kettle的安装和配置1.下载kettle安装包,并解压到指定目录。

2.进入kettle目录,在终端中运行spoon.sh (Linux/Mac) 或spoon.bat(Windows) 启动kettle。

3.在弹出的窗口中,点击”File”菜单,选择”Preferences”打开配置页面。

4.在配置页面中,设置kettle的选项,如数据连接、插件路径等。

三、kettle中的数据流程1.创建一个新的数据流程:点击工具栏上的”新建”按钮,在弹出的对话框中选择”Transformation”创建一个新的转换,或选择”Job”创建一个作业。

2.在数据流程中,可以拖拽各种组件来构建转换或作业,如数据输入、数据输出、转换、聚合等。

3.连接组件:使用鼠标拖拽连线工具,连接各个组件,定义数据的流向。

4.配置组件:双击组件,如数据输入组件,可以配置数据源的连接信息、查询语句等。

5.定义转换规则:在转换组件中,根据需要配置字段映射、条件过滤、转换函数等。

6.运行数据流程:点击工具栏上的”运行”按钮,运行数据流程并查看结果。

四、kettle的常用组件和功能1.数据输入:用于读取数据源的组件,支持多种数据源,如数据库、文件、Web服务等。

2.数据输出:用于将数据写入目标的组件,支持多种输出格式,如数据库表、文件、Web服务等。

3.转换组件:用于对数据进行转换的组件,如字段映射、类型转换、条件过滤、聚合等。

4.调度和监控:kettle提供了作业调度和监控的功能,可以定时执行作业、生成报表等。

5.插件扩展:kettle支持插件扩展,用户可以根据需要开发自己的插件,用于处理特定的数据源或转换规则。

Kettle的使用说明

Kettle的使用说明

KETTLE使用说明简介Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。

Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。

Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。

Kettle可以在/网站下载到。

注:ETL,是英文Extract-Transform-Load 的缩写,用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。

ETL 一词较常用在数据仓库,但其对象并不限于数据仓库。

下载和安装首先,需要下载开源免费的pdi-ce软件压缩包,当前最新版本为5.20.0。

下载网址:/projects/pentaho/files/Data%20Integration/然后,解压下载的软件压缩包:pdi-ce-5.2.0.0-209.zip,解压后会在当前目录下上传一个目录,名为data-integration。

由于Kettle是使用Java开发的,所以系统环境需要安装并且配置好JDK。

žKettle可以在/网站下载ž 下载kettle压缩包,因kettle为绿色软件,解压缩到任意本地路径即可。

运行Kettle进入到Kettle目录,如果Kettle部署在windows环境下,双击运行spoon.bat 或Kettle.exe文件。

Linux用户需要运行spoon.sh文件,进入到Shell提示行窗口,进入到解压目录中执行下面的命令:# chmod +x spoon.sh# nohup ./spoon.sh & 后台运行脚本这样就可以打开配置Kettle脚本的UI界面。

Kettle入门教程

Kettle入门教程

Kettle入门教程最近做的项目用到了ETL工具Kettle,这个工具相当好用,可以将各种类型数据作为数据流,经过处理后再生成各种类型的数据。

正如其名“水壶”,将各个地方的水倒进水壶里,再用水壶倒入不同的容器。

不过一来初学乍用,二来对此任务不是很感兴趣,研究的不是很深入,可能是以一种不科学的方法使用的,但观教程,常用的内容似乎也涉及到了,并且Y大说过,要善于总结,于是有了这篇,作为入门说明吧。

一、下载与安装官网地址大概700~800M,下载好解压缩即可。

当然,要求JDK环境(似乎有自带)二、任务(.kjb)与转换(.ktr)Kettle工具的主界面-作业简单地说,一个转换就是一个ETL的过程,而作业则是多个转换、作业的集合,在作业中可以对转换或作业进行调度、定时任务等(据说定时不好用,可以通过其他方式,比如linux的crontab命令,不过实际使用中,这个指令也不大好使,有待查看日志探明原因。

)我在实际过程中,写的流程不是很复杂,当数据抽取需要多步骤时,分成多个转换,在集合到一个作业里顺序摆放,然后执行即可,不放到作业里的话,要对多个转换依次执行命令,比较麻烦。

三、煎锅、勺子、厨房是不是莫名其妙,以为走错了片场?然而这是几个重要的工具名称。

1)勺子-Spoon.bat/spoon.sh图形界面工具,就是启动上图主界面的命令行。

这个界面应该是JavaFX做的。

这个用来在有图形界面的系统下写任务(如何通过命令行写我不知道,并且我怀疑没有这个可能……),如Windows,写好后,也可以通过该工具进行执行,调试。

这个工具最大的问题是启动很慢,并且如果修改了数据库连接的配置,只有重新启动才能生效了。

这时候就体现了命令行的优越性。

转换窗口简单的转换示例左边有很多控件可供选择,上图展示了我在使用中经常用到的几个控件。

•执行SQL脚本:可以直接在控件里写SQL,并指定执行的库。

•表输入:通过查询数据库的表来获取输入数据流。

kettle工具用法

kettle工具用法

kettle工具用法关于"kettle工具用法"的1500-2000字文章:Kettle工具是一款功能强大的开源数据集成工具,旨在简化和自动化数据导入、转换和输出的过程。

它拥有直观而强大的用户界面,可让用户通过图形化界面创建和管理数据管道。

本文将逐步回答Kettle工具的用法,涵盖安装、界面介绍、数据导入和转换、数据输出等方面。

一、安装Kettle工具首先,访问Kettle官方网站并下载最新版本的Kettle工具。

下载完成后,运行安装程序,并按照提示进行安装。

安装完成后,打开Kettle工具。

二、界面介绍打开Kettle工具后,你将看到一个主界面,其中包含了工具栏、转换面板和作业面板等。

工具栏上有各种按钮,用于打开、保存和运行数据转换和作业。

转换面板用于创建、编辑和管理数据转换,而作业面板用于创建和管理作业。

你可以通过拖放组件和连接器来建立转换和作业的流程。

三、数据导入数据导入是Kettle工具的一个重要功能,它允许将数据从各种来源导入到目标数据库或文件中。

在Kettle中,你可以通过以下步骤导入数据:1. 创建新的数据转换:在转换面板上右键单击,选择“新建转换”来创建一个新的数据转换。

2. 添加数据输入组件:在工具栏上选择“输入”,然后拖放数据源到转换面板上。

根据需要选择适当的输入类型,如CSV文件、数据库、Excel文件等。

3. 配置数据输入组件:选择添加到转换面板的数据输入组件,右键单击并选择“编辑”。

在配置窗口中,设置数据源的连接信息、查询语句和字段映射等。

4. 添加目标组件:与添加数据输入组件类似,选择“输出”按钮并拖放目标数据库或文件组件到转换面板上。

5. 配置目标组件:选择添加到转换面板的目标组件,右键单击并选择“编辑”。

在配置窗口中,设置目标数据库的连接信息、目标表或文件的格式等。

6. 连接输入和目标组件:在转换面板上,拖动鼠标从数据输入组件的输出连接器到目标组件的输入连接器上,建立数据流。

KETTLE使用说明及带输入参数JAVA调用

KETTLE使用说明及带输入参数JAVA调用

ETL工具——kettle使用说明1简介ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),Kettle是一款国外开源的etl工具,纯java编写,数据抽取高效稳定。

2运行环境:OS:Window、Linux、Unix均可Jdk1.4以上3开始使用:Kettle可以在/网站下载。

下载kettle压缩包,因kettle为绿色软件,解压缩到任意本地路径即可。

(本文着重介绍kettle3.2.0稳定版)Spoon是一个图形用户界面,在不同平台上运行Spoon需要不同的脚本:Spoon.bat:在windows平台运行Spoon(或直接点击Kettle.exe)。

Spoon.sh:在Linux、Apple OSX、Solaris平台运行Spoon。

登陆一般选择没有资源库:Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。

4转换(Transformation)新建一个转换kettle默认transformation文件保存后后缀名为ktr新建数据库连接(此链接也可在用到的节点处配置)填写数据源配置内容点击Test测试连接成功:核心对象切换到核心对象,菜单列出的是Transformation中可以调用的环节列表,可以通过鼠标拖动的方式对环节进行添加。

并且可通过shift+鼠标拖动,实现环节之间的连接。

常用节点介绍(红色节点后面逐一演示)类别环节名称功能说明输入文本文件输入从本地文本文件输入数据表输入从数据库表中输入数据获取系统信息读取系统信息输入数据输出文本文件输出将处理结果输出到文本文件表输出将处理结果输出到数据库表插入/更新根据处理结果对数据库表机型插入更新,如果数据库中不存在相关记录则插入,否则为更新。

会根据查询条件中字段进行判断更新根据处理结果对数据库进行更新,若需要更新的数据在数据库表中无记录,则会报错停止删除根据处理结果对数据库记录进行删除,若需要删除的数据在数据库表中无记录,则会报错停止查询数据库查询根据设定的查询条件,对目标表进行查询,返回需要的结果字段流查询将目标表读取到内存,通过查询条件对内存中数据集进行查询调用DB存储过程调用数据库存储过程转换字段选择选择需要的字段,过滤掉不要的字段,也可做数据库字段对应过滤记录根据条件对记录进行分类排序记录将数据根据某以条件,进行排序空操作无操作增加常量增加需要的常量字段脚本Modified Java扩展功能,编写JavaScript脚本,对数据进行相应处理Script Value映射映射(子转换)数据映射作业Sat Variables设置环境变量Get Variables获取环境变量表输入双击拖动到工作面板上的表输入结点,选择(或者新建)所需要的数据库连接,点击获取SQL查询语句或自行编辑SQL。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Java的安装
Java的安装
登录Java的官网后,进入到下载页面: /technetwork/java/javase/downloads/index.html, 选择当前最新的Java版本下载安装。
本章以Win10操作系统安装Java10为例进行介绍。 下载jdk-10_windows-x64_bin.exe完毕后,双击该文件,一路选择next,
直接到安装完毕。 本书的安装路径为C:\Program Files\Java\jdk-10。
Java的安装
Java环境变量的配置
环境变量名称 JAVA_HOME CLASSPATH
Path
环境变量值 C:\Program Files\Java\jdk-10(注:此为安装路径) .;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar
数据导入与预处理 应用-第二章
Kettle工具的初步使用
目录
01
Kettle的安装
Kettle使用简介
02
内容简介
本章首先介绍Kettle工具的安装及基本概念,然后 通过一个案例实操介绍Kele的安装
2 Ket转tl换e的的基安本装概念
3
可视化编程及调试
4 Ke定tt时le启的动安转换装
01
Kettle的安装
Kettle的安装
开源
JAVA编写
Kettle
多平台
可视化
Kettle的安装
可视化
代替了完成数据转换任务的 手工编码,降低了开发难度
开源
免费开源,良好的社区支持
支持各类数据源
除了支持各种关系型数据库, HBase MongoDB这样的 NoSQL数据源外,还支持Excel、 Access这类小型的数据源
Kettle的下载安装与spoon启动
修改spoon.bat的图标
02
Kettle的使用 简介
Kettle的使用简介
转换是ETL解决方案中最主要的部分,它负责处理抽取、转换、加载各阶 段对数据行的各种操作。转换包括一个或多个步骤,如读取文件、过滤输 出行、数据清洗或将数据加载到数据库。
转换里的步骤通过跳来连接,跳定义了一个单向通道,允许数据从一个步 骤向另一个步骤流动。在Kettle里,数据的单位是行,数据流就是数据行 从一个步骤到另一个步骤的移动。数据流的另一个同义词就是记录流。
除了步骤和跳,转换还包括了注释,注释是一个小的文本框,可以放在转换 流程图的任何位置。注释的主要目的是使转换文档化。
转换的基本概念
转换的基本概念
步骤是转换里的基本组成部分。它是一个图形化的组件,可以通过配置步骤 的参数,使得它完成相应的功能。例子显示了两个步骤,分别为“表输入”和 “Microsoft Excel 输出”。配置“表输入”步骤的参数,可以使得这个步骤从指 定的数据库中读取指定关系表的数据;配置“Microsoft Excel 输出” 步骤的参 数,可以使得这个步骤向指定的路径创建一个Excel表格,并写入数据。当这两 个步骤用跳(箭头连接线)连接起来的时候,“表输入”步骤读取的数据,通 过跳,传输给了“Microsoft Excel 输出”步骤。最终,“Microsoft Excel 输出” 步骤把“表输入”所读取的数据,写入到Excel表格中。这个跳,对“表输入” 而言,是个输出跳;对“Microsoft Excel 输出”而言,是个输入跳。
Java的安装
在“编辑环境变量”弹框中,点 击“新建(N)”按钮
Java的安装
在光标位置,增添.;%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin,点击“ 确定”完成Path的配置。配置完毕后,点击所有弹框的“确定”按钮,关闭所有 弹框,返回到桌面。
Java的安装
在命令窗口中输入java –version和javac命令,有如下输出提示,则Java 的环境变量配置正确。
Kettle 的 特点
支持多平台
可以在Window、Linux、 Unix上运行
丰富的工具类
包含数据的剖析、清洗、校 验、抽取、转换和加载等各 类常见的ETL类
强大的处理功能
除了选择、过滤、分组、连接和 排序这些常用的功能外,还支持 Java表达式、正则表达式、java 脚本、Java类、python等
.;%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin
配置方式 新建 新建 追加
Java的安装
右键点击“我的电脑”,在弹出的选项栏中点击“属性”
Java的安装
点击“高级系统设置”。
Java的安装
点击“环境变量(N)…”。
Java的安装
点击“系统变量(S)”栏目下 的“新建(W)…”。
Kettle的下载安装与spoon启动
Kettle作为一个独立的压缩包发布,可以从 https:///projects/pentaho/files/ 选择最新的版本下载 安装。下载完毕后,解压下载的文件,点击spoon.bat即可使用。
为了方便使用,可以为spoon.bat创建一个 Windows桌面快捷方式。创建 快捷方式后,右键单击新创建的快捷文件,在弹出菜单中选择属性。打开 的属性对话框里显示了快捷方式标签。在这个标签下“更改图标”按钮可 以为这个快捷方式选中一个容易识别的图标,一般选择 Kettle目录下的 spoon.ico文件。
Java的安装
以新建的方式配置JAVA_HOME环境变量。在“变量名(N):”填入JAVA_HOME, 在“变量值(V):”填入C:\Program Files\Java\jdk-10。填写完毕后,点击“确定” 完成新建环境变量JAVA_HOME的配置。
Java的安装
参考JAVA_HOME环境变量的配置操作完成CLASSPATH环境变量的配置。 CLASSPATH环境变量的值为
.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar,填写完毕后,点 击“确定”,完成新建环境变量CLASSPATH的配置。
Java的安装
在“系统变量(S)”栏目中,点击 Path环境变量,接着点击“编辑(I)…” 按钮,以追加的方式开始配置Path环 境变量。
相关文档
最新文档