自己总结材料地Kettle使用方法和成果

合集下载

自己总结的Kettle使用方法和成果

自己总结的Kettle使用方法和成果

KETTLE使用自己总结的Kettle使用方法和成果说明简介Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix 上运行,绿色无需安装,数据抽取高效稳定。

Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出.Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做.Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。

Kettle可以在http://kettle。

pentaho。

org/网站下载到。

注:ETL,是英文Extract—Transform—Load 的缩写,用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程.ETL一词较常用在数据仓库,但其对象并不限于数据仓库。

下载和安装首先,需要下载开源免费的pdi-ce软件压缩包,当前最新版本为5.20。

0。

下载网址:/projects/pentaho/files/Data%20Integration/然后,解压下载的软件压缩包:pdi—ce—5。

2.0.0—209.zip,解压后会在当前目录下上传一个目录,名为data—integration。

由于Kettle是使用Java开发的,所以系统环境需要安装并且配置好JDK。

žKettle可以在http:///网站下载ž下载kettle压缩包,因kettle为绿色软件,解压缩到任意本地路径即可。

运行Kettle进入到Kettle目录,如果Kettle部署在windows环境下,双击运行spoon.bat或Kettle.exe文件.Linux用户需要运行spoon。

sh文件,进入到Shell提示行窗口,进入到解压目录中执行下面的命令:# chmod +x spoon。

kettle使用总结

kettle使用总结

Kettle使用笔记一、基本概念:1.1、资源库保存kettle脚本或转换、存放数据库连接的地方,可以建立多个数据库连接,使用时就无需每次重复建立1.2、数据库连接(db links)连接数据库的功能,需处理数据库中的数据时创建,可连接Oracle、SqlServer、MySQL、DB2等1.3、转换(trans)处理数据的ETL过程,里面存放许多处理数据的组件,完成后保存会生成一个ktl文件。

1.4、作业(job)自动、定时执行转换的步骤的名称,可以在自动执行转换的过程添加参数进行控制。

1.5、步骤(steps)转换和作用的每个操作都是一个步骤。

二、工具栏:2.1、资源库概念保存kettle脚本或转换的地方,相当于myeclipes的workspace,另一种保存kettle脚本或流程的方法是需要保存的时候用文件保存,点击另存为出现(PS:打开kettle的时候加载的也是资源库)2.2、资源库位置Tools -> 数据库-> 连接数据库2.3、数据库连接创建数据库连接的时候会同时创建数据库连接?右键点击新建转换-> 点击主对象树-> 右键DB连接->新建数据库连接(PS:创建数据库后可以点击Test 判断数据库连接创建成功了没!,Oracle RAC 环境下的数据库连接创建数据库连接的方法不同)三、基本操作:3.1、轮流发送模式和复制发送模式的区别如果获取的数据必须同时进行多步处理(一种方式是将数据复制后处理,一种是获取的数据进行轮流的间隔处理),设置方式为:选中Data Grid –> 点击右键–> 数据发送-> 选择轮流发送模式或复制发送模式下图为复制处理的方式:红框选中的标签为复制处理3.2、分离步骤的方法比如下图中分离出步骤”删除”的方法:选中”删除”->点击右键-> 点击分离步骤3.3、过滤错误数据的方法采集的数据保存到数据库的时候如果有错误就,整个ETL处理流程就会停止,可以用过滤错误的方法将错误的数据写到文本中,保证ETL流程继续执行步骤:在连接”表输出”和“文本文件输出2”的时候选择”Error Handing of step”效果如下图(PS:可以明确是哪个字段,那条数据出现的错误)3.4、查询步骤中数据详情的方法比如查看下图中”表输出”步骤的数据情况的步骤:选中”表输出” -> 点击右键-> 选择显示输入\输出字段四、转换组件介绍:4.1、核心对象-输入目录下组件4.1.1、表输入组件及属性4.1.1.1允许延迟转换像Oracled的BLOB类型字段,需要的时候开始不加载这些数据,最后输出的时候才进行4.1.1.2 替换SQL语句里的变量(只在Job里面应用)配置需注意的地方:1、SQL语句的条件必须用${}符合关联起来2、替换SQL语句里的变量必须勾选3、Job中的参数组件的设置及转换必须指明是哪个转换4.1.1.3 从步骤插入数据配置需注意的地方:1、从”获取系统信息”组件中输入的参数名称必须和表输入的字段名相同2、表输入的where 条件中的值用”?”代替3、从步骤插入数据必须勾选4、获取系统信息组件中的参数类型必须选“命令行参数1”5、执行JOB后,在参数输入栏中输入你的参数值4.1.1.4 表输入组件里的执行每一行?(必须和从步骤插入数据选项一起使用)配置需注意的地方:1、从”DataGrid”组件中输入的参数名称必须和表输入的字段名相同.且该字段有多个值2、表输入的where 条件中的值用”?”代替3、从步骤插入数据、执行每一行?两个选项必须勾选4.1.1.5 记录数量限制如果查询的数据有多条,可选择”记录数量限制”选项进行查询数据的数量进行限制,比如只取100条。

kettle的使用方法

kettle的使用方法

kettle的使用方法Kettle是一种用于数据集成和转换的开源工具,也被称为Pentaho Data Integrator(PDI)。

它提供了一套功能强大的工具,可以帮助用户从不同的数据源中提取、转换和加载数据。

本文将介绍Kettle 的使用方法,帮助读者快速上手使用该工具。

一、安装Kettle您需要从Kettle官方网站下载最新版本的安装包。

安装包通常是一个压缩文件,您可以将其解压到您选择的目录中。

然后,通过运行解压后的文件夹中的启动脚本来启动Kettle。

二、连接数据源在使用Kettle之前,您需要先连接到您的数据源。

Kettle支持多种类型的数据源,包括关系型数据库、文件、Web服务等。

您可以使用Kettle提供的连接器来连接到您的数据源,或者根据需要自定义连接器。

连接成功后,您可以在Kettle中查看和操作您的数据。

三、创建转换在Kettle中,数据转换是通过创建转换作业来实现的。

转换作业是由一系列的转换步骤组成的,每个步骤都执行特定的数据操作。

您可以使用Kettle提供的各种转换步骤,如数据提取、数据过滤、数据转换、数据加载等,来构建您的转换作业。

四、配置转换步骤在创建转换作业后,您需要配置每个转换步骤的参数和选项。

例如,在数据提取步骤中,您需要指定要提取的数据源和查询条件。

在数据转换步骤中,您可以定义数据的转换逻辑,如数据清洗、数据合并、数据计算等。

在数据加载步骤中,您需要指定目标数据表和加载方式。

五、运行转换作业完成转换步骤的配置后,您可以运行整个转换作业,将数据从源数据源提取、转换和加载到目标数据源。

在运行转换作业之前,您可以选择性地预览转换结果,以确保数据操作的准确性和一致性。

Kettle还提供了调试功能,可以帮助您快速定位和解决转换作业中的问题。

六、调度转换作业除了手动运行转换作业之外,Kettle还支持将转换作业安排为定期执行的任务。

您可以使用Kettle提供的调度功能,根据您的需求设置转换作业的执行时间和频率。

kettle使用方法

kettle使用方法

kettle使用方法一、什么是kettle?Kettle是一款功能强大的开源ETL (Extract, Transform, Load) 工具,用于处理各种数据的抽取、转换和加载。

它提供了可视化的界面,使用户能够轻松地创建和管理数据流程。

二、kettle的安装和配置1.下载kettle安装包,并解压到指定目录。

2.进入kettle目录,在终端中运行spoon.sh (Linux/Mac) 或spoon.bat(Windows) 启动kettle。

3.在弹出的窗口中,点击”File”菜单,选择”Preferences”打开配置页面。

4.在配置页面中,设置kettle的选项,如数据连接、插件路径等。

三、kettle中的数据流程1.创建一个新的数据流程:点击工具栏上的”新建”按钮,在弹出的对话框中选择”Transformation”创建一个新的转换,或选择”Job”创建一个作业。

2.在数据流程中,可以拖拽各种组件来构建转换或作业,如数据输入、数据输出、转换、聚合等。

3.连接组件:使用鼠标拖拽连线工具,连接各个组件,定义数据的流向。

4.配置组件:双击组件,如数据输入组件,可以配置数据源的连接信息、查询语句等。

5.定义转换规则:在转换组件中,根据需要配置字段映射、条件过滤、转换函数等。

6.运行数据流程:点击工具栏上的”运行”按钮,运行数据流程并查看结果。

四、kettle的常用组件和功能1.数据输入:用于读取数据源的组件,支持多种数据源,如数据库、文件、Web服务等。

2.数据输出:用于将数据写入目标的组件,支持多种输出格式,如数据库表、文件、Web服务等。

3.转换组件:用于对数据进行转换的组件,如字段映射、类型转换、条件过滤、聚合等。

4.调度和监控:kettle提供了作业调度和监控的功能,可以定时执行作业、生成报表等。

5.插件扩展:kettle支持插件扩展,用户可以根据需要开发自己的插件,用于处理特定的数据源或转换规则。

kettle实验总结

kettle实验总结

kettle实验总结我们来了解一下kettle的基本概念和功能。

Kettle是一款基于图形化界面的工具,通过可视化的方式帮助用户构建数据整合和转换的过程。

它提供了丰富的组件和功能,用户可以通过拖拽组件、设置参数和连接组件的方式来构建数据处理流程。

Kettle支持多种数据源和格式,包括关系型数据库、文件、Web服务等,用户可以方便地从不同的数据源中提取数据,并进行预处理、转换和加载。

接下来,我们将探讨如何使用kettle进行数据整合和转换的实验。

在实验前,我们需要准备好数据源和目标数据库,并确保kettle已经正确安装和配置。

首先,我们需要创建一个kettle的工作空间,并在工作空间中创建一个转换(Transformation)。

转换是kettle 中的基本单位,它由一系列的步骤(Step)组成,每个步骤都是一个数据处理的单元。

在转换中,我们可以使用多个步骤来完成不同的数据处理任务。

例如,我们可以使用"输入"步骤从源数据库中提取数据,然后使用"过滤"步骤对数据进行筛选,再使用"转换"步骤进行数据转换,最后使用"输出"步骤将结果加载到目标数据库中。

在每个步骤中,我们可以设置相应的参数和选项,以满足具体的数据处理需求。

除了基本的数据处理步骤,kettle还提供了丰富的功能和插件,用于处理更复杂的数据转换任务。

例如,我们可以使用"维度表输入"步骤来处理维度表的数据,使用"合并记录"步骤来合并不同数据源的记录,使用"数据校验"步骤来验证数据的完整性等。

通过灵活地组合和配置这些步骤,我们可以实现各种复杂的数据整合和转换任务。

在进行实验时,我们还可以使用kettle提供的调试和监控功能,以确保数据处理流程的正确性和性能。

例如,我们可以使用"调试"功能逐步执行转换,并观察每个步骤的输入和输出结果,以及中间数据的变化情况。

kettle经验总结

kettle经验总结

Pan命令来执行转换,下面给出的是pan参数。

Kitchen 命令用于执行作业Carte 用于添加新的执行引擎Kettle的资源库和Carte的登录,密码都是用Encr加密的。

使用中遇到的问题及总结:这两个组件用之前必须先对数据进行排序,否则数据会不准确。

而且merge join会很慢,尽量要少用。

这个组件默认auto commit false,所以如果要执行一些sql,必须在后面加commit。

貌似没什么用,其实也没什么用。

Kettle讲究有进有出,如果最后的没有输出,要加上这个空操作。

实际上测试不写也没问题。

执行java script,这个组件很强大,大部分用组件实现不了的东西,都可以通过这个来转换。

而且可以调用自己写的java 类。

强大到不行~这个组件很奇怪,顾名思义调用存储过程的,但实际上不能调用不传参数的存储过程。

如果有没有参数的存储过程,现在的解决方案是用sql脚本来执行。

一个设置变量,一个获得变量。

这个本来没什么要说的,但在实际应用中发现,在一个trans中设置的变量,在当前trans中并不一定能获得到,所以设计的时候先在一个trans中设置变量,然后在后续的trans中来获得就可以了。

让人惊喜的东西,大数据量导入,事实上让人近乎绝望,研究了一天依旧不会用。

而且我怀疑确实不能用。

其实这个组件无非是实现了copy命令,目前的解决方案,sql脚本,先汗一个,不知道跟这些组件相比效率会怎样。

三个亲兄弟,功能差不多,长的也很像,看了源码感觉,性能有差异,就性能而言,文本文件输入组件很差,它不如csv file input和fixed file input组件,因为后面的两者启用了java nio技术。

顺便提一句而已。

kettle内置性能监控,通过分析能知道哪一环节出现瓶颈。

以上是trans的内容,关于job相比而言简单一些,只是调用trans而已。

值得一说的是job 以start开始,这个start只能有一个。

KETTLE使用经验总结

KETTLE使用经验总结

KETTLE使用经验总结1.熟悉KETTLE的基本概念和操作在开始使用KETTLE之前,建议先花一些时间了解KETTLE的基本概念和操作。

KETTLE的核心概念包括转换(Transformation)、作业(Job)、步骤(Step)、输入(Input)和输出(Output)等。

了解这些基本概念可以帮助你更好地理解和使用KETTLE。

2.认真设计转换和作业在使用KETTLE进行数据转换和加载之前,我们需要先认真设计转换和作业。

转换和作业的设计应该考虑到实际需求和数据流程,避免设计不合理或冗余的步骤。

同时,还需要考虑数据的质量和稳定性,以确保转换和作业的可靠性。

3.使用合适的步骤和功能KETTLE提供了很多不同的步骤和功能,我们需要选择和使用合适的步骤和功能来实现实际需求。

比如,如果需要从数据库中抽取数据,可以使用“表输入”步骤;如果需要将数据写入到数据库中,可以使用“表输出”步骤。

熟悉并正确使用这些步骤和功能,可以提高工作效率。

4.合理使用转换和作业参数KETTLE提供了转换和作业参数的功能,可以方便地传递参数和配置信息。

合理使用转换和作业参数可以使转换和作业更具灵活性和可重复性。

比如,可以使用作业参数来配置文件路径和数据库连接等信息,这样可以只修改参数值而不需要修改转换和作业的配置。

5.使用调试和日志功能在进行复杂的数据转换和加载时,很可能遇到问题和错误。

KETTLE 提供了调试和日志功能,可以帮助我们定位和解决问题。

比如,可以在转换和作业中插入“日志”步骤,将关键信息输出到日志文件中;还可以使用“调试”选项来跟踪转换和作业的执行过程。

6.定期备份和优化转换和作业转换和作业的备份和优化非常重要。

定期备份可以避免转换和作业的丢失和损坏;而优化转换和作业可以提高其执行性能。

比如,可以使用数据库索引来加快查询速度,可以使用缓存来减少数据库访问次数。

7.与其他工具和系统集成KETTLE可以与其他工具和系统进行集成和扩展。

KETTLE使用说明

KETTLE使用说明

KETTLE使用说明在本使用说明中,我们将详细介绍如何使用KETTLE完成一些常见的数据处理任务。

第一步:安装和启动KETTLE在Windows中,双击运行Spoon.bat文件来启动KETTLE。

在Linux 和Mac OS中,打开终端,进入KETTLE目录,输入"./spoon.sh"命令来启动KETTLE。

第二步:创建一个新的数据流程启动KETTLE后,您将看到一个图形化界面。

在左上角的工具栏中,有一个新建按钮,点击它来创建一个新的数据流程。

在创建数据流程时,您需要为其指定一个名称。

完成后,点击确定按钮。

第三步:添加数据源在左侧的工具箱中,您可以找到各种组件,如输入步骤、输出步骤、转换步骤等。

为了演示,我们先添加一个输入步骤。

在工具箱中,找到输入步骤,并将其拖放到主界面中。

然后,双击该步骤,在弹出的对话框中配置数据源。

在配置对话框中,您需要指定数据源的类型,如文本文件、Excel文件、数据库等。

根据不同的类型,您可能需要提供相应的连接信息。

完成配置后,点击确定按钮。

在数据流程中,您可以使用转换步骤对数据进行处理。

为了演示,我们使用一个简单的转换步骤来删除重复的数据。

在工具箱中,找到去重复步骤,并将其拖放到已添加的输入步骤的下方。

然后,双击该步骤,在弹出的对话框中配置参数。

在配置对话框中,您需要指定要去重的字段。

您可以选择多个字段以进行复合去重。

完成配置后,点击确定按钮。

第五步:添加输出在数据流程中,您也需要指定一个输出步骤来保存处理后的数据。

在工具箱中,找到输出步骤,并将其拖放到已添加的去重复步骤的下方。

然后,双击该步骤,在弹出的对话框中配置输出格式和目标文件。

在配置对话框中,您需要指定输出的格式,如文本文件、Excel文件、数据库等。

根据不同的格式,您可能需要提供相应的连接信息。

完成配置后,点击确定按钮。

第六步:保存和运行数据流程完成对数据流程的配置后,点击工具栏中的保存按钮来保存数据流程。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

KETTLE使用自己总结的Kettle使用方法和成果说明简介Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。

Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。

Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。

Kettle可以在/下载到。

注:ETL,是英文Extract-Transform-Load 的缩写,用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。

ETL 一词较常用在数据仓库,但其对象并不限于数据仓库。

下载和安装首先,需要下载开源免费的pdi-ce软件压缩包,当前最新版本为5.20.0。

下载网址:/projects/pentaho/files/Data%20Integration/然后,解压下载的软件压缩包:pdi-ce-5.2.0.0-209.zip,解压后会在当前目录下上传一个目录,名为data-integration。

由于Kettle是使用Java开发的,所以系统环境需要安装并且配置好JDK。

žKettle可以在/下载ž 下载kettle压缩包,因kettle为绿色软件,解压缩到任意本地路径即可。

运行Kettle进入到Kettle目录,如果Kettle部署在windows环境下,双击运行spoon.bat 或Kettle.exe文件。

Linux用户需要运行spoon.sh文件,进入到Shell提示行窗口,进入到解压目录中执行下面的命令:# chmod +x spoon.sh# nohup ./spoon.sh & 后台运行脚本这样就可以打开配置Kettle脚本的UI界面。

Kettle的简单使用首先,点击“文件—新建—转换”菜单创建一个转换。

我们可以看到转换的主对象数和核心对象区域,然后我们添加一个DB连接。

选择“注对象数”,双击“转换2”标签下的“DB连接”会弹出一个设置窗口。

填入连接名称,选择连接类型,配置数据库设置,然后测试下配置是否正确。

由于Kettle没有将所有的数据库的Driver文件集成,所以如果想连接指定的数据库,需要自己下载JDBC驱动,放入到解压目录下的lib目录中。

添加完JDBC 驱动后,必须重启下Kettle才能加载驱动。

1)Oracle的JDBC驱动:ojdbc6.jar2)MySQL的JDBC驱动:mysql-connector-java-5.1.32.jar注:在转换之前需要创建转换所需的表,原始表和转换的目标表。

点击“核心对象”标签页中的“输入”,选择“表输入”拖到“转换”区域。

双击“表输入”图标弹出表输入对话框,填入步骤名称,选择数据库连接,点击“获取SQL查询语句”,或者直接写入SQL语句,填写附件信息,点击“预览”按钮查看执行结果,没有错误,点击“确认”关闭对话框。

点击“核心对象”—“输出”,选择“Excel输出”拖入到转换区,双击Excel 输出图标,弹出对话框,选择文件名和其它附加参数,点击确认。

点击输入表的图标,同时按下shift键,再点击输出文件,将两者连接起来。

然后双击Excel输出进行配置。

最后一步就是执行kettle脚本,点击工具栏上的绿色箭头即可。

点击“启动”开始转换,在转换过程中会出现转换的信息,如下图所示。

完成转换后,我们可以Excel输出目录中查看转换结果。

注:时间字段换到Excel为空,修改SELECT语句中使用TO_CHAR转换成字符串,例如:TO_CHAR(START_TIME, 'yyyy-mm-dd HH24:MM:SS') AS START_TIME。

注:Excel中的记录不能超过65535条,否则会自动关闭文件,导致转换失败。

上面是一个简单的数据迁徙脚本,从数据库导出数据到EXCEL文件中。

Kettle处理HBase本教程使用的软件版本信息如下:1)Hadoop(1.2.1)2)Pantaho Data Integration(5.2.0)3)HBase(0.94.19)。

Pentaho Shim(社区版)目前支持的Hadoop版本:参考:wiki.pentaho./display/BAD/Configuring+Pentaho+for+your+Hadoop+Distro+and+Ver sion注:从上表中看出它不支持hadoop 1.2.x版本。

解决办法是使用HDP13的插件(基于hadoop-1.0.3/hbase-0.94.6)替代,步骤如下:1)从https://pentaho.box./50-hdp12下载hdp13的shim插件。

2)解压到plugins/pentaho-big-data-plugin/hadoop-configurations目录下,目录名为hdp13。

3)进入plugins/pentaho-big-data-plugin目录,修改plugin.properties文件中的active.hadoop.configuration属性为,缺省值为hadoop-20,如下:active.hadoop.configuration=hdp133)替换掉hdp13/lib目录下与Hbase和hadoop有关的Jar包,拷贝一份hbase-site.xml到hdp13目录下。

| hdp13/lib/pmr目录下替换后的Jar包:| hdp13/lib/client目录下替换后的Jar包:* 在HBase中创建一个weblogs表,步骤如下:1)打开HBase shell,在命令行中输入:hbase shell2)在Hbase中创建一个表,在hbase shell中输入:create 'weblogs', 'pageviews'* 上面命令会创建一个带有一个列族pageviews的weblogs的表。

3)执行quit退出HBase shell。

参考文档:help.pentaho./Documentation/5.2/0L0/0Y0/0F0/040/000/000/0301. 从下面网址下载weblogs_hbase.txt.zip压缩文件作为文本文件数据源导入:wiki.pentaho./download/attachments/23530622/weblogs_hbase.txt.zip2. 从Spoon(Kettle)中,创建一个新的转换,选择“文件—新建—转换”。

点击“核心对象—输入”标签,然后把“文本文件输入”拖到画板中。

3. 双击文本文件输入,弹出文本文件输入对话框,点击“浏览…”按钮选择weblog_hbase.txt文件,点击“添加”按钮。

选择“容”标签,清空分隔符点击“Insert TAB”按钮,选中“头部行数量”选择框,从格式的下拉菜单中选择Unix格式。

配置输入字段,从“字段”标签页中选择“获取字段”按钮,弹出可用的字段列表,询问采样的数量,输入100点击“OK”按钮。

修改字段key的类型为String,长度为20。

点击“OK”按钮关闭对话框。

●在“核心对象—Big Data”下,把HBase Output图标拖入到面板中。

并且把文本文件输入与HBase Outpu连接起来(按住shift+拖曳)。

●双击Hbase Output,在弹出对话框中输入Zookeeper的主机名和端口号。

1)Zookeeper host(s)字段中输入Zookeeper主机名,多个主机名使用逗号分隔。

对于本地集群使用localhost。

2)在Zookeeper port字段中,输入你的Zookeeper端口号,缺省值2181。

●创建一个Hbase映射,在Create/Edit mappings标签页中告诉Pentaho在HBase中如何存储数据。

1)点击Get table names按钮,在HBase table name的选择框中选择weblogs2)Mapping name,输入pageviews3)点击“Get imcoming fields”按钮4)从Alias的key这行修改Key为Y,清除掉Column family和Column name 字段,并且设置Type字段为String,点击Save mapping。

配置HBase out使用上面刚刚创建的映射。

1)进入到Configuration Connection标签页,点击Get table names。

2)点击Get table names,在Hbase table name的选择框中选择weblogs。

3)点击Get mappings for speficed table获取指定的表。

4)点击Mapping name,选择pageviews,点击“确认”按钮关闭窗口。

点击“文件—另存为”菜单保存转换,在选择目录中输入load_hbase.ktr作为文件名。

点击转换工具栏中的运行按钮运行转换,或者选择“动作—运行”菜单打开一个执行转换的窗口,点击“启动”按钮。

在Spoon接口的下面打开一个执行结果窗口,显示运行时转换的进度。

在几十秒之后完成转换。

如果在转换过程中出现任何错误,将会红色高亮显示,在日志标签页查看错误信息。

通过查询HBase验证数据1)从命令行中,输入下面命令打开HBase shell:hbase shell2)通过这个命令查询HBase:scan 'weblogs', {LIMIT => 10}应该返回数据的行数。

相关文档
最新文档