ETL工具研究报告

合集下载

国际三大主流ETL工具分析

国际三大主流ETL工具分析ETL（Extract, Transform, Load）是指将数据从源系统中抽取出来，进行转化（加工、清洗、整合等），然后加载到目标系统中。

在ETL工具的选择上，有许多可供选择的工具。

本文将对国际三大主流ETL工具（Informatica PowerCenter、IBM InfoSphere DataStage和Microsoft SQL Server Integration Services）进行分析。

1. Informatica PowerCenterInformatica PowerCenter是一种广泛应用的ETL工具，它提供了强大的数据集成和数据转换功能。

它具有以下特点：- 强大的数据集成能力：Informatica PowerCenter支持从各种数据源中提取数据，包括关系数据库、文件、Web服务等。

它提供了丰富的连接器和转换函数，可以方便地构建复杂的数据集成过程。

- 易于使用的用户界面：Informatica PowerCenter具有直观的用户界面，使用户可以轻松地构建、调试和管理ETL工作流程。

- 可扩展性和可靠性：Informatica PowerCenter是一个可扩展的平台，可以处理大规模数据集成任务。

它具有高度可靠的作业调度和容错机制，保证数据的准确性和一致性。

- 强大的数据转换能力：Informatica PowerCenter提供了丰富的转换操作和函数，可以进行数据清洗、规范化、分割、合并等操作。

它还支持复杂的业务逻辑和数据处理规则。

2. IBM InfoSphere DataStageIBM InfoSphere DataStage是IBM公司开发的一种ETL工具，它具有以下特点：- 广泛的数据集成能力：InfoSphere DataStage支持从多种数据源中提取数据，包括关系数据库、文件、Web服务等。

它提供了丰富的数据连接器和数据传输功能，可以轻松地完成数据集成任务。

ETL技术研究报告

1.前言ETL，Extraction-Transformation-Loading的缩写，中文名称为数据提取、转换和加载。

ETL 工具有：OWB(Oracle Warehouse Builder)、ODI(Oracle Data Integrator)、Informatic PowerCenter、AICloudETL、DataStage、Repository Explorer、Beeload、Kettle、DataSpider ETL是数据仓库中的非常重要的一环。

1.1简述它是承前启后的必要的一步。

相对于关系数据库，数据仓库技术没有严格的数学理论基础，它更面向实际工程应用。

所以从工程应用的角度来考虑，按着物理数据模型的要求加载数据并对数据进行一些系列处理，处理过程与经验直接相关，同时这部分的工作直接关系数据仓库中数据的质量，从而影响到联机分析处理和数据挖掘的结果的质量。

1.2在数据仓库中扮演的角色ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。

ETL作为BI/DW（Business Intelligence）的核心和灵魂，能够按照统一的规则集成并提高数据的价值，是负责完成数据从数据源向目标数据仓库转化的过程，是实施数据仓库的重要步骤。

如果说数据仓库的模型设计是一座大厦的设计蓝图，数据是砖瓦的话，那么ETL就是建设大厦的过程。

在整个项目中最难部分是用户需求分析和模型设计，而ETL规则设计和实施则是工作量最大的，约占整个项目的60%～80%，这是国内外从众多实践中得到的普遍共识。

1.3 ETL体系结构ETL体系结构，它体现了主流ETL产品框架的主要组成部分。

ETL是指从源系统中提取数据，转换数据为一个标准的格式，并加载数据到目标数据存储区，通常是数据仓库。

2.发展趋势ETL系统一般不会单独作为一个项目来做，大多与数据仓库、决策支持等系统一起作为支持系统完成。

一种金融系统专用ETL工具的研究与实现

（ｃｏｌｆｎｏｍａｏｃｎｅａｄＥｇｎｅｉｇＴｃｎｌｇ，ａｚｏｉｅｓｙＬｎｈｕ７００）ＳｈｏｆｒｔｎＳｉｃｎｉｅｒｅｈｏｏｙＬｎｈｕＵｎｖｒｔ，ａｚｏ３００ｏＩｉｅｎｎｉ
第３卷第２期４０
ＶＬ３ｏ４
・
计
算
机
工
程
２００８年ｌＯ月
Ｏｃｏｒ２０ｔｂｅ０ｒＥｎｉｅｉｍｅｇｎｅｒｎｇ
软件技术与赘【据库・
一
文章编号：ｌ０＿２（０）＿０８＿文献标识码：０－３８０８ｏ＿０ｏ枷２ｏ４２２Ａ
关健诃：ＥＬ工具；ＳｒｇＴｐｎ框架；数据转换；务调度ｉ任
ＳｕｄｎｄＩｐｌｍｅａｉｎｏｐｅｉｌｔｙａｍｅｎｔｔｏｆＳｃａＥＴＬｏｏｎｎｃｓｅＴｏｌｆｒＦｉａｅＳｙｔｍ
Ｑｈ－ｉＺＮＹｎｔｎ，ＮＧＧＵＺｉ，ＨＡＧａ — ｇＷＡｅｙａ
本文以商业银行的综合报表项目为背景，给出了基于轻
量级ＪＥ２Ｅ框架ＳｒｇＩａｉ数据库访问中间件的专用ＥＬｐｉ和ｂｔｎｓＴ
数据活动区（ａａｔｅｒａＤＳ）ＤｔＳａｅ，Ａ内。ｇＡ
ｐｏｅｓｙｕｉｅｅｈｉｅｏｖｒｏｏｔｌｏ）ＤｔＡｃｓＯｃＤＯｂｓｄｎｂｔ，ｐｉＢｎｅｕｐｒｔＴｍｒｆｒｓｂｓｇｈｃｎｌｓｆｎｅｉｏＣｎｏ（Ｃ，ａｃｅｓ￣ｅｔＡ）ａａｓＳｒｇＪＣａｄｐｏｉｅｏｃｎｔｔ￣ＩｓｎｆｕｒＩａ（ｅｏＩｉｎＤｈｔｓｔｏ

数据仓库中ETL工具的分析与实现的开题报告

数据仓库中ETL工具的分析与实现的开题报告一、选题背景随着互联网的发展和信息化建设的深入推进，各企事业单位面临的数据量越来越大，同时数据来源也越来越多元化，这就为数据管理和分析带来了巨大的挑战。

而数据仓库的出现则为此提供了一个解决方案。

数据仓库作为一个统一的数据存储区域，可以从各个分散的数据源中整合、清洗和加工数据，为决策者提供准确、实时、一致的数据分析和报告，从而为企事业单位的决策提供支持。

但是，数据仓库的建设过程并不是一件容易的事情，其中ETL(抽取、转换和加载)工具的选择和设计尤为重要。

本文旨在对数据仓库中的ETL工具进行分析和实现，并探讨如何在数据仓库建设过程中选取和设计合适的ETL工具。

二、研究目的和意义本论文将从ETL工具的概念、作用和分类入手，对近年来主流的ETL工具进行概括和分析，介绍其特点、优缺点和应用案例，并结合实际生产环境和数据仓库建设经验，对比分析各种ETL工具的适用场景和实现方法，最终得出一个对于不同业务场景和数据需求，如何选择和使用合适的ETL工具的指导性建议。

三、研究方法本文将采用文献资料法、实证分析法和案例分析法相结合的研究方法。

首先，通过调研和阅读相关文献资料，分析ETL工具的概念、作用和分类，并对主流ETL工具进行评价和分析；其次，通过对一个典型数据仓库案例的分析，结合实际生产环境和数据需求，对比分析各种ETL工具的适用场景和实现方法，探讨选取和设计合适的ETL工具的方法和流程；最后，通过对比和实证分析的方法，总结出如何选择和使用合适的ETL工具，并给出指导性建议。

四、论文结构本论文将分为六个部分。

第一部分为引言，主要介绍选题背景、研究目的和意义、研究方法等内容。

第二部分为ETL工具的概念与分类，介绍ETL工具的定义、作用和分类，为后续的分析和实现做铺垫。

第三部分为ETL工具的评价与分析，对主流ETL工具进行评价和分析，并介绍ETL工具的特点、优缺点和应用案例。

基于现在接触的ETL工具（datax和kettle）做个小总结

基于现在接触的ETL⼯具（datax和kettle）做个⼩总结现阶段需要做数据库同步⼯作，⽬前调研了两个⼯具datax和kettle⽬前虽然环境使⽤的是kettle+jenkins调度平台⽅案，但是多多少少会有⼀些不太令⼈满意的地⽅，但应该算是满⾜⼤部分需求了，先暂时这样实现这两者各有优缺点，基本的就不总结了。

现在说说⼀些关键点：基本⽅⾯：1.datax适合做数据同步⼯作；kettle适合数据清洗，转换⼯作⽬前成型的可视化界⾯，datax推荐datax web，kettle后期维护⽤的界⾯推荐jenkins/kettle-manager简单2.datax对于数据库压⼒⽐较⼩，全量读取速度优于kettle3.对于⼀些⽅案的可⾏性，⼩数据量的选择全量对⽐，10w数据量⼤概3s完成插⼊更新全量抽取过程，还是⽐较快的。

⼩数据量的情况下差别不⼤4.⽬前⽣产可⾏⽅案可以选择datax+datax web/kettle6.⽇志⽅案是对于⼤量数据的最优选择，mysql⽤maxwell抓取⽇志或者上边提供的⽅案，oracle⽤ogg，sqlserver⽬前不清楚需要再找7.保证kettle后期稳定的情况下⽤windows⾃带的定时任务或者Linux中⽤crontab，不过后续的jenkins完全能胜任贴上链接：wgetftp:///mirror/ftp5.gwdg.de/pub/opensuse/repositories/home:/matthewdva:/build:/EPEL:/el7/RHEL_7/x86_64/webkitgtk-2.4.9-1.el7.x86_64.rpmyum install webkitgtk-2.4.9-1.el7.x86_64.rpm9.docker部署mysql10.部署jenkins进⾏配置⽂件配置，在 etc/sysconfig/jenkins⾥改端⼝#修改jenkins镜像⽂件cd ~/.jenkins/updates⼀些⼩坑：mysql 8.0驱动jar包⽅⾯更换，导致不能⽤，需要注意驱动#所有命令找不到export PATH=/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin:/root/bin#刷新环境变量：source /etc/profile#给脚本赋予权限：chmod +x ./data-integration/*.shdatax⽤的python版本要注意，2.6+版本和3.0+版本有语法差别（记得是括号问题）centos 7可以通过添加打印机⽅式避免开机总是⿊屏部署kettle和jenkins会存在⼀些坑#书写sh脚本时候在脚本⾥⾯添加source /etc/profile即可11.关于调度平台问题，⽬前如果想要放⼊docker容器⾥⾯然后再放⼊集群中有难度，使⽤某个服务上xxl-job调度，carte.sh⽅法还得提供个ip地址，或者xml⽂件，⽬前没想到怎么实现，⽬前可能⽅法可能是⽤docker库⾥的kettle镜像，⾃⼰⽣成⼀个，或者⾃⼰通过源码⽣成⼀个docker file⽂件，打包完成后再进⾏部署12.⽬前8.0版本和8.2版本有差异，⽣成的镜像⽂件再运⾏job⽂件可能存在问题，⽽docker库⾥⾯的8.3版本可以运⾏8.2版本13.如果是从接⼝获取数据的⽅式，并且接⼝调⽤频率有限制可以通过这种⽅式（中间加个等待时间）然后获取的也是系统时间和时间戳存放的时间中间数据量，这样可以变化的获取页数和对应的所有数据，针对接⼝返回404情况，可以获取唯⼀标识存放到临时表⾥，然后再遍历这个唯⼀标识去做⼆次请求，这样如果实时更细数据量不多的情况下，其实可以⽤先从临时表⾥获取对应的404对应的唯⼀标识，然后先看看原数据⾥⾯有没有，如果没有的话则会进⼊插⼊更新，虽然这个组件很慢，但是对于已经在前边进⾏排除了，只是进⾏更新对⽐，所以实质上数据量并不⼤进⾏全量⽐对⽅式也是可⾏的（⽬前⽅法只是针对⽬前做的东西，通⽤的其实还是⽇志的效果好，但是难度⼤⼀些，需要再研究）重点是这⼏个转换⽅案太蠢了，步骤过多影响速度，还好现在⽤时间戳，并⾏所有job只⽤37-45s左右，但是数据量⼀⼤就有问题了不适合做现在或者以后的最佳⽅案，所以只做思路参考14.其实清洗最优⽅案还是通过python去处理，或者使⽤data-web的⽅式，那个是在git上有源码，并且结合的正好是xxl-job调度平台，可以使⽤这个调度平台+整合数据的⽅案16.关于部署到阿⾥云服务器的上的问题，⼀定⼀定要添加安全组，不然会报错，并且CONVERT_TO_NULL是可以使⽤。

通用ETL工具的研究与实现

通用ETL工具的研究与实现孙安健;王星;闫晓瑜【摘要】ETL is an important part of the establishment of data warehouse. Generic ETL tool should be able to adapt to different needs of different areas of business, whether for the diverse heterogeneous data sources, or for the complex changes of transformation logic, and be able to give strong support both. In this paper, we study the technical difficulty of ETL tool, present a general framework for the design of ETL tools and a detailed analysis of each module as well, and give the concrete realisation in the project undertaken.%ETL(Extraction-Transformation-Loading)是建立数据仓库的重要一环.通用应用ETL工具应能够适应不同领域不同需求的业务,无论是针对多样化异构的数据源,还是针对复杂变化的转换逻辑,都能够给予很好的支持.研究ETL工具的技术难点,提出一种通用ETL工具的设计框架,并对每个模块做了详细分析,在所承担项目中给出了具体实现.【期刊名称】《计算机应用与软件》【年(卷),期】2012(029)012【总页数】5页(P175-178,210)【关键词】数据仓库;数据抽取;数据转换;数据加载【作者】孙安健;王星;闫晓瑜【作者单位】复旦大学计算机科学技术学院上海201203;复旦大学计算机科学技术学院上海201203;复旦大学计算机科学技术学院上海201203【正文语种】中文【中图分类】TP3110 引言随着互联网的迅猛发展，大量的数据以网页的形式呈现在人们前面。

ETL实验报告

Sybase ETL实验报告
姓名：
学号：
一、实验目的：
掌握使用sybase数据库中ETL工具进行异构数据源系统的数据迁移、数据转换并整合的方法。

二、实验内容：
利用SYBASE数据库中ETL工具将异构数据源中的数据抽取到临时中间层后进行清洗、转换、集成，按照统一的规则集成并提高数据的价值，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。

三、实验步骤：
1、进入SYBASE数据库系统，启动ETL工具：
2、选择数据源
3、进入可以选择数据源数据的界面
4、选择数据源数据表数据
5、将两个物理表数据的关键字关联
6、选择数据字段
7、完成后形成sql语句：
8、选择目标数据库，odbc。

9、形成路径：
10、目标数据库新建表
12、运行结果：
13、选择中间层
14、选择需要转行的字段，进行统一大写：
15、运行结果：
16、在中间层选择分类：
实验结果：
17、分类条件：
18、复制生成目标数据库：
19、连接新的目标库
20、运行结果，已经分类生成数据
四、实验结果：
生成数据检查，符合预期要求。

数据来自异构的数据源，经过分类后存入新的数
据表。

五、实验总结：
通过此次实验，了解了Sybase ETL的简单操作流程，明晰了数据库的清洗、转换、集合的过程和意义。

基于ETL工具的数据集成和交换的研究

设计了一个通用ＥＴＬ工具，通过从源到目标系统转换数据的方法，图形元素表示元数据，用来生成用于
规则固化到业务代码中，不考虑用户界面是否友好。在
通用的ＥＴＬ工具中，有的规则需要定义和初始化，所需要简明易懂的形式便于操作。
ｅｔａｔｏｘｒｃｉｎ，ｔａｓｃｍａｉｎａｄｌａｉｇ（ｔａｔ，Ｔｒｎｆｒ，Ｌｏｄ）ＥＴＬｏ１ａｃｒｉｇｔｈｏｒｎｆ＇ｒｔｎｏｄｎｏＥｘｒｃａｓｏｍａｔｏ．ｃｏｄｎｏｔｅｃｍｐｅｅｕｒｍｅｔｆＥＴＬｌｘｒｑｉｅｎｓｏ
数据转换装载的程序代码，平台、跨支持异构环境下多种关系型数据库及非关系型数据源之间的导人导出、数据的转换和集成。用户简单操作就能完成元数据的
通用ＥＬ工具通过对数据源的确认（和目标）Ｔ源、确定字段的映射关系，定抽取、换、洗、载规制转清装
【关键词】数据抽取，数据转换，数据清洗，数据装载
中圈分类号：ＴＰ９３２文献标识码：Ａ
ＡＢＳＴＲＡＣＴＤａａｉｔｇａｉｎａｄｅｃａｇｆｂｓｎｓｎｇｍｅｔａｄｄｃｓｏ－ａｉｇｉｓｇｉｃｎ．Ｄａａｉｔｇａｉｎａｄｔｎｅｒｔｏｎｘｈｎｅｏｕｉｅｓｍａａｅｎｎｅｉｉｎｍｋｎｓｉｎｆａｔｉｔｎｅｒｔｏｎｅｃａｇｕｔｂｅｏｖｄｅｔａｔｎ，ｔａｓｒｔｎａｄｌａｉｇ，ｂｔｔｅｈｔｒｇｎｏｓｓｓｅｉｄｆｉｕｔｔｃｉｖｎｔｅｐｓ，ｘｈｎｅｍｓｅｒｓｌｅｘｒｃｉｏｒｎｆｍａｉｎｏｄｎｏｏｕｈｅｅｏｅｅｕｙｔｍｓｉｃｌＯａｈｅｅｉｈａｔｆｔｉｒｉｌｒｍｈｅｕｒｍｅｔｎｌｓｓ，ｓｓｅｄｓｇｎｙｔｍｍｐｅｅｔｔｎｉｈｅｓｅｔ，ｄｓｇｅｎｏａａｈｓａｔｃｅｆｏｔｅｒｑｉｅｎｓａａｙｉｙｔｍｅｉｎａｄｓｓｅｉｌｍｎａｉｎｔｒｅａｐｃｓｏｅｉｎｄｏｅｆｒｄｔ

数据仓库实验报告

一、实验目的1. 理解数据仓库的基本概念和结构；2. 掌握数据仓库的ETL（提取、转换、加载）过程；3. 熟悉数据仓库的查询和分析方法；4. 学习使用SQL Server等工具进行数据仓库的搭建和操作。

二、实验环境1. 操作系统：Windows 10；2. 数据库：SQL Server 2012；3. 开发工具：VS2017（SSDT）。

三、实验内容1. 数据仓库概述数据仓库是一个面向主题的、集成的、稳定的、随时间不断变化的数据集合，用于支持管理决策。

数据仓库的主要特点是面向主题、集成、稳定、变化和随时间不断变化。

2. ETL过程ETL是数据仓库中提取（Extract）、转换（Transform）、加载（Load）的缩写，它描述了将数据从源系统提取出来，进行必要的转换后，加载到目标系统中的过程。

（1）提取：从源系统中提取所需的数据，可以是数据库、文件或其他数据源。

（2）转换：对提取出来的数据进行清洗、格式化、合并等操作，使其符合数据仓库的要求。

（3）加载：将转换后的数据加载到数据仓库中，可以是数据库表、文件或其他数据存储。

3. 数据仓库查询和分析（1）SQL查询：使用SQL语言进行数据仓库的查询，包括简单查询、连接查询、子查询等。

（2）OLAP分析：使用OLAP（在线分析处理）工具进行数据仓库的分析，包括切片、切块、钻取、旋转等操作。

4. 使用SQL Server搭建数据仓库（1）创建数据库：使用SQL Server Management Studio创建一个新的数据库，用于存储数据仓库的数据。

（2）创建表：根据数据仓库的结构，创建相应的表，包括事实表、维度表等。

（3）数据加载：使用SQL Server Data Tools将数据加载到数据仓库的表中。

四、实验步骤1. 创建数据库（1）打开SQL Server Management Studio，连接到本地SQL Server实例。

（2）在对象资源管理器中，右键单击“数据库”，选择“新建数据库”。

ETL工具--KETTLE研究及实践

转换—拆分字段

这个步骤允许根据分隔符来拆分字段。步骤名称：在单一转换中必须唯一需要拆分的字段：想要拆分的字段的名称。分隔符：决定字段结束的分隔符字段：拆分形成的字段列表。例如：某字段包含： (123,456,789) , 使用逗号(,)分割符，可将字段分成三个段。
KETTLE介绍
Kettle这个ETL工具集，它允许你管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么，而不是你想怎么做。
Kettle中有两种脚本文件，transformation和job， transformation完成针对数据的基础转换，job则完成整个工作流的控制。
KETTLE实践
Kettle是一款免安装软件； Spoon.bat是window下运行的批处理文件
Spoon.sh则是Linux
KETTLE实践
欢迎界面
KETTLE实践
该怎么理解KETTLE
输入
转换逻辑
输出
KETTLE功能简介
输入—表输入

选择表输入，点击鼠标右键，选择编辑步骤。步骤名称可以更改，一般更改为和输入表相关的名称。数据库连接：选择一个已建好的数据库连接，也可以新建一个。点击”获取SQL查询语句”,可弹出数据库浏览器，选择自己需要的表或视图。选择好表或视图后，SQL 区域会显示相应的SQL，如选择在SQL里包含字段名，你所选择的表的所有字段均会显示. 在SQL区域用户可手动修改SQL语句
KETTLE实践
实践1：KPI第三项要求：记录报案，每个2分插入到KPI数据库表user_kpi_score中
KETTLE实践
实践2：KPI第四项要求：track报案，每个2分插入到KPI数据库表user_kpi_score中

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

SQL Server > SQL Server两千万条数据插入更新：
Oracle- >SQL Server间两千万条数据插入：
SQL Server Intergration Services优点速度快，缺点是类型转换存在问题，如果要用的话还需要仔细配置。支持的数据库类型不多。
我说一下用SSIS的感受，一开始测试的时候很快，当时感觉真是个不错的ETI工具,但是后来连接oracle数据库时配置很麻烦，出很多问题也花费了大量的时间，好不容易才导成功了。如果不同库之间进行导入导出的时候要有数据类型转化会容易出问题。所以为了导入数据更方便效率，不建议用SQL Server Intergration Services。
Байду номын сангаас
按照以上图看不会影响导入数据的效率。
2.Kettle：适用的DB类型：
输入（能读取）的文件类型：
效率：Oracle-> Oracle间两千万条数据转移需要8个小时, Oracle- >SQL Server间两千万条数据转移需要12个小时
费用问题： Kettle是免费的。 Talend Open Studio for Big Data分免费版和商业版，商业版是多线程操作，效率快，免费版相对慢，根据talend公司提供的数据，商业版的2000万条数据是36分钟，但是免费版的要用一个多小时。
输入（能读取）的文件类型： . csv，.arff，.txt，.ldif， . mail，.xml，.properties。
效率：Oracle-> Oracle间两千万条数据转移需要6个小时, Oracle- >SQL Server间两千万条数据转移需要11个小时 Oracle-> Oracle转换工具图：
效率： SQL Server > SQL Server间两千万条数据插入需要8分钟53秒, SQL Server > SQL Server间两千万条数据插入更新需要1小时43分钟, Oracle- >SQL Server间两千万条数据转移需要14分钟29秒。 SQL Server > SQL Server两千万条数据插入：
总结：经过这些天的研究测试，我认为如果要进行数据转移可以这样分配：当数据是在sqlserver库之间转化时用SQL Server Intergration Services。而其他库之间的转化时用Talend Open Studio for Big Data。 kettle不是很稳定，所以不建议用这个。
3.DataStage，这是IBM为其配套的DB2开发的ETL工具，也可以用于其它数据库数据的集成。最专业的ETL工具，价格不菲，使用难度一般。我们上网查了两天，网上提供的资源都不好用，装了好几个都没法打开，所以也没有办法看用这个工具转移两千万条数据所用的时间。从而没办法比较时间。
4.SQL Server Integration Services ：适用的DB类型：SqlServer，Oracle，DB2，Access,。输入（能读取）的文件类型： Excel，xml，原始文件（是SSIS独有发文件存储机制，只能由Dataa Flow Destination创建）
Oracle- >SQL Server转换工具图：
Oracle- >SQL Server 转移的时候Talend Open Studio for Big Data工具所在电脑性能：
Oracle- >SQL Server 转移的时候SQL Server所在电脑性能：
Oracle- >SQL Server 转移的时候Oracle所在电脑性能（服务器）：
ETL研究报告
1.Talend Open Studio for Big Data是一款开源的数据集成软件包，用户能够使用该产品将数据在Hadoop集群以及企业内部系统(如关系型数据库或数据仓库)之间进行移动。该平台还允许用户创建相关技术的连接器，比如HBase、Pig、Sqoop和Hive等。 Talend Open Studio for Big Data 还提供了针对各种数据库的连接器。适用的DB类型：