informatica组件介绍

合集下载

Informatica PowerCenter常用转换组件使用说明

43;A，Ctrl+C,然后粘贴到word即可。未能直接提供word版，抱歉。
Informatica PowerCenter常用转换组件使用说明
1 Expression 作用：实现基于单行记录的表达式计算，执行任意非聚合计算。用法：创建Expression 组件后，将需要用的字段从上一端口拖曳到Expression 组件，双击组件，打开编辑，新增创建所需的输出端口，只勾选“O”为只输出端口，在“Expression”中编辑表达式，确保分配与表达式返回值相匹配的端口数据类型。输出端口的命名惯例为 OUT_PORTNAME。可以利用一个Expression 组件实现多个表达式转换工作，只要为多个输出端口输入一个表达式，就可以在转换中创建任意多个输出端口。 2 Aggregator 作用：对多组记录执行聚合计算。用法：将需要聚合运行的字段拖曳到Aggregator 组件，双击组件，在Port 选项卡中，勾选要分组的列，新增输出端口，编辑聚合运算表达式。与sort 组件联合使用可提高性能。常用属性： Cache Directory 属性：创建索引和数据高速缓存文件的本地目录。 Sorted Input 属性：指示已按组预排序输入数据。用于改善会话性能。只有当映射将已排序数据传递至聚合转换时，才选择此选项。 Aggregator Data Cache Size 属性：转换的数据高速缓存大小。 Aggregator Index Cache Size 属性：转换的索引高速缓存大小。 Transformation Scope 属性：指定PowerCenter Server 如何将转换逻辑应用于接收数据： -Transaction。将转换逻辑应用于事务中的所有行。如果数据行取决于同事务中的所有行，但与其它事务中的行无关，则选择“Transaction”。 -All Input。将事务逻辑应用于所有传入数据。选择“All Input”时，PowerCenter 将放弃接收事务边界。如果数据行取决于源中的所有行，请选择“All Input”。 4 聚合函数： AVG COUNT FIRST LAST MAX MEDIAN MIN PERCENTILE STDDEV SUM VARIANCE 只允许聚合表达式出现在Aggregator Transformation 组件中。聚合表达式可以包括条件子句和非聚合函数。还可以包括一个嵌入另一聚合函数的聚合函数，例如： MAX(COUNT(ITEM)) 可以在任意输出端口创建聚合表达式并使用转换中的多个聚合端口。

Informatica常用组件Lookup缓存之一概述

Informatica常⽤组件Lookup缓存之⼀概述可以配置查找转换以⾼速缓存查找表。

PowerCenter 将在处理⾼速缓存查找转换中的第⼀个数据⾏时在存储器中建⽴⾼速缓存。

它将根据您在转换或会话特性中配置的数量来分配⾼速缓存区内存。

PowerCenter 会将条件值存储在索引⾼速缓存区中，⽽将输出值存储到数据⾼速缓存区。

PowerCenter 将查询进⼊转换的每⾏的⾼速缓存。

默认情况下，PowerCenter 还将在 $PMCacheDir 中创建⾼速缓存⽂件。

如果数据在存储器⾼速缓存区中放不下，PowerCenter 会将溢出值存储在⾼速缓存⽂件中。

会话完成后，PowerCenter 将释放⾼速缓存区内存并删除⾼速缓存⽂件，除⾮您将查找转换配置为使⽤永久性⾼速缓存。

如果使⽤平⾯⽂件查找，PowerCenter 将总是⾼速缓存查找源。

如果为已排序输⼊配置平⾯⽂件查找，⽽未分组条件列，PowerCenter 将⽆法⾼速缓存查找。

如果对列进⾏了分组，但尚未排序，PowerCenter 将按您没有配置排序输⼊的⽅式来处理查找。

配置查找⾼速缓存时，您可以指定以下任意选项：永久⾼速缓存。

可以保存查找⾼速缓存⽂件并在下次 PowerCenter 处理配置使⽤⾼速缓存的"查找"转换时重新使⽤。

从源重新⾼速缓存。

如果永久⾼速缓存与查找表不同步，则可以配置"查找"转换以重建查找⾼速缓存。

静态⾼速缓存。

可以为任意查找源配置静态或只读⾼速缓存。

默认情况下，PowerCenter 创建静态⾼速缓存。

它会为进⼊转换的⾏⾼速缓存查找⽂件或表并在⾼速缓存中查找值。

条件为真时，PowerCenter 将从查找⾼速缓存返回值。

PowerCenter 处理查找转换时不会更新⾼速缓存。

动态⾼速缓存。

如果要⾼速缓存⽬标表并在⾼速缓存和⽬标中插⼊新⾏或更新现有⾏，则可创建"查找"转换以使⽤动态⾼速缓存。

informatica中常用各组件的功能

Informatica 数据整合分为三类数据集成，即下游集成、中游集成和上游集成下游集成：指数据仓库，显著特点是，从数据流的角度看，数据仓库的主体功能是所有应用系统的下游，所有数据都会流向数据仓库中游集成：指数据交换平台，特点是，任何平台和它的关系都是对等的，它是这个数据枢纽hub的中心点,用来支持所有系统之间数据的数据交换，用于解决数据集成毛团问题。

上游集成：指主数据平台，而且是交易型主数据平台。

用于管理企业核心数据的黄金记录，作为企业核心记录的黄金数据的标准平台。

Informatica 的四个客户端及作用：1，Repository Manager：用于管理Repository本身，如创建文件夹，导入/导出Mapping、Worlkfolw，版本管理，部署，Repository的清除。

2，Designer：用于导入ETL元数据，开发ETL程序。

在Power Center中ETL程序被叫做Mapping，即源到目标的映射。

3，Workflow Manager：用于对Mapping的进行数据源、数据目标、使用的字符集、调优及参数配置等，使Mapping能够运行。

此外，还提供了基本的调度和排程的能力。

4，Workflow Monitor：用于监控运行时的Workflow和session，监控ETL运行是否正常、执行效率及异常时的错误信息。

Power Center的开发过程：0，使用PowerCenter客户端连接域（Domian）和数据库服务器Repository Service；建立一个文件夹（Folder），用于开发学习；1，在客户端PowerCenter Designer中导入源表和目标表的结构定义；注：在Power Center Designer中导入的仅仅是表结构，与执行过程的表名无强相关2，在Designer中，创建Mapping（ETL流程）3，在Designer中，拖动源和目标，以及相应组件进入Mapping4，在Designer中，建立源和目标，以及相应组件之间的映射5，在Workflow Manager中提供相应的配置信息及参数6，通过Workflow Monitor客户端进行监控7，预览执行结果重要概念：Mapping：是一个程序，但它不直接可以执行Session：是一个Mapping的实例，指定相关的配置信息后，可以执行；Workflow：可以执行一个或者多个Session，对Session或者其他Task组件进行排程基础组件：1，Source：源文件数据源可以是数据库表，文本文件，XML文件，SAP等,应用系统、Hadoop，MQ等源文件常用方法：手工创建，通过数据库、文本文件、样例文件导入注意：理论上，源表结构定义继承了数据库中表的定义，但是实践中有可能导入后的数据类型发生变化，如表中varchar2，而导入后变为nvarchar2，从而引起Session执行异常。

Informatica Transaction Control组件描述

Transaction Control组件Active输入输出行数不同Connected连接组件组件概述PowerCenter可以根据流经过Transaction Control组件的一组数据来控制事务的操作类型：提交或者回滚。

事务包含受限于提交或者回滚的数据行。

可以通过输入行中一个变化的数值来定义一个事务，也可以通过一组已经排序了的数据来定义一个事务，比如员工id、日期。

在PowerCenter中，可以应用Transaction Control组件在mapping或者session 中：Mapping：在mapping中，通过Transaction Control组件定义一个事务。

在组件中根据一个表达式定义一个事务。

根据表达式的返回值，可以选择commit、roll back 或者continue不做任何变化。

Session：在配置session的时候可以自己定义事务。

在Integration Service向目标中写数据失败时，可以选择提交或者回滚。

在执行session的时候，Integration Service判断组件输入的每一行，当输入行事务类型为commit时，Integration Service提交所有行至目标。

当输入行事务类型为回滚时，Integration Service从目标中回滚该事务的所有行。

如果mapping的目标为文件时，Integration Service每开始一个新的事务时生成一个新的动态命名的输出文件。

Note：也可以通过其他的组件属性来定义事务。

组件属性使用Transaction Control组件定义事务目标的提交、回滚条件。

事务目标包含：relational, XML, and dynamic MQSeries。

在Properties tab中控制表达式中定义以下参数，事务是一行或者一组数据，受限于提交或者回滚行。

每个事务的行数是变化的。

Transformation tab：在这个tab中可以重命名组件名称和增加组件说明Ports tab:增加输入输出端口Properties tab:定义事务控制表达式，标志出：commit, roll back, or no actionMetadata Extensions tab:You can extend the metadata stored in the repository by associating information with the Transaction Control transformation.Properties Tab通过该tab可以定义以下两个属性:Transaction control expressionTracing level事务控制表达式使用IIF函数来检查每一行是否满足条件。

Informatica介绍

Informatica目录创立于 1993 年，总部位于 Redwood City, California of USA 的Informatica （ Nasdaq:INFA ）公司，作为电子商务分析型软件市场的领先者，一直致力于通过自身的产品和服务提升企业的竞争性优势。

其拳头产品 Informatica Insight Network(Infrastructure and Analytics) 已被全球 1 ， 800 多家企业用来集成、分析和个性化企业的关键商务信息，优化整个商务价值链的表现和响应速度。

拥有包括 Citigroup, Deutsche Bank, AT&T, British Telecom, Motorola, Cisco, HP, Boeing, National Semiconductor, Timer Warner, News Group 在内的广泛的客户群。

Agent Logic 拥有商业和公共领域的客户，包括美国国家安全局。

在公共领域，Agent Logic 可以促进海域感知、地理空间跟踪以及战场命令和控制。

在商业领域，Agent Logic 能够通过符合相关差旅和开支政策的规则，帮助控制与公司信用卡计划有关的成本。

Agent Logic 将进一步加强 Informatica 在公共领域的业务，特别是美国联邦政府。

编辑本段Informatica在全球Informatica，1993年创立于美国加利福尼亚州，并于1999年4月在纳斯达克上市。

作为全球领先的企业数据集成解决方案提供商，Informatica提供专业数据集成软件和服务，以解决系统间的数据碎片问题，从而帮助企业获得了数据的更大商业价值。

Informatica开放、独立于平台的软件降低了企业IT的运营成本、加快了产出速度，可伸缩处理不同规模或不同复杂程度的数据集成项目。

Informatica拥有遍布全球的客户关系网络，其出色的成功案例显示，Informatica将帮助更多的企业和政府机构实现其企业数据的商业价值。

Informatica组件应用详解

Informatica组件应⽤详解Informatica组件介绍⼀、update的功能Update 主要是与lookup相组合的搭档。

根据lookup来与源表数据相对⽐，来跟新数据数据抽取。

它起到⼀个插⼊和拒绝的作⽤。

1.Powercenter的更新策略包括两个⽅⾯：A.在Mapping中：⽤Update Strategy Transformation标识⾏为Insert，Update，Delete或者Reject；B.在Session中：配置Treat source row as 属性（Insert，Update，Delete或者Data driven），配置Target的属性（Insert，Update [as Update](只是更新) | [as Insert](把更新视为新增) | [else Insert](先更新,更新不到则新增) ，Delete，Truncate target table option）；2.在Update Strategy Expression中可以输⼊常量（DD_INSERT， DD_UPDATE，DD_DELETE， DD_REJECT）或者数字值（0，1，2，3），其它数字值被解析为0，可以⽤IIF或者DECODE函数构建逻辑表达式来区别每⼀⾏的更新策略；3.Forward Rejected Rows：勾选时被Rejected的⾏会存⼊对应Target配置的Reject⽂件中去，不选时，可能会写⼊Session Log中去，根椐当前Transformation的Tracing Level的属性来决定；如果在会话属性中配置了出错⾏⽇志属性，则不会⽣成Reject⽂件；⼆、Expression 的功能表达式编辑器可以使⽤不同的颜⾊来标记表达式的语法，以便很好的阅读。

如果你有最新的Rich Edit，riched20.dll，安装到了系统，表达式显⽰表达式函数为兰⾊，注释式灰⾊，引⽤的字符串式绿⾊。

Informatica _组件使用介绍及优化

CURRVAL 是 NEXTVAL 加上“增量”值。当 NEXTVAL 端口已连接下游转换时，您通常只需要连接 CURRVAL 端口。当行输入连接到 CURRVAL 端口的转换时， PowerCenterServer 会传递最后创建的 NEXTVAL 值加 1。
16
常用属性介绍： Start Value 属性：已生成序列的开始值。如果勾选“Cycle”，当序列达到结束值时循环回此值。 Increment By 属性：增量值。默认值为 1。 End Value 属性：结束值。如果序列值达到此值，但未勾选“Cycle”，则Session 将失败。 Current Value 属性：序列的当前值。 Cycle 属性：是否循环。(勾选后会按顺序生成序列，重新执行序列不会重复，未勾选时，重新执行序列会产生重复值) Number of Cached Values 属性：一次高速缓存的序列值数。当多个会话使用相同的可再用序列生成器时，使用此选项可以确保每个会话收到唯一的值。 Reset 属性：如果勾选，则每个Session 会初始当前值。
10
Union组件
11
作用：合并多个数据源到一个结果集。与执行“UNION ALL”SQL 语句结果相似，联合转换不会删除重复行。
使用规则：
可以创建多个输入组，但只能创建一个输出组。所有输入组和输出组均必须具有匹配的端口。所有组中的精度、数据类型和标度必须相同。联合转换不会删除重复行。要删除重复行，您必须添加另一个转换，例如Router 或 Filter转换。不能使用以Union 组件作为上游的序列生成器或更新策略转换。联合转换不会生成事务。选项卡设置： “Groups”选项卡。您可以创建和删除输入组。在“Ports”选项卡上能显示创建了的组。

informatica 面试题

informatica 面试题Informatica面试题在数据处理和数据集成领域，Informatica是一家领先的软件公司，其技术和解决方案被广泛应用于企业中。

如果你正在为Informatica面试做准备，那么本文将提供一些常见的Informatica面试题，并为你提供详细的回答。

1. 什么是Informatica？它在数据集成中扮演了什么角色？Informatica是一种企业级数据集成和管理解决方案。

它提供了一套强大的工具和技术，用于数据抽取、转换和加载（ETL）等任务。

通过使用Informatica，企业可以将来自不同数据源的数据整合到一个统一的数据仓库中，并提供准确、一致的数据结果。

2. Informatica的主要组件是什么？请简要描述它们的功能。

Informatica的主要组件包括：- PowerCenter：这是Informatica的核心组件，用于数据整合和ETL。

它提供了一个集成的环境，用于开发、部署和监控数据集成任务。

- PowerExchange：它是一个提供与外部数据源（如关系数据库、文件系统等）通信的插件框架。

- PowerMart：这是一个基于Web的工具，用于创建和发布简单的数据仓库。

- PowerDesigner：它是一个用于建模和设计数据仓库的工具。

- Metadata Manager：它用于管理和浏览不同数据源中的元数据，以支持数据整合和分析。

3. Informatica中的工作流是什么？它是如何工作的？工作流是Informatica中用于管理和执行任务的一种方式。

工作流由多个任务（任务是数据整合的不同阶段或步骤）组成，并按照预定的顺序执行。

每个任务都可以定义为数据抽取、清洗、转换或加载等操作。

工作流具有以下主要特点：- 有向无环图（DAG）结构：工作流中的任务按照特定的依赖关系组成一个有向无环图。

每个任务都依赖于其他任务的输出结果，并且没有循环依赖。

- 并行处理：工作流中的任务可以以并行或串行方式运行。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

3
3
Powcenter -组件总体介绍数据转换组件 7、Union组件：联合组件 8、Lookup组件：查找组件 9、Stored Procedure组件：调用存储过程组件 10、Sequence Generator组件：生成序列号组件 11、Input/Output组件：输入/输出组件数据装载组件 1、Update Strategy组件：插入/更新/删除/拒绝组件
引用变量

引用参数
51
51
简单实例演示
52
Thank You！
53
37
数据转换组件-Lookup组件（未连接四） 4、输出字段的值流向下一个组件；
输出字段
调用未连接 Lookup组件
38
38
数据转换组件-Stored Procedure组件（带参数一）功能：调用存储过程（带参数）。特点： 1、在数据库中建立存储过程，在Design Mapping 导入存储过程；
数据转换组件-Stored Procedure组件（不带参数）功能：调用存储过程（指不带参数）。特点： 1、在数据库中建立对应的存储过程； 2、在session中的Pre SQL/Post SQL选项调用存储过程，表示session执行之前或执行之后调用存储过程；

42
42
数据转换组件-Sequence Generator组件（一）功能：生成序列号。特点： 1、序列号组件默认有NEXTVAL、 CURRVAL两个字段，只有输出端口，没有输入端口；
使用 Group By
进行计算
21
21
数据转换组件-Filter组件（一）功能：根据条件过滤不符合条件的行。特点： 1、过滤条件就是可以返回真或假的表达式，如果表达式的值为真记录就进入下一个组件，为假就过滤；

过滤组件
22
22
数据转换组件-Filter组件（二）双击FILTER组件打开组件的Properties TAB设置过滤条件

未连接的Lookup
30
30
数据转换组件-Lookup组件（连接二） 3、在Ports TAB为设置输入端口、输出端口、条件端口；
L表示查询条件
R表示返回值端口
31
31
数据转换组件-Lookup组件（连接三） 4、在Condition TAB为设置查找条件；
查找值
条件表达式
输入字段
32
32

4
4
数据抽取组件-Source Qualifier（一）功能：根据查询SQL从关系表或文本文件查出所要记录；特点： 1、每个数据源后面都会带一个Source Qualifier组件；

关系表源
Source Qualifer组件
5
5
数据抽取组件-Source Qualifier（二） 2、连接同构的源数据，可以连接多个表；异构数据源，需要使用JOIN组件；
10
10
数据抽取组件-文本文件导入（三） 3、不支持Excel数据导入，Excel文件要另存为扩展名为 csv的文件才可以导入；
11
11
数据抽取组件-XML源文件导入功能：XML源数据导入特点： 1、选择Source->Import XML Definition导入XML源数据的数据结构； 2、在Session指定XML文件所在的目录；
Pre SQL
Post SQL
8
8
数据抽取组件-文本文件导入（一）功能：文本文件源数据导入特点： 1、选择Source->Import from File导入文本文件源数据的数据结构，分隔符可以自己定义；

定义分隔符
9
9
数据抽取组件-文本文件导入（二） 2、指定文本文件所在的目录，可预览数据；
Source Qualifier 组件
6
6
数据抽取组件-Source Qualifier（三） 3、定制SELECT语句来读取源数据，去除重复记录、增加过滤条件、关联条件等；
7
7
数据抽取组件-Source Qualifier（四） 4、可以在执行数据抽取之前（Pre SQL）或者执行数据抽取（Post SQL）之后对数据进行处理（可以调用 SQL脚本、调用存储过程）；

39
39
数据转换组件-Stored Procedure组件（带参数一） 2、连接存储过程的输入字段（表示传入的参数）、输出字段（表示返回值）；
存储过程组件
40
40
数据转换组件-Stored Procedure组件（带参数一） 3、在Ports TAB为设置输入端口、输出端口、返回值；
41
41

15
15
数据转换组件-Normalizer（二） 2、在Normalizer TAB里面进行设置Occurs；
表示记录出现的次数
16
16
数据转换组件-Expression组件（一）功能：执行非汇总的计算特点： 1、在Port中“I（表示Input输入）”“O（表示Output输入）”“V（表示Variable变量）”，如果“O”打勾并在Expression中设置默认值表示设置常量；
Informatica 基础开发
主讲人：黄祝康日期：2014-2-28
Service
1
目录
1.客户端简介 2.ETL抽取前准备 3.ETL任务设计步骤 4.简单实例演示

2
Powcenter -组件总体介绍数据抽取组件 1、Source Qualifier：数据源编辑组件 2、文本文件导入 3、XML文件导入 4、JOIN组件：关联组件数据转换组件 1、Normalizer：行转换列组件 2、Expression组件：表达式组件 3、Aggregator组件：聚合组件 4、Filter组件：过滤组件 5、Router组件：路由组件 6、Sorter组件：排序组件
设置3个分组条件
25
25
数据转换组件-Sorter组件（一）功能：对数据行进行排序。特点： 1、在一个mapping里建立该组件，指定多个用来排序的端口；

Sorter组件
26
26
数据转换组件-Sorter组件（二） 2、指定升序或者降序；
指定升降序
27
27
数据转换组件-Union组件（一）功能：把不同种类或同种类的源合并到一起，相当于 SQL语句的UNION ALL。特点： 1、可以设置多个输入，只能一个输出；
设置对目标表的操作
49
49
Powcenter-定义变量和参数（ mapping ）功能：用来代替一个mapping多次用到同一个值特点： 1、变量的值在运行过程会发生变化；参数是一个常量值，在运行过程中不能修改的值。

定义变量
定义参数
50
50
Powcenter-引用变量和参数（ mapping ）功能：在表达式中引用变量和参数
Output组件
Input组件
47
47
数据装载组件-Update Strategy组件（一）功能：处理一个被标记的行，可以插入、删除、更新、拒绝。特点： 1、该组件要和Lookup、Expression组件一起配合使用；

Update组件
48
48
数据装载组件-Update Strategy组件 2、根据前面组件的判断标志进行插入、更新、删除；

43
43
数据转换组件-Sequence Generator组件（二） 2、设置开始值，每次递增的值； 3、设置循环使用序列号，当序列号当前值到达最大值时，重置序列号为初始值；
设置循环
44
44
数据转换组件-Sequence Generator组件（三） 4、设置重置初始值，指在每运行完一次后，序列号自动重置为初始值。
设置过滤条件
23
23
数据转换组件-Router组件（一）功能：类似于FILTER组件，都是过滤不符合条件的行，但是FILTER只有一组条件，而Router可有一个或者多组条件。特点： 1、一个输入，有多个输出；

Router组件 24
24
数据转换组件-Router组件（二） 2、该组件的功能类似于SQL的case when语句； 3、要在Groups里面设置分组条件；
设成重置
45
45
数据转换组件- Mpplet（一）功能：传入输入值，传出输出值，做成可多次调用的 mapplet。特点： 1、 Input/Output组件用来做成重用Mpplet组件供其它Mapping调用；

调用Mpplet
46
46
数据转换组件- Mpplet（二） 2、右键Mpplet组件打开该组件，Input用来接收值的输入，Output用于值的输出，Input和Output之间可以有很多的转换过程； 3、Input不能直接接收源数据的输入， Output不能直接把数据导入数据库；

XML源文件 12
12
数据抽取组件-Joiner（一）功能：实现同构或者异构源数据关联；特点： 1、一次只能关联2个源数据，如果是N个源数据，就要 N-1个Joiner 进行关联； 2、文本文件和关系表源数据关联、不同数据库的关系表源数据关联； 3、对数据进行排序再进行关联；

13
13
数据抽取组件-Joiner（二） 4、可以指定关联类型，关联类型有Normal Join、 Master Outer Join Detail、Detail Outer Join、Full Outer Join4种；