Informatica学习笔记

合集下载

Informatica学习以及遇到的问题总结-陈朋

Informatica学习以及遇到的问题总结-陈朋

深航Informatica学习总结修改记录框架:一、总体概述ETL 包括 Extract 、 Transform 、 Cleaning 和 Load ,它是用于从生产库中提取数据到数据仓库中,再由具体的报表、统计、分析工具对数据仓库的内容进行分析,分析出自己所需要的数据。

其中 ETL 培训的内容是如何利用 Informatic PowerCenter 把源数据库的内容提取存放到目标数据库中,四部分 Client , Reposity Server , Reposity Database 和 Informatic Server 每个部分实现自己的功能。

二、系统体系结构此部分介绍了 Informatic ETL 工具包括的主要内容。

1.ClientInformatic Client 主要有五个部分。

Client 可以和 Reposity 分离,通过 TCP/IP 连接,连接到远程的 Reposity Server 。

2. Reposity Manager主要用于进行一个 Reposity 库的管理,当用户使用 Client 工具登录一个 Reposity 服务器之后,进行文件夹权限的创建,用户权限、密码的管理等。

3. Designer主要是进行数据抽取的转换工具的设计,主要是 mapping 的设计、设计源数据库的结构,目标数据库的结构,然后设计把源数据导入到目标数据库中,所需要进行的转换操作( Transformation )。

同一个 Reposity 的 folder 之间可以建立 shortcut 方式,多个 reposity 的 folder 之间只能做拷贝。

4. Workflow Manager主要用于流程任务( workflow Task )的设计。

进行任务流程的设计、每一个 Tast 针对一个 Session ,一个 session 针对一个 mapping ,其中 workflow 中的 Folder 和 Designer 中的 folder 相对应的关系。

Informatica元数据管理..

Informatica元数据管理..

7
CWM元模型的包结构
管理
仓库过程
分析
仓库操作 数据 挖掘
转换
资源
OLAP 分析
信息可视化
业务术语
对象 (UML) 关系型资源
数据 类型
记录型
键 索引
多维
XML
基础
业务信息
表达式
类型映射
软件发布
对象模型
UML 1.3 (基础,行为元素,模型管理)
8


元数据基础知识
MM软件架构
MM软件特点 元数据应用案例
ETL
BI
CASE
ERP
XML
Flat Files
?
DBMS EAI MS Office
Others
20
可扩展的Web-Based体系结构--灵活的开发和部署
• • •
百分之百基于Web J2EE兼容平台 内嵌的私有化设置 对象和功能层次的许可 可扩展性 任何信息, 任何关联, 任何元数据模型 (基于OMG MOF协议) 友好的入口 Web服务, 完全SDK 没有隐藏的议程 开放的关系型数据库, 操作系统, 服务器支持
9
Informatica Metadata Manager 体系结构
Data Modeling
Metadata
Custom Metadata Metadata
Business Intelligence
Metadata Manager
Sources
Metadata Metadata
Targets
Metadata
ETL BI
- PowerCenter 6.x, 7.x*
- PowerMart 6.x, 7.x*

Informatica学习以及遇到的问题总结陈朋

Informatica学习以及遇到的问题总结陈朋

深航Informatica学习总结修改记录编写2016/3/9框架:一、总体概述ETL 包括 Extract 、 Transform 、 Cleaning 和 Load ,它是用于从生产库中提取数据到数据仓库中,再由具体的报表、统计、分析工具对数据仓库的内容进行分析,分析出自己所需要的数据。

其中 ETL 培训的内容是如何利用 Informatic PowerCenter 把源数据库的内容提取存放到目标数据库中,四部分 Client , Reposity Server , Reposity Database 和 Informatic Server 每个部分实现自己的功能。

二、系统体系结构此部分介绍了 Informatic ETL 工具包括的主要内容。

1.ClientInformatic Client 主要有五个部分。

Client 可以和 Reposity 分离,通过 TCP/IP 连接,连接到远程的 Reposity Server 。

2. Reposity Manager主要用于进行一个 Reposity 库的管理,当用户使用 Client 工具登录一个 Reposity 服务器之后,进行文件夹权限的创建,用户权限、密码的管理等。

3. Designer主要是进行数据抽取的转换工具的设计,主要是 mapping 的设计、设计源数据库的结构,目标数据库的结构,然后设计把源数据导入到目标数据库中,所需要进行的转换操作( Transformation )。

同一个 Reposity 的 folder 之间可以建立 shortcut 方式,多个 reposity 的 folder 之间只能做拷贝。

4. Workflow Manager主要用于流程任务( workflow Task )的设计。

进行任务流程的设计、每一个 Tast 针对一个 Session ,一个 session 针对一个 mapping ,其中 workflow 中的 Folder 和 Designer 中的 folder 相对应的关系。

informatica 学习日记

informatica 学习日记

informatica 学习日记1. INFORMATICA CLIENT的使用1.1 Repository Manager 的使用1.1.1 创建Repository。

前提:a. 在ODBC数据源管理器中新建一个数据源连接至你要创建Repository的数据库(例:jzjxdev)b. 要在你要连接的数据库中新建一个用户(例:name: ETL password: ETL)现在你可以创建一个Repository了。

选择Repository – Create Repository,输入Repository Name(例:JZJX),DatabaseUsername(例:etl),Database Password(例:etl),ODBC Data Source(例:jzjxdev),Native Connect String(数据库所在ip例:141.20.52.108)1.1.2 添加Repository。

通过这一步你可以添加别人已经建好的Repository。

选择Repository – Add Repository,输入Repository Name(例:JZJX),Username(例:etl),点击ok就可以看到名为JZJX的Repository在左边的浏览器中,但是此时还看不到它的内容,要看到它的内容或者对它进行操作必须先连接它。

1.1.3 添加Folder选择Folder – Create,输入文件夹名称即可。

1.2 Designer 的使用首先连接Repository,可以看到该Repository在Repository Manager中创建的文件夹。

1.2.1 SourcesSources文件夹下的表是抽取的来源表。

导入方法:选择Tools菜单下的Source Analyzer,然后选择Sources菜单下的Importfrom database,连接想要连接的数据库,连接上后选择你要抽取的表点击ok你所选择的表就会出现在Sources文件夹下。

informatica 厂商培训资料

informatica 厂商培训资料

、中与的理解:类似于局域网,就是局域网中的节点或者计算机。

应与在数据库中存储在不同的中,此处指操作的内容。

、中与:工作引擎;:管理引擎,管理;与工作流程为:客户端发请求到,调用完成各种操作,其中,工作过程中会访问进行元数据信息、规则等访问,并将,的结果状态等存储到。

一般一个对应一个,当一个一个要对应多个时,涉及,将多个放在一个下,一个对应一个。

、与端配置一般配置时,尽可能选择,的性能高于,但是的兼容性和适用性高。

端:用于过程中实际存取读写数据;端:用于导入表,即元数据。

、中数据处理方式为并行处理,即管道式处理。

、分区分区使处理方式由单线程变成多线程,一个连接变成多个连接。

分区后,当使用汇总、关联等组件时可自动保证数据结果的正确性。

在汇总、关联之前,若数据已进行排序,且组件中已排序属性已勾选,则数据为流式通过;否则,需数据全量到达然后进行处理。

、集群:既可支持单机,也可建立集群环境。

而且,集群环境可以异构,即不限定等;在集群环境中,任务可通过以下三种方式分发:第一种:轮询;第二种:动态控制,需在文件中进行配置;第三种:建立与的映射表(,然后在文件中进行配置该映射表?)。

无论采取哪种方式,都可以保证的执行顺序,因为的执行顺序是由中表(表名貌似是)存储。

、增值服务组件:,可自动接管坏点启用方式为:运行时以方式运行;要求:需在磁盘中建立共享存储,并配置主从节点。

、规则文档映射中可导出成文件,并包含各种。

使用方式:在客户端组件中,选择要导出的,右键菜单。

、批量开发利用组件,可实现批量过程开发,尤其适用于平推。

(具体转化方式不详)、增量采集主要适用于可做增量的,如。

先,然后。

(具体抓取方式需查询相关文档)、下推优化:指导方针:平衡与的负载。

原理:将下推部分转化成,在中实现。

可实现下推和下推。

使用方法:中菜单下有选项。

、数据校验插件可创建,代替手工校验。

、前瞻监控、调优:、减少、减少过程中数据量,尽早、避免不必要排序,、中符号比表达式性能高中有变量端口,可生成中间量,重复使用中尽量少嵌套,可用高级函数代替、尽量避免类型转换、、的统计信息除了在中,中也有、中各参数:占用的全部内存(内存块个数):内存块大小(中所有的数据量的整数倍):当源是文件时,文件记录长度:最大内存块数、调优:尽量关闭日志;目标加载前利用删除索引约束,加载完成后利用重建索引约束;提交间隔可稍微设置大一些;关闭统计信息收集;设置各种参数;数据装载方式尽量选择、文件与文件的区别:具体参见各组件使用的文件夹配置名称,如组件使用文件夹,组件使用文件夹。

Informatic学习

Informatic学习

创建数据库连接
选择菜单Connections——>Relational ,在Relational Connection Browser对话框中,选择数据库,如DB2 ,在对话框中,点击New
在Connection Object Definition对话框中,输入连接名字、数据库用户名 、数据库密码及连接串,点击OK确认
配置连接
配置hosts文件

进入PowerCenter Repository Manager开发界面

配置域 点击菜单Repository——>Configure Domains,如下图所 示
填写Domain信息,点击OK确认,如下图所示

连接知识库,填写用户名和密码,如下图所示,点击 Connect ,连接后如下图

对目标表也同样指定数据库的连接
创建Workflow
点击Workflow Designer按钮 ,进入Workflow Designer界面
选择菜单Workflows——>Create ,在Create Workflow对话框中,输入 Workflow的名字,如下图所示,点击确认按钮
将相应的Session拖到Workflow Designer工作区中,点击连接线按钮, 将Start和Session连接起来
Informatica8.1.1
0
Informatica服务器端工具
Informatica PowerCenter Administrator Console是 Informatica服务器端的重要工具,运用该工具可实现对 Informatica的启动、关闭、创建知识库等一系列操作。
登录Informatica PowerCenter Administrator Console

informaticapowercenter学习笔记(LookUp使用)

informaticapowercenter学习笔记(LookUp使用)

informaticapowercenter学习笔记(LookUp使⽤)LOOKUP TRANSFORMATION的使⽤点评:LOOKUP基本⽤法不熟的话请参考下附属信息。

⽤法感受:1 LOOKUP的作⽤跟我们以前在EXCEL的函数功能类似,就是隔表取值。

优点就是⽤ETL⼯具可以设置CACHE,⼤量的数据也可以实现这个功能。

数据量⼤的话要设置CACHE ENABLE并调⾼CACHE SIZE的值。

2 LOOKUP 有CONNECTED 和UNCONNECTED的两种,根据需要⽽⽤,如果很多字段要取对应的这个值的话,就⽤UNCONNECTED.在具体项⽬中要⼩⼼LOOKUP来处理维度列的情况,我⽬前项⽬中就发现,在LOOKUP中根据⼏列来取出主键,结果数据并不完全能唯⼀区别,最后要做数据清理或引⼊代理键。

3 关于缓慢变化维处理,⽤LOOKUP加UPDATESTRATERY组件就可实现缓慢变化维的更新或插⼊,这是数据仓库项⽬中处理缓慢变化维⽐较经典的⽤法,我认为。

顺带粘贴些关于LOOKUP的参考信息,了解的,请忽略以下信息,呵呵:Lookup概要描述 获得⼀个关联的值。

例如:源⾥包含employee ID,但你还需要employee name。

⽤于计算的植。

例如:只是汇率或者个⼈所得税之类的固定数值,不是计算得出来的数据。

Update slowly changing dimension tables。

主要是根据条件查出原表,若查出了,就把⾃⼰添加的标志位设为真,否则就设置为假。

Connected or unconnected Connected 和 unconnected 的transformations的输⼊和输出是不同的,不同点如表2列出的。

表2Connected Lookup Unconnected Lookup从 pipeline获得输⼊。

从另⼀个transformation的:LKP的表达式获得输⼊。

INFORMATICA总结

INFORMATICA总结

Informatica总结rmatica中关键词:(一)源表:即源表来自于数据库的表,例如在job100下面的源表是一些PRPCmain、CD码表、ODS表等一些表主要是来自于核心生产库中的表;job200下面的源表是些CD、ODS、MID表;job300下面的源表主要是CD、ODS、MID、olap表。

(二)元数据:元数据就是来自于数据库的基本表,起初的表(三)目标表:在执行完一个job后最终将数据存储在的表即目标表。

(四)映射:简单来讲将源表的数据导入目标表的过程就是一个映射。

(五)工作集:在一个job中执行的转化其中的每一个过程就相当于一个工作集。

(六)工作流:相当于在kettle中执行一个job的过程。

2.designer界面主要是定义源表和目标表生成映射的过程。

3.workflow界面编辑工作集执行工作流的过程。

4.monitor界面主要是为了执行完工作流之后查看工作日志的过程。

关于数据库方面(1).在Informatica中创建源和目标表的时候:在designer中创建源:来自于核心生产库在本地的配置文件中进行配置创建目标表:来自MIS生产库或者是测试库在本地的配置文件中进行配置根据这个路径E:\oracle\product\10.2.0\db_1\network\admin\tnsnames.ora找出.ora文件(2)创建工作流和工作集的时候:在workflow中,在进行启动的时候:在进行刷数参数配置在C:\Windows\System32\drivers\etc添加88.22.34.188 zj-misetl路径:/home/info_param data_param_test.txt文件是在windows32相对应的文件夹的下面在启动工作流的时候:配置数据库的文件不在本地文件中而是在Linux系统下面所以需要和Linux系统相连,通过xftp连接Linux系统,找到配置数据库的时候需要的文件。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

摘要:Informatica学习笔记1:UPDATE AS INSERTInformatica学习笔记2:客户端连接服务器的问题Informatica学习笔记3:workflow的问题Informatica学习笔记4:Folder权限的问题Informatica学习笔记6:建立workflow的问题Informatica学习笔记7:workflow执行报错Informatica学习笔记8:提示joiner输入字段没有排序Informatica学习笔记9:import一系列mappingInformatica学习笔记10:复制数据库的问题Informatica学习笔记11:informatica services不能启动Informatica学习笔记12:从mysql抽取数据的字符集问题Informatica学习笔记13:没有Lincense导致的问题Informatica学习笔记14:lookup中自定义sql有问题Informatica学习笔记15:infopower如何实现增量抽取?Informatica学习笔记16:informatica 8.1 安装问题Informatica学习笔记17:如何在PowerCenter中实现累加SUMInformatica学习笔记18:PC8.1运行出错Informatica学习笔记19:多行记录合并问题———————————————————————————Informatica学习笔记1:UPDATE AS INSERT问:要求实现每天抽取数据,而且是如果有改变才抽取更新,没有就不更新,因为源表中有最后修改时间的字段,我让它和SESSION上次运行时间比较来解决是否抽取,但问题是有的表中没有主键,我该怎么实现更新呢?有主键的我在WORKFLOW的MAPPING里面勾上了UPDATE ELSE INSERT那没主键的用 UPDATE AS INSERT 行么?还有UPDATE AS INSERT 什么意思啊,能解释的形象点么?答:UPDATE AS INSERT 就是语句一: update tab_name set c1= value1 ,c2 = value2 where c_prikey = val ue_pri语句二: insert into tab_name values(******)当在 tab_name的c_prikey找到有等于value_pri的,就执行语句一把所有对应的记录update。

当没有匹配的,就执行语句二。

你可以powercenter的 source defination中的自己定义主键,也可以直接 override update sql,可以不用理会真实表结构中是否有主键Informatica学习笔记2:客户端连接服务器问:我通过客户端连接到服务器,做了一个workflow,运行的时候出现错误,说是服务器连接不上repository server和infomatic server他俩的port是不是要一样还是不需要?答:看看server 的配置..我想可能是没有配置好.问:Repository server服务起来了,就是informatica server起不来了,在配置的时候,是informatica server的ip解析不出来,怎么才能把那个地址和主机对应起来答:1.直接写IP2.编辑客户端的%WINDOWS%/SYSTEM32/DRIVERS/ETC/HOSTS文件,把ip与名字的对应关系加进去,客户端这台机器就可以自己解析了3.找DNS或者什么解析服务器搞定。

问:informatica server装在unix操作系统下,能不能找到配置informatica server的配置文件对应的是那一个文件.答:unix下缺省是pmserver.cfg,可以用pmconfig这个命令行工具修改配置文件,也可以直接打开编辑。

如果不是缺省的配置文件名可以通过, ps -efl|grep pmserver看看是哪个文件名。

问:谢谢,pmserver.cfg这个文件中的配置信息我看过了,里面设置的都是repository server ip:192.168.0.1和port:6001,怎么找不到配置的informatica server的ip:192.168.0.1和port:4001我是想知道这个信息在配置文件中能找到吗?答:这个是在workflow manager里面注册的。

双击server名字就看得到了。

问:是的,我在workflow manager里看到过,只要在那里注册好了就行了吗,我想它应该存放在什么位置所以想搞清楚,还是谢谢你.答:他存放在策略库的opb_server_info表里面,呵呵。

你也可以试试看直接改数据库。

不过直接改数据库这种事情要悄悄的干,被david知道了要打pp的。

Informatica学习笔记3:workflow问题问:创建一个工作流从一个txt文件到目标表,是不是要定义.par参数文件有没有谁有这方面的资料教程,给我发一份,非常感谢!~我创建了一个,运行的时候出错了:(Server10) Start workflow: Request acknowledged(Server10) Start workflow: ERROR: Error in starting execution of work flow [id = 8] [wf_s_m_test]. Please check the server log for more inf ormation.答:没必要非得定义参数文件,直接在session 中,指定路径和文件名就行..如果是同结构批量的文件,可以用file list 功能..参数文件也能作,相对来说是在外部控制路径和文件名,比较动态了.那个错,不是让你去看 server log 吗.. 去看看了.window 平台,default 去看事件管理器Informatica学习笔记4:Folder权限的问题问:Informatica用不同的用户创建的不同的folder,互相看不见是什么原因那?答:保护机制的作用,建folder的时候,在安全选项里可以设置!~把read权限赋给 repository user就可以了也有可能是启用了 version control 的原因Informatica学习笔记5:建立Repositories的时候出错问:我的Infromatica是安装在英文版的Windows环境下的,Matadata要放在Oracle9i中,可是当我在建立Repository的时候怎么也连接不上我的Oracle9i 数据库,而我用其他方式连接数据库是畅通的,在Windows的事件查看中看到如下信息:(368|752) Failure in running command-line request type[100401] [pmrep agent create -r "TCS" -t "Oracle" -u informatica -c Oradb -d "MS1252" -h tcs-china.db -o 9999 -H "tcs-china.db" -O 5001 -K 2082340862]. Er ror is [An error occurred while creating the repository.].答:建repository在"Repository Server Administration Console"里面可以找到Active Log的,可以看看出错信息,出错多的好像都是插入一个LONG的值,通常建策略库出问题都是字符集捣的鬼,几个地方要注意数据库的字符集,系统NLS_LANG环境变量,操作系统的缺省字符集(windows在地区设置里面看,还有缺省输入法也可能影响),理论上不同的字符集只要是可转换的,都是可以的,不过弄成一样的比较简单了。

问:谢谢guruhao的提示和帮助,我决定将Oracle和Informatica重新安装一下再来测试一次,我的操作系统的缺省字符集(windows在地区设置里面)是china系统NLS_LANG环境变量是N/A答:这一段都是正常的,drop table不成功,属于建库之前清理表的动作,还要往后,大约在中间的位置。

有个真正的插入数据的错,你最好设置一下NLS_LANG使之与oracle server的字符集相匹配。

it should be Oracle characterset is not same in Oracle Server and cli ent.Informatica学习笔记6:建立workflow的问题问:我用powercenter8建立一个mapping后,在workflow manager中建立了workflow,但是运行这个workflow时却提示以下错误信息:Could not start execution of this workflow because the current run on this Integration Service has not completed yet我检查了一下:server中的各服务已经正常启动了,但是就是运行时出现这种情况,请问是什么原因导致的??以及怎样解决呢???各位知道的就请说一下吧。

答:该错误应该是说你建的这个workflow正在运行,且还没有结束,因而你不可以再次启动该工作流。

你可以通过Monitor观察一下。

问:该错误应该是说你建的这个workflow正在运行,且还没有结束,因而你不可以再次启动该工作流。

你可以通过Monitor观察一下。

但是我在monitor中又看不到任何的session在运行啊~答:将你的informatica server在service里重新启动后再运行看看(问:过一阵子之后再运行就正常了。

不知道为什么?怪怪的~~~)Informatica学习笔记7:workflow执行报错问:我在执行某个workflow 的时候报了如下错误:FATAL ERROR : Unexpected Condition in file [/u05/bld65_64/pm713n/serv er/dmapper/widget/wjoiner.cpp] line [3176]. Contact Informatica Technical Support for assistance. Aborting this DTM process due to an unex pected condition.请问各位这是什么原因?我看了一下日志文件,好像是初始化的过程都还没有结束就报错了。

相关文档
最新文档