Informatica学习以及遇到的问题总结陈朋

合集下载

informatica 学习日记

informatica 学习日记1. INFORMATICA CLIENT的使用1.1 Repository Manager 的使用1.1.1 创建Repository。

前提：a. 在ODBC数据源管理器中新建一个数据源连接至你要创建Repository的数据库（例：jzjxdev）b. 要在你要连接的数据库中新建一个用户（例：name: ETL password: ETL）现在你可以创建一个Repository了。

选择Repository – Create Repository,输入Repository Name（例：JZJX），DatabaseUsername（例：etl），Database Password（例：etl），ODBC Data Source（例：jzjxdev），Native Connect String（数据库所在ip例：141.20.52.108）1.1.2 添加Repository。

通过这一步你可以添加别人已经建好的Repository。

选择Repository – Add Repository,输入Repository Name（例：JZJX），Username(例：etl),点击ok就可以看到名为JZJX的Repository在左边的浏览器中，但是此时还看不到它的内容，要看到它的内容或者对它进行操作必须先连接它。

1.1.3 添加Folder选择Folder – Create,输入文件夹名称即可。

1.2 Designer 的使用首先连接Repository，可以看到该Repository在Repository Manager中创建的文件夹。

1.2.1 SourcesSources文件夹下的表是抽取的来源表。

导入方法：选择Tools菜单下的Source Analyzer,然后选择Sources菜单下的Importfrom database，连接想要连接的数据库，连接上后选择你要抽取的表点击ok你所选择的表就会出现在Sources文件夹下。

学习Texmacs心得

学习Texmacs心得这是一个梦想中的软件。

它比word有更好的所见即所得效果，你就像在直接编修PDF；它继承了Tex的结构化排版和公式排版的能力，并且有更便捷、直观、更丰富的方法；但你不必像Tex中那样战战惊惊于语法的微小瑕疵。

输入符号不仅可以用Ｔex的方法输入，更创造了拓扑相以这种灵巧的输入方法。

它可以直接粘贴图片。

总之，这是一个梦想中的软件。

虽然我才用了它不到一周。

而它的许多功能我还不知首怎么用。

当然它有瑕疵。

它常常会崩溃。

我在这里记下我使用中发现的一些问题，或一些解决的方法，一些改时的建议。

我用的版本是１:９９:５1.当文件名字或保存路径中含有中文时，crase.2.小节或列表紧临的下一个段落，不会和其它段落一样首行缩进。

（下面有个不完全的解决方法，可让文件在节，小节，小小节后正常缩进，但在多行公式等之后仍不能正常缩进．复制C:\Program Files\TeXmacs\styles＼article.pps_ts.更名为cn，用记事本打开，添加选中的句子．保存．重新打开texmacs后就有cn文件类了．3.中文中行内公式与汉字间的间隔太小，看起来不美观。

公式两端应各有半个字符的空格。

4.公式由嵌套的小方格组成．鼠标点它有两个目的，一是修改，一是复制．变红色的框是选中内容，变蓝色的只是显示鼠标在这个框内．这个不如word中的公式编辑器好用．选中有变深色．光标闪处就是可修改处．并且应让公式在编辑时可拖大小，有些复杂公式的上下标什么的显示太小，选中起来困难呀．（可把页面放大一下来编辑复杂公式．）5.行内公式若形式很a简单可以先输入再用shift+$来改变．不用每个都先进入数学模式．若能采用格式刷的办法也不错．6.用拓扑变形方法输入的符号，修改时为什么不能用？7.一些属性标记，word中是开关状态可以反复用．这里统一用焦点菜单上的叉号可以取消已有标记．8.公式中文本不象文本模式下那样可自由标记．所以要少用．9.汉字输入法常常在使用时变的不管用，可以关掉文件，重新打开．10.有些菜单命令是很常用的．比如保存命令（因为常常carse嘛)但是却不能一下点中就起作用．所以若是有下拉菜单时，界面上的图标要用于最常用的命令，用右小角的小三角去打开下拉菜单就好．11.设置页面边白，选中以后，点确定便crase.解决方法，什么也不要再点，点入文件区就好．因为不用点确定就已经生效了．12.多个文件切换用转到菜单好不方便．也像word那个形成排开几个文件头呀．当然这个设计把已经打开的曾经打开的都放在那里了．13.设置字体文章焦点菜单上设是可以的。

Informatica配置与开发警告邮件解决方法

Informatica 警告邮件解决方案（通过查询后台表监控 Session 运行情况）作者：赵飞云一、项目背景 (2)A.项目背景 (2)二、Session 监控 (3)A.通常做法 (3)B.项目做法 (4)C.查询后台表 (5)D.查询出错任务 (6)E.判断是否有出错任务 (7)F.发送邮件 (8)G.邮件内容 (9)三、Apache Ant (10)A.工具介绍 (10)B.环境配置 (10)C.环境配置 (11)D.主文件 (12)E.主文件 (13)一、项目背景A. 项目背景本次项目是一个很小的BI 项目，数据源包括几个Oracle 数据库，数据仓库也建在Oracle 中，然后抽取到Essbase 11.1.1.3 ，然后提供给OBIEE 10 做报表展现。

本次项目的ETL 工具是Informatica 8.6.1 ，涉及到的数据源表和数据仓库表也不多，加起来也不过是一百多张表而已。

ETL 的顺序是：数据源表–> 落地表–> EDW 表–> DM 表–> Essbase 。

二、Session 监控A. 通常做法项目在开发测试阶段，每个Workflow 对应一个Session ，通过Monitor 监控运行结果。

实际上线时，会在一个Workflow 中串联或并联多个Session ，而且一般管理员很少去Monitor 查看每天的运行情况。

这就需要另外加上监控的功能。

如下图，通常的做法，是利用每个Session 配置中的Components 属性页来实现事后失败（或成功）时做某项操作，比如发送邮件，或者执行某个命令行（来发邮件或做其他动作）。

我嫌这样做太麻烦，需要更改每一个Session ，改动太多，而且下次单个调试时还麻烦。

另外，如下图，按照Informatica 的官方文档，要使用Email 控件也有一大堆的麻烦，尤其如果要配置MAPI 的话，需要安装Microsoft Office Outlook ，还涉及到License 等问题。

Informatica学习以及遇到的问题总结-陈朋

深航Informatica学习总结修改记录框架：一、总体概述ETL 包括 Extract 、 Transform 、 Cleaning 和 Load ，它是用于从生产库中提取数据到数据仓库中，再由具体的报表、统计、分析工具对数据仓库的内容进行分析，分析出自己所需要的数据。

其中 ETL 培训的内容是如何利用 Informatic PowerCenter 把源数据库的内容提取存放到目标数据库中，四部分 Client ， Reposity Server ， Reposity Database 和 Informatic Server 每个部分实现自己的功能。

二、系统体系结构此部分介绍了 Informatic ETL 工具包括的主要内容。

1.ClientInformatic Client 主要有五个部分。

Client 可以和 Reposity 分离，通过 TCP/IP 连接，连接到远程的 Reposity Server 。

2. Reposity Manager主要用于进行一个 Reposity 库的管理，当用户使用 Client 工具登录一个 Reposity 服务器之后，进行文件夹权限的创建，用户权限、密码的管理等。

3. Designer主要是进行数据抽取的转换工具的设计，主要是 mapping 的设计、设计源数据库的结构，目标数据库的结构，然后设计把源数据导入到目标数据库中，所需要进行的转换操作（ Transformation ）。

同一个 Reposity 的 folder 之间可以建立 shortcut 方式，多个 reposity 的 folder 之间只能做拷贝。

4. Workflow Manager主要用于流程任务（ workflow Task ）的设计。

进行任务流程的设计、每一个 Tast 针对一个 Session ，一个 session 针对一个 mapping ，其中 workflow 中的 Folder 和 Designer 中的 folder 相对应的关系。

informatica面试常见问题

informatica面试常见问题
1. 请介绍一下Informatica的工作原理和主要功能。

2. 你在之前的项目中如何使用Informatica ETL工具？
3. 如何处理Informatica作业的错误和异常？
4. 如何进行Informatica数据质量检查和数据清洗？
5. 请列举一些常用的Informatica转换（transformation）和它们的作用。

6. 如何进行Informatica数据加载和抽取？
7. 你在之前的项目中遇到的最大的数据质量问题是什么，你是如何解决的？
8. 如何进行Informatica性能优化和调优？
9. 如何进行Informatica作业的监控和日志记录？
10. 请描述一下Informatica的工作流（workflow）和会话（session）的关系。

11. 如何在Informatica中处理事实表和维度表的加载？
12. 你在Informatica中使用过哪些源系统和目标系统？
13. 如何进行Informatica作业的自动化调度和自动重启？
14. 在使用Informatica过程中，你遇到过哪些具体的技术难题，你是如何解决的？
15. 你对Informatica未来的发展有何看法？
16. 你具备哪些Informatica相关的认证？
17. 请简要介绍一下你的Informatica项目经验和技术能力。

18. 你对数据仓库设计和数据模型有哪些了解？如何将其应用到Informatica中？
19. 请谈谈你在Informatica中的团队合作经验。

20. 你对Informatica的竞争对手有何了解，为什么选择使用Informatica？。

Informatica主数据管理解决方案精品课件(一)

Informatica主数据管理解决方案精品课件(一)Informatica主数据管理解决方案是一个全面的数据治理解决方案，可以帮助企业更好地管理其不同应用程序中的数据，并提高数据质量。

本课件将向您详细介绍Informatica主数据管理解决方案的基本组成部分，以及如何使用该解决方案来解决数字化转型的挑战。

第一部分：解决方案概述1.1 Informatica主数据管理解决方案的基本概念1.2 该解决方案如何帮助企业处理数据问题1.3 解决方案的主要好处第二部分：解决方案组成2.1 数据模型2.2 数据集成2.3 数据质量2.4 数据分析和报告2.5 安全和合规性第三部分：数据模型3.1 模型的构建3.2 属性定义和管理3.3 数据元素和数据域3.4 属性视图和观点3.5 数据管理第四部分：数据集成4.1 数据同步4.2 数据转换和规范化4.3 数据协调4.4 数据质量表现第五部分：数据质量5.1 数据质量度量和指标5.2 数据质量规则和验证5.3 数据质量监控和报告5.4 数据清理和修正第六部分：数据分析和报告6.1 数据仪表盘和报表6.2 数据可视化和探索6.3 高级数据分析6.4 数据敏感性和保护第七部分：安全和合规性7.1 数据访问和控制7.2 数据保护和加密7.3 合规性和审计7.4 政策管理和执行第八部分：解决方案实现8.1 解决方案建设8.2 项目规划和管理8.3 解决方案评估和验证8.4 解决方案部署和维护结论：通过这个课件，您可以了解Informatica主数据管理解决方案的主要组成部分、优势和应用场景。

这个解决方案可以帮助您改善您的数据管理，提高数据质量，优化数据利用，设立数据规则，并保证数据的安全性和合规性，最终实现企业的数字化转型。

六步法：Informatica数据质量控制方法

六步法：Informatica数据质量控制方法第一篇：六步法：Informatica 数据质量控制方法Informatica 数据质量控制方法一个战略性和系统性的方法能帮助企业正确研究企业的数据质量项目，业务部门与IT 部门的相关人员将各自具有明确角色和责任，配备正确的技术和工具，以应对数据质量控制的挑战。

Informatica 的六步法为帮助指导数据质量控制而设计，从初始的数据探查到持续监测以及持续进行的数据优化。

业务部门与IT 部门的数据使用者—业务分析师、数据管理员、IT 开发人员和管理员，能够在六个步骤的每一步中协同使用Informatica 数据质量解决方案；并在整个扩展型企业的所有数据领域和应用程序中嵌入数据质量控制。

步骤一：探查数据内容、结构和异常第一步是探查数据以发现和评估数据的内容、结构和异常。

通过探查，可以识别数据的优势和弱势，帮助企业确定项目计划。

一个关键目标就是明确指出数据错误和问题，例如将会给业务流程带来威胁的不一致和冗余。

步骤二：建立数据质量度量并明确目标Informatica的数据质量解决方案为业务人员和IT人员提供了一个共同的平台建立和完善度量标准，用户可以在数据质量记分卡中跟踪度量标准的达标情况，并通过电子邮件发送URL来与相关人员随时进行共享。

步骤三：设计和实施数据质量业务规则明确企业的数据质量规则，即，可重复使用的业务逻辑，管理如何清洗数据和解析用于支持目标应用字段和数据。

业务部门和IT部门通过使用基于角色的功能，一同设计、测试、完善和实施数据质量业务规则，以达成最好的结果。

步骤四：将数据质量规则构建到数据集成过程中Informatica Data Quality支持普遍深入的数据质量控制，使用户可以从扩展型企业中的任何位置跨任何数量的应用程序、在一个基于服务的架构中作为一项服务来执行业务规则。

数据质量服务由可集中管理、独立于应用程序并可重复使用的业务规则构成，可用来执行探查、清洗、标准化、名称与地址匹配以及监测。

Informatica常见问题解决方案

1.Repository server服务起来了,就是informatica server起不来了,在配置的时候,是informatica server的ip解析不出来,怎么才能把那个地址和主机对应起来Windows C盘下直接搜索hosts文件，用文本编辑器打开，将服务器ip跟服务器名称写在里边即可，位置C:\Windows\System32\drivers\etc，IP在前名称在后，相见hosts文件使用2.启动informatica services时没有错误，但是过几分钟就停了Stop the Informatica Services Windows service.Go to the C:/WINNT/system32 directory.Rename the xerces-c_2_4_0.dll file to xerces-c_2_4_0.old.dll.Copy the xerces-c_2_4_0.dll file in the<INFA_HOME>/server/bin directory to the C:/WINNT/system32 directory.<INFA_HOME> is the Informatica installation directory.Re-start the Informatica Services Windows service.Try it again, please let me know the result.3.目标也可以是文件格式的，导出时需要注意路径。

4.服务启动时，Informatica Service启动时如果数据库服务没起，当启动数据库服务时，Informatica Service服务会自动停止。

需要先启动数据库。

5.索引问题双击Session注意Target load type 有索引使用Normal。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

深航Informatica学习总结修改记录编写2016/3/9框架：一、总体概述ETL 包括 Extract 、 Transform 、 Cleaning 和 Load ，它是用于从生产库中提取数据到数据仓库中，再由具体的报表、统计、分析工具对数据仓库的内容进行分析，分析出自己所需要的数据。

二、系统体系结构此部分介绍了 Informatic ETL 工具包括的主要内容。

1.ClientInformatic Client 主要有五个部分。

Client 可以和 Reposity 分离，通过 TCP/IP 连接，连接到远程的 Reposity Server 。

同一个 Reposity 的 folder 之间可以建立 shortcut 方式，多个 reposity 的 folder 之间只能做拷贝。

4. Workflow Manager主要用于流程任务（ workflow Task ）的设计。

进行任务流程的设计、每一个 Tast 针对一个 Session ，一个 session 针对一个 mapping ，其中 workflow 中的 Folder 和 Designer 中的 folder 相对应的关系。

一版来说，用户都是建立自己的 Folder 。

5. Workflow Monitor主要进行流程运行、及任务运行时的流程运行情况跟踪。

可以跟踪日志。

包括 Session 日志和 Workflow 日志，可以设置生成日志的循环个数。

分析 session 运行是对源数据库的数据抽出信息和对目标数据库的更新信息。

6. Reposity Server Application Console主要进行 Reposity 的管理，包括 Reposity Server 的 start ， shutdown 操作。

进行 Reposity 库的 backup 、 restore 等操作，进行 Reposity 库级别的管理，级别较高。

7. Reposity ServerReposity server 是为客户端服务的，客户端可以和各种 client 不在一台服务器上。

关于数据抽取的设计成果转换成为 XML 格式的源数据，都是通过 Reposity Server 存放到 Reposity Database Server 上的。

8. Reposity Database Server用于存放的是进行 ETL 设计的元数据。

可以支持各类的数据库。

方式为数据库中用户的一个表目录和用户关系即可。

Reposity Database 可以和 Reposity server 不安装在一台服务器。

如果在一台机器上， server 通过 native 方式连接到 database ，如果不在一台及其上，需要在 database 上安装一个 reposity agent ，用户通过 agent ，以 native 方式连接到 reposity 数据库，然后 reposity agent 再以 tcp/ip 方式连接到 reposity server 。

rmatic ServerInformatic server 是实际执行数据抽取任务的运行环境。

即 workflows 、 task 、 sessions 等。

它是根据定义的 workflow 元数据库，然后在自己的实际环境中，执行数据抽取操作。

三、系统组件功能Informatic 的功能主要体现在 Designer 和 Workflow Manager 上，其中 Designer 实现的是对数据抽取的数据转换方式设计，以及效率设计目标等。

而在 Workflow Manager 中再把具体的数据转换方式应用到一个具体的工作任务中，包括目标库、源库的选择，以及一条具体的执行任务的属性设置等等。

包括任务的 insert 、 truncate 、 delete 、 increment insert 等。

1.Designer 组件（ 1 ）工作区在 Designer 中，涉及到的工作区主要包括有 Source Analyzer 、 Warehouse Designer 、 Transformation Designer 、 Mapplet Designer 和Mapping Designer 。

其中每个工作区的功能分别介绍：Source Analyzer ：Source Analyzer 的功能是实现对源数据库表的设计，可以手工的进行源数据库的设计，一般都是通过从 Flat File 或者 Relation DBMS 中导入数据库的表结构。

XLS 文件结构。

Warehouse Designer用于设计目标数据库库的结构，可以利用手工设计，也可以利用 import 工具导入导一个 warehouse 的结构。

Transformation Designer用户设计可重用的 transformation 组件，这里的组件，在一个 folder 里面都是可以重用的，而且以 shortcut 的方式使用。

Transformation 组件的修改，会直接反映到使用此 transformation 的 mapping 中。

Mpplet设计可以重用的多个组件，只要有 output 组件，可以有 input 组件，也可以没有 input 组件，实现的功能就和一个 expression 的功能类似，实现功能。

Mapping Designer实现的功能是设计具体进行抽取数据的 mapping ，这些 mapping 应用到一个 workflow 中，形成了 workflow 的一个 session （ task ）。

（ 2 ）组件功能ETL 支持的组件主要包括两类： Active 组件和 Passive 组件，其中 Active 组件是对输入记录集在输出时个数有变化的组件， Passive 组件，输入的记录集，输出时记录集的个数不发生改变。

Informatic 提供的组件包括：(1) Source Qualifier: reads data from flat file & relational sources(2) Expression: performs row-level calculations(3) Filter: drops rows conditionally(4) Sorter: sorts data(5) Aggregator: performs aggregate calculations(6) Joiner: joins heterogeneous sources(7) Lookup: looks up values and passes them to other objects(8) Update Strategy: tags rows for insert, update, delete, reject(9) Router: splits rows conditionally(10) Sequence Generator: generates unique ID values(11) Normalizer:izes records from relational or VSAM sources(12) Rank: filters the top or bottom range of records(13) Union : merges data from multiple pipelines into one pipeline(14) Transaction Control: allows user-defined commits(15) Stored Procedure: calls a database stored procedure(16) External Procedure : calls compiled code for each row(17) Custom: calls compiled code for multiple rows(18) Midstream XML Parser: reads XML from database table or message queue(19) Midstream XML Generator: writes XML to database table or message queue每一类组件都有自己独特的功能和特点，每一种组件的详细功能这里不详细介绍。

2.Workflow 组件Workflow 是对执行任务的执行进行控制，可以在执行时对执行的任务进行传参数进行传入，这样就能在执行的时候把数据库表进行动态的设置。

可以在执行的时候选择参数文件，对 mapping 、 workflow 中的 Session 的参数进行传入。

达到动态执行的目的。

Workflow 中定义 workflow 、 session 等任务，对这些任务的执行进行管理控制。

四、补充说明Source Qualifier 支持同构数据源的连接，衣钩数据源的连接通过 N-1 个 jointer 组件实现。

Lookup 为 passive 组件，查出的多条记录集，要么取 first ，或者 last ，或者报错。

Lookup 可以时动态 / 静态，可以 connected/unconnect 。

1.i nfa开发准备1.安装客户端2.准备工作创建表：建表语句create table SOURCE_EMPLOYEES(EMPLOYEE_ID NUMBER(6),EMPLOYEE_NAME VARCHAR2(50),EMPLOYEE_ADDRESS VARCHAR2(50),EMPLOYEE_CITY VARCHAR2(15),CREATE_DATE DATE);目标表create table TARGET_EMPLOYEES_XX(EMPLOYEE_ID NUMBER(6),EMPLOYEE_NAME VARCHAR2(50),EMPLOYEE_ADDRESS VARCHAR2(50),EMPLOYEE_CITY VARCHAR2(15),CREATE_DATE DATE);3.配置域域名Domain_infa9网关主机10.10.20.141网关端口60052.Repository创建文件夹1连接数据库目的：连接存储库2创建文件夹点击工具栏的Folder – Create,输入需要创建的文件夹名称点击确定完成创建如果文件夹没有显示，断开重新连接一下看看3.Designer中创建映射1.切换到d esigner窗口目的：切换到映射设计界面操作：点击D图标即可Designer 界面被打开，默认打开的是新建的XXX文件夹。