公司及产品概述_Informatica
ETL抽取工具Informatica介绍-1

VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
Informatica主要特点
• 1) 图形化设计,无需编码,快速开发和部署。 PowerCenter提供了一个可视化的、拥有丰富转换库的设计 工具,这个转换库使数据转换变成一个简单的“拖拽”过程 。使用PowerCenter,转换组件能够被合并到mapping对象中 ,独立于他们的数据源和目标,有近20种数据转换组件和近 百个函数可以调用,同时可以调用外部的过程和程序,实现 复杂的转化逻辑。 Informatica PowerCenter是完全图形化的开发,不需要有 语言基础也可上手,内部完全是图形化设置,不需在组件是 编写脚本语言。可通过简单的操作,完成此需求:
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
5个Client 个
• • • • • PowerCenter Designer:设计开发环境,定义源及目标数据结构;设计 转换规则,生成ETL映射 Workflow Manager:合理地实现复杂的ETL工作流,基于时间、事件的 作业调度 Workflow Monitor:监控Workflow和Session运行情况,生成日志和报 告 Repository Manager:资料库管理,包括安全性管理等,元数据维护和 安全操作,如:元数据查找,用户、组、权限管理等。 Repository Server Administrator Console:对知识库的操作,如: 知识库的创建、备份、恢复等。
ETL抽取工具Informatica介绍 ETL抽取工具Informatica介绍 抽取工具Informatica
VANDA CHINA VAS
Informatica product overview

清洗
Validate, correct and standardize all data types
集成
Transform and reconcile all data types
分发
Provide right data, at the right time, in the right format
• 无法得到 360度统一客户视 图
• 延迟CRM项目的实施过程 • 降低客户满意度
• 降低用户生产效率和利用率
• 增加客户的交互(通讯、市 场)成本
•
• 无法准确理解客户的利润度
• 无法广泛、合理定义客户营 销策略,限制了收入的增长 机会
•
• 结果丢失收入(例如: 计费错 误)
“据 PWC 估计,全球 500 强的企业中,有 90% 的企业在数据管理方面存在缺陷
6
Informatica解决方案:提供统一的数据服务平台
Improve Decisions & Regulatory Compliance Modernize Business & Reduce IT Costs
业务 驱动 IT 驱动
Merge & Acquire
Increase Business Profitability
7
Informatica 产品平台及 贯穿整个数据生命周期的完整方法论
监督,观察,报告
确保数据一致,提供影响分析与持续的数据质量监控
Data Profiling
Data Quality
访问
Any system in batch or real-time
探查
Search and profile any data from any source
Informatica介绍

Informatica目录创立于 1993 年,总部位于 Redwood City, California of USA 的Informatica ( Nasdaq:INFA )公司,作为电子商务分析型软件市场的领先者,一直致力于通过自身的产品和服务提升企业的竞争性优势。
其拳头产品 Informatica Insight Network(Infrastructure and Analytics) 已被全球 1 , 800 多家企业用来集成、分析和个性化企业的关键商务信息,优化整个商务价值链的表现和响应速度。
拥有包括 Citigroup, Deutsche Bank, AT&T, British Telecom, Motorola, Cisco, HP, Boeing, National Semiconductor, Timer Warner, News Group 在内的广泛的客户群。
Agent Logic 拥有商业和公共领域的客户,包括美国国家安全局。
在公共领域,Agent Logic 可以促进海域感知、地理空间跟踪以及战场命令和控制。
在商业领域,Agent Logic 能够通过符合相关差旅和开支政策的规则,帮助控制与公司信用卡计划有关的成本。
Agent Logic 将进一步加强 Informatica 在公共领域的业务,特别是美国联邦政府。
编辑本段Informatica在全球Informatica,1993年创立于美国加利福尼亚州,并于1999年4月在纳斯达克上市。
作为全球领先的企业数据集成解决方案提供商,Informatica提供专业数据集成软件和服务,以解决系统间的数据碎片问题,从而帮助企业获得了数据的更大商业价值。
Informatica开放、独立于平台的软件降低了企业IT的运营成本、加快了产出速度,可伸缩处理不同规模或不同复杂程度的数据集成项目。
Informatica拥有遍布全球的客户关系网络,其出色的成功案例显示,Informatica将帮助更多的企业和政府机构实现其企业数据的商业价值。
Informatica企业数据仓库解决方案

Informatica企业数据仓库解决方案利用Informatica 企业数据仓库解决方案,可以简化数据集市、数据仓库和企业数据仓库中所有数据的访问、发现、清洗和集成过程,从而降低项目成本和风险,缩短项目时间。
部署企业数据仓库解决方案- 速度更快、成本更低、风险更小不论您从事的是企业数据仓库计划、大型数据分析计划,还是要建立数据仓库或数据集市,Informatica 企业数据仓库解决方案都会帮助您充分发挥公司数据的价值- 从事务处理数据到交互数据- 不管这些数据的位置、格式、容量如何,也不管它们是否延迟。
Informatica 企业数据仓库解决方案是所有企业数据仓库项目的基础,可以加快项目的部署速度,最大限度降低成本和风险,确保使用可信、可行、权威的数据来维护和实施项目。
Informatica 企业数据仓库解决方案可以帮助企业了解竞争动向,加快制定决策,全盘了解企业的各个业务单位,提高法规监管的透明度。
在部署企业数据仓库解决方案时,首先可以根据企业需要来部署,然后利用内部仓库数据以外的其他新数据来进一步拓展它,从而轻松满足不断变化的企业需求。
历久弥坚的企业数据仓库解决方案事实证明,Informatica 企业数据仓库解决方案不但有助于IT 部门经济合理地实施数据集市和部门数据仓库,还有助于它们轻松升级到企业数据仓库环境。
Informatica 企业数据仓库解决方案由以下几部分构成:∙Informatica 平台- 可以从一个统一的平台访问、发现、清洗和集成所有企业数据,这是一个安全可靠、可以灵活扩展的平台。
∙Informatica Velocity - 一种成熟稳健的实施方法,指导IT 团队在遵照企业目标的前提下,连续、快速而且经济高效地实施企业数据仓库项目。
∙Informatica 专业服务- 帮助IT 部门迅速配置Informatica 企业数据仓库解决方案,最大限度提高灵活性。
Informatica 企业数据仓库解决方案的主要功能和优点∙通用性,适合所有企业数据- 不管它们的位置、格式、容量或是否延迟- 因此,企业数据仓库工作以大量、齐全的数据为核心。
Informatica 产品 PowerCenter介绍

集成技术
Data Integration Platform
实现方法
Integration Competency Center (ICC)
企业数据类型
Applications Databases Messages Flat files XML
Unstructured Data Mainframe
15
Informatica主要特点4 高开发效率
Provide UI information in template XML file
Template XML
Step 3
DI Developer
Meaningful use case specific wizard
Visio Mapping Template
Slowly Changing Dimension Wizard
Integrate Customer Analytics Data
Consolidate Customer Systems
Upgrade Sales Comp Systems
Integrate with Hewitt
数据获取形式
Enterprise Data Integration
体系架构
Service Oriented Architecture (SOA)
Server 2 Nodห้องสมุดไป่ตู้ 2
HA File System Shared Directory
Domain
Gateway
B
Log
B
HA Database
Integration P Repository B
? DB and shared directory are highly available
Informatica数据集成产品介绍

元数据共享
• Informatica的局部和全局的元数据库 (Local and global metadata repository) 可以注册各部门级数据市场的信息并可动 态将部门级数据市场与其它分布式信息存 储连接起来,从而可以得到全企业的统一 的数据仓库元数据视角。
PowerCenter与数据仓库系统
产品结构
• • • • • Informatica Server Workflow Manager , monitor Informatica Repository Server Repository Manager Designer
Informatica Server
• 数据集成引擎 • 支持各种操作平台,各种源、目标数据库
Designer
• • • • • • • 可视化设计环境 版本管理 丰富的转换函数 支持复杂条件选择 支持数据驱动的合并 直接支持SCD(慢速变化维) 调试工具
– 提供数据采样、断点、查询中间结果等功能
世界级客户
金融/服务业 制造业/高科技 通信业 保险业 医药
使用Informatica系统的企业
收入增长
200 160
2000 – 2001 的增长率: 30% $152
$197
120
80
$62.4 $30.3
40
$2.1
0 1996
$12.7
1997 1998 1999 2000 2001
Informatica的客户状况
• 100强的60%是Informatica的客户 • 道琼斯工业平均指数的63% • 世界500强
– – – – – 所有顶尖的娱乐集团 15家最大的电信集团,有12家是Informatica的客户 10家最大的金融服务/银行集团,有8家是Informatica的客户 15家顶级的公用事业/能源集团,有11家是Informatica的客户 10家最大的保险集团,有8家是Informatica的客户
Informatica PowerCenter 标准版

主要功能
统一数据访问
• 实施在各种系统中访问各式格式 的数据的单一方案。
• 由 Informatica PowerExchange 提供补 充,可访问各种数据系统和格 式,包括: − 结构化数据 − 非结构化数据 − 半结构化数据 − 关系数据 − 主机数据 − 文件数据 − 基于标准的数据 − 消息队列数据
6678 (08/08/2008)
增强了企业级安全保护
• 在大型的全球分布式团队中进行 权限粒度细分和灵活的许可管 理,确保安全性。
• 限制用户的访问权限,使其只可访 问最低限度的所需功能和数据,降 低安全性违规的潜在风险。
• 通过可自定义的基于角色的安全 性简化对权限的管理。
操作系统探查
• 确保不同部门和用户执行的 PowerCenter 工作流可安全访问文 件系统资源。
通过提高开发人员工作效率和跨职能协作实现更快速的交付
PowerCenter 标准版帮助开发人员以及跨职能的 IT 团队和业务分析师更有效率和更安 全地共同开展工作。通过降低重复性编码和映射,简化管理,轻松进行配置更改和 管理任务,提高开发人员的工作效率。降低 IT 项目开发和部署成本。通过使团队更 容易共享和重用工作与成果,PowerCenter 标准版加强了组织间协作,提高了业务灵 活性。
提供最高层次的可扩展性、安全性和可靠性。 PowerCenter 标准版由以下部分组成:
• 高性能数据集成服务器 • 全球元数据库基础架构 • 用于开发和集中管理的可视化工具
PowerCenter 标准版的另一项特色是提供工作效率极高的工具,方便架构师、分析师和 开发人员之间进行协作。有了这些触手可及的工具:
• 通过减少重复性任务并简化数据 集成生命周期,提高开发人员的 工作效率。
Informatica Powercenter基础知识

11、Monitor
进行workfow 的监控。
PowerCenter 图形化界面 图形化界面-1
PowerCenter 图形化界面 图形化界面-2
完全图形化操作、易使用、易开发、易维护
PowerCenter 图形化界面 图形化界面-2
完全图形化操作、易使用、易开发、易维护
PowerCenter 图形化界面 图形化界面-3
4、Repository Service
管理Repository的服务,进行元数据的增删查改,提供与Intergration Service 交互。
5、 Intergration Service
响应Repository Service的ETL作业请求,运行ETL作业
。
PowerCenter 的体系架构-3
丰富的ETL功能——Mapping功能
条件汇总 异构数据源关联 行/列转换 静态、动态Lookup支持 自定义SQL 复用组件 复用Mapping 调用存储过程 调用外部用户自定义过程 可视化Debug 强大的函数支持、功能丰富的转换语言 ……
丰富的ETL功能——Session功能
ETL事务处理 Pre SQL和Post SQL 数据源为文件列表 Session Recovery 基于多目标表约束装载 错误数量控制 FTP 源和FTP目标 ETL任务分区 Bulk Loading External Loader (Oracle、DB2、SYBASE…) ……
主题
Informatica 在企业中的应用 PowerCenter 的体系架构 PowerCenter实例
PowerCenter实例
D区
无效数据写入目标表UNT_ATMTXN 此表结构与源的唯一差别: 最后多了一个字段error_desc. 并将B区中生成的error_desc字段,写入此表最后字段。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
®技术交流数据集成产品介绍Informatica华南.西南区销售总监XX 1日程¡数据集成之领域挑战¡Informatica 公司及产品定位¡企业数据管理−数据集成平台–PowerCenter 介绍−数据质量控制–Data Quality−实时数据交换–PowerExchange−数据审计管理–Metadata Manager¡Informatica PowerCenter&元数据案例演示¡解决方案特点及主要收益¡案例介绍23挑战是什么?市场趋势加速数据分散状况•TDWI 调查:•不好的数据质量导致美国商业市场每年花费6千亿美金•超过55%公司必须投资高水平的人员与预算来进行数据集成工作•Ventana Research•超过60%的IT 预算花费在“集成”工作上•为了集成而集成•Gartner :•“缺乏全面性的策略…”使得“集成”所付出的成本相当高4编码定义完全不同Other Xerox DivisionsOther Contacts Buying Organization Xerox Imaging Contacts Jon HartCorporation Xerox渠道销售OA人事Xerox Imaging ID -992231Xerox Image ID R1187XXeroxID R1221R1221A8839TT23244123财务OA 渠道人事John Hart ID TT232Jon Heart ID 44123财务企业编码关系图人事销售渠道人事Legacy 992231R1187X97735-14429Y9KN222112Jon Hart ID A88395客户数据问题实例完整性COMPLETENESS合法性CONFORMITY一致性CONSISTENCY 重复性DUPLICATION 关联性INTEGRITY 准确性\ACCURACY 值域划分RANGE完整性:丢失关键数值合法性:非法格式Consistency:Incorrect Format 一致性:数据是格式正确并完整,但不符合业务逻辑Duplication:Fuzzy matching 重复性:模糊匹配关联性:识别记录关系准确性:须利用其他数据来验证其准确程度值域划分:界定数值范围6糟糕数据质量的业务风险¡无法得到360度统一客户视图¡延迟CRM 项目的实施过程¡降低客户满意度¡降低用户生产效率和利用率¡增加客户的交互(通讯、市场)成本¡无法准确理解客户的利润度¡无法广泛、合理定义客户营销策略,限制了收入的增长机会¡结果丢失收入(例如: 计费错误)PricewaterhouseCoopers 全球数据管理调查结果表明:¡75%的被调查公司认为缺损的数据可导致严重问题¡50%以上的公司因内部对帐而产生了额外的成本¡33%的公司不得不延迟或放弃使用新系统的计划,而有20%无法满足合同或服务水平协议。
¡截至2007年,由于忽略数据质量问题(0.8的概率),将有50%以上的数据仓库项目无法得到客户的认同,甚至完全失败。
¡新的合规性程序也在推动机构重新审视其数据质量。
美国的Sarbanes-Oxley 法案和欧洲的Basel II 等会计改革法要求企业信息准确、透明。
高质量数据对企业满足这些要求至关重要。
数据类项目的工作重心来源OLTP系统s数据集市•需求•设计•映射•提取•转换•改造•加载•检索•汇总•复制•数据分发•访问和分析•资源规划和发布元数据统一系统和用户管理DataWarehouse78数据集成之主流技术论述Case 'Y ’col2=col2*10-2if col3=2 then col4=lkp(col1,col2)else col4=0endifCase ‘N ’col2=10col4=lkp(col3,col5)Ø脚本级驱动Ø以元数据为驱动、引擎式的工具, Informatica为代表9数据整合之主流技术论述Ø以元数据为驱动、引擎式的工具, Informatica为代表企业一般的数据整合工作和技术¡主机端−Control M + JCL + Cobol ¡开放系统端−PL-SQL−JAVA−Shell−….Hand Coding !!人工编写10图形化工具平台vs 人工编写程序采用工具和人工编写程序的成本,在一定的时间后,成本产生了反转的结果初期成本:•软件费用•培训•硬件维护费用•因商业需求的变化导致复杂度的上升•程序的继续维护的费用•重新构建的费用采用工具:•ETL人工编写程序:•Hand-coded ETL •Home-grown EII, EAI •Low-end replication时间成本Source: Forrester Research分析师说:数据整合的成本只在于付出的时间点而已11日程¡数据集成之领域挑战¡Informatica 产品定位¡企业数据管理−数据集成平台–PowerCenter 介绍−数据质量控制–Data Quality−实时数据交换–PowerExchange−数据审计管理–Metadata Manager¡Informatica PowerCenter&元数据案例演示¡解决方案特点及主要收益¡案例介绍1213Informatica 公司简介•成立于: 1993•总部: Redwood City, California •员工:1,300+•公司分布:North and South America,Europe, Asia Pacific,中国•收入:$367 million (2006)•市占率第一(Gartner Dataquest)•Customers:3,000+•金融100大中79家公司•80%道琼斯工业指标上市公司•全球超过20个国家的政府部门公司使命Help enterprise customers implement a data services architecture to gain the most business value from their data assets帮助客户建立统一数据服务平台架构并从数据资产中获得最大的商业价值公司目标Data Integration Products and Services 数据集成产品及服务14Informatica 解决方案产品构成M e t a d a t a M a n a g e rRemote DataReal-time dataBAM, Real-time BICorporate dataTraditional BI, CPMIT dataMetadata, quality, profilingMainframe Real-time File Formats DatabasesDataAnalyzer PowerCenterPowerExchange元数据报表工具核心产品:数据集成平台企业级元数据管理用于连接主机数据/AS400、Oracle 、DB2、SQL 数据源的CDC 、Real Time;ERP (SAP 等)、EAI (MQ 、WebService 等)Data Quality数据质量管理15元数据管理层数据仓库系统管理层企业数据仓库/数据中心数据转换、聚合、加载多维立方设计& 加载数据集市数据挖掘服务器数据展现数据抽取、清洗、调度数据模型设计MOLAPROLAP报表服务器ODSEISMIS 应用外部数据运营系统DSS 应用随机查询管理报表联机分析预测、建模决策支持门户LDAP数据中转区生产报表数据源数据准备数据管理/信息加工信息交付数据中转区详细记录存储运营系统财务资产管理第三方接口直接查询虚拟(集成)查询性能监控,系统安全用户管理,备份/存储管理数据标准定义,接口规范,ETL 规则数据展现规则,接口规范,访问权限,日志DW/数据中心系统总体结构我们的目标可审计、可交换、可监控、高质量的统一数据服务平台(Universal Data Services, UDS)16日程¡数据集成之领域挑战¡Informatica 公司及产品定位¡企业数据管理−数据集成平台–PowerCenter 介绍−数据质量控制–Data Quality−实时数据交换–PowerExchange−数据审计管理–Metadata Manager¡Informatica PowerCenter&元数据案例演示¡解决方案特点及主要收益¡案例介绍17®数据集成平台PowerCenter 介绍1819企业管控The set of processes, customs, policies, laws and institutions affecting the way acorporation is directed, administered or controlled.IT 管控The leadership and organizational structures and processes that ensure that the organization ’s IT sustains and extends the organization ’s strategies and objectives.数据管控数据集成和管控的总架构标准和规范政策和策略企业级数据管理Data Accessibility Data Availability Data Auditability Data Consistency Data Quality Data Security 企业级数据模型数据定义和元数据主数据角色和责任差错管理研发与布署计划与优先权监控与衡量研发标准和技术平台标准DeliverDiscoverCleanseTransformAccessMonitor20Informatica PowerCenter 体系结构UNIX (AIX, HPUX, Solaris, Linux) Windows21Data Profiling Data Quality监督,观察,报告确保数据一致,提供影响分析与持续的数据质量监控PowerCenterPowerExchange访问Any system in batch or real-time分发集成Provide right data, at the right time, in the right formatTransform and reconcile all data types清洗探查Validate, correct and standardize all data typesSearch and profile any data from any sourceInformatica 产品平台及贯穿整个数据生命周期的完整方法论开发与管理以开放的元数据储存库与共享元数据为协同开发的基础22PowerCenter 图形化界面完全图形化操作、易使用、易开发、易维护23Web Services MQSeries JMS TIBCOwebMethods SAPNetWeaver XI Encyrypted streamPeoplesoft Oracle Apps Siebel SAS …SAPNetWeaver SAP IDOC SAP BCI SAP DMI SAP BWOracle DB2 UDB DB2/400SQL Server Sybase Informix Teradata ODBC Flat Files Web Logs …XMLIndustry FormatsFlat Files FTPComplex Files TapeFormats …Informatica 数据集成连接性ERPDatabases XML Flat files Mainframe Unstructured Data Messages ADABAS Datacom DB2IDMS IMS VSAM C-ISAMTape Formats.PDF .DOC .XLS Email广泛的数据源支持,包括结构化、半结构化、非结构化数据24企业范围的部署•HighAvailability •网格计算•动态分区•Push-down ••CDC•完全开放的中立体系架构元数据管理n 影响分析n 目录级浏览n 数据库管理统计n 模型工具管理统计n 自定义CWM 元模型Informatica 企业数据集成平台价值可重用的数据服务•元数据的可复用性•基于组件的体系结构•内置data profiling, data quality & data governance, 包括审计、跟踪•开放式标准的数据交付广泛的数据源支持•所有数据源:主机、RDBMS 、XML 、文本•所有数据格式::结构化、半结构化&非结构化•所有数据访问方式:批量、实时、联邦、CDC高生产力•“无脚本”图形化开发•跨整个生命周期的团队协同开发•易维护•Mapping 模板丰富的ETL功能§异构数据源,异构目标§实现多种缓慢变化维§全局变量及参数,支持参数文件§局部变量,前后记录比较§条件汇总§异构数据源关联§行/列转换§静态、动态Lookup支持§ETL事务处理§自定义SQL§Pre SQL和Post SQL§复用组件§复用Mapping§调用存储过程§调用外部用户自定义过程§可视化Debug§强大的函数支持、功能丰富的转换语言……§数据源为文件列表§Session Recovery§基于多目标表约束装载§错误数量控制§FTP 源和FTP目标§ETL任务分区§增量汇总§测试装载§Bulk Loading§External Loader (Oracle、DB2、SYBASE…)§复用Workflow§功能丰富的Workflow控制§任务串行、并行控制§基于时间、事件和指示文件触发任务§Workflow中调用操作系统外部命令§Workflow中调用Email§多ETL Server协同工作…….2526数据有效性、完整性、准确性A 区源结构B 区判断无效数据区见需求文档1.1.2.1中第3、4点,生成flag_invalid 标识位,当flag_invalid=1,为无效数据当flag_invalid=0,为有效数据C 区将数据进行分组D 区无效数据写入目标表UNT_ATMTXN 此表结构与源的唯一差别:最后多了一个字段error_desc.并将B 区中生成的error_desc 字段,写入此表最后字段。