主数据管理和数据迁移-Informatica

合集下载

Informatica PowerCenter

Informatica PowerCenter

Informatica PowerCenter 高可扩展性与高性能的企业数据集成标准确立企业数据集成标准Informatica® PowerCenter® 为具备高可扩展性与高性能的企业数据集成软件确立了标准。

PowerCenter 可使您的 IT 组织能够通过单一方式访问、转换和传输数据,无需任何手动编码。

该软件的高可扩展性能可以支持海量数据并满足企业对安全和性能的需求。

PowerCenter 可作为所有企业集成方案的数据集成基础,包括数据仓库、数据治理、数据迁移、面向服务的体系架构 (SOA)、B2B 数据交换以及主数据管理 (MDM)。

•在正确的时间提供正确信息,让业务部门拥有其所需的及时、相关和可信的数据与报告,以便制定更准确、更及时的业务决策 •经济高效地进行扩展,以满足增长的数据需求,节约硬件成本,并降低与数据停机相关的成本和风险 •让开发人员、分析师和管理员团队能够更快更好地协作,共享和重复利用工作成果,以加快项目的交付速度“在我们这一行,至关重要的是能够抢先取得竞争优势和研究项目的投资回报。

不断增长的竞争只会进一步强调这一点,让你更容易理解‘时间就是金钱’这句话的含义。

在此艰难的环境下,Informatica [PowerCenter ] 为进行日常报告助了一臂之力,从而保证我们的团队具备最优的响应度和效率。

”– Alain Afios ,数据处理主管 研发部门,AventisBBVA Compass 是一家金融机构,在世界各地拥有 748 间分行。

该银行必须有效地检测、调查和报告可疑的洗钱活动,以符合国家和国际法规、指令及最佳实践的要求。

同时,该银行也需要降低合规成本。

BBVA Compass 依赖于 PowerCenter 来集成 17 个跨企业的数据源,其中包括拥有不同格式、结构和延迟性的贷款、信用卡、账户及在线银行交易数据。

PowerCenter 提供了金融活动与客户风险的全面视图。

Informatica主数据管理解决方案

Informatica主数据管理解决方案
合规等能力
市场影响力
跨越多行业的平台级解决方案 (Financial Services, Life Sciences,
High Tech …)
超过 50% 的财富 500 企业和全球 500 强企业
Merrill Lynch, Deutsche Bank, Johnson & Johnson, Pfizer, Apple, Kodak, Cadbury, …
Account Organization
Sales Rep
客户服务
财务管理
决策支持 人力资源
企业数据仓库
企业数据集成
集团
产业 集团
Partner Organization
Product
Account Pricing
Product Organization
Account
Account Zone
Services
完整的主数据视图
不同主数据是业务的 不同视角: • 客户角度
• 产品、服务 • 机构 • 资源 • 产品角度 • 客户 • 资源 • 机构 • 供应商角度 • 产品 • 机构角度 • 产品 • 客户 • 资源 • 资源角度 • 机构 • 产品 • 客户
金融客户
意外
储蓄
机票积分航空客户 Nhomakorabea健康 养老
业务经理
•Informatica PowerExchange
•Informatica B2B Exchange
Content Embargo Until June 4th, 2013 at 5:00pm PST
16
数据探索
2
数据探索 Data Profiling
关键需求:

Informatica调优(高级)

Informatica调优(高级)

接下来的这些条目是INFOR MATICA 的高级调优建议。

请极其谨慎地处理,每次试用一条建议。

在没有试着使用初级和中级建议来提高INFORMATICA 的性能以前,不要尝试使用如下的高级建议。

这些建议的实施可能需要系统管理员(SA)、数据库管理员(DBA)以及网络管理员之类的专家级人物的配合才可以,所以要细心。

高级调优最重要的方面就是能够精确的查明瓶颈是什么,并且有能力定位这些瓶颈是如何引起的。

根据常理,这些高级建议放在最后,并且是在系统级上的建议。

还有其他的适用于数据仓库调优的高级建议,可以依据你的软硬件资源存在的问题去寻找相应的帮助。

1、将MAPPING 分解。

保留一个数据目标。

如果必要每个数据目标保留一个数据源。

为什么要这么做呢?在一个MAPPING 中减少数据目标的个数会大幅度的提高运行的速度。

基本的情况是这样的:每个MAPPING/TARGET 对应一个SESSION。

每个SESSION 都会建立它自己的数据库连接。

因为对每个目标表建立一个单独的数据库连接,数据库管理器(DBMS)能将插入、更新和删除等操作需求并行地处理。

在一个SESSION 中进行一个特定目的的操作也是很有帮助的(例如不在把以数据驱动地操作和直接插入操作混合地插入到同一个数据目标中)。

如果实际情况运行, 每个SESSION 可以被放置到标记为“CONCURRENT”的BATCH(译者注:旧版本的术语)中。

如果能够这样做,MAPPING和SESSION 的并行执行的情况就很显而易见了。

关于并行处理的研究一再地表明:与直接将原本的操作单元简单地顺序执行相比,同一时刻开始的并行执行有时只需花费一半的时间。

当一个MAPPING 中包含多个数据目标时,就会使得每个数据库连接去处理多个不同地数据库操作语句,有时会影响这个数据目标的性能,有时又是那个。

请想一下,在这情况下,INFORMATICA(包括其他的任何工具)都很难进行BULK(并行)操作,即使在SESSION中已经设定了BULK 属性。

INFORMATICA总结

INFORMATICA总结

Informatica总结rmatica中关键词:(一)源表:即源表来自于数据库的表,例如在job100下面的源表是一些PRPCmain、CD码表、ODS表等一些表主要是来自于核心生产库中的表;job200下面的源表是些CD、ODS、MID表;job300下面的源表主要是CD、ODS、MID、olap表。

(二)元数据:元数据就是来自于数据库的基本表,起初的表(三)目标表:在执行完一个job后最终将数据存储在的表即目标表。

(四)映射:简单来讲将源表的数据导入目标表的过程就是一个映射。

(五)工作集:在一个job中执行的转化其中的每一个过程就相当于一个工作集。

(六)工作流:相当于在kettle中执行一个job的过程。

2.designer界面主要是定义源表和目标表生成映射的过程。

3.workflow界面编辑工作集执行工作流的过程。

4.monitor界面主要是为了执行完工作流之后查看工作日志的过程。

关于数据库方面(1).在Informatica中创建源和目标表的时候:在designer中创建源:来自于核心生产库在本地的配置文件中进行配置创建目标表:来自MIS生产库或者是测试库在本地的配置文件中进行配置根据这个路径E:\oracle\product\10.2.0\db_1\network\admin\tnsnames.ora找出.ora文件(2)创建工作流和工作集的时候:在workflow中,在进行启动的时候:在进行刷数参数配置在C:\Windows\System32\drivers\etc添加88.22.34.188 zj-misetl路径:/home/info_param data_param_test.txt文件是在windows32相对应的文件夹的下面在启动工作流的时候:配置数据库的文件不在本地文件中而是在Linux系统下面所以需要和Linux系统相连,通过xftp连接Linux系统,找到配置数据库的时候需要的文件。

数据管理中的数据迁移与迁移工具

数据管理中的数据迁移与迁移工具

数据管理中的数据迁移与迁移工具数据迁移是信息系统中常见的一项任务,它涉及将数据从一个存储系统移动到另一个存储系统的过程。

随着企业信息化的不断推进以及技术的不断进步,数据迁移变得越来越常见和复杂。

本文将探讨数据迁移的背景、挑战,以及常用的数据迁移工具。

一、数据迁移的背景和挑战1. 背景在企业信息化的过程中,数据迁移是一项不可或缺的任务。

数据迁移可以是从一个旧系统到一个新系统的迁移,也可以是从一个数据库到另一个数据库的迁移。

无论是企业规模的扩大、业务需求的变化,还是旧系统的升级和更换,都会涉及到数据迁移。

2. 挑战数据迁移可能面临以下挑战:- 大数据量:企业的数据量通常非常庞大,因此在迁移过程中需要应对大数据量的处理和传输问题;- 数据一致性:在迁移过程中,要确保数据的一致性,避免数据丢失、数据冲突等问题;- 迁移时间窗口:由于数据迁移可能会导致业务中断或影响业务性能,因此需要在有限的时间内完成迁移;- 跨平台迁移:迁移过程中可能涉及不同的操作系统、数据库和存储系统之间的数据迁移,需要解决平台差异性带来的问题。

二、数据迁移工具为了解决数据迁移中的问题和挑战,业界开发了许多数据迁移工具,下面将介绍几种常用的数据迁移工具。

1. ETL工具ETL(Extract-Transform-Load)工具是一种常见的数据迁移工具,它把数据从源系统中提取出来,经过转换和加工后加载到目标系统中。

ETL工具通常具有强大的数据处理和转换能力,可以应对大数据量、复杂转换等需求。

常见的ETL工具有Informatica PowerCenter、IBM InfoSphere DataStage等。

2. 数据同步工具数据同步工具是用来实现数据源与目标的同步更新的工具。

它可以实时或定期地将数据从源系统同步到目标系统,保证数据的一致性和实时性。

常见的数据同步工具有Oracle GoldenGate、SymmetricDS等。

3. 数据备份和恢复工具数据备份和恢复工具主要用于将数据从源系统备份到目标系统,并在需要时从备份中恢复数据。

Informatica数据隐私管理说明书

Informatica数据隐私管理说明书

Key Benefits• Protection and monitoring of personal and sensitive data to fuel data-driven digital transformation and support for privacy and compliance efforts• Centralized visibility across data platforms and types, providing the support needed for today’s complex environments• Continuous risk analysis of personal and sensitive data,to prioritize resources and investments across functional, geographic, and line of business views• AI-driven detection to uncover high-risk, anomalous data usage • A single view of data subjects’ information to provide identity capabilities (rights and consents requests) required for GDPR, CCPA and other privacy legislation• Automated orchestration and protection with sensitive data intelligence remediates privacy and security risks Metadata-driven Intelligence and Automation to Operationalize PrivacyInformatica® Data Privacy Management helps you discover, classify, analyze, protect and monitor personal and sensitive data across your organization. It leverages artificial intelligence (AI) to deliver actionable data discovery and classification, risk scoring, data subject identity capabilities, behavioral analytics, and automated protection in a single solution. It supports structured, semi-structured and unstructured data in the cloud, on premises, in big data stores, and in relational and mainframe systems.Informatica Data Privacy Management helps you prioritize data protection and privacy investments, policies, processes, and programs:• Discover and classify your sensitive data: Gain global visibility into personal and sensitive data across the enterprise with data classification, discovery, proliferation and process analysis, user access, and activity correlation.• Map individual identities to sensitive data: Understand sensitive data by individual identities and quickly locate an individual’s sensitive data to support privacy requests.• Analyze and monitor privacy risk: Track data risk and remediation of misuse and privacy violations based on multiple factors, customize to your organization’s needs, and identify top risk areas based on privacy regulation requirements. Risk simulation helps you understand the impact of data controls before implementation.• Continuously monitor data movement, access, and user activity: Leverage analytics to detect suspicious or unauthorized data access by continuously correlating, baselining, analyzing, and alerting on high-risk conditions and potential anomalous behaviors that threaten sensitive data.• Protect personal and sensitive data and remediate risk: Automate the orchestration of data security controls to protect data at rest and in use, prevent unauthorized access, and de-identify/anonymize/pseudonymize sensitive data. Initiate remediation workflows with custom scripting, automated email notifications of security policy violations, ServiceNow integration, andout-of-the-box third-party protection integration.Data SheetKey FeaturesDiscover and Classify Sensitive Data• Discover, classify and analyze the risk of sensitive and personal data across the enterprise—in structured data across traditional relational databases, including mainframes; semi-structured and unstructured data in environments such as Hadoop repositories, Amazon S3; file mounts (e.g., CIFS); and SharePoint.• Attain complete sensitive data visibility with dashboards and drill-downs to identify functional and organizational information such as department, application, user, and data storage types.• Gain a complete understanding of data, its movement, and its usage in business processes with proliferation tracking and interactive visualizations—both inside and outside the enterprise and between partner and client organizations.Figure 1. Informatica Data Privacy Management provides 360-degree visibility of sensitive data through its dashboard.Support Regulatory Compliance• Accelerate and continuously measure regulated privacy data compliance with risk scoring based on customizable factors, including data sensitivity, volume, protection, proliferation, location, and user activity.• Apply a combination of data domains to define GDPR, CCPA, PII, PHI, and PCI risks relevantto policies, laws, and regulations.• Leverage subject registry for a single view of data subjects across structured and unstructured data. Provide automated matching and linking of data subjects’ records for privacy legislation compliance and to support the execution and management of subject rights and consent requests.• Enforce compliance with automated remediation, stakeholder notification, continuous monitoring of user behavior and sensitive data proliferation across data stores and geographic locations.About InformaticaDigital transformationchanges expectations: betterservice, faster delivery, withless cost. Businesses musttransform to stay relevantand data holds the answers.As the world’s leader inEnterprise Cloud DataManagement, we’re preparedto help you intelligently lead—in any sector, category, orniche. Informatica providesyou with the foresight tobecome more agile, realizenew growth opportunities, orcreate new inventions. With100% focus on everythingdata, we offer the versatilityneeded to succeed.We invite you to exploreall that Informatica hasto offer—and unleash thepower of data to drive your next intelligent disruption.Worldwide Headquarters 2100 Seaport Blvd., Redwood City, CA 94063, USA Phone: 650.385.5000, Toll-free in the US: 1.800.653.3871IN06_1120_03836© Copyright Informatica LLC 2020. Informatica and the Informatica logo are trademarks or registered trademarks of Informatica LLC in the United States and other countries. A current list of Informatica Protect Personal and Sensitive Data • Identify critical data protection priorities and create plans to support privacy by design objectives.• Protect sensitive data with automated remediation that leverages integrated Informatica Dynamic Data Masking, Persistent Data Masking, and third-party protection methods such as Hortonworks Ranger and Cloudera Sentry.• Integrate with custom scripts, email notifications, system log messages, or ServiceNow tickets. Configure these actions to run when triggered by security policy violations or run them manually when potential risks are detected.For more information, visit the Data Privacy Management Product Page。

informatica 面试题

informatica 面试题Informatica面试题在数据处理和数据集成领域,Informatica是一家领先的软件公司,其技术和解决方案被广泛应用于企业中。

如果你正在为Informatica面试做准备,那么本文将提供一些常见的Informatica面试题,并为你提供详细的回答。

1. 什么是Informatica?它在数据集成中扮演了什么角色?Informatica是一种企业级数据集成和管理解决方案。

它提供了一套强大的工具和技术,用于数据抽取、转换和加载(ETL)等任务。

通过使用Informatica,企业可以将来自不同数据源的数据整合到一个统一的数据仓库中,并提供准确、一致的数据结果。

2. Informatica的主要组件是什么?请简要描述它们的功能。

Informatica的主要组件包括:- PowerCenter:这是Informatica的核心组件,用于数据整合和ETL。

它提供了一个集成的环境,用于开发、部署和监控数据集成任务。

- PowerExchange:它是一个提供与外部数据源(如关系数据库、文件系统等)通信的插件框架。

- PowerMart:这是一个基于Web的工具,用于创建和发布简单的数据仓库。

- PowerDesigner:它是一个用于建模和设计数据仓库的工具。

- Metadata Manager:它用于管理和浏览不同数据源中的元数据,以支持数据整合和分析。

3. Informatica中的工作流是什么?它是如何工作的?工作流是Informatica中用于管理和执行任务的一种方式。

工作流由多个任务(任务是数据整合的不同阶段或步骤)组成,并按照预定的顺序执行。

每个任务都可以定义为数据抽取、清洗、转换或加载等操作。

工作流具有以下主要特点:- 有向无环图(DAG)结构:工作流中的任务按照特定的依赖关系组成一个有向无环图。

每个任务都依赖于其他任务的输出结果,并且没有循环依赖。

- 并行处理:工作流中的任务可以以并行或串行方式运行。

数据库迁移 方案

数据库迁移方案
数据库迁移是将现有数据库的数据和结构迁移到新的数据库环境中的过程。

下面是一些常见的数据库迁移方案:
1. 通过备份和还原:这是最常见的数据库迁移方法。

首先备份源数据库,然后将备份文件还原到目标数据库中。

这种方法简单易行,但可能需要较长的停机时间。

2. 使用ETL工具:ETL工具(如Talend和Informatica)可以
将源数据库中的数据抽取,转换和加载到目标数据库中。

这种方法适用于大规模数据迁移,可以在不停机的情况下进行。

3. 使用数据复制工具:一些数据库提供了数据复制工具,可以实时将数据从源数据库复制到目标数据库中。

这种方法适用于需要保持源和目标数据库之间数据同步的情况。

4. 逐条迁移数据:对于较小的数据库,可以使用脚本或SQL
语句逐条迁移数据。

这种方法比较繁琐,但允许对数据进行更细致的处理和筛选。

5. 使用云服务提供商的迁移工具:如果将数据库从一个云平台迁移到另一个云平台,可以使用云服务提供商提供的迁移工具。

这些工具可以简化迁移过程并提供自动化功能。

无论选择哪种数据库迁移方案,都需要仔细规划和测试,确保数据的完整性和一致性。

此外,还需要备份源数据库,并在迁移过程中进行监控和错误处理。

Informatica主数据管理提升企业业务价值

Informatica主数据管理提升企业业务价值作者:暂无来源:《中国金融电脑》 2016年第6期日前,在Forrester Research 发布的调研报告中,Informatica MDM在包括数据治理、数据探查和监控、数据质量、大数据部署、集成和处理、安全性以及市场占有率等在内的20个评测标准中获得了最高分。

而在Gartner 发布的《2015 年客户数据解决方案主数据管理魔力象限报告》中,Informatica 也凭借强大的“多领域能力”和“对智能数据平台的投资”连续6 年位居领导者象限。

谈到Informatica 在主数据领域取得的成就,Informatica 公司大中国区首席产品顾问但彬指出,Informatica 作为全球领先的独立软件提供商,始终将“提升数据价值,降低IT 成本,达成业务使命”作为企业价值定位。

Informatica 提供了完整的数据治理解决方案,包括数据获取、清洗、转换、匹配、融合、治理、安全以及交付,几乎涵盖了将大数据转换为商业价值的所有重要功能。

尽管在人们眼中Informatica 是一家技术性质非常强的企业,事实上,其对行业的发展趋势也颇为关注,更希望通过提供“ 技术+ 行业” 的解决方案,助力企业业务转型、创新发展。

有效串联各类散乱的数据Informatica 的MDM 工具经过不断提升,现在已经可以满足后端数据编制和主数据联合需求,而角色友好的UI 则可用于管理,企业用户有望获得跨机构和领域的企业级探查、监控、处理、数据质量、BPM 和数据集成功能,更详细地分析、了解和利用对其业务最为重要的人员、地点和事物之间的关系。

多域MDM 平台外,Informatica还提供了能够在关键业务流程中推动革命性创新方法的由主数据驱动的4 种应用: Product 360、Supplier 360、Customer 360 和适用于Salesforce 的Cloud Customer360,提供了一个类似CRM 的环境,集成地体现一个完整的数据视图,各行业用户都可利用成熟的工具实现满足自身需求的应用。

Informatica:当好大数据的清道夫

Informatica:当好大数据的清道夫作者:郭涛来源:《中国计算机报》2013年第28期“中国用户虽然已经有了明确的大数据需求,但是大多数用户目前只是抱着试试看的心理,将一部分应用转到大数据平台上。

电信运营商、银行等用户都在做这种尝试。

”Informatica 公司大中国区首席产品顾问但彬表示,“但是,对于转移到大数据平台需要花费多少精力和财力、大数据平台是否可靠等问题,中国用户还在考察之中。

”扫清大数据处理的障碍我们现在能看到的大数据成功案例多来自互联网领域。

但是如果比较数据本身的含金量,还是企业大数据(结构化数据)更具价值。

虽然Informatica的产品已经应用于像Facebook这样的互联网企业,但是其业务重点还是在结构化数据的处理上。

在大数据概念出现以前,人们在商业智能分析方面已经做了很多工作,而完成这些工作需要的大量价格高昂的硬件对于企业来说已经不堪重负,如果再加上大数据分析,很多企业根本无法承受这样巨大的投入。

因此,像Hadoop这样的开源产品应运而生。

用户转换到大数据平台,不仅要考虑软硬件的投入,还要考虑为此支出的人力成本和学习成本,在新的应用环境中如何更简单方便地使用相关工具等问题。

但彬表示:“我们的目标是让用户基于原有的知识体系,就能透明地使用大数据工具。

因此,我们把所有需要处理的东西虚拟出来,让它既可以运行在传统的硬件上,也可以运行在大数据平台上。

这样,用户就不必考虑其数据和应用究竟运行在哪个平台之上,只要直接使用即可,降低了大数据应用的门槛和成本。

”Informatica主要解决的是数据质量和数据集成的问题,而大数据分析是其下游的应用。

“如果放到大数据平台中的数据质量只有60分,那么分析得出的结果肯定不会是100分;如果我们为大数据平台提供质量为90分的数据,那么得出的结果肯定更好。

大数据的展示固然重要,但是大数据的收集更加重要。

”但彬举例说。

Informatica的主要工作是在数据采集和流通过程中就对数据进行清洗、整合和处理,然后再将高质量的数据交由大数据平台进行分析。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

白皮书主数据管理和数据迁移本文档含有 Informatica Corporation 的保密、专有信息和商业秘密信息(“机密信息”),事先未经Informatica 的书面同意,不得进行拷贝、散发、复印或以任何其它方式复制。

尽管我们尽最大努力确保本文档中信息的准确性和完整性,但仍可能存在一些印刷错误或技术误差。

如因使用本文档所含信息而造成任何损失,Informatica 概不负责。

本文档中包含的信息随时可能更改,恕不另行通知。

Informatica 自行决定将这些材料中讨论的产品属性纳入其任何软件产品的发布或升级中,并自行决定任何此类发布或升级的时间安排。

受下列一项或多项美国专利保护:6,032,158;5,794,246;6,014,670;6,339,775;6,044,374;6,208,990;6,850,947;6,895,471;或受下列正在申请的美国专利保护:09/644,280;10/966,046;10/727,700。

此版本发布于 2014 年 11 月白皮书目录MDM 对数据迁移为何至关重要 (2)第 1 个问题:进行苹果与苹果的比较 (2)按时启动:中间步骤 (3)案例:若干产品 (4)第 2 个问题:质量至关重要 (4)案例:整合公司总部系统和本地系统 (5)数据迁移是提升 MDM 价值的途径 (5)主数据管理和数据迁移1本白皮书描述主数据管理对数据迁移项目日益增长的重要性、有用之处和最佳部署选项,其中包括相关案例研究。

MDM 对数据迁移为何至关重要每个新系统均需要数据来促进活动的启动。

大多数新系统需要若干数据。

如今,除了通过邮局地址文件等外部源丰富新系统以外,我们正在将大量遗留源中的数据迁移至新系统。

Informatica 数据迁移工具套件将部署一整套技术和最佳实践流程,旨在解决当今数据迁移场景中涌现的一系列挑战。

但首先,我们一起来看看市场背景。

尽管目标系统可能会涵盖各种功能,但数据源就好比是烟囱式解决方案,每一款解决方案均围绕不同的业务流程、不同的业务领域而设计。

尽管目标系统要求数据一致,但遗留环境中的数据结构和内容却经常不一致。

这给我们带来了以下两个问题,不过二者均可使用 MDM 技术加以解决。

第 1 个问题:进行苹果与苹果的比较下面,我们一起来看个示例。

假设我们正在安装新生产规划应用系统。

该系统通过将会计和人力资源应用系统链接在一起,旨在增强车间管理并提高效率。

但我们发现,涉及的每个部门及其背后的运行体系对于完全相同的事物具有不同的看法。

会计人员看到的是某一成本中心、利润中心、折旧、资本资产和运营资产。

而生产工程师则通过以下属性来定义同一物理空间:自动化流程、半自动化流程和手动流程;工作流;维护计划;生产定额。

与此同时,人力资源部门则会将同一场景视为内部员工、外部员工、培训需求、技能级别、付款协议和医疗保健问题。

他们都在观察同一个事物,但都站在不同的角度。

因此,在选择和设计系统时,他们将采取截然不同的系统建模方式,这一点不足为奇。

这并不是说他们谁有错,但毫无疑问,他们肯定不一致。

因此,在执行数据迁移时,我们确实会发现,我们事实上并不是在比较苹果和苹果。

相反,我们是在比较苹果和梨。

若要成功,我们仅需一种水果。

这并不仅仅像摒弃这种或那种观点。

从绝对意义上来说,这些真实的观点都没有错。

另一方面,即便我们认定生产部门的观点最恰当(假设在这种情况下,这些观点正好是我们的变更驱动因素),但我们也无法认定要其他遗留数据存储,才能在不重新设计这些数据的前提下、以潜在基于迁移本身规模的方式符合生产部门的模型。

在任何情况下,我们更可能会采取一种观点,即:每个遗留数据存储对于其自身域的建模范围正好合适。

因此,生产部门从生产的角度来看觉得合适,而人力资源部门则从人力资源的角度来看觉得合适,依此类推。

因此,我们需要一款能够考虑到所有各方观点的模型。

有趣的是,这种挑战与交付目标系统的项目挑战完全相同。

为何不能等到目标准备妥当并执行相应的差距分析?2按时启动:中间步骤如果第一个问题是协调支离破碎的数据环境,那么我们还可以回过头来思考一下正常迁移的时间表。

如果我们假设新系统的设计和安装需要一年时间,那么目标系统最快在八个月后才能问世,而且仅仅是第一轮雏形。

(假设标准的项目方法包括:项目启动活动、当前状态分析、新系统的配置和业务流程的重新设计)据经验表明,我们有望可在第 10 个月实现稳定的目标交付,即便在移交之后还有可能会出现变更。

根据以前得出的经验,我们只剩下两个月的时间执行差距分析;提取、转换和加载数据;编写和测试负载脚本等。

不幸的是,我们几乎没有足够的时间对遗留数据存储之间的结构差异进行优质的分析,只能让系统生成负载文件中所需的复合数据项。

对于此时间问题,有一种解决方法是:创建一个中间阶段模型(我们称之为“迁移原型”)。

我们记录每个遗留数据存储和原型之间的差异,并开始执行清除和数据准备活动。

然后,当最终交付目标模型时,我们可以看出原型和目标之间的差异。

由于我们已掌握遗留数据存储和原型之间的转换,因此我们可以隔离原型和最终目标之间的差异,因而在最繁忙、压力最沉重的时期显著简化自身的活动。

因此,这里有一个小诀窍,即:构建一款针对目标状况做出最佳猜测的迁移模型,分析遗留模型和迁移模型的差异,并执行数据转换、数据扩充和增强等操作。

然后,当真正的目标出现时,我们根据最终出现的微调问题调整这些转换数据。

这样一来,如果原型只有 80% 的正确性(经验告诉我们必须进一步提高正确性),则在项目最后冲刺的几周时间里,我们必须设计 80% 的转换逻辑。

但是,主数据管理解决方案为何能够在此模型中提供帮助?据维基百科指出:“MDM 旨在提供在整个企业范围内收集、聚合、匹配、整合、质量保证、保留以及分发数据的流程,确保持续维护和应用系统使用此信息时的一致性和可控性”从数据角度来看,所举示例中的三大领域观点(会计人员、生产工程师和人事专员)将使用相关数据存储内的编码值加以实例化。

因此,我们对提供数据“收集、聚合、匹配、整合和质量保证”流程非常感兴趣。

在这一项目中,我们并不会如此直接关注“保留以及在整个企业范围内分发数据”(原因我们已提及)。

但是,确保“持续维护和应用系统使用此信息时的一致性和可控性”是我们迁移项目时所要考虑的主要问题。

换句话说,我们将采用 MDM 数据迁移方法,其原因除了我们是希望更换(而不是增强)系统以外,还在于我们不可能闭合使用这些数据项的系统循环。

主数据管理和数据迁移3案例:若干产品下面,我们一起来看看一个真实的示例,更清楚地了解上述所有信息。

某大型电信公司正准备进行数据迁移。

为了大致了解迁移规模,他们对数千万名客户和数十亿的安装系统进行编号。

除此以外,还有许多数量十分庞大的零散产品,每种产品高达上万个。

为了使整个迁移项目变得更有趣,我们假定该电信公司在某些产品的基础上构建产品。

这样一来,我们必须处理的零件版本数量便呈爆炸式增长。

此外,该电信公司还面临着因遗留系统数量过于庞大而带来的严峻挑战。

由于订购、设计、交付和计费涉及多个层面的物理活动和逻辑活动,因此,该公司每个步骤均已配备一个传统的构建点解决方案。

结果,潜在的遗留系统池高达 400 多个。

通常,每次安装大约需要处理 30 个左右。

当然,其中每个遗留系统均具有自身的整体视图,展示它在整个流程流中的具体位置,并指出其视图是逻辑视图,还是物理视图或财务视图。

在此白皮书中,我们仅阐述产品结构问题以及为何迫切需要基于 MDM 的解决方案。

面对数以万计的产品,而且其中某些产品以另一些产品为基础构建,因此各项规则的数量之多令人感到恐怖。

当某一遗留应用系统正在进行某次电话安装时,另一系统可能会涉及电话听筒、拨号音、外拨电话、向内拨号、回复电话、接听电话等。

换句话说,即便是一个简单的内线电话,也会涉及多达 10 余种产品,更不用说复杂的语音和数据网络。

配置流程中的每个系统似乎均会涉及不同的电话。

我们必须保持一致,必须尽快启动。

坐等目标实现并非明智之举。

该解决方案旨在为产品和产品内部版本创建主数据管理中心。

每周更新数据可解决日新月异的行业需求,随时设计并添加新产品。

该中心允许我们检查遗留数据存储以查看匹配产品,并始终支持我们查看交付链中不同点的显示差距。

随着每一迁移阶段的出现,我们可以清楚地看到源系统结构和目标系统结构的差距,并相应地针对映射和转换重新编码。

第 2 个问题:质量至关重要下面,我们一起来看看第二类问题:内容或数据值问题。

对于同一业务对象,遗留数据存储可能具有多种结构,因此我们很可能具有多个值。

下面,我们一起看看几个相关的常见示例。

客户列表中包含的重复数据,这可能是令所有市场营销部门头疼的一个大问题。

这些数据是从客户各个孤岛的多个数据存储中收集的。

有些数据很容易发现并清除。

但有些数据可能存在可怕的同音异义或同义词问题。

John Smith 是否就是 J Smith,或者在其他位置可能是 J P Smith 或 Jonnie Smith?执行迁移时,我们都会遇到同样的问题。

这些问题就好像同一数据存储内可能出现的状况一样,即:同一个人可能会出现多个副本。

这些问题经常因为结构问题而变得更加扑朔迷离。

例如,在企业对企业 (B2B) 环境中,经常会因为该客户到底是谁而感到困惑。

我们是否应将该客户视为第一合法实体?(即:如果确实如此,我们会将该公司告上法庭。

)或者,该客户是我们打交道的交易部门吗?或者是当地仓库或商店?再次重申一下,您的观点将随着您在企业中所处的位置而变化。

物流团队将查看供应点;计费团队则需查看供应点和计费地址详细信息。

您可能拥有许多在不同地域开展业务的销售团队,但只有一层专门为大客户服务的战略关系经理。

因此,从法律的角度来说,可能只有一个合法实体,但却有几百个当地订购点、交付点和计费点。

4再强调一次,更正源系统中的这类异常并不可行,特别是在源系统并没有错误的情况下更是如此。

(当然,如果同一客户被创建两次,则此缺陷流程将直接导致出现重复数据。

这些数据甚至从遗留数据存储角度来看便已出错,但可在其中予以更正。

)那么,您应在哪些位置启动 MDM 解决方案?它如何提供帮助?不言而喻,MDM 是掌控主要实体的完美解决方案。

下面,我们将执行完全成熟的 MDM 中的几乎所有功能(其中包括确保“持续维护和应用系统使用此信息时的一致性和可控性”)。

至少,我们将展示它如何确保遗留数据集中不存在任何重复数据。

案例:整合公司总部系统和本地系统下面,我们再来看一个示例,更清楚地了解其中涉及的挑战。

某中型银行需要迁移。

该银行的办事处地理位置十分分散,且每个办事处内均存在总公司系统的分散实例,由一系列批处理流程链接至总部。

相关文档
最新文档