成功实施数据仓库项目的7个步骤.docx

合集下载

数据仓库设计与实施

数据仓库设计与实施

数据仓库设计与实施一、概述数据仓库(Data Warehouse)是自主且稳定的数据集合,其中包含历史性数据,用于支持管理者的决策。

在企业中,数据仓库常缩写为DW。

从字面上看,数据仓库就是将数据保存在一个中央存储库中,它是一个面向主题的、综合的、稳定的、非易失的数据存储区域。

简单地说,数据仓库是一种清理、整理、管理、支持决策的数据存储和管理环境。

二、数据仓库的设计1.总体设计数据仓库设计需要考虑到整个系统的目标、数据的来源、数据的集成、数据的查询、数据的质量及数据的维护和更新等等。

其中,总体设计是整个数据仓库设计的核心。

在总体设计中,需要考虑数据仓库的存储结构、数据仓库的组成、数据仓库的可移植性、数据仓库的数据更新周期、数据仓库的访问方式等等。

2.数据模型设计数据模型设计主要是将数据整合到数据仓库中,负责处理数据的数据转换、数据积累和数据清洗等过程。

在数据模型设计中,需要考虑到架构设计、数据结构设计、维度模型设计、星型模型设计等等。

其中,设计好的数据模型会对数据的加工、分析和查询等产生深远影响。

3.数据归档和备份设计一个有效的数据仓库需要渐进式地增量存储和归档,以便将过去和现在的数据与未来的数据分离开来。

此外,数据归档和备份设计还需要考虑数据的还原,以便在需要时快速恢复数据。

三、数据仓库实施1.数据提取和转换数据提取和转换是数据仓库实施的第一步,也称为ETL(即提取、转换、加载)过程。

在这一步骤中,需要对各个源系统的数据进行提取和转换,使其满足数据仓库的需求,并将其加载到数据仓库中。

2.元数据管理元数据管理是数据仓库实施中的另一个重要步骤。

元数据包括数据仓库中所有数据的描述,包括数据源、数据字段、数据质量和数据血缘关系等信息。

元数据对于数据仓库的维护、查询、管理和数据共享至关重要。

3.查询和分析工具在数据仓库实施完成后,需要构建用于查询和分析数据的工具,如OLAP、数据挖掘、报表工具等。

这些工具能够帮助企业管理者更快速地发现数据中的信息和趋势,以便及时作出决策。

数据仓库搭建流程

数据仓库搭建流程

数据仓库搭建流程数据仓库(Data Warehouse)是一个集成的、主题导向的、面向分析的、时间一致的、非易失的数据集合,用于支持管理决策。

它将组织的各类数据进行整合和转换,为企业的决策者提供一致、准确、全面和及时的数据信息,从而支持企业的战略决策和业务分析。

搭建一个高效的数据仓库对企业的发展至关重要,下面将介绍数据仓库的搭建流程。

1.需求分析在搭建数据仓库之前,首先需要进行需求分析。

与业务部门和决策者沟通,了解他们的需求和期望,明确数据仓库的目标和功能。

根据需求分析结果,确定数据仓库的范围、数据源、数据维度和指标等。

2.数据清洗和整合数据仓库的建设离不开数据清洗和整合。

通过ETL(抽取、转换和加载)工具,从各个数据源中抽取数据,并进行清洗和整合。

清洗包括去除重复数据、纠正错误数据、填补缺失数据等。

整合则是将来自不同数据源的数据进行统一,建立一致的数据模型。

3.数据建模数据建模是数据仓库搭建的核心环节。

在数据建模过程中,需要根据需求分析的结果,设计数据模型。

常用的数据模型有星型模型和雪花模型。

星型模型以一个中心事实表为核心,维度表围绕事实表构建;雪花模型是在星型模型的基础上,将维度表进一步规范化,形成多个层次的维度表。

4.数据存储和管理数据存储和管理是数据仓库的基础。

根据数据模型的设计,选择合适的数据库管理系统(DBMS)进行数据存储和管理。

常用的数据库有关系型数据库如Oracle、MySQL等,也可以选择列式数据库如Greenplum、Vertica等。

此外,还需要考虑数据的备份和恢复,保证数据的安全性和可靠性。

5.指标定义和计算数据仓库的一个重要功能是支持指标的定义和计算。

根据需求分析的结果,明确需要计算的指标,并进行指标的定义。

指标的计算可以通过SQL语句、OLAP(联机分析处理)工具等方式进行,确保指标的准确性和一致性。

6.数据访问和可视化数据仓库的价值在于提供给决策者和分析师一个直观、易于理解的数据视图。

数据仓库的设计和实现

数据仓库的设计和实现

数据仓库的设计和实现一、数据仓库的定义数据仓库(Data Warehouse)是指从不同数据源种搜集的信息,经过多维分析后形成的一个集中式且具备分析能力的数据存储库。

二、数据仓库设计的基本原则1. 集成性:数据仓库应该整合多个数据源的数据,具有全局性视角。

2. 时效性:数据应该是最新的,而非历史的,数据之间应该有时间关系。

3. 一致性:数据应该是唯一的、标准化的,并应该尽可能的与同一机构的不同业务应用和不同数据源适配。

4. 可访问性:数据应该是用户友好的,对多种数据操作的查询方式都要满足。

5. 稳定性:为避免影响公司核心业务,数据仓库必须保障数据的一致性,同时也保障数据的灵活性,以适应业务发展的方向。

三、数据仓库的设计流程数据仓库的设计流程可以大致分为以下几个步骤:1. 确定数据仓库的业务目标,指出数据仓库用于集成的数据源和数据仓库必须包含的内容。

2. 设计维度模型,理解主题业务流程,建立数据源和数据仓库之间的映射。

3. 设计度量模型,设定可计算的指标和各类跟踪指标。

这些指标是基于业务主题的分析,包括财务、物流和顾客等。

4. 设计 ETL 流程,其包括抽取阶段、转换阶段和装载阶段。

5. 设计物理架构,建立数据仓库到数据仓库工作台(作为交互的接口)的架构。

四、数据仓库的实现1. ETL 流程的实现,包括实现数据抽取、数据清洗、数据变换和数据装载为一体的各工作点,以完成 ETL 的流程。

2. 数据模型的实现,包括维度模型的物理模型和星型模型的物理模型。

物理模型也会设计纵向分区的间隔,同时也会考虑使用分区以便支撑大表的运行。

3. 明星和雪花分型的实现,考虑到性大数据、性能提升和系统的可维护性,将设计数据仓库的分层体系结构。

4. 单点登录、按权限进行数据授权,数据科技化越来越深,数据授权也会随之上升,因此数据仓库的权限设计也变得越来越重要。

5. 多维查询分析,利用数据挖掘、多维分析等技术把数据信息分析出来,是数据仓库的理解和利用它的关键。

数据仓库建设流程

数据仓库建设流程

数据仓库建设流程随着数据量的不断增加和企业对数据分析的需求日益增强,数据仓库作为一种集成、清洗和存储企业数据的解决方案,被越来越多的企业所采用。

而数据仓库的建设过程也是一个相对复杂而又关键的任务。

下面将从需求分析、数据建模、数据抽取和加载、数据清洗和转换、数据质量管理和数据可视化等几个方面介绍数据仓库建设的流程。

需求分析是数据仓库建设的第一步。

在这一阶段,需要与业务部门合作,明确企业对数据仓库的需求和目标。

通过与业务人员的沟通和调研,了解企业业务流程、业务指标以及数据分析的具体需求。

在需求分析阶段,要明确所需数据的来源、数据的粒度和数据的格式等信息,以及数据仓库的性能和可扩展性需求。

数据建模是数据仓库建设的核心环节。

在这一阶段,需要根据需求分析的结果,对数据进行建模。

常用的数据建模方法有维度建模和实体关系建模。

维度建模是一种以事实表和维度表为核心的建模方法,它通过事实表记录业务事实的度量和维度表记录事实的上下文信息,构建起一个灵活、易理解的数据模型。

实体关系建模则是一种基于实体和关系的建模方法,它通过实体和实体之间的关系来描述业务领域和数据之间的关系。

数据建模的结果是一个逻辑模型和物理模型,用于指导后续的数据抽取和加载工作。

数据抽取和加载是数据仓库建设的重要环节。

在这一阶段,需要根据数据建模的结果,设计和实现数据抽取和加载的过程。

数据抽取是指从源系统中提取数据的过程,可以通过数据库连接、文件导入等方式进行。

数据加载是指将抽取到的数据加载到数据仓库中的过程,可以通过插入、更新和删除等方式进行。

数据抽取和加载的过程需要考虑数据的完整性、准确性和及时性,以保证数据仓库中的数据与源系统保持一致。

数据清洗和转换是数据仓库建设的关键环节。

在这一阶段,需要对抽取到的数据进行清洗和转换,以保证数据的质量和一致性。

数据清洗是指对数据进行去重、纠错、填充缺失值等处理,以消除数据中的噪声和错误。

数据转换是指对数据进行格式转换、单位换算、数据合并等处理,以满足数据仓库中的数据模型和分析需求。

数据仓库设计与实现的技巧与方法

数据仓库设计与实现的技巧与方法

数据仓库设计与实现的技巧与方法数据仓库(Data Warehouse)是一种用于支持业务决策的数据存储系统,它能够对公司的业务数据进行集成、加工、存储、管理和分析,从而为企业的管理和战略决策提供良好的数据基础。

数据仓库的设计和实现是数据仓库项目成功的关键,本文将分别介绍数据仓库设计和实现的技巧和方法。

一、数据仓库设计的技巧和方法1.需求分析需求分析是数据仓库设计的第一步,必须通过与业务用户的交流和对业务过程的理解,明确业务所需的数据内容和数据元素,并确定数据仓库中需要存储哪些数据表、数据字段和数据类型。

此外,还需要对数据进行分类,将其分为事实表和维度表。

2.数据建模数据建模是设计数据仓库的核心步骤,它用于创建数据仓库的模型以提高数据组织和数据管理的效率。

数据建模第一步是确定事实表和维度表,然后在设计中为每个表定义必要的字段和关系。

还要结合具体的业务场景,制定存储和查询数据的规则和方法,最终生成逻辑模型和物理模型。

3.ETL设计ETL指的是抽取(Extract)、转换(Transform)、装载(Load)的缩写,代表着数据仓库中数据从生产系统中抽取、转换和装载的过程。

ETL的设计应该考虑数据的来源和格式以及质量,并分析数据的变更和更新频率,构建合适的ETL体系,并且实现对数据的认证和清理,保证数据准确可靠。

4.数据质量数据质量对于数据仓库的设计非常重要,因为错误、不精确或无效的数据会导致错误和不可靠的决策。

在数据仓库的设计过程中,必须为每个模型、表和字段设置数据质量逻辑,指定数据准确性、完整性、一致性和可靠性的标准和规则。

此外,还需要建立监测和纠错的机制来确保数据质量。

5.性能设计数据仓库对于查询效率有很高的要求。

在设计和实现数据仓库时,需要考虑优化查询速度的各个因素。

常见的性能设计方法包括数据压缩、预聚合、并行化、索引优化等。

此外,还应该考虑到数据仓库的容量规划,预留空间以适应未来的需求。

二、数据仓库实现的技巧和方法1.技术选型数据仓库的实现技术包括硬件设备、操作系统、数据库管理系统、ETL工具等。

数据仓库设计与实现

数据仓库设计与实现

数据仓库设计与实现数据仓库是一个用于存储和管理大量结构化和非结构化数据的系统,它旨在为决策支持和业务智能提供基础。

在本文中,我们将探讨数据仓库的设计和实现,包括数据仓库的概念、构建过程和最佳实践。

一、数据仓库概述数据仓库是一个面向主题、集成、稳定、随时间变化的数据集合,用于支持企业决策和分析。

它从多个源系统中提取和转换数据,然后将其加载到专门设计的存储结构中,以便用户可以进行高效的查询和分析。

数据仓库的主题是企业感兴趣的关键领域,例如销售、财务、供应链等。

通过将多个源系统的数据整合到一个统一的数据模型中,数据仓库可以提供全面、准确的信息,帮助企业做出更好的决策。

二、数据仓库的构建过程1.需求分析:首先,需要与业务人员合作,了解他们的需求和问题。

通过讨论和分析,确定需要在数据仓库中支持的主题和指标。

2.数据源识别:根据业务需求,确定需要从哪些源系统中提取数据。

这些源系统可能包括企业内部的关系型数据库、文件系统,以及外部数据源如云存储等。

3.数据抽取和转换:从源系统中提取数据,并进行必要的转换和清洗操作。

这包括数据规范化、去重、格式转换等。

这一步骤还需要注意数据质量和一致性的问题。

4.数据加载:将转换后的数据加载到数据仓库中。

这可以通过批处理或实时流水线等方式完成。

5.数据建模:设计数据仓库的逻辑和物理模型,包括维度模型、星型模型等。

这将决定数据在仓库中的组织和查询方式。

6.元数据管理:管理和维护数据仓库中的元数据,包括源系统的定义、数据模型的描述、ETL过程的规范等。

7.查询和分析:通过BI工具或自定义查询语言,对数据仓库进行查询和分析。

这可以帮助用户了解业务情况、发现趋势和模式。

三、数据仓库的最佳实践1.业务驱动:数据仓库的设计和实现应该以业务需求为导向。

与业务人员密切合作,了解他们的需求,确保仓库中的数据对其有意义。

2.数据质量管理:数据质量是数据仓库的关键问题。

需要进行数据清洗、去重、规范化等操作,确保数据的准确性和一致性。

数据仓库设计步骤

数据仓库设计步骤数据仓库是一个用于集中存储、管理和分析大量数据的系统。

它的设计过程是一个复杂的任务,需要经历多个步骤。

下面是数据仓库设计的主要步骤:1.需求分析:首先,需要与业务用户和利益相关者合作,了解业务需求和目标。

这包括理解他们的数据分析需求、业务流程和决策支持要求。

这一步骤有助于确定数据仓库应该包含哪些数据和所需的数据分析功能。

2.数据源分析:在这一步骤中,需要识别和分析所有可用的数据源,包括内部和外部系统。

需要评估这些数据源的数据质量、结构和可用性,以确定应该选择哪些数据源。

3.数据抽取、转换和加载(ETL):在这个步骤中,需要确定如何从不同的数据源中提取数据,并将其转换为适合数据仓库的格式。

这包括数据清洗、数据集成和数据转换等过程。

ETL过程还应该能够处理数据的增量更新和历史数据的保留。

4.数据模型设计:在这一步骤中,需要设计数据仓库的逻辑模型和物理模型。

逻辑模型通常使用维度建模技术,包括维度表和事实表来描述数据。

物理模型则定义了如何将逻辑模型映射到实际的存储结构,包括数据库表和索引设计等。

5.数据仓库架构设计:在这一步骤中,需要确定数据仓库的整体架构。

这包括确定数据仓库的结构、数据存储和访问机制。

需要考虑到数据仓库的可伸缩性、性能和可用性等方面。

6.数据仓库实施:在这个步骤中,需要根据设计的数据模型和架构来实施数据仓库。

这包括创建数据库表、索引、视图等。

还需要实施ETL过程和相关的数据访问工具。

7.数据质量管理:数据质量是数据仓库设计中一个重要的方面。

在这一步骤中,需要定义数据质量规则和度量,并实施数据质量管理的过程。

这包括数据清洗、数据验证和数据监控等活动。

8.元数据管理:在数据仓库中,元数据是描述数据的数据。

在这一步骤中,需要定义和管理元数据,以便用户能够理解数据的含义和含义。

这包括建立元数据仓库、元数据标准和元数据管理工具等。

9.安全和访问控制:在这一步骤中,需要制定数据仓库的安全策略和访问控制机制。

数仓建设方案

数仓建设方案一、背景介绍随着信息化时代的迅猛发展,企业面临着大量的数据积累和处理需求,为了更好地利用数据资源,提高企业决策水平和效率,数仓建设成为越来越重要的一环。

本文将介绍一个基于xxx公司的数仓建设方案。

二、数仓建设目标1. 提高数据集成能力:将各个数据源(包括内部和外部数据)进行集成,减少数据冗余、数据不一致等问题。

2. 提升数据存储和处理能力:通过优化数据存储结构和引入大数据技术,实现对大规模数据的高效存储和处理。

3. 提供一致准确的数据分析和报告:建立数据仓库,确保数据的一致性和准确性,为企业提供可靠的数据分析和决策支持。

4. 支持实时数据分析:引入实时数据处理技术,满足企业对实时数据分析的需求,提供更及时的决策支持。

三、数仓架构设计1. 数据采集层:该层主要负责从各个数据源中采集数据,可以通过ETL工具或自开发的数据采集程序实现。

将采集到的数据按照规范进行数据清洗、转换和加载,确保数据的质量和一致性。

2. 数据存储层:该层主要负责存储采集到的数据,并进行数据管理和优化。

可以使用关系型数据库、NoSQL数据库或数据湖等技术进行存储,并对数据进行索引、分区等处理,提高查询效率。

3. 数据处理层:该层主要负责对存储的数据进行处理和分析,以满足企业的业务需求。

可以使用数据仓库、数据挖掘或大数据平台等技术进行数据处理和分析,提供多维分析、报表生成等功能。

4. 数据应用层:该层主要负责向用户提供数据查询、报表展示、数据可视化等功能。

可以通过BI工具、数据可视化平台或自开发的应用程序实现,提供灵活、易用的数据分析和决策支持功能。

四、数仓建设实施步骤1. 需求分析:与业务部门紧密合作,明确数仓建设的需求和目标,包括数据采集需求、数据存储和处理需求、数据分析和报告需求等。

2. 数据模型设计:根据需求分析结果,设计数据模型,包括实体关系模型、维度模型等,确保数据的结构和关系合理清晰。

3. 系统搭建和配置:根据数据模型设计结果,搭建数仓系统,包括数据采集、数据存储、数据处理和数据应用等模块,配置相应的软硬件环境。

数据仓库搭建流程(二)

数据仓库搭建流程(二)数据仓库搭建流程引言数据仓库是一个关键的组织资源,它集中存储和管理企业的数据,并提供高质量、一致的数据供企业用户使用。

本文将详细介绍数据仓库搭建的流程,帮助读者更好地理解和实施数据仓库项目。

准备工作在搭建数据仓库之前,需要进行以下准备工作:1.明确需求:明确企业的业务需求,了解需要存储和分析的数据类型和规模,以及数据的使用方式和频率。

2.资源规划:评估现有的技术、人力和预算资源,确定搭建数据仓库的运营模式和规模。

3.团队组建:组建专门的团队来负责数据仓库项目,包括数据工程师、数据分析师和业务专家等。

4.数据清洗和整合:对现有的数据进行清洗和整理,确保数据的质量和一致性,以便后续的数据分析和挖掘工作。

数据模型设计数据模型设计是数据仓库搭建的重要一环,它包括以下步骤:1.业务理解:深入理解企业的业务流程和数据需求,与业务专家和数据用户紧密合作,确保设计的数据模型符合实际需求。

2.数据建模:根据业务需求和数据分析的要求,设计合适的数据模型,包括维度模型和事实模型等。

3.数据抽取和转换:确定数据抽取的方式和频率,并设计数据转换和清洗的流程,确保数据的准确性和一致性。

4.数据加载:设计数据加载的流程和策略,将清洗和转换后的数据加载到数据仓库中。

技术选型在搭建数据仓库时,需要选择合适的技术工具和平台,包括数据抽取工具、ETL工具、数据库和分析工具等。

主要的技术选型包括:1.数据抽取:选择合适的数据抽取工具,根据数据源的类型和规模,选用适合的数据库连接方式和抽取方法。

2.ETL工具:选择适合的ETL工具,用于数据的清洗、转换和加载工作。

常用的ETL工具包括Informatica、DataStage和Pentaho等。

3.数据库:选择合适的数据库存储数据,根据数据的规模和性能要求,选择关系型数据库或者列式数据库。

4.分析工具:选择合适的数据分析工具,用于数据的查询、分析和报表生成。

常用的分析工具包括Tableau、Power BI和QlikView 等。

数据仓库-实施步骤

数据仓库-实施步骤数据仓库-实施步骤定义范围项⽬范围定义了⼀个数据仓库项⽬的边界。

典型的范围定义是组织、地区、应⽤、业务功能的联合表⽰。

定义范围时通常需要权衡考虑资源(⼈员、系统、预算等)、进度(项⽬的时间和⾥程碑要求)、功能(数据仓库承诺达到的能⼒)三⽅⾯的因素。

定义好清晰明确的范围,并得到所有项⽬⼲系⼈的⼀致认可,对项⽬的成功⾮常重要。

项⽬范围时设定正确的期望值、评估成本、评估风险、指定开发优先级的依据。

确定需求定义业务需求建⽴数据仓库的主要⽬的是为组织赋予从全局访问数据的能⼒。

数据的细节程度必须能够满⾜⽤户执⾏分析的需求,并且数据应该被表⽰为⽤户能够理解的业务术语。

对数据仓库中数据的分析将复制业务决策,因此,作为数据仓库的设计者,应该清楚业务⽤户是如何做决策的,在决策过程中提出了哪些问题,以及哪些数据是回答这些问题所需要的。

与业务⼈员进⾏⾯对⾯的沟通,是理解业务流程的好⽅式。

沟通的结果是使数据仓库的业务需求更加明确。

在为数据仓库收集需求的过程中,还要考虑设计要能适应需求的变化定义技术需求数据仓库的数据来源是操作型系统,这些系统⽇复⼀⽇地处理着各种事务活动。

操作型系统⼤都是联机事务处理系统。

数据仓库会从多个操作型源系统抽取数据。

但是,⼀般不能将操作型系统⾥的数据直接迁移到数据仓库,⽽是需要⼀个中间处理过程,这就是所谓的ETL过程。

确认数据的更新频率。

例如,如果需要进⾏长期的或⼤范围的数据分析,可能就不需要每天装载数据,⽽是每周或每⽉装载⼀次。

更新频率并不决定数据的细节程度,每周汇总的数据有可能每⽉装载。

数据仓库设计的初始阶段,需要确定数据源有哪些、数据需要做哪些转换以及数据的更新频率是什么。

逻辑设计需要定义特定数据的具体内容,数据之间的关系,⽀持数据仓库的系统环境等,本质是发现逻辑对象之间的关系建⽴需要的数据列表细化业务⽤户的需求以形成数据元素列表。

为了得到所需的全部数据,需要适当扩展⽤户需求或者预测未来的需要,⼀般从主题域涉及的业务因素⼊⼿。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

成功实施数据仓库项目的7个步骤 建立一个数据仓库并不是一个简单的任务,不应该由一个人单独完成。由于数据仓库最佳结合了业务惯例和信息系统技术,因此,一个成功的数据仓库实施需要这两方面的不断协调,以均衡其所有的需要,要求,任务和成果。我很乐意与大家分享我在规划和管理任何数据库项目时采用的方法,这些数据库包括交易数据库,数据仓库,和混合型数据库。由于我生活在关系数据库和数据仓库以及用以支撑它们的数据提取,转换和加载(ETL )过程中,所以我会集中在这些领域讨论我的方法。然而,您可以将这些方法扩展到整个栈--OLAP立方体和如报告,特征分析(ad-hoc analysis),记分卡和仪表盘展示之类的信息传递应用。 我不是吃撑了要告诉一个真正的项目经理( PM )如何做他或她的工作,相反,我写的这些是为那些数据库管理员和开发者,他们没有好运气能与有经验的项目经理一起工作;同样也适合这样的IT专业人员,他们被突然要求:“建立一个数据仓库“,并且需要自己扮演项目经理的角色。我的讨论不会是完整的,但我希望这会给您足够的信息来让您的项目球滚起来。 如图1所示,数据仓库项目有3个轨道(tracks):数据轨道,技术轨道和应用层轨道。当您在整理任何数据库项目计划时,我建议您以这三个轨道为模板来管理和同步您的活动。当您向技术决策者( TDMs ) ,商业决策者( BDMs ) ,和所有其他该数据仓库项目参与者讲解您的计划时,您也可以把图1当作一个高级的概要图来使用。 使用一种生命周期管理方法 我鼓励您利用您的组织可以提供的资源,比如设计,开发和部署系统和软件的技术和方法。如果贵公司对于这些工作没有采用任何正式的方法,继续前进吧,您可采用我为我自己的数据库项目开发的7D数据库生命周期管理方法(Discover, Design, Develop, Deploy, Day to Day , Defend, Decommission), 昵称“7D法”。 我的“7D”数据库生命周期管理方法讲的是数据库的生命周期管理,而不是相关的软件(应用程序)和硬件的生命周期。图1包括了软硬件轨道,但我不会进一步阐述它们的管理。为了成功实施数据库生命周期的方法,有必要调整和同步数据库生命周期的里程碑、硬件和应用软件。 数据仓库的构建从来不会真正结束。不像传统的数据库在部署后的一段时间里保持相对的不变,数据仓库始终处于不断的变化之中,以应对它所服务的业务环境的变化。当今的业务环境更加复杂,并涉及比以往任何时候都要快的变化。处理这种几乎是不断的变化是企业的最大挑战之一。这就是为什么数据仓库团队中的每一个人,包括技术决策者( TDMs ) 和业务决策者( BDMs ),都必须处在同一阵线上,使用同一种生命周期管理方法,以使他们的认识完全得到统一。只有这样,才有可能对已实施的数据仓库、企业的构想和宗旨进行调整。在图1中,我已经展示了我的“7D法”的7个步骤,本文将带领您完成每一步。

第一步:发掘 我保证任何规模和领域的数据库项目离开了开始的发掘阶段都将失败。这个阶段也被称为“需求分析和定义”, 发掘阶段需要以业务为中心,特别是数据仓库项目,因为数据仓库的输出需要支持组织的目标。发掘这一步实质上就是调查,您应该不断地问六个基本问题(什么,如何,在何处,谁,何时和为什么),记录好答案,并把这些答案包含在您起草的解决方案中。 在“7步”的前3步(发掘,设计,开发)中,必须对业务主和技术专家进行集中的协调,项目经理(PM)应该促成这一进程。项目经理作为一个独立的专业人员,主要关心项目的及时上线、预算在控制范围内,有预期的运行效果;项目经理在得到各方的反馈意见后,负责制定严格的路线,里程碑和成功指标。如果项目里没有PM,这些将成为您的工作。 在发掘阶段,PM必须收集图1所示的三个轨道的信息,即技术轨道,数据轨道和应用层轨道。在其他任务中,PM必须确定利益相关者和用户,必须理解他们各自的角色和相应的数据/视图 需求。PM必须知道本组织的绩效管理策略:目标是什么,倡议什么以及跟踪业务和项目健康状况的支撑度量标准/关键绩效指标。如果上述策略的任何部分遗漏了,该项目很有可能失去最终用户的评分,这可能会导致低的采用通过率和未来资金的丢失。换句话说,该项目将失败,而不管项目任务执行得有多么完美。

第二步: 设计 设计这一步的主要活动是定义描述数据仓库的语义和概要模型。这些模型必须解决企业用户的管理信息系统(MISs)和商务智能( BI )分析需要。对于数据仓库项目,您可以为关系型数据仓库创建概念和逻辑数据模型,为表示多维立方体创建三维模型。您可以使用决策矩阵,以帮助确定每个三维模型需要包含些什么;沿Y轴方向列出被数据仓库支持的关键业务流程,沿X轴方向列出建议的维。这个矩阵将作为当前开发、未来扩展和跨组织集成的向导。在设计阶段建立的模型必须反映第一阶段您收集的六个问题的答案。标识数据仓库相关的所有数据源(内部和外部的),业务/交易数据库和展平文件是个好注意。您也应该明确说明哪些数据将被导入数据仓库,哪些只会简单地作为外部数据源引用。 通常,技术轨道有自己的PM,但您仍然可能需要填补那个角色。数据仓库可以增长为非常大的内容和十分广泛的范围,因此有必要在数据仓库部署之前恰当地规划其大小。首先在纸上估计其大小,这样您就可以大致把握当数据仓库投入产品应用时所需的处理器速度和磁盘容量。您需要估算一天的业务终端用户数量以及他们使用的应用(例如,对立方体做一个特别分析,或者从关系数据仓库中取出缓存的报告),也要估算数据仓库一年中将会存储的数据量。只是因为数据仓库是一个进展中的工作,您需要两年和五年预测,同样,其处理能力和数据存储需求将随着时间的推移不断增加。数据仓库设施包括各种硬件,通信和软件解决方案,所有这一切都必须协同工作,为终端用户提供一个工作的数据仓库。您需要足够的时间来计划和测试您将如何整合所有这些不同的组成部分。 跟技术轨道一样,应用轨道可能有自己的PM或由一个主导的软件开发人员充当这一角色。如果你是幸运的,你的工作将是与此人协调以同步任务。如果不是,那你的工作描述会扩大。应用层包括获取从数据仓库收集到的输出,通常是MIS报告和BI分析结果。MIS报告常是屏幕显示,仪表板,和打印副本的形式,它们帮助企业管理者做出运行日常业务所需的战术决策。这些输出相对比较容易界定、编码和被一系列标准化的进程抓取,这些进程运行在可预定环境中。应用层的BI部分是一组查询和响应,以帮助执行管理作出战略决策,推动商务运营。BI解决方案往往是非结构化的,很难预定义,因为他们倾向于用一种特别的方式探索数据。记分牌,图形和数据透视表是BI的应用例子,它们能刺激更多的数据探索,而这可能导致公司内部战略方向的改变。 在这个阶段许多方法要求原型或试点项目。“7D法”不需要。至多,作为应用层的设计活动中的一部分,你可以做一个“点击模式”--一种输入/输出屏幕的快速呈现模型,不涉及或只有极少的代码但却能给利益攸关方可视化的概念,同时又不会吃掉宝贵的时间和资源。如果试点或原型是必要的,那么选择其中的一个切片(slice)作为试点,完成“7D法”的每一步。“7D法”不区分试点,原型和产品系统--它们都被视为项目。 如果按照“7D法”设计了一个原型,并且最终进入了产品(大多数原型都是这样),然后您必须比第一个切片更仔细地选择第二个切片。如果这些切片不能成功地集成在一起,如果他们不支持您在发掘步骤发现的企业宗旨和意图,那么您在创建“烟囱”, 这是信息的群岛,整合彼此只会遇到困难,在某些情况下,甚至根本不可能。

第三步:开发 数据轨道开发步骤主要有两个部分:第一个涉及将数据模型映射到其对应的物理设计(实质是关系数据仓库和OLAP立方体的蓝图),规划数据库的大小,必要时对表进行分块,为数据仓库对象设定命名约定以便业务用户和技术用户都能适应,并制定索引和识别索引候选名单的策略。第二部分涉及数据从外部数据源到数据仓库的提取转换加载(ETL)。包含在第二部分但不局限于这一部分的是数据转换服务( DTS )/SQL Server整合服务( SSIS)补丁的开发与测试,导入/导出和T-SQL脚本开发和测试,以及对外部数据源组件的数据整合测试,这些数据不会导入到数据仓库。 技术轨道的开发步骤包括审查,测试和选择产品,并提供其作品的体系结构设计。为了组成通信链路的各个层--物理层、数据链路层、网络层以及传输层,会话和表现层,这样做是必需的。虽然许多产品把多层无缝打包到一个解决方案,但有必要认识到这些层中的每一个在未来的负载要求和性能要求,并提前为这些需求作好准备。为了从新的数据仓库交付数据,您应该选定数据仓库的服务器和存储解决方案,以及新的,最终用户面临的硬件。这样做是为了产品数据仓库和分期数据库--DTS/SSIS软件包和T-SQL脚本在这里执行,从外部数据源导入数据,以及把可操作和精心料理的数据导入到关系数据仓库和OLAP立方体中。根据发掘阶段收集到的需求,您的数据仓库环境可能还要支持数据集市,快照,和报告数据库,因此,也要准备为这些方面考虑环境。 应用轨道开发步骤听起来很简单:只要开发终端用户应用程序。然而,这可能是整个过程中最复杂和费时的任务,并且可能是代价最高的--如果没有认真制定和考虑成功的度量标准。正是在这一阶段,范围蠕变(不断增加特性和功能,而不考虑对其他两个轨道的设计和开发的影响)可能像鱼雷一样破坏项目。除了开发终端用户应用程序,您也不得不制定测试这些应用程序的计划,您需要制定终端用户培训计划以便用户能学会如何使用这些应用软件。在每一个里程碑,你必须确保获得相关各方的签字或验收。 这可能听起来很明显,但多少令人惊讶的是不知道有多少开发项目是在产品环境中阶段化和测试的!别这样做,只是不要这样做!为开发,测试,和组件划分搭建一个单独的物理环境。对业务系统要这样做--同样,对BI/数据仓库也要这样做。

相关文档
最新文档