数据仓库概念的简单理解

合集下载

数据仓库与数据挖掘考试习题汇总

数据仓库与数据挖掘考试习题汇总第⼀章1、数据仓库就是⼀个⾯向主题的、集成的、相对稳定的、反映历史变化的数据集合。

2、元数据是描述数据仓库内数据的结构和建⽴⽅法的数据，它为访问数据仓库提供了⼀个信息⽬录，根据数据⽤途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。

3、数据处理通常分成两⼤类：联机事务处理和联机分析处理。

4、多维分析是指以“维”形式组织起来的数据（多维数据集）采取切⽚、切块、钻取和旋转等各种分析动作，以求剖析数据，使拥护能从不同⾓度、不同侧⾯观察数据仓库中的数据，从⽽深⼊理解多维数据集中的信息。

5、ROLAP是基于关系数据库的OLAP实现，⽽MOLAP是基于多维数据结构组织的OLAP实现。

6、数据仓库按照其开发过程，其关键环节包括数据抽取、数据存储于管理和数据表现等。

7、数据仓库系统的体系结构根据应⽤需求的不同，可以分为以下4种类型：两层架构、独⽴型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。

8、操作型数据存储实际上是⼀个集成的、⾯向主题的、可更新的、当前值的（但是可“挥发”的）、企业级的、详细的数据库，也叫运营数据存储。

9、“实时数据仓库”以为着源数据系统、决策⽀持服务和仓库仓库之间以⼀个接近实时的速度交换数据和业务规则。

10、从应⽤的⾓度看，数据仓库的发展演变可以归纳为5个阶段：以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和⾃动决策为主。

第⼆章1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。

2、抽取、转换、加载过程的⽬的是为决策⽀持应⽤提供⼀个单⼀的、权威数据源。

因此，我们要求ETL过程产⽣的数据（即调和数据层）是详细的、历史的、规范的、可理解的、即时的和质量可控制的。

3、数据抽取的两个常见类型是静态抽取和增量抽取。

静态抽取⽤于最初填充数据仓库，增量抽取⽤于进⾏数据仓库的维护。

4、粒度是对数据仓库中数据的综合程度⾼低的⼀个衡量。

集合系统的名词解释

集合系统的名词解释随着科技的不断发展，各种集合系统在我们的日常生活中扮演着越来越重要的角色。

从社交媒体平台到电商网站，从智能家居到自动驾驶系统，无一不依赖于集合系统的设计和优化。

然而，在我们谈论这些系统时，很少有人能清晰地解释它们背后的核心概念。

因此，本文旨在对集合系统的一些重要名词进行解释，以帮助读者更好地理解和应用这些概念。

1. 数据库（Database）数据库是集合系统的核心组成部分之一。

它是指按一定的结构和规则组织起来的、用于存储和管理大量数据的集合。

数据库通常由一个或多个表组成，每个表由行和列组成，分别代表数据的记录和属性。

通过数据库，我们可以方便地存储、查询和更新大量数据，保证数据的一致性和完整性。

2. 数据仓库（Data Warehouse）数据仓库指的是一个用于存储大量历史数据的集中式仓库。

与传统的数据库不同，数据仓库旨在支持决策支持和分析工作，而不是日常的事务处理。

数据仓库通常采用异构的数据源，并经过清洗、集成和转换，以提供决策者所需的一致、准确的数据视图。

数据仓库的架构通常分为数据提取、数据转换、数据加载和数据查询等环节，以确保数据的完整性和可用性。

3. 数据挖掘（Data Mining）数据挖掘是一种通过在大规模数据集中发现模式和规律的技术。

它包括从数据中提取特征、进行统计分析、构建模型和预测未来趋势等过程。

数据挖掘可以帮助我们发现隐藏在庞杂数据背后的知识，为决策和预测提供支持。

常见的数据挖掘技术包括聚类、分类、关联规则挖掘和异常检测等。

4. 人工智能（Artificial Intelligence）人工智能是一种使机器能够像人类一样思考和行动的技术。

在集合系统中，人工智能常常用于处理和分析大量数据，以及实现自动化的决策和推荐。

其中，机器学习是人工智能的重要方法之一，它通过从数据中学习并建立模型，实现对未知数据的预测和分类。

5. 云计算（Cloud Computing）云计算是一种通过网络提供计算资源和服务的模式。

数据仓库与数据挖掘技术解析

数据仓库与数据挖掘技术解析在现代信息化的时代，数据已经成为了一种非常重要的资产。

在这些海量的数据之中，有很多有价值的信息被隐藏其间。

这就需要我们使用数据仓库与数据挖掘技术，通过对数据的分析和挖掘，向我们呈现出内在有价值的数据信息，帮助我们更好地理解数据，并从中发现我们需要的信息。

一、什么是数据仓库？在这个信息时代，数据已经成为企业不可缺少的一部分。

数据仓库是一个专门用于存储数据的系统。

它是一个集成的数据存储库，可以提供数据分析、数据挖掘、Web 搜索和企业报告等功能，以帮助企业快速响应客户需求、创造商业价值。

数据仓库是一个面向主题、集成、时间相对稳定和可刷新的数据存储库，用于支持企业智能化决策的整个过程。

面向主题: 数据仓库是围绕企业内关键业务件建立的，如销售、供应、市场等；集成: 数据仓库可集成不同来源的数据；时间相对稳定: 数据仓库存储的数据相对长周期，如一年或更长；可刷新: 数据仓库是可刷新的，数据可以通过批处理或实时方式更新。

二、数据仓库的重要性数据仓库非常重要，因为它提供了企业知识管理的基础。

企业知识管理是智能化决策和企业的长期成功的基础。

数据仓库可以帮助企业了解他们的客户、业务和市场动态。

由于大量的数据每天产生，数据仓库是必要的，以便企业能够应对不断变化的市场需求和管理信息的日益复杂的挑战。

数据仓库的另一个重要方面是它可以帮助企业洞察和理解他们的客户。

通过数据仓库分析数据可以确定客户的购买模式、使用历史和趋势，以及他们对于企业的反应。

这有助于企业制定更好的战略、优化点，以更好地满足客户需求。

三、数据挖掘技术数据挖掘是一种从大量数据中提取信息、关系和模式的技术。

数据挖掘不是单纯的筛选和过滤数据，而是在数据中寻找隐含的知识和模式。

如同羊毛出在羊身上，这些我们不曾发现过的、规律性强的数据关联，本身就是数据中蕴藏的财富。

数据挖掘使用抽样、统计分析、模型构建等技术，将庞大、复杂的数据库处理成有价值的信息，一方面为业务提供帮助，一方面成为指导企业决策的可靠的数据来源。

数据系统的名词解释

数据系统的名词解释数据系统（Data System）是由硬件、软件和人员组成的，用于收集、存储、处理和分析数据的系统。

它在现代社会中起到了极其重要的作用，支撑着各种行业和领域的运作。

本文将对与数据系统相关的一些重要名词进行解释，帮助读者更好地理解这个领域。

一、数据库（Database）数据库是数据系统中的核心组成部分之一，它是一个有组织的数据集合，可供多个应用程序共享和访问。

数据库以表格的形式进行组织，包含了一系列相关的数据和数据之间的关系。

在数据库中，数据可以方便地进行存储、查询和更新，使得信息的管理和使用更加高效和方便。

二、数据仓库（Data Warehouse）数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合，用于支持管理决策。

与传统的数据库不同，数据仓库不仅仅包含当前和操作性的数据，还包括历史数据和大量的汇总数据。

数据仓库的建立需要将来自不同数据源的数据进行抽取、转换和加载处理，以保证数据的一致性和高质量。

三、数据挖掘（Data Mining）数据挖掘是从大量数据中自动发现潜在的、于人类经验之外的、之前未知的、有用的模式和知识的过程。

它是通过使用统计学、机器学习、人工智能等技术，对数据进行深入的分析和研究。

数据挖掘可以用于市场调研、客户关系管理、风险分析等领域，帮助用户从海量数据中提取有价值的信息。

四、数据流程管理（Data Flow Management）数据流程管理是在数据系统中对数据流动过程进行管理和控制，确保数据在系统中的流动和处理是有序和高效的。

数据流程管理包括数据的输入、输出、转换、流向等方面，通过设计合理的数据流程，可以降低系统的复杂性和风险，并提高数据系统的性能和可靠性。

五、数据治理（Data Governance）数据治理是一种组织管理数据的方式，旨在确保数据质量、合规性和可信度。

数据治理涉及数据的所有方面，包括数据的定义、分类、管理、保护和使用等。

通过建立有效的数据治理机制，可以使组织更好地理解和利用数据，减少数据管理中的问题和风险。

产品经理-10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系(一)

10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系（一）作为一名数据小白，在日常讲授和杂务工作中经常会接触到数据。

随着用户数据与金融业务数据的不断累加，数据管理与处理愈发重要。

本篇文章中，无名氏将一文说明数据库、数据仓库、数据湖、数据中台的区别与联系。

作为数据相关的产品小白，在日常学习工作中经常能或者听到大家在讨论数据库，数据仓库，数据集市，数据库数据湖还有最近比较火的数据中台，似乎这些名词都与数据存在着联系，查阅各类相关书籍，大部分书籍中的内容过于专业晦涩难懂。

那么这结合我积累的相关方面知识，向大家介绍一下上述这些名词的与联系，以及在各类企业及业务范围上的适用范围，如有不准确的地方，希望大家进行指正。

相信大部分有些许技术背景的都对数据库有一定的了解，数据库是“按照数据结构来组织、存储和管理数据的仓库”，一般分为“关系型数据库”与“非关系型数据库”。

1.关系型数据库实际上回顾过去的数据库一共有三种模型，即层次模型，网状模型，关系模型。

（1）首先层次模型的数据结构为树状结构，即是一种上下级的社团组织层级关系组织数据的一种方式：（2）带状模型的数据结构为网状网状结构，即将每个数据节点与其他很多节点都连接起来：（3）关系模型的数据结构可以看做是一个二维表格，任何数据都可以通过行号与列号来唯一确定：由于相比于层次模型和网状模型，关系模型理解和使用最简单，最终基于关系型最后数据库在各行各业应用了起来。

关系模型的数学方法第一卷涉及到关系，元组，属性，笛卡尔积，域等等令人头秃的高等数学术语，这里大家如果感兴趣可以看看相关的文献，我就不放出来催眠大家了，尽管数学原理比较复杂，但如果用事务平时学习工作的具体事务举例，就相对容易理解。

我们以某公司的员工信息表为例，该公司的员工信息可以用一个表格存起来。

并且定义如下：同时部门ID对应这另一个职能部门表：我们可以通过给定一个政府部门部门名称，查到一条部门的记录，根据部门ID，又可以记述查到该部门下的员工记录，这样三维的表格就通过ID映射建立了“一对多”的关系。

大数据导论（4）——OLTP与OLAP、数据库与数据仓库

⼤数据导论（4）——OLTP与OLAP、数据库与数据仓库公司内部的数据⾃下⽽上流动，同时完成数据到信息、知识、洞察的转化过程。

⽽企业内部数据，从⽇常OLTP流程中产⽣，实时存储进不同的数据库中。

同时定期被提取、经格式转化、清洗和加载（ETL），以统⼀的格式存储进数据仓库，以供决策者进⾏OLAP处理，并将处理结果可视化。

OLTP & OLAP企业的数据处理可以分成两⼤类：联机事务处理OLTP、联机分析处理OLAP。

OLTP（On-Line Transaction Processing，联机事务处理）——数据库的增删查改。

是⾯向“事务”类型的操作。

有⼏个显著的特点：要求速度快/操作涉及的数据量不⼤/要求精准操作。

事物型数据⼤多都具有⾼度规范化。

因此OLTP系统是结构化数据的主要数据源。

OLAP（On-Line Analytical Processing，联机分析处理）——⽀持复杂的分析、查询操作，侧重决策⽀持，并且提供直观易懂的查询结果。

解决了涉及多维度数据的问题（传统数据库⽆法满⾜OLAP所需要的数据信息）。

数据库 & 数据仓库数据库的主要应⽤场景为联机事务处理（OLTP），数据仓库的主要应⽤场景为联机分析处理（OLAP）。

数据库（Database）——⽤于存储电⼦⽂件，⽤户可以对⽂件中的数据运⾏新增、截取、更新、删除等操作。

为对数据库进⾏管理，开发设计出数据库管理系统（Database Management System）。

数据仓库（DataWarehouse）——⽤于存储数据的中央、企业级系统，存储的数据多为历史数据。

特点：数据仓库中的数据围绕企业主题（Subject-Oriented ）、经过集成（Integrated）、定期更新（Time-Variant）、具有⾮易失性（Non-Volatile，不可修改，多以只读格式返回给⽤户）；结构：暂存层、集成层、访问层与OLAP的关系：数据仓库为OLAP解决了数据来源问题，并与OLAP互相促进发展，进⼀步驱动了商务智能的成熟。

数据仓库面向主题的理解

数据仓库面向主题的理解
数据仓库是一个面向主题的数据存储和管理系统，用于支持企业决策和分析。

它是一个集成的、可扩展的数据集合，用于存储来自不同业务系统的结构化和非结构化数据。

数据仓库通过抽取、转换和加载（ETL）过程将数据从不同的源系统中提取出来，并根据预定义的业务主题进行转换和整合。

面向主题是指数据仓库将数据组织和存储按照特定的业务主题或问题域。

这些主题可以是与企业运营相关的，如销售、营销、供应链、客户关系等，也可以是与企业战略规划相关的，如市场趋势、竞争分析、业务预测等。

通过按照主题进行组织，数据仓库可以提供一种集中的、一致的视图，使用户能够更轻松地分析和理解数据。

面向主题的数据仓库具有以下特点：
1. 集成性：数据仓库整合了来自不同的源系统的数据，为用户提供统一的数据视图。

2. 非易失性：数据仓库中的数据是持久的，不会因为源系统的改变或数据的删除而丢失。

3. 主题导向：数据仓库按照特定的主题进行组织和存储，使用户能够更方便地访问和分析特定领域的数据。

4. 可扩展性：数据仓库可以根据业务需求进行扩展，以适应不断增长的数据量和变化的业务需求。

5. 冗余度低：数据仓库通过ETL过程将数据转换和整合，减少了数据冗余和不一致性，提高了数据的质量和可信度。

6. 支持决策分析：数据仓库提供了丰富的数据分析工具和技术，帮助用户进行决策分析和业务洞察。

总之，面向主题的数据仓库为企业提供了一个集成、一致、高质量的数据存储和管理平台，支持企业决策和分析，帮助企业更好地理解和利用数据。

MIS的平台名词解释

MIS的平台名词解释MIS（管理信息系统）是指一种采用计算机和通信技术，用于收集、处理、传输和存储各种管理活动所需要的信息的系统。

在MIS系统中，有许多名词是需要我们理解和掌握的，下面我将为大家解释一些MIS的平台名词。

1. 数据库管理系统（DataBase Management System，简称DBMS）数据库管理系统是指一种用于管理数据库的软件系统。

它负责存储、管理和操作数据库中的数据，为用户提供高效的数据访问方式。

数据库管理系统常见的有Oracle、MySQL、Microsoft SQL Server等。

2. 数据仓库（Data Warehouse）数据仓库是指一个面向主题、集成、稳定、随时间变化的数据集合。

它旨在支持企业决策制定者的需要，提供高质量的、一致的和可用的数据。

数据仓库常用于数据分析、报告和决策支持等领域。

3. 数据挖掘（Data Mining）数据挖掘是指从大量的数据中提取出有价值的信息和知识。

它通过分析数据库中的模式、关联规则和趋势等来发现潜在的业务机会和问题。

数据挖掘可以帮助企业发现市场需求、优化运营、提高销售等。

4. 企业资源规划（Enterprise Resource Planning，简称ERP）企业资源规划是指一种综合管理和控制企业各种资源的系统。

它通过集成不同部门和功能的信息和流程，实现信息的实时共享和有效管理。

企业资源规划可以帮助企业提高运营效率、降低成本、提供更好的客户服务等。

5. 客户关系管理（Customer Relationship Management，简称CRM）客户关系管理是指一种集中管理和分析客户信息的系统。

它通过建立客户数据库，记录和分析客户的行为和需求，以实现更好的客户关系和满足客户的需求。

客户关系管理可以帮助企业提高客户忠诚度、增加销售额等。

6. 供应链管理（Supply Chain Management，简称SCM）供应链管理是指一种跨组织、跨部门的协同管理方式。

数据仓库实验报告

一、实验目的1. 理解数据仓库的基本概念和结构；2. 掌握数据仓库的ETL（提取、转换、加载）过程；3. 熟悉数据仓库的查询和分析方法；4. 学习使用SQL Server等工具进行数据仓库的搭建和操作。

二、实验环境1. 操作系统：Windows 10；2. 数据库：SQL Server 2012；3. 开发工具：VS2017（SSDT）。

三、实验内容1. 数据仓库概述数据仓库是一个面向主题的、集成的、稳定的、随时间不断变化的数据集合，用于支持管理决策。

数据仓库的主要特点是面向主题、集成、稳定、变化和随时间不断变化。

2. ETL过程ETL是数据仓库中提取（Extract）、转换（Transform）、加载（Load）的缩写，它描述了将数据从源系统提取出来，进行必要的转换后，加载到目标系统中的过程。

（1）提取：从源系统中提取所需的数据，可以是数据库、文件或其他数据源。

（2）转换：对提取出来的数据进行清洗、格式化、合并等操作，使其符合数据仓库的要求。

（3）加载：将转换后的数据加载到数据仓库中，可以是数据库表、文件或其他数据存储。

3. 数据仓库查询和分析（1）SQL查询：使用SQL语言进行数据仓库的查询，包括简单查询、连接查询、子查询等。

（2）OLAP分析：使用OLAP（在线分析处理）工具进行数据仓库的分析，包括切片、切块、钻取、旋转等操作。

4. 使用SQL Server搭建数据仓库（1）创建数据库：使用SQL Server Management Studio创建一个新的数据库，用于存储数据仓库的数据。

（2）创建表：根据数据仓库的结构，创建相应的表，包括事实表、维度表等。

（3）数据加载：使用SQL Server Data Tools将数据加载到数据仓库的表中。

四、实验步骤1. 创建数据库（1）打开SQL Server Management Studio，连接到本地SQL Server实例。

（2）在对象资源管理器中，右键单击“数据库”，选择“新建数据库”。

全面了解物联网、数据仓库和数据湖

全面了解物联网、数据仓库和数据湖物联网（Internet of Things）是指由各种设备和物品连接在一起，通过互联网共享和交换数据的网络。

它可以使我们的生活更加便捷和智能化。

数据仓库（Data Warehouse）是指集中存储和管理各种数据，以支持企业的决策和分析工作。

它通常是一个经过特殊设计和优化的数据库系统，用于对大量结构化数据进行查询和分析。

数据湖（Data Lake）是指以原始形式存储和管理各种数据的存储系统。

与数据仓库不同，数据湖接收和存储来自各种数据源的各种数据，包括结构化、半结构化和非结构化数据。

数据湖通常是一个大规模的存储系统，可以保留原始数据并在需要时进行处理和分析。

物联网、数据仓库和数据湖在数据管理和分析领域发挥着重要的作用。

物联网通过连接各种设备和物品，收集和共享大量的传感器数据。

数据仓库则用于集中存储和管理这些数据，并通过各种分析工具和技术进行数据分析和决策支持。

数据湖作为数据的原始存储池，可以接收各种类型和格式的数据，并为企业提供更灵活和全面的数据分析和挖掘能力。

综上所述，全面了解物联网、数据仓库和数据湖对于企业和个人都十分重要。

它们能够帮助我们更好地理解和利用海量数据，以实现更高效、智能和创新的业务和生活方式。

全面了解物联网（Internet of Things）、数据仓库（Data Warehouse）和数据湖（Data Lake）的概念和作用，它们对于数据管理和分析具有重要作用。

物联网连接各种设备和物品，数据仓库用于集中存储和管理数据，数据湖作为原始数据存储池。

这些技术能够帮助企业更好地理解和利用海量数据，实现高效、智能和创新的业务和生活方式。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据仓库概念的简单理解一个典型的企业数据仓库系统通常包含数据源、数据存储与管理、OLAP服务器以及前端工具与应用四个部分。

如下图所示：数据源：是数据仓库系统的基础，是整个系统的数据源泉。

通常包括企业内部信息和外部信息。

内部信息包括存放于企业操作型数据库中（通常存放在RDBMS中）的各种业务数据和办公自动化（OA）系统包含的各类文档数据。

外部信息包括各类法律法规、市场信息、竞争对手的信息以及各类外部统计数据及各类文档等；数据的存储与管理：是整个数据仓库系统的核心。

在现有各业务系统的基础上，对数据进行抽取、清理，并有效集成，按照主题进行重新组织，最终确定数据仓库的物理存储结构，同时组织存储数据仓库元数据（具体包括数据仓库的数据字典、记录系统定义、数据转换规则、数据加载频率以及业务规则等信息）。

按照数据的覆盖范围，数据仓库存储可以分为企业级数据仓库和部门级数据仓库（通常称为“数据集市”，Data Mart）。

数据仓库的管理包括数据的安全、归档、备份、维护、恢复等工作。

这些功能与目前的DBMS基本一致。

OLAP服务器：对分析需要的数据按照多维数据模型进行再次重组，以支持用户多角度、多层次的分析，发现数据趋势。

其具体实现可以分为：ROLAP、MOLAP和HOLAP。

ROLAP 基本数据和聚合数据均存放在RDBMS之中；MOLAP基本数据和聚合数据均存放于多维数据库中；而HOLAP是ROLAP与MOLAP的综合，基本数据存放于RDBMS之中，聚合数据存放于多维数据库中。

前端工具与应用：前端工具主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工具以及各种基于数据仓库或数据集市开发的应用。

其中数据分析工具主要针对OLAP服务器，报表工具、数据挖掘工具既针对数据仓库，同时也针对OLAP服务器。

集线器与车轮状结构的企业级数据仓库这种结构也称为“Hub and Spoke”，这是因为中央数据库汇集了来自各业务处理系统的数据，同时也负责向各从属数据集市提供信息，看上去像一个Hub (集线器)；而业务人员在进行数据分析与信息访问时将根据需要连接到不同的数据集市，这种交叉复杂的连接看上去就像Spoke(车轮辐条)一样。

“Hub and Spoke”结构解决了企业内统一数据存储模型的问题，但从实际使用的角度来看仍有比较严重的缺陷：一是业务人员对信息的访问非常不方便，很难进行跨数据集市或跨部门的信息分析；另一个问题是每个数据集市都需要相应的软硬件投入，当数据集市增加时，系统整体投资迅速增加，同时管理的复杂性也随之增加。

这些都意味着巨大的整体拥有成本TCO(Total Cost of Ownership)。

为什么不直接访问中央数据仓库而非要设计一个数据集市层呢？主要原因在于当中央数据库保存越来越多的数据、并发用户越来越多时，一般的数据库引擎无法承担这样的负载，只好把它们分解到不同的数据集市。

对于“Hub and Spoke”结构的数据仓库， Gartner Group也认为，“数据仓库的 Hub and Spoke 结构，回避了DBMS技术中的弱点，无法提供适当的业务价值来平衡投资成本的显著增加”，“之所以产生这种趋势，是由于对大多数DBMS产品而言，支持复杂的数据模型和并发查询负载都是极大的挑战”。

集中式企业级数据仓库第二种企业级数据仓库的架构是集中式的，这解决了“Hub and Spoke”结构中存在的诸多问题，是一种比较理想的企业级数据仓库系统架构，能够为企业带来真正的业务价值与回报。

但由于把详细数据分析、部分的数据转换与清洗等复杂处理均集中在中央数据仓库，从而给作为数据仓库引擎的RDBMS和相应的服务器带来了极大的挑战。

选择这种数据仓库基础平台的基本要求是：1、线性扩展能力。

原始数据对任何一个数据仓库来说，都是最主要的负载之一。

随着数据量的增长，系统性能会逐渐下降。

维持合理的业务查询响应时间，要求数据仓库引擎和相应的数据库服务器具有优良的线性扩展能力。

一些系统的扩展能力非常有限，当数据量增长到一定规模时（比如TB级以上），就很难满足日常的业务分析要求了，因而不得不把数据分离到多个小规模的数据集市，形成所谓的“Hub and Spoke”结构。

2、并行处理能力。

许多业务查询与分析都是动态的，数据库传统的索引技术对动态分析和模糊查询的帮助不大。

系统只有具有非常好的并行处理能力，才能满足复杂的、动态的分析需求，并且承担比较复杂的数据转换与清洗工作。

3、简单的系统管理。

对于大型的数据仓库应用系统而言，如何能有效而简单地进行系统管理是非常重要的。

特别是当数据量不断扩大时，如果没有一种有效而且简单的系统管理措施，那么系统的运行费用将会很高。

数据仓库的实施是一个长期的过程，在基础设施建立完成后，随着应用的逐步开展和深入，其投资回报也逐步增加。

在建立数据仓库过程中需要一定的时间来建立数据仓库基础设施，并在建置的过程中逐步完善数据质量。

这个打基础的过程是无法省略的。

更为重要的是，在建立数据仓库的过程当中，还可以培养一批既懂数据仓库技术、又精通该领域业务的高级分析人才，这对于更好地发挥数据仓库价值是非常重要的附：联机事务处理OLTP及联机分析处理（OLAP）当今的数据处理大致可以分成两大类：联机事务处理OLTP（on-line transaction processing）、联机分析处理OLAP（On-Line Analytical Processing）。

OLTP是传统的关系型数据库的主要应用，主要是基本的、日常的事务处理，例如银行交易。

OLAP是数据仓库系统的主要应用，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。

下表列出了OLTP与OLAP 之间的比较。

OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。

OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是"维"这个概念。

“维”是人们观察客观世界的角度,是一种高层次的类型划分。

“维”一般包含着层次关系,这种层次关系有时会相当复杂。

通过把一个实体的多项重要的属性定义为多个维(dimension)，使用户能对不同维上的数据进行比较。

因此OLAP也可以说是多维数据分析工具的集合。

OLAP的基本多维分析操作有钻取（roll up和drill down）、切片（slice）和切块（dice）、以及旋转（pivot）、drill across、drill through等。

·钻取是改变维的层次，变换分析的粒度。

它包括向上钻取（roll up）和向下钻取（drill down）。

roll up是在某一维上将低层次的细节数据概括到高层次的汇总数据，或者减少维数；而drill down则相反，它从汇总数据深入到细节数据进行观察或增加新维。

切片和切块是在一部分维上选定值后，关心度量数据在剩余维上的分布。

如果剩余的维只有两个，则是切片；如果有三个，则是切块。

旋转是变换维的方向，即在表格中重新安排维的放置（例如行列互换）。

OLAP有多种实现方法，根据存储数据的方式不同可以分为ROLAP、MOLAP、HOLAP。

ROLAP表示基于关系数据库的OLAP实现（Relational OLAP）。

以关系数据库为核心,以关系型结构进行多维数据的表示和存储。

ROLAP将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。

维表和事实表通过主关键字和外关键字联系在一起,形成了"星型模式"。

对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为"雪花模式"。

MOLAP表示基于多维数据组织的OLAP实现（Multidimensional OLAP）。

以多维数据组织方式为核心,也就是说,MOLAP使用多维数组存储数据。

多维数据在存储中将形成"立方块（Cube）"的结构,在MOLAP中对"立方块"的"旋转"、"切块"、"切片"是产生多维数据报表的主要技术。

HOLAP表示基于混合数据组织的OLAP实现（Hybrid OLAP）。

如低层是关系型的，高层是多维矩阵型的。

这种方式具有更好的灵活性。

还有其他的一些实现OLAP的方法，如提供一个专用的SQL Server，对某些存储模式（如星型、雪片型）提供对SQL查询的特殊支持。

OLAP工具是针对特定问题的联机数据访问与分析。

它通过多维的方式对数据进行分析、查询和报表。

维是人们观察数据的特定角度。

例如，一个企业在考虑产品的销售情况时，通常从时间、地区和产品的不同角度来深入观察产品的销售情况。

这里的时间、地区和产品就是维。

而这些维的不同组合和所考察的度量指标构成的多维数组则是OLAP分析的基础，可形式化表示为（维1，维2，……，维n，度量指标），如（地区、时间、产品、销售额）。

多维分析是指对以多维形式组织起来的数据采取切片（Slice）、切块（Dice）、钻取（Drill-down和Roll-up）、旋转（Pivot）等各种分析动作，以求剖析数据，使用户能从多个角度、多侧面地观察数据库中的数据，从而深入理解包含在数据中的信息。

根据综合性数据的组织方式的不同，目前常见的OLAP主要有基于多维数据库的MOLAP及基于关系数据库的ROLAP两种。

MOLAP是以多维的方式组织和存储数据，ROLAP则利用现有的关系数据库技术来模拟多维数据。

在数据仓库应用中，OLAP应用一般是数据仓库应用的前端工具，同时OLAP工具还可以同数据挖掘工具、统计分析工具配合使用，增强决策分析功能。

附:OLAP主流产品•Hyperion Essbase•Oracle Express•IBM DB2 OLAP Server•Sybase Power dimension•Informix MetacubeHyperion Essbase•以服务器为中心的分布式体系结构•有超过100个的应用程序•有300多个用Essbase作为平台的开发商•具有几百个计算公式，支持多种计算•用户可以自己构件复杂的查询。

•快速的响应时间，支持多用户同时读写•有30多个前端工具可供选择•支持多种财务标准•能与ERP或其他数据源集成•全球用户超过1500家•Oracle Express•Oracle DW支持GB~TB数量级•采用类似数组的结构，避免了连接操作，提高分析性能•提供一组存储过程语言来支持对数据的抽取•用户可通过Web和电子表格使用•灵活的数据组织方式，数据可以存放在Express Server内，也可直接在RDB 上使用•有内建的分析函数和4GL用户自己定制查询•全球超过3000家•IBM DB2 OLAP Server–把Hyperion Essbase的OLAP引擎和DB2的关系数据库集成在一起。