数据仓库和数据集市的区别

合集下载

桂电《商务智能与数据挖掘》简答题答案

2、分析一下基于软件即服务使用模使得商务智能系统不必过多的依赖于企业的IT部门和IT资源，减轻了企业的人力、财力的压力，降低了管理维护基础设施和软件的人力成本，也降低了企业部署商务智能的风险，有利于商务智能在企业的各个部门的推广使用，促进企业商业模式的变革，提高企业核心竞争力。
5.信息性指的是系统处理大量数据、提供用户所需信息的能力。
P121
1、简述可视化技术与商务智能的关系。
答：
可视化技术是将抽象的数据表示为视觉图像的技术，作为商务智能的基础技术和表现之一，辅助商务智能的发现，使数据或知识的表示更加清晰、明了；而商务智能的其他技术为它提供数据存储、数据预处理、数据分析等的能力。二者相互交融、互相促进。
P138
2、借助商务智能进行关系营销的主要目的和方法有哪些？
答：
1.主要目的：培养客户忠诚性，提高客户满意度，维护良好的沟通渠道，有效开发客户生命周期内的价值，在客户所处的各个阶段，借助商务智能技术，可以进行有效的关系营销活动，以达到顾客满意，企业获利的双赢状态。
2.方法：使用操作型系统及外部系统、数据仓库、数据集市存储客户数据；使用OLAP、分类、聚类、数值预测、关联分析、时间序列分析对数据进行处理。
2.缺点：①安全问题，涉及数据的丢失以及敏感数据的泄露等；②网络延迟或中断，由于计算资源是通过互联网等网络提供的，比起局域网肯定存在网络的延迟，如果网络中断，则无法访问服务；③对服务提供商的依赖，如果服务提供商停止服务，则用户无法得到服务；④集成问题，服务提供商提供的软件、业其他系统进行集成等。
2、商务智能可视化有什么作用？
答：
1.通过将数据可视化，便于发现隐藏在数据之间的关系、可以使信息的交流更加清楚、有效；
2.可视化也是一种知识发现的手段，通过将数据以合适的形式展现给用户，通过人的视觉处理能力有时可以发现计算机发现不了的模式。

大数据：数据仓库和数据集市的比较

大数据：数据仓库和数据集市的比较随着科技的发展，数据成为了当下最热门的话题之一。

随着互联网的普及和各行各业的信息化建设与发展，数据规模与数据类型也日益增加。

面对如此巨大的数据量，如何正确地处理和分析数据，如何从中发现有价值的信息，也日益成为了各个企业必须面对的挑战。

在处理这些大数据时，数据仓库和数据集市是两种常见的数据存储和分析方式。

本文将详细比较数据仓库和数据集市的优缺点。

一、数据仓库数据仓库是指将企业内部不同系统中的数据进行收集和汇总，形成一个一致且具有高性能的数据存储库，并且保证数据的一致性、可更新性和可查询性。

数据仓库的主要特点：1、定期批量更新数据：数据仓库通常会对企业内部的数据进行定期批量的更新，而且一般是在业务量相对较小时进行。

2、面向历史：数据仓库主要面向数据的历史信息，针对的是过去的数据。

3、专注于查询：在数据仓库中，主要对数据进行查询操作。

4、主题导向：数据仓库是围绕着业务主题进行组织的，它包含了企业整个业务的各个方面。

数据仓库的优点：1、高效性：基于数据仓库的数据分析拥有更高的业务性能，用于大量数据处理时更加简单、高效。

2、数据一致性好：由于数据仓库的数据集中存储，因此能够保证数据的一致性。

3、适用于大型企业：数据仓库的搭建需要较高的成本，会考虑到企业经营的全局信息。

数据仓库的缺点：1、对实时更新的需求差：数据仓库的数据一般是较为静态的，更新时延相对较高。

2、对数据的一致性要求高：数据仓库在数据插入、更新、删除等操作上的成本相对更高，因此数据的一致性也更加重视。

3、可变性不强：数据仓库在建库时便需要考虑到全局信息，所以数据的构建相对比较稳定。

二、数据集市数据集市是指将企业内部不同系统中的数据进行收集，然后根据需要进行分类、整合、清洗、分析等操作，组成具有相同语义的业务数据集合，提供给业务部门，以支持各个业务部门的分析需求和决策需要。

数据集市的主要特点：1、实时更新：数据集市需要及时更新数据，这样业务部门才能随时获取到最新的数据信息。

etl 面试题

etl 面试题ETL（Extract, Transform, Load）是一种数据集成和数据处理的技术，广泛应用于数据仓库和商业智能。

在面试中，ETL面试题通常涉及ETL工具、ETL流程、数据清洗和转换等方面的知识。

本文将回答一系列ETL面试题，帮助读者更好地理解和掌握ETL相关的知识。

一、ETL是什么？它的作用是什么？ETL是一种数据集成和数据处理的技术，包括数据提取（Extract）、数据转换（Transform）和数据加载（Load）三个步骤。

其作用是从不同的数据源提取数据，经过转换和清洗后加载到目标系统中，以支持数据分析和决策。

二、请简要介绍一下你熟悉的ETL工具。

在ETL工具方面，市场上有多种选择，如Informatica PowerCenter、IBM DataStage、Microsoft SQL Server Integration Services（SSIS）等。

以下以Informatica PowerCenter为例进行介绍：Informatica PowerCenter是一款功能强大的ETL工具，可以在不同的平台上运行。

它提供了强大的数据提取、转换和加载功能，以及丰富的连接器和预定义的转换功能，能够满足各种ETL需求。

三、请简述一下ETL的工作流程。

ETL的工作流程通常包括以下步骤：1. 数据提取（Extract）：从源系统中提取数据，可以是关系型数据库、文件、Web服务等。

2. 数据清洗（Cleanse）：对提取的数据进行清洗和筛选，去除重复项、空值以及不合规的数据。

3. 数据转换（Transform）：对清洗后的数据进行转换，包括数据格式转换、数据合并、数据分割、计算字段等。

4. 数据加载（Load）：将转换后的数据加载到目标系统中，可以是数据仓库、数据集市或即席查询工具等。

5. 数据校验（Verify）：对加载后的数据进行校验，确保数据的准确性和完整性。

四、请说明一下ETL中的维度表和事实表。

数据仓库与数据集市的区别与选择

数据仓库与数据集市的区别与选择随着信息技术的发展和数据量的快速增长，企业对数据的需求也越来越高。

为了更好地利用和管理企业的数据资产，数据仓库和数据集市成为了常用的解决方案。

本文将探讨数据仓库与数据集市的区别，并给出在不同场景下的选择建议。

一、数据仓库的定义与特点数据仓库是指将企业各个业务系统产生的数据进行整合、清洗和转换，形成一个统一、集中、一致的数据存储空间。

数据仓库通常采取面向主题的建模方式，将业务数据按照主题进行组织，例如按照销售、客户、产品等主题进行存储。

数据仓库的特点包括：1. 面向主题：数据仓库关注企业的关键主题，将数据按照主题进行组织。

2. 集成的：数据仓库整合来自不同业务系统的数据，形成一张全面的数据模型。

3. 非易失的：数据仓库中的数据一般是只读的，不可修改，保证了数据的一致性和稳定性。

4. 历史的：数据仓库中保存了历史数据，可以进行时间序列分析和趋势预测。

二、数据集市的定义与特点数据集市是面向具体业务需求的数据存储和处理环境，它是数据仓库的一种延伸和扩展。

不同于数据仓库的集中式架构，数据集市通常采用分散式的架构，根据业务需求构建多个独立的数据集市。

数据集市的特点包括：1. 面向业务需求：数据集市根据不同的业务需求构建，可以为不同的部门和角色提供定制化的数据视图。

2. 高度灵活：数据集市采用分散式架构，每个集市可以独立定义数据模型和数据存储方式，实现灵活性和快速响应业务变化的能力。

3. 实时性需求：某些业务场景下，对于数据的实时性要求较高，数据集市可以针对这些需求提供实时数据。

4. 可扩展性：数据集市可以根据业务扩展的需要，灵活添加或删除数据集市，以适应业务的发展和变化。

三、数据仓库与数据集市的区别1. 架构设计：数据仓库采用集中式的架构，将各个业务系统的数据整合到一个统一的存储空间中；而数据集市采用分散式的架构，根据业务需求构建多个独立的数据集市。

2. 数据模型：数据仓库通常采用面向主题的数据建模方式，按照主题进行数据整合和存储；而数据集市根据具体的业务需求，可以采用不同的数据模型，如关系型模型、多维模型等。

商业智能与报表设计考试

商业智能与报表设计考试（答案见尾页）一、选择题1. 商业智能（Business Intelligence）是指什么？A. 商业智能是一种数据处理技术，用于帮助企业进行数据分析和决策支持。

B. 商业智能是一种软件系统，用于帮助企业进行数据仓库和数据集成的管理。

C. 商业智能是一种数据分析工具，用于帮助企业进行数据挖掘和预测分析。

D. 商业智能是一种企业战略工具，用于帮助企业进行市场趋势分析和竞争情报收集。

2. 在商业智能中，以下哪个术语用于描述从数据源提取数据的过程？A. 数据清洗B. 数据转换C. 数据挖掘D. 数据仓库3. 以下哪个术语用于描述将数据转换为信息的过程？A. 数据清洗B. 数据转换C. 数据挖掘D. 数据可视化4. 在商业智能中，以下哪个术语用于描述将数据组织成报告或仪表盘的形式？A. 数据仓库B. 数据集市C. 数据立方体D. 数据可视化5. 以下哪个术语用于描述在商业智能中，对数据进行聚合和分析的过程？A. 数据清洗B. 数据转换C. 数据挖掘D. 数据报告6. 在商业智能中，以下哪个术语用于描述从大量数据中提取有价值信息的步骤？A. 数据预处理B. 数据分析C. 数据可视化D. 数据挖掘7. 以下哪个术语用于描述在商业智能中，将分析结果以图表或图形形式展示的过程？A. 数据清洗B. 数据转换C. 数据挖掘D. 数据可视化8. 在商业智能中，以下哪个术语用于描述创建和管理数据仓库的过程？A. 数据清洗B. 数据转换C. 数据挖掘D. 数据仓库管理9. 以下哪个术语用于描述在商业智能中，对企业数据进行定期维护和更新的过程？A. 数据清洗B. 数据转换C. 数据挖掘D. 数据仓库维护10. 在商业智能中，以下哪个术语用于描述通过数据分析和模型构建来预测未来业务结果的过程？A. 数据清洗B. 数据转换C. 数据挖掘D. 数据建模11. 在商业智能中，以下哪个术语用来描述将数据转换为信息的过程？A. 数据清洗B. 数据转换C. 数据分析D. 数据可视化12. 商业智能报表设计的主要目的是什么？A. 提供数据报表，以便企业进行决策分析。

详解数据仓库和数据集市：ODS、DW、DWD、DWM、DWS、ADS

详解数据仓库和数据集市：ODS、DW、DWD、DWM、DWS、ADS01数据流向02应用示例03何为数仓DWData warehouse（可简写为DW或者DWH）数据仓库，是在数据库已经大量存在的情况下，它是一整套包括了etl、调度、建模在内的完整的理论体系。

数据仓库的方案建设的目的，是为前端查询和分析作为基础，主要应用于OLAP（on-line Analytical Processing），支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。

目前行业比较流行的有：AWS Redshift，Greenplum，Hive等。

数据仓库并不是数据的最终目的地，而是为数据最终的目的地做好准备，这些准备包含：清洗、转义、分类、重组、合并、拆分、统计等主要特点•面向主题▪操作型数据库组织面向事务处理任务，而数据仓库中的数据是按照一定的主题域进行组织。

▪主题是指用户使用数据仓库进行决策时所关心的重点方面，一个主题通过与多个操作型信息系统相关。

•集成▪需要对源数据进行加工与融合，统一与综合▪在加工的过程中必须消除源数据的不一致性，以保证数据仓库内的信息时关于整个企业的一致的全局信息。

（关联关系）•不可修改▪DW中的数据并不是最新的，而是来源于其他数据源▪数据仓库主要是为决策分析提供数据，涉及的操作主要是数据的查询•与时间相关▪处于决策的需要数据仓库中的数据都需要标明时间属性与数据库的对比•DW：专门为数据分析设计的，涉及读取大量数据以了解数据之间的关系和趋势•数据库：用于捕获和存储数据04为何要分层数据仓库中涉及到的问题：1.为什么要做数据仓库？2.为什么要做数据质量管理？3.为什么要做元数据管理？4.数仓分层中每个层的作用是什么？5.…...在实际的工作中，我们都希望自己的数据能够有顺序地流转，设计者和使用者能够清晰地知道数据的整个声明周期，比如下面左图。

但是，实际情况下，我们所面临的数据状况很有可能是复杂性高、且层级混乱的，我们可能会做出一套表依赖结构混乱，且出现循环依赖的数据体系，比如下面的右图。

数据仓库-数据集市-BI-数据分析-介绍

数据仓库-数据集市-BI-数据分析-介绍数据仓库数据集市BI数据分析介绍在当今数字化的时代，数据已经成为企业和组织最宝贵的资产之一。

如何有效地管理、分析和利用这些数据，以获取有价值的信息和洞察，成为了摆在众多企业面前的重要课题。

在这个过程中，数据仓库、数据集市、商业智能（BI）和数据分析等技术和概念发挥着至关重要的作用。

接下来，让我们一起深入了解一下这些概念。

数据仓库，简单来说，就是一个用于存储和管理企业数据的大型数据库系统。

它的目的是将来自不同数据源（如操作系统、数据库、文件等）的数据整合到一个统一的、一致的环境中，以便进行分析和决策支持。

数据仓库中的数据通常是经过清洗、转换和集成的，以确保数据的质量和一致性。

它采用了特定的架构和技术，如星型模式、雪花模式等，来优化数据的存储和查询性能。

数据仓库就像是一个大型的数据仓库，将各种各样的数据收集起来，经过整理和分类，以便后续的使用。

与数据仓库密切相关的是数据集市。

数据集市可以看作是数据仓库的一个子集，它专注于特定的业务领域或主题，例如销售数据集市、客户数据集市等。

数据集市的数据来源于数据仓库，经过进一步的筛选和加工，以满足特定业务部门或用户的需求。

数据集市的规模通常比数据仓库小，但更具针对性和灵活性，能够更快地提供相关的数据和分析结果。

接下来，我们谈谈商业智能（BI）。

BI 是一套用于将数据转化为有价值的信息和知识的技术和工具。

它包括数据报表、数据可视化、数据挖掘、联机分析处理（OLAP）等功能。

通过 BI 系统，用户可以以直观的方式查看和分析数据，从而发现数据中的趋势、模式和关系。

BI 帮助企业管理层做出更明智的决策，提高企业的竞争力和运营效率。

例如，通过数据报表，管理层可以清晰地了解企业的销售业绩、成本支出等情况；通过数据可视化，复杂的数据可以以图表、地图等形式展现，更容易理解和分析。

数据分析则是一个更广泛的概念，它涵盖了从数据收集、数据处理、数据分析到结果解释和报告的整个过程。

数据仓库数据集市概念区别

数据仓库数据集市概念区别数据集市≠数据仓库NCR公司可扩展数据仓库解决⽅案⼩组王闯⾈编译我们知道,决策⽀持系统(DSS)主要有两种实现⽅式,即建⽴⼀个数据集市或者⼀个数据仓库。

到底哪⼀种更能满⾜决策⽀持的要求并且适合企业今后的发展,是近两年来学术界和有关供应商激烈争论的⼀个话题。

在数据集市领域,主要的供应商和拥护者以美国红砖(Red Brick)公司为代表,其总裁Ralph Kimball在1997年12⽉的⼀篇论⽂中提出,"数据仓库只不过是⼀些数据集市的集合⽽已"。

认为企业多建⽴⼀些数据集市,将来⾃然就形成了数据仓库。

⽽业界公认的数据仓库之⽗ Bill Inmon在今年1⽉⽴即撰⽂反驳,旗帜鲜明地指出,"你可以在⼤海中捕到很多的⼩鱼并堆积起来,但它们仍然不是鲸"。

在5⽉份的《数据管理综述》(DataManage ment Review)中,Bill Inmon⼜发表了"数据集市不等于数据仓库"的论⽂,进⼀步阐述两者在本质上的区别以及各⾃的适⽤场合,本⽂就是根据这篇论⽂的主要内容编译⽽成的。

问题的提出现在,各企业IT部门的经理所⾯临的最主要问题之⼀是先建⽴数据仓库还是先建⽴数据集市。

长期以来,数据集市供应商们不断地给他们灌输这样的观念,即建⽴数据仓库⽐较复杂,投资过⼤,设计与开发周期太长,难以集成和管理企业范围内的各种源数据;并认为,基于数据仓库的DSS投资⽅案难以得到企业管理层的批准。

数据集市供应商们给业界描绘了⼀幅数据仓库前景暗淡的图画,这完全是出于⾃⾝的⽬的,是不正确的。

数据集市供应商们把数据仓库当成其增加营业收⼊的绊脚⽯,⾃然要避开和攻击数据仓库。

事实上,他们在销售时强调数据集市的建设周期短,是以企业信息系统结构的长期规划为代价的。

持数据集市主张的⼈认为,决策⽀持系统的成功实现,除了数据仓库以外,还有更简便、更有效的其它途径。

⽅法之⼀就是建⽴多个数据集市,当它们增加得⾜够⼤时,那就是所谓的数据仓库了。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据仓库和数据集市的区别数据仓库与数据集市看了很多数据仓库方面的资料，都涉及到了“数据集市”这一说法，刚开始对数据仓库和数据集市的区别也理解得比较肤浅，现在做个深入的归纳和总结，主要从如下几个方面进行阐述：（1）基本概念（2）为什么提出数据集市（3）数据仓库设计方法论（4）数据集市和数据仓库的区别（5）仓库建模与集市建模（6）案例分析：电信CRM数据仓库Bill Inmon说过一句话叫“IT经理们面对最重要的问题就是到底先建立数据仓库还是先建立数据集市”，足以说明搞清楚这两者之间的关系是十分重要而迫切的！通常在考虑建立数据仓库之前，会涉及到如下一些问题：（1）采取自上而下还是自下而上的设计方法（2）企业范围还是部门范围（3）先建立数据仓库还是数据集市（4）建立领航系统还是直接实施（5）数据集市是否相互独立一、基本概念数据仓库一词尚没有一个统一的定义,著名的数据仓库专家W. H. Inmon 在其著作《Buildingthe Data Warehouse》一书中给予如下描述:数据仓库(Data Warehouse) 是一个面向主题的(SubjectOri2ented) 、集成的( Integrate ) 、相对稳定的(Non -Volatile ) 、反映历史变化( TimeVariant) 的数据集合用于支持管理决策。

对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

为最大限度地实现灵活性，集成的数据仓库的数据应该存储在标准RDBMS 中，并经过规范的数据库设计，以及为了提高性能而增加一些小结性信息和不规范设计。

这种类型的数据仓库设计被称为原子数据仓库。

原子数据仓库的子集,又称为数据集市。

原子仓库存在的主要目的是作为数据集市的工作基础，同时也作为参照性数据仓库。

原子仓库的大小、集中存放和数据库设计可能无法满足特殊类型用户的各种需求。

其子集,即各个数据集市被拷贝到其它计算机上,可作为它们自己的数据仓库。

数据集市可以和产生它们的原子数据仓库一样大,甚至更大。

它们可以位于原子数据仓库的附近，或分布到更靠近用户的位置，放置在何处取决于使用和通讯成本。

数据集市是用来满足特殊用户的应用需求的数据仓库，它们的规模可能达到数百G B。

使其成为数据集市的关键是它的使用目标、范围，而非规模大小。

数据集市可以理解为是一个小型的部门或者工作组级别的数据仓库。

有两种类型的数据集市（如下图）：独立型（直接从操作型环境中获取数据）：这些数据集市是由特定的工作组、部门或业务线进行控制的，完全是为满足其需求而构建的。

实际上，它们甚至与其他工作组、部门或业务线中的数据集市没有任何连通性从属型（从企业级数据仓库中获取数据）：这样的数据集市往往以分布式的方式实现。

虽然不同的数据集市是在特定的工作组、部门或生产线中实现的，但它们可以是集成、互连的，以提供更加全局的业务范围的数据视图。

实际上，在最高的集成层次上，它们可以成为业务范围的数据仓库。

这意味着一个部门中的终端用户可以访问和使用另一部门中数据集市中的数据二、为什么提出数据集市虽然OL T P和遗留系统拥有宝贵的信息，但是可能难以从这些系统中提取有意义的信息并且速度也较慢。

而且这些系统虽然一般可支持预先定义操作的报表，但却经常无法支持一个组织对于历史的、联合的、智能的或易于访问的信息的需求。

因为数据分布在许多跨系统和平台的表中，而且通常是“脏的”，包含了不一致的和无效的值，使得难于分析。

数据集市将合并不同系统的数据源来满足业务信息需求。

若能有效地得以实现，数据集市将可以快速且方便地访问简单信息以及系统的和历史的视图。

一个设计良好的数据集市有如下特点（有些特点数据仓库也具有，有些特点是相对于数据仓库来讲的）：(1) 特定用户群体所需的信息，通常是一个部门或者一个特定组织的用户，且无需受制于源系统的大量需求和操作性危机（想对于数据仓库）。

(2) 支持访问非易变（non v olatile）的业务信息。

（非易变的信息是以预定的时间间隔进行更新的，并且不受OL T P系统进行中的更新的影响。

）(3) 调和来自于组织里多个运行系统的信息，比如账目、销售、库存和客户管理以及组织外部的行业数据。

(4) 通过默认有效值、使各系统的值保持一致以及添加描述以使隐含代码有意义，从而提供净化的（c leansed）数据。

(5) 为即席分析和预定义报表提供合理的查询响应时间（由于数据集市是部门级的，相对于庞大的数据仓库来讲，其查询和分析的响应时间会大大缩短）。

三、数据仓库设计方法论在数据仓库建立之前，会考虑其实现方法，通常有自顶向下、自底向上和两者综合进行的这样三种实现方案，下面分别对其做简要阐述：(1)自顶向下的实现自顶向下的方法就是在单个项目阶段中实现数据仓库。

自顶向下的实现需要在项目开始时完成更多计划和设计工作。

这就需要涉及参与数据仓库实现的每个工作组、部门或业务线中的人员。

要使用的数据源、安全性、数据结构、数据质量、数据标准和整个数据模型的有关决策一般需要在真正的实现开始之前就完成。

(2)自底向上的实现自底向上的实现包含数据仓库的计划和设计，无需等待安置好更大业务范围的数据仓库设计。

这并不意味着不会开发更大业务范围的数据仓库设计；随着初始数据仓库实现的扩展，将逐渐增加对它的构建。

现在，该方法得到了比自顶向下方法更广泛的接受，因为数据仓库的直接结果可以实现，并可以用作扩展更大业务范围实现的证明。

(3)一种折中方案每种实现方法都有利弊。

在许多情况下，最好的方法可能是某两种的组合。

该方法的关键之一就是确定业务范围的架构需要用于支持集成的计划和设计的程度，因为数据仓库是用自底向上的方法进行构建。

在使用自底向上或阶段性数据仓库项目模型来构建业务范围架构中的一系列数据集市时，您可以一个接一个地集成不同业务主题领域中的数据集市，从而形成设计良好的业务数据仓库。

这样的方法可以极好地适用于业务。

在这种方法中，可以把数据集市理解为整个数据仓库系统的逻辑子集，换句话说数据仓库就是一致化了的数据集市的集合。

这种方案的实施步骤通常分如下几步：(6) 从整个企业的角度定义计划和需求(7) 构建完整的仓库体系结构(8) 使数据内容一致而且标准化(9) 将数据仓库作为一种超级数据集市来实施关于Inmon 和 K im b all的大辩论：Ral p h K im b all 和 Bill Inmon 一直是商业智能领域中的革新者，开发并测试了新的技术和体系结构。

Bill Inmon 将数据仓库定义为“一个面向主题的、集成的、随时间变化的、非易变的用于支持管理的决策过程的数据集合”；他通过“面向主题”表示应该围绕主题来组织数据仓库中的数据，例如客户、销售、产品等等。

每个主题区域仅仅包含该主题相关的信息。

数据仓库应该一次增加一个主题，并且当需要容易地访问多个主题时，应该创建以数据仓库为来源的数据集市。

换言之，某个特定数据集市中的所有数据都应该来自于面向主题的数据存储。

Inmon 的方法包含了更多上述工作而减少了对于信息的初始访问。

但他认为这个集中式的体系结构持续下去将提供更强的一致性和灵活性，并且从长远来看将真正节省资源和工作。

下图是他的设计方法图解：Ral p h K im b all 说“数据仓库仅仅是构成它的数据集市的联合”，他认为“可以通过一系列维数相同的数据集市递增地构建数据仓库”。

每个数据集市将联合多个数据源来满足特定的业务需求。

通过使用“一致的”维，能够共同看到不同数据集市中的信息，这表示它们拥有公共定义的元素。

设计方法如下图：K im b all 的方法将提供集成的数据来回答组织迫切的业务问题并且要快于 Inmon 的方法。

Inmon 的方法是只有在构建几个单主题区域之后，集中式的数据仓库才创建数据集市。

而 K im b all 认为该方法缺乏灵活性并且在现在的商业环境中所花时间太长。

实际上，方法的选择取决于项目的主要商业驱动。

如果该组织正忍受糟糕的数据管理和不一致的数据，或者希望为今后打下良好的基础，那么 Inmon 的方法就更好一些。

如果该组织迫切需要给用户提供信息，那么 K im b all 的方法将满足该需求。

而一旦满足了迫切的信息需求后，就应该考虑包含独立数据仓库的数据体系结构的转换计划。

数据仓库将使数据集市与遗留系统和 OL T P系统隔离，并且支持更快地创建将来的数据集市。

由于数据仓库在整个发展中一直承担了重任，所以它将支持极力关注数据集市。

实际上基于商业驱动的需要，采用上面三种设计方案中的最后一种方法：自顶向下和自底向上综合的方案会很好的适应数据仓库建立过程中的不同需求。

四、数据仓库与数据集市的区别数据仓库是企业级的，能为整个企业各个部门的运行提供决策支持手段；而数据集市则是一种微型的数据仓库,它通常有更少的数据,更少的主题区域,以及更少的历史数据,因此是部门级的，一般只能为某个局部范围内的管理人员服务，因此也称之为部门级数据仓库。

数据仓库和数据集市之间的区别如下图：数据仓库和数据集市的区别可从如下三个方面进行理解：（1）数据仓库向各个数据集市提供数据（2）几个部门的数据集市组成一个数据仓库（3）下面从其数据内容特征进行分析，数据仓库中数据结构采用规范化模式，数据集市中的数据结构采用星型模式，通常仓库中数据粒度比集市的粒度要细，下图反映了数据结构和数据内容特征的区别五、数据仓库建模与数据集市建模数据只是所有业务活动、资源以及企业结果的记录。

数据模型是对那些数据的组织良好的抽象，因此数据模型成为理解和管理企业业务的最佳方法是极其自然的。

数据模型起到了指导或计划数据仓库的实现的作用。

在真正的实现开始之前，联合每个业务领域的数据模型可以帮助确保其结果是有效的数据仓库，并且可以帮助减少实现的成本。

(1)数据仓库的建模数据仓库数据的建模是将需求转换成图画以及支持表示那些需求的元数据的过程。

出于易读性目的，本文将关于需求和建模的讨论相分离，但实际上这些步骤通常是重叠的。

一旦在文档中记录一些初始需求，初始模型就开始成型。

随着需求变得更加完整，模型也会如此。

最重要的是向终端用户提供良好集成并易于解释的数据仓库的逻辑模型。

这些逻辑模型是数据仓库元数据的核心之一。

为终端用户提供的简单性以及历史数据的集成和联合是建模方法应该帮助提供的关键原则。

(2)数据集市的数据建模因为仓库终端用户直接与数据集市进行交互，所以数据集市的建模是捕获终端用户业务需求的最有效工具之一。