数据集市

合集下载

绩效数据集市标准工作流程图

需求分析
数据调研
绩效数据集市标准工作流程图
系统工作单
业务需求分析组织会议讨论
是否有问题 Y
N
编写需求规格说明书
需求问题整理
需求评审
修改需求规格说明书
是否评审通过 N
发布需求规格
Y
说明书
（定稿）
整理评审问题
编写数据质量分析报告
N
是否有问题 Y
上游接口服务单
整理数据问题清单
开发调度工具评估数据建模 Nhomakorabea系统设计
数据研发
系统测试
开发规范培训
数据开发
开发环境申请与搭建
代码质量检查
是否通过检查 Y 发布基线版本 N
修改代码
UAT测试
UAT测试报告 Y （业务签字）
是否通过
UAT测试培训
Y
是否通过 N
N
修复BUG
SIT测试
测试数据提取申请单
测试环境申请与搭建
召开测试准备会议（业务、上下游系统）
测试案例准备
投产申请
投产版本打包准备
投产文档提交
投产评审
是否通过
Y 上线投产
N
修改评审问题
投产试运行验证
项目验收报告（签字）
投产验证
数据模型分析
数据分析
组织会议讨论并拿出数据问题解决方案
数据建模
填写数据提取申请单
模型评审
组织会议确定数据分布范围
数据需求调研
是否评审通过 Y N
修改数据模型
发布数据模型接口文档（定稿）
发布详细设计
说明书
Y 是否通过评审
（定稿）

数据仓库和数据集市的区别

数据仓库和数据集市的区别数据仓库与数据集市看了很多数据仓库方面的资料，都涉及到了“数据集市”这一说法，刚开始对数据仓库和数据集市的区别也理解得比较肤浅，现在做个深入的归纳和总结，主要从如下几个方面进行阐述：（1）基本概念（2）为什么提出数据集市（3）数据仓库设计方法论（4）数据集市和数据仓库的区别（5）仓库建模与集市建模（6）案例分析：电信CRM数据仓库Bill Inmon说过一句话叫“IT经理们面对最重要的问题就是到底先建立数据仓库还是先建立数据集市”，足以说明搞清楚这两者之间的关系是十分重要而迫切的！通常在考虑建立数据仓库之前，会涉及到如下一些问题：（1）采取自上而下还是自下而上的设计方法（2）企业范围还是部门范围（3）先建立数据仓库还是数据集市（4）建立领航系统还是直接实施（5）数据集市是否相互独立一、基本概念数据仓库一词尚没有一个统一的定义,著名的数据仓库专家W. H. Inmon 在其著作《Buildingthe Data Warehouse》一书中给予如下描述:数据仓库(Data Warehouse) 是一个面向主题的(SubjectOri2ented) 、集成的( Integrate ) 、相对稳定的(Non -Volatile ) 、反映历史变化( TimeVariant) 的数据集合用于支持管理决策。

对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

为最大限度地实现灵活性，集成的数据仓库的数据应该存储在标准RDBMS 中，并经过规范的数据库设计，以及为了提高性能而增加一些小结性信息和不规范设计。

这种类型的数据仓库设计被称为原子数据仓库。

原子数据仓库的子集,又称为数据集市。

大数据：数据仓库和数据集市的比较

大数据：数据仓库和数据集市的比较随着科技的发展，数据成为了当下最热门的话题之一。

随着互联网的普及和各行各业的信息化建设与发展，数据规模与数据类型也日益增加。

面对如此巨大的数据量，如何正确地处理和分析数据，如何从中发现有价值的信息，也日益成为了各个企业必须面对的挑战。

在处理这些大数据时，数据仓库和数据集市是两种常见的数据存储和分析方式。

本文将详细比较数据仓库和数据集市的优缺点。

一、数据仓库数据仓库是指将企业内部不同系统中的数据进行收集和汇总，形成一个一致且具有高性能的数据存储库，并且保证数据的一致性、可更新性和可查询性。

数据仓库的主要特点：1、定期批量更新数据：数据仓库通常会对企业内部的数据进行定期批量的更新，而且一般是在业务量相对较小时进行。

2、面向历史：数据仓库主要面向数据的历史信息，针对的是过去的数据。

3、专注于查询：在数据仓库中，主要对数据进行查询操作。

4、主题导向：数据仓库是围绕着业务主题进行组织的，它包含了企业整个业务的各个方面。

数据仓库的优点：1、高效性：基于数据仓库的数据分析拥有更高的业务性能，用于大量数据处理时更加简单、高效。

2、数据一致性好：由于数据仓库的数据集中存储，因此能够保证数据的一致性。

3、适用于大型企业：数据仓库的搭建需要较高的成本，会考虑到企业经营的全局信息。

数据仓库的缺点：1、对实时更新的需求差：数据仓库的数据一般是较为静态的，更新时延相对较高。

2、对数据的一致性要求高：数据仓库在数据插入、更新、删除等操作上的成本相对更高，因此数据的一致性也更加重视。

3、可变性不强：数据仓库在建库时便需要考虑到全局信息，所以数据的构建相对比较稳定。

二、数据集市数据集市是指将企业内部不同系统中的数据进行收集，然后根据需要进行分类、整合、清洗、分析等操作，组成具有相同语义的业务数据集合，提供给业务部门，以支持各个业务部门的分析需求和决策需要。

数据集市的主要特点：1、实时更新：数据集市需要及时更新数据，这样业务部门才能随时获取到最新的数据信息。

详解数据仓库和数据集市：ODS、DW、DWD、DWM、DWS、ADS

详解数据仓库和数据集市：ODS、DW、DWD、DWM、DWS、ADS01数据流向02应用示例03何为数仓DWData warehouse（可简写为DW或者DWH）数据仓库，是在数据库已经大量存在的情况下，它是一整套包括了etl、调度、建模在内的完整的理论体系。

数据仓库的方案建设的目的，是为前端查询和分析作为基础，主要应用于OLAP（on-line Analytical Processing），支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。

目前行业比较流行的有：AWS Redshift，Greenplum，Hive等。

数据仓库并不是数据的最终目的地，而是为数据最终的目的地做好准备，这些准备包含：清洗、转义、分类、重组、合并、拆分、统计等主要特点•面向主题▪操作型数据库组织面向事务处理任务，而数据仓库中的数据是按照一定的主题域进行组织。

▪主题是指用户使用数据仓库进行决策时所关心的重点方面，一个主题通过与多个操作型信息系统相关。

•集成▪需要对源数据进行加工与融合，统一与综合▪在加工的过程中必须消除源数据的不一致性，以保证数据仓库内的信息时关于整个企业的一致的全局信息。

（关联关系）•不可修改▪DW中的数据并不是最新的，而是来源于其他数据源▪数据仓库主要是为决策分析提供数据，涉及的操作主要是数据的查询•与时间相关▪处于决策的需要数据仓库中的数据都需要标明时间属性与数据库的对比•DW：专门为数据分析设计的，涉及读取大量数据以了解数据之间的关系和趋势•数据库：用于捕获和存储数据04为何要分层数据仓库中涉及到的问题：1.为什么要做数据仓库？2.为什么要做数据质量管理？3.为什么要做元数据管理？4.数仓分层中每个层的作用是什么？5.…...在实际的工作中，我们都希望自己的数据能够有顺序地流转，设计者和使用者能够清晰地知道数据的整个声明周期，比如下面左图。

但是，实际情况下，我们所面临的数据状况很有可能是复杂性高、且层级混乱的，我们可能会做出一套表依赖结构混乱，且出现循环依赖的数据体系，比如下面的右图。

数据仓库分层建设的基本思路

数据仓库分层建设的基本思路
数据仓库分层建设的基本思路如下：
1. 数据源层：这是数据仓库的基础，包含了各种原始数据，来自不同的业务系统、数据库、文件等。

2. 数据存储层：数据经过抽取、转换和加载（ETL）过程后，被存储在这一层。

它可以是关系型数据库、列式存储、NoSQL 数据库或数据湖泊等。

3. 数据处理层：在这一层，对数据进行清洗、转换、脱敏、标准化等处理，以提高数据质量和可用性。

4. 数据集市层：根据不同的业务主题或部门需求，将处理后的数据组织成数据集市。

数据集市通常是针对特定主题或业务领域的数据集合。

5. 数据应用层：这是数据仓库的顶层，为用户提供各种数据分析和应用工具，如报表、仪表盘、数据挖掘、机器学习等。

6. 元数据管理层：元数据用于描述数据仓库中的数据、处理过程和数据模型等信息。

元数据管理层负责管理和维护元数据，确保数据的一致性和可追溯性。

7. 数据质量管理层：数据质量是数据仓库的关键要素之一。

这一层负责监控和管理数据质量，包括数据清洗、数据验证、数据监控等。

通过分层建设，数据仓库可以更好地组织和管理数据，提高数据的质量和可用性，满足不同用户的需求。

同时，分层结构也有利于数据仓库的扩展、维护和性能优化。

在实际建设过程中，可以根据具体业务需求和数据特点，对分层结构进行适当调整和优化。

操作数据存储ODS和数据集市详解

ODS用于存放从业务系统直接抽取出来的数据，这些数据从数据结构、数据之间的逻辑关系上都与业务系统基本保持一致，因此在抽取过程中极大降低了数据转化的复杂性，而主要关注数据抽取的接口、数据量大小、抽取方式等方面的问题。
转移一部分业务系统细节查询的功能
在数据仓库建立之前，大量的报表、分析是由业务系统直接支持的，在一些比较复杂的报表生成过程中，对业务系统的运行产生相当大的压力。
实际中往往会有实时决策的需求，上述两者都不能满足要求，因此产生了ODS
ODS数据环境：一方面提供全局一致的、细节的、当前的数据，可进行联机事务操作型处理。另一方面是一种面向主题的集成的数据环境。数据量小，可辅助完成日常决策的数据分析处理，
同时可以保护投资，保留现有的应用系统。
1 ODS的定义和特点
另一方面，在DB－ODS－DW三层结构中，中间件也是将ODS中的信息与DW系统中的信息相关联的一条途径。
3 建立ODS
3.2 ODS系统设计
物理实现
定义每个主题的数据抽取周期、抽取时间、抽取方式、数据接口，抽取流程和规则。
物理设计不仅仅是ODS部分的数据库物理实现，设计数据库参数、操作系统参数、数据存储设计之外，有关数据抽取接口等问题必须清晰定义。
Data Mart
RDBMS
Metadata Exchange
Local Metadata
Local Metadata
Data Mart
RDBMS
MidTier
OLTP Tools
MidTier
MDB
End-User DW Tools
Source Hub - Data Extraction, Central Data Ware-

数据仓库数据集市概念区别

数据仓库数据集市概念区别数据集市≠数据仓库NCR公司可扩展数据仓库解决⽅案⼩组王闯⾈编译我们知道,决策⽀持系统(DSS)主要有两种实现⽅式,即建⽴⼀个数据集市或者⼀个数据仓库。

到底哪⼀种更能满⾜决策⽀持的要求并且适合企业今后的发展,是近两年来学术界和有关供应商激烈争论的⼀个话题。

在数据集市领域,主要的供应商和拥护者以美国红砖(Red Brick)公司为代表,其总裁Ralph Kimball在1997年12⽉的⼀篇论⽂中提出,"数据仓库只不过是⼀些数据集市的集合⽽已"。

认为企业多建⽴⼀些数据集市,将来⾃然就形成了数据仓库。

⽽业界公认的数据仓库之⽗ Bill Inmon在今年1⽉⽴即撰⽂反驳,旗帜鲜明地指出,"你可以在⼤海中捕到很多的⼩鱼并堆积起来,但它们仍然不是鲸"。

在5⽉份的《数据管理综述》(DataManage ment Review)中,Bill Inmon⼜发表了"数据集市不等于数据仓库"的论⽂,进⼀步阐述两者在本质上的区别以及各⾃的适⽤场合,本⽂就是根据这篇论⽂的主要内容编译⽽成的。

问题的提出现在,各企业IT部门的经理所⾯临的最主要问题之⼀是先建⽴数据仓库还是先建⽴数据集市。

长期以来,数据集市供应商们不断地给他们灌输这样的观念,即建⽴数据仓库⽐较复杂,投资过⼤,设计与开发周期太长,难以集成和管理企业范围内的各种源数据;并认为,基于数据仓库的DSS投资⽅案难以得到企业管理层的批准。

数据集市供应商们给业界描绘了⼀幅数据仓库前景暗淡的图画,这完全是出于⾃⾝的⽬的,是不正确的。

数据集市供应商们把数据仓库当成其增加营业收⼊的绊脚⽯,⾃然要避开和攻击数据仓库。

事实上,他们在销售时强调数据集市的建设周期短,是以企业信息系统结构的长期规划为代价的。

持数据集市主张的⼈认为,决策⽀持系统的成功实现,除了数据仓库以外,还有更简便、更有效的其它途径。

⽅法之⼀就是建⽴多个数据集市,当它们增加得⾜够⼤时,那就是所谓的数据仓库了。

数据集市设计原则

数据集市设计原则数据集市(DM)这里我们先回忆一下数据仓库的定义，数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合用于支持管理决策。

更多关于数据仓库的可以参考数仓架构发展史,而且前面我们也介绍了大量关于数仓建模这一块的内容，具体可以参考我们的专栏数仓建模方法论。

今天我们介绍一个在数仓中非常常见的概念——数据集市，数仓定义中的五个特性都值得一一仔细品味，随着你对数仓的理解加深，你对这个五个特性的理解也会更加全面。

首先数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成，集成后按照主题进行了重组,并包含历史数据并且存放在数据仓库中的数据一般不再修改。

什么是数据集市(DM)这里有一个词是主题，那就是我们集成后的数据，又按照了主题进行了划分，而面向主题划分出来的部分就是数据集市，也就是说数据集市是数据仓库的一个子集或者说是集成后的子集。

数据集市通常是面向部门的或者是部门级业务，或者是面向部门的主题的，举个例子例如在金融领域可能会有结算部门的数据集市、风控部部门数据集市、市场部门的数据集市、运营部门的数据集市，这里的特点就是面向部门的，但是对于有的部门它的组织结构可能比较大，所以它所负责的业务线也有多个，这个时候就会出现，数据集市是面向部门的子业务，总之一句话，数据集市是面向主题的，一般公司的主题就是部门或者业务线。

这里还有一点要强调数据集市是作为我们数仓的一层，对外提供数据服务，当然提供服务的方式是有很多种的，但是最终我们是将数据集市层的数据提供出去的，也就是说这一层是面向用户的。

为什么要有数据集市上面了解了什么是数据集市，接下来我们就看看一下为什么要有数据集市，开始之前我们线回顾一下前面的数仓建模分层理论,我们知道了数仓最简单的就是ODS+DM，但为什么我们还要分层，在文章中我们解释了分层的意义是什么，如果你忘记了可以看一下前面的文章。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据集市概述数据集市也叫数据市场，是一个从操作的数据和其他的为某个特殊的专业人员团体服务的数据源中收集数据的仓库。

从范围上来说，数据是从企业范围的数据库、数据仓库，或者是更加专业的数据仓库中抽取出来的。

数据中心的重点就在于它迎合了专业用户群体的特殊需求，在分析、内容、表现，以及易用方面。

数据中心的用户希望数据是由他们熟悉的术语表现的。

数据仓库是一个集成的、面向主题的数据集合，设计的目的是支持DSS（决策支持系统）功能。

在数据仓库里，每个数据单元都和特定的时间相关。

数据仓库包括原子级别的数据和轻度汇总的数据，是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化（不同时间）的数据集合，用以支持经营管理中的决策制定过程。

那么数据集市就是企业级数据仓库的一个子集，他主要面向部门级业务，并且只面向某个特定的主题。

为了解决灵活性和性能之间的矛盾，数据集市就是数据仓库体系结构中增加的一种小型的部门或工作组级别的数据仓库。

数据集市存储为特定用户预先计算好的数据，从而满足用户对性能的需求。

数据集市可以在一定程度上缓解访问数据仓库的瓶颈。

数据集市的特征∙数据集市的特征包括规模小∙有特定的应用∙面向部门∙由业务部门定义、设计和开发∙业务部门管理和维护∙能快速实现∙购买较便宜∙投资快速回收∙工具集的紧密集成∙提供更详细的、预先存在的、数据仓库的摘要子集∙可升级到完整的数据仓库数据集市中数据的结构数据集市中数据的结构通常被描述为星型结构或雪花结构。

一个星型结构包含两个基本部分——一个事实表和各种支持维表。

事实表事实表描述数据集市中最密集的数据。

在电话公司中，用于呼叫的数据是典型的最密集数据；在银行中，与账目核对和自动柜员机有关的数据是典型的最密集数据。

对于零售业而言，销售和库存数据是最密集的数据等等。

事实表是预先被连接到一起的多种类型数据的组合体，它包括：一个反映事实表建立目的的实体的主键，如一张订单、一次销售、一个电话等等，主键信息，连接事实表与维表的外键，外键携带的非键值外部数据。

如果这种非键外部数据经常用于事实表中的数据分析，它就会被包括在事实表的范围内。

事实表是高度索引化的。

事实表中出现30到40条索引非常常见。

有时实事表的每列都建了索引，这样作的结果是使事实表中的数据非常容易读取。

但是，导入索引所需的资源数量必须为等式提供因数。

通常，事实表的数据不能更改，但可以输入数据，一旦正确输入一个记录，就不能更改此记录的任何内容了。

维表维表是围绕着事实表建立的。

维表包含非密集型数据，它通过外键与事实表相连。

典型的维表建立在数据集市的基础上，包括产品目录、客户名单、厂商列表等等。

数据集市中的数据来源于企业数据仓库。

所有数据，除了一个例外，在导入到数据集市之前都应该经过企业数据仓库。

这个例外就是用于数据集市的特定数据，它不能用于数据仓库的其他地方。

外部数据通常属于这类范畴。

如果情况不是这样，数据就会用于决策支持系统的其他地方，那么这些数据就必须经过企业数据仓库。

数据集市包含两种类型的数据，通常是详细数据和汇总数据。

详细数据就像前面描述过的一样，数据集市中的详细数据包含在星型结构中。

值得一提的是，当数据通过企业数据仓库时，星型结构就会很好的汇总。

在这种情况下，企业数据仓库包含必需的基本数据，而数据集市则包含更高间隔尺寸的数据。

但是，在数据集市使用者的心目中，星型结构的数据和数据获取时一样详细。

汇总数据数据集市包含的第二种类型数据是汇总数据。

分析人员通常从星型结构中的数据创建各种汇总数据。

典型的汇总可能是销售区域的月销售总额。

因为汇总的基础不断发展变化，所以历史数据就在数据集市中。

但是这些历史数据优势在于它存储的概括水平。

星型结构中保存的历史数据非常少。

数据集市以企业数据仓库为基础进行更新。

对于数据集市来说大约每周更新一次非常平常。

但是，数据集市的更新时间可以少于一周也可以多于一周，这主要是由数据集市所属部门的需求来决定的。

数据集市的常见问题数据集市怎么建建立不同规格的数据仓库、数据集市的成本，国外的咨询机构有专门的评估，在一定程度上可以借鉴。

但是这些结果在国内也许并不适用，因为国情不同，在国内的构建成本需要专门的调研。

以我们为企业构建的客户主题数据集市为例，一般成本在20万元到50万元人民币之间。

数据集市的设计可以采用迭代式的方法。

在迭代式开发中，每个迭代为上一次的结果增加了新的功能。

功能增加的顺序要考虑到迭代平衡以及尽早发现重大风险。

通俗地说，就是在正式交货之前多次给客户交付不完善的中间产品“试用”。

这些中间产品会有一些功能还没有添加进去、还不稳定，但是客户提出修改意见以后，开发人员能够更好地理解客户的需求。

如此反复，使得产品在质量上能够逐渐逼近客户的要求。

这种开发方法周期长、成本高，但是它能够避免整个项目推倒重来的风险，比较适合大项目、高风险项目。

理论上讲，应该有一个总的数据仓库的概念，然后才有数据集市。

实际建设数据集市的时候，国内很少这么做。

国内一般会先从数据集市入手，就某一个特定的主题（比如企业的客户信息）先做数据集市，再建设数据仓库。

数据仓库和数据集市建立的先后次序之分，是和设计方法紧密相关的。

而数据仓库作为工程学科，并没有对错之分，主要判别方式应该是能否解决目前存在的实际问题，并为今后可能发生的问题保持一定的可伸缩性。

数据集市能不能“独立”企业规划数据仓库项目的时候，往往会遇到很多数据仓库软件供应商。

各供应商除了推销相关的软件工具外，同时也会向企业灌输许多概念。

其中，数据仓库和数据集市是最常见的两个术语了。

各个供应商术语定义不统一、销售策略不一样，这往往会给企业带来很大的混淆。

最典型的问题是：到底是先上一个企业级的数据仓库呢？还是先上一个部门级的数据集市？这其实是是否要上独立型数据集市的问题。

数据集市可以分为两种类型——独立型数据集市和从属型数据集市。

独立型数据集市直接从操作型环境获取数据，从属型数据集市从企业级数据仓库获取数据，带有从属型数据集市的体系结构。

数据仓库规模大、周期长，一些规模比较小的企业用户难以承担。

因此，作为快速解决企业当前存在的实际问题的一种有效方法，独立型数据集市成为一种既成事实。

独立型数据集市是为满足特定用户（一般是部门级别的）的需求而建立的一种分析型环境，它能够快速地解决某些具体的问题，而且投资规模也比数据仓库小很多。

独立型数据集市的存在会给人造成一种错觉，似乎可以先独立地构建数据集市，当数据集市达到一定的规模再直接转换为数据仓库。

有些销售人员会推销这种观点，其实质却常常是因为建立企业级数据仓库的销售周期太长以至于不好操作。

多个独立的数据集市的累积，是不能形成一个企业级的数据仓库的，这是由数据仓库和数据集市本身的特点决定的—数据集市为各个部门或工作组所用，各个集市之间存在不一致性是难免的。

因为脱离数据仓库的缘故，当多个独立型数据集市增长到一定规模之后，由于没有统一的数据仓库协调，企业只会又增加一些信息孤岛，仍然不能以整个企业的视图分析数据。

借用Inmon的比喻：我们不可能将大海里的小鱼堆在一起就构成一头大鲸鱼，这也说明了数据仓库和数据集市有本质的不同。

如果企业最终想建设一个全企业统一的数据仓库，想要以整个企业的视图分析数据，独立型数据集市恐怕不是合适的选择；也就是说“先独立地构建数据集市，当数据集市达到一定的规模再直接转换为数据仓库”是不合适的。

从长远的角度看，从属型数据集市在体系结构上比独立型数据集市更稳定，可以说是数据集市未来建设的主要方向。

为何要构建数据集市?快速发展的、充满竞争的商业世界对于及时、准确的信息有着永无止境的需求，一些IT专家对此认为其必然结果就是创建数据集市。

其他专家却质疑用户和客户所要付出的工作和成本。

毕竟，难道不能直接从遗留系统和在线事务处理（On Line Transaction Processing，OLTP）系统通过特定的报表获得相同的信息吗?在EDS的商业智能小组里，我们就经常被问到这一问题。

经验让我们有许多机会使我们的同行和客户了解这项有用技术的价值。

那么，一个组织为何要构建数据集市呢?虽然OLTP和遗留系统拥有宝贵的信息，但是可能难以从这些系统中提取有意义的信息并且速度也较慢。

而且这些系统虽然一般可支持预先定义操作的报表，但却经常无法支持一个组织对于历史的、联合的、“智能的”或易于访问的信息的需求。

因为数据分布在许多跨系统和平台的表中，而且通常是“脏的”，包含了不一致的和无效的值，使得难于分析。

数据集市将合并不同系统的数据源来满足业务信息需求。

若能有效地得以实现，数据集市将可以快速且方便地访问简单信息以及系统的和历史的视图。

一个设计良好的数据集市将会：∙发布特定用户群体所需的信息，且无需受制于源系统的大量需求和操作性危机。

∙支持访问非易变（nonvolatile）的业务信息。

（非易变的信息是以预定的时间间隔进行更新的，并且不受OLTP系统进行中的更新的影响。

）∙调和来自于组织里多个运行系统的信息，比如账目、销售、库存和客户管理以及组织外部的行业数据。

∙通过默认有效值、使各系统的值保持一致以及添加描述以使隐含代码有意义，从而提供净化的（cleansed）数据。

∙为即席分析和预定义报表提供合理的查询响应时间（不同于OLTP系统中所需的调优需求）。

∙通过提供对于遗留系统和OLTP应用程序的选择来减少对这些应用程序的要求，以获得更多所需信息。