(整理)数据仓库技术简介
数据仓库概述(概念、应用、体系结构)

事务处理 分析处理
DB
从数据 OLTP 数据
DW
从数据 信息(知识) OLAP(DM、OLAM)
18
数据仓库与传统数据库的区别
19
OLTP和OLAP的区别
用户和系统的面向性:
转换描述从操作数据库到数据仓库的映射方法以及转换数据的算法访问权限备份历史存档历史信息传输历史数据获取历史数据访问等等29主题区和信息对象类型包括查询报表图像音频视频等支持数据仓库的其它信息例如信息传输系统包括的预约信息调度信息传送目标的详细描述商业查询对例如数据历史快照版本拥有权数据抽取的审计跟踪数据的使用方法30与数据访问和分析工具的集成31元数据库metadatarepository和工具32主要使用数据来源的物理结构信息企业数据模型和仓库数据模型最终用户最关心两类元数据
4
业务系统不适宜DSS应用
事务处理和分析处理的性能要求和特性不同
事务处理对数据的存取操作频率高而每次操作处理的时 间短; 在分析处理环境中,某个DSS应用程序可能需要连续几 个小时,会消耗大量的系统资源。
数据集成问题 历史数据问题 数据的综合问题(更高粒度)
5
建立数据仓库的投资回报
数据模型:(1)逻辑数据结构,包括为有效进行数据
用的数据集合,是不同于DB的一种新的数据环境, 是DW 扩 展后得到的一个混合形式。四个基本特点:面向主题的、 集成的、可变的、 当前或接近当前的。 库处理由DBMS提供的操作和约束;(2)数据表示系统( 例如,ER图和关系模型)。
25
元数据
数据仓库知识点总结

数据仓库知识点总结一、数据仓库概念数据仓库是一个用来集成、清洗、存储和管理企业数据的系统,以支持企业决策制定、分析和商业智能服务。
它是一个面向主题的、集成的、时间性的、非易失的数据集合,用于支持企业决策。
数据仓库是企业数据管理的重要组成部分,它与操作型数据处理系统相辅相成。
数据仓库以不同的视角和角度组织数据,帮助企业管理者对企业整体情况进行全面分析和评估。
二、数据仓库的特点1. 面向主题:数据仓库与传统数据库相比,更加侧重对业务应用的支持,主要面向业务应用的主题而不是基本事务数据,以方便企业管理者进行更好的分析和决策。
2. 集成性:数据仓库集成了来自不同数据源的数据,将数据统一管理,并且进行了数据清洗和转换,确保数据的一致性和准确性。
3. 时态性:数据仓库中的数据具有时间性,可以保存历史数据,能够支持分析历史数据的趋势和变化。
4. 非易失性:数据仓库中的数据不会丢失,可以持久保存,并且根据需要定期备份,确保数据的安全和可靠。
5. 大数据量和复杂性:数据仓库通常包含大量的数据,并且数据之间的关系复杂,需要采用专门的数据模型和处理方法来管理和分析。
6. 以支持决策为目标:数据仓库的目标是为企业管理者提供数据支持,帮助他们更好地了解企业的经营状况和趋势,以支持企业决策。
三、数据仓库架构数据仓库架构包括了多个重要组成部分,主要包括数据提取、数据清洗、数据转换、数据加载、元数据管理和数据查询分析等。
1. 数据提取:数据提取是指从各个数据源中将需要的数据提取出来,数据源可以包括企业内部的数据库、文件系统、应用系统等,也可以包括外部数据源,如公共数据等。
2. 数据清洗:数据清洗是指对提取的数据进行清洗和规范,包括去重、校验、纠错、转换等处理,以确保数据的准确性和一致性。
3. 数据转换:数据转换是指对清洗后的数据进行格式转换、相关联和整合,以便于数据仓库的统一管理和分析。
4. 数据加载:数据加载是将转换后的数据载入数据仓库中,通常包括全量加载和增量加载两种方式,以确保数据的及时性和准确性。
大数据分析知识:数据存储与管理——数据仓库、云计算和数据库

大数据分析知识:数据存储与管理——数据仓库、云计算和数据库随着技术的不断发展,越来越多的数据产生并蓄积,如何进行有效管理和利用已成为人们关注的焦点之一。
本文将从数据存储和管理的角度出发,分别介绍数据仓库、云计算和数据库的概念、特点及其在大数据领域的应用。
一、数据仓库数据仓库(Data Warehouse)是指从各个数据源中提取数据并经过处理后存储到一个统一且独立的数据集合中,以方便用户进行分析和决策的系统。
数据仓库通过将数据分析和查询分离,实现了数据决策支持系统的高效运行,从而提高数据的利用率。
数据仓库的特点:1.面向主题:数据仓库是面向主题的,即数据集中一般针对某个主体领域或数据分析任务。
例如,销售数据仓库、人力资源数据仓库等。
2.集成性:数据仓库具有集成性,可以将不同类型的数据源通过ETL(Extract-Transform-Load)的方式进行标准化、转换和加载,并保证数据之间的一致性和完整性。
3.时间性:数据仓库关注历史数据的存储和分析,并提供不同时间维度的数据展示方式,为决策者提供多样化的选择。
数据仓库在大数据领域的应用:1.数据分析和挖掘:通过数据仓库中的数据进行多维分析和数据挖掘,为决策者提供全面的数据支持。
2.企业级统一视图:数据仓库可以实现企业级统一视图,使决策者可以获得一份全面的数据报告。
3.交互式查询:数据仓库提供交互式的查询功能,用户可以根据需要自定义查询条件和维度,获得满足自己需求的数据结果。
二、云计算云计算(Cloud Computing)是指通过网络以服务方式提供计算资源的一种模式。
云计算基于分布式计算、虚拟化技术和自动化管理,通过网络实现数据处理和存储,通过服务模式进行资源使用和计费。
云计算的特点:1.弹性伸缩:云计算可以根据需求进行弹性伸缩,为企业和个人提供更加灵活的资源使用方式,从而降低IT成本、提高效率。
2.服务化:云计算基于服务的方式提供资源,用户可以根据需要选择提供商和服务类型,并根据实际使用量进行计费,降低了技术和资金门槛。
数据仓库的描述

数据仓库的描述数据仓库是一种技术性的建模工具,它可以为企业提供有用的信息,有助于实现组织的商业目标。
近年来,由于企业对数据分析的日益重视,数据仓库的需求也在不断增长。
这里,我将介绍数据仓库的概念、特征以及建造方法。
一、念数据仓库是一种特殊的数据库,它用于存储和管理组织的历史数据,有助于组织实现其商业目标。
它是一个集中的,统一的,完整的数据存储库,它被设计成可以满足决策支持系统的要求。
数据仓库通常包括一个大型的数据库,用于存储组织数据。
这些数据可以是历史数据、实时数据、混合数据或经过处理的数据。
它们可以从不同的数据源中提取,例如企业资源计划系统(ERP)、交易处理系统(TPS)、会计系统等。
二、特征数据仓库具有以下特点:(1)集中:数据仓库可以把企业的数据集中存放在一起,减少数据的冗余,提高数据的准确性。
(2)统一:数据仓库可以将来自不同数据源的数据统一进行分类和管理,提高数据的一致性和可比性。
(3)完整:数据仓库在存储数据时,可以把企业的所有历史数据都存储起来,从而支持更好地决策分析。
(4)可靠:数据仓库可以提供可靠和弹性的数据存储,可以不受客观环境的影响,充分保护企业数据的安全。
(5)可扩展性:数据仓库可以根据企业业务的发展情况,对数据存储进行扩容,以满足企业对数据存储的需求。
(6)可分析性:数据仓库可以支持复杂的数据分析,例如商业智能、数据挖掘和机器学习等,可以提供企业更有效的决策分析支持。
三、建造方法建造数据仓库通常需要经过以下步骤:(1)数据收集:收集并清洗企业信息,将企业的业务数据以结构化的形式存储在数据仓库中。
(2)数据整合:将企业的来自不同部门的数据进行整合,以满足数据仓库的需求。
(3)数据质量:定义数据的质量指标,对数据仓库中的数据进行检查,以确保数据的准确性。
(4)数据建模:根据组织的业务需求,使用结构化概念技术(SDT)来建模数据,以便于后续数据分析。
(5)数据应用:利用数据仓库中的数据,以及运用数据挖掘和机器学习等技术,为企业提供决策支持。
数据仓库技术的名词解释

数据仓库技术的名词解释随着数据的快速增长和业务需求的不断变化,数据仓库技术在企业管理和决策中变得愈发重要。
本文将对数据仓库技术中涉及的一些关键名词进行解释,帮助读者更好地理解和应用这一技术。
一、数据仓库数据仓库(Data Warehouse)是指将企业内部各个业务系统产生的数据进行抽取、转换和加载,经过集成、整理和归档后存放在一个统一的数据存储系统中。
通过对数据的汇总和整合,数据仓库提供了一个面向决策和分析的统一数据源,为企业提供战略决策和业务分析等方面的支持。
二、ETLETL(Extraction, Transformation and Loading)是指数据仓库中的数据抽取、转换和加载过程。
数据仓库需要从各个业务系统中抽取数据,进行清洗、转换和整理,然后加载到数据仓库中。
这一过程确保了数据的一致性和可靠性,使得数据可以被有效地用于决策分析和报表生成等业务场景中。
三、维度建模维度建模(Dimensional Modeling)是一种对数据进行建模的方法论,用于构建数据仓库中的维度模型(Dimensional Model)。
维度模型基于维度表和事实表的关系,通过定义维度和度量,将事实数据与上下文信息进行关联,提供了一种直观和灵活的数据分析方式。
维度建模常用的方法有星型模型和雪花模型。
四、星型模型星型模型(Star Schema)是一种常用的维度模型,以一个中心的事实表和多个维度表构成。
中心的事实表记录了业务过程中的事实,如销售额、订购数量等,而维度表则提供了和事实表相关的上下文信息,如产品、时间、地域等。
星型模型的简单结构和高性能查询使得其在数据仓库中被广泛采用。
五、雪花模型雪花模型(Snowflake Schema)是星型模型的一种扩展,通过将维度表进一步细化为多个层级的表,实现了对维度关系的更精细管理。
雪花模型的优势在于可以减少数据的冗余性和提升查询性能,但同时也增加了表的数量和复杂度。
在实际应用中,根据业务需求和系统性能,选择适合的维度模型是至关重要的。
数据仓库技术在销售分析中的应用案例分析(一)

数据仓库技术在销售分析中的应用案例分析随着信息技术的发展和进步,企业在经营过程中积累了大量的数据。
这些数据包含着丰富的信息,对于企业来说是一笔宝贵的财富。
然而,如何从这些海量数据中提取有价值的信息,并对企业的销售进行分析和预测,一直是企业管理者所面临的难题。
数据仓库技术作为一种专门用于数据分析和决策支持的技术,被广泛应用于企业的销售分析中。
一、数据仓库技术简介数据仓库技术是指将企业各个不同系统中的数据进行整合和清洗,然后存储到一个统一的数据仓库中,并在该数据仓库中建立一套适用于企业的数据模型和数据结构。
这样,企业管理者就能够方便地通过数据仓库进行数据查询、分析和决策支持。
二、销售分析案例分析为了更好地理解数据仓库技术在销售分析中的应用,我们可以通过一个具体的案例来进行分析。
某电商企业的销售额一直呈上升趋势,但是管理者却发现销售额的增长速度逐渐放缓。
为了找出问题所在并采取相应的措施,该企业决定运用数据仓库技术进行销售分析。
首先,他们从企业的各个系统中收集和整合了大量的数据,包括销售数据、市场数据、客户数据等。
然后,通过数据仓库技术将这些数据存储到一个统一的数据仓库中。
接下来,他们建立了一个适用于该企业的数据模型和数据结构。
在这个数据模型中,他们将销售数据按照不同的维度进行切割和分析,如按照时间、地域、产品等。
同时,他们还建立了一系列指标来评估销售的表现,如销售额、销售增长率、商品流转率等。
通过数据仓库技术,该企业对销售数据进行了深入的分析。
他们发现,虽然总体销售额的增长放缓,但是某些地域和产品的销售额却呈现出较快的增长速度。
进一步分析发现,这是因为他们在这些地域和产品上投入了更多的市场营销资源,同时也得益于当地市场的较好发展。
基于这些分析结果,该企业制定了相应的销售策略。
他们加大了对这些地域和产品的投入,进一步拓展市场份额。
与此同时,他们也调整了其他地域和产品的销售策略,以确保整体销售的增长。
通过数据仓库技术的应用,这个企业不仅找出了销售增长放缓的原因,还制定了有针对性的销售策略。
数据仓库

9.1.1数据仓库技术的产生数据仓库(Data Warehouse)技术完全是在需求的驱动下产生与发展起来的。
在过去的十年中,数据库技术,特别是联机事务处理(OLTP:On-line Transaction Processing),主要是为自动化生产、精简工作任务和高速采集数据服务的。
它是事务驱动的、面向应用的。
随着社会的发展,人们产生了使用现有的数据,进行分析和推理,为决策提供依据。
这样的需求导致了决策支持系统(DDS:Decision Support System)的产生。
目前,传统的数据库(DB)仅对当前事务所产生的数据记录保存下来,并对这些数据进行各种日常事务处理。
随着数据量的增大,查询要求也越来越复杂,DB逐渐出现了许多难以克服的问题,集中表现为:数据分散、缺乏组织性;数据难以转化为有用信息;不能满足复杂的查询要求;只保存短期数据,分析时不能满足长期预测需要。
于是,人们开始尝试对DB中的数据进行再加工,形成一个综合的、面向分析的环境,以更好的支持决策分析,数据仓库的思想便逐渐形成了。
传统的信息技术一直未能提供一种行之有效的手段,帮助管理人员方便地访问制定决策需要的信息,辅助他们制定决策。
数据仓库的出现改变了这一状况,它能帮助人们正确的判断即将出现的机会,提高企业对市场变化的反应速度,帮助决策者解决商业过程中存在的问题。
DW的真正价值在于帮助人们制定能改进商业化过程的决策,而不只是使商业过程自动化。
1.数据仓库的效益数据仓库可以给企业带来许多无形的收益,主要体现在以下几方面:(1) 改变了企业的经商之道以前,企业只注重生产什么样的产品,以产品定位市场。
随着行业竞争的加剧和用户需求趋于多样化、个性化,企业的生产必须以用户需要为目标,及时捕捉用户信息,根据用户的需求来进行产品的生产和销售,而这一切都源于对数据仓库中所存储的大量信息的追踪和分析。
使用数据仓库可以行进行有目标的市场销售,把最满意的产品和服务送到可获得最大利润的客户手中。
数据库中的数据仓库与ETL技术

数据库中的数据仓库与ETL技术随着信息技术的不断发展和进步,企业对于数据的存储、处理和分析需求日益增长。
为了应对这一需求,数据仓库和ETL技术应运而生,并成为现代企业数据管理的关键组成部分。
本文将为您详细介绍数据库中的数据仓库和ETL技术的概念、作用以及实际应用。
首先,我们先来了解数据仓库。
数据仓库是一个集成的、稳定性高、面向主题的、时间一致的、非易失性的数据结构。
简而言之,数据仓库可以理解为一个专门用于存储大量数据且支持高效查询的数据库。
它与传统数据库的不同之处在于,数据仓库中的数据是以主题为中心而不是以应用为中心的,它可以汇总和集成来自不同数据源的数据,并提供高效的数据查询和分析功能。
数据仓库的建立和维护需要借助ETL技术。
ETL是“Extract-Transform-Load”的缩写,它是一种将数据从源系统中抽取、经过转换后加载到数据仓库中的过程。
ETL技术包括三个关键步骤:数据提取(Extract)、数据转换(Transform)和数据加载(Load)。
首先是数据提取(Extract)阶段。
在这个阶段,ETL工具从源系统中抽取数据,可以是关系型数据库、Excel文件、文本文件或者其他数据源。
数据提取的目的是将源数据抽取到ETL工具的工作环境中,准备进行后续的处理。
接下来是数据转换(Transform)阶段。
在这个阶段,ETL工具对提取的数据进行清洗、转换和整理,以符合数据仓库的结构和要求。
转换操作可以包括数据格式转换、重复数据删除、数据筛选和聚合等,以确保数据的准确性和一致性。
最后是数据加载(Load)阶段。
在这个阶段,ETL工具将经过转换的数据加载到数据仓库中,将其存储为适合数据仓库查询和分析的格式和结构,如星型模式或雪花模式。
数据加载过程需要考虑数据量的大小、数据的更新频率和数据的有效性等因素,以保证数据仓库的实时性和性能。
数据仓库和ETL技术的应用非常广泛。
首先,数据仓库可以为企业提供全面、一致且准确的数据视图,帮助企业管理者和决策者快速获取所需信息,并基于这些信息做出准确、科学的决策。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据仓库技术简介数据仓库是近年来兴起的一种新的数据库应用。
在各大数据库厂商纷纷宣布产品支持数据仓库并提出一整套用以建立和使用数据仓库的产品是,业界掀起了数据库热。
比如INFORMIXGONGSIDE公司的数据仓库解决方案;ORACLE公司的数据仓库解决方案;Sybase公司的交互式数据仓库解决方案等等。
这同时也引起了学术界的极大兴趣,国际上许多重要的学术会议,如超大型数据库国际会议(VLDB),数据工程国际会议(Data Engineering)等,都出现了专门研究数据仓库(Data Warehousing,简记为DW)、联机分析处理(On-Line Analytical Processing,简记为OLAP)、数据挖掘(Data Mining, 简记为DM)的论文。
对我国许多企业而言,在建立或发展自己的信息系统常常困扰于这样的问题:为什么要在原有的数据库上建立数据仓库?数据仓库能否代替传统的数据库?怎样建立数据仓库?等等。
本章将简要介绍一下用到的数据仓库技术背景,并在下一章结合数据清理系统设计实例,更深一步阐述数据仓库技术在现实中的重大意义一.从数据库到数据仓库传统的数据库技术是以单一的数据资源,即数据库为中心,进行事务处理、批处理、决策分析等各种数据处理工作,主要的划分为两大类:操作型处理和分析型处理(或信息型处理)。
操作型处理也叫事务处理,是指对数据库联机的日常操作,通常是对一个或一组纪录的查询和修改,主要为企业的特定应用服务的,注重响应时间,数据的安全性和完整性;分析型处理则用于管理人员的决策分析,经常要访问大量的历史数据。
而传统数据库系统优于企业的日常事务处理工作,而难于实现对数据分析处理要求,已经无法满足数据处理多样化的要求。
操作型处理和分析型处理的分离成为必然。
近年来,随着数据库技术的应用和发展,人们尝试对DB中的数据进行再加工,形成一个综合的,面向分析的环境,以更好支持决策分析,从而形成了数据仓库技术(Data Warehousing,简称DW)。
作为决策支持系统(Decision-making Support System,简称DSS),数据仓库系统包括:①数据仓库技术;②联机分析处理技术(On-Line Analytical Processing,简称OLAP);③数据挖掘技术(Data Mining,简称DM);数据仓库弥补了原有的数据库的缺点,将原来的以单一数据库为中心的数据环境发展为一种新环境:体系化环境。
1.什么是数据仓库业界公认的数据仓库概念创始人W.H.Inmon在《建立数据仓库》一书中对数据仓库的定义是:数据仓库就是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程数据仓库中的数据面向主题,与传统数据库面向应用相对应。
主题是一个在较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域:数据仓库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据仓库的关键步骤,首先要统一原始数据中的矛盾之处,还要将原始数据结构做一个从面向应用向面向主题的转变;数据仓库的稳定性是指数据仓库反映的是历史数据的内,而不是日常事务处理产生的数据,数据经加工和集成进入数据仓库后是极少或根本不修改的;数据仓库是不同时间的数据集合,它要求数据仓库中的数据保存时限能满足进行决策分析的需要,而且数据仓库中的数据都要标明该数据的历史时期。
数据仓库最根本的特点是物理地存放数据,而且这些数据并不是最新的、专有的,而是来源于其它数据库的。
数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,而事务处理数据库在企业的信息环境中承担的是日常操作性的任务。
数据仓库是数据库技术的一种新的应用,而且到目前为止,数据仓库还是用关系数据库管理系统来管理其中的数据。
2.数据仓库的产生计算机系统的功能从数值计算扩展到数据管理距今已有三十多年了。
最初的数据管理形式主要是文件系统,少量的以数据片段之间增加一些关联和语义而构成层次型或网状数据库,但数据的访问必须依赖于特定的程序,数据的存取方式是固定的、死板的。
到了1969年,E.F.Codd博士发表了他著名的关系数据模型的论文。
此后,关系数据库的出现开创了数据管理的一个新时代。
近几十年来,大量新技术、新思路的涌现出来并被用于关系型数据库系统的开发和实现:客户/服务器系统结构、存储过程、多线索并发内核、异步I/O、代价优化,等等,这一切足以使得关系数据库系统的处理能力毫不逊色于传统封闭的数据库系统。
而关系数据库在访问逻辑和应用上所带来的好处则远远不止这些,SQL的使用已成为一个不可阻挡的潮流,加上近些年来计算机硬件的处理能力呈数量级的递增,关系数据库最终成为联机事务处理系统的主宰。
整个80年代直到90年代初,联机事务处理一直是数据库应用的主流。
然而,应用在不断地进步。
当联机事务处理系统应用到一定阶段后,用户便发现单靠拥有联机事务处理已经不足以获得市场竞争的优势,他们需要对其自身业务的运作以及整个市场相关行业的情况进行分析,而做出有利的决策。
这种决策需要对大量的业务数据包括历史业务数据进行分析才能得到。
在如今这样激烈的市场竞争环境下,这种基于业务数据的决策分析,我们把它称为联机分析处理,比以往任何时候都显得更为重要。
如果说传统联机事务处理强调的是更新数据库--向数据库中添加信息,那么联机分析处理就是从数据库中获取信息、利用信息。
因此,著名的数据仓库专家Ralph Kimball写道:"我们花了二十多年的时间将数据放入数据库,如今是该将它们拿出来的时候了。
"事实上,将大量的业务数据应用于分析和统计原本是一个非常简单和自然的想法。
但在实际的操作中,人们却发现要获得有用的信息并非如想象的那么容易,这主要表现在以下几点:➢所有联机事务处理强调的是密集的数据更新处理性能和系统的可靠性,并不关心数据查询的方便与快捷。
联机分析和事务处理对系统的要求不同,同一个数据库在理论上都难以做到两全。
➢业务数据往往存放于分散的异构环境中,不易统一查询访问,而且还有大量的历史数据处于脱机状态,形同虚设。
➢业务数据的模式针对事务处理系统而设计,数据的格式和描述方式并不适合非计算机专业人员进行业务上的分析和查询。
因此有人感叹:20年前查询不到数据是因为数据太少了,而今天查询不到数据是因为数据太多了。
针对这一问题,人们设想专门为业务的统计分析建立一个数据中心,它的数据从联机的事务处理系统中来、从异构的外部数据源来、从脱机的历史业务数据中来…… 。
这个数据中心是一个联机的系统,它是专门为分析统计和决策支持应用服务的,通过它可以满足决策支持和联机分析应用所要求的一切。
这个数据中心就叫做数据仓库。
这个概念在90年代初被提出来。
如果需要给数据仓库一个定义的话,那么数据仓库就是一个作为决策支持系统和联机分析应用数据源的结构化数据环境。
数据仓库所要研究和解决的问题就是从数据库中获取信息的问题。
那么数据仓库与数据库(主要指关系数据库)又是什么关系呢?回想当初,人们固守封闭式系统是出于对事务处理的偏爱,人们选择关系数据库是为了方便地获得信息。
我们只要翻开C.J.Date博士的经典之作《An Introduction to Database Systems》便会发现:今天数据仓库所要提供的正是当年关系数据库所要倡导的。
然而,由于关系数据库系统在联机事务处理应用中获得的巨大成功,使得人们已不知不觉将它划归为事务处理的范畴;过多地关注于事务处理能力的提高,使得关系数据库在面对联机分析应用时又遇到了新的问题--今天的数据仓库对关系数据库的联机分析能力提出了更高的要求,采用普通关系型数据库作为数据仓库在功能和性能上都是不够的,它们必须有专门的改进。
因此,数据仓库与数据库的区别不仅仅表现在应用的方法和目的方面,同时也涉及到产品和配置上的不同。
以辨证的眼光看,数据仓库的兴起实际是数据管理的一种回归,是螺旋式的上升。
今天的数据库就好比当年的层次数据库和网状数据库,它们面向事务处理;今天的数据仓库就好比是当年的关系数据库,它针对联机分析。
所不同的是,今天的数据仓库不必再为联机事务处理的特性而无谓奔忙,由于技术的专业化,它可更专心于联机分析领域的发展和探索数据仓库的概念一经出现,就首先被用于金融、电信、保险等主要传统数据处理密集型行业。
国外许多大型的数据仓库在1996-1997年建立。
那么,什么样的行业最需要和可能建立数据仓库呢?有两个基本条件:第一,该行业有较为成熟的联机事务处理系统,它为数据仓库提供客观条件;第二,该行业面临市场竞争的压力,它为数据仓库的建立提供外在的动力。
二.数据仓库中的数据组织数据仓库中数据的四个基本特征在本章中已经介绍过了,下面就要分析清楚这些问题:数据仓库存储哪些数据呢?数据如何组织,存储?组织形式有哪些?等等。
通过对数据仓库中存放的数据内容及其组织形式的介绍,本节将对这些问题做出回答,以加深对数据仓库数据四个基本特征的理解。
1.数据仓库的数据组织结构数据仓库中的数据分为四个级别:早期细节级、当前细节级、轻度综合级、高度综合级。
源数据经过综合后,首先进入当前细节级,并根据具体需要进行进一步的综合,从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节级由此可见,数据仓库中存在着不同的综合级别,一般称之为"粒度"。
粒度越大,表示细节程度越低,综合程度越高。
数据仓库中还有一种重要的数据--元数据(metadata)。
元数据是"关于数据的数据",如在传统数据库中的数据字典就是一种元数据。
在数据仓库环境下,主要有两种元数据:第一种是为了从操作性环境向数据仓库转化而建立的元数据,包含了所有源数据项名。
2.粒度与分割(1) 粒度粒度是数据仓库的重要概念。
粒度可以分为两种形式,第一种粒度是对数据仓库中的数据的综合程度高低的一个度量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。
在数据仓库中,多维粒度是必不可少的。
由于数据仓库的主要作用是DSS分析,因而绝大多数查询都基于一定程度的综合数据之上的,只有极少数查询涉及到细节。
所以应该将大粒度数据存储于快速设备如磁盘上,小粒度数据存于低速设备如磁带上。
还有一种粒度形式,即样本数据库。
它根据给定的采样率从细节数据库中抽取出一个子集。
这样样本数据库中的粒度就不是根据综合程度的不同来划分的,而是有采样率的高低来划分,采样粒度不同的样本数据库可以具有相同的数据综合程度。
(2)分割分割是数据仓库中的另一个重要概念,它的目的同样在于提高效率。