(数据仓)基于数据仓库技术的决策支持系统的设计与实现
基于数据仓库、OLAP和数据挖掘的智能决策支持系统研究

务, 辅助决策人 员作出决策判断。
库、 模 型库 、 方法库 、 知识库 ) 结构 , 直到现 在 , 人们把数据 仓
库、 O L A P 技术引进 到决策 支持系统中, 可 以说, 决策支持系统正
一
步 步走 向完善。 而0 L A P 和数据挖 掘是密不可分的, 我们把数
6 基于数据仓库、 OL A P 和数据挖掘的决策支持系统
数据仓 库和0 L A P 技术 的发展为决 策支 持系统注 入了新的 活 力, 而O L A P 与数 据挖 掘 的有 机 融合更是 决策支 持系统 的一
技 术主要基于数据仓库执行。
( 下转第1 5 4 页)
・
医学科技
数字融合媒体处理器集拼接 与融合于 一身, 可以提 供强大 ( 1 ) 可 以显示大分 辨 率 的图像 ; ( 2 ) 可 以显 示一 幅完 整 的画
块) 、 t u r n i n g / p i v o t( 旋转/ 转轴、 d r i l l ( 钻 取) 。
4 数据挖掘
含在 其中的、 人们事先不知道 的但 又可能有用的信息和知识 。
图1基于数据仓库、 该部分提供了一个用户与机器交互的一个平台。 首先, 该部
. 1人机交 互接 口 数据挖掘 的任务是从大 量数据中发现有用的数据 , 提取隐 6
・
实验研 究
基于数据仓库 、 OL AP 和数据 挖 掘 的智能决策支持系统研究
马春艳 曲伟峰 化松收( 辽 宁轻工职业学院, 辽宁 大 连 1 1 6 1 0 0 )
摘 要: 介绍 了 数 据仓库 0 L A P 和数 据挖 掘技 术 , 阐述 了 传统 决 策支持 系统 与数据 仓库 0 L A P 和 数据 挖掘 技 术相 结合 的新型 智能决 策支持
基于Oracle数据仓库应用技术的研究与实现

基于Oracle数据仓库应用技术的研究与实现本文介绍了数据仓库系统的设计与实现方法。
武汉科技大学硕学论士位文摘要一1第页数据仓库是一项基于数据管理和利用的综合性技术。
近年来,数据仓库技术在信息技术领域中日益成熟,己成为业界研究的重点。
企业要想在市场竞争中取胜,获得更大的经济效益,可以利用数据仓库技术,对企业的业务数据进行深层次的挖掘、分析历史和当前的业务数据以及相关环境的数据,快速获取其中有用的决策信息,为企业提供快速、准确和方便的决策支持。
数据仓库是面向主题的、集成的、变的时和非易失的数据集合,支持管理的决策过程。
数据仓库不是一个新的平台,而是一个新的概念。
数据仓库也不是一个现成的产品,而是一个解决方案。
数据仓库是在收集各种分散、异构数据源的基础上,对数据进行转换和集成,从而为决策者提供单一的分析环境,帮助其进行科学决策。
联机分析处理(LnAltc1rcigOA)O一ieayiaPoen,Lp是数据仓库的一个典型的应用。
nn它能将数据仓库中的数据按照不同的粒度级进行聚合和预计算,从而在用户面前展现多维数据视图。
同时,联机分析处理还提供了较直观的多维分析操作,包括切片、切块、上卷、下钻和旋转等,使用户能多角度、多层次地观察数据仓库中的数据。
本论文对面向决策支持的数据仓库技术进行了深入的研究,利用数据仓库和联机分析处理的相关知识,独立设计了钢铁销售决策支持的数据仓库系统的架构,建立了数据仓库系统,并在此基础上进行应用研究。
本文阐述了数据仓库的基本概念及特点、数据仓库的体系结构、数据仓库的数据组织、数据仓库的数据分析等知识,介绍了oal公司提供的rce基于oalg数据仓库解决方rcei案及其关键工具,在对本文的理论基础进行了详细的介绍后,研究了如何将数据仓库及联机分析处理有关理论、方法应用于决策支持系统中.完成的主要工作有:结合钢材销售主业务,构建数据仓库模型,划分了合同、销售及来款三个主题,建立了满足此模型需求OA三层客户/LP服务器体系结构,进而完成了为销售决策提供支持的数据仓库环境的设计;运用O工具实Bw现了部分系统需求数据的T转换;为了EL在两维的屏幕中显示多维数据,运用了最新的oaluieltlineol中的lcvrrrceBnnelgcTonoee及e相关工具,实现了LPO多维分析操作;A设计了oal数据仓库的应用模型,基于cer独立完成了某钢铁公司销售决策支持系统的数据仓库架构设计、建模及OA分析,LP从而实现了数据仓库系统在销售决策中的实际应用。
数据库中决策支持系统的设计与实现

数据库中决策支持系统的设计与实现在当今信息时代,数据的积累和应用已经成为企业决策的重要依据。
为了更好地利用和分析大量的数据,决策支持系统(DSS)应运而生。
数据库作为DSS的核心,扮演着重要的角色。
本文将探讨数据库中决策支持系统的设计与实现。
一、数据库的设计数据库的设计是决策支持系统的基础。
在设计数据库时,需要考虑以下几个方面:1. 数据需求分析:首先,需要对决策支持系统所需的数据进行分析,明确需要收集和存储的数据类型和规模。
这可以通过与相关部门和决策者的沟通来实现。
2. 实体关系图设计:根据数据需求分析的结果,可以绘制实体关系图(ER 图),明确数据之间的关系。
这有助于更好地理解和组织数据。
3. 数据库模式设计:基于实体关系图,可以设计数据库的模式,包括表的结构、字段和约束等。
在设计时,需要考虑数据的一致性和完整性,以及性能和可扩展性等方面。
4. 数据库优化:为了提高决策支持系统的性能,需要进行数据库的优化。
这包括索引的设计和优化、查询的优化和缓存的使用等。
通过优化,可以加快数据的检索和分析速度,提升系统的响应能力。
二、数据库的实现数据库的实现是决策支持系统的关键环节。
在实现数据库时,需要考虑以下几个方面:1. 数据库管理系统的选择:根据实际需求,选择适合的数据库管理系统(DBMS)。
常见的DBMS包括MySQL、Oracle和SQL Server等。
选择合适的DBMS可以提高系统的性能和可靠性。
2. 数据库的创建与维护:在选择DBMS后,可以通过创建数据库和表来实现数据库的建立。
同时,需要定期进行数据库的备份和维护,以确保数据的安全性和可用性。
3. 数据的导入和导出:为了方便数据的管理和分析,可以将外部数据导入到数据库中,或将数据库中的数据导出到外部文件。
这可以通过DBMS提供的工具或编程接口来实现。
4. 数据库的安全性:保护数据的安全是数据库实现的重要任务。
可以通过设置合适的用户权限和密码策略,以及使用加密和防火墙等技术来提高数据库的安全性。
基于数据仓库和OLAP的移动通信决策支持系统

策有决定意义 袭策支持包括收集 清理 管理i分 这些数据 数据转化 2 [ . 3毅握;控 2
为有用的信息.然巨及时丹发 企业各处 用于裴善生斋决策.
熬据东掘主要是提供穗 告在数据背后的相关数据之间 联系. 并对不同的园
决策支持的宴夏万式多种多样. 其基本体系结构往往包括三^部分 熬据 素发生变化 其地因素立何发兰变亿 对趋势 [ 作出 预测. 数据挖掘使用 统 仓库 多罐分析和数据挖担( 见圉1 )
l
e主 热框集市中 储的是三二分析的 数据.1 A r0LP是懂客白 端应用程序实 现对这些数据 进行高效率访 的一种殖术。
1 九 年代 十 来. 动通 奸 豹 营网 管 统 综 务 统 计费 统 办公自 化等 统 投 使 这 计 1 信 业 运 络 理系 移 合 系 系 动 系 继 A了 用. 些 l 算机 用 运 积累 量 史数 但 很多 况 这 量 据在 有的 业 统中 法 炼 为 的 应 暮统 矧. 了 的 据 在 情 下 些海 鼓 原 作 系 无 提 并升 有用 信 1 息 时 供 划 人 与 理 策 。 此 管 者 决 者 望 储 系 口 数 能 挥 用 麓 直 自 . 速 及提晕 务析 员管决 者 因 理 和 荒 肴 存 在 统 的 据 发 . 够 接 由快
而无法为进辱联机 析的用 户提供充 夏持 而鼓据仓库的 没计解决了D S E 的数据管理问题 因 此成戈进行分析决策的基础. 决
1
策支 还 强 削 具 行 司 持 需 有力 工 进 分析 黄 新 的 件技 — 寰 处 0 A) 是 门设 _ 于 持 操 在 兴 麓 术 分 理(LP 就 专 r 支 复杂 作。 数据 用
21数据仓库 .一r ,析等数学方法 厦 器学 } 霸神经网络等人工智能方式∞ 在 数据 仓库约 数据至可 挖掘出 业务^罡意想不到的 信息, 穹比多维分析更进一步
基于数据仓库技术的企业决策支持系统构建

基于数据仓库技术的企业决策支持系统构建企业决策支持系统是帮助企业高效决策的重要工具。
而数据仓库技术作为支撑决策支持系统的一项核心技术之一,它的应用对于企业的发展至关重要。
本文将详细介绍基于数据仓库技术的企业决策支持系统的构建方法和流程,并探讨其在实际应用中的优势和挑战。
一、数据仓库技术概述数据仓库技术是指将企业内部和外部的各种数据进行整合、清洗和转换,以便为企业决策提供准确、及时的数据支持和分析。
数据仓库技术的核心思想是根据企业的分析需求,将分散的数据整合到一个统一的数据存储库中,使得企业能够通过数据分析和挖掘,为决策提供科学的支持。
二、基于数据仓库技术的企业决策支持系统的构建步骤1. 需求分析:在构建企业决策支持系统之前,首先要对企业的决策需求进行详细的分析。
包括对决策过程中所需的数据、分析方法和输出结果的需求进行明确和详细的定义。
2. 数据收集和整合:根据需求分析的结果,对企业内部和外部的各种数据进行收集和整合。
这包括从企业内部的各个系统中抽取数据,以及从外部数据源中获取相关数据。
数据的整合可以通过ETL(数据提取、转换和加载)工具来实现。
3. 数据清洗和转换:在数据整合的过程中通常会遇到数据质量差、格式不统一等问题,需要对数据进行清洗和转换。
数据清洗包括数据去重、异常值处理等,数据转换包括数据格式转换、编码转换等。
通过数据清洗和转换,可以提高数据质量和一致性。
4. 数据建模:在数据清洗和转换完成之后,需要对数据进行建模,以便对数据进行分析和挖掘。
数据建模包括事实表和维度表的设计,以及数据表之间的关系建立。
数据建模的目的是提供一个统一的数据视图,方便数据分析和决策支持。
5. 数据加载和索引优化:将经过整合、清洗和建模的数据加载到数据仓库中,并通过索引优化提高数据访问的性能。
数据加载可以根据需求进行全量加载或增量加载,索引优化包括索引的设计和维护,以提高数据查询的效率。
6. 数据分析和挖掘:基于构建好的数据仓库,可以利用数据分析和挖掘技术进行有效的企业决策支持。
数据仓库技术与保险公司决策支持系统的开发

泛应用积累了大量的数据 , D S提供 了必 要 的 为 S 数据基础 ; 而数据仓库 ( W —D mWa hue概念 D a r os) e
的提 出及其发展 , D S的数据 系统提供 了适 当 为 S 的数据 组织形式。这 些使得利用 D S得到及 时 、 S 有效 、 科学的决策成为可能。
2 主 要技 术分析
2 1数 据 仓库 技 术 ( W) . D
数 据仓库 的概 念最早 由 w. . m n 出 , HI o提 n 他 给出的定义是 :数据仓库 是集成 的面向主题 的数 “ 据库集合 , 它是用 来支持决策支持功能的, 中每 其 个数据单位都与时间有关” … 。 数 据仓库本质上是一个建立在数据库系统之
维普资讯
3 2
计算机与数字工 程
・
第 3 卷 4
数 据仓库技术 与保 险公 司决策 支持 系统 的开发
姜洪 溪
( 襄樊学 院电气信 息工程系 襄樊 415) 403
摘 要: 运用数据仓库、 联机分析处理和数据挖掘技术, 通过 比较、 分析, 在决策支持系统传统四库结构的基础上, 提出 了一种基于数据仓库的决策支持系统体系结构, 并对其在笔者所开发的保险公司决策支持系统( —DS 中的应用进行 了 I C S)
DS S 提供了基本 的技术支持 ; 联机事务处理 ( L P OT
—
数 据仓库中的数据大体可分为四级 : 基本 远期
数据、 近期基本数 据 、 轻度综合数据 和高度综合数
据 。还有一部分重要数据称之为“ 元数据”即关于 , “ 数据的数据” 如 R B中n ) nL e a a i r e i 技术和计算机 的广 n T n co c sg
J蚰 gHo g i i n x
基于数据仓库的企业决策分析系统设计与实现

基于数据仓库的企业决策分析系统设计与实现随着信息技术的不断发展,越来越多的企业开始重视数据分析在企业决策中的作用,而数据仓库作为一种数据管理和分析的技术手段,也逐渐成为企业分析决策的重要工具。
本文将以一个实例为基础,谈谈如何基于数据仓库设计与实现一个企业决策分析系统。
一、需求分析假设我们是一家电商企业,我们需要从数据分析的角度设计一个企业决策分析系统。
通过和业务部门的沟通,我们总结出以下数据分析需求:1. 对销售数据进行统计分析,包括销售额、销售数量、销售种类、销售渠道等。
2. 对客户数据进行统计分析,包括新老客户比例、客户留存率、客户行为轨迹等。
3. 对商品数据进行统计分析,包括商品销售分布、热销商品排名、商品关联性等。
4. 对营销数据进行统计分析,包括广告转化率、营销活动效果评估等。
5. 对物流数据进行统计分析,包括物流配送时间、物流配送效率等。
二、数据仓库设计基于上述需求,我们可以设计如下的数据仓库模型:1. 销售事实表销售事实表是基础数据仓库中的重要一环,它包含了销售数据的各种指标,比如销售类别、销售时间、销售数量、销售金额、订单状态等等,与客户维度表、商品维度表、门店维度表、时间维度表等进行关联。
通过对销售事实表的查询和分析,我们可以了解公司的业务状况和销售趋势。
2. 客户维度表在客户维度表中,我们可以记录客户名称、性别、年龄、购买次数、购买金额、注册时间等信息,以此来分析客户的行为和喜好,比如,我们可以通过查询客户维度表,了解客户购买的商品类别,常用的购买渠道,客户购买的区域分布等。
3. 商品维度表在商品维度表中,我们可以记录各种商品属性,比如商品名称、价格、销售数量、销售金额、产地等等,通过商品维度表,我们可以了解哪些商品受欢迎,哪些商品被退货率高。
4. 营销活动维度表营销活动维度表是一个非常重要的维度表,它记录了所有的营销活动信息,包括活动名称、活动时间、参与人数、转化率、投入资金等等,通过查询和分析营销活动维度表,我们可以评估营销活动的效果,掌握营销活动的关键成功因素,对未来的营销活动提出有利的建议。
基于大数据技术的智能决策支持系统设计与实现

基于大数据技术的智能决策支持系统设计与实现随着大数据技术的广泛应用和发展,智能决策支持系统成为企业决策中不可或缺的工具。
这种系统利用大数据技术,将海量的数据进行收集、分析和处理,为决策者提供准确、可靠的决策建议。
本文将介绍基于大数据技术的智能决策支持系统的设计与实现。
一、系统需求分析在设计智能决策支持系统之前,我们需要进行系统需求分析,明确系统的功能和性能指标。
根据不同的应用场景,系统的需求会有所差异。
在本文中,我们将以企业决策支持系统为例进行分析。
1. 数据收集和处理:系统需要能够收集各种类型的数据,并对数据进行清洗、处理和存储。
数据的来源可以包括企业内部的数据库、外部的公开数据和第三方数据等。
2. 数据分析和挖掘:系统需要能够对数据进行分析和挖掘,提取有价值的信息和知识。
这些信息和知识可以用于预测和模拟,帮助决策者了解当前和未来的市场环境。
3. 决策建议和优化:系统需要能够根据数据分析的结果,为决策者提供准确的决策建议。
同时,系统还需要能够通过智能优化算法,帮助决策者选择最佳的决策方案。
4. 界面设计和用户体验:系统的界面设计应简洁、明了,用户体验友好。
决策者应能够轻松地使用系统,获取需要的信息和数据。
二、系统设计与实现在完成需求分析后,我们可以开始进行智能决策支持系统的设计与实现。
系统设计的关键在于选择合适的架构、算法和工具。
1. 架构设计:智能决策支持系统可以采用分布式架构,将数据收集和处理、数据分析和挖掘、决策建议和优化等功能分布在不同的节点上。
这种架构可以提高系统的性能和可扩展性。
2. 算法选择:系统需要选择合适的算法来进行数据分析和挖掘。
常用的算法包括聚类分析、关联规则挖掘、时间序列预测等。
根据不同的业务需求,可以选择不同的算法进行实现。
3. 数据存储和管理:系统需要选择合适的数据存储和管理方式。
常用的方式包括关系型数据库和非关系型数据库。
根据数据的规模和速度要求,可以选择适当的数据库技术。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(数据仓)基于数据仓库技术的决策支持系统的设计与实现第一章引言1.1 问题的提出我国的电信业,尤其是移动通信业,起步比较晚,但发展非常快,对许多业务的决策和方向的把握都是在摸索中进行的,某些立项缺乏统一意见和充足的科学依据,带有一定程度的盲目性。
另一方面,经过多年运营,积累了庞大的业务数据,如计费中心的计费数据、客服中心的用户信息数据等,这些海量数据中包含着宝贵的经验和商业信息,可以很好地拿来借鉴今后的业务运作。
但是这些数据信息隐藏在庞大、复杂的数据库里面,许多有价值的信息并没有直接表现出来,而是掩盖在无聊的数据后面。
多数情况下,我们不得不用到某些分析工具,以期取得丰富而又客观翔实的商业信息,用于开发更大的市场和提供更完善的服务。
到目前为止,电信业尚无比较完备的分析工具,然而另一方面,电信业又面临着许多急于解决的问题,如:话费流失问题、新业务开展问题、基站分配问题、批价问题等等。
以话费流失为例,我国电信业每年仅此项损失就达数亿元人民币之巨,基本上无法追回。
如何尽快避免或尽量减免这一损失,就显得极为迫切和必须。
在这种背景下,数据仓库技术以及其上的一些分析挖掘工具就应运而生了,如联机分析处理、数据挖掘等等。
决策支持系统(DSS-Decision Support System)是70 年代由美国M.S.Scott Morton 提出,迅速发展起来的新型学科。
决策支持系统是综合利用大量数据,有机组合众多模型(数学模型与数据处理模型等),通过人机交互,辅助各级决策者实现科学决策的系统。
数据仓库DW(Data Warehouse)建立在传统事务型数据库的基础之上,为企业DSS 及数据挖掘系统提供数据源。
它从原事务数据库中将分析型数据与事务型数据相分离,单独存放而形成数据集合。
数据仓库就是要把分散存放在企业各个地方的数据集中到一起,并利用这些数据制定出更好的决策。
联机分析处理OLAP(On Line Analysis Processing)是数据仓库上的分析应用工具。
它建立在多维数据视图的基础上,主要有在线性和多维分析两个特点。
数据挖掘DM(Data Mining)是从大量数据中提取出可信的、新颖的、有效的并能被人理解的模式的高级处理过程。
41.2 国内外发展现状目前,各大数据库厂商均在数据仓库项目上提出了风格各异、内容相似的数据仓库全面解决方案,比较知名的有Oracle、Sybase、Informix、IBM、NCR、CA 等公司。
Sybase 拥有一个独特而强有力的点对点方案,用来设计、建立和管理数据仓库和数据集市。
各个部门之间通过集中的元数据进行交互,具有完整性、集中性和灵活性等特点。
使用的工具也具有很多优越性能,如Power Designer Warehouse Architect、Power Stage、Adaptive Server IQ、Power Dimensions 等。
Sybase 的解决方案及其组成具有以下特点:快速实现、数据集市与中心仓库的无缝集成、极高的查询速度、高效的数据压缩。
Oracle 提出一个面向决策支持应用的数据仓库解决方案,开发出了Oracle Warehouse Builder、Oracle8i 数据库、Oracle Express 等系列工具,其中Oracle8i直接对分区键值作更新,有利于大量重复操作;还在SQL 引擎内建立强大的指令集,如扩展了CUBE 和ROLLUP SQL 操作,支持对表进行抽样查询。
Informix 为促使IT 专业人员迅速建立和运用数据仓库和数据集市,提供了尖端决策方案套装,这一合成的产品和服务是专为概括高级关键商务分析的决策支持环境设计的。
为关键商务数据仓库提供世界一流的数据仓库产品和服务,及工业领先的工具,包括:Informix 的专家级数据库设计,具有超级的可操作性,伸缩性和广泛性。
为建立和展开分析应用的合成工具,包括数据抽取,转换,清理和装载。
提供了基于ROLAP 的多维数据分析、导向、汇报以及一整套编程工具和APIs。
值得一提的是,Informix 的OLAP 工具METACUBE 在汉化方面做了大量的工作,基本能够满足国内用户的需求。
其他公司的解决方案大体类似,只是具体开发工具在功能上有所不同。
这些国外公司的最大特点是各种开发工具齐全,从数据仓库模型设计、数据抽取工具、数据库管理系统到OLAP 分析工具。
用户只需要面对一个厂商就可以获得全部的支持和服务。
而国内公司则没有这样的技术优势。
在国内,数据仓库刚刚起步,从事这方面研究的学校和公司不多,主要是知识发现(数据挖掘)领域的研究,并且是利用第三方开发工具系统集成,比较知名的有:中青旅尚洋电子技术有限公司、亚信德康通信技术有限公司、亿阳信通有限公司、巨阳科技开发有限公司等。
根据数据仓库技术国际著名刊物DM Review 的评论,有国外一些电信公司采用决策支持通用平台,如新加坡电信,英国电信等。
目前已经在我国设立办事处或代理机构的厂商的产品有:Brio,SAS,Clementine,Business Object,5SPSS,Oracle,Informix,Sybase,Pilot 等,其优点是平台系统而完整,不足之处在于存在本地化问题等,往往需要二次开发,无法直接适应中国电信市场的需要。
1.3 主要工作及成果本文在深入研究数据仓库、数据挖掘技术的基础上,设计并实现了一个DSS 系统。
主要完成了以下几个方面的工作:建造了一个数据仓库管理系统,并运用聚类、分类算法和C5 算法进行用户信用度分析和客户行为特征分析。
提出并实现了一个改进的聚类算法。
传统系统聚类算法仅限于样本聚类,在聚类指标过多并且指标之间存在依赖关系的情况下正确度不高。
本文提出并实现的多重系统聚类算法,将样本聚类与变量聚类结合起来,在不同的指标组上分别聚类,然后进行二次(或多次)聚类,在很大程度上提高了算法的正确度。
6第二章数据仓库技术2.1 基本概念随着IT 业的发展,业界数据规模的不断扩大。
为了以合理的费用,向任何地点需要数据的人提供高质量的数据,1992 年William H. Inmon 提出了取得广泛认可的数据仓库概念:集成的、面向主题的、随时间变化的不可修改的数据集合。
从上面的定义,我们可以知道,数据仓库首先是一个数据的集合,在这一点上,它与传统意义上的数据库是一致的。
实际在物理上,数据仓库也主要是以关系表的形式实现的。
数据仓库有四大主要特点:面向主题的。
是相对于传统数据库的面向应用而言的。
所谓面向应用,指的是系统实现过程中主要围绕着一些应用或功能。
而面向主题则考虑一个个的问题域,对问题域涉及到的数据和分析数据所采用的功能给予同样的重视。
集成的。
数据仓库中的数据来自各个不同的数据源(操作数据库),由于历史的原因,各操作数据库的组织结构往往是不同的,在这些异构数据载入到数据仓库之前,必须经历一个集成过程,或称为抽取过程。
随时间变化的。
数据仓库以维的形式对数据进行组织,维是数据仓库技术中很重要的一个概念。
通常可以这样理解一个维:维是人们看待事物的一种角度。
维具有层次性。
不可修改的。
与面向应用的事务数据库对数据作频繁的插入、更新操作不同的是,对于数据仓库中数据的操作仅限于数据的初始导入和记录查询。
在数据载入数据仓库之后,一般不允许随意修改。
2.2 数据仓库简介数据仓库是一种结构化的数据环境,为决策支持系统提供数据源。
它可以帮助企业管理者准确了解企业的状况,从而进行预测,制定计划并作出明智的决策。
数据仓库作为整个企业的业务数据集成库,从众多数据源中集成数据,它包含庞大的企业级数据,其实质是由多种技术和服务组成的完整的解决方案。
数据仓库处理的数据与一般的信息系统的数据不同,它来自不同的分散数据源,包括操作数据、历史数据、外部数据等,对这些数据进行提炼和综合,集成到一个单一的关系数据仓库中;对这个集成的数据仓库进行管理,将其规范为面7向主题的格式,以便于最终用户进行数据访问和分析。
数据仓库由可操作的外部数据源、一个/多个数据仓库和一个/多个数据分析工具组成。
构造数据仓库,首先要从数据源(如联机信息系统、电子邮件消息等)中抽取、集成、转换、聚合和复制数据,并存储到数据仓库中;然后,这其中的一部分数据再被聚合、复制到数据集市;最后,用户用分析工具创建电子报表,进行查询操作,从而实现决策分析。
2.3 数据仓库的关键技术在技术上可以根据数据的工作过程分为:数据的抽取、存储和管理以及数据的表现三个方面。
在此,我们将分别讨论每一个环节。
2.3.1.数据的抽取数据的抽取是数据进入仓库的入口。
由于数据仓库是一个独立的数据环境,它需要通过抽取程序将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。
数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面。
数据仓库的数据不要求实时响应,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。
目前市场上提供很多数据抽取工具(例如Informix 的ETL---Extract Transform Loader 和Sybase 的Power Stage)。
这些工具通过用户选定源数据和目标数据的对应关系,会自动生成数据抽取的代码。
数据抽取过程涉及数据的转换,但抽取工具支持的数据种类有限;这种情况使得抽取工具往往不能满足要求。
因此,实际的数据仓库实施过程中往往不一定使用抽取工具。
整个抽取过程能否因工具的使用而纳入有效的管理、调度和维护则更为重要。
经过抽取后的数据记录应为格式统一、业务信息完整的数据记录。
2.3.2.存储和管理数据仓库的关键是数据的存储和管理。
数据仓库的组织管理方式决定了它有别于传统数据库的特性,同时也决定了它对外部数据的表现形式。
要决定采用什么产品和技术来建立数据仓库核心,则需要从数据仓库的技术特点着手分析。
数据仓库遇到的第一个问题是对大量数据的存储和管理。
这里所涉及的数据量比传统事务处理大得多,且随时间的推移而累积。
从现有技术和产品来看,只有关系数据仓库系统能够担当此任。
关系数据仓库经过近30 年的发展,在数8据存储和管理方面已经非常成熟。
目前不少关系数据仓库系统已支持数据分割技术,能够将一个大的数据仓库表分散在多个物理存储设备中,进一步增强了系统管理大数据量的扩展能力。
采用关系数据仓库管理数百个GB 甚至到TB 的数据已是一件平常的事情。
数据仓库要解决的第二个问题是并行处理。
在传统联机事务处理应用中,用户访问系统的特点是短小而密集;对于一个多处理机系统来说,能够将用户的请求进行均衡分担是关键,这便是并发操作。
而在数据仓库系统中,用户访问系统的特点是庞大而稀疏,每一个查询和统计都很复杂,但访问的频率并不是很高。