数据仓库技术知识
数据仓库与数据挖掘技术 第二章 数据仓库

第2章数据仓库2.1数据仓库的基本概念1. 数据仓库的数据是面向主题的数据仓库与数据挖掘技术图2-1主题间的重叠关系2. 数据仓库的数据是集成的3. 数据仓库的数据是不可更新的数据仓库与数据挖掘技术4. 数据仓库的数据是随时间不断变化的图2-2数据仓库体系结构2.2数据仓库的体系结构数据仓库与数据挖掘技术图2-3数据仓库数据组织结构2.2.1元数据1. 元数据在数据仓库中的作用2. 元数据的使用3. 元数据的分类4. 元数据的内容2.2.2粒度的概念1. 按时间段综合数据的粒度2. 样本数据库2.2.3分割问题1. 分割的优越性2. 数据分割的标准3. 分割的层次2.2.4数据仓库中的数据组织形式1. 简单堆积结构图2-4简单堆积结构数据组织形式2. 轮转综合结构数据仓库与数据挖掘技术图2-5轮转综合结构数据组织形式3. 简单直接结构图2-6简单直接结构数据组织形式4. 连续结构图2-7连续结构数据组织形式数据仓库与数据挖掘技术2.3数据仓库的数据模型2.3.1概念数据模型图2-8商品、顾客和供应商E-R图2.3.2逻辑数据模型2.3.3物理数据模型2.3.4高层数据模型、中间层数据模型和低层数据模型1. 高层数据模型2. 中间层数据模型3. 低层数据模型数据仓库与数据挖掘技术2.4数据仓库设计步骤图2-9数据仓库设计步骤2.4.1概念模型设计1. 界定系统边界2. 确定主要的主题域3. 实例2.4.2技术准备工作2.4.3逻辑模型设计1. 分析主题域2. 划分粒度层次3. 确定数据分割策略4. 定义关系模式5. 定义记录系统2.4.4物理模型设计1. 确定数据的存储结构数据仓库与数据挖掘技术2. 确定索引策略3. 确定数据存放位置4. 确定存储分配2.4.5数据仓库的生成1. 接口设计2. 数据装入2.4.6数据仓库的使用和维护1. 开发DSS应用图2-10DSS应用开发步骤2. 进一步理解需求,改善系统,维护数据仓库图2-11William H.Inmon数据仓库设计步骤数据仓库与数据挖掘技术2.5利用SQL Server 2005构建数据仓库图2-12使用Visual Studio 2005系统新建项目图2-13新建Analysis Services项目图2-14新建数据源数据仓库与数据挖掘技术图2-15新建数据源向导图2-16选择如何连接数据源图2-17连接管理器图2-18连接管理器连接测试成功窗口图2-19选择已经连接的数据库作为数据源图2-20选择连接数据源的凭证图2-21新建数据源向导完成图2-22右击新建数据源视图图2-23新建数据源视图向导图2-24选择视图的数据源图2-25选择表和视图图2-26完成新建数据源视图向导图2-27新建多维数据集图2-28多维数据集向导图2-29选择生成多维数据集的方法图2-30选择多维数据集的数据源视图图2-31检测事实数据表和维度表图2-32标示事实表和维度表图2-33选择度量值图2-34扫描维度图2-35查看维度结构图2-36完成多维数据集向导图2-37创建完成数据仓库界面习题21. 如何理解数据仓库是面向主题的、集成的、不可更改的和是随时间不断变化的。
数据仓库技术及其应用

&
夕 0/ 0 NO . 3尸 1卜 日 C 闪0 1 0 0 丫 」 ) O ll M 八 1{0 闪 N
! 下技 术
数据仓库技术及其应用
曾志勇
(云南财经大学信息学院
昆明
6502、相关概念做了介绍, 并从实际工程的角度阐述了其逻辑结构和开发流程, 最后对数据仓库的应用及 前景进行了总结和展望。 关键词: 数据仓库 逻辑结构 应用 中图分类号:’ 3 11 11, ’ 文献标识码: A 文章编号: 1672 3791(2007)11(b卜0079一 02 在激烈的市 场竞争中, 信息对于 企业的生 存和发展起着至关 玉 要的作用。表达信 白的 、 数据随着时山和业务的发展而不断膨胀, 」 因而 有人惊叹道: 当今的时代是信 急 爆炸的时代。 ] h [ 时数据分布在不同的系统平台 !几具有多 , 种 存储格式, 作为领导和决策者如何从这样复杂 的数据环境中得到有用的决策数据呢? 随着 分布式结构的成熟, 数据库技术的提高和数据 处理技术的发展, 数据仓片(Data w arehouse, 亨 [) W)应运而生。
库中形成符合业务需求的部门级数据集市以 便快速提交信息。
优点 :
从全局的观点一步步地构造企业级数据 义好的数据仓库模型, 将数据加载到数据仓库 仓库, 易干看到阶段性的成果。 中去 。 缺点 : (2)元数据(metadata): 即关于数据的数据, 缺少数据校验和清洗机制, 对业务需求的 变化 比较敏感。 指在数据仓库建设过程中所产生的有关数据 源定义, 标定义, 日 转换规则等相关的关键数 (3 企业级数据仓库(操作数据层 数据仓 ) 据(技术元数据) , 同时元数据还包含关干数据 库层 , 应用层) 1 数据仓库定义 其中: 数据仓库层又可根据其存储内容和 含义的商业信 自 商业元数据) 。 、 ( 业界公认的 “ 数据仓库之父”W . 11 . (3)数据集 市(Dat aMa rt s) : 为 r 特定的应 使用功能细分为:缓冲层(S ag ng Laye )、 t i r 数 1:mo, 《 , 1在 Buildi, t lle l) a ta w are士 lg lousc》 用日的或应用范围, 而从数据仓库中独立出来 一书1 对数据仓库的定义是: 数据仓床就是面 一 扫 据仓库基本数据层、面向业 务的数据层(Da a t 1 J卞题的( 5、〕 c t o r i e 门 e 〔 、集成的 台 ; 1 Je t 1) 的一部分数据, 也可称为部门数据或主题数 Ma r t ) 。 从操作数据层抽取来的数据, 经过适当的 (integratod)、1 易失 0, 卜 的(:1 Ivolatil。 1 时1 ] 据。在数据仓床的实施过程中往往可以从一 )、 通 石 个部门的数据集市着手, 以后再用儿个数据集 清洗、校验、集成、转换( 缓冲层) , 加载到 不断变化(ti工 variarlt)的数据集合, 、 犯 建立数据 仓床的日的是为 r 更好地支持决策分析。 市组成 1个完整的数据 仓库。 数据仓库慕本数据层, 再经过一定的转换加 载, 放到按主题组织的, 符合不同业务部门的 根据数据仓库概念的含义, 数据仓库拥有 (4 )操作数据存储(o p e r a t ion l) a t a 的四个特点是: t e S or ): 介丁DB 和Dw 之间的一种数据存储 应用需求的面向业务的数据层。 优点 : 技术,1厉来面1 ]应用时 分散的DB相比, 不 几 台 1 ODS (1 面向主题: 与传统数据库面向事务处理 ) ( 1 缓冲层可以保证数据加载的集成性和 ) 应用进行数据组织的特点相对应, 数据仓库中 中的数据组织方式和数据仓库(DW) 样也是 完 整性 。 的数据是面向上 题进行组织的。数据仓库通 面向主题的和集成的, 另外0 口 只是存放当前 5 如果需要的话还可以对 (2 数据仓库基本数据层保存了企业的一 ) 常围绕一此 卜 如 “ 题, 顾客” “ 、 供应商” 产 或接近当前的数据, 、“ 定时期内的完整的数据, 为企业提供了唯一而 品” 消费者”等来进行组织。 、“ 数据仓库关注 ODS 中的数据进行增、 删和更新等操作。 完整的数据结构, 并可以为数据集市的扩展提 的是决策者的数据建模与 分析, 而不针对[ 常 2 .2 逻辑结构 1 一个数据仓库逻辑结构有多种多样 , 但在 供支持 。 操作和事务的处理。因此, 数据仓库排除对于 根据数据仓库规模的大小, (3 面向业务的数据层可以满足日 ) 常绝大 决策无用的数据, 提供特定主题的简明视图。 具体工程实践中, 部分的业务分析的需要, 一小部分数据可以从 (2 集成的: 面向事务处理的操作型数据库 数据仓库的结构可以总结出这么几种类型: ) 通常与某些特定的应用相关, 数据库之间相互 (1)部门级数据仓库(操作数据层 一 > 数 数据仓库中得到, 而不必使用缓冲层和操作数 据层, 从而将决策支持和业务系统隔离开来。 独立, 目 并 .往往是异构的。而数据仓库中的数 据集市层) 在这种构架中, 操作数据直接按照业务需 (4)每个层次之间的加载逻辑比较清晰简 据是在对原有分散的数据库数据抽取、清理 洁。 的基础 卜 经过系统加 仁、汇总和整理得到的, 求加载到部门的数据集市。 这是一种比较经济可行的数据仓库方案, (5)每个层次之间相对独立, 可扩展性和可 必须消除源数据中的不一致性, 以保证数据仓 如可以在保证慕本数据的前提 I , ’ \ 库内的信息是关于整个企业的一致的全局信 在缺少高层的支持、数据仓库总体规划不 维护性好, 足、缺少足够的预算、技术构架无法满足等 建立和完善面向业务的数据层, 从而在短期内 自。 、 取得阶段性成果, 然后在逐渐完善其他层次的 (3)非易失的: 从数据的使用方式 卜 数 看, 情况下较为合适。 建设。 优点: 据仓库的数据不可更新。数据保存到数据仓 (6 对业务需求的变动不敏感, ) 如若操作数 可以满足部门级的业务需要 , 经济可行, 库中后, 最终用户只能通过分析工具进行查询 据层发生变化, 主要只影响缓冲层, 的数 J幻舌 和分析, 而不能修改, 即数据仓库的数据对最 并可作为企业级数据仓库的初步尝1 (P oo 式r f 据不变或变动很小; 若应用层发生变化, 主要 终用户而言是只读的。从数据的内容 卜 数 Of 一 看, concePt )。 缺点: 只影响面向业务的数据层, 其前的数据不变或 据仓床存储的是企业当前和历史的数据, 在一 只能作为部门级的数据集市, 缺少全局的 定时间间隔以后, 当前数据需要按照一定的方 变动很小。 缺点 : 考虑 , 容易造成 “ 信息孤岛” 。 法转化成 历 史数据 。 (2 一般数据仓库(操作数据层一数据仓库 ) 系统较为复杂, 需要完整的方法论的指 (4 时变的:数据存储从历史的角度提供信 ) 导、充裕的时间以得到良好的项 目 规划和实 层一 集市层) J急。 仓床的关键结构, 隐式或显示地包含 施 。 在这种构架中, “ 按照 Think Big , tart s 时 J 元素。 u
数据仓库技术的常见应用场景分析(三)

数据仓库技术的常见应用场景分析引言:数据仓库技术是当今信息时代中不可或缺的一环。
它的应用场景不仅广泛,而且涵盖了各个领域。
本文将通过对几个常见的应用场景进行分析,展示数据仓库技术的实际应用。
一、零售行业中的数据仓库技术应用零售行业对于销售数据的分析和预测非常重要。
数据仓库技术在这个行业的应用场景非常广泛。
首先,数据仓库技术可以通过整合销售数据、库存数据和客户数据等信息,为零售商提供准确的供应链管理,实现销售预测和库存优化。
其次,数据仓库技术还可以帮助零售商进行市场细分和消费者行为分析,以便更好地定位消费者需求,制定精准的营销策略。
二、金融行业中的数据仓库技术应用在金融行业,数据仓库技术被广泛应用于风险管理和业务决策支持。
首先,通过整合各种金融数据,包括市场行情数据、交易记录、客户信息等,数据仓库技术可以为金融机构提供准确的风险评估和管理工具,帮助机构降低风险并优化投资组合。
其次,数据仓库技术还可以为金融机构提供更好的业务决策支持,通过分析客户行为和市场趋势,为机构提供战略性的指导和规划。
三、医疗健康领域中的数据仓库技术应用在医疗健康领域,数据仓库技术可以应用于临床研究、疾病预防和患者管理等方面。
首先,数据仓库技术可以整合并分析来自不同医疗机构的大规模医疗数据,为临床研究提供强大的支持。
其次,数据仓库技术可以帮助医疗机构分析患者健康数据,预测患病风险,提前进行干预和预防措施。
此外,数据仓库技术还可以协助医院优化患者管理,提高医疗服务的质量和效率。
四、物流行业中的数据仓库技术应用物流行业对于物流信息和运输管理的高效处理十分重要。
数据仓库技术可以通过整合各种物流数据,包括采购、仓储、运输和配送等环节的数据,实现物流信息的综合分析和监控。
通过数据仓库技术,物流企业可以实现对货物流动状态的实时追踪和监管,提高物流效率和运作能力。
此外,数据仓库技术还可以为物流企业提供数据驱动的运营决策,帮助企业优化资源配置和物流网络布局。
数据仓库的描述

数据仓库的描述数据仓库是一种技术性的建模工具,它可以为企业提供有用的信息,有助于实现组织的商业目标。
近年来,由于企业对数据分析的日益重视,数据仓库的需求也在不断增长。
这里,我将介绍数据仓库的概念、特征以及建造方法。
一、念数据仓库是一种特殊的数据库,它用于存储和管理组织的历史数据,有助于组织实现其商业目标。
它是一个集中的,统一的,完整的数据存储库,它被设计成可以满足决策支持系统的要求。
数据仓库通常包括一个大型的数据库,用于存储组织数据。
这些数据可以是历史数据、实时数据、混合数据或经过处理的数据。
它们可以从不同的数据源中提取,例如企业资源计划系统(ERP)、交易处理系统(TPS)、会计系统等。
二、特征数据仓库具有以下特点:(1)集中:数据仓库可以把企业的数据集中存放在一起,减少数据的冗余,提高数据的准确性。
(2)统一:数据仓库可以将来自不同数据源的数据统一进行分类和管理,提高数据的一致性和可比性。
(3)完整:数据仓库在存储数据时,可以把企业的所有历史数据都存储起来,从而支持更好地决策分析。
(4)可靠:数据仓库可以提供可靠和弹性的数据存储,可以不受客观环境的影响,充分保护企业数据的安全。
(5)可扩展性:数据仓库可以根据企业业务的发展情况,对数据存储进行扩容,以满足企业对数据存储的需求。
(6)可分析性:数据仓库可以支持复杂的数据分析,例如商业智能、数据挖掘和机器学习等,可以提供企业更有效的决策分析支持。
三、建造方法建造数据仓库通常需要经过以下步骤:(1)数据收集:收集并清洗企业信息,将企业的业务数据以结构化的形式存储在数据仓库中。
(2)数据整合:将企业的来自不同部门的数据进行整合,以满足数据仓库的需求。
(3)数据质量:定义数据的质量指标,对数据仓库中的数据进行检查,以确保数据的准确性。
(4)数据建模:根据组织的业务需求,使用结构化概念技术(SDT)来建模数据,以便于后续数据分析。
(5)数据应用:利用数据仓库中的数据,以及运用数据挖掘和机器学习等技术,为企业提供决策支持。
数据仓库与数据挖掘技术复习资料

数据仓库与数据挖掘技术复习资料一、单项选择题1. 数据挖掘技术包括三个主要的部份 ( C )A.数据、模型、技术C.数据、建模能力、算法与技术2.关于基本数据的元数据是指: ( D B.算法、技术、领域知识D.建模能力、算法与技术、领域知识)A.基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;B.基本元数据包括与企业相关的管理方面的数据和信息;C.基本元数据包括日志文件和简历执行处理的时序调度信息;D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息。
3. 关于 OLAP 和 OLTP 的说法,下列不正确的是: ( A)A.OLAP 事务量大,但事务内容比较简单且重复率高B.OLAP 的最终数据来源与 OLTP 不一样C.OLTP 面对的是决策人员和高层管理人员D.OLTP 以应用为核心,是应用驱动的4.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务? ( C )A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘5.下面哪种不属于数据预处理的方法? ( D )A.变量代换B.离散化C. 会萃D. 估计遗漏值6. 在 ID3 算法中信息增益是指(A.信息的溢出程度C.熵增加的程度最大D )B.信息的增加效益D.熵减少的程度最大7. 以下哪个算法是基于规则的分类器 ( A )A. C4.5B. KNNC. BayesD. ANN8. 以下哪项关于决策树的说法是错误的( C )A.冗余属性不会对决策树的准确率造成不利的影响B.子树可能在决策树中重复多次C.决策树算法对于噪声的干扰非常敏感D.寻觅最佳决策树是 NP 彻底问题9. 假设收入属性的最小与最大分别是 10000 和 90000,现在想把当前值 30000 映射到区间[0,1], 若采用最大-最小数据规范方法,计算结果是( A )A. 0.25B. 0.375 D. 0.510. 在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是: ( D )A.有放回的简单随机抽样B.无放回的简单随机抽样C.分层抽样D.渐进抽样11. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离? ( B)A. 分类B.聚类C. 关联分析D. 隐马尔可夫链12. 设 X={1,2,3}是频繁项集,则可由X 产生( C )个关联规则。
数据仓库与数据分析-第一-至第三章

数据仓库与数据分析第一、二、三章一、数据处理的类型:1、操作型处理:操作型处理主要完成数据的收集、整理、存储、查询和增、删改操作等,主要由一般工作人员和基层管理人员完成。
2、分析型处理:分析型处理是对数据的再加工,往往要访问大量的历史数据,进行复杂的统计分析,从中获取信息,因此也称为信息型处理,主要由中高级管理人员完成。
操作型数据处理:二、联机事务处理系统(OLTP)的主要功能:对事务进行处理,快速地响应客户的服务要求,使企业的业务处理自动化。
其主要性能指标是事务处理效率和事务吞吐率,每个事务处理的时间越快越好,单位时间能完成的事务数量越多越好。
三、dbms:数据库管理系统。
Dwms:数据仓库管理系统。
OLAP:联机分析处理。
Oltp基于db,olap基于dw。
四、事务:用户定义的一个数据库操作序列,这些操作要么全做、要么全不做,是一个不可分割的工作单元。
在关系数据库中,一个事务可以是一条SQL语句、一组SQL语句或整个程序。
五、事务的ACID性质:1、原子性:事务是一个逻辑工作单元,是一个整体,是不可分割的。
2、一致性:事务在完成时,必须使所有的数据都保持一致状态。
3、隔离性:事务并发执行也能保持原子性和一致性,则是事务的隔离性。
4、持久性:一旦事务成功完成,该事务对数据库所施加的所有更新都是永久的。
六、决策支持系统(DSS):分析型数据处理的典型。
决策支持系统需要具备的基本功能是建立各种数学模型,对数据进行统计分析,得出有用的信息作为决策的依据和基础。
DSS对数据集成的迫切需要是数据仓库技术出现的最重要动因。
分析型数据处理需要访问大量的当前和历史数据,进行复杂的计算,即需要本部门的数据也会需要其他部门的数据,甚至是竞争对手的数据。
七:操作型数据和分析型数据的区别:操作型数据分析型数据细节的综合的,或提炼的当前数据历史数据可更新(可以update)不更新(不可update,但可insert)操作需求事先可知道操作需求事先不知道完全不同的生命周期生命周期符合SDLC(软件开发生命周期)对性能要求高对性能要求宽松一个时刻操作一单元一个时刻操作一集合事务驱动分析驱动面向业务处理面向分析一次操作数据量大,计算复杂一次操作数据量小,计算简单支持日常操作支持管理需求八、数据分散的原因:1、事务处理应用的分散:OLTP系统一般只需要与本部门业务有关的当前数据,没有包括企业范围内的集成应用。
第4章 数据仓库和OLAP

4.1 数据仓库基本概念
中间层:OLAP服务器
11
– 联机分析处理(Online Analytical Processing, OLAP)是数据仓库系统前端分析服务
的分析工具,能快速汇总大量数据并进行高效查询分析,为分析人员提供决策支持。 • 使用OLAP相关模型将多维数据上的操作映射为标准的关系操作,或者直接实现多维 数据操作 • OLAP操作可以与关联、分类、预测、聚类等数据挖掘功能结合,以加强多维数据挖 掘
物理模型设计
– 需要在充分了解数据和硬件配置的基础上确定数据的存储结构、索引策略、 数据存放位置等信息
16
4.2 数据仓库设计
物理模型设计-存储结构
– 充分考虑所选择的存储结构是否适合数据的需要 – 考虑存储时间和存储空间的利用率
17
4.2 数据仓库设计
物理模型设计-存储结构
表4-4 销售事实表存储结构关系模型
城市 销售商类型
起始地区键 地区维表
地区代码 到达地区键 成本
所在省 所在城市 所在街道
图4-4 产品销售数据仓库的事实星座模型
4.2 数据仓库设计
逻辑模型设计
– 进一步的完善和详细化设计,扩展主题域 – 奠定数据仓库的物理设计的基础
12
– 通过实体和实体之间的关系勾勒出整个企业的数据蓝图和规划 • 分析主题域,确定要装载到数据仓库的主题 • 粒度层次划分,通过估计数据量和所需的存储设备确定粒度划分方案 • 确定数据分隔策略,将逻辑上整体的数据分割成较小的、可以独立管理 的物理单元进行存储 • 定义关系模式,概念设计阶段时基本的主题已经确定,逻辑模型设计阶 段要将主题划分成多个表以及确定表的结构
20
在不同的存储设备上
数据仓库技术的常见应用场景分析(八)

数据仓库技术的常见应用场景分析数据仓库技术作为一种用于存储和分析大规模数据的技术,已经在现代企业的决策和战略规划中发挥着重要的作用。
它通过将来自不同系统的数据整合并进行加工处理,提供了一种便捷的数据分析工具。
本文将分析数据仓库技术在商业、市场营销、金融和医疗等领域的常见应用场景。
一、商业领域在商业领域,数据仓库技术被广泛应用于企业决策和业务分析中。
例如,在销售分析领域,数据仓库可以帮助企业将来自各个销售渠道的数据进行整合,分析销售趋势、产品需求和用户喜好等信息,以便企业进行更准确的市场推广和产品定位。
此外,数据仓库还可以用于分析客户行为,了解客户的购买偏好和消费习惯,以便企业制定精准的客户关系管理战略。
二、市场营销领域在市场营销领域,数据仓库技术可以帮助企业进行市场细分、市场预测和营销策略制定。
通过整合来自市场调研、网络媒体和社交媒体等渠道的数据,数据仓库可以为企业提供详尽的市场分析报告,帮助企业了解市场的发展趋势和竞争对手的动态,从而制定更具竞争力的营销策略。
此外,数据仓库还可以通过分析用户行为和用户偏好,为企业提供个性化的推销方案,提高用户的响应率和满意度。
三、金融领域在金融领域,数据仓库技术被广泛应用于风险管理和金融分析中。
通过整合来自不同金融市场和金融机构的数据,数据仓库可以帮助金融机构进行风险评估和风险管理,及时发现潜在的风险因素,并制定相应的对策。
此外,数据仓库还可以为金融机构提供实时的市场分析报告和投资建议,帮助机构制定科学的投资决策和风险控制策略。
四、医疗领域在医疗领域,数据仓库技术可以帮助医疗机构进行医疗资源管理和疾病诊断。
通过整合来自不同医疗系统的病历数据、医疗影像数据和生命体征数据,数据仓库可以为医疗机构提供全面的患者档案,并进行大规模的数据分析,发现潜在的疾病风险和关联因素。
此外,数据仓库还可以帮助医疗机构进行医疗资源的合理分配,提高医疗服务的效率和质量。
综上所述,数据仓库技术在商业、市场营销、金融和医疗等领域的应用场景非常广泛。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、数据仓库数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。
数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。
它是单个数据存储,出于分析性报告和决策支持目的而创建。
为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
1、数据仓库是面向主题的;操作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。
主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
2、数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出数据仓库的核心工具来,进行加工与集成,统一与综合之后才能进入数据仓库;数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到当前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
3、数据仓库是不可更新的,数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询;4、数据仓库是随时间而变化的,传统的关系数据库系统比较适合处理格式化的数据,能够较好的满足商业商务处理的需求。
稳定的数据以只读格式保存,且不随时间改变。
5、汇总的。
操作性数据映射成决策可用的格式。
6、大容量。
时间序列数据集合通常都非常大。
7、非规范化的。
Dw数据可以是而且经常是冗余的。
8、元数据。
将描述数据的数据保存起来。
9、数据源。
数据来自内部的和外部的非集成操作系统。
二、数据仓库的特点要求数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它并不是所谓的“大型数据库”。
数据仓库的方案建设的目的,是为前端查询和分析作为基础,由于有较大的冗余,所以需要的存储也较大。
为了更好地为前端应用服务,数据仓库往往有如下几点特点:1. 效率足够高。
数据仓库的分析数据一般分为日、周、月、季、年等,可以看出,日为周期的数据要求的效率最高,要求24小时甚至12小时内,客户能看到昨天的数据分析。
由于有的企业每日的数据量很大,设计不好的数据仓库经常会出问题,延迟1-3日才能给出数据,显然不行的。
2、数据质量。
数据仓库所提供的各种信息,肯定要准确的数据,但由于数据仓库流程通常分为多个步骤,包括数据清洗,装载,查询,展现等等,复杂的架构会更多层次,那么由于数据源有脏数据或者代码不严谨,都可以导致数据失真,客户看到错误的信息就可能导致分析出错误的决策,造成损失,而不是效益。
3.扩展性。
之所以有的大型数据仓库系统架构设计复杂,是因为考虑到了未来3-5年的扩展性,这样的话,未来不用太快花钱去重建数据仓库系统,就能很稳定运行。
主要体现在数据建模的合理性,数据仓库方案中多出一些中间层,使海量数据流有足够的缓冲,不至于数据量大很多,就运行不起来了。
4.面向主题操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。
三、实现方式数据仓库是一个过程而不是一个项目,数据仓库系统是一个信息提供平台,他从业务处理系统获得数据,主要以星型模型和雪花模型进行数据组织,并为用户提供各种手段从数据中获取信息和知识。
从功能结构划分,数据仓库系统至少应该包含数据获取(Data Acquisition)、数据存储(Data Storage)、数据访问(Data Access)三个关键部分。
企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。
数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。
而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。
因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。
四、体系结构1、数据源(ORACLE)是数据仓库系统的基础,是整个系统的数据源泉。
通常包括企业内部信息和外部信息。
内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。
外部信息包括各类法律法规、市场信息和竞争对手的信息等等;2、数据的存储与管理(DB2)是整个数据仓库系统的核心。
数据仓库的真正关键是数据的存储和管理。
数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。
要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。
针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。
数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。
3、OLAP服务器(BIEE)对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。
其具体实现可以分为:ROLAP(关系型在线分析处理)、MOLAP (多维在线分析处理)和HOLAP(混合型线上分析处理)。
ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。
4、前端工具(BIEE)主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以数据挖掘及各种基于数据仓库或数据集市的应用开发工具。
其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。
五、组成1、数据抽取工具把数据从各种各样的存储方式中IBM数据仓库解决方案产品组成拿出来,进行必要的转化、整理,再存放到数据仓库内。
对各种不同数据存储方式的访问能力是数据抽取工具的关键,应能生成COBOL程序、MVS作业控制语言(JCL)、UNIX脚本、和SQL语句等,以访问不同的数据。
数据转换都包括,删除对决策应用没有意义的数据段;转换到统一的数据名称和定义;计算统计和衍生数据;给缺值数据赋给缺省值;把不同的数据定义方式统一。
2、数据库是整个数据仓库环境的核心,是数据存放的地方和提供对数据检索的支持。
相对于操纵型数据库来说其突出的特点是对海量数据的支持和快速的检索技术。
3、元数据元数据是描述数据仓库内数据的结构和建立方法的数据。
可将其按用途的不同分为两类,技术元数据和商业元数据。
技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库使用的数据。
包括:数据源信息;数据转换的描述;数据仓库内对象和数据结构的定义;数据清理和数据更新时用的规则;源数据到目的数据的映射;用户访问权限,数据备份历史记录,数据导入历史记录,信息发布历史记录等。
商业元数据从商业业务的角度描述了数据仓库中的数据。
包括:业务主题的描述,包含的数据、查询、报表;元数据为访问数据仓库提供了一个信息目录(informationdirectory),这个目录全面描述了数据仓库中都有什么数据、这些数据怎么得到的、和怎么访问这些数据。
是数据仓库运行和维护的中心,数据仓库服务器利用他来存贮和更新数据,用户通过他来了解和访问数据。
4、数据集市(主题)为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(subjectarea)。
在数据仓库的实施过程中往往可以从一个部门的数据集市着手,以后再用几个数据集市组成一个完整的数据仓库。
需要注意的就是在实施不同的数据集市时,同一含义的字段定义一定要相容,这样在以后实施数据仓库时才不会造成大麻烦。
国外知名的Garnter关于数据集市产品报告中,位于第一象限的敏捷商业智能产品有QlikView, Tableau和SpotView,都是全内存计算的数据集市产品,在大数据方面对传统商业智能产品巨头形成了挑战。
国内BI产品起步较晚,知名的敏捷型商业智能产品有PowerBI, 永洪科技的Z-Suite,SmartBI,FineBI商业智能软件等,其中永洪科技的Z-Data Mart是一款热内存计算的数据集市产品。
国内的德昂信息也是一家数据集市产品的系统集成商。
5、数据模型有别于一般联机交易处理(OLTP)系统,数据模型设计是一个数据仓库设计的地基,当前两大主流理论分别为采用正规方式(normalized approach)或多维方式(dimensional approach)进行数据模型设计。
数据模型可以分为逻辑与实体数据模型。
逻辑数据模型陈述业务相关数据的关系,基本上是一种与数据库无关的结构设计,通常均会采用正规方式设计,主要精神是从企业业务领域的角度及高度订出subject area model,再逐步向下深入到entities、attributes,在设计时不会考虑未来采用的数据库管理系统,也不需考虑分析性能问题。
而实体数据模型则与数据库管理系统有关,是建置在该系统上的数据架构,故设计时需考虑数据类型(data type)、空间及性能相关的议题。
实体数据模型设计,则较多有采用正规方式或多维方式的讨论,但从实务上来说,不执著于理论,能与业务需要有最好的搭配,才是企业在建置数据仓库时的正确考量。
数据仓库的建制不仅是资讯工具技术面的运用,在规划和执行方面更需对产业知识、行销管理、市场定位、策略规划等相关业务有深入的了解,才能真正发挥数据仓库以及后续分析工具的价值,提升组织竞争力。
六、设计步骤1)选择合适的主题(所要解决问题的领域)2)明确定义事实表3)确定和确认维4)选择事实表5)计算并存储fact表中的衍生数据段6)转换维表7)数据库数据采集8)根据需求刷新维表9)确定查询优先级和查询模式。
硬件平台:数据仓库的硬盘容量通常要是操作数据库硬盘容量的2-3倍。
通常大型机具有更可靠的性能和和稳定性,也容易与历史遗留的系统结合在一起;而PC服务器或UNIX服务器更加灵活,容易操作和提供动态生成查询请求进行查询的能力。
选择硬件平台时要考虑的问题:是否提供并行的I/O吞吐?对多CPU的支持能力如何?数据仓库DBMS:他的存储大数据量的能力、查询的性能、和对并行处理的支持如何。
网络结构:数据仓库的实施在那部分网络段上会产生大量的数据通信,需不需要对网络结构进行改进。
七、建模划分数据仓库的数据建模大致分为四个阶段:1.业务建模,这部分建模工作,主要包含以下几个部分:•划分整个单位的业务,一般按照业务部门的划分,进行各个部分之间业务工作的界定,理清各业务部门之间的关系。