数据挖掘概念与技术原书第2版第3章数据仓库与OLAP技术概述.ppt

合集下载

数据仓库和数据挖掘的OLAP技术

数据仓库和数据挖掘的OLAP技术

感谢您的观看
THANKS
大数据OLAP技术可以提供多 维度的数据分析,帮助用户 深入了解数据的内在联系和 规律。
云端OLAP
01
云端OLAP技术将OLAP服务部署在云端,为用户提供灵活、可伸缩的数据分析 服务。
02
云端OLAP技术可以利用云计算的优势,实现快速部署、自动扩缩容和按需付 费等特性,降低用户的IT成本。
03
云端OLAP技术可以支持多用户同时访问和操作,提高数据分析的效率和协作 性。
雪花模型
维度表之间存在层级关系,数据结构 复杂,适用于数据量较大的情况。
多维数据的存储
分布式存储
将数据分散存储在多个节点上,提高存储容量和查询效率。
压缩存储
对数据进行压缩,减少存储空间占用,但会增加查询时的解压缩开销。
多维数据的查询
MDX查询语言
用于查询多维数据的专用语言,功能强大且灵活。
SQL查询
数据挖掘利用机器学习、统计学等方法,从大量数据中发现有价值的模式和规律,为企业提供新的商业 机会和竞争优势。
06
OLAP技术的发展趋势
实时OLAP
01
实时OLAP技术能够提供实时 的数据分析和查询,满足用户 对数据实时性的需求。
02
实时OLAP技术通过采用高性 能的数据存储和查询技术,如 列式存储、分布式计算等,提 高了数据查询的响应速度。
OLAP技术通过多维数据分析模型, 提供交互式的查询、报表、仪表板 等功能,使得用户能够从多个角度 分析数据,获得深入的业务洞察。
决策支持系统
决策支持系统(DSS)是利用数据仓库和OLAP技术,为决策者提供数据 分析和决策建议的系统。
DSS通过整合企业内外部数据,提供多维度的数据分析工具,帮助决策者 了解业务状况、预测未来趋势,从而做出科学、合理的决策。

数据挖掘概念与技术ppt课件

数据挖掘概念与技术ppt课件

用户 GUI API 数据立方体 API
挖掘结果
第4层 用户界面
OLAP 引擎
第3层 OLAP/OLAM
21.05.2020
.
17
KDD过程的步骤(续)
选择挖掘算法 数据挖掘: 搜索有趣的模式 模式评估和知识表示
可视化, 变换, 删除冗余模式, 等.
发现知识的使用
21.05.2020
.
18
数据挖掘和商务智能
提高支持商务决策的潜能
制定决策
数据表示 可视化技术
数据挖掘 信息发现
21.05.2020
我们正被数据淹没,但却缺乏知识 解决办法: 数据仓库与数据挖掘
数据仓库与联机分析处理(OLAP) 从大型数据库的数据中提取有趣的知识(规则, 规律性, 模
式, 限制等)
21.05.2020
.
6
数据处理技术的演进
1960s: 数据收集, 数据库创建, IMS 和网状 DBMS
1970s: 关系数据库模型, 关系 DBMS 实现
顾客分类(Customer profiling)
数据挖掘能够告诉我们什么样的顾客买什么产品(聚类或分类)
识别顾客需求
对不同的顾客识别最好的产品 使用预测发现什么因素影响新顾客
提供汇总信息
各种多维汇总报告 统计的汇总信息 (数据的中心趋势和方差)
21.05.2020
.
11
法人分析和风险管理
搜索有趣的模式可视化变换删除冗余模式发现知识的使用2105202019提高支持商务决策的潜能最终用户商务分析人员数据分析人员dba制定决策数据表示可视化技术数据挖掘信息发现数据探查olapmda统计分析查询和报告数据仓库数据集市数据源文字记录文件信息提供者数据库系统oltp系统2105202020数据仓库数据清理数据集成过滤数据库数据库或数据仓库数据挖掘引擎模式评估图形用户界面知识库21052020www21052020概念描述

数据仓库与OLAP技术概述

数据仓库与OLAP技术概述

湘潭大学商学院 管理科学与工程 韦波
■ 数据仓库的设计和构造步骤 为设计有效的数据仓库,需要理解和分析商务需求,并构造商务分析 框架。 ● 关于数据仓库的设计,有四种不同的视角: ◆自顶向下视图 可以选择仓库所需的相关信息,这些信息能够满足 当前和未来商务的需求。 ◆数据源视图 揭示操作数据库系统收集、存储和管理的信息。这 些信息可能以不同的详细程度和精度建档,存放在由个别数据源表 到集成的数据源表中。 ◆数据仓库视图 包括事实表和维表。提供存放在数据仓库内 部的信息,包括预计算的总和与计数,以及提供历史背景 的关于源、原始日期和时间等信息。 ◆商务查询视图 从最终用户的角度透视数据仓库的数据
■、操作数据库系统与数据仓库的区别
联机操作数据库系统的主要任务是执行联机事务和查询处理。 这种系统称作联机事务处理系统(OLTP)。 数据仓库系统在数据分析和决策方面为用户或知识工人提供 服务,这种系统可以用不同的格式组织和提供数据,以满足不同用 户的各种需求。这种系统称作联机分析处理(OLAP)系统。 OLTP和OLAP的主要区别概述如下: ●用户和系统的面向性不同:OLTP系统是面向顾客的; OLAP系统是面向市场的,用于知识工人的数据分析。 ●数据内容不同:OLTP系统管理当前数据。通常,这 种数据太琐碎,难以用于决策;OLAP系统管理大量历史数 据,提供汇总和聚集机制,并在不同粒度级别上存储和管 理信息。
湘潭大学商学院 管理科学与工程 韦波
●从结构的角度看,有三种数据仓库模型 ◆企业仓库 企业仓库收集了整个组织关于主题的所有信息,它提供 企业范围内的数据集成,通常来自一个或多个数据库系统或外部 信息提供者,并且是跨功能的。 ◆数据集成 数据及时包含企业范围数据的一个子集,对于特定的用 户群是有用的,其范围限定于限定的主题。 ◆虚拟仓库 虚拟仓库是操作数据库视图的集合,为了有效地处理查 询,只有一些可能的汇总视图可以物化。虚拟仓库易于建立,但 需要操作数据库服务器具有剩余能力。

数据仓库和数据挖掘的OLAP技术概述(ppt 76页)

数据仓库和数据挖掘的OLAP技术概述(ppt 76页)
• 尽管数据仓库中的数据来自于操作数据库,但他们却是在物理上 分离保存的。
• 操作数据库的更新操作不会出现在数据仓库环境下。
• 不需要事务处理,恢复,和并发控制等机制 • 只需要两种数据访问:
• 数据的初始转载和数据访问(读操作)
数据仓库与异种数据库集成
• 传统的异种数据库集成:
• 在多个异种数据库上建立包装程序(wrappers)和中介程序(mediators ) • 查询驱动方法——当从客户端传过来一个查询时,首先使用元数据字典将查询
作和事务处理。 • 排除对于决策无用的数据,提供特定主题的简明视图。
数据仓库关键特征二——数据集成
• 一个数据仓库是通过集成多个异种数据源来构造的。
• 关系数据库,一般文件,联机事务处理记录
• 使用数据清理和数据集成技术。
• 确保命名约定、编码结构、属性度量等的一致性。 • 当数据被移到数据仓库时,它们要经过转化。
• “数据仓库是一个面向主题的、集成的、随时间而变化的、不容 易丢失的数据集合,支持管理部门的决策过程.”—W. H. Inmon (数据仓库构造方面的领头设计师)
• 建立数据仓库(data warehousing):
• 构造和使用数据仓库的过程。
数据仓库关键特征一——面向主题
• 围绕一些主题,如顾客、供应商、产品等 • 关注决策者的数据建模与分析,而不是集中于组织机构的日常操
数据仓库和数据挖掘的 OLAP技术
数据仓库 • 多维数据模型 • 数据仓库的体系结构 • 数据仓库实现 • 数据立方体技术的进一步发展 • 从数据仓库到数据挖掘
什么是数据仓库?
• 数据仓库的定义很多,但却很难有一种严格的定义
• 它是一个提供决策支持功能的数据库,它与公司的操作数据库分开维护。 • 为统一的历史数据分析提供坚实的平台,对信息处理提供支持

4数据挖掘概念与技术_第三章_数据仓库和OLAP技术1

4数据挖掘概念与技术_第三章_数据仓库和OLAP技术1

4
数据仓库——集成的
由多个异构数据源集成构建
关系数据库,平面文件,联机事务记录
应用数据清理和数据集成技术
确保命名约定,编码结构,属性度量等一致性 将数据迁入数据仓库时需要进行数据转换
2021/6/25
数据挖掘:概念与技术
5
数据仓库——时变的
数据仓库中数据的时间范围比业务操作系统中长 得多 业务操作数据库:当前数据 数据仓库:提供历史数据信息 (如过去5-10年)
supplier
supplier_key supplier_type
location
location_key street city_key
city
city_key city state_or_province country
19
time
time_key day day_of_the_week month quarter year
time,location
item,location
location,supplier
time,supplier
item,supplier
2-D cuboids
time,location,supplier
time,item,location
time,item,supplier
item,location,supplier
define dimension <dimension_name> as <dimension_name_first_time> in cube <cube_name_first_time>
2021/6/25
数据挖掘:概念与技术
21
DMQL定义星形模型

CH2数据仓库和数据挖掘的OLAPPPT课件

CH2数据仓库和数据挖掘的OLAPPPT课件
Street
概念分层
偏序相关(具体见3,4章) year
quarter
month week
day
多维数据模型的OLAP操作
上卷操作,通过维规约,在数据立方体上进行聚 集.
下钻操作,是上卷操作的逆操作,由不太详细的 数据到更详细的数据.
切片和切块,切片在给定的数据立方体的一个 维上进行选择,切块则是在两个或两个以上的 维进行选择.
定义模式的例子
定义图2-4的星型模式: 定义立方体: Define cube
sales_star[time,item,branch,location]: dollars_sold=sum(sales_in_dollars), units_old=count(*)
定义维
Define dimension time as (time_key,day,day_of_week,month,quarter, year)
s.item_key=i.item_key and s.branch_key=b.branch_key and s.loation_key=l.location_key Group by s.time_key,s.item_key,s.branch_key,s.location_ke y
全序相关 Country City
数据库设计: OLTP采用实体-联系ER模型和面向应用的 数据库设计. OLAP采用星型或雪花模型和面向主题的数 据库设计. 视图: OLTP主要关注一个企业或部门内部的当前 数据,不涉及历史数据或不同组织的数据 OLAP则相反.
访问模式: OLTP系统的访问主要由短的原子事务组成. 这种系统需要并行和恢复机制. OLAP系统的访问大部分是只读操作.
数据存储从历史的角度提供信息.数据仓 库的关键结构,隐式或显式地包含时间元 素.

Lecture3数据仓库与OLAP技术概述


•2020/5/28
•Data Mining: Concepts and Techniques
数据仓库-非易失的
与操作数据库分隔存储。 操作数据库的数据更新不在数据仓库环境出
现。 不需要事务处理,数据恢复以及并发控制
机制。 仅仅需要以下2种操作:
数据的初始装载与数据访问。
•2020/5/28
•2020/5/28
•Data Mining: Concepts and Techniques
由表和电子数据表到数据立方体 II
在数据仓库的研究文献中,一个n维立方体 (n-D)称为基本方体(base cuboid); 0-D方体 存放最高层的汇总 ,称为顶点方体(apex cuboid),方体的格称作数据立方体(data cube)。
•2020/5/28
•Data Mining: Concepts and Techniques
由表和电子数据表到数据立方体 I
数据仓库基于多维数据模型,以数据立方体的形 式对数据进行观察。
数据立方体,如销售,允许以多维来对数据进行 建模与观察。 维表:如维item (item_name, brand, type),或维 time(day, week, month, quarter, year) 。 事实表包含度量(measures):如销售额以及每 个相关维表的关键字。
•2020/5/28
•Data Mining: Concepts and Techniques
数据仓库-集成的
集成多个、异构数据源 关系数据库,普通文件,联机事物记录 。
应用了数据清洗与数据集成技术 确保多个数据源命名惯例、编码结构、 属性度量等的一致性。 在数据移入数据仓库之前,对它进行转 换。

数据仓库和数据挖掘的OLAP技术(武汉大学-李春葆)


2. 元数据(MetaData)
“什么是元数据?”元数据是描述数据的数据。
在数据仓库中,元数据是定义数据仓库对象的数据。元 数据包括相应数据仓库的数据名和定义、数据提取操作时被 提取数据的时间和地点以及数据清理或数据集成过程添加的 字段等。它提供了有关数据的环境,用于构造、维持、管理、 和使用数据仓库,在数据仓库中尤为重要。
用户和系统的面向性 面向顾客(事务) 面向市场(分析)。
数据内容 当前的、详细的数据 历史的、汇总的数据。
数据库设计 实体-联系模型(ER)和面向应用的数据库设计 星 型/雪花模型和面向主题的数据库设计。
OLTP 和OLAP的比较(2)
数据视图 当前的、企业内部的数据 经过演化的、集成的数据。
现有的数据仓库产品几乎都提供各种关系型数据接口, 提供提取引擎,从关系型数据中提取数据。
(2)数据转换(Data Transform)
由于业务系统可能使用不同的数据库厂商的产品,比 如IBM DB2、Oracle、Informix、Sybase、 NCR Teradata、 SQL Server等,各种数据库产品提供的数据类型可能不同, 因此需要将不同格式的数据转换成统一的数据格式。如时 间格式“年/月/日”,“月/日/年”、“日-月-年”的不一 致问题等。
面向主题的数据组织方式,就是在较高层次上对分析对象 的数据的一个完整、一致的描述,能完整、统一地刻画各个分 析对象所涉及的企业的各项数据,以及数据之间的联系。
(2)集成 数据仓库中存储的数据一般从企业原来已建立的数据
库系统中提取出来,但并不是原有数据的简单拷贝,而是 经过了抽取、筛选、清理、综合等工作。这是因为:
数据仓库还有许多不同的定义,如: “数据仓库是融合方法、技术和工具以在完整的平台

2、数据仓库和数据挖掘的OLAP技术


1-D方体
time,item
time,location
item,location
location,supplier
time,supplier
item,supplier
2-D 方体
time,item,location
time,location,supplier
3-D 方体
time,item,supplier
多维数据模型 (3)
在数据仓库中,数据立方体是n-D的(n维)
(关系表和电子表格是几维的?)
示例
AllElectronics的销售数据按维time, item的2-D视图 (P30, 表 2-2)
AllElectronics的销售数据按维time, item和location的3-D视 图 (P30, 表2-3)
units_sold dollars_sold
avg_sales
item
item_key item_name brand type supplier_type
Shipping Fact Table
time_key item_key
shipper_key
from_location
location
location_key street city province_or_state country
汇总
不同的功能和不同的数据:
历史数据: 决策支持需要历史数据,而这些数据在操作数据 库中一般不会去维护
数据汇总:决策支持需要将来自异种源的数据统一(如聚集 和汇总)
数据质量: 不同的源使用不一致的数据表示、编码和格式, 对这些数据进行有效的分析需要将他们转化后进行集成

[计算机硬件及网络]3、数据仓库和数据挖掘的OLAP技术

2
2019/2/18
3.1 什么是数据仓库?
2019/2/18
3
什么是数据仓库?

数据仓库的定义很多,但很难给出一种严格的 定义


它是一个提供决策支持功能的数据库,它与组织机 构的操作数据库分别维护。 它允许将各种应用系统集成在一起,为统一的历史 数据分析提供坚实的平台,对信息处理提供支持。

11
OLTP VS. OLAP(2)

数据视图

当前的、企业内部的数据 VS. 经过演化的、集成的 数据 事务操作 VS. 只读查询(但很多是复杂的查询)

访问模式


任务单位

简短的事务 VS. 复杂的查询
数十个 VS. 数百万个
12

访问数据量

2019/2/18
OLTP VS. OLAP(3)
16

多维数据模型围绕中心主题组织,该主题用事实表表示

2019/2/18
多维数据模型 (2) ——示例
time 维表
time_key day day_of_the_week month quarter year
item 维表 Sales 事实表 time_key
item_key item_name brand type supplier_type

异构数据库的集成方法

传统的异构数据库集成:(查询驱动)


在多个异构数据库上建立包装程序(wrappers)和中介程 序(mediators )。 查询驱动方法——当从客户端传过来一个查询时,首先使 用元数据字典将查询转换成相应异构数据库上的查询;然 后,将这些查询映射和发送到局部查询处理器。 将来自多个异构源的信息预先集成,并存储在数据仓库中, 供直接查询和分析。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

location
location_key street city state_or_province country
location_key units_sold dollars_sold avg_sales Measures
21
22
time
time_key day day_of_the_week month quarter year

度量
◦ 事务吞吐量 VS. 查询吞吐量、响应时间
13
14

什么是数据仓库 多维数据模型 数据仓库的体系结构 数据仓库实现 从数据仓库到数据挖掘

数据仓库和OLAP工具基于多维数据模型 在多维数据模型中,数据以数据立方体(data cube) 的形式存在 ◦ 数据立方体允许以多维数据建模和观察。它由维和事 实定义
◦ 立方体定义 (事实表) ◦ 维定义 (维表)
define dimension <dimension_name> as (<attribute_or_subdimension_list>) define cube <cube_name> [<dimension_list>]: <measure_list>
shipper_key shipper_name location_key shipper_type 24
city
city_key city state_or_province country
23

DMQL首先包括定义数据仓库和数据集市的语言原语, 这包括两种原语定义:一种是立方体定义,一种是维 定义
item 维表 Sales 事实表 time_key item_key branch_key
item_key item_name brand type supplier_type

在数据仓库中,数据立方体是n-D的(n维)
◦ (关系表和电子表格是几维的?)

示例
◦ AllElectronics的销售数据按维time, item的2-D视图 (P71, 表3-2) ◦ AllElectronics的销售数据按维time, item和location的3-D 视图 (P71, 表3-3) ◦ AllElectronics的销售数据按维time, item和location的3-D 视图的3-D数据立方体表示 (P71, 图3-1) ◦ 销售数据的4-D立方体表示 (P72, 图3-2)
time,location,supplier
3-D 方体ຫໍສະໝຸດ time,item,supplier
item,location,supplier
4-D(基本) 方体
time, item, location, supplier
19
20

最流行的数据仓库概念模型是多维数据模型。这种模 型可以以星型模式、雪花模式、或事实星座模式的形 式存在。
all time item location supplier
0-D(顶点) 方体
1-D方体
time,item
time,location
item,location item,supplier
location,supplier
time,supplier time,item,location
2-D 方体
◦ 数据仓库: (更新驱动)

7
8

查询驱动的方法
◦ 需要负责的信息过滤和集成处理 ◦ 与局部数据源上的处理竞争资源 ◦ 对于频繁的查询,尤其是涉及聚集(汇总)操作的查询, 开销很大(决策支持中常见的查询形式)

操作数据库系统的主要任务是联机事务处理OLTP
◦ 日常操作: 购买,库存,银行,制造,工资,注册,记帐 等

第一次作为维表定义 “cube definition” 然后:define dimension <dimension_name> as <dimension_name_first_time> in cube <cube_name_first_time>
define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier_type) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city, province_or_state, country)

面向主题,是数据仓库显著区别于关系数据库系统 的一个特征
◦ 围绕一些主题,如顾客、供应商、产品等 ◦ 关注决策者的数据建模与分析,而不是集中于组织机构的 日常操作和事务处理。 ◦ 排除对于决策无用的数据,提供特定主题的简明视图。

数据仓库区别于其他数据存储系统
◦ “数据仓库是一个面向主题的、集成的、随时间而变化的、 不容易丢失的数据集合,支持管理部门的决策过程.”—W. H. Inmon


异种数据库的集成方法
◦ 传统的异种数据库集成:(查询驱动)


数据的初始转载和数据访问(读操作)
在多个异种数据库上建立包装程序(wrappers)和中介程序 (mediators ) 查询驱动方法——当从客户端传过来一个查询时,首先使用 元数据字典将查询转换成相应异种数据库上的查询;然后, 将这些查询映射和发送到局部查询处理器 将来自多个异种源的信息预先集成,并存储在数据仓库中, 供直接查询和分析

多维数据模型为不同角度上的数据建模和观察提供了 一个良好的基础
度量
17 18

在数据仓库的研究文献中,一个n维的数据的立 方体叫做基本方体。给定一个维的集合,我们 可以构造一个方体的格,每个都在不同的汇总 级或不同的数据子集显示数据,方体的格称为 数据立方体。0维方体存放最高层的汇总,称作 顶点方体;而存放最底层汇总的方体则称为基 本方体。
time
time_key day day_of_the_week month quarter year
item
Sales Fact Table time_key item_key branch_key
item_key item_name brand type supplier_type
branch
branch_key branch_name branch_type
任务单位
◦ 简短的事务 VS. 复杂的查询

访问数据量
◦ 数十个 VS. 数百万个
11
12

用户数
◦ 数千个 VS. 数百个

提高两个系统的性能
◦ DBMS是为OLTP而设计的:存储方式,索引, 并发控制, 恢复 ◦ 数据仓库是为OLAP而设计:复杂的 OLAP查询, 多维视图, 汇总

数据库规模
操作数据库系统: 主要保存当前数据。 数据仓库:从历史的角度提供信息(比如过去 5-10 年)
◦ 数据仓库中的每一个关键结构都隐式或显式地包含时间元 素,而操作数据库中的关键结构可能就不包括时间元素。
5
6

尽管数据仓库中的数据来自于操作数据库,但他们 却是在物理上分离保存的。
◦ 操作数据库的更新操作不会出现在数据仓库环境下 ◦ 不需要事务处理,恢复,和并发控制等机制 ◦ 只需要两种数据访问:

什么是数据仓库 多维数据模型 数据仓库的体系结构 数据仓库实现 从数据仓库到数据挖掘
1
2

数据仓库的定义很多,但却很难有一种严格的定义
◦ 数据仓库是一个数据库,它与公司的操作数据库分开维护。 ◦ 允许将各种应用系统集成在一起,为统一的历史数据分析 提供坚实的平台,对信息处理提供支持
location_key units_sold dollars_sold avg_sales Measures
location
location_key street city province_or_state country
to_location dollars_cost units_shipped shipper
◦ 100M-数GB VS. 100GB-数TB

设计优先性
◦ 高性能、高可用性 VS. 高灵活性、端点用户自治

不同的功能和不同的数据:
◦ 历史数据: 决策支持需要历史数据,而这些数据在操作数据 库中一般不会去维护 ◦ 数据汇总:决策支持需要将来自异种源的数据统一(如聚集 和汇总) ◦ 数据质量: 不同的源使用不一致的数据表示、编码和格式, 对这些数据进行有效的分析需要将他们转化后进行集成
branch
branch_key branch_name branch_type
location location_key units_sold dollars_sold avg_sales Measures
location_key street city_key
branch
branch_key branch_name branch_type

数据仓库的主要任务是联机分析处理OLAP
◦ 数据分析和决策支持,支持以不同的形式显示数据以满足 不同的用户需要

更新驱动的方法(带来高性能)
◦ 数据经预处理后单独存储,对聚集操作提供良好支持 ◦ 不影响局部数据源上的处理 ◦ 集成历史信息,支持负责的多维查询
相关文档
最新文档