数据仓库与数据挖掘复习资料
12《数据仓库与数据挖掘》复习题

《数据仓库与数据挖掘》复习大纲三、简答题(5×6分=30分)四、分析计算题(3×10分=30分)考试范围:第一讲数据挖掘概述考点:1、数据挖掘、知识发现(KDD)基本概念;2、数据挖掘的过程;3、数据挖掘过技术的三个主要部分。
复习参考题:一、填空题(1)数据库中的知识挖掘(KDD)包括以下七个步骤:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示。
(2)数据挖掘的性能问题主要包括:算法的效率、可扩展性和并行处理。
(3)当前的数据挖掘研究中,最主要的三个研究方向是:统计学、数据库技术和机器学习。
(4)在万维网(WWW)上应用的数据挖掘技术常被称为:WEB挖掘。
(5)孤立点是指:一些与数据的一般行为或模型不一致的孤立数据。
二、单选题(1)数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于:BA、所涉及的算法的复杂性;B、所涉及的数据量;C、计算结果的表现形式;D、是否使用了人工智能技术(2)孤立点挖掘适用于下列哪种场合?DA、目标市场分析B、购物篮分析C、模式识别D、信用卡欺诈检测(3)下列几种数据挖掘功能中,( D )被广泛的应用于股票价格走势分析。
A. 关联分析B.分类和预测C.聚类分析D. 演变分析(4)下面的数据挖掘的任务中,( B )将决定所使用的数据挖掘功能。
A、选择任务相关的数据B、选择要挖掘的知识类型C、模式的兴趣度度量D、模式的可视化表示(5)下列几种数据挖掘功能中,(A )被广泛的用于购物篮分析。
A、关联分析B、分类和预测C、聚类分析D、演变分析(6)根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是( B)。
A.关联分析B.分类和预测C. 演变分析D. 概念描述(7)帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是( C )。
A.关联分析B.分类和预测C.聚类分析D. 孤立点分析E. 演变分析(8)假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是( E )A.关联分析B.分类和预测C. 孤立点分析D. 演变分析E. 概念描述三、简答题1、何谓数据挖掘?它有哪些方面的功能?答:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。
数据仓库与数据挖掘复习大全

数据仓库与数据挖掘复习大全湖北文理学院湖北襄阳王茂林1.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理2. 以下两种描述分别对应哪两种对分类算法的评价标准?(A)(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。
(b)描述有多少比例的小偷给警察抓了的标准。
A. Precision, RecallB. Recall, PrecisionC. Precision, ROCD. Recall, ROC分类是一种重要的数据挖掘算法。
分类的目的是构造一个分类函数或分类模型(即分类器),通过分类器将数据对象映射到某一个给定的类别中。
分类器的主要评价指标有准确率(Precision)、召回率(Recall)、F b-score、ROC、AOC等。
准确率(Precision) 和召回率(Recall)是信息检索领域两个最基本的指标。
准确率也称为查准率,召回率也称为查全率。
它们的定义如下:Precision=系统检索到的相关文件数量/系统检索到的文件总数量Recall=系统检索到的相关文件数量/系统所有相关文件数量F b-score是准确率和召回率的调和平均:F b=[(1+b2)*P*R]/(b2*P+R),比较常用的是F1。
在信息检索中,准确率和召回率是互相影响的,虽然两者都高是一种期望的理想情况,然而实际中常常是准确率高、召回率就低,或者召回率低、但准确率高。
所以在实际中常常需要根据具体情况做出取舍,例如对一般搜索的情况是在保证召回率的情况下提升准确率,而如果是疾病监测、反垃圾邮件等,则是在保证准确率的条件下,提升召回率。
但有时候,需要兼顾两者,那么就可以用F-score指标。
在信息检索中,准确率和召回率是互相影响的,虽然两者都高是一种期望的理想情况,然而实际中常常是准确率高、召回率就低,或者召回率低、但准确率高。
数据仓库和数据挖掘复习

数据仓库和数据挖掘复习第一章数据仓库和数据挖掘概述一、概念题1、数据仓库的定义是什么?答:数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营管理中央决策制定过程。
2、数据仓库的特点是什么?答:数据仓库的特点是:(1)数据仓库是面向主题的;(2)数据仓库是集成的;(3)数据仓库是稳定的;(4)数据仓库是随时间变化的;(5)数据仓库中的数据量大;(6)数据仓库软硬件要求较高。
3、什么是商业智能?答:商业智能以数据库为基准,通过联机分析处理和数据挖掘技术帮助企业领导者针对市场变化的环境,做出快速、准确的决策。
二、简答题1、数据仓库和数据挖掘的区别和联系。
区别:数据仓库是一种存储技术,它的数据存储量是一般数据库的100倍,它包含大量的历史数据、当前的详细数据以及综合数据。
它能适应于不同用户对不同决策需要提供所需的数据和信息。
数据挖掘是从人工智能机器学习中发展起来的。
它研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。
联系:数据仓库和数据挖掘都是决策支持新技术。
但他们有着完全不同的辅助决策方式。
数据仓库中存储着大量辅助决策的数据,它为不同的用户随时提供各种辅助决策的随机查询、综合信息或趋势分析信息。
数据挖掘是利用一系列算法挖掘数据中隐含的信息和知识,让用户在进行决策中使用。
第二章 数据仓库原理一、概念题1、数据仓库结构图是什么?2、数据集市的定义是什么?答:数据集市是指具有特定应用的数据仓库,主要针对某个具有战略意义的应用或者具体部门级的应用,支持用户利用已有的数据获得重要的竞争优势或者找到进入新市场的具体解决方案,它包括两种,即独立的数据集市,它的数据直接来源于各生产系统;从属数据集市,它的数据直接来自于中央数据仓库。
3、多维数据模型有哪些?答:对于逻辑数据模型,使用的多维数据模型主要有星型模型、雪花模型、星网模型、第三范式等。
4、ETL 过程是什么?答:数据仓库的数据获取需要经过抽取、转换、装载三个过程,即ETL 过程。
数据仓库与数据挖掘学习要点 及答案

数据仓库与数据挖掘学习要点及答案数据仓库与数据挖掘学习要点及答案数据仓库和数据挖掘是现代信息技术中非常重要的概念,它们在数据分析和决策支持方面扮演着关键角色。
本文将详细介绍数据仓库和数据挖掘的基本概念、学习要点以及一些常见问题的答案。
一、数据仓库的基本概念和学习要点1. 数据仓库的定义和作用数据仓库是一个用于存储和管理大量结构化和非结构化数据的集合,它的主要作用是支持企业的决策制定和业务分析。
数据仓库通过将不同来源的数据整合到一个统一的存储中,提供了一个一致、可靠且易于访问的数据源。
2. 数据仓库的架构和组成数据仓库的架构通常包括数据源层、数据抽取和转换层、数据存储层和数据查询和分析层。
数据源层用于连接各种数据源,数据抽取和转换层用于将数据从源系统中提取出来并进行清洗和转换,数据存储层用于存储清洗后的数据,数据查询和分析层用于用户查询和分析数据。
3. 数据仓库的建模方法数据仓库的建模方法主要包括维度建模和实体关系建模。
维度建模是一种以业务过程为中心的建模方法,它将数据组织成事实表和维度表的形式,以支持复杂的分析查询。
实体关系建模是一种以实体和关系为中心的建模方法,它将数据组织成实体和关系的形式,以支持数据的存储和查询。
4. 数据仓库的ETL过程ETL(抽取、转换和加载)是数据仓库中非常重要的一个过程,它用于将数据从源系统中抽取出来并进行清洗、转换和加载到数据仓库中。
ETL过程包括数据抽取、数据清洗、数据转换和数据加载四个阶段,每个阶段都有相应的技术和工具支持。
5. 数据仓库的性能优化数据仓库的性能优化是保证数据仓库查询和分析效率的重要任务。
性能优化的方法包括索引设计、分区设计、查询优化、数据压缩等。
通过合理的性能优化策略,可以提高数据仓库的查询效率,减少数据加载时间,提升用户体验。
二、数据挖掘的基本概念和学习要点1. 数据挖掘的定义和作用数据挖掘是从大量数据中发现隐藏模式和知识的过程,它可以帮助人们发现数据中的规律、趋势和关联,从而支持决策制定和业务优化。
数据仓库与数据挖掘复习资料ppt课件

名将都是“NJ”,忽略这个字段
几乎只含一种值的列
一般规则:如果某一列中95% —99%的值相同,这一列很可能没用
列的值各不相同
——无法进行预测
如:客户身份证号码
忽略与目标同义的列
某一列与目标列相关度很高时,可能意味着这一列是目标列的同义列。
如:判断是否流失,非空的流失日期 与 已经流失 同义
数据挖掘功能
28
Concept description概念描述: Characterization and discrimination特征化和区分
Generalize归纳, summarize汇总, and contrast data characteristics, e.g., dry vs. wet regions
和提供所发现模式匹配的元模式、元规则、元查询:————可以用 于指导发现过程
概念分层:定义一个映射序列,将低层概念映射到更一般 的高层概念。
Schema hierarchy模式分层 Set-grouping hierarchy集合分组分层 Operation-derived hierarchy操作导出的分层 Rule-based hierarchy基于规则的分层
HOLAP就是对MOLAP和ROLAP的良好折中。
18
数据仓库设计的基本过程:
建立企业模型; 概念模型设计; 逻辑模型设计; 物理模型设计以及数据装载接口的设计。
19
应用 A
应用B
收集应用需求
分析应用需求
DB
构建数据库
应用编程
外部
DB 数据
DB
20
数据仓库建模
数据获取与集成
DW 构建数据仓库 DSS应用编程
数据仓库与数据挖掘期末综合复习

数据仓库与数据挖掘期末综合复习第一章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3、数据处理通常分成两大类:联机事务处理和联机分析处理。
4、多维分析是指以维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP 实现。
OLAP技术的有关概念:OLAP根据其存储数据的方式可分为三类:ROLAP、MOLAP、HOLAP6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。
7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。
&操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可挥发”的)、企业级的、详细的数据库,也叫运营数据存储。
9、实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。
10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。
11、什么是数据仓库?数据仓库的特点主要有哪些?数据仓库通常是指一个数据库环境,而不是支一件产品,它是提供用户用于决策支持的当前和历史数据,这些数据在传统的数据库中通常不方便得到。
数据仓库就是一个面向主题的(Subject Oriented )、集成的(Integrate )、相对稳定的(Non-Volatile )、反映历史变化(Time Variant )的数据集合,通常用于辅助决策支持。
数据仓库与数据挖掘复习提纲
数据仓库与数据挖掘复习提纲-标准化文件发布号:(9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII数据库应用技术(数据仓库与数据挖掘复习提纲)说明:考试形式:闭卷考试题型:填空、选择、判断、名词解释、简答题、综合题。
(由于试题是随机从试题库中抽取,有可能抽取的试题中不会全部包含上述的所有题型)另外:本提纲仅针对试题中的名词解释、简答题和综合题提供复习参考,不包括填空、选择、判断等其它题型的参考。
一:名词解释数据仓库、数据挖掘、OLAP、ODS(操作数据存储)二.简答题1.试述数据仓库系统与数据库系统的区别与相似之处。
2.试述数据仓库设计的步骤以及每一步所完成的工作。
3.OLAP与OLTP的区别有哪些?它们适合于运行在同一个服务器上吗为什么4.在数据挖掘前,为什么要对数据进行预处理,数据预处理的有哪些主要的处理方法?5.在现实世界的数据中,元组在某些属性上缺少值是常有的。
描述处理该问题的各种方法。
6.什么是数据仓库中的元数据,元数据包含哪些内容其重要性体现在哪些方面7.试述ODS在“DB-ODS-DW”体系结构中的作用。
8.请解释OLAP中维、维层次与维成员的概念,并举例说明。
9. 数据仓库中的数据是数据库中数据的简单堆积吗它有哪些常用的数据组织方式10.数据仓库和数据集市的区别是什么数据仓库的体系环境具有什么特点有哪些建立数据仓库体系化环境的方法它们各有何优劣11.数据仓库的设计包括哪些内容?12.在内容和使用者方面,数据仓库环境中的元数据与操作型环境中的元数据有何异同?13.为了提高数据仓库的性能,可以在哪些方面作一些努力在各个方面分别采用什么样的技术这些技术易于实现吗14.OLAP提供哪些基本操作?15.OLAP服务器有哪些实现方法它们的优劣是什么16.为什么不能依靠传统的业务处理系统进行决策分析17.自然演化体系结构中存在的问题?18.试述建立多维数据库的过程。
19.数据挖掘的主要方法。
数据仓库与数据挖掘学习要点 及答案
数据仓库与数据挖掘学习要点及答案数据仓库和数据挖掘是现代数据分析和决策支持的重要工具。
数据仓库是一个用于集成、存储和管理企业中各种数据的系统,而数据挖掘则是从这些数据中发现模式、关联和趋势的过程。
本文将介绍数据仓库和数据挖掘的基本概念、技术和应用,并提供一些常见问题的答案。
一、数据仓库的基本概念和技术1. 数据仓库的定义和特点数据仓库是一个面向主题的、集成的、稳定的、非易失的数据集合,用于支持企业决策。
它具有以下特点:- 面向主题:数据仓库按照业务主题进行组织,而不是按照应用系统或部门。
- 集成性:数据仓库集成了来自不同数据源的数据,并进行了数据清洗和转换。
- 稳定性:数据仓库的数据是经过一定周期的更新和维护的,以保证数据的准确性和一致性。
- 非易失性:数据仓库中的数据是持久的,不会因为系统故障或人为操作而丢失。
2. 数据仓库的架构和组成数据仓库的架构包括数据源层、数据存储层、数据处理层和数据展示层。
- 数据源层:包括企业内部的各种数据库、文件和应用系统,以及外部数据源如互联网和供应商提供的数据。
- 数据存储层:是数据仓库的核心组成部分,用于存储集成和清洗后的数据,常见的数据存储技术包括关系型数据库和大数据存储技术。
- 数据处理层:包括数据抽取、转换和加载(ETL)过程,用于将数据从数据源层导入到数据存储层,并进行数据清洗、转换和整合。
- 数据展示层:用于向用户展示数据仓库中的数据,包括报表、图表、数据可视化和在线分析处理(OLAP)工具。
3. 数据仓库的设计和建模数据仓库的设计和建模是保证数据仓库能够满足用户需求的关键步骤。
- 维度建模:维度建模是一种基于主题的建模方法,将业务过程中的关键业务概念抽象为维度和事实表,并通过维度之间的关联来描述业务过程。
- 星型模型和雪花模型:星型模型是一种简单直观的维度建模方法,事实表围绕着一个中心的维度表而展开。
雪花模型在星型模型的基础上,进一步细化了维度表,使得维度表更加灵活和可扩展。
数据仓库与数据挖掘 阶段考试复习题
第一章数据仓库与数据挖掘概述无习题第二章数据仓库概述一.判断题在分析型处理产生后,数据处理的环境由原来的以单一数据库为中心的数据环境发展为以数据仓库为基础的体系化环境。
在事务型(操作型)数据处理下,数据处理的环境主要是以单一数据库为中心的数据环境。
数据仓库是为构建分析型数据处理环境而出现的一种数据存储和组织技术.面向应用,是数据仓库区别于传统的操作型数据库的关键特征。
一个数据仓库是通过集成多个异种数据源来构造的。
由于在数据仓库中只进行数据的初始装载和查询操作,所以,数据一旦进入数据仓库,就是稳定的,基本上不会被更新。
数据立方体必须是3维的。
在数据仓库中,概念分层定义了一个映射序列,可以将低层概念映射到更一般的高层概念。
方体的格,是在单个维上定义的映射序列,可以将低层概念映射到更一般的高层概念。
雪花模型通过在每个维表基础上,增加附加维表的方式来降低星型模型中可能会存在的冗余现象。
在事实星座模型中,有且仅能有一个事实表。
在数据仓库的设计过程中,要坚持“数据驱动和需求驱动双驱动,且以需求驱动为中心”的原则。
二.单选题在以下人员中,被誉为“数据仓库之父”的是:()(知识点:数据仓库的基本概念;易)A. H.Inmon B. E.F.Codd C. Simon D. Pawlak以下关于数据仓库的说法正确的是:()(知识点:数据仓库的基本概念;难)A. 数据仓库中的数据只能来源于组织内部的操作型数据库B. 数据仓库是为应对事务型数据处理的需要而产生的C. 数据仓库是面向主题的,这是其区别于操作型数据库的关键特征D. 数据仓库必须是面向企业全局的,不能以部门为单位建立数据仓库以下哪项不是“信息包图”中的元素?()(知识点:数据仓库的三级模型;难)A. 维度B. 维的概念层次及相应层次上的数量C. 度量D. 方体的格以下哪项不属于数据仓库的逻辑模型?()(知识点:数据仓库的三级模型;中)A. 星型模型B. 雪花模型C. 度量模型D. 事实星座模型在数据仓库的设计过程中,下列描述正确的是()(知识点:数据仓库的设计;难)A. 数据仓库是“数据驱动+需求驱动”双驱动,但必须以需求驱动为中心B. 数据仓库主要面向分析型处理环境,在设计时很难完全明确用户的需求C. 数据仓库与数据库一样,其数据主要来自于企业的业务流程D. 数据仓库的设计目标是要提高事务处理的性能下面哪项关于星型模型的说法是不正确的:()(知识点:数据仓库的三级模型;难)A. 有一个事实表,且事实表中的属性由指向各个维表的外键和一些相应的度量数据组成B. 有一组小的附属表,称为维表,且每维一个维表C. 事实表的每个字段都是事实度量字段D. 由于每维只能建立一个维表,使得维表中有些信息会产生冗余在数据仓库的概念模型中,通过()来实现数据从客观世界到主观认识的映射。
数据仓库与数据挖掘学习要点 及答案
数据仓库与数据挖掘学习要点及答案数据仓库与数据挖掘学习要点及答案数据仓库和数据挖掘是现代数据分析和决策支持系统中非常重要的组成部分。
数据仓库是一个集成、主题导向的、时间一致的、非易失性的数据集合,用于支持管理决策。
数据挖掘是从大量数据中发现隐藏模式、关联规则和趋势的过程。
本文将介绍数据仓库和数据挖掘的基本概念、关键技术和应用。
一、数据仓库学习要点1. 数据仓库的定义和特点:数据仓库是一个面向主题的、集成的、非易失性的、时间一致的数据集合。
它具有数据集成、数据清洗、数据转换和数据加载等特点。
2. 数据仓库的架构:数据仓库的架构包括数据源层、数据集成层、数据存储层和数据访问层。
数据源层是数据仓库的数据来源,数据集成层负责将数据从不同的数据源中抽取、清洗和转换,数据存储层用于存储清洗后的数据,数据访问层提供用户对数据仓库的查询和分析功能。
3. 数据仓库的建模:数据仓库的建模包括维度建模和事实建模。
维度建模用于描述业务过程中的维度,事实建模用于描述业务过程中的事实。
4. 数据仓库的ETL过程:ETL是数据仓库中的一个重要过程,包括数据抽取、数据清洗、数据转换和数据加载。
数据抽取是从数据源中抽取数据,数据清洗是对数据进行去重、填充缺失值等操作,数据转换是对数据进行转换和整合,数据加载是将转换后的数据加载到数据仓库中。
5. 数据仓库的查询和分析:数据仓库的查询和分析是用户对数据仓库进行数据挖掘和决策支持的重要功能。
常用的查询和分析工具包括OLAP(联机分析处理)、数据挖掘和报表工具。
二、数据仓库学习答案1. 数据仓库的定义和特点:数据仓库是一个面向主题的、集成的、非易失性的、时间一致的数据集合。
它通过将来自不同数据源的数据进行集成和清洗,提供一致、可靠的数据供决策支持系统使用。
2. 数据仓库的架构:数据仓库的架构包括数据源层、数据集成层、数据存储层和数据访问层。
数据源层负责从各种数据源中获取数据,数据集成层负责将不同数据源的数据进行清洗、转换和集成,数据存储层用于存储清洗后的数据,数据访问层提供用户查询和分析的接口。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘功能
• Concept description概念描述: Characterization and discrimination特征化和区分
– Generalize归纳, summarize汇总, and contrast data characteristics, e.g., dry vs. wet regions
–数据钻取就是从较高的维度层次下降到较低的 维度层次上来观察多维数据。
概念:数据挖掘
– 相关属性
• 挖掘过程中要考虑的感兴趣的属性 – 模式模板:给定挖掘任务,除说明要挖掘的知识类型,可进一步 说明和提供所发现模式匹配的元模式、元规则、元查询:——— —可以用于指导发现过程
– 概念分层:定义一个映射序列,将低层概念映射到更 一般的高层概念。 • Schema hierarchy模式分层
概念
• OLAP:粒度就是对数据仓库中数据综合程 度的一个度量。它既影响数据仓库中的数 据量的多少,也影响数据仓库所能回答询 问的种类。 • DM:粒度的第二种形式是指抽样率,即以一 定的抽样率对数据仓库中的数据进行抽样 后得到一个样本数据库,数据挖掘将在这 个样本数据库上进行。
概念
• 维代表了用户观察数据的特定视角,如时 间维、地区维、产品维等。 • 度量是数据的实际意义,描述数据“是什 么”,即一个数值的测量指标,如人数、 单价、销售量等。 • 数据切片、切块、上卷、下钻、转轴
• Set-grouping hierarchy集合分组分层
• Operation-derived hierarchy操作导出的分层 • Rule-based hierarchy基于规则的分层
概念:数据挖掘
– 强关联规则(strong association rule) • 同时满足用户定义的最小置信度阈值和最小支持度 阈值的关联规则。
雪花型结构 • 实际应用需求并不像标准星型结构描述的那么简 单,当问题涉及的维度很多时,事实表中的条目 数将迅速增长。 • 假定原来的事实表条目数为m,增加一个具有n个 条目的维表,通常,事实表的条目数将变成mn条, 这样事实表所占用的存储空间将迅速增大。 • 在这种情况下,可以考虑使用“雪花型”的结构。
数据仓库与数据挖掘
复习
数据仓库
数据仓库基本原理、OLAP基本原理 数据仓库的模型设计和OLAP建模 数据仓库的规划和开发 SQL Server 2005与数据仓库的实现
数据挖掘
• 数据挖掘概念 • 数据挖掘基础 • 数据挖掘支柱:
–数据、技术、模型
• 数据挖掘的应用
概念
• W.H.Inmon对数据仓库所下的定义:数据 仓库是面向主题的、集成的、稳定的、随 时间变化的数据集合,用以支持管理决策 的过程。 • 数据挖掘:企业角度
系统实施
SDLC方法
CLDS方法
数据仓库的开发方法
瀑布式开发 螺旋式开发
数据仓库
• 应用
– OLAP – DM
OLAP
DM
• 在何种数据上进行数据挖掘
– – – – Relational database 关系数据库 Data warehouse 数据仓库 Transactional database 事务数据库 Advanced database and information repository
• Outlier analysis孤立点分析
– 孤立点: 与数据的一般行为或模型不一致的数据对象。 – Noise or exception? 噪声或例外
• No! useful in fraud detection, rare events analysis
• Trend and evolution analysis趋势和演变分析
数据仓库体系结构
数据仓库的数据组织结构
– 不同于一般的数据库系统,需要将从原 有的业务数据库中获得的基本数据和综 合数据分成一些不同的级别。在数据仓 库中,采用分级的方式进行组织。
星型结构和雪花型结构
• 星型结构
–通过将事实表和维表进行连接,我们就可以得 到“星型结构”(Star-Scheme)。
数据仓库部分
• 要解决“蜘蛛网”问题,必须将用于事务 处理的数据环境和用于数据分析的环境分 离。 • 这样,数据处理被分为两大类:
–操作型处理(事务型处理)
• 操作型处理以传统的数据库为中心进行企业的日常 业务处理。
–分析型处理
分析型处理以数据仓库为中心分析数据背后的关联 和规律,为企业决策提供可靠有效的依据。
– Trend and deviation: regression analysis – Sequential pattern mining, periodicity analysis – Similarity-based analysis
• Other pattern-directed or statistical analyses
数据挖掘实施控制self
• 挖掘环境得以成功的要素
– 五个要素:
• 由一人来专职负责——建立团队 • 团队由各个学科的人员组成
– 分成技术的和商业的 – 范围广:企业用户到数据所有者,从统计人员到经理
• 各个事业单位一开始就参与进来
– 数据挖掘的目的,是将结果发布给各事业单位去执行,一开始参与进来, 可以从商业角度推动这项工作。
• Cluster analysis 聚类分析
– Class label类标记 is unknown: Group data to form new classes, e.g., cluster houses to find distribution patterns – Maximizing intra-class类内 similarity & minimizing interclass类间 similarity
添 加 新 的 衍 生 变 量 可 以 改 变 执 行 效 果
பைடு நூலகம்
检查模型的执行效果 选择最好的模型
Data Mining: A KDD Process
Data mining—core of knowledge discovery process
Task-relevant Data Data Warehouse Selection
分类
• General functionality 一般功能性
– Predictive data mining 预测式 – Descriptive data mining 描述式
• Different views, different classifications
– Kinds of data to be mined 挖掘的数据类型 – Kinds of knowledge to be discovered 发现的 知识类型 – Kinds of techniques utilized 根据使用的技术 – Kinds of applications adapted 根据应用
– 定义:模式是一个用语言L表示的表达式E,它 可用来描述数据集F中的数据的特征,E所描述 的数据是集合F的一个子集FE。
概念
• ―清洗”就是将错误的、不一致的数据在进 入数据仓库之前予以更正或删除,以免影 响DSS决策的正确性。 • 元数据:是用来描述数据的数据。它描述 和定位数据组件、它们的起源及它们在数 据仓库进程中的活动;关于数据和操作的 相关描述(输入、计算和输出)。元数据可用 文件存在元数据库中。
• 几乎只含一种值的列
– 一般规则:如果某一列中95% —99%的值相同,这一列很可能没 用
• Association关联 (correlation and causality相关性和因果 关系)
– Diaper à Beer [0.5%, 75%]
• Classification and Prediction 分类和预测
– 分类:找出描述或区分数据类或概念的模型(或函数),以便能 够使用模型预测类标记未知的对象类。
Pattern Evaluation
Data Mining
Data Cleaning Data Integration Databases
A5
预处理:对数据列的基本处理
– 对于数据挖掘十分重要的一些特例的分布情况:
• 只有一种值的列
– 缺乏任何信息内容,忽略。 – 例如:1. null,no,0 – 2. 如建立一个模型预测新泽西州的汽车客户损失率,关 于州 名将都是“NJ‖,忽略这个字段
• 信息技术部门一开始也要参与进来
– 数据挖掘是一项技术,与组织内的其它技术应协调、一致,因为用于挖 掘的数据可能来自任何其它不同的系统。
• 示范项目可以展现数据挖掘的能力
– 示范项目的成功,推动数据挖掘的开展。 – 此项目需要数据挖掘团队精心挑选,并与软件供应商和拥有丰富经验的 顾问门亲密合作。
数据挖掘过程
数据挖掘过程——B.将数据转换成可执行的结果
数 据 不 太 准 确
得 不 到 数 据
明确所需的数据
获得数据
添加衍生变量 创建建模数据集 选择建模方法
新 的 数 据 分 割 或 重 抽 样 可 以 改 进 模 型 的 效 果
数 据 不 准 确
生成有效数据 探索、清洁数据 转换数据
训练模型
另 一 方 法 或 参 数 可 改 进 效 果
• 数据挖掘的互动循环过程将数据挖掘定位于企业的需求。 包括下面几个阶段: Michael J.A. Berry的四阶段过程
A.理解业务问题 数据挖掘人员广泛听取业内专家意见,确定关键业务问题,明确所需数据。 另一方面,业内专家意见需要通过数据验证。 B.将数据转换成可执行的结果 构建模型是一个反复循环的过程,需要知道结果被如何使用。 C.结果实施过程 挖掘目的是将生成的决策付诸行动。存在不同的表现方式:如有的结果帮助 企业深入了解自己;有的结果只能使用一次;有的需要保存,放进数据仓库 D.评价结果的实施 评测结果将给数据挖掘互动循环系统提出新的问题和新的数据,同时,指出 数据挖掘的努力方向。