数据挖掘复习资料

合集下载

数据挖掘复习资料

第1章数据挖掘概述 (1)第2章数据采集集成与预处理技术 (3)第3章多维数据分析与组织 (7)第4章预测模型研究与应用 (9)第5章关联规则模型及应用 (12)第6章聚类分析方法与应用 (13)第7章粗糙集方法与应用 (14)第八章 (15)第九章 (16)第十章 (16)第十一章 (17)第1章数据挖掘概述数据仓库（Data Warehouse, DW）属于一种高层管理的新型数据库技术。

数据仓库通常是一个面向主题的、集成的、相对稳定的、反映历史变化的数据的集合，用以支持经营管理中的决策制定过程。

1.1.2 数据挖掘的定义与解释数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

1.2 数据仓库系统的相关技术数据仓库系统中主要包括：数据仓库、数据挖掘、联机分析处理、KDD和相关的数据集成、数据标准化、数据仓库建模技术、数据挖掘技术与方法、数据集市、可视化技术、自然语言解释、人机交互、知识发现与知识推理、网络集成技术等研究内容。

1.4.2 数据挖掘的相关技术与工具数据挖掘的相关技术预测技术人工智能技术关联规则技术决策树技术聚类分析技术统计分析方法粗糙集技术知识获取、知识表示、知识推理和知识搜索技术进化计算技术决策与控制理论灰色系统技术可视化技术模糊逻辑技术并行计算技术和海量存储1.4.3 数据挖掘应用及发展针对特定领域的应用，人们开发了许多专用的数据挖掘工具，包括天文学、生物医学、医疗保健、DNA分析、银行、金融、零售业和电信业等。

评价数据挖掘工具的标准产生模式种类的数量解决复杂问题的能力扩展性和与其他产品的接口并行计算数据存取能力数据处理能力模型算法多样性和完备性自动建模能力易操作性和可视化技术第2章数据采集集成与预处理技术2.1 数据采集的对象1.时序数据所谓时间序列类型数据就是按照时间先后顺序排列各个观测记录的数据集。

数据仓库与数据挖掘复习资料ppt课件

名将都是“NJ”，忽略这个字段
几乎只含一种值的列
一般规则：如果某一列中95% —99%的值相同，这一列很可能没用
列的值各不相同
——无法进行预测
如：客户身份证号码
忽略与目标同义的列
某一列与目标列相关度很高时，可能意味着这一列是目标列的同义列。
如：判断是否流失，非空的流失日期与已经流失同义
数据挖掘功能
28
Concept description概念描述: Characterization and discrimination特征化和区分
Generalize归纳, summarize汇总, and contrast data characteristics, e.g., dry vs. wet regions
和提供所发现模式匹配的元模式、元规则、元查询：————可以用于指导发现过程
概念分层：定义一个映射序列，将低层概念映射到更一般的高层概念。
Schema hierarchy模式分层 Set-grouping hierarchy集合分组分层 Operation-derived hierarchy操作导出的分层 Rule-based hierarchy基于规则的分层
HOLAP就是对MOLAP和ROLAP的良好折中。
18
数据仓库设计的基本过程：
建立企业模型；概念模型设计；逻辑模型设计；物理模型设计以及数据装载接口的设计。
19
应用 A
应用B
收集应用需求
分析应用需求
DB
构建数据库
应用编程
外部
DB 数据
DB
20
数据仓库建模
数据获取与集成
DW 构建数据仓库 DSS应用编程

数据挖掘考试重点复习

1.了解商务智能的定义与大数据的四个基本特征；答：商务智能是企业利用数据仓库DW、数据挖掘DM、在线分析处理OLAP、决策支持系统DSS等现代信息技术对企业生产、经营过程中产生的大量结构化和非结构化数据进行收集、整理、分析;形成知识或情报;以辅助企业做出正确的决策、采取有效的商务行动、优化商务流程、全面提升商务绩效的工具、方法和技术的统称..大数据特征： 4个V2.理解商务智能系统的5层结构商务智能系统结构大致分为五层:①数据源层：也可称作操作型数据层;是整个数据仓库的基础;提供了整个系统最原始的数据②数据获取层：也可称作数据转换层;主要是把数据源层的数据通过ETCL过程转换到数据仓库中③数据存取层：该层是按主题进行分析和对相关的数据进行挖掘的数据源;包括每一个按主题进行分类的数据集市或专门用于数据挖掘的数据仓库④数据分析服务层：该层是数据存储和前端分析工具的桥梁⑤前端展现层：用户界面3.理解操作型与分析型系统分离的必要性以及他们的特征4.理解维度爆炸给数据挖掘带来的困难数据过高的维度会给计算带来麻烦;在数据挖掘处理时;它会耗费很多的处理时间和内存容量..数据的高维度还使得数据间的关系也不容易察觉;增加了数据的无关属性和噪音点..5.掌握数据仓库的定义并理解其四个方面的特征数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境..数据仓库研究和解决从数据库中获取信息的问题..数据仓库是为支持管理决策建立的;面向主题的、集成的、随时间变化的、相对稳定的数据集合..滔注：我觉得写括号里的会好一点四方面特征：①面向主题：主题是指用户使用数据仓库进行决策时所关心的重点忙面..②集成性：在数据进入数据仓库之前;要进过统一于综合;将多个异源数据集成在一起..这一步是数据仓库建设中最关键、最复杂的一步..③时变性：数据仓库随时间变化不断增加新的数据..④相对稳定性：数据仓库反映的是历史的内容;而不是联机数据;主要供企业决策分析之用..6.掌握数据挖掘的定义并描述其主要特征数据挖掘定义从大量的、不完全的、有噪声的、模糊的、随机的数据中;提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程..数据挖掘是从大量数据中寻找其规律的技术..主要步骤1数据准备：从各种数据源中选取和集成用于数据挖掘的数据；2规律寻找：用某种方法将数据中的规律找出来；3规律表示：用尽可能符合用户习惯的方式将找出的规律表示出来..7.掌握Minkowski距离;并熟练计算l1;l2;l无穷normL1norm当r=1;城市街区也称曼哈顿、出租车、L1范数距离；L2norm当r=2;欧几里得距离；L∞norm当r=∞;上确界距离;这是对象属性之间的最大距离..8.理解Hunt’s算法的基本过程通过将训练记录相继划分成较纯的子集;以递归方式建立决策树..设Dt是与节点t相关联的训练记录集;而Y={ y1;y2;…;y c}是类标号;Hunt算法的递归定义如下:1如果Dt中所有记录都属于同一个类yt;则t是叶节点;用yt标记..2如果Dt中包含属于多个类的记录;则选择一个属性测试条件;将记录划分成较小的子集..对于测试条件的每个输出;创建一个子女节点;并根据测试结果将Dt中的记录分布到子女节点中..然后;对于每个子女节点;递归地调用该算法..9.掌握吉尼系数、熵的定义;会计算其最大值与最小值;理解信息增益在构造决策树时的意义基尼系数、熵是度量不纯度的方法GINI系数和熵都是越小;代表所分的节点属性越纯;最小可取到0;表示这个节点中只有一个类..当一个节点中有n个父节点;而且能分出n个子节点;GINI系数取到最n 滔注：那个2是角标;不是log2n 大值;为1-1/n. 熵也取到最大值 log2基尼值的性质：越大越不纯;越小越纯;0最纯;1-1/n最不纯..b.子节点基尼值c.最大值、最小值最小值表示最纯;最大值表示最不纯熵在信息领域熵被用来衡量一个随机变量出现的期望值..熵是对信息的不确定性的度量..熵越低;意味着传输的信息越少..熵的性质：熵是衡量节点一致性的函数..熵大于等于0;当且仅当p1=p2=……pn时;熵最大;纯的节点熵是0.信息增益当选择熵作为公式的不纯性度量时;熵的差就是所谓的信息增益..信息增益描述了当使用Q进行编码时;再使用P进行编码的差异..通常P代表样本或观察值的分布;也有可能是精确计算的理论分布..Q 代表一种理论;模型;描述或者对P的近似..当纯度高达1时即只有一种数据类型;熵最小;为0；当其中的各类数据均匀分布时;熵最大;为-log2pj|t..10.理解了解最邻近分类的基本思想;邻近分类的前提条件与分类过程近邻分类法是基于类比学习;即通过将给定的检验元组与和它相似的训练元组进行比较来学习..训练元组用n个属性描述..每个元祖代表n维空间的一个点..这样;所有的训练元组都存放在n维模式空间中..当给定一个未知元组时;近邻分类法搜索模式空间;找出最接近未知元组的k个训练元组..这k个训练元组是未知元组的k个“最近邻”..一句话概述：点x的k-最近邻分类就是离点x的欧式距离最近的k个点的集合..三个前提条件：训练集存在内存中；给定距离度量指标；给定K值分类过程：1 计算未知点与其他训练集的距离2找到K个最邻近的邻近组3用邻近组的分类标签来决定未知点所在组的标签..11.了解分类中的过拟合及产生的原因过度拟合数据当决策树变大时;测试误差会越来越小;而训练误差会越来越大;测试集产生的决策树与实际会不符..产生的原因（1）噪声导致的过分拟合（2）决策树的复杂程度超过了需要的程度;会产生过度拟合（3）训练误差的减小已经对结果没有更多意义但却依然在计算;会产生过度拟合（4）没有更多的属性来减小样本误差;会产生过度拟合12.理解关联规则及支持与置信度的定义;并熟练计算支持度与置信度关联规则关联规则是形如X→Y的蕴涵式;其中;X和Y都是事务数据集..关联规则的强度可以用它的支持度和置信度度量..支持度Support事务数据库中既包含X又包含Y某个项集的事务占事务总数的比例；置信度Confidence在所有包含X的事务中包含Y的事务所占比例.. 13.理解Apriori性质及其意义Apriori如果一个项集是频繁的;那么它的所有子集都是频繁的..相反;如果一个项集是非频繁的;则它的所有超集也一定是非频繁的..意义利用该性质;通过减少搜索空间;来提高频繁项集逐层产生的效率..14.理解FP-Growth算法克服了Apriori算法的那些不足1.减少了扫描数据库的次数;只用扫描两次2.候选项变少;不会产生那么大的候选项集15.给定一个交易数据库与支持度阈值;能熟练运用Apriori算法与FP-Growth算法挖掘频繁项集Apriori算法计算频繁项集步骤1、第一次扫描;列出一项集;并计数..2、去除低于阈值的项集;组合出二项集;扫描计数..3、重复步骤2;依次组合出N项集;直至项集计数小于阈值;结束..注意Apriori定义：如果一个项集是非频繁的;则它的所有超集也一定是非频繁的..所以在组合项集时一定要注意;新组合出的项集不应包含已经被“淘汰”的项集..FP-Growth算法计算频繁项集步骤一、扫描一次数据集;确定每个项的支持度计数..丢弃非频繁项;将频繁项按照支持度的递减排序;生成频繁项集头表..注意事项：1、降序排列..2、MinSup的存在步骤二、第二次扫描投影;按照{f;c;a;b;m;p}的顺序逐条对应写出剔除非频繁项后的频繁集;注意：{f;c;a;b;m;p}的顺序确定后就不在变动;这在下面的步骤中起关键作用步骤三、并开始构建FP树..按照事务ID号的顺序;将处理好的频繁项集映射创建FP树;并在对应节点计数..步骤四、构建每个对象的条件模式基;建议从频率低的节点开始..注意：不要忘了f对应的{}..步骤五、列出下表;对照MinSup剔除低于阈值的项..步骤六、针对每一项建立条件FP树..下面用m项作例子;如下..步骤七、找出频繁项集..16.理解关联规则产生时所采取的优化策略老师说直接距离就可以比如;L = {A;B;C;D}:cABC→ D≥ cAB→ CD ≥ cA→ BCD为什么分子不变;都是ABCD;分母越来越大17.理解K-means算法的内容并讨论该算法之不足K-means K均值算法流程1、随机选择K个对象;每个对象代表一个簇的初始均值或中心2、对剩余的每个对象;根据它与簇均值的距离;将他指派到最相似的簇..3、计算每个簇的新均值4、回到步骤2;循环;直到准则函数收敛..不足之处1、只有当簇均值有定义的情况下;K-means方法才能够使用..2、用户必须首先给定簇数目3、不适合发现非凸形状的簇;或者大小差别很大的簇..4、对噪声和离群点数据敏感..18.理解凝聚聚类算法的基本过程;并分析算法时间与空间复杂度步骤：1计算距离矩阵2 让每个数据点成为一个群集3;循环开始4; 合并两个距离最近的群集5; 更新距离矩阵6;直到只剩下一个群集时间复杂度：N2倍空间复杂度：N3倍19.理解DBSCAN算法将待聚类的点分为哪几类;分解解释之三类：中心点：中心点领域范围内的点的个数≥临界值MinPts边界点：边界点领域范围内的点个数小于临界值;但是它在中心点邻域范围的边界上..噪音点：既不是中心点又不是边界点的点..噪音点领域范围内的点个数小于临界点..20.理解DBSCAN算法的思想及它克服了K-means算法的哪些不足基于密度的聚类只要一个区域中的点的密度大于某个域值;就把它加到与之相近的聚类中去..克服基于距离的算法只能发现“类圆形”的聚类的缺点;可发现任意形状的聚类;且对噪声不敏感..但是;其计算密度短语的计算复杂度大;需要建立空间索引来降低计算量;且对数据维数的伸缩性较差..DBSCAN Density-Based Spatial Clustering of Applications with Noise具有噪声的基于密度的聚类应用..算法步骤1、通过检查数据集中每个对象的ε-邻域可以理解为半径来寻找聚类2、如果一个点P的ε-邻域包含多于MinPts最少包含点数个对象;则创建一个P作为核心对象的新簇..3、反复地寻找从这个核心对象直接密度可达的对象;这个过程可能涉及一些密度可达簇的合并..4、当没有新的点可以被添加到任何簇时;过程结束..评价1、适合发现任意形状的簇..2、易于发现噪声..3、无需设置K 值..4、需要输入ε、MinPts..对照着14题理解两种算法21.理解SSE指标对聚类的意义..SSE即Sum of Squared Error ;错误的平方和..意义1、SSE可以很好的用于比较两个聚类或两个簇..2、也可以用于估计簇的数目..观察增加K即簇的数目即可降低SSE..。

数据挖掘复习资料

1、数据挖掘定义：数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取出隐含在其中的、人们事先不知道、但又是潜在有用的信息和知识的过程。

2、数据仓库定义：数据仓库是面向主题的、集成的、不可更新却又随时间不断变化的数据集合，用以支持经营管理中的决策制定过程。

3、数据仓库与数据挖掘的关系：1）数据仓库系统的数据可以作为数据挖掘的数据源。

2）数据挖掘的数据源不一定必须是数据仓库系统4、数据挖掘的功能：概念描述，关联分析，分类与预测，聚类分析，趋势分析，孤立点分析，偏差分析。

5、数据挖掘的过程：P10图1-26、数据仓库的基本特征：1）数据仓库的数据是面向主题的；2）数据仓库的数据是集成的；3）数据仓库的数据时不可更新的；4）数据仓库的数据时随时间不断变化的。

7、主题的概念：主题是一个抽象的概念，是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的对象。

面向主题的组织方式，就是在较高层次上对分析对象的数据的一个完整、一致的描述，能完整、统一的刻画各个分析对象所涉及的企业的各项数据，以及数据之间的联系。

8、对数据仓库基本特征的理解：数据仓库是面向主题的，面向主题性表示数据仓库中数据组织的基本原则，数据仓库中所有的数据都是围绕某一主题组织、展开的。

数据仓库的数据是集成的，数据仓库的数据时从原有的分散的数据库、数据文件和数据段中抽取来的，数据来源可能既有内部数据又有外部数据，因此，在数据进入数据仓库之前，必然要经过转换、统一和综合。

这一步是数据仓库建设中最关键最复杂的一步，要进行统一数据源，综合和计算两步，统一数据源包括命名规则，编码，数据特征，度量单位的统一。

数据仓库是不可更新的，数据仓库的数据主要提供企业决策分析之用，不是用来进行日常操作的，一般只保存过去的数据，而且不是随着数据源的变化实时更新，数据仓库中的数据一般不再修改。

9、数据仓库数据分为四个级别：早期细节级，当前细节级，轻度综合级和高度综合级。

数据挖掘考试题库及答案

数据挖掘考试题库及答案一、选择题1. 数据挖掘是从大量数据中提取有价值信息的过程，以下哪项不是数据挖掘的主要任务？A. 预测B. 分类C. 聚类D. 数据可视化答案：D2. 以下哪种技术不属于数据挖掘的常用方法？A. 决策树B. 支持向量机C. 关联规则D. 数据仓库答案：D3. 数据挖掘中，以下哪项技术常用于分类和预测？A. 神经网络B. K-均值聚类C. 主成分分析D. 决策树答案：D4. 在数据挖掘中，以下哪个概念表示数据集中的属性？A. 数据项B. 数据记录C. 数据属性D. 数据集答案：C5. 数据挖掘中，以下哪个算法用于求解关联规则？A. Apriori算法B. ID3算法C. K-Means算法D. C4.5算法答案：A二、填空题6. 数据挖掘的目的是从大量数据中提取______信息。

答案：有价值7. 在数据挖掘中，分类任务分为有监督学习和______学习。

答案：无监督8. 决策树是一种用于分类和预测的树形结构，其核心思想是______。

答案：递归划分9. 关联规则挖掘中，支持度表示某个项集在数据集中的出现频率，置信度表示______。

答案：包含项集的记录中同时包含结论的记录的比例10. 数据挖掘中，聚类分析是将数据集划分为若干个______的子集。

答案：相似三、判断题11. 数据挖掘只关注大量数据中的异常值。

（）答案：错误12. 数据挖掘是数据仓库的一部分。

（）答案：正确13. 决策树算法适用于处理连续属性的分类问题。

（）答案：错误14. 数据挖掘中的聚类分析是无监督学习任务。

（）答案：正确15. 关联规则挖掘中，支持度越高，关联规则越可靠。

（）答案：错误四、简答题16. 简述数据挖掘的主要任务。

答案：数据挖掘的主要任务包括预测、分类、聚类、关联规则挖掘、异常检测等。

17. 简述决策树算法的基本原理。

答案：决策树算法是一种自顶向下的递归划分方法。

它通过选择具有最高信息增益的属性进行划分，将数据集划分为若干个子集，直到满足停止条件。

数据挖掘复习

数据挖掘复习第五章⼤型数据库中的关联规则挖掘1.什么是关联规则挖掘？从事物数据库，关系数据库和其他信息存储中的⼤量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。

2.为什么要进⾏关联规则挖掘？（动机）发现数据中的规律性。

3.为什么频繁模式挖掘是数据挖掘的基本任务？频繁模式挖掘是许多基本的数据挖掘任务的基础，应⽤⼴泛。

4.⼤型数据库中的关联规则挖掘的过程？①找出所有频繁项集（⼤部分计算集中在这⼀步）②由频繁项集产⽣强关联规则（即满⾜最⼩⽀持度和最⼩置信度的规则） 5.关联规则的分类？①根据规则中所处理的值类型布尔关联规则，量化关联规则②根据规则中设计的数据维单维关联规则，多维关联规则③根据规则集所涉及的抽象层单层关联规则，多层关联规则④根据关联挖掘的各种扩充挖掘最⼤的频繁模式，挖掘频繁闭项集 6.关联规则如何产⽣？（基于Apriori 算法）①对于每个频繁项集l ，产⽣I 的所有⾮空⼦集②对于每个⾮空⼦集s ，如果confs count port l count m in_)(_sup )(_support≥，则输出规则)(s l s -?7.如何提⾼Apriori 算法的有效性？①基于hash 表的项集计数②事务压缩③划分④选样⑤动态项集计数8.Apriori-候选产⽣-检查⽅法优缺点？优：⼤幅度压缩了候选项集的⼤⼩，导致好的性能缺：可能产⽣⼤量的候选项集，可能需要重复扫描数据库，通过模式匹配检查⼀个很⼤的候选集合，对候选项集的⽀持度计算⼗分繁琐 9.FP-树挖掘过程？①为FP 树的每⼀个节点构建条件模式基②从每⼀个条件模式基中构建条件FP 树③递归挖掘条件FP 树，增加频繁模式使其包含两个路径 10.FP 树结构的优点？①完备性：保留了频繁模式挖掘的完整信息；从不打扰任何事务中的⼀个长模式②紧凑性：减少⽆关信息-不频繁项去除；频率的降序排列：更多的频繁项更易被共享；绝不⽐源数据库规模⼤（③分治：根据已经得到的频繁模式划分任务和数据库；导致较⼩的数据库的聚焦的搜索④其他：没有候选产⽣，没有候选测试；压缩数据库；不重复的扫描整个数据库；基本操作-局部频繁项计数和建⽴⼦fp 树结构，没有模式搜索和匹配）填空：1.频繁模式：在数据库中频繁出现的模式（项集，序列等）。

数据挖掘复习要点

数据挖掘复习要点数据挖掘1.数据挖掘：从⼤量的、不完全的、有噪声的、模糊的、随机的实际应⽤数据中，提取隐含在其中的、⼈们事先不知道的，但⼜是潜在有⽤的信息和知识的过程。

（商业定义）按企业即定业务⽬标，对⼤量的企业数据进⾏探索和分析，揭⽰隐藏的、未知的或已知的规律，并进⼀步将其模型化的先进的有效⽅法。

2.数据挖掘的功能：描述和预测。

描述：刻画了数据库数据的⼀般特性；预测：在当前数据上进⾏分析，以此进⾏推断。

1)概念描述：通过对某类对象关联数据的汇总、分析和⽐较，对此类对象的内涵进⾏描述，并概括这类对象的有关特征。

2)多层次概念描述：将低层次概念集映射到⾼层次概念集的⽅法。

3)关联分析：⽬的是找出数据库中隐藏的关联⽹。

4)聚类：将物理或抽象对象的集合分组成为由类似的对象组成的多个类的⽅法。

5)分类：从数据库对象中发现共性，并将数据对象分成不同类别的⼀个过程。

6)偏差检测：偏差检测的基本⽅法是寻找观测结果与参照值之间有意义的差别。

7)孤⽴点分析：对于数据的⼀般⾏为或模型不⼀致的数据进⾏分析。

8)⾃动预测趋势和⾏为：针对具有时序属性的数据或者是序列项⽬的数据。

9)时序演变分析：寻找事件或对象⾏为随事件变化的规律或趋势，并以此来建⽴模型。

10)信息摘要：⼀种⾃动编制⽂摘的技术，即利⽤计算机将⼀篇⽂章浓缩成⼀篇短⽂的过程。

11)信息抽取：根据⼀个事先定义好的、描述所需信息规格的模板，从⾮结构化的⽂本中抽取相关信息的过程。

12)元数据挖掘，对元数据进⾏挖掘。

3.数据挖的掘步骤：1)确定业务对象；2)数据准备c)数据的转换a)数据的选择b)数据的预处理3)数据挖掘，对所得到的经过转换的数据进⾏挖掘。

4)结果分析，解释并评估结果；5)知识的同化，将分析所得到的知识集成到业务信息系统的组织结构中去。

4.数据挖掘的⼈员：1)业务分析⼈员，要求精通业务，能够解释业务对象，并根据各业务对象确定⽤于数据定义和挖掘算法的业务需要；2)数据分析⼈员，精通数据分析技术，并对统计学有较熟练的掌握，有能⼒把业务需求转化为数据挖掘的各步操作选择合适的技术；3)数据管理⼈员，精通数据管理技术，并从数据库仓库中收集数据。

数据挖掘课程复习提纲(4 0)资料

数据挖掘课程复习提纲（4+0）有关考试题型：一、选择题（每题2 分，共16 分）二、判断题（每题1 分，共10 分)三、填空题（每空1 分，共19 分）四、简答题（每题5 分，共15 分）五、计算题（每题10 分，共40 分）基本要求：掌握数据预处理、分类、聚类、关联分析、离群点检测的基本方法，及每类方法的应用场景（每类方法理解、熟悉一个例子）。

算法重点掌握k-means、一趟聚类、Appriori 及基于密度的离群点检测方法；掌握决策树分类(C4.5、CART)、KNN分类的基本思想，基于聚类的离群点检测方法的思想。

第一章绪论1 数据挖掘的定义技术层面：数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中、人们事先不知道的、但又潜在有用的信息和知识的过程。

商业层面：数据挖掘是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关键性数据。

2 数据挖掘的任务预测任务：根据其它属性的值预测特定（目标）属性的值，如回归、分类、异常检测。

描述任务：寻找概括数据中潜在联系的模式，如关联分析、聚类分析、序列模式挖掘。

●聚类(Clustering)分析“物以类聚，人以群分”。

聚类分析技术试图找出数据集中数据的共性和差异，并将具有共性的对象聚合在相应的簇中。

聚类分析可以帮助判断哪些组合更有意义，聚类分析已广泛应用于客户细分、定向营销、信息检索等领域。

●分类(Classification)分析分类分析就是通过分析示例数据库中的数据，为每个类别做出准确的描述，或建立分析模型，或挖掘出分类规则，然后用这个分类模型或规则对数据库中的其它记录进行分类。

分类分析已广泛应用于用户行为分析(受众分析)、风险分析、生物科学等领域。

聚类与分类的区别聚类问题是无指导的：没有预先定义的类。

分类问题是有指导的：预先定义有类。

●关联(Association)分析关联分析是发现特征之间的相互依赖关系，通常是在给定的数据集中发现频繁出现的模式知识(又称为关联规则)。

数据挖掘考试复习资料

数据挖掘考试复习资料一、名词解释1、数据仓库：面向主题的、集成的、非易失的、是随时间变化的数据集合，用来支持管理决策。

2、聚类：将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类3、数据挖掘：从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识4、人工神经网络：人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。

在工程与学术界也常直接简称为神经网络或类神经网络。

5、文本挖掘：文本数据挖掘（Text Mining）是指从文本数据中抽取有价值的信息和知识的计算机处理技术6 OLAP又称联机分析处理，是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业为特性的信息进行快速、一致、交互地存取，从而获得对数据的更深入了解的一类软件技术。

定义1：OLAP是针对特定问题的联机数据访问和分析。

通过对信息（维数据）的多种可能的观察形式进行快速、稳定一致和交互性的存取，允许管理决策人员对数据进行深入地观察。

定义2：OLAF是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业“维”特性的信息进行快速、一致、交互地存取，从而获得对数据的更深入了解的一类软件技术。

）7、概念描述：就是对目标类对象的内涵进行描述，并概括这类对象的有关特征。

特征化：提供给定数据汇集的简洁汇总比较：提供两个或多个数据汇集的比较描述8、信息熵：在信息论中，熵被用来衡量一个随机变量出现的期望值。

它代表了在被接收之前，信号传输过程中损失的信息量，又被称为信息熵。

信息熵也称信源熵、平均自信息量。

二、简答题1、数据仓库和传统数据库的区别和联系是什么？(1)区别：数据仓库和数据库是不同的概念数据仓库是一个综合的解决方案，而数据库只是一个现成的产品。

数据仓库需要一个功能十分强大的数据库引擎来驱动，它更偏向于工程。

数据挖掘复习题

第一章1.数据挖掘的定义？从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

2.数据挖掘的源是否必须是数据仓库的数据？可以有哪些来源？关系数据库数据仓库事务数据库高级数据3.数据挖掘的常用方法？聚类分析决策树人工神经网络粗糙集关联规则挖掘统计分析4.数据挖掘的过程包括哪些步骤，每一步具体包括哪些内容？5.数据挖掘与数据仓库的关系？（联系和区别）联系：数据仓库为数据挖掘提供了更好的、更广泛的数据源；数据仓库为数据挖掘提供了新的支持平台；数据仓库为更好地使用数据挖掘工具提供了方便；数据挖掘为数据仓库提供了更好的决策支持；数据挖掘对数据仓库的数据组织提出了更高的要求；数据挖掘为数据仓库提供了广泛的技术支持。

区别：数据仓库是存数据，数据挖掘是用数据。

第二章1.数据仓库的定义数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合，支持管理部门的决策制定过程2.数据仓库数据的四大基本特征：面向主题的集成的不可更新的随时间变化的3.数据仓库体系结构有3个独立的数据层次：信息获取层、信息存储层、信息传递层4.粒度的定义？它对数据仓库有什么影响？（1）是指数据仓库的数据单位中保存数据细化或综合程度的级别。

粒度越小，细节程度越高，综合程度越低，回答查询的种类就越多；(2) 影响存放在数据仓库中的数据量大小；影响数据仓库所能回答查询问题的细节程度。

5.在数据仓库中，数据按照粒度从小到大可分为死哥级别：早期细节级、当前细节级、轻度细节级和高度细节级。

6.数据分割的标准：可按日期、地域、业务领域、或按多个分割标准的组合，但一般包括日期项。

7.数据仓库设计中，一般存在着三级数据模型：概念数据模型、逻辑数据模型、物理数据模型8.数据仓库涉及步骤概念模型设计、技术准备工作、逻辑模型设计、物理模型设计、数据仓库的生成、数据仓库的使用和维护9.数据装入时，并不是一次就将准备装入的数据全部装入数据仓库，而是按照逻辑模型设计中所确定和分析的主题域，先装入并生成某一主题域。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据仓库通常是一个面向主题的、集成的、相对稳定的、反映历史变化的数据的集合，用以支持经营管理中的决策制定过程。

2.Web数据Web挖掘与传统的数据挖掘相比有许多独特之处：Web挖掘的对象是大量异质分布的Web文档。

Web在逻辑上是一个由文档节点和超链接构成的图，因此Web挖掘所得到的模式可能是关于Web内容的，也可能是关于Web结构的。

由于Web文档本身是半结构化或无结构的且缺乏机器可理解的语义，而传统数据挖掘的对象局限于数据库中的结构化数据并利用关系表格等存储结构来发现知识，因此有些数据挖掘技术并不适用于Web挖掘。

即使可用也需要建立在对Web文档进行预处理的基础之上。

Web挖掘可分为三类：Web内容挖掘：是从文档内容或其描述中抽取知识的过程。

Web结构挖掘：是从WWW的组织结构和链接关系中推导知识的过程。

用户访问模式挖掘。

2.1 数据采集的对象3.多媒体数据多媒体数据挖掘（Multimedia Data Mining, MDM）是目前国际上数据库、多媒体技术和信息决策领域最前沿的研究方向之一，是数据挖掘的一个新兴且富有挑战性的领域。

4.空间数据空间数据挖掘（Spatial Data Mining, SDM）是指从空间数据库中提取出用户感兴趣的空间模式与特征、空间与非空间数据的普遍关系及其他的一些隐含在数据库中的普遍的数据特征。

2.2 数据集成技术与方法数据集成是将多个数据源中的数据（如数据库、数据立方体或一般文件）结合起来存放到一个一致的数据存储（如数据仓库）中的一种技术和过程。

2.2 数据集成技术与方法2.2.1 3G与MIS的集成模式2.2.2 异构数据集成的设计与实现2.2.1 3G与MIS的集成模式2.3 数据预处理技术与方法数据预处理流程如图所示2.3 数据预处理技术与方法数据清理是数据准备过程中最花费时间、最乏味的，但也是最重要的一步。

初始获得的数据主要有以下几种情况需要处理：含噪声数据错误数据缺失数据冗余数据2.3.2 数据融合的方法数据融合，即把数据融合的思想引入到数据预处理的过程中，加入数据的智能化合成，产生比单一信息源更准确、更完全、更可靠的数据进行估计和判断，然后存入到数据仓库或数据挖掘模块中。

常见的数据融合方法见下表2.3.3 数据变换的方法数据变换是采用线性或非线性的数学变换方法将多维数据压缩成较少维数的数据，消除它们在时间、空间、属性及精度等特征表现方面的差异。

常见数据变换方法见下表。

常用的规范化方法有最小-最大规范化、Z-score规范化（零-均值规范化）、小数定标规范化等。

应用主成分分析方法计算模型中的数据变换矩阵的方法。

2.3.4 数据归约的方法数据规约就是在减少数据存储空间的同时尽可能保证数据的完整性，获得比原始数据小得多的数据，将数据以合乎要求的方式表示。

常见的数据归约方法见下表2.4 基于样本数据划分的通用数据挖掘模型系统将样本数据分为三类：完备的样本数据的数据挖掘模型不完备的样本数据的数据挖掘模型混合类型数据的数据挖掘模型2.5 中间件技术2.5.1 中间件技术的定义与作用1. 中间件（Middleware）的定义、特点与解释目前还没有一个确切的中间件的定义，但是根据诸多中间件的应用实例，大多数专家们将中间件定义为：中间件是一种独立的系统软件或服务程序，分布式应用软件借助这种软件在不同的技术之间共享资源。

中间件的主要特点包括：满足大量的、多用途应用的需要；运行于多种硬件和多操作系统的公共平台；支持分布式计算，提供跨网络、硬件和OS平台的透明性的应用或服务的交互功能；中间件往往介于数据仓库系统中间层；支持标准的协议和标准的接口。

2.通用中间件类型包括：企业服务总线（Enterprise Service Bus, ESB）分布式计算环境中间件事务处理（Transaction Processing, TP）中间件远程过程调用（Remote Procedure Call, RPC）中间件面向对象请求代理（Object Request Broker, ORB）中间件数据库访问中间件（Database Access Middleware, DCM）面向消息中间件（Message-Oriented Middleware, MOM）基于XML 的中间件（XML-Based Middleware）第3章多维数据分析与组织3.1 多维数据分析概述3.1.1 联机分析处理的定义和特点联机分析处理（On-Line Analysis Processing, OLAP）:OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取，从而获得对数据的更深入了解的一类软件技术。

联机分析处理技术的特点：多维性（Multi-dimensional）快速性（Fast）可分析性（Analyzability）信息性（Information）3.1.2 联机分析处理的评价准则E.F.Codd同时提出了关于OLAP的12条准则来描述OLAP系统。

准则1：OLAP模型必须提供多维概念模型。

准则2：透明性准则。

准则3：存取能力准则。

准则4：稳定的报表性能。

准则5：客户/服务器体系结构。

准则6：维的等同性准则。

准则7：动态稀疏矩阵处理准则。

准则8：多用户支持能力准则。

准则9：非受限的跨维操作。

准则10：直观的数据处理。

准则11：灵活的报表生成。

准则12：非受限的维与维的层次。

3.4 从联机分析处理到联机分析挖掘3.4.1 联机分析挖掘形成原因3.4.2 联机分析挖掘概念及特征3.4.1 联机分析挖掘形成原因OLAP与DM虽同为数据库或数据仓库分析工具，但两者的侧重点不同。

同时，随着OLAP 与DM技术的应用和发展，数据库领域在OLAP基础上对深层次分析的需求与人工智能领域的数据挖掘技术的融合最终促成了联机分析挖掘技术。

3.4.2 联机分析挖掘概念及特征联机分析挖掘将联机分析处理与数据挖掘以及在多维数据库中发现的知识集成在一起，提供在不同的数据子集和不同的抽象层上进行数据挖掘的工具。

联机分析挖掘（OLAM）＝数据仓库（DW）+联机分析处理（OLAP）+数据挖掘（DM）。

OLAM融合了三种技术，兼有OLAP和DM的优点，在DW上的数据挖掘和分析更具有灵活性和交互性。

其功能特征包括：相对OLAP和DW技术，OLAM具有较高的执行效率和较快的响应速度。

OLAM能对任何它想要的数据进行挖掘。

在OLAM中，用户可以动态选择或添加挖掘算法，并可以动态切换挖掘任务。

OLAM中挖掘任务具有多样性，算法具有复杂性，因此应具有标签和回溯的功能。

OLAM具有灵活的可视化工具。

良好的扩展性。

友好的人际交互能力。

第4章预测模型研究与应用4.1预测模型的基础理论4.1.1预测方法的分类按预测目标范围不同，可分为宏观预测和微观预测，宏观经济预测是指对整个国民经济或一个地区、一个部门的经济发展前景的预测。

而微观经济预测是以单个经济单位的经济活动前景作为考察的对象；按预测期限长短不同，可分为长期预测、中期预测和短期预测；按预测结果的性质不同，可分为定性预测与定量预测。

定性预测主要是根据事物的性质和特点以及过去和现在的有关数据，对事物做非数量化的分析，然后根据这种分析对事物的发展趋势做出判断和预测。

定量预测定量预测主要利用历史统计数据并通过一定的数学方法建立模型，以模型为主对事物的未来做出判断和预测的数量化分析，也称客观预测。

4.1.2 预测方法的一般步骤（1）预测目标分析和确定预测期限（2）进行调研，收集资料（3）选择合适的预测方法（4）考虑模型运行平台（5）对预测的结果进行分析和评估（6）模型的更新4.2 回归分析预测模型以影响预测的各因素作为自变量或解释变量x 和因变量或被解释变量y 有如下关系：称为一元线性回归模型(One Variable Linear Regression Model)，其中：u 是一个随机变量称为随机项；a, b 是两个常数，称为回归系数（参数）；i 表示变量的第i 个观察值，共有n 组样本观察值。

1,2,...,i i i y a bx u i n=++=4.4 时间序列预测模型4.4.1 移动平均预测模型4.4.2 指数平滑预测模型4.4.3 季节指数预测模型4.4.1移动平均预测模型一次移动平均法一次移动平均法是在算术平均法的基础上加以改进，其基本思想是每次取一定数量周期的数据平均，按时间顺序逐次推进。

每推进一个周期，舍去前一个周期的数据，增加一个新周期的数据，再进行平均。

一次移动平均法一般只应用于一个时期后的预测（即预测第t+1期）。

二次移动平均法当序列具有线性增长的发展趋势时，用一次移动平均预测会出现滞后偏差，表现为对于线性增长的时间序列预测值偏低。

这时，可进行二次移动平均计算，二次移动平均就是将一次移动平均再进行一次移动平均来建立线性趋势模型。