数据挖掘考试复习资料

合集下载

防灾科技学院数据挖掘期末考试复习资料

防灾科技学院数据挖掘期末考试复习资料数据挖掘考点总结版本号2.0.0.1第⼀章介绍1. 数据挖掘的定义Hand等⼈200年给了简明定义：数据挖掘就是从⼤型数据集合⾥挖掘出有⽤的信息。

还有⼀个定义来源于⼀家信息技术研究公司——加特那集团：数据挖掘是从⼤量的存储数据⾥进⾏筛选，采⽤模式识别技术以及统计和数学技巧，发现有意义的新的相互关系、模式以及趋势的过程。

2. 数据挖掘处于统计学和机器学习（也称⼈⼯智能）领域的交叉点上。

3. 经典统计学的两个核⼼难点——计算复杂、数据稀少。

4. DarylPregibon把数据挖掘描述为“建⽴在规模和速度上的统计学”。

有⼈把这⼀说法推⼴：数据挖掘是“建⽴在规模、速度和简单化上的统计学”。

5. 过度拟合过度拟合指的是现有样本跟⼀个模型拟合太过，以⾄于模型不仅描述数据的根本特性，⽽且也描述了其随机特性。

按⼯程上的术语指这个模型不光是拟合信号，还拟合噪声。

6. 算法算法指的是⽤于实现某⼀数据挖掘技术——如分类树、辨识分析等的特定程序。

7. 有约束学习有约束学习指的是⽤已有记录得到算法（逻辑回归、回归树等）的过程。

8. ⽆约束学习⽆约束学习指的是⼈们试图从数据中了解⼀些东西的分析，⽽不是预测感兴趣的输出值（例如输出结果是否属于某个聚类）。

9. 或许挖动数据挖掘发展的最重要的因素是数据的增长。

10. 数据仓库——⼀个把企业的决策系统结合在⼀起的⼤型综合数据存储系统。

11. 计算能⼒⽅⾯的持续迅速的改进是数据挖掘发展的⼀个基本动⼒。

12. ⼤数据的特征：数据量⼤、种类多、读取速率快、价值密度⼩第⼆章数据挖掘过程概览1. 数据挖掘的⼀项基本任务就是⽤类别已知的数据找出规则，然后把这些规则⽤在未进⾏分类的数据上。

2. 预测和分类相似，差别在于我们是预测⼀个变量的数值，⽽不是⼀个类别。

当然，在分类时我们试图去预测⼀个类别，⽽“预测”（在本书）是指预测⼀个连续变量的数值。

3. 各数据挖掘技术之间的⼀个基本区别在于是否采⽤了有约束学习⽅法。

数据仓库与数据挖掘技术复习资料

数据仓库与数据挖掘技术复习资料一、单项选择题1.数据挖掘技术包括三个主要的部分（ C ）A．数据、模型、技术 B．算法、技术、领域知识C．数据、建模能力、算法与技术 D．建模能力、算法与技术、领域知识2.关于基本数据的元数据是指: ( D )A.基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息；B.基本元数据包括与企业相关的管理方面的数据和信息；C.基本元数据包括日志文件和简历执行处理的时序调度信息；D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息。

3.关于OLAP和OLTP的说法,下列不正确的是: ( A)A．OLAP事务量大,但事务内容比较简单且重复率高B．OLAP的最终数据来源与OLTP不一样C．OLTP面对的是决策人员和高层管理人员D．OLTP以应用为核心，是应用驱动的4．将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？( C )A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘5．下面哪种不属于数据预处理的方法？ ( D )A.变量代换B.离散化C. 聚集D. 估计遗漏值6.在ID3 算法中信息增益是指（ D ）A.信息的溢出程度B.信息的增加效益C.熵增加的程度最大D.熵减少的程度最大7.以下哪个算法是基于规则的分类器 ( A )A. C4.5B. KNNC. BayesD. ANN8.以下哪项关于决策树的说法是错误的（ C ）A．冗余属性不会对决策树的准确率造成不利的影响B．子树可能在决策树中重复多次C．决策树算法对于噪声的干扰非常敏感D．寻找最佳决策树是NP完全问题9.假设收入属性的最小与最大分别是10000和90000，现在想把当前值30000映射到区间[0,1],若采用最大－最小数据规范方法，计算结果是（ A ）A. 0.25B. 0.375C.0.125D. 0.510.在抽样方法中，当合适的样本容量很难确定时，可以使用的抽样方法是：( D )A.有放回的简单随机抽样B.无放回的简单随机抽样C.分层抽样D.渐进抽样11.当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？( B)A. 分类B.聚类C. 关联分析D. 隐马尔可夫链12.设X={1，2，3}是频繁项集，则可由X产生( C )个关联规则。

数据挖掘复习资料

第1章数据挖掘概述 (1)第2章数据采集集成与预处理技术 (3)第3章多维数据分析与组织 (7)第4章预测模型研究与应用 (9)第5章关联规则模型及应用 (12)第6章聚类分析方法与应用 (13)第7章粗糙集方法与应用 (14)第八章 (15)第九章 (16)第十章 (16)第十一章 (17)第1章数据挖掘概述数据仓库（Data Warehouse, DW）属于一种高层管理的新型数据库技术。

数据仓库通常是一个面向主题的、集成的、相对稳定的、反映历史变化的数据的集合，用以支持经营管理中的决策制定过程。

1.1.2 数据挖掘的定义与解释数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

1.2 数据仓库系统的相关技术数据仓库系统中主要包括：数据仓库、数据挖掘、联机分析处理、KDD和相关的数据集成、数据标准化、数据仓库建模技术、数据挖掘技术与方法、数据集市、可视化技术、自然语言解释、人机交互、知识发现与知识推理、网络集成技术等研究内容。

1.4.2 数据挖掘的相关技术与工具数据挖掘的相关技术预测技术人工智能技术关联规则技术决策树技术聚类分析技术统计分析方法粗糙集技术知识获取、知识表示、知识推理和知识搜索技术进化计算技术决策与控制理论灰色系统技术可视化技术模糊逻辑技术并行计算技术和海量存储1.4.3 数据挖掘应用及发展针对特定领域的应用，人们开发了许多专用的数据挖掘工具，包括天文学、生物医学、医疗保健、DNA分析、银行、金融、零售业和电信业等。

评价数据挖掘工具的标准产生模式种类的数量解决复杂问题的能力扩展性和与其他产品的接口并行计算数据存取能力数据处理能力模型算法多样性和完备性自动建模能力易操作性和可视化技术第2章数据采集集成与预处理技术2.1 数据采集的对象1.时序数据所谓时间序列类型数据就是按照时间先后顺序排列各个观测记录的数据集。

数据挖掘考试重点复习

1.了解商务智能的定义与大数据的四个基本特征；答：商务智能是企业利用数据仓库DW、数据挖掘DM、在线分析处理OLAP、决策支持系统DSS等现代信息技术对企业生产、经营过程中产生的大量结构化和非结构化数据进行收集、整理、分析;形成知识或情报;以辅助企业做出正确的决策、采取有效的商务行动、优化商务流程、全面提升商务绩效的工具、方法和技术的统称..大数据特征： 4个V2.理解商务智能系统的5层结构商务智能系统结构大致分为五层:①数据源层：也可称作操作型数据层;是整个数据仓库的基础;提供了整个系统最原始的数据②数据获取层：也可称作数据转换层;主要是把数据源层的数据通过ETCL过程转换到数据仓库中③数据存取层：该层是按主题进行分析和对相关的数据进行挖掘的数据源;包括每一个按主题进行分类的数据集市或专门用于数据挖掘的数据仓库④数据分析服务层：该层是数据存储和前端分析工具的桥梁⑤前端展现层：用户界面3.理解操作型与分析型系统分离的必要性以及他们的特征4.理解维度爆炸给数据挖掘带来的困难数据过高的维度会给计算带来麻烦;在数据挖掘处理时;它会耗费很多的处理时间和内存容量..数据的高维度还使得数据间的关系也不容易察觉;增加了数据的无关属性和噪音点..5.掌握数据仓库的定义并理解其四个方面的特征数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境..数据仓库研究和解决从数据库中获取信息的问题..数据仓库是为支持管理决策建立的;面向主题的、集成的、随时间变化的、相对稳定的数据集合..滔注：我觉得写括号里的会好一点四方面特征：①面向主题：主题是指用户使用数据仓库进行决策时所关心的重点忙面..②集成性：在数据进入数据仓库之前;要进过统一于综合;将多个异源数据集成在一起..这一步是数据仓库建设中最关键、最复杂的一步..③时变性：数据仓库随时间变化不断增加新的数据..④相对稳定性：数据仓库反映的是历史的内容;而不是联机数据;主要供企业决策分析之用..6.掌握数据挖掘的定义并描述其主要特征数据挖掘定义从大量的、不完全的、有噪声的、模糊的、随机的数据中;提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程..数据挖掘是从大量数据中寻找其规律的技术..主要步骤1数据准备：从各种数据源中选取和集成用于数据挖掘的数据；2规律寻找：用某种方法将数据中的规律找出来；3规律表示：用尽可能符合用户习惯的方式将找出的规律表示出来..7.掌握Minkowski距离;并熟练计算l1;l2;l无穷normL1norm当r=1;城市街区也称曼哈顿、出租车、L1范数距离；L2norm当r=2;欧几里得距离；L∞norm当r=∞;上确界距离;这是对象属性之间的最大距离..8.理解Hunt’s算法的基本过程通过将训练记录相继划分成较纯的子集;以递归方式建立决策树..设Dt是与节点t相关联的训练记录集;而Y={ y1;y2;…;y c}是类标号;Hunt算法的递归定义如下:1如果Dt中所有记录都属于同一个类yt;则t是叶节点;用yt标记..2如果Dt中包含属于多个类的记录;则选择一个属性测试条件;将记录划分成较小的子集..对于测试条件的每个输出;创建一个子女节点;并根据测试结果将Dt中的记录分布到子女节点中..然后;对于每个子女节点;递归地调用该算法..9.掌握吉尼系数、熵的定义;会计算其最大值与最小值;理解信息增益在构造决策树时的意义基尼系数、熵是度量不纯度的方法GINI系数和熵都是越小;代表所分的节点属性越纯;最小可取到0;表示这个节点中只有一个类..当一个节点中有n个父节点;而且能分出n个子节点;GINI系数取到最n 滔注：那个2是角标;不是log2n 大值;为1-1/n. 熵也取到最大值 log2基尼值的性质：越大越不纯;越小越纯;0最纯;1-1/n最不纯..b.子节点基尼值c.最大值、最小值最小值表示最纯;最大值表示最不纯熵在信息领域熵被用来衡量一个随机变量出现的期望值..熵是对信息的不确定性的度量..熵越低;意味着传输的信息越少..熵的性质：熵是衡量节点一致性的函数..熵大于等于0;当且仅当p1=p2=……pn时;熵最大;纯的节点熵是0.信息增益当选择熵作为公式的不纯性度量时;熵的差就是所谓的信息增益..信息增益描述了当使用Q进行编码时;再使用P进行编码的差异..通常P代表样本或观察值的分布;也有可能是精确计算的理论分布..Q 代表一种理论;模型;描述或者对P的近似..当纯度高达1时即只有一种数据类型;熵最小;为0；当其中的各类数据均匀分布时;熵最大;为-log2pj|t..10.理解了解最邻近分类的基本思想;邻近分类的前提条件与分类过程近邻分类法是基于类比学习;即通过将给定的检验元组与和它相似的训练元组进行比较来学习..训练元组用n个属性描述..每个元祖代表n维空间的一个点..这样;所有的训练元组都存放在n维模式空间中..当给定一个未知元组时;近邻分类法搜索模式空间;找出最接近未知元组的k个训练元组..这k个训练元组是未知元组的k个“最近邻”..一句话概述：点x的k-最近邻分类就是离点x的欧式距离最近的k个点的集合..三个前提条件：训练集存在内存中；给定距离度量指标；给定K值分类过程：1 计算未知点与其他训练集的距离2找到K个最邻近的邻近组3用邻近组的分类标签来决定未知点所在组的标签..11.了解分类中的过拟合及产生的原因过度拟合数据当决策树变大时;测试误差会越来越小;而训练误差会越来越大;测试集产生的决策树与实际会不符..产生的原因（1）噪声导致的过分拟合（2）决策树的复杂程度超过了需要的程度;会产生过度拟合（3）训练误差的减小已经对结果没有更多意义但却依然在计算;会产生过度拟合（4）没有更多的属性来减小样本误差;会产生过度拟合12.理解关联规则及支持与置信度的定义;并熟练计算支持度与置信度关联规则关联规则是形如X→Y的蕴涵式;其中;X和Y都是事务数据集..关联规则的强度可以用它的支持度和置信度度量..支持度Support事务数据库中既包含X又包含Y某个项集的事务占事务总数的比例；置信度Confidence在所有包含X的事务中包含Y的事务所占比例.. 13.理解Apriori性质及其意义Apriori如果一个项集是频繁的;那么它的所有子集都是频繁的..相反;如果一个项集是非频繁的;则它的所有超集也一定是非频繁的..意义利用该性质;通过减少搜索空间;来提高频繁项集逐层产生的效率..14.理解FP-Growth算法克服了Apriori算法的那些不足1.减少了扫描数据库的次数;只用扫描两次2.候选项变少;不会产生那么大的候选项集15.给定一个交易数据库与支持度阈值;能熟练运用Apriori算法与FP-Growth算法挖掘频繁项集Apriori算法计算频繁项集步骤1、第一次扫描;列出一项集;并计数..2、去除低于阈值的项集;组合出二项集;扫描计数..3、重复步骤2;依次组合出N项集;直至项集计数小于阈值;结束..注意Apriori定义：如果一个项集是非频繁的;则它的所有超集也一定是非频繁的..所以在组合项集时一定要注意;新组合出的项集不应包含已经被“淘汰”的项集..FP-Growth算法计算频繁项集步骤一、扫描一次数据集;确定每个项的支持度计数..丢弃非频繁项;将频繁项按照支持度的递减排序;生成频繁项集头表..注意事项：1、降序排列..2、MinSup的存在步骤二、第二次扫描投影;按照{f;c;a;b;m;p}的顺序逐条对应写出剔除非频繁项后的频繁集;注意：{f;c;a;b;m;p}的顺序确定后就不在变动;这在下面的步骤中起关键作用步骤三、并开始构建FP树..按照事务ID号的顺序;将处理好的频繁项集映射创建FP树;并在对应节点计数..步骤四、构建每个对象的条件模式基;建议从频率低的节点开始..注意：不要忘了f对应的{}..步骤五、列出下表;对照MinSup剔除低于阈值的项..步骤六、针对每一项建立条件FP树..下面用m项作例子;如下..步骤七、找出频繁项集..16.理解关联规则产生时所采取的优化策略老师说直接距离就可以比如;L = {A;B;C;D}:cABC→ D≥ cAB→ CD ≥ cA→ BCD为什么分子不变;都是ABCD;分母越来越大17.理解K-means算法的内容并讨论该算法之不足K-means K均值算法流程1、随机选择K个对象;每个对象代表一个簇的初始均值或中心2、对剩余的每个对象;根据它与簇均值的距离;将他指派到最相似的簇..3、计算每个簇的新均值4、回到步骤2;循环;直到准则函数收敛..不足之处1、只有当簇均值有定义的情况下;K-means方法才能够使用..2、用户必须首先给定簇数目3、不适合发现非凸形状的簇;或者大小差别很大的簇..4、对噪声和离群点数据敏感..18.理解凝聚聚类算法的基本过程;并分析算法时间与空间复杂度步骤：1计算距离矩阵2 让每个数据点成为一个群集3;循环开始4; 合并两个距离最近的群集5; 更新距离矩阵6;直到只剩下一个群集时间复杂度：N2倍空间复杂度：N3倍19.理解DBSCAN算法将待聚类的点分为哪几类;分解解释之三类：中心点：中心点领域范围内的点的个数≥临界值MinPts边界点：边界点领域范围内的点个数小于临界值;但是它在中心点邻域范围的边界上..噪音点：既不是中心点又不是边界点的点..噪音点领域范围内的点个数小于临界点..20.理解DBSCAN算法的思想及它克服了K-means算法的哪些不足基于密度的聚类只要一个区域中的点的密度大于某个域值;就把它加到与之相近的聚类中去..克服基于距离的算法只能发现“类圆形”的聚类的缺点;可发现任意形状的聚类;且对噪声不敏感..但是;其计算密度短语的计算复杂度大;需要建立空间索引来降低计算量;且对数据维数的伸缩性较差..DBSCAN Density-Based Spatial Clustering of Applications with Noise具有噪声的基于密度的聚类应用..算法步骤1、通过检查数据集中每个对象的ε-邻域可以理解为半径来寻找聚类2、如果一个点P的ε-邻域包含多于MinPts最少包含点数个对象;则创建一个P作为核心对象的新簇..3、反复地寻找从这个核心对象直接密度可达的对象;这个过程可能涉及一些密度可达簇的合并..4、当没有新的点可以被添加到任何簇时;过程结束..评价1、适合发现任意形状的簇..2、易于发现噪声..3、无需设置K 值..4、需要输入ε、MinPts..对照着14题理解两种算法21.理解SSE指标对聚类的意义..SSE即Sum of Squared Error ;错误的平方和..意义1、SSE可以很好的用于比较两个聚类或两个簇..2、也可以用于估计簇的数目..观察增加K即簇的数目即可降低SSE..。

数据挖掘考试复习资料

数据挖掘考试复习资料一、名词解释1、数据仓库：面向主题的、集成的、非易失的、是随时间变化的数据集合，用来支持管理决策.2、聚类：将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类3、数据挖掘：从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识4、人工神经网络：人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。

在工程与学术界也常直接简称为神经网络或类神经网络.5、文本挖掘：文本数据挖掘（Text Mining）是指从文本数据中抽取有价值的信息和知识的计算机处理技术6、OLAP：又称联机分析处理，是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业为特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。

定义1：OLAP是针对特定问题的联机数据访问和分析。

通过对信息（维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取，允许管理决策人员对数据进行深入地观察。

定义2：OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业“维”特性的信息进行快速、一致、交互地存取，从而获得对数据的更深入了解的一类软件技术。

)7、概念描述：就是对目标类对象的内涵进行描述,并概括这类对象的有关特征.特征化：提供给定数据汇集的简洁汇总比较：提供两个或多个数据汇集的比较描述8、信息熵：在信息论中，熵被用来衡量一个随机变量出现的期望值.它代表了在被接收之前，信号传输过程中损失的信息量，又被称为信息熵。

信息熵也称信源熵、平均自信息量。

二、简答题1、数据仓库和传统数据库的区别和联系是什么?（1）区别:数据仓库和数据库是不同的概念数据仓库是一个综合的解决方案，而数据库只是一个现成的产品。

数据仓库需要一个功能十分强大的数据库引擎来驱动，它更偏向于工程。

数据挖掘复习资料

1、数据挖掘定义：数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取出隐含在其中的、人们事先不知道、但又是潜在有用的信息和知识的过程。

2、数据仓库定义：数据仓库是面向主题的、集成的、不可更新却又随时间不断变化的数据集合，用以支持经营管理中的决策制定过程。

3、数据仓库与数据挖掘的关系：1）数据仓库系统的数据可以作为数据挖掘的数据源。

2）数据挖掘的数据源不一定必须是数据仓库系统4、数据挖掘的功能：概念描述，关联分析，分类与预测，聚类分析，趋势分析，孤立点分析，偏差分析。

5、数据挖掘的过程：P10图1-26、数据仓库的基本特征：1）数据仓库的数据是面向主题的；2）数据仓库的数据是集成的；3）数据仓库的数据时不可更新的；4）数据仓库的数据时随时间不断变化的。

7、主题的概念：主题是一个抽象的概念，是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的对象。

面向主题的组织方式，就是在较高层次上对分析对象的数据的一个完整、一致的描述，能完整、统一的刻画各个分析对象所涉及的企业的各项数据，以及数据之间的联系。

8、对数据仓库基本特征的理解：数据仓库是面向主题的，面向主题性表示数据仓库中数据组织的基本原则，数据仓库中所有的数据都是围绕某一主题组织、展开的。

数据仓库的数据是集成的，数据仓库的数据时从原有的分散的数据库、数据文件和数据段中抽取来的，数据来源可能既有内部数据又有外部数据，因此，在数据进入数据仓库之前，必然要经过转换、统一和综合。

这一步是数据仓库建设中最关键最复杂的一步，要进行统一数据源，综合和计算两步，统一数据源包括命名规则，编码，数据特征，度量单位的统一。

数据仓库是不可更新的，数据仓库的数据主要提供企业决策分析之用，不是用来进行日常操作的，一般只保存过去的数据，而且不是随着数据源的变化实时更新，数据仓库中的数据一般不再修改。

9、数据仓库数据分为四个级别：早期细节级，当前细节级，轻度综合级和高度综合级。

数据挖掘考试题库完整

一、名词解释1. 数据仓库：是一种新的数据处理体系结构 .是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化 (不同时间)的数据集合.为企业决策支持系统提供所需的集成信息。

2. 孤立点：指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。

3. OLAP：OLAP 是在OLTP 的基础上发展起来的.以数据仓库为基础的数据分析处理 .是共享多维信息的快速分析.是被专门设计用于支持复杂的分析操作 .侧重对分析人员和高层管理人员的决策支持。

4. 粒度：指数据仓库的数据单位中保存数据细化或综合程度的级别。

粒度影响存放在数据仓库中的数据量的大小 .同时影响数据仓库所能回答查询问题的细节程度。

5. 数据规范化：指将数据按比例缩放(如更换大单位).使之落入一个特定的区域(如 0－1) 以提高数据挖掘效率的方法。

规范化的常用方法有：最大－最小规范化、零－均值规范化、小数定标规范化。

6. 关联知识：是反映一个事件和其他事件之间依赖或相互关联的知识。

如果两项或多项属性之间存在关联.那么其中一项的属性值就可以依据其他属性值进行预测。

7. 数据挖掘：从大量的、不完全的、有噪声的、模糊的、随机的数据中.提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

8. OLTP：OLTP 为联机事务处理的缩写.OLAP 是联机分析处理的缩写。

前者是以数据库为基础的.面对的是操作人员和低层管理人员 .对基本数据进行查询和增、删、改等处理。

9. ROLAP：是基于关系数据库存储方式的 .在这种结构中.多维数据被映像成二维关系表.通常采用星型或雪花型架构.由一个事实表和多个维度表构成。

10. MOLAP：是基于类似于“超立方”块的OLAP 存储结构.由许多经压缩的、类似于多维数组的对象构成.并带有高度压缩的索引及指针结构 .通过直接偏移计算进行存取。

11. 数据归约：缩小数据的取值范围.使其更适合于数据挖掘算法的需要 .并且能够得到和原始数据相同的分析结果。

数据挖掘复习知识点整理

数据挖掘：是从大量数据中发现有趣(非平庸的、隐含的、先前未知、潜在实用)模式，这些数据可以存放在数据库，数据仓库或者其他信息存储中。

挖掘流程：(1)学习应用域(2)目标数据创建集(3)数据清洗和预处理(4)数据规约和转换(5)选择数据挖掘函数(总结、分类、回归、关联、分类) (6)选择挖掘算法(7)找寻兴趣度模式(8)模式评估和知识展示(9)使用挖掘的知识概念/类描述：一种数据泛化形式，用汇总的、简洁的和精确的方法描述各个类和概念，通过 (1) 数据特征化：目标类数据的普通特性或者特征的汇总； (2) 数据区分：将目标类数据的普通特性与一个或者多个可比较类进行比较； (3)数据特征化和比较来得到。

关联分析：发现关联规则，这些规则展示属性-值频繁地在给定数据集中一起浮现的条件，通常要满足最小支持度阈值和最小置信度阈值。

分类：找出能够描述和区分数据类或者概念的模型，以便能够使用模型预测类标号未知的对象类，导出的模型是基于训练集的分析。

导出模型的算法：决策树、神经网络、贝叶斯、(遗传、粗糙集、含糊集)。

预测：建立连续值函数模型，预测空缺的或者不知道的数值数据集。

孤立点：与数据的普通行为或者模型不一致的数据对象。

聚类：分析数据对象，而不考虑已知的类标记。

训练数据中不提供类标记，对象根据最大化类内的相似性和最小化类间的原则进行聚类或者分组，从而产生类标号。

第二章数据仓库数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合，支持管理部门的决策过程。

从一个或者多个数据源采集信息，存放在一个一致的模式下，并且通常驻留在单个站点。

数据仓库通过数据清理、变换、继承、装入和定期刷新过程来构造。

面向主题：排除无用数据，提供特定主题的简明视图。

集成的：多个异构数据源。

时变的：从历史角度提供信息，隐含时间信息。

非易失的：和操作数据的分离，只提供初始装入和访问。

联机事务处理OLTP：主要任务是执行联机事务和查询处理。

联系分析处理OLAP：数据仓库系统在数据分析和决策方面为用户或者‘知识工人’提供服务。

大学数据挖掘课程考试复习材料

一.1. 数据处理与数据分为'操作型'和'分析型'处理与数据. 2. 操作型数据: 细节的, 存取瞬间准确，可更新，操作需求事先可知，生命周期符合SDLC,性能要求高，操作单元，事务驱动,面向应用,支持日常操作. 分析型数据:综合的,代表过去数据,不更新,操作需求事先不可知，完全不同的生命周期，要求宽松，操作集合，分析驱动，面向分析，支持管理需求. 3. 数据组织结构:高度综合级，轻度综合级，当前细节级，早期细节级. 4. 数据组织形式:简单堆积文件，轮转综合文件，简化直接文件，连续文件. 5. 数据挖掘七个步骤:数据清理，数据集成，数据选择，数据变换，数据挖掘，模式评估，知识表示. 6. 数据挖掘系统的主要成分:1 数据库，数据仓库或其他信息库 2 数据库或数据仓库效劳器 3 知识库4数据挖掘引擎 5 模式评估模块6图形用户界面.7 数据挖掘功能: 用于指定数据挖掘任务中要找的模式类型. 8. 数据挖掘任务分为两类:描述和预测.9. 概念/类描述方法:数据特征化，数据区分，数据特征化与比拟. 10 .关联分析发现关联规那么，适用于事务数据分析.关联规那么分为:多维/单维关联规那么. 11. 粒度越大，表示细节程度越低，综合程度越高. 12. 数据仓库定义: 数据仓库是一个面向主题的，集成的，不可更新且随时间不断变化的数据集合，用来支持管理人员的决策. 二.1. 数据立方体由位和事实定义. 维是关于一个组织想要记录的透视或实体;事实是数值的度量. 2. 多维数据模型模式分类: 星型模式，雪花模式，事实星座模式[ 维表，事实表]. 3.度量根据所用的聚焦函数分成三类:分布的度量，代数的度量，整体的度量. 4. 多维数据模型上的OLAP操作：上卷，下钻，切片，切块，转轴，钻过，钻透.5.数据仓库设计的四种视图:1 自顶向下视图2数据源视图 3 数据仓库视图4商务查询视图. 6. 数据仓库通常采用三层结构：底层：数据仓库效劳器中层：OLAP效劳器顶层：前端工具.7. OLAP效劳器类型：关系OLAP(ROLAP效劳器；多维OLAP(MOLAP效劳器；混合OLAP(HOLAP效劳器；特殊的SQL效劳器. 8. ROLAP：关系数据库技术; 响应慢; 数据装载快; 存储消耗小; 维数无限制; 通过SQL 实现存储；维护困难；无文件大小控制.MOLAP专为OLAP设计；性能好，反响快；数据装载快；需进行预计算，无法支持维变化；缺乏模型，访问标准，管理简便；受操作系统文件大小控制. *ROLAP不支持有关预计算读写操作，无法多行计算，无法维间计算• *MOLAP支持高性能决策支持计算；跨维计算，多用户读写操作. 9. 数据仓库设计步骤：1 选取待建模的高务处理 2 选取高务处理的粒度 3 选取用于每个事实表记录的维 4 选取安放在事实表中的度量三 1. 数据质量问题：1 噪声数据2空缺数据3不一致数据4重复5维度高 2. 噪声处理方法：1 分箱2聚类3回归 3. 预处理的根本方法：数据清理，数据集成，数据变量，数据归约 4. 数据选取的参考原那么：1 尽可能赋予属性名和属性值的明确含义2同意多数据源的属性值编码 3 去掉唯一的属性4取出重复属性5去除可以忽略字段6合理选择关联字段 5. 分箱的4种方法：统一权重，统一区间，最小熵，用户自定义区间 6. 数据平滑方法：按箱平均值平滑，按箱中值平滑，按箱便捷平滑7. 数据集成涉及问题：模式集成，数据冗余，数据值冲突8. 数据交换涉及内容：平滑，聚集，数据概化，标准化，属性构造. 9. 数据归约的策略：维归约，数据压缩，数值压缩，离散化和概念分层生成10. 属性子集选择的根本启发式方法包含的技术：1 逐步向前选择 2 逐步向后删除 3 向前选择和向后删除的结合 4 判定树归纳11. 压缩技术：有损(分为小波变换(分为DWT/DFT /主要成分分析PCA /无损12.数值归约：有参方法/无参方法13. 空缺值处理方法：1 忽略元组2人工填写空缺值3使用一个全局常量填充空缺值4使用属性的平局值填充空缺值5使用与给定元组属同一类的所有样本的平均值6使用最可能的值填充空缺值14.抽样：1简单项选择取n个样本，不回放2简单项选择择n个样本，回放3聚类抽样4分层抽样15. 概念分层方法： 1 分箱2直方图分析3聚类分析 4 基于熵的离散化4通过自然划分分段四.1. 数据挖掘语言分类：1 数据挖掘查询语言DMQL2 数据挖掘建模语言PMML3 通用数据挖掘语言 2. 数据挖掘任务的原语：1 任务相关数据原语2要挖掘的知识种类原语3背景知识原语4兴趣度测量原语5被发现模式的表示和可视原语3. 任务相关数据包括：1 数据库与数据仓库名称2数据立方3数据选择条件4相关属性或维5 数据分组条件 4. 背景知识概念分层的主要类型:1 模式层次 2 集合分组分层 3 基于操作层次 4 基于规那么分层 5. 兴趣度度量特点: 简洁性, 确定性, 实用性, 新颖性 6. 兴趣度的分类: 客观兴趣度〔数据驱动〕, 主观兴趣度〔用户驱动〕 7. 数据挖掘系统的结构设计耦合模式: 不耦合,松散耦合,半紧密耦合,紧密耦合8. 挖掘的知识类型:1 特征化2区分3关联4分类/ 预测 5 聚类五六. 1. 从数据分析角度，数据挖掘分为：描述性，预测性 2. 概念描述基本方法：多层概念，汇总，特征化，比拟根本技术：表，图表，图，规那么 3. 类比拟的步骤：数据收集，维相关分析，同步概化，导出比拟的表示 4. 关联规那么挖掘的两个过程： 1 找出频繁项集 2 由频繁项集产生强关联规那么 5. 关联规那么根本分类方法：1 按管理规那么处理的变量类别：布尔型和量化性 2 按关联规那么中数据的抽象层次：单层/多层关联规那么 3 按关联规那么中所涉及的变量数目：单维/ 多维关联规那么 4 按关联规那么的各种扩充，关联规那么可扩充到相关分析，以识别项是否相关 6. 多层关联规那么的主要挖掘方法：1 对于所有层使用一致的最小支持度2 在较低层使用递减的最小支持度 3 逐层独立 4 层交叉单项过滤 5 层交叉K-项集过滤七.1.分类与预测是两种数据分析形式•分类是预测分类标号〔离散性〕；预测是建立连续函数模型. 2. 数据分类步骤:1 学习,用分类算法分析训练数据2分类, 测试数据用于评估分类规那么的准确率. 3. 分类与预测的标准和评估:预测的准确率,速度,强壮度,可伸缩性,可解释性. 4. 常用分类方法:1 决策树归纳2贝叶斯信念网络 3 贝叶斯分类4神经网络5. 预测的方法:1 线性回归2 多元回归3 非线性回归4 广义线性模型*预测步骤:1. 问题的理解与提出 2. 数据准备2.1 变量选择 2.2 数据清洗 2.3 变量转化 2.4 可视化 3.1 神经网络 3.2 决策树3.3 关联规那么3.4 其他模型4结果评价与解释〔回1〕 6. 评估分类法准确性的方法:1 保持方法2 k- 交叉确认方法八.1 基于内存的聚类算法通常采用的数据结构:〔1〕数据矩阵:对象—变量结构〔二模矩阵〕〔2〕相异度矩阵:对象—结构〔单模矩阵〕 2. 对聚类质量/相异度估计评估方法:1 区间标度变量2二元变量3标称变量4比例标度型变量5混合类型的变量 3. 簇间距离度量标准:最短/ 最长/ 中间/平均距离 4. 典型的聚类过程:1 数据准备 2 特征提取 3 聚类 4 聚类结果评估5. 聚类方法的主要分类:1 划分方法2 层次方法3 基于密度的方法4 基于网络的方法5 基于模型的方法 6. 孤立点分析的主要方法:1 统计学方法2基于距离的方法3基于偏差的方法7. 划分方法:1 全局最优2启发式方法〔K- 均值,K- 中心点〕 8. 层次方法:1 凝聚方法〔自底向上方法〕2 分裂方法〔自顶向下〕9.复杂类型数据挖掘包括:1复杂对象2空间数据3多媒体数据4文本数据5WEB数据。

数据挖掘课程复习提纲资料

数据挖掘课程复习提纲（4+0 ）有关考试题型：一、选择题（每题2 分，共16 分）二、判断题（每题1 分，共10 分）三、填空题（每空1 分，共19 分）四、简答题（每题5 分，共15 分）五、计算题（每题10 分，共40 分）基本要求：掌握数据预处理、分类、聚类、关联分析、离群点检测的基本方法，及每类方法的应用场景（每类方法理解、熟悉一个例子）。

算法重点掌握k-means 、一趟聚类、Appriori及基于密度的离群点检测方法；掌握决策树分类（C4.5、CART）、KNN 分类的基本思想，基于聚类的离群点检测方法的思想。

第一章绪论1 数据挖掘的定义技术层面：数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中、人们事先不知道的、但又潜在有用的信息和知识的过程。

商业层面：数据挖掘是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关键性数据。

2 数据挖掘的任务预测任务：根据其它属性的值预测特定（目标）属性的值，如回归、分类、异常检测。

描述任务：寻找概括数据中潜在联系的模式，如关联分析、聚类分析、序列模式挖掘。

聚类（Clustering）分析“物以类聚，人以群分”。

聚类分析技术试图找出数据集中数据的共性和差异，并将具有共性的对象聚合在相应的簇中。

聚类分析可以帮助判断哪些组合更有意义，聚类分析已广泛应用于客户细分、定向营销、信息检索等领域。

分类（Classification）分析分类分析就是通过分析示例数据库中的数据，为每个类别做出准确的描述，或建立分析模型，或挖掘出分类规则，然后用这个分类模型或规则对数据库中的其它记录进行分类。

分类分析已广泛应用于用户行为分析（受众分析）、风险分析、生物科学等领域。

聚类与分类的区别聚类问题是无指导的：没有预先定义的类。

分类问题是有指导的：预先定义有类。

关联(Association) 分析关联分析是发现特征之间的相互依赖关系，通常是在给定的数据集中发现频繁出现的模式知识(又称为关联规则)。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据挖掘考试复习资料一、名词解释1、数据仓库：面向主题的、集成的、非易失的、是随时间变化的数据集合，用来支持管理决策。

2、聚类：将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类3、数据挖掘：从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识4、人工神经网络：人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。

在工程与学术界也常直接简称为神经网络或类神经网络。

5、文本挖掘：文本数据挖掘(Text Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术6、OLAP：又称联机分析处理，是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业为特性的信息进行快速、一致、交互地存取，从而获得对数据的更深入了解的一类软件技术。

定义1：OLAP是针对特定问题的联机数据访问和分析。

通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取，允许管理决策人员对数据进行深入地观察。

）7、概念描述：就是对目标类对象的内涵进行描述，并概括这类对象的有关特征。

特征化：提供给定数据汇集的简洁汇总比较：提供两个或多个数据汇集的比较描述8、信息熵：在信息论中，熵被用来衡量一个随机变量出现的期望值。

它代表了在被接收之前，信号传输过程中损失的信息量，又被称为信息熵。

信息熵也称信源熵、平均自信息量。

二、简答题1、数据仓库和传统数据库的区别和联系是什么？（1）区别：数据仓库和数据库是不同的概念数据仓库是一个综合的解决方案，而数据库只是一个现成的产品。

数据仓库需要一个功能十分强大的数据库引擎来驱动，它更偏向于工程。

数据仓库系统和传统数据库系统相比，不同点表现在以下几方面。

（2）联系：数据库是数据管理技术,是计算机科学的重要分支,其应用已从一般管理扩大到计算机辅助设计、人工智能以及科技计算等领域.数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策,是20世纪末到21世纪初数据库市场的一个新的增长点.数据仓库的数据常常来自于多个数据源,存放模式一致,数据一般驻留在单个站点,数据仓库中的数据已经清理、变换、集成于装载,并定期刷新,数据仓库中的数据是海量的,数据仓库所要研究和解决的问题就是从数据库中的获取信息.数据仓库的出现，并不是要取代数据库。

目前，大部分数据仓库还是用关系数据库管理系统来管理的。

可以说，数据库、数据仓库相辅相成、各有千秋。

2、数据挖掘的主要功能是什么？数据挖掘的目标是从数据库中发现隐含的、有意义的知识，主要有以下五类功能。

(1)自动预测趋势和行为——数据挖掘自动在大型数据库中进行分类和预测、寻找预测性信息，自动地提出描述重要数据类的模型或预测未来的数据趋势。

(2)关联分析——数据关联是数据库中存在的一类重要的可被发现的知识，若两个或两个以上变量的取值之间存在某种规律性，就称为关联。

(3)聚类——聚类就是按一定的规则将数据划分为合理的集合，即将对象分组为多个类或簇，使得在同一个簇中的对象之间具有较高的相似度，而在不同簇中的对象差别很大。

(4)概念描述——就是对目标类对象的内涵进行描述，并概括这类对象的有关特征。

(5)偏差检测——数据库中的数据常有一些异常记录，从数据库中检测这些偏差很有意义。

3、简述OLAP在多维数据模型中的几个基本操作？（1）切片：在多维数组的某一维上选定一维成员的动作成为切片。

（2）切块：在多维数组的某一维上选定某一区间的维成员的动作。

（3）旋转：旋转既是改变一个报告或者页面的维方向（4）钻取。

钻取处理是使用户在数据仓库的多层数据中，能够通过导航信息而获得更多的细节性数据，钻取一般是指向下钻取。

4、数据挖掘的步骤包括哪些？①理解数据和数据的来源②获取相关知识与技术③整合与检查数据④ 去除错误或不一致的数据⑤建立模型和假设⑥实际数据挖掘工作⑦测试和验证挖掘结果⑧解释和应用（1）数据准备:包括数据的选择、净化、推测、转换数据缩减。

数据准备包括：选择数据--在大型数据库和数据仓库目标中提取数据挖掘的目标数据集；数据预处理--进行数据再加工，包括检查数据的完整性及数据的一致性、去噪声，填补丢失的域，删除无效数据等。

(2)数据挖掘:采用的技术有——决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算了。

数据挖掘根据KDD的日标，选取相应算法的参数，得到可能形成知识的模式模型。

(3)评估、解释模式模型:上面得到的模式模型，需要评估以确定哪些是有效的模式。

结果分析对数据挖掘的结果进行解释和评价，转换成为能够最终被用户理解的知识。

(4) 巩固知识。

(5) 运用知识。

将分析所得到的知识集成到业务信息系统的组织结构中去。

5、数据挖掘与传统分析方法的区别是什么？数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识.数据挖掘所得到的信息应具有先前未知,有效和可实用三个特征.先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值.在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系.6、简述事务处理与分析处理的操作特点的不同？OLAP的目标是满足决策支持或多维环境特定的查询和报表需求，它的技术核心是“维”这个概念，因此OLAP也可以说是多维数据分析工具的集合。

事务处理和分析处理的性能特性不同●所有联机事务处理强调的是数据更新处理性能和系统的可靠性。

在事务处理环境中，用户的行为特点是数据的存取操作频率高，每次操作处理的时间短。

●在分析处理环境中，用户的行为模式与此完全不同，强调的是数据处理和分析的能力。

在传统数据库系统基础上的决策支持（DSS）应用程序可能需要连续几个小时，从而消耗大量的系统资源。

●联机分析和事务处理对系统的要求不同，同一个数据库在理论上难以做到两全，将具有如此不同处理性能的两种应用放在同一个环境中运行显然是不适当的。

事务处理：存取操作频率高而每次操作处理的时间短。

分析处理；某个DSS应用程序可能需要连续使用几个小时，从而消耗掉大量的系统资源，将具有如此不同处理性能的两种应用放在一个环境中运行，这种行为是不适当的7、简述数据仓库系统的体系结构？（1）数据源是数据仓库系统的基础，是整个系统的数据源泉。

通常包括企业内部信息和外部信息。

内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。

外部信息包括各类法律法规、市场信息和竞争对手的信息等等；（2）数据的存储与管理。

是整个数据仓库系统的核心。

数据仓库的真正关键是数据的存储和管理。

数据仓库的组织管理方式决定了它有别于传统数据库，同时也决定了其对外部数据的表现形式。

要决定采用什么产品和技术来建立数据仓库的核心，则需要从数据仓库的技术特点着手分析。

针对现有各业务系统的数据，进行抽取、清理，并有效集成，按照主题进行组织。

数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库（通常称为数据集市）。

（3）OLAP(联机分析处理)服务器。

对分析需要的数据进行有效集成，按多维模型予以组织，以便进行多角度、多层次的分析，并发现趋势。

其具体实现可以分为：ROLAP（关系型在线分析处理）、MOLAP（多维在线分析处理）和HOLAP（混合型线上分析处理）。

ROLAP基本数据和聚合数据均存放在RDBMS之中；MOLAP基本数据和聚合数据均存放于多维数据库中；HOLAP基本数据存放于RDBMS之中，聚合数据存放于多维数据库中。

（4）前端工具。

主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以数据挖掘及各种基于数据仓库或数据集市的应用开发工具。

其中数据分析工具主要针对OLAP服务器，报表工具、数据挖掘工具主要针对数据仓库。

8、OLAP的基本特征和可构造的多维数据模型有哪些？1）基本特征：（1）快速性：用户对OLAP的快速反应能力有很多高的要求。

系统应能在5秒内对用户的大部分分析要求作出反应。

（2）可分析性：OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。

（3）多维性：多维性是OLAP的关键属性。

系统必须提供对数据的多维视图和分析，包括对层次维和多重层次维的完全支持。

（4）信息性：不论数据量有多大，OLAP也不管数据存储在何处，系统应能及时获得信息，并且管理大容量信息。

2）多维数据模型：这种模型以星形模式、雪花模式、或事实星座模式形式存在星形模式：它的核心是一个包含主题的事实表，通过事实表将多个包含事实的非正规化描述的维度表连接起来，各个维度表都连接到中央事实表。

雪花模式：是对星型模型的扩展，每一个维度都可以向外连接多个对事实进行详细描述的类别表。

事实星座：复杂的应用可能需要多个事实表共享维表。

这种模式可以看作星形模式集，因此称为星系模式，或事实星座。

9、如何理解数据挖掘功能中的关联分析？数据关联是数据库中存在的一类重要的可被发现的知识，若两个或两个以上变量的取值之间存在某种规律性，就称为关联。

关联分析的目的是找出数据库中隐藏的关联网，常用的两种技术为关联规则和序列模式。

关联规则是发现一个事物与其他事物的相互关联性或相互依赖性；序列模式分析将重点放在分析数据之间的前因后果关系。

10、数据挖掘与神经网络的关系是什么？神经网络是属于人工智能范畴的，但可以用于数据挖掘，比如通过一批样本数据，训练出神经网络模型，然后再去测试新数据。

就是对数据挖掘中分类技术的一个应用。

数据挖掘就是从大量数据中挖掘有用的知识，神经网络就是一种有学习能力的类似人脑活动的技术，其实也是在提炼知识。

三、论述题1、试分析数据挖掘技术在金融领域的应用情况？数据挖掘已经被广泛应用于银行和商业中，有以下的典型应用：1 ）对目标市场(targeted marketing)客户的分类与聚类。

例如，可以将具有相同储蓄和货款偿还行为的客户分为一组。

有效的聚类和协同过滤方法有助于识别客户组，以及推动目标市场。

2 ）客户价值分析。

在客户价值分析之前一般先使用客户分类，在实施分类之后根据“二八原则”，找出重点客户，即对给银行创造了80%价值的20%客户实施最优质的服务。

重点客户的发现通常采用一系列数据处理、转换过程、AI人工智能等数据挖掘技术来实现。

通过分析客户对金融产品的应用频率、持续性等指标来判别客户的忠诚度；通过对交易数据的详细分析鉴别哪些是银行希望保持的客户；通过挖掘找到流失的客户的共同特征，就可以在那些具有相似特征的客户还未流失之前进行针对性的弥补。