数据挖掘考试复习资料

合集下载

数据挖掘考试题及答案

数据挖掘考试题及答案### 数据挖掘考试题及答案#### 一、选择题（每题2分，共20分）1. 数据挖掘的目的是发现数据中的：- A. 错误- B. 模式- C. 异常- D. 趋势答案：B2. 以下哪项不是数据挖掘的常用算法：- A. 决策树- B. 聚类分析- C. 线性回归- D. 神经网络答案：C3. 关联规则挖掘中，Apriori算法用于发现：- A. 频繁项集- B. 异常值- C. 趋势- D. 聚类答案：A4. K-means算法是一种：- A. 分类算法- B. 聚类算法- C. 预测算法- D. 关联规则挖掘算法答案：B5. 以下哪个指标用于评估分类模型的性能：- A. 准确率- B. 召回率- C. F1分数- D. 所有以上答案：D#### 二、简答题（每题10分，共30分）1. 描述数据挖掘中的“过拟合”现象，并给出避免过拟合的策略。

答案：过拟合是指模型对训练数据拟合得过于完美，以至于失去了泛化能力。

避免过拟合的策略包括：使用交叉验证、正则化技术、减少模型复杂度、获取更多的训练数据等。

2. 解释什么是“数据清洗”以及它在数据挖掘中的重要性。

答案：数据清洗是指从原始数据中识别并纠正（或删除）错误、重复或不完整的数据的过程。

它在数据挖掘中至关重要，因为脏数据会导致分析结果不准确，影响最终的决策。

3. 描述“特征选择”在数据挖掘中的作用。

答案：特征选择是数据挖掘中用来降低数据维度、提高模型性能和减少计算成本的过程。

通过选择最有信息量的特征，可以去除冗余或无关的特征，从而提高模型的准确性和效率。

#### 三、应用题（每题25分，共50分）1. 假设你正在分析一个电子商务网站的用户购买行为，描述你将如何使用数据挖掘技术来识别潜在的营销机会。

答案：首先，我会使用聚类分析来识别不同的用户群体。

然后，通过关联规则挖掘来发现不同用户群体的购买模式。

接着，利用分类算法来预测用户可能感兴趣的产品。

大数据分析与挖掘复习题集附答案

大数据分析与挖掘复习题集附答案大数据分析与挖掘复习题集附答案一、选择题1. 数据挖掘的主要任务是：A. 模式发现和模型评估B. 数据收集和整理C. 数据分析和可视化D. 数据传输和存储答案：A2. 在数据挖掘过程中，数据预处理的目的是：A. 提取有价值的信息B. 去除异常值和噪声C. 构建合适的模型D. 优化数据存储结构答案：B3. 关联规则挖掘是指：A. 发现不同属性之间的关联关系B. 预测未来事件的发生C. 分析数据的变化趋势D. 构建数据的分类模型答案：A4. 在数据挖掘中，分类和聚类的主要区别在于：A. 数据来源的不同B. 目标的不同C. 算法的不同D. 结果的不同答案：B5. 大数据分析的核心挑战是：A. 数据存储和处理速度B. 数据质量和准确性C. 数据安全和隐私保护D. 数据可视化和展示答案：A二、填空题1. __________是指通过对海量数据进行深入分析和挖掘，从中发现有价值的信息。

答案：大数据分析与挖掘2. 在数据挖掘过程中，将数据按照一定的规则进行重新排列，以便更方便地进行分析和挖掘，这个过程称为__________。

答案：数据预处理3. 数据挖掘中的分类算法主要是通过对已有的样本进行学习和训练，从而预测新的样本所属的__________。

答案：类别4. 聚类算法是将相似的数据样本归为一类，不需要事先知道数据的__________。

答案：类别5. 在大数据分析中，数据的__________对于结果的准确性和可靠性至关重要。

答案：质量三、简答题1. 请简要说明大数据分析与挖掘的步骤和流程。

答：大数据分析与挖掘的步骤主要包括数据收集与清洗、数据预处理、模式发现、模型评估和应用。

首先，需要从各个数据源收集所需数据，并对数据进行清洗，去除异常值和噪声。

然后，通过数据预处理，对数据进行规范化、离散化等处理，以便于后续的分析和挖掘。

接着，利用合适的算法和技术，进行模式发现，例如关联规则挖掘、分类和聚类等。

数据挖掘期末考试题库

数据挖掘期末考试题库
进行数据挖掘期末考试前，老师通常会准备一份题库，供学生参考复习。

这个题库包含了一系列的问题，涵盖了数据挖掘的各个方面。

以下是一个示例的数据挖掘期末考试题库，供同学们参考：
1. 什么是数据挖掘？数据挖掘的主要目标是什么？
2. 请简要介绍数据挖掘的主要过程。

3. 数据挖掘中常用的数据预处理方法有哪些？请分别进行介绍。

4. 数据挖掘中常用的特征选择方法有哪些？请分别进行介绍。

5. 数据挖掘中常用的分类算法有哪些？请分别进行介绍。

6. 数据挖掘中常用的聚类算法有哪些？请分别进行介绍。

7. 数据挖掘中常用的关联规则挖掘算法有哪些？请分别进行介绍。

8. 什么是异常检测？数据挖掘中常用的异常检测方法有哪些？请分别进行介绍。

9. 数据挖掘中的交叉验证是什么？请简要说明。

10. 数据挖掘中如何评估分类算法的性能？请简要说明评估指标。

11. 数据挖掘中如何评估聚类算法的性能？请简要说明评估指标。

12. 数据挖掘中如何评估关联规则挖掘算法的性能？请简要说明评估指标。

13. 数据挖掘在实际应用中的案例有哪些？请分别进行介绍。

14. 在数据挖掘过程中，如何选择适当的算法和技术？请简要说明。

15. 数据挖掘存在哪些挑战和限制？请分别进行介绍。

以上题目是一个简要的示例，涵盖了数据挖掘的基本概念、主要过程、常用方法和评估指标等方面。

同学们可以根据这些问题来进行复
习和准备，加深对数据挖掘的理解和掌握。

希望以上题库对同学们的期末考试有所帮助。

祝大家考试顺利！。

数据挖掘考试重点复习

1.了解商务智能的定义与大数据的四个基本特征；答：商务智能是企业利用数据仓库DW、数据挖掘DM、在线分析处理OLAP、决策支持系统DSS等现代信息技术对企业生产、经营过程中产生的大量结构化和非结构化数据进行收集、整理、分析;形成知识或情报;以辅助企业做出正确的决策、采取有效的商务行动、优化商务流程、全面提升商务绩效的工具、方法和技术的统称..大数据特征： 4个V2.理解商务智能系统的5层结构商务智能系统结构大致分为五层:①数据源层：也可称作操作型数据层;是整个数据仓库的基础;提供了整个系统最原始的数据②数据获取层：也可称作数据转换层;主要是把数据源层的数据通过ETCL过程转换到数据仓库中③数据存取层：该层是按主题进行分析和对相关的数据进行挖掘的数据源;包括每一个按主题进行分类的数据集市或专门用于数据挖掘的数据仓库④数据分析服务层：该层是数据存储和前端分析工具的桥梁⑤前端展现层：用户界面3.理解操作型与分析型系统分离的必要性以及他们的特征4.理解维度爆炸给数据挖掘带来的困难数据过高的维度会给计算带来麻烦;在数据挖掘处理时;它会耗费很多的处理时间和内存容量..数据的高维度还使得数据间的关系也不容易察觉;增加了数据的无关属性和噪音点..5.掌握数据仓库的定义并理解其四个方面的特征数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境..数据仓库研究和解决从数据库中获取信息的问题..数据仓库是为支持管理决策建立的;面向主题的、集成的、随时间变化的、相对稳定的数据集合..滔注：我觉得写括号里的会好一点四方面特征：①面向主题：主题是指用户使用数据仓库进行决策时所关心的重点忙面..②集成性：在数据进入数据仓库之前;要进过统一于综合;将多个异源数据集成在一起..这一步是数据仓库建设中最关键、最复杂的一步..③时变性：数据仓库随时间变化不断增加新的数据..④相对稳定性：数据仓库反映的是历史的内容;而不是联机数据;主要供企业决策分析之用..6.掌握数据挖掘的定义并描述其主要特征数据挖掘定义从大量的、不完全的、有噪声的、模糊的、随机的数据中;提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程..数据挖掘是从大量数据中寻找其规律的技术..主要步骤1数据准备：从各种数据源中选取和集成用于数据挖掘的数据；2规律寻找：用某种方法将数据中的规律找出来；3规律表示：用尽可能符合用户习惯的方式将找出的规律表示出来..7.掌握Minkowski距离;并熟练计算l1;l2;l无穷normL1norm当r=1;城市街区也称曼哈顿、出租车、L1范数距离；L2norm当r=2;欧几里得距离；L∞norm当r=∞;上确界距离;这是对象属性之间的最大距离..8.理解Hunt’s算法的基本过程通过将训练记录相继划分成较纯的子集;以递归方式建立决策树..设Dt是与节点t相关联的训练记录集;而Y={ y1;y2;…;y c}是类标号;Hunt算法的递归定义如下:1如果Dt中所有记录都属于同一个类yt;则t是叶节点;用yt标记..2如果Dt中包含属于多个类的记录;则选择一个属性测试条件;将记录划分成较小的子集..对于测试条件的每个输出;创建一个子女节点;并根据测试结果将Dt中的记录分布到子女节点中..然后;对于每个子女节点;递归地调用该算法..9.掌握吉尼系数、熵的定义;会计算其最大值与最小值;理解信息增益在构造决策树时的意义基尼系数、熵是度量不纯度的方法GINI系数和熵都是越小;代表所分的节点属性越纯;最小可取到0;表示这个节点中只有一个类..当一个节点中有n个父节点;而且能分出n个子节点;GINI系数取到最n 滔注：那个2是角标;不是log2n 大值;为1-1/n. 熵也取到最大值 log2基尼值的性质：越大越不纯;越小越纯;0最纯;1-1/n最不纯..b.子节点基尼值c.最大值、最小值最小值表示最纯;最大值表示最不纯熵在信息领域熵被用来衡量一个随机变量出现的期望值..熵是对信息的不确定性的度量..熵越低;意味着传输的信息越少..熵的性质：熵是衡量节点一致性的函数..熵大于等于0;当且仅当p1=p2=……pn时;熵最大;纯的节点熵是0.信息增益当选择熵作为公式的不纯性度量时;熵的差就是所谓的信息增益..信息增益描述了当使用Q进行编码时;再使用P进行编码的差异..通常P代表样本或观察值的分布;也有可能是精确计算的理论分布..Q 代表一种理论;模型;描述或者对P的近似..当纯度高达1时即只有一种数据类型;熵最小;为0；当其中的各类数据均匀分布时;熵最大;为-log2pj|t..10.理解了解最邻近分类的基本思想;邻近分类的前提条件与分类过程近邻分类法是基于类比学习;即通过将给定的检验元组与和它相似的训练元组进行比较来学习..训练元组用n个属性描述..每个元祖代表n维空间的一个点..这样;所有的训练元组都存放在n维模式空间中..当给定一个未知元组时;近邻分类法搜索模式空间;找出最接近未知元组的k个训练元组..这k个训练元组是未知元组的k个“最近邻”..一句话概述：点x的k-最近邻分类就是离点x的欧式距离最近的k个点的集合..三个前提条件：训练集存在内存中；给定距离度量指标；给定K值分类过程：1 计算未知点与其他训练集的距离2找到K个最邻近的邻近组3用邻近组的分类标签来决定未知点所在组的标签..11.了解分类中的过拟合及产生的原因过度拟合数据当决策树变大时;测试误差会越来越小;而训练误差会越来越大;测试集产生的决策树与实际会不符..产生的原因（1）噪声导致的过分拟合（2）决策树的复杂程度超过了需要的程度;会产生过度拟合（3）训练误差的减小已经对结果没有更多意义但却依然在计算;会产生过度拟合（4）没有更多的属性来减小样本误差;会产生过度拟合12.理解关联规则及支持与置信度的定义;并熟练计算支持度与置信度关联规则关联规则是形如X→Y的蕴涵式;其中;X和Y都是事务数据集..关联规则的强度可以用它的支持度和置信度度量..支持度Support事务数据库中既包含X又包含Y某个项集的事务占事务总数的比例；置信度Confidence在所有包含X的事务中包含Y的事务所占比例.. 13.理解Apriori性质及其意义Apriori如果一个项集是频繁的;那么它的所有子集都是频繁的..相反;如果一个项集是非频繁的;则它的所有超集也一定是非频繁的..意义利用该性质;通过减少搜索空间;来提高频繁项集逐层产生的效率..14.理解FP-Growth算法克服了Apriori算法的那些不足1.减少了扫描数据库的次数;只用扫描两次2.候选项变少;不会产生那么大的候选项集15.给定一个交易数据库与支持度阈值;能熟练运用Apriori算法与FP-Growth算法挖掘频繁项集Apriori算法计算频繁项集步骤1、第一次扫描;列出一项集;并计数..2、去除低于阈值的项集;组合出二项集;扫描计数..3、重复步骤2;依次组合出N项集;直至项集计数小于阈值;结束..注意Apriori定义：如果一个项集是非频繁的;则它的所有超集也一定是非频繁的..所以在组合项集时一定要注意;新组合出的项集不应包含已经被“淘汰”的项集..FP-Growth算法计算频繁项集步骤一、扫描一次数据集;确定每个项的支持度计数..丢弃非频繁项;将频繁项按照支持度的递减排序;生成频繁项集头表..注意事项：1、降序排列..2、MinSup的存在步骤二、第二次扫描投影;按照{f;c;a;b;m;p}的顺序逐条对应写出剔除非频繁项后的频繁集;注意：{f;c;a;b;m;p}的顺序确定后就不在变动;这在下面的步骤中起关键作用步骤三、并开始构建FP树..按照事务ID号的顺序;将处理好的频繁项集映射创建FP树;并在对应节点计数..步骤四、构建每个对象的条件模式基;建议从频率低的节点开始..注意：不要忘了f对应的{}..步骤五、列出下表;对照MinSup剔除低于阈值的项..步骤六、针对每一项建立条件FP树..下面用m项作例子;如下..步骤七、找出频繁项集..16.理解关联规则产生时所采取的优化策略老师说直接距离就可以比如;L = {A;B;C;D}:cABC→ D≥ cAB→ CD ≥ cA→ BCD为什么分子不变;都是ABCD;分母越来越大17.理解K-means算法的内容并讨论该算法之不足K-means K均值算法流程1、随机选择K个对象;每个对象代表一个簇的初始均值或中心2、对剩余的每个对象;根据它与簇均值的距离;将他指派到最相似的簇..3、计算每个簇的新均值4、回到步骤2;循环;直到准则函数收敛..不足之处1、只有当簇均值有定义的情况下;K-means方法才能够使用..2、用户必须首先给定簇数目3、不适合发现非凸形状的簇;或者大小差别很大的簇..4、对噪声和离群点数据敏感..18.理解凝聚聚类算法的基本过程;并分析算法时间与空间复杂度步骤：1计算距离矩阵2 让每个数据点成为一个群集3;循环开始4; 合并两个距离最近的群集5; 更新距离矩阵6;直到只剩下一个群集时间复杂度：N2倍空间复杂度：N3倍19.理解DBSCAN算法将待聚类的点分为哪几类;分解解释之三类：中心点：中心点领域范围内的点的个数≥临界值MinPts边界点：边界点领域范围内的点个数小于临界值;但是它在中心点邻域范围的边界上..噪音点：既不是中心点又不是边界点的点..噪音点领域范围内的点个数小于临界点..20.理解DBSCAN算法的思想及它克服了K-means算法的哪些不足基于密度的聚类只要一个区域中的点的密度大于某个域值;就把它加到与之相近的聚类中去..克服基于距离的算法只能发现“类圆形”的聚类的缺点;可发现任意形状的聚类;且对噪声不敏感..但是;其计算密度短语的计算复杂度大;需要建立空间索引来降低计算量;且对数据维数的伸缩性较差..DBSCAN Density-Based Spatial Clustering of Applications with Noise具有噪声的基于密度的聚类应用..算法步骤1、通过检查数据集中每个对象的ε-邻域可以理解为半径来寻找聚类2、如果一个点P的ε-邻域包含多于MinPts最少包含点数个对象;则创建一个P作为核心对象的新簇..3、反复地寻找从这个核心对象直接密度可达的对象;这个过程可能涉及一些密度可达簇的合并..4、当没有新的点可以被添加到任何簇时;过程结束..评价1、适合发现任意形状的簇..2、易于发现噪声..3、无需设置K 值..4、需要输入ε、MinPts..对照着14题理解两种算法21.理解SSE指标对聚类的意义..SSE即Sum of Squared Error ;错误的平方和..意义1、SSE可以很好的用于比较两个聚类或两个簇..2、也可以用于估计簇的数目..观察增加K即簇的数目即可降低SSE..。

数据挖掘考试复习资料

数据挖掘考试复习资料一、名词解释1、数据仓库：面向主题的、集成的、非易失的、是随时间变化的数据集合，用来支持管理决策.2、聚类：将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类3、数据挖掘：从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识4、人工神经网络：人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。

在工程与学术界也常直接简称为神经网络或类神经网络.5、文本挖掘：文本数据挖掘（Text Mining）是指从文本数据中抽取有价值的信息和知识的计算机处理技术6、OLAP：又称联机分析处理，是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业为特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。

定义1：OLAP是针对特定问题的联机数据访问和分析。

通过对信息（维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取，允许管理决策人员对数据进行深入地观察。

定义2：OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业“维”特性的信息进行快速、一致、交互地存取，从而获得对数据的更深入了解的一类软件技术。

)7、概念描述：就是对目标类对象的内涵进行描述,并概括这类对象的有关特征.特征化：提供给定数据汇集的简洁汇总比较：提供两个或多个数据汇集的比较描述8、信息熵：在信息论中，熵被用来衡量一个随机变量出现的期望值.它代表了在被接收之前，信号传输过程中损失的信息量，又被称为信息熵。

信息熵也称信源熵、平均自信息量。

二、简答题1、数据仓库和传统数据库的区别和联系是什么?（1）区别:数据仓库和数据库是不同的概念数据仓库是一个综合的解决方案，而数据库只是一个现成的产品。

数据仓库需要一个功能十分强大的数据库引擎来驱动，它更偏向于工程。

数据挖掘复习资料

1、数据挖掘定义：数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取出隐含在其中的、人们事先不知道、但又是潜在有用的信息和知识的过程。

2、数据仓库定义：数据仓库是面向主题的、集成的、不可更新却又随时间不断变化的数据集合，用以支持经营管理中的决策制定过程。

3、数据仓库与数据挖掘的关系：1）数据仓库系统的数据可以作为数据挖掘的数据源。

2）数据挖掘的数据源不一定必须是数据仓库系统4、数据挖掘的功能：概念描述，关联分析，分类与预测，聚类分析，趋势分析，孤立点分析，偏差分析。

5、数据挖掘的过程：P10图1-26、数据仓库的基本特征：1）数据仓库的数据是面向主题的；2）数据仓库的数据是集成的；3）数据仓库的数据时不可更新的；4）数据仓库的数据时随时间不断变化的。

7、主题的概念：主题是一个抽象的概念，是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的对象。

面向主题的组织方式，就是在较高层次上对分析对象的数据的一个完整、一致的描述，能完整、统一的刻画各个分析对象所涉及的企业的各项数据，以及数据之间的联系。

8、对数据仓库基本特征的理解：数据仓库是面向主题的，面向主题性表示数据仓库中数据组织的基本原则，数据仓库中所有的数据都是围绕某一主题组织、展开的。

数据仓库的数据是集成的，数据仓库的数据时从原有的分散的数据库、数据文件和数据段中抽取来的，数据来源可能既有内部数据又有外部数据，因此，在数据进入数据仓库之前，必然要经过转换、统一和综合。

这一步是数据仓库建设中最关键最复杂的一步，要进行统一数据源，综合和计算两步，统一数据源包括命名规则，编码，数据特征，度量单位的统一。

数据仓库是不可更新的，数据仓库的数据主要提供企业决策分析之用，不是用来进行日常操作的，一般只保存过去的数据，而且不是随着数据源的变化实时更新，数据仓库中的数据一般不再修改。

9、数据仓库数据分为四个级别：早期细节级，当前细节级，轻度综合级和高度综合级。

数据挖掘考试题库及答案

数据挖掘考试题库及答案一、选择题1. 数据挖掘是从大量数据中提取有价值信息的过程，以下哪项不是数据挖掘的主要任务？A. 预测B. 分类C. 聚类D. 数据可视化答案：D2. 以下哪种技术不属于数据挖掘的常用方法？A. 决策树B. 支持向量机C. 关联规则D. 数据仓库答案：D3. 数据挖掘中，以下哪项技术常用于分类和预测？A. 神经网络B. K-均值聚类C. 主成分分析D. 决策树答案：D4. 在数据挖掘中，以下哪个概念表示数据集中的属性？A. 数据项B. 数据记录C. 数据属性D. 数据集答案：C5. 数据挖掘中，以下哪个算法用于求解关联规则？A. Apriori算法B. ID3算法C. K-Means算法D. C4.5算法答案：A二、填空题6. 数据挖掘的目的是从大量数据中提取______信息。

答案：有价值7. 在数据挖掘中，分类任务分为有监督学习和______学习。

答案：无监督8. 决策树是一种用于分类和预测的树形结构，其核心思想是______。

答案：递归划分9. 关联规则挖掘中，支持度表示某个项集在数据集中的出现频率，置信度表示______。

答案：包含项集的记录中同时包含结论的记录的比例10. 数据挖掘中，聚类分析是将数据集划分为若干个______的子集。

答案：相似三、判断题11. 数据挖掘只关注大量数据中的异常值。

（）答案：错误12. 数据挖掘是数据仓库的一部分。

（）答案：正确13. 决策树算法适用于处理连续属性的分类问题。

（）答案：错误14. 数据挖掘中的聚类分析是无监督学习任务。

（）答案：正确15. 关联规则挖掘中，支持度越高，关联规则越可靠。

（）答案：错误四、简答题16. 简述数据挖掘的主要任务。

答案：数据挖掘的主要任务包括预测、分类、聚类、关联规则挖掘、异常检测等。

17. 简述决策树算法的基本原理。

答案：决策树算法是一种自顶向下的递归划分方法。

它通过选择具有最高信息增益的属性进行划分，将数据集划分为若干个子集，直到满足停止条件。

数据挖掘考试题库完整

一、名词解释1. 数据仓库：是一种新的数据处理体系结构 .是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化 (不同时间)的数据集合.为企业决策支持系统提供所需的集成信息。

2. 孤立点：指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。

3. OLAP：OLAP 是在OLTP 的基础上发展起来的.以数据仓库为基础的数据分析处理 .是共享多维信息的快速分析.是被专门设计用于支持复杂的分析操作 .侧重对分析人员和高层管理人员的决策支持。

4. 粒度：指数据仓库的数据单位中保存数据细化或综合程度的级别。

粒度影响存放在数据仓库中的数据量的大小 .同时影响数据仓库所能回答查询问题的细节程度。

5. 数据规范化：指将数据按比例缩放(如更换大单位).使之落入一个特定的区域(如 0－1) 以提高数据挖掘效率的方法。

规范化的常用方法有：最大－最小规范化、零－均值规范化、小数定标规范化。

6. 关联知识：是反映一个事件和其他事件之间依赖或相互关联的知识。

如果两项或多项属性之间存在关联.那么其中一项的属性值就可以依据其他属性值进行预测。

7. 数据挖掘：从大量的、不完全的、有噪声的、模糊的、随机的数据中.提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

8. OLTP：OLTP 为联机事务处理的缩写.OLAP 是联机分析处理的缩写。

前者是以数据库为基础的.面对的是操作人员和低层管理人员 .对基本数据进行查询和增、删、改等处理。

9. ROLAP：是基于关系数据库存储方式的 .在这种结构中.多维数据被映像成二维关系表.通常采用星型或雪花型架构.由一个事实表和多个维度表构成。

10. MOLAP：是基于类似于“超立方”块的OLAP 存储结构.由许多经压缩的、类似于多维数组的对象构成.并带有高度压缩的索引及指针结构 .通过直接偏移计算进行存取。

11. 数据归约：缩小数据的取值范围.使其更适合于数据挖掘算法的需要 .并且能够得到和原始数据相同的分析结果。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据挖掘考试复习资料一、名词解释1、数据仓库：面向主题的、集成的、非易失的、是随时间变化的数据集合，用来支持管理决策。

2、聚类：将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类3、数据挖掘：从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识4、人工神经网络：人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。

在工程与学术界也常直接简称为神经网络或类神经网络。

5、文本挖掘：文本数据挖掘（Text Mining）是指从文本数据中抽取有价值的信息和知识的计算机处理技术6 OLAP又称联机分析处理，是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业为特性的信息进行快速、一致、交互地存取，从而获得对数据的更深入了解的一类软件技术。

定义1：OLAP是针对特定问题的联机数据访问和分析。

通过对信息（维数据）的多种可能的观察形式进行快速、稳定一致和交互性的存取，允许管理决策人员对数据进行深入地观察。

定义2：OLAF是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业“维”特性的信息进行快速、一致、交互地存取，从而获得对数据的更深入了解的一类软件技术。

）7、概念描述：就是对目标类对象的内涵进行描述，并概括这类对象的有关特征。

特征化：提供给定数据汇集的简洁汇总比较：提供两个或多个数据汇集的比较描述8、信息熵：在信息论中，熵被用来衡量一个随机变量出现的期望值。

它代表了在被接收之前，信号传输过程中损失的信息量，又被称为信息熵。

信息熵也称信源熵、平均自信息量。

二、简答题1、数据仓库和传统数据库的区别和联系是什么？(1)区别：数据仓库和数据库是不同的概念数据仓库是一个综合的解决方案，而数据库只是一个现成的产品。

数据仓库需要一个功能十分强大的数据库引擎来驱动，它更偏向于工程。

数据仓库系统和传统数据库系统相比，不同点表现在以下几方面。

(2)联系：数据库是数据管理技术，是计算机科学的重要分支，其应用已从一般管理扩大到计算机辅助设计、人工智能以及科技计算等领域•数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策，是20世纪末到21世纪初数据库市场的一个新的增长点•数据仓库的数据常常来自于多个数据源，存放模式一致，数据一般驻留在单个站点，数据仓库中的数据已经清理、变换、集成于装载，并定期刷新，数据仓库中的数据是海量的，数据仓库所要研究和解决的问题就是从数据库中的获取信息•数据仓库的出现，并不是要取代数据库。

目前，大部分数据仓库还是用关系数据库管理系统来管理的。

可以说，数据库、数据仓库相辅相成、各有千秋。

2、数据挖掘的主要功能是什么？数据挖掘的目标是从数据库中发现隐含的、有意义的知识，主要有以下五类功能。

(1)自动预测趋势和行为一一数据挖掘自动在大型数据库中进行分类和预测、寻找预测性信息，自动地提出描述重要数据类的模型或预测未来的数据趋势。

(2)关联分析一一数据关联是数据库中存在的一类重要的可被发现的知识，若两个或两个以上变量的取值之间存在某种规律性，就称为关联。

(3)聚类一一聚类就是按一定的规则将数据划分为合理的集合，即将对象分组为多个类或簇，使得在同一个簇中的对象之间具有较高的相似度，而在不同簇中的对象差别很大。

(4)概念描述一一就是对目标类对象的内涵进行描述，并概括这类对象的有关特征。

(5)偏差检测一一数据库中的数据常有一些异常记录，从数据库中检测这些偏差很有意义。

3、简述OLAF在多维数据模型中的几个基本操作？(1)切片：在多维数组的某一维上选定一维成员的动作成为切片。

(2)切块：在多维数组的某一维上选定某一区间的维成员的动作。

(3)旋转：旋转既是改变一个报告或者页面的维方向(4)钻取。

钻取处理是使用户在数据仓库的多层数据中，能够通过导航信息而获得更多的细节性数据，钻取一般是指向下钻取。

4、数据挖掘的步骤包括哪些？①理解数据和数据的来源②获取相关知识与技术③整合与检查数据④ 去除错误或不一致的数据⑤ 建立模型和假设⑥ 实际数据挖掘工作⑦测试和验证挖掘结果⑧解释和应用(1)数据准备：包括数据的选择、净化、推测、转换数据缩减。

数据准备包括：选择数据--在大型数据库和数据仓库目标中提取数据挖掘的目标数据集；数据预处理--进行数据再加工，包括检查数据的完整性及数据的一致性、去噪声，填补丢失的域，删除无效数据等。

(2)数据挖掘:采用的技术有一一决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算了。

数据挖掘根据KDD勺日标，选取相应算法的参数，得到可能形成知识的模式模型。

(3)评估、解释模式模型：上面得到的模式模型，需要评估以确定哪些是有效的模式。

结果分析对数据挖掘的结果进行解释和评价，转换成为能够最终被用户理解的知识。

⑷巩固知识。

⑸运用知识。

将分析所得到的知识集成到业务信息系统的组织结构中去。

5、数据挖掘与传统分析方法的区别是什么？数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识•数据挖掘所得到的信息应具有先前未知，有效和可实用三个特征•先前未知的信息是指该信息是预先未曾预料到的，即数据挖掘是要发现那些不能靠直觉发现的信息或知识，甚至是违背直觉的信息或知识，挖掘出的信息越是出乎意料，就可能越有价值•在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系6 简述事务处理与分析处理的操作特点的不同？OLAP的目标是满足决策支持或多维环境特定的查询和报表需求，它的技术核心是“维”这个概念，因此OLAP也可以说是多维数据分析工具的集合。

事务处理和分析处理的性能特性不同所有联机事务处理强调的是数据更新处理性能和系统的可靠性。

在事务处理环境中，用户的行为特点是数据的存取操作频率高，每次操作处理的时间短。

在分析处理环境中，用户的行为模式与此完全不同，强调的是数据处理和分析的能力。

在传统数据库系统基础上的决策支持（DSS应用程序可能需要连续几个小时，从而消耗大量的系统资源。

联机分析和事务处理对系统的要求不同，同一个数据库在理论上难以做到两全，将具有如此不同处理性能的两种应用放在同一个环境中运行显然是不适当的。

事务处理：存取操作频率高而每次操作处理的时间短。

分析处理；某个DSS应用程序可能需要连续使用几个小时，从而消耗掉大量的系统资源，将具有如此不同处理性能的两种应用放在一个环境中运行，这种行为是不适当的7、简述数据仓库系统的体系结构？（1）数据源是数据仓库系统的基础，是整个系统的数据源泉。

通常包括企业内部信息和外部信息。

内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。

外部信息包括各类法律法规、市场信息和竞争对手的信息等等；（2）数据的存储与管理。

是整个数据仓库系统的核心。

数据仓库的真正关键是数据的存储和管理。

数据仓库的组织管理方式决定了它有别于传统数据库，同时也决定了其对外部数据的表现形式。

要决定采用什么产品和技术来建立数据仓库的核心，则需要从数据仓库的技术特点着手分析。

针对现有各业务系统的数据，进行抽取、清理，并有效集成，按照主题进行组织。

数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库（通常称为数据集市）。

（3）OLAP联机分析处理）服务器。

对分析需要的数据进行有效集成，按多维模型予以组织，以便进行多角度、多层次的分析，并发现趋势。

其具体实现可以分为：ROLAP（关系型在线分析处理）、MOLAFP多维在线分析处理）和HOLAP（混合型线上分析处理）。

ROLAP基本数据和聚合数据均存放在RDBMSS中；MOLAP基本数据和聚合数据均存放于多维数据库中；HOLAP S本数据存放于RDBMSS中，聚合数据存放于多维数据库中。

（4）前端工具。

主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以数据挖掘及各种基于数据仓库或数据集市的应用开发工具。

其中数据分析工具主要针对OLAP服务器，报表工具、数据挖掘工具主要针对数据仓库。

8、OLAP的基本特征和可构造的多维数据模型有哪些？1基本特征：（1）快速性：用户对OLAP的快速反应能力有很多高的要求。

系统应能在5秒内对用户的大部分分析要求作出反应。

（2）可分析性：OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。

（3）多维性：多维性是OLAP的关键属性。

系统必须提供对数据的多维视图和分析，包括对层次维和多重层次维的完全支持。

（4）信息性：不论数据量有多大，OLAP也不管数据存储在何处，系统应能及时获得信息，并且管理大容量信息。

2）多维数据模型：这种模型以星形模式、雪花模式、或事实星座模式形式存在星形模式：它的核心是一个包含主题的事实表，通过事实表将多个包含事实的非正规化描述的维度表连接起来，各个维度表都连接到中央事实表。

雪花模式：是对星型模型的扩展，每一个维度都可以向外连接多个对事实进行详细描述的类别表。

事实星座：复杂的应用可能需要多个事实表共享维表。

这种模式可以看作星形模式集，因此称为星系模式，或事实星座。

9、如何理解数据挖掘功能中的关联分析？数据关联是数据库中存在的一类重要的可被发现的知识，若两个或两个以上变量的取值之间存在某种规律性，就称为关联。

关联分析的目的是找出数据库中隐藏的关联网，常用的两种技术为关联规则和序列模式。

关联规则是发现一个事物与其他事物的相互关联性或相互依赖性；序列模式分析将重点放在分析数据之间的前因后果关系。

10、数据挖掘与神经网络的关系是什么？神经网络是属于人工智能范畴的，但可以用于数据挖掘，比如通过一批样本数据，训练出神经网络模型，然后再去测试新数据。

就是对数据挖掘中分类技术的一个应用。

数据挖掘就是从大量数据中挖掘有用的知识，神经网络就是一种有学习能力的类似人脑活动的技术，其实也是在提炼知识。

三、论述题1、试分析数据挖掘技术在金融领域的应用情况？数据挖掘已经被广泛应用于银行和商业中，有以下的典型应用：1 )对目标市场(targeted marketing) 客户的分类与聚类。

例如，可以将具有相同储蓄和货款偿还行为的客户分为一组。

有效的聚类和协同过滤方法有助于识别客户组，以及推动目标市场。

2 )客户价值分析。

在客户价值分析之前一般先使用客户分类，在实施分类之后根据“二八原则”，找出重点客户，即对给银行创造了80%价值的20%客户实施最优质的服务。

重点客户的发现通常采用一系列数据处理、转换过程、AI人工智能等数据挖掘技术来实现。

通过分析客户对金融产品的应用频率、持续性等指标来判别客户的忠诚度；通过对交易数据的详细分析鉴别哪些是银行希望保持的客户；通过挖掘找到流失的客户的共同特征，就可以在那些具有相似特征的客户还未流失之前进行针对性的弥补。

数据挖掘考试复习资料

数据挖掘考试题及答案

大数据分析与挖掘复习 题集附答案

数据挖掘期末考试题库

数据挖掘考试重点复习

数据挖掘考试复习资料

数据挖掘复习资料

数据挖掘考试题库及答案

数据挖掘考试题库完整

大数据分析与挖掘复习题集附答案