数据挖掘习题及解答-完美版
《数据挖掘》试题与答案(2021年整理精品文档)

《数据挖掘》试题与答案编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(《数据挖掘》试题与答案)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为《数据挖掘》试题与答案的全部内容。
一、解答题(满分30分,每小题5分)1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。
知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。
流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。
2. 时间序列数据挖掘的方法有哪些,请详细阐述之时间序列数据挖掘的方法有:1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。
例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。
2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值.若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。
(完整版)数据挖掘概念课后习题答案

�数据延边分析描述和模型化随时间变化的对象的规律或趋势,尽管这可 能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和 基于相似性的数据分析
1.9列举并描述说明数据挖掘任务的五种原语。
五种原语是:
�任务相关数据:这种原语指明给定挖掘所处理的数据。它包括指明数据 库、数据库表、或数据仓库,其中包括包含关系数据、选择关系数据的 条件、用于探索的关系数据的属性或维、关于修复的数据排序和分组。
�关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。例如,一个数据挖掘系统可能发现的关联规则为:
major(X,“computingscience”)⇒owns(X,“personalcomputer”)[support=12%,confidence=98%]
其中,X是一个表示学生的变量。这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。
�分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型 或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效 的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的 数字型数据的值。
数据挖掘原理与应用---试题及答案试卷十二答案精选全文完整版

数据挖掘原理与应用 试题及答案试卷一、(30分,总共30题,每题答对得1分,答错得0分)单选题1、在ID3算法中信息增益是指( D )A、信息的溢出程度B、信息的增加效益C、熵增加的程度最大D、熵减少的程度最大2、下面哪种情况不会影响K-means聚类的效果?( B )A、数据点密度分布不均B、数据点呈圆形状分布C、数据中有异常点存在D、数据点呈非凸形状分布3、下列哪个不是数据对象的别名 ( C )A、样品B、实例C、维度D、元组4、人从出生到长大的过程中,是如何认识事物的? ( D )A、聚类过程B、分类过程C、先分类,后聚类D、先聚类,后分类5、决策树模型中应如何妥善处理连续型属性:( C )A、直接忽略B、利用固定阈值进行离散化C、根据信息增益选择阈值进行离散化D、随机选择数据标签发生变化的位置进行离散化6、假定用于分析的数据包含属性age。
数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70。
问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。
第二个箱子值为:( A )A、18.3B、22.6C、26.8D、27.97、建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?( C )A、根据内容检索B、建模描述C、预测建模D、寻找模式和规则8、如果现在需要对一组数据进行样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量,应该采取( A )A、聚类分析B、回归分析C、相关分析D、判别分析9、时间序列数据更适合用( A )做数据规约。
A、小波变换B、主成分分析C、决策树D、直方图10、下面哪些场景合适使用PCA?( A )A、降低数据的维度,节约内存和存储空间B、降低数据维度,并作为其它有监督学习的输入C、获得更多的特征D、替代线性回归11、数字图像处理中常使用主成分分析(PCA)来对数据进行降维,下列关于PCA算法错误的是:( C )A、PCA算法是用较少数量的特征对样本进行描述以达到降低特征空间维数的方法;B、PCA本质是KL-变换;C、PCA是最小绝对值误差意义下的最优正交变换;D、PCA算法通过对协方差矩阵做特征分解获得最优投影子空间,来消除模式特征之间的相关性、突出差异性;12、将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( C )A、频繁模式挖掘B、分类和预测C、数据预处理D、数据流挖掘13、假设使用维数降低作为预处理技术,使用PCA将数据减少到k维度。
(完整版)数据挖掘概念课后习题答案

(完整版)数据挖掘概念课后习题答案第 1 章1.6 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。
使⽤你熟悉的现实⽣活的数据库,给出每种数据挖掘功能的例⼦。
特征化是⼀个⽬标类数据的⼀般特性或特性的汇总。
例如,学⽣的特征可被提出,形成所有⼤学的计算机科学专业⼀年级学⽣的轮廓,这些特征包括作为⼀种⾼的年级平均成绩(GPA:Grade point a ve r s ge) 的信息,还有所修的课程的最⼤数量。
区分是将⽬标类数据对象的⼀般特性与⼀个或多个对⽐类对象的⼀般特性进⾏⽐较。
例如,具有⾼GPA 的学⽣的⼀般特性可被⽤来与具有低GPA 的⼀般特性⽐较。
最终的描述可能是学⽣的⼀个⼀般可⽐较的轮廓,就像具有⾼GPA 的学⽣的75%是四年级计算机科学专业的学⽣,⽽具有低GPA 的学⽣的65%不是。
关联是指发现关联规则,这些规则表⽰⼀起频繁发⽣在给定数据集的特征值的条件。
例如,⼀个数据挖掘系统可能发现的关联规则为:m a j or(X,“c omput i ng s c i e nc e”) ?owns(X, “pe r s ona l c omput e r”)[s uppor t=12%,c on f i d e nc e=98%]其中,X 是⼀个表⽰学⽣的变量。
这个规则指出正在学习的学⽣,12%(⽀持度)主修计算机科学并且拥有⼀台。
个⼈计算机。
这个组⼀个学⽣拥有⼀台个⼈电脑的概率是98%(置信度,或确定度)分类与预测不同,因为前者的作⽤是构造⼀系列能描述和区分数据类型或概念的模型(或,⽽后者是建⽴⼀个模型去预测缺失的或⽆效的、并且通常是数字的数据值。
它们的功能)相似性是他们都是预测的⼯具:分类被⽤作预测⽬标数据的类的标签,⽽预测典型的应⽤是预测缺失的数字型数据的值。
聚类分析的数据对象不考虑已知的类标号。
对象根据最⼤花蕾内部的相似性、最⼩化类之间的相似性的原则进⾏聚类或分组。
形成的每⼀簇可以被看作⼀个对象类。
数据挖掘练习题附答案

数据挖掘练习题A一、简答题1. 数据对象之间的相似性可用距离来衡量,常见的距离形式有哪些?答:曼哈顿距离,欧几里得距离,切比雪夫距离,闵可夫斯基距离,杰卡德距离2. 简述朴素贝叶斯分类的基本思想。
答:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个概率最大,就认为此待分类项属于哪个类别。
1)设x={a!,a",…,a#}为一个待分类项,a为x的特征属性;2)有类别集合C={y!,y",…,y$}3) 计算p(y!|x),p(y"|x),… p(y$|x)4) 如果p(y%|x)=max {p(y!|x),p(y"|x),…,p(y%|x)},则x∈y%3. 在做数据清洗时,如何处理缺失值?答:处理缺失值的方法有3种:1)忽略元组;2)数据补齐,包括人工填写、特殊值填充、平均值填充、使用最可能的值填充;3)不处理。
4. 简述K-means算法的基本步骤。
答:1)任意选择k个对象作为初始的簇中心;2)计算其它对象与这k个中心的距离,然后把每个对象归入离它“最近”的簇;3)计算各簇中对象的平均值,然后选择簇中心(离平均值“最近”的簇);4)重复第2步到第3步直到簇中心不再变化为止。
5. 在关联规则中,支持度(support)和置信度(confidence)的含义分别是什么?答:支持度support(x->y)=p(x,y),表示项集中同时含有x和y的概率。
置信度confidence(x->y)=p(y/x),表示在关联规则的先决条件x发生的条件下,关联结果y发生的概率,即含有x的项集中,同时含有y的可能性。
二、计算题1.假定属性A的取值x在[x_min,x_max]之间,其中x_min和x_max分别为属性A的最小值和最大值,请利用最小-最大规范化方法(也称离差标准化,是对原始数据的线性变化),将x转化到新的区间[y_min,y_max]中,结果用x’表示。
数据挖掘考试题库及答案

数据挖掘考试题库及答案一、选择题1. 数据挖掘是从大量数据中提取有价值信息的过程,以下哪项不是数据挖掘的主要任务?A. 预测B. 分类C. 聚类D. 数据可视化答案:D2. 以下哪种技术不属于数据挖掘的常用方法?A. 决策树B. 支持向量机C. 关联规则D. 数据仓库答案:D3. 数据挖掘中,以下哪项技术常用于分类和预测?A. 神经网络B. K-均值聚类C. 主成分分析D. 决策树答案:D4. 在数据挖掘中,以下哪个概念表示数据集中的属性?A. 数据项B. 数据记录C. 数据属性D. 数据集答案:C5. 数据挖掘中,以下哪个算法用于求解关联规则?A. Apriori算法B. ID3算法C. K-Means算法D. C4.5算法答案:A二、填空题6. 数据挖掘的目的是从大量数据中提取______信息。
答案:有价值7. 在数据挖掘中,分类任务分为有监督学习和______学习。
答案:无监督8. 决策树是一种用于分类和预测的树形结构,其核心思想是______。
答案:递归划分9. 关联规则挖掘中,支持度表示某个项集在数据集中的出现频率,置信度表示______。
答案:包含项集的记录中同时包含结论的记录的比例10. 数据挖掘中,聚类分析是将数据集划分为若干个______的子集。
答案:相似三、判断题11. 数据挖掘只关注大量数据中的异常值。
()答案:错误12. 数据挖掘是数据仓库的一部分。
()答案:正确13. 决策树算法适用于处理连续属性的分类问题。
()答案:错误14. 数据挖掘中的聚类分析是无监督学习任务。
()答案:正确15. 关联规则挖掘中,支持度越高,关联规则越可靠。
()答案:错误四、简答题16. 简述数据挖掘的主要任务。
答案:数据挖掘的主要任务包括预测、分类、聚类、关联规则挖掘、异常检测等。
17. 简述决策树算法的基本原理。
答案:决策树算法是一种自顶向下的递归划分方法。
它通过选择具有最高信息增益的属性进行划分,将数据集划分为若干个子集,直到满足停止条件。
数据挖掘习题及解答-完美版

Data Mining Take Home Exam学号: xxxx 姓名: xxx 1. (20分)考虑下表的数据集。
(1)计算整个数据集的Gini 指标值。
(2)计算属性性别的Gini 指标值(3)计算使用多路划分属性车型的Gini 指标值 (4)计算使用多路划分属性衬衣尺码的Gini 指标值(5)下面哪个属性更好,性别、车型还是衬衣尺码?为什么? 解:(1) Gini=1-(10/20)^2-(10/20)^2=0.5 (2)Gini=[{1-(6/10)^2-(4/10)^2}*1/2]*2=0.48 (3)Gini={1-(1/4)^2-(3/4)^2}*4/20+{1-(8/8)^2-(0/8)^2}*8/20+{1-(1/8)^2-(7/8)^2}*8/2 0=26/160=0.1625(4)Gini={1-(3/5)^2-(2/5)^2}*5/20+{1-(3/7)^2-(4/7)^2}*7/20+[{1-(2/4)^2-(2/4)^2}*4/ 20]*2=8/25+6/35=0.4914(5)比较上面各属性的Gini值大小可知,车型划分Gini值0.1625最小,即使用车型属性更好。
2. (20分)考虑下表中的购物篮事务数据集。
(1) 将每个事务ID视为一个购物篮,计算项集{e},{b,d} 和{b,d,e}的支持度。
(2)使用(1)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。
(3)将每个顾客ID作为一个购物篮,重复(1)。
应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次,则为1,否则,为0)。
(4)使用(3)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。
答:(1)由上表计数可得{e}的支持度为8/10=0.8;{b,d}的支持度为2/10=0.2;{b,d,e}的支持度为2/10=0.2。
(2)c[{b,d}→{e}]=2/8=0.25; c[{e}→{b,d}]=8/2=4。
(完整word版)数据挖掘题目及答案

(完整word版)数据挖掘题⽬及答案⼀、何为数据仓库?其主要特点是什么?数据仓库与KDD的联系是什么?数据仓库是⼀个⾯向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,⽤于⽀持管理决策。
特点:1、⾯向主题操作型数据库的数据组织⾯向事务处理任务,各个业务系统之间各⾃分离,⽽数据仓库中的数据是按照⼀定的主题域进⾏组织的。
2、集成的数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加⼯、汇总和整理得到的,必须消除源数据中的不⼀致性,以保证数据仓库内的信息是关于整个企业的⼀致的全局信息。
3、相对稳定的数据仓库的数据主要供企业决策分析之⽤,⼀旦某个数据进⼊数据仓库以后,⼀般情况下将被长期保留,也就是数据仓库中⼀般有⼤量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
4、反映历史变化数据仓库中的数据通常包含历史信息,系统记录了企业从过去某⼀时点(如开始应⽤数据仓库的时点)到⽬前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
所谓基于数据库的知识发现(KDD)是指从⼤量数据中提取有效的、新颖的、潜在有⽤的、最终可被理解的模式的⾮平凡过程。
数据仓库为KDD提供了数据环境,KDD从数据仓库中提取有效的,可⽤的信息⼆、数据库有4笔交易。
设minsup=60%,minconf=80%。
TID DATE ITEMS_BOUGHTT100 3/5/2009 {A, C, S, L}T200 3/5/2009 {D, A, C, E, B}T300 4/5/2010 {A, B, C}T400 4/5/2010 {C, A, B, E}使⽤Apriori算法找出频繁项集,列出所有关联规则。
解:已知最⼩⽀持度为60%,最⼩置信度为80%1)第⼀步,对事务数据库进⾏⼀次扫描,计算出D中所包含的每个项⽬出现的次数,⽣成候选1-项集的集合C1。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Data Mining Take Home Exam
学号: xxxx 姓名: xxx
(1)计算整个数据集的Gini指标值。
(2)计算属性性别的Gini指标值
(3)计算使用多路划分属性车型的Gini指标值
(4)计算使用多路划分属性衬衣尺码的Gini指标值
(5)下面哪个属性更好,性别、车型还是衬衣尺码为什么
(3)
/20+{1-(1/8)^2-(7/8)^2}*8/20=26/160 =
/4)^2-(2/4)^2}*4/20]*2=8/2 5+6/35=
(5)
比较上面各属性的Gini值大小可知,车型划分Gini值最小,即使用车型属性更好。
2. (
(1) 将每个事务ID视为一个购物篮,计算项集{e},{b,d} 和{b,d,e}的支持度。
(2)使用(1)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。
(3)将每个顾客ID作为一个购物篮,重复(1)。
应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次,则为1,否则,为0)。
(4)使用(3)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。
答:(1)由上表计数可得{e}的支持度为8/10=;{b,d}的支持度为2/10=;{b,d,e}
的支持度为2/10=。
(2)c[{b,d}→{e}]=2/8=; c[{e}→{b,d}]=8/2=4。
(3)同理可得:{e}的支持度为4/5=,{b,d}的支持度为5/5=1,{b,d,e}的支持度为4/5=。
(4)c[{b,d}→{e}]=5/4=,c[{e}→{b,d}]=4/5=。
3. (20分)以下是多元回归分析的部分R输出结果。
> ls1=lm(y~x1+x2)
> anova(ls1)
Df Sum Sq Mean Sq F value Pr(>F)
x1 1 ***
x2 1 **
Residuals 7
> ls2<-lm(y~x2+x1)
> anova(ls2)
Df Sum Sq Mean Sq F value Pr(>F)
x2 1 **
x1 1 ***
Residuals 7
(1)用F检验来检验以下假设(α =
H0: β1 = 0
H a: β1≠ 0
计算检验统计量;是否拒绝零假设,为什么
(2)用F检验来检验以下假设(α =
H0: β2 = 0
H a: β2≠ 0
计算检验统计量;是否拒绝零假设,为什么
(3)用F检验来检验以下假设(α =
H0: β1 = β2 = 0
H a: β1和β2 并不都等于零
计算检验统计量;是否拒绝零假设,为什么
解:(1)根据第一个输出结果F=>F(2,7)=,p<,所以可以拒绝原假设,即得到不等于0。
(2)同理,在α=的条件下,F=>F(2,7)=,p<,即拒绝原假设,得到不等于0。
(3)F={(+)/2}/(7)=>F=(2,7)=,即拒绝原假设,得到和并不都等于0。
4. (20分)考虑下面20个观测值:
[1]
[6]
[11]
[16]
(1)用3*S 标准来检测该数据中是否存在异常值。
(2)用*IQR 标准来检测该数据中是否存在异常值。
要求提供均值、标准差、IQR值和所用的区间,以及你判断的依据。
解:数据放入R运行得
> hhh=c,,,,,
+ + ,,,,,
+ + ,,,,,
+ + ,,,,
> mean(hhh)
[1]
> sqrt(var(hhh))
[1]
> jjj<-(hhh-mean(hhh))/sqrt(var(hhh))
> which(abs(jjj)>=3)
[1] 5
> Q1=quantile(hhh,
> Q3=quantile(hhh,
> IQR=Q3-Q1
> Q1
25%
> Q3
75%
> IQR
75%
> kk<*IQR
> ll<-Q3+*IQR
> which(hhh<kk)
[1] 1
> which(hhh>ll)
[1] 5
>
(1)由以上数据处理可得第五个数据为异常值。
(2)由数据分析可以得出第一个和第五个均为异常值。
5. 简述题(20分)。
(1)在这门课中你学习了几种聚类分析的算法简述这几种算法的基本工作原理。
答:(1)学习了三种聚类分析算法,分别为系统聚类分析、K均值分析和DBSCAN
分析。
其中系统聚类又分为许多种计算规则,主要的有最短距离法、最长距离法、重心法、离差平方和法及类平均法等,其主要思想是在不同方法下把客观认为最相近的两类合并为一类,再次执行并类步骤,那么就可以把所有的观测值都聚为一类,对于想要知道分多少类的具体情况有很大的帮助,可以依照树状聚类图得到清晰的表示。
K-均值聚类原理是依一定观测值的均值来确定聚类中心,从而根据其他的观测值和中心的距离来判断归为哪一类中。
该聚类方法事先需要确定要分的类别数据,计算量要小得多,效率比层次聚类要高。
但对于想要知道其他几类的分类情况就需要重新计算分析。
DBSCAN分析算法工作原理是对一组观测值优先聚合靠的最近的两个值,然后再寻找下一个靠的最近的值,依次类推,最后得到用户想要的簇的种类。
其中可能会出现噪声点,那么根据区间半径考虑是否舍弃的情况。
(2)关联规则挖掘任务主要分为哪几个主要的子任务简述你学到的算法在这些子任务中的工作原理。
答:主要分为两个子任务:频繁项集的产生和关联规则的产生。
第一种算法是Apriori算法是基于支持度的剪枝技术,系统地控制候选项集指数增长。
根据先验原理,对一个系统所有的项集从最简单的集合到最复杂的集合采取逐层检验步骤,计算各项的支持度和置信度大小和阕值比较,即测试过程;对指定的非频繁项集和包含该非频繁项集的非频繁项采取舍弃操作,即剪枝过程;直到没有新的非频繁项集产生时,执行算法结束过程。