数据挖掘在线作业
数据挖掘作业1

数据挖掘技术选修课大作业学院:计算机学院专业:软件工程姓名:王小妮班级:软工1201学号:12080101071.1数据挖掘技术的定义1.2数据挖掘的含义1.3数据挖掘商业角度的定义1.4数据挖掘和数据仓库1.5数据挖掘和在线分析处理1.6软硬件发展对数据挖掘的影响2数据挖掘的典型技术2.1聚类分析2.1关联规则2.3回归分析2.4其他技术3数据挖掘技术的应用3.1在intnet的应用3.2在金融的应用4学习收获参考文献:1.1数据挖掘技术的定义数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
1.2数据挖掘技术的含义与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。
这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
----何为知识?从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。
人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。
原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。
发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。
发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。
因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。
在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。
《数据挖掘》试题与答案(2021年整理精品文档)

《数据挖掘》试题与答案编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(《数据挖掘》试题与答案)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为《数据挖掘》试题与答案的全部内容。
一、解答题(满分30分,每小题5分)1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。
知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。
流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。
2. 时间序列数据挖掘的方法有哪些,请详细阐述之时间序列数据挖掘的方法有:1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。
例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。
2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值.若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。
浙江大学数据挖掘在线作业答案

您的本次作业分数为:100分1.【第001章】孤立点挖掘适用于下列哪种场合?A 目标市场分析B 购物篮分析C 模式识别D 信用卡欺诈检测正确答案:D2.【第01章】根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是()。
A 关联分析B 分类和预测C 演变分析D 概念描述正确答案:B3.【第01章】数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于()。
A 所涉及的算法的复杂性B 所涉及的数据量C 计算结果的表现形式D 是否使用了人工智能技术正确答案:B4.【第01章】下列几种数据挖掘功能中,()被广泛的应用于股票价格走势分析。
A 关联分析B 分类和预测C 聚类分析D 演变分析正确答案:D5.【第01章】下列几种数据挖掘功能中,()被广泛的用于购物篮分析。
A 关联分析B 分类和预测C 聚类分析D 演变分析正确答案:A6.【第01章】帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是()。
A 关联分析B 分类和预测C 聚类分析D 孤立点分析E 演变分析正确答案:C7.【第01章】下面的数据挖掘的任务中,()将决定所使用的数据挖掘功能。
A 选择任务相关的数据B 选择要挖掘的知识类型C 模式的兴趣度度量D 模式的可视化表示正确答案:B8.【第01章】假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是()。
A 关联分析B 分类和预测C 孤立点分析D 演变分析E 概念描述正确答案:E9.【第02章】下列哪种可视化方法可用于发现多维数据中属性之间的两两相关性?A 空间填充曲线B 散点图矩阵C 平行坐标D 圆弓分割正确答案:B10.【第02章】计算一个单位的平均工资,使用哪个中心趋势度量将得到最合理的结果?A 算术平均值B 截尾均值C 中位数D 众数正确答案:B11.【第02章】字段Size = {small, medium, large}属于那种属性类型?A 标称属性B 二元属性C 序数属性D 数值属性正确答案:C12.【第02章】字段Hair_color = {auburn, black, blond, brown, grey, red, white}属于那种属性类型?A 标称属性B 二元属性C 序数属性D 数值属性正确答案:A13.【第03章】哪种数据变换的方法将数据沿概念分层向上汇总?A 平滑B 聚集C 数据概化D 规范化正确答案:C14.【第03章】下面哪种数据预处理技术可以用来平滑数据,消除数据噪声?A 数据清理B 数据集成C 数据变换D 数据归约正确答案:A15.【第03章】()通过将属性域划分为区间,从而减少给定连续值的个数。
数据挖掘练习题附答案

数据挖掘练习题A一、简答题1. 数据对象之间的相似性可用距离来衡量,常见的距离形式有哪些?答:曼哈顿距离,欧几里得距离,切比雪夫距离,闵可夫斯基距离,杰卡德距离2. 简述朴素贝叶斯分类的基本思想。
答:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个概率最大,就认为此待分类项属于哪个类别。
1)设x={a!,a",…,a#}为一个待分类项,a为x的特征属性;2)有类别集合C={y!,y",…,y$}3) 计算p(y!|x),p(y"|x),… p(y$|x)4) 如果p(y%|x)=max {p(y!|x),p(y"|x),…,p(y%|x)},则x∈y%3. 在做数据清洗时,如何处理缺失值?答:处理缺失值的方法有3种:1)忽略元组;2)数据补齐,包括人工填写、特殊值填充、平均值填充、使用最可能的值填充;3)不处理。
4. 简述K-means算法的基本步骤。
答:1)任意选择k个对象作为初始的簇中心;2)计算其它对象与这k个中心的距离,然后把每个对象归入离它“最近”的簇;3)计算各簇中对象的平均值,然后选择簇中心(离平均值“最近”的簇);4)重复第2步到第3步直到簇中心不再变化为止。
5. 在关联规则中,支持度(support)和置信度(confidence)的含义分别是什么?答:支持度support(x->y)=p(x,y),表示项集中同时含有x和y的概率。
置信度confidence(x->y)=p(y/x),表示在关联规则的先决条件x发生的条件下,关联结果y发生的概率,即含有x的项集中,同时含有y的可能性。
二、计算题1.假定属性A的取值x在[x_min,x_max]之间,其中x_min和x_max分别为属性A的最小值和最大值,请利用最小-最大规范化方法(也称离差标准化,是对原始数据的线性变化),将x转化到新的区间[y_min,y_max]中,结果用x’表示。
数据挖掘习题及解答-完美版

Data Mining Take Home Exam学号: xxxx 姓名: xxx 1. (20分)考虑下表的数据集。
(1)计算整个数据集的Gini 指标值。
(2)计算属性性别的Gini 指标值(3)计算使用多路划分属性车型的Gini 指标值 (4)计算使用多路划分属性衬衣尺码的Gini 指标值(5)下面哪个属性更好,性别、车型还是衬衣尺码?为什么? 解:(1) Gini=1-(10/20)^2-(10/20)^2=0.5 (2)Gini=[{1-(6/10)^2-(4/10)^2}*1/2]*2=0.48 (3)Gini={1-(1/4)^2-(3/4)^2}*4/20+{1-(8/8)^2-(0/8)^2}*8/20+{1-(1/8)^2-(7/8)^2}*8/2 0=26/160=0.1625(4)Gini={1-(3/5)^2-(2/5)^2}*5/20+{1-(3/7)^2-(4/7)^2}*7/20+[{1-(2/4)^2-(2/4)^2}*4/ 20]*2=8/25+6/35=0.4914(5)比较上面各属性的Gini值大小可知,车型划分Gini值0.1625最小,即使用车型属性更好。
2. (20分)考虑下表中的购物篮事务数据集。
(1) 将每个事务ID视为一个购物篮,计算项集{e},{b,d} 和{b,d,e}的支持度。
(2)使用(1)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。
(3)将每个顾客ID作为一个购物篮,重复(1)。
应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次,则为1,否则,为0)。
(4)使用(3)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。
答:(1)由上表计数可得{e}的支持度为8/10=0.8;{b,d}的支持度为2/10=0.2;{b,d,e}的支持度为2/10=0.2。
(2)c[{b,d}→{e}]=2/8=0.25; c[{e}→{b,d}]=8/2=4。
(完整word版)数据挖掘题目及答案

(完整word版)数据挖掘题⽬及答案⼀、何为数据仓库?其主要特点是什么?数据仓库与KDD的联系是什么?数据仓库是⼀个⾯向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,⽤于⽀持管理决策。
特点:1、⾯向主题操作型数据库的数据组织⾯向事务处理任务,各个业务系统之间各⾃分离,⽽数据仓库中的数据是按照⼀定的主题域进⾏组织的。
2、集成的数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加⼯、汇总和整理得到的,必须消除源数据中的不⼀致性,以保证数据仓库内的信息是关于整个企业的⼀致的全局信息。
3、相对稳定的数据仓库的数据主要供企业决策分析之⽤,⼀旦某个数据进⼊数据仓库以后,⼀般情况下将被长期保留,也就是数据仓库中⼀般有⼤量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
4、反映历史变化数据仓库中的数据通常包含历史信息,系统记录了企业从过去某⼀时点(如开始应⽤数据仓库的时点)到⽬前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
所谓基于数据库的知识发现(KDD)是指从⼤量数据中提取有效的、新颖的、潜在有⽤的、最终可被理解的模式的⾮平凡过程。
数据仓库为KDD提供了数据环境,KDD从数据仓库中提取有效的,可⽤的信息⼆、数据库有4笔交易。
设minsup=60%,minconf=80%。
TID DATE ITEMS_BOUGHTT100 3/5/2009 {A, C, S, L}T200 3/5/2009 {D, A, C, E, B}T300 4/5/2010 {A, B, C}T400 4/5/2010 {C, A, B, E}使⽤Apriori算法找出频繁项集,列出所有关联规则。
解:已知最⼩⽀持度为60%,最⼩置信度为80%1)第⼀步,对事务数据库进⾏⼀次扫描,计算出D中所包含的每个项⽬出现的次数,⽣成候选1-项集的集合C1。
南开大学《数据挖掘》在线作业5

《数据挖掘》在线作业( )很费时,并且当数据集很大、缺失很多值时,该方法可能行不通。
A:人工填写缺失值方法B:全局常量填充C:自动填充D:删除参考选项:A数据仓库和OLAP工具基于多维数据模型。
该模型将数据看作( )形式。
A:数据立方体(data cube)B:整数C:离散D:不同参考选项:ADBSCAN在最坏情况下的时间复杂度是( )。
A:O(m)B:O(m2)C:O(log m)D:O(m*log m)参考选项:B( )可以用来把数据变换到多个粒度层。
例如,关于销售的数据挖掘模式除了在单个分店挖掘之外,还可以针对指定的地区或国家挖掘。
A:概念分层B:聚类C:数据变换D:数据归约参考选项:A以下属于可伸缩聚类算法的是( )。
A:CUREB:DENCLUEC:CLIQUED:OPOSSUM参考选项:A只有非零值才重要的二元属性被称作( )。
A:计数属性B:离散属性C:非对称的二元属性D:对称属性参考选项:C( )用替代的、较小的数据表示形式替换原数据。
A:维归约B:数量归约C:离散D:聚集参考选项:B下列( )不是将主观信息加入到模式发现任务中的方法。
A:与同一时期其他数据对比B:可视化C:基于模板的方法D:主观兴趣度量参考选项:A( )是KDD。
A:数据挖掘与知识发现B:领域知识发现C:文档知识发现D:动态知识发现参考选项:A( )通常以可变长度的字节串存储,并且为便于数据的引用,数据片段要相互链接或建立多维方式的索引。
A:文本数据B:多媒体数据C:时间数据D:空间数据参考选项:B设X={1,2,3}是频繁项集,则可由X产生( )个关联规则。
A:4B:5C:6D:7参考选项:C假定用于分析的数据包含属性age。
数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46 ,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。
数据挖掘习题及解答-完美版

Data Mining Take Home Exam学号: xxxx 姓名: xxx(1)计算整个数据集的Gini指标值。
(2)计算属性性别的Gini指标值(3)计算使用多路划分属性车型的Gini指标值(4)计算使用多路划分属性衬衣尺码的Gini指标值(5)下面哪个属性更好,性别、车型还是衬衣尺码?为什么?(3)=26/160=0.1625]*2=8/25+6/35=0.4914(5)比较上面各属性的Gini值大小可知,车型划分Gini值0.1625最小,即使用车型属性更好。
2. ((1) 将每个事务ID视为一个购物篮,计算项集{e},{b,d} 和{b,d,e}的支持度。
(2)使用(1)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。
(3)将每个顾客ID作为一个购物篮,重复(1)。
应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次,则为1,否则,为0)。
(4)使用(3)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。
答:(1)由上表计数可得{e}的支持度为8/10=0.8;{b,d}的支持度为2/10=0.2;{b,d,e}的支持度为2/10=0.2。
(2)c[{b,d}→{e}]=2/8=0.25; c[{e}→{b,d}]=8/2=4。
(3)同理可得:{e}的支持度为4/5=0.8,{b,d}的支持度为5/5=1,{b,d,e}的支持度为4/5=0.8。
(4)c[{b,d}→{e}]=5/4=1.25,c[{e}→{b,d}]=4/5=0.8。
3. (20分)以下是多元回归分析的部分R输出结果。
> ls1=lm(y~x1+x2)> anova(ls1)Df Sum Sq Mean Sq F value Pr(>F)x1 1 10021.2 10021.2 62.038 0.0001007 ***x2 1 4030.9 4030.9 24.954 0.0015735 **Residuals 7 1130.7 161.5> ls2<-lm(y~x2+x1)> anova(ls2)Df Sum Sq Mean Sq F value Pr(>F)x2 1 3363.4 3363.4 20.822 0.002595 **x1 1 10688.7 10688.7 66.170 8.193e-05 ***Residuals 7 1130.7 161.5(1)用F检验来检验以下假设(α = 0.05)H0: β1 = 0H a: β1≠ 0计算检验统计量;是否拒绝零假设,为什么?(2)用F检验来检验以下假设(α = 0.05)H0: β2 = 0H a: β2≠ 0计算检验统计量;是否拒绝零假设,为什么?(3)用F检验来检验以下假设(α = 0.05)H0: β1 = β2 = 0H a: β1和β2 并不都等于零计算检验统计量;是否拒绝零假设,为什么?解:(1)根据第一个输出结果F=62.083>F(2,7)=4.74,p<0.05,所以可以拒绝原假设,即得到不等于0。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘您的本次作业分数为:95分单选题1.【第001章】孤立点挖掘适用于下列哪种场合?A 目标市场分析B 购物篮分析C 模式识别D 信用卡欺诈检测正确答案:D单选题2.【第01章】数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于()。
A 所涉及的算法的复杂性B 所涉及的数据量C 计算结果的表现形式D 是否使用了人工智能技术正确答案:B单选题3.【第01章】帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是()。
A 关联分析B 分类和预测C 聚类分析D 孤立点分析E 演变分析正确答案:C单选题4.【第01章】假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是()。
A 关联分析B 分类和预测C 孤立点分析D 演变分析E 概念描述正确答案:E单选题5.【第01章】下面的数据挖掘的任务中,()将决定所使用的数据挖掘功能。
A 选择任务相关的数据B 选择要挖掘的知识类型C 模式的兴趣度度量D 模式的可视化表示正确答案:B单选题6.【第01章】根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是()。
A 关联分析B 分类和预测C 演变分析D 概念描述正确答案:B单选题7.【第01章】下列几种数据挖掘功能中,()被广泛的应用于股票价格走势分析。
A 关联分析B 分类和预测C 聚类分析D 演变分析正确答案:D单选题8.【第01章】下列几种数据挖掘功能中,()被广泛的用于购物篮分析。
A 关联分析B 分类和预测C 聚类分析D 演变分析正确答案:A单选题9.【第02章】字段Size = {small, medium, large}属于那种属性类型?A 标称属性B 二元属性C 序数属性D 数值属性正确答案:C单选题10.【第02章】计算一个单位的平均工资,使用哪个中心趋势度量将得到最合理的结果?A 算术平均值B 截尾均值C 中位数D 众数正确答案:B单选题11.【第02章】字段Hair_color = {auburn, black, blond, brown, grey, red, white}属于那种属性类型?A 标称属性B 二元属性C 序数属性D 数值属性正确答案:A单选题12.【第02章】下列哪种可视化方法可用于发现多维数据中属性之间的两两相关性?A 空间填充曲线B 散点图矩阵C 平行坐标D 圆弓分割正确答案:B单选题13.【第03章】数据的噪声是指()。
A 孤立点B 空缺值C 测量变量中的随即错误或偏差D 数据变换引起的错误正确答案:C单选题14.【第03章】()通过将属性域划分为区间,从而减少给定连续值的个数。
A 概念分层B 离散化C 分箱D 直方图正确答案:B单选题15.【第03章】数据归约的目的是()。
A 填补数据种的空缺值B 集成多个数据源的数据C 得到数据集的压缩表示D 规范化数据正确答案:C单选题16.【第03章】进行数据规范化的目的是()。
A 去掉数据中的噪声B 对数据进行汇总和聚集C 使用概念分层,用高层次概念替换低层次“原始”数据D 将属性按比例缩放,使之落入一个小的特定区间正确答案:D单选题17.【第03章】下面哪种数据预处理技术可以用来平滑数据,消除数据噪声?A 数据清理B 数据集成C 数据变换D 数据归约正确答案:A单选题18.【第03章】哪种数据变换的方法将数据沿概念分层向上汇总?A 平滑B 聚集C 数据概化D 规范化正确答案:C多选题19.【第03章】下面哪些问题是我们进行数据预处理的原因?A 数据中的空缺值B 噪声数据C 数据中的不一致性D 数据中的概念分层正确答案:ABC多选题20.【第03章】以下哪些原因可能引起空缺值?正确答案:ACDA 设备异常B 命名规则的不一致C 与其他已有数据不一致而被删除D 在输入时,有些数据因为得不到重视而没有被输入正确答案:ACD多选题21.【第03章】下列哪些是数据变换可能涉及的内容?A 数据压缩B 数据概化C 维归约D 规范化正确答案:BD多选题22.【第03章】数据清理的目的是处理数据中的()。
A 空缺值B 噪声数据C 不一致数据D 敏感数据正确答案:ABC单选题23.【第04章】平均值函数avg()属于哪种类型的度量?A 分布的B 代数的C 整体的D 混合的正确答案:B单选题24.【第04章】哪种OLAP操作可以让用户在更高的抽象层,更概化的审视数据?A 上卷B 下钻C 切块D 转轴正确答案:A单选题25.【第04章】下面的数据操作中,哪些操作不是多维数据模型上的OLAP操作?A 上卷(roll-up)B 选择(select)C 切片(slice)D 转轴(pivot)正确答案:B单选题26.【第04章】存放最低层汇总的方体称为()。
A 顶点方体B 方体的格C 基本方体D 维正确答案:C单选题27.【第04章】以下哪个范围是数据仓库的数据库规模的一个合理范围?A 1-100MB 100M-10GC 10-1000GD 100GB-数TB正确答案:D多选题28.【第04章】以下哪些是数据仓库的主要应用?A 信息处理B 互联网搜索C 分析处理D 数据挖掘正确答案:ACD多选题29.【第04章】数据仓库的三层架构主要包括以下哪三部分?A 数据源B 数据仓库服务器C OLAP服务器D 前端工具正确答案:BCD多选题30.【第04章】从结构的角度看,数据仓库模型包括以下几类()。
A 企业仓库B 数据集市C 虚拟仓库D 信息仓库正确答案:ABC多选题31.【第04章】OLAP系统和OLTP系统的主要区别包括()。
A OLTP系统主要用于管理当前数据,而OLAP系统主要存放的是历史数据B 在数据的存取上,OLTP系统比OLAP系统有着更多的写操作C 对OLTP系统上的数据访问量往往比对OLAP系统的数据访问量要大得多D OLAP系统中往往存放的是汇总的数据,而OLTP系统中往往存放详细的数据正确答案:ABD单选题32.【第08章】下面哪种分类方法是属于神经网络学习算法?A 判定树归纳B 贝叶斯分类C 后向传播分类D 基于案例的推理正确答案:C单选题33.【第08章】下列哪个描述是正确的?A 分类和聚类都是有指导的学习B 分类和聚类都是无指导的学习C 分类是有指导的学习,聚类是无指导的学习D 分类是无指导的学习,聚类是有指导的学习正确答案:C单选题34.【第08章】下面哪种分类方法是属于统计学的分类方法?A 判定树归纳B 贝叶斯分类C 后向传播分类D 基于案例的推理正确答案:B单选题35.【第10章】以下哪个指标不是表示对象间的相似度和相异度?A Euclidean距离B Manhattan距离C Eula距离D Minkowski距离正确答案:C单选题36.【第10章】以下哪种聚类方法可以发现任意形状的聚类?A 划分的方法B 基于模型的方法C 基于密度的方法D 层次的方法正确答案:C单选题37.【第10章】下面那种数据挖掘方法可以用来检测孤立点?A 概念描述B 分类和预测C 聚类分析D 演变分析正确答案:C单选题38.【第6 7章】规则:age(X,”19-25”) ∧buys(X, “popcorn”) => buys(X, “coke”)是一个()。
A 单维关联规则B 多维关联规则C 混合维关联规则D 不是一个关联规则正确答案:B单选题39.【第6 7章】根据关联分析中所处理的值类型,可以将关联规则分类为()。
A 布尔关联规则和量化关联规则B 单维关联规则和多维关联规则C 单层关联规则和多层关联规则D 简答关联规则和复杂关联规则正确答案:A单选题40.【第6 7章】下列几种数据挖掘功能中,()被广泛的用于购物篮分析。
A 关联分析B 分类和预测C 聚类分析D 演变分析正确答案:A单选题41.【第6 7章】支持度(support)是衡量兴趣度度量()的指标。
A 实用性B 确定性C 简洁性D 新颖性正确答案:A单选题42.【第6 7章】置信度(confidence)是衡量兴趣度度量()的指标。
A 简洁性B 确定性C 实用性D 新颖性正确答案:B多选题43.【第6 7章】Apriori算法所面临的主要的挑战包括()。
正确答案:BCDA 会消耗大量的内存B 会产生大量的候选项集C 对候选项集的支持度计算非常繁琐D 要对数据进行多次扫描正确答案:BCD多选题44.【第6 7章】根据关联分析中所涉及的抽象层,可以将关联规则分类为()。
A 布尔关联规则B 单层关联规则C 多维关联规则D 多层关联规则正确答案:BD多选题45.【第6 7章】根据关联分析中所涉及的数据维,可以将关联规则分类为()。
A 布尔关联规则B 单维关联规则C 多维关联规则D 多层关联规则正确答案:BC加入错题集关闭窗体底端。