数据挖掘导论 第六章 中文答案

合集下载

数据挖掘试题参考答案

数据挖掘试题参考答案

大学课程《数据挖掘》试题参考答案范围:∙ 1.什么是数据挖掘?它与传统数据分析有什么区别?定义:数据挖掘(Data Mining,DM)又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。

数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。

区别:(1)数据挖掘的数据源与以前相比有了显著的改变;数据是海量的;数据有噪声;数据可能是非结构化的;(2)传统的数据分析方法一般都是先给出一个假设然后通过数据验证,在一定意义上是假设驱动的;与之相反,数据挖掘在一定意义上是发现驱动的,模式都是通过大量的搜索工作从数据中自动提取出来。

即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。

在缺乏强有力的数据分析工具而不能分析这些资源的情况下,历史数据库也就变成了“数据坟墓”-里面的数据几乎不再被访问。

也就是说,极有价值的信息被“淹没”在海量数据堆中,领导者决策时还只能凭自己的经验和直觉。

因此改进原有的数据分析方法,使之能够智能地处理海量数据,即演化为数据挖掘。

∙ 2.请根据CRISP-DM(Cross Industry Standard Process for Data Mining)模型,描述数据挖掘包含哪些步骤?CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述.该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段.1: business understanding: 即商业理解. 在第一个阶段我们必须从商业的角度上面了解项目的要求和最终目的是什么. 并将这些目的与数据挖掘的定义以及结果结合起来.2.data understanding: 数据的理解以及收集,对可用的数据进行评估.3: data preparation: 数据的准备,对可用的原始数据进行一系列的组织以及清洗,使之达到建模需求.4:modeling: 即应用数据挖掘工具建立模型.5:evaluation: 对建立的模型进行评估,重点具体考虑得出的结果是否符合第一步的商业目的.6: deployment: 部署,即将其发现的结果以及过程组织成为可读文本形式.(数据挖掘报告)∙ 3.请描述未来多媒体挖掘的趋势随着多媒体技术的发展,人们接触的数据形式不断地丰富,多媒体数据库的日益增多,原有的数据库技术已满足不了应用的需要,人们希望从这些媒体数据中得到一些高层的概念和模式,找出蕴涵于其中的有价值的知识。

数据挖掘智慧树知到课后章节答案2023年下山东建筑大学

数据挖掘智慧树知到课后章节答案2023年下山东建筑大学

数据挖掘智慧树知到课后章节答案2023年下山东建筑大学山东建筑大学第一章测试1.下列属于大数据时代特征的是:答案:非结构化数据越来越多;数据类型越来越复杂;大人群产生了大量数据2.对数据挖掘内涵描述正确的是答案:数据挖掘的对象一般是大量的不完整的数据;挖掘的结果可以是出乎意料的规则和内容3.聚类分析是预测型的数据挖掘,而关联分析是描述型的。

答案:错4.描述“性别”的属性是二元分类属性。

答案:对5.下列是分类型属性的是:答案:信用等级:3(级别为1-5,数值越高信用级别越高);邮政编码:250101 6.区间属性可以计算两个属性之间的倍数。

答案:错7.具有有限个值的属性才是离散属性。

答案:错8.定量属性可以取整数值。

答案:对9.关于连续属性与离散属性,下列说法正确的是:答案:连续属性的比率不一定有意义;连续属性有无限个取值10.连续属性可以进行离散转化成离散属性。

答案:对第二章测试1.和数据库中的数据一样,数据仓库中的数据也可以进行修改和删除。

答案:错2.以下哪项是元数据的包含的内容?答案:数据的更新频率;数据所做的转换;数据元素的含义;数据的来源3.事实表中存储的是维度。

答案:错4.数据仓库的数据是面向主题的,主题与业务系统中的数据库是一一对应的。

答案:错5.下列哪项不是OLAP多维分析操作?答案:透视6.维的层次越高,数据的粒度越大。

答案:对7.在OLAP多维分析操作中,旋转操作不改变数据,只是改变了数据集的展示方位。

答案:对8.星型模型不能表达维度的层次。

答案:对9.OLTP系统中的数据是数据仓库数据的主要来源。

答案:对10.数据仓库中不存储早期细节的数据。

答案:错第三章测试1.Mondrian中Schema是以XML文件的形式定义的。

Cube由维度构建出来的多维空间,是一系列Dimension Measure的集合区域,它们共用一个事实表。

答案:对2.维度表是事实表的一部分。

答案:错3.事实表是维表的一部分。

数据挖掘课后标准标准答案

数据挖掘课后标准标准答案

个人收集整理仅供参考学习第一章1.6(1)数据特征化是目标类数据地一般特性或特征地汇总.例如,在某商店花费1000 元以上地顾客特征地汇总描述是:年龄在40— 50 岁、有工作和很好地信誉等级.(2)数据区分是将目标类数据对象地一般特性与一个或多个对比类对象地一般特性进行比较.例如,高平均分数地学生地一般特点,可与低平均分数地学生地一般特点进行比较.由此产生地可能是一个相当普遍地描述,如平均分高达75%地学生是大四地计算机科学专业地学生,而平均分低于65%地学生则不是.b5E2RGbCAP(3)关联和相关分析是指在给定地频繁项集中寻找相关联地规则.例如,一个数据挖掘系统可能会发现这样地规则:专业(X,“计算机科学”)=>拥有(X,”个人电脑“) [support= 12 %, confidence = 98 %] ,其中 X 是一个变量,代表一个学生,该规则表明, 98%地置信度或可信性表示,如果一个学生是属于计算机科学专业地,则拥有个人电脑地可能性是98%.12%地支持度意味着所研究地所有事务地12%显示属于计算机科学专业地学生都会拥有个人电脑.p1EanqFDPw(4)分类和预测地不同之处在于前者是构建了一个模型(或函数),描述和区分数据类或概念,而后者则建立了一个模型来预测一些丢失或不可用地数据,而且往往是数值,数据集地预测 .它们地相似之处是它们都是为预测工具:分类是用于预测地数据和预测对象地类标签,预测通常用于预测缺失值地数值数据. DXDiTa9E3d例如:某银行需要根据顾客地基本特征将顾客地信誉度区分为优良中差几个类别,此时用到地则是分类;当研究某只股票地价格走势时,会根据股票地历史价格来预测股票地未来价格,此时用到地则是预测. RTCrpUDGiT(5)聚类分析数据对象是根据最大化类内部地相似性、最小化类之间地相似性地原则进行聚类和分组 . 聚类还便于分类法组织形式,将观测组织成类分层结构,把类似地事件组织在一起 . 5PCzVD7HxA例如:世界上有很多种鸟,我们可以根据鸟之间地相似性,聚集成n 类,其中n 可以认为规定 .(6)数据演变分析描述行为随时间变化地对象地规律或趋势,并对其建模 . 这可能包括时间相关数据地特征化、区分、关联和相关分、分类、预测和聚类,这类分析地不同特点包括时间序列数据分析、序列或周期模式匹配和基于相似性地数据分析. jLBHrnAILg例如:假设你有纽约股票交易所过去几年地主要股票市场(时间序列)数据,并希望投资高科技产业公司地股票 . 股票交易数据挖掘研究可以识别整个股票市场和特定地公司地股票地演变规律 . 这种规律可以帮助预测股票市场价格地未来走向,帮助你对股票投资做决策. xHAQX74J0X1. 11 一种是聚类地方法,另一种是预测或回归地方法.(1)聚类方法:聚类后,不同地聚类代表着不同地集群数据. 这些数据地离群点,是不属于任何集群 .在各种各样地聚类方法当中,基于密度地聚类可能是最有效地.LDAYtRyKfE(2)使用预测或回归技术:构建一个基于所有数据地概率(回归)模型,如果一个数据点地预测值有很大地不同给定值,然后给定值可考虑是异常地.Zzz6ZB2Ltk用聚类地方法来检查离群点更为可靠,因为聚类后,不同地聚类代表着不同地集群数据,离群点是不属于任何集群地,这是根据原来地真实数据所检查出来地离群点.而用预测或回归方法,是通过构建一个基于所有数据地(回归)模型,然后根据预测值与原始数据地值比较,当二者相差很大时,就将改点作为离群点处理,这对所建立地模型有很大地依赖性,另外所建立地模型并不一定可以很好地拟合原来地数据,因此一个点在可能某个模型下可能被当作离群点来处理,而在另外一个模型下就是正常点.所以用聚类地方法来检查离群点更为可靠 dvzfvkwMI11. 15挖掘海量数据地主要挑战是:1)第一个挑战是关于数据挖掘算法地有效性、可伸缩性问题,即数据挖掘算法在大型数据库中运行时间必须是可预计地和可接受地,且算法必须是高效率和可扩展地 .rqyn14ZNXI2)另一个挑战是并行处理地问题,数据库地巨大规模、数据地广泛分布、数据挖掘过程地高开销和一些数据挖掘算法地计算复杂性要求数据挖掘算法必须具有并行处理地能力,即算法可以将数据划分成若干部分,并行处理,然后合并每一个部分地结果.EmxvxOtOco第二章2. 11 三种规范化方法:(1)最小—最大规范化( min-max 规范化):对原始数据进行线性变换,将原始数据映射到一个指定地区间 . SixE2yXPq5v 'v min( new _ max new _ min) new _ minmax min(2) z-score规范化(零均值规范化):将某组数据地值基于它地均值和标准差规范化,是其规范化后地均值为0方差为 1. 6ewMyirQFLv 'v, 其中是均值,是标准差(3)小数定标规范化:通过移动属性 A 地小数点位置进行规范化 .v v j其中, j是使得 Max v1的最小整数10(a)min-max规范化v 'v min( new _ max new _ min)new _ minmax min其中 v 是原始数据, min 和 max 是原始数据地最小和最大值,new_max和 new_min 是要规范化到地区间地上下限kavU42VRUs原始数据2003004006001000 [0,1]规范化00.1250.250.51(b)z-score规范化v 'v, 其中是均值,是标准差20030040060010005001000200500 2(300500) 2(400500) 2(500500) 2(1000500) 2282.84275原始数据2003004006001000z-score-1.06-0.7-0.350.35 1.782.13(1)逐步向前选择开始初始化属性集,设置初始归约集为空集确定原属性集中最好地属性否是所选属性是否超出停止界限 ?把选中地属性添加到归约集中以减少属性设置是否在初始设置中是否还有更多地属性?结束y6v3ALoS89个人收集整理仅供参考学习(2)逐步向后删除开始初始化属性设置为整个属性集确定原属性集中最差地属性否是所选属性是否超出停止界限?删除选中地最差属性,以减少属性地设置否是在初始设置中有更多地属性设置?结束M2ub6vSTnP个人收集整理仅供参考学习(3)向前选择和向后删除地结合个人收集整理仅供参考学习开始初始化属性设置为空集确定原属性集中最好和最差地属性是否所选地最好地属性是否超出停止界限?选择最好地属性加入到归约集中,并在剩余地属性中删除一个最差地属性是否所选地最差地属性是否超出停止界限?从最初地工作集属性中删除选定属性合并设置为减少属性所设置地初始工作地所有剩余地属性是在初始设置中是否有更多地属性设置?否结束0YujCfmUCw第三章3.2 简略比较以下概念,可以用例子解释你地观点( a)雪花形模式、事实星座形、星形网查询模型.答:雪花形和事实星形模式都是变形地星形模式,都是由事实表和维表组成,雪花形模式地维表都是规范化地;而事实星座形地某几个事实表可能会共享一些维表;星形网查询模型是一个查询模型而不是模式模型,它是由中心点发出地涉嫌组成,其中每一条射线代表一个维地概念分层 .eUts8ZQVRd( b)数据清理、数据变换、刷新答:数据清理是指检测数据中地错误,可能时订正它们;数据变换是将数据由遗产或宿主格式转换成数据仓库格式;刷新是指传播由数据源到数据仓库地更新.sQsAEJkW5T3.4(a)雪花形模式图如下:(见 74 页)course 维表univ fact table student 维表area 维表GMsIasNXkA course_idarea_id course_namestudent_id city departmentstudent_id student_name provincecourse_id area_id countrysemester_id majorInstructor_id statusSemester 维表count university avg_gradesemester_idsemesteryearInstructor 维表Instructor_iddeptrank(b)特殊地 QLAP 操作如下所示:(见 79 页)1)在课程维表中,从course_id 到 department 进行上卷操作;2)在学生维表中,从student_id 到 university 进行上卷操作;3)根据以下标准进行切片和切块操作:department= ”CS”and university= ”Big University ”;TIrRGchYzg4)在学生维表中,从university 到 student_id 进行下钻操作.(c)这个立方体将包含54625 个长方体.(见课本88与89页)第五章5.1(a)假设 s 是频繁项集,min_sup 表示项集地最低支持度, D 表示事务数据库.由于 s 是一个频繁项集,所以有7EqZcWLZNXsup port ( s )sup port_ count( s)min_ supD假设 s '是s地一个非空子集,由于support_count( s' ) support_sup(s) ,故有sup port ( s' )supprot_count(s' )min_ supD所以原题得证,即频繁项集地所有非空子集必须也是频繁地.(b )由定义知,sup port(s)sup port_ count( s )D令 s '是 s 地任何一个非空子集,则有sup port ( s')sup prot _ count ( s' )D由( a)可知, support( s')sup prot ( s ) ,这就证明了项集s 地任意非空子集s '地支持度至少和 s 地支持度一样大 .(c)因为confidence( s l s)p(l ), confidence( s'l s' )p(l ) p( s)p( s' )根据( b)有 p( s' )=>p(s)所以 confidence ( s l s )confidence ( s 'l s ')即“ s '=>(l-s ')”地置信度不可能大于“s( l s )”(d )反证法:即是 D 中地任意一个频繁项集在 D 地任一划分中都不是频繁地假设 D 划分成d1,d2,, d n , 设 d1C1,d 2C2,, d n C n,min_sup表示最小支持度, C= D C1C2C NF 是某一个频繁项集,A F , A C min_ sup,D d1 d 2d n设 F 地项集在d1,d2,, d n中分别出现a1 , a2 ,,a n次所以 A=a1a2a n故 A C min_ sup(C1C2C N)min_ sup)( * )个人收集整理仅供参考学习a 1 a 2 a n (C 1 C 2C N ) min_ supF 在 D 的任意一个划分都不是 频繁的a 1 C 1 min_ sup , a 2 C 2 min_ sup , , a n C n min_ sup(a 1 a 2 a n ) (C 1 C 2C N ) min_ supACmin_ sup这与( * )式矛盾从而证明在 D 中频繁地任何项集,至少在 D 地一个部分中是频繁 .5.3最小支持度为 3( a ) Apriori 方法 :C1 L1 C2 L2C3L3lzq7IGf02Em 3 mo 1mk 3 oke 3 okey 3 o m 3 3 ok 3 key23 mkn o 3 2 oe 32mek k 5 2 ke 4 5 my e e 4 3 ky34 oky y333 oe d 1 oy 2 a 1 ke4 u 1 ky 3 c 2 ey2i1FP-growth:RootK:5E:4M:1M:2O:2Y:1O:1Y:1Y:1itemConditional pattern baseConditional tree Frequent pattern个人收集整理仅供参考学习y {{k,e,m,o:1} ,{k,e,o:1} , {k,m:1}}K:3 {k,y:3}o {{k,e,m:1} ,{k,e:2}}K:3, e:3{k,o:3} ,{e,o:3} , {k,e,o:3}m{{k,e:2}, {k:1}}K:3 {k,m:3} e{{k:4}}K:4{k,e:4}这两种挖掘过程地效率比较: Aprior 算法必须对数据库进行多次地扫描,而FP 增长算法是建立在单次扫描地FP 树上 .在 Aprior 算法中生成地候选项集是昂贵地 (需要自身地自连接) ,而 FP-growth 不会产生任何地候选项集 .所以 FP 算法地效率比先验算法地效率要高.zvpgeqJ1hk(b ) k ,oe [ 0. 6,1] e , ok [ 0. 6,1]5.6一个全局地关联规则算法如下:1) 找出每一家商店自身地频繁项集.然后把四个商店自身地频繁项集合并为 CF 项集;2)通过计算四个商店地频繁项集地支持度,然后再相加来确定CF 项集中每个频繁项集地总支持度即全局地支持度.其支持度超过全局支持度地项集就是全局频繁项集 .NrpoJac3v13) 据此可能从全局频繁项集发现强关联规则.5.14support ( hotdogs humbergers )( hotdogshamburgers )200025%(a )500040%5000confidencep ( hotdogs , hamburgers )2000 67% 50%p ( hotdogs )3000所以该关联规则是强规则.corr ( hotdogs ,hamburgers )p ( hotdogs ,hamburgers )() ()(b )p hotdogs p hamburgers2000 50000. 4 413000 5000 2500 50000. 6 2. 5 3所以给定地数据,买hot dogs 并不独立于 hamburgers ,二者之间是正相关 .5.191)挖掘免费地频繁 1-项集,记为 S12)生成频繁项集 S2,条件是商品价值不少于 $200(使用 FP 增长算法)3)从 S1S2找出频繁项集4)根据上面得到地满足最小支持度和置信度地频繁项集,建立规则S1=>S2第六章6.1 简述决策树地主要步骤答:假设数据划分D 是训练元组和对应类标号地集合1)树开始时作为一个根节点N 包含所有地训练元组;2)如果 D 中元组都为同一类,则节点N 成为树叶,并用该类标记它;3)否则,使用属性选择方法确定分裂准则.分裂准则只当分裂属性和分裂点或分裂子集 .4)节点 N 用分裂准则标记作为节点上地测试.对分裂准则地每个输出,由节点N生长一个分枝 .D 中元组厥词进行划分.( 1)如果 A 是离散值,节点N 地测试输出直接对应于 A 地每个已知值.( 2)如果 A 是连续值地,则节点N 地测试有两个可能地输出,分别对应于 A split _ po int 和 A split _ po int .(3)如果A是离散值并且必须产生二叉树,则在节点N 地测试形如“ A S A”,S A是A地分裂子集 .如果给定元组有 A 地值a j,并且a j S A,则节点N 地测试条件满足,从 N 生长出两个分枝.1nowfTG4KI5)对于 D 地每个结果划分 D j,使用同样地过程递归地形成决策树.6)递归划分步骤仅当下列条件之一成立时停止:(1)划分 D 地所有元组都属于同一类;(2)没有剩余地属性可以进一步划分元组;(3)给定分枝没有元组 .6.4计算决策树算法在最坏情况下地计算复杂度是重要地.给定数据集D,具有 n 个属性和|D| 个训练元组,证明决策树生长地计算时间最多为n D log D fjnFLDa5Zo 证明:最坏地可能是我们要用尽可能多地属性才能将每个元组分类,树地最大深度为log(|D|), 在每一层,必须计算属性选择O(n)次,而在每一层上地所有元组总数为 |D|, 所以每一层地计算时间为O(n| D |) ,因此所有层地计算时间总和为tfnNhnE6e5O(n D log D ) ,即证明决策树生长地计算时间最多为n D log D6.5 为什么朴素贝叶斯分类称为“朴素”?简述朴素贝叶斯分类地主要思想.答:( 1)朴素贝叶斯分类称为“朴素”是因为它假定一个属性值对给定类地影响独立于其他属性值 .做此假定是为了简化所需要地计算,并在此意义下称为“朴素”. HbmVN777sL (2 )主要思想:( a)设 D 是训练元组和相关联地类标号地集合.每个元组用一个 n 维属性向量 X { x1, x2 ,, x n } 表示,描述由n 个属性A1, A2,, A n对元组地n个测量.另外,假定有m 个类C1, C2,,C m(b)朴素贝叶斯分类法预测X 属于类 C i,当且仅当P(C i | X )P(C j | X )1j m, j i,因此我们要最大化P(C i | X )P( X | C i )P(C i ),由于 P( X)对于所有类为常数,因此只需要P( X | C i)P(C i)P(X )最大即可.如果类地先验概率未知,则通过假定这些类是等概率地,即P(C 1 ) P(C 2)P(C m ) ,并据此对 P( X | C i ) 最大化, 否则,最大化 P(X | C i ) P(C i ) ,P(C i )| Ci, D|类地训练元组数 .( c )假定 类地先验概率可以用| D |估计 .其中 | C i, D | 是 D 中 C i属性 值有条件地相互独立,则nP( X | C i )P(x k | C i ) P( x 1 | C i ) P( x 2 | C i )P( x n | C i ) ,如果 A k 是分类属k 1性,则 P( x k | C i ) 是 D 中属性 A k 地值为 x k 地 C i 类地元组数除以 D 中 C i 类地元组数 |C i ,D | ;如果 A k 是连续值属性,则 P(x k | C i ) 由高斯分布函数决定 .V7l4jRB8Hs6.13 给定 k 和描述每个元组地属性数 n,写一个 k 最近邻分类算法 .算法:输入:( 1)设 U 是待分配类地元组;( 2 )T 是一 个 训 练 元 组 集 , 包 括 T 1 (t 1,1 , t 1, 2 , , t 1,n ) ,T 2(t 2,1,t2, 2,, t 2, n ), , T m(t m,1,t m,2 ,, t m,n )( 3)假设属性 t i ,n 是 T i 地类标签;( 4) m 为训练元组地个数;( 5) n 为每个元组地描述属性地个数;( 6) k 是我们要找地最邻近数 .输出: U 地分类标签 算法过程:(1)定义矩阵 a[m][2].// ( m 行是存储与 m 个训练元组有关地数据,第一列是存储待分类 元组 U 与训练元组地欧几里得距离,第二列是存储训练元组地序号) 83lcPA59W9(2) for i = 1 to m do fa[i][1] = Euclidean distance(U; Ti);a[i][2] = i;g // save the index, because rows will be sorted later mZkklkzaaP( 3)将 a[i][1] 按升序排列 .( 4)定义矩阵 b[k][2].// 第一列包含地 K -近邻不同地类别, 而第二列保存地是它们各自频数( 5) for i = 1 to k do fif 类标签 ta[i][2];n 已经存在于矩阵 b 中then 矩阵 b 中找出这个类标签所在地行,并使其对应地频数增加 1 eles 将类标签添加到矩阵 b 可能地行中,并使其对应地频数增加 1( 6)将矩阵 b 按类地计数降序排列( 7)返回 b(1).// 返回频数最大地类标签作为U 地类标签 .第七章7.1 简单地描述如何计算由如下类型地变量描述地对象间地相异度:(a)数值(区间标度)变量答:区间标度变量描述地对象间地相异度通常基于每对对象间地距离计算地,常用地距离度量有欧几里得距离和曼哈顿距离以及闵可夫基距离.欧几里得距离地定义如下:AVktR43bpwd (i, j)xi1xj12xi 22xin2xj 2xjn其中 i(x i1 , x i 2 ,,x in ) 和 j( x j 1 , x j 2 ,, x jn ) 是两个n维数据对象.曼哈顿距离地定义: d (i, j )x i1 x j1x x2x j 2x in x jnd (i , j )( xi1xj1pxx2xj 2p闵可夫基距离地定义:xin(b )非对称地二元变量答:如果二元变量具有相同地权值,则一个二元变量地相依表如下:对象j对象 i 在10计算非1q r对称二0s t元变量和q+s r+t地相异px jn)和q+rs+tp1p度时,认为负匹配地情况不那么重要,因此计算相异度时可以忽略,所以二元变量地相异度地计算公式为:r sd(i, j )ORjBnOwcEdq r s(c)分类变量答:分类变量是二元变量地推广,它可以取多于两个状态值.两个对象 i 和 j 之间地相异度可以根据不匹配率来计算: d (i , j )p m,其中 m 是匹配地数目(即对 i 和 j 取值相同状态p地变量地数目),而 p 是全部变量地数目.2MiJTy0dTT另外,通过为M 个状态地每一个创建一个二元变量,可以用非对称二元变量对分类变量编码 .对于一个具有给定状态值地对象,对应于该状态值地二元变量置为1,而其余地二元变量置为 0.gIiSpiue7A(d)比例标度变量答:有以下三种方法:(1)将比例标度变量当成是区间标度标量,则可以用闽可夫基距离、欧几里得距离和曼哈顿距离来计算对象间地相异度 .uEh0U1Yfmh( 2)对比例标度变量进行对数变换,例如对象 i 地变量 f 地值x if变换为y if log( x if ) ,变换得到地 y if可以看作区间值.( 3)将 x if看作连续地序数数据,将其秩作为区间值来对待.(e)非数值向量对象答:为了测量复杂对象间地距离,通常放弃传统地度量距离计算,而引入非度量地相似度函数.例如,两个向量x 和 y,可以将相似度函数定义为如下所示地余弦度量:IAg9qLsgBX x t ys( x, y)xy其中, x t是向量x地转置,x 是向量x地欧几里得范数,y 是向量y地欧几里得范数,s 本质上是向量x 和 y 之间夹角地余弦值 .WwghWvVhPE7.5 简略描述如下地聚类方法:划分方法、层次方法、基于密度地方法、基于网格地方法、基于模型地方法、针对高维数据地方法和基于约束地方法.为每类方法给出例子.asfpsfpi4k (1)划分方法:给定 n 个对象或数据元组地数据可,划分方法构建数据地k 个划分,每个划分表示一个簇, k<=n.给定要构建地划分数目k,划分方法创建一个初始画风.然后采用迭代重定位技术,尝试通过对象在组间移动来改进划分.好地划分地一般准则是:在同一个簇地对象间互相“接近”和相关,而不同簇中地对象之间“远离”或不同.k 均值算法和 k 中心点算法是两种常用地划分方法.ooeyYZTjj1(2)层次方法:层次方法创建给定数据对象集地层次分解.根据层次地分解地形成方式,层次地方法可以分类为凝聚地或分裂地方法.凝聚法,也称自底向上方法,开始将每个对象形成单独地组,然后逐次合并相近地对象或组,直到所有地组合并为一个,或者满足某个终止条件 .分裂法,也称自顶向下方法,开始将所有地对象置于一个簇中.每次迭代,簇分裂为更小地簇,直到最终每个对象在一个簇中,或者满足某个终止条件.BkeGuInkxI(3)基于密度地方法:主要是想是:只要“邻域”中地密度(对象或数据点地数目)超过某个阈值,就继续聚类 .也就是说,对给定簇中地每个数据点,在给定半径地邻域中必须至少包含最少数目地点. 这样地方法可以用来过滤噪声数据(离群点),发现任意形状地簇.DBSCAN 和 OPTICS方法是典型地基于密度地聚类方法.PgdO0sRlMo(4)基于网格地方法:基于网格地方法把对象空间量化为有限数目地单元,形成一个网格结构 .所有地聚类操作都在这个网格结构上进行.这种方法地主要优点是处理速度很快,其处理时间通常独立于数据对象地数目,仅依赖于量化空间中每一维地单元数目.STING是基于网格方法地典型例子 .3cdXwckm15(5)基于模型地方法:基于模型地方法为每簇坚定一个模型,并寻找数据对给定模型地最佳拟合 .基于模型地算法通过构建反映数据点空间分布地密度函数来定位簇.它也导致基于标准统计量自动地确定簇地数目,考虑“噪声”数据和离群点地影响,从而产生鲁棒地聚类方法.COBWEB和 SOM 是基于模型方法地示例 .h8c52WOngM7.7 k 均值和 k 中心点算法都可以进行有效地聚类.概述 k 均值和 k 中心点算法地优缺点.并概述两种方法与层次聚类方法(如AGBES)相比地优缺点.v4bdyGious答:( 1):k 均值和 k 中心点算法地优缺点: k 中心点算法比k 均值算法更鲁棒性,这是因为中线点不想均值那样容易受离群点或其他极端值影响.然而,k 中心点方法执行代价比k 均值算法高 .J0bm4qMpJ9(2)k均值和 k中心点算法与层次聚类方法(如AGBES)相比地优缺点:k均值和k中心点算法都是划分地聚类方法,它们地优点是在聚类是它们前面地步骤可以撤销,而不像层次聚类方法那样,一旦合并或分裂执行,就不能修正,这将影响到聚类地质量.k均值和 k中心点方法对小数据集非常有效,但是对大数据集没有良好地可伸缩性,另外地一个缺点是在聚类前必须知道类地数目 .而层次聚类方法能够自动地确定类地数量,但是层次方法在缩放时会遇到困难,那是因为每次决定合并或分裂时,可能需要一定数量地对象或簇来审核与评价.改善层次聚类方法有:BIRCH, ROCK和 Chameleon算法XVauA9grYP版权申明本文部分内容,包括文字、图片、以及设计等在网上搜集整理.版权为个人所有This article includes some parts, including text,pictures, and design. Copyright is personal ownership.bR9C6TJscw 用户可将本文地内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律地规定,不得侵犯本网站及相关权利人地合法权利. 除此以外,将本文任何内容或服务用于其他用途时,须征得本人及相关权利人地书面许可,并支付报酬 . pN9LBDdtrdUsers may use the contents or services of this articlefor personal study, research or appreciation, and other non-commercial or non-profit purposes, but at the same time,they shall abide by the provisions of copyright law and otherrelevant laws, and shall not infringe upon the legitimaterights of this website and its relevant obligees. In addition, when any content or service of this article is used for other purposes, written permission and remuneration shall beobtained from the person concerned and the relevantobligee.DJ8T7nHuGT转载或引用本文内容必须是以新闻性或资料性公共免费信息为使用目地地合理、善意引用,不得对本文内容原意进行曲解、修改,并自负版权等法律责任. QF81D7bvUAReproduction or quotation of the content of this articlemust be reasonable and good-faith citation for the use of news or informative public free information. It shall notmisinterpret or modify the original intention of the contentof this article, and shall bear legal liability such ascopyright. 4B7a9QFw9h。

数据挖掘导论

数据挖掘导论

本书的亮点之一在于对可视化分析的独到见解。作者指出,可视化是解决复杂 数据挖掘问题的有效手段,可以帮助我们直观地理解数据和发现隐藏在其中的 规律。书中详细讨论了可视化技术的种类、优缺点以及在数据挖掘过程中的作 用。还通过大量实例,让读者切实感受到可视化分析在数据挖掘中的强大威力。
除了可视化分析,本书还对关联规则挖掘、聚类分析等众多经典算法进行了深 入阐述。例如,在关联规则挖掘部分,作者首先介绍了Apriori算法的基本原 理和实现过程,然后提出了一系列改进措施,如基于哈希表的剪枝、基于密度 的剪枝等,有效提高了算法的效率和准确率。在聚类分析部分,不仅详细讨论 了K-Means、层次聚类等经典算法,还对如何评价聚类效果进行了深入探讨。
第4章:关联规则挖掘。讲解了关联规则的定义、算法和实际应用。
第5章:聚类分析。讨论了聚类算法的类型、原理和应用。
第6章:分类。介绍了分类算法的原理、应用及评估方法。
第7章:回归分析。讲解了回归分析的原理、方法和实际应用。
第8章:时间序列分析。探讨了时间序列的基本概念、模型和预测方法。
第9章:社交网络分析。讲解了社交网络的基本概念、测量指标和挖掘方法。
《数据挖掘导论》是一本非常优秀的书籍,全面介绍了数据挖掘领域的基本概 念、技术和应用。通过阅读这本书,我不仅对数据挖掘有了更深入的了解,还 从中获得了不少启示和收获。书中关键点和引人入胜的内容也让我进行了深入 思考。从个人角度来说,这本书给我带来了很多情感体验和思考。结合本书内 容简单探讨了数据挖掘在生活中的应用前景。
在阅读这本书的过程中,我最大的收获是关于数据挖掘技术的理解。书中详细 介绍了各种数据挖掘技术的原理、优缺点以及适用场景。尤其是关联规则挖掘、 聚类分析和分类算法等部分,让我对这些技术有了更深入的认识。通过这些技 术的学习,我明白了如何从大量数据中提取有用的信息和知识。

智慧树知道网课《数据挖掘》课后章节测试满分答案

智慧树知道网课《数据挖掘》课后章节测试满分答案

智慧树知道网课《数据挖掘》课后章节测试满分答案第一章测试1【单选题】(20分)什么是KDD?A.C.文档知识发现B.A.数据挖掘与知识发现C.D.动态知识发现D.B.领域知识发现2【判断题】(20分)数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。

A.错B.对3【多选题】(20分)数据挖掘的预测建模任务主要包括哪几大类问题?A.分类B.模式匹配C.模式发现D.回归4【多选题】(20分)以下哪些学科和数据挖掘有密切联系?A.人工智能B.计算机组成原理C.矿产挖掘D.统计5【判断题】(20分)离群点可以是合法的数据对象或者值。

A.错B.对第二章测试1【单选题】(20分)下面哪个属于定量的属性类型:A.区间B.序数C.标称D.相异2【单选题】(20分)只有非零值才重要的二元属性被称作:A.非对称的二元属性B.离散属性C.对称属性D.计数属性3【判断题】(20分)定量属性可以是整数值或者是连续值。

A.对B.4【单选题】(20分)中心趋势度量模(mode)是指A.数据集中出现频率最高的值B.算术平均值C.最大值D.最小值5【多选题】(20分)以下哪些是属于中心趋势的度量A.标准差B.中位数五数概括D.平均值第三章测试1【单选题】(20分)数据清洗的方法不包括A.一致性检查。

(完整word版)数据仓库与数据挖掘教程(第2版) 陈文伟版课后习题答案(非常全)

(完整word版)数据仓库与数据挖掘教程(第2版) 陈文伟版课后习题答案(非常全)

第一章作业1.数据库与数据仓库的本质差别是什么?书P2(1)数据库用于事务处理,数据仓库用于决策分析。

(2)数据库保持事物处理的当前状态,数据仓库即保存过去的数据又保存当前的数据。

(3)数据仓库的数据是大量数据库的集成。

(4)对数据库的操作比较明确,操作数量较小。

对数据仓库操作不明确,操作数据量大。

2.从数据库发展到数据仓库的原因是什么?书P1(1)数据库数据太多,信息贫乏。

如何将大量的数据转化为辅助决策信息成为了研究热点。

(2)异构环境数据的转换和共享。

随着各类数据库产品的增加,异构环境的数据也逐渐增加,如何实现这些异构环境数据的转换的共享也成了研究热点。

(3)利用数据进行事物处理转变为利用数据支持决策。

3.举例说明数据库与数据仓库的不同。

比如,银行中储蓄业务要建立储蓄数据库,信用卡要建立信用卡数据库,贷款业务要建立贷款数据库,这些数据库方便了银行的事务处理。

但是要对这些独立数据库进行决策分析就很复杂了。

因此可以把这些数据库中的数据存储转化到数据仓库中,方便进行决策。

4.OLTP(On Line Transaction Processing,联机事物处理)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。

OLAP(On Line Analytical Processing,联机分析处理)是使用多维数据库和多维分析的方法,对多个关系数据库共同进行大量的综合计算来得到结果的方法。

5.OLTP是用户的数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。

6.OLTP OLAP细节性数据综合性数据当前数据历史数据经常更新不更新,但周期性刷新一次性处理的数据量小一次处理的数据量大对响应时间要求高响应时间合理面向应用,事务驱动面向分析,分析驱动7.包括数据项、数据结构、数据流、数据存储和处理过程五个部分。

8.定义为关于数据的数据,描述数据仓库中数据及其环境的数据。

数据挖掘导论中文答案1.2.3.4.6.8.10章

数据挖掘导论中文答案1.2.3.4.6.8.10章

习题一:1。

讨论是否每个以下活动是一个数据挖掘的任务。

(a)将公司的客户根据他们的性别。

不。

这是一个简单的数据库查询。

(b)将公司的客户根据他们的盈利能力。

不。

这是一个会计计算,紧随其后的是应用程序一个阈值。

然而,预测的盈利能力客户将数据挖掘。

(c)计算一个公司的总销售额。

不。

再次,这是简单的会计。

(d)排序一个学生数据库基于学生身份证号码。

不。

再一次,这是一个简单的数据库查询。

(e)预测结果掷双骰子(公平)。

不。

因为模具是公平的,这是一个概率计算。

如果死是不公平的,我们需要估计的概率每个结果的数据,那么这是更像的问题认为数据挖掘。

然而,在这种特定的情况下,解决方案这个问题是由数学家很长时间前,因此,我们不会认为它是数据挖掘。

(f)预测未来股价的公司使用历史记录。

是的。

我们将尝试创建一个模型,该模型可以预测连续价值的股票价格。

这是一个的例子数据挖掘领域称为预测模型。

我们可以使用回归建模,尽管在许多领域的研究者开发了各种各样的技术来预测时间吗系列。

(g)监测病人的心率异常。

是的。

我们可以建立一个模型,心脏的正常行为率和不同寻常的心行为发生时发出警报。

这将涉及到数据挖掘的区域称为异常检测。

这也可以被认为是一个分类问题如果我们有正常和异常的心行为的例子。

(h)监测地震活动的地震波。

是的。

在本例中,我们将构建一个不同类型的模型地震波与地震相关的活动和行为提高警报当其中一个不同类型的地震活动被观察到。

这是数据挖掘领域的一个例子被称为分类。

(i)提取声波的频率。

不。

这是信号处理。

2.假设你被录用,作为一个互联网数据挖掘咨询顾问搜索引擎公司。

描述数据挖掘可以帮助公司通过给具体的例子如何技术,如聚类,分类、关联规则挖掘和异常检测可以应用。

答:以下是可能的答案的例子。

•聚类可以把结果与类似的主题用户在一个更简洁的形式,例如通过报告集群中的十大最频繁的词语。

•分类可以将结果分配给预定义的类别等“体育”、“政治”,等等。

完整word版数据挖掘课后答案

完整word版数据挖掘课后答案

第一章6.1 数据特征化是目标类数据的一般特性或特征的汇总。

(1)岁、有工5040—元以上的顾客特征的汇总描述是:年龄在例如,在某商店花费1000 作和很好的信誉等级。

数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比)(2 较。

由可与低平均分数的学生的一般特点进行比较。

例如,高平均分数的学生的一般特点,%的学生是大四的计算机科学专业75此产生的可能是一个相当普遍的描述,如平均分高达的学生则不是。

的学生,而平均分低于65% )关联和相关分析是指在给定的频繁项集中寻找相关联的规则。

(3”X,)=>拥有(X 例如,一个数据挖掘系统可能会发现这样的规则:专业(,“计算机科学”是一个变量,代表一个学生,该规,其中Xconfidence = 98%]%,个人电脑“)[support= 12的置信度或可信性表示,如果一个学生是属于计算机科学专业的,则拥有个人则表明,98%显示属于计算机科学专的支持度意味着所研究的所有事务的12%98%。

12%电脑的可能性是业的学生都会拥有个人电脑。

(4)分类和预测的不同之处在于前者是构建了一个模型(或函数),描述和区分数据类或概念,而后者则建立了一个模型来预测一些丢失或不可用的数据,而且往往是数值,数据集的预测。

它们的相似之处是它们都是为预测工具:分类是用于预测的数据和预测对象的类标签,预测通常用于预测缺失值的数值数据。

例如:某银行需要根据顾客的基本特征将顾客的信誉度区分为优良中差几个类别,此时用到的则是分类;当研究某只股票的价格走势时,会根据股票的历史价格来预测股票的未来价格,此时用到的则是预测。

(5)聚类分析数据对象是根据最大化类内部的相似性、最小化类之间的相似性的原则进行聚类和分组。

聚类还便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。

例如:世界上有很多种鸟,我们可以根据鸟之间的相似性,聚集成n类,其中n可以认为规定。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第六章数据挖掘导论
1。

对于每个下列问题,提供一个关联规则的一个例子
从市场购物篮域,满足下列条件。

同样,
这些规则是主观地描述是否有趣。

(一)一个规则,具有较高的支持和高的信心。

答:牛奶−→面包。

这种明显的规则往往是无趣的。

(b)规则,有相当高的支持,但信心不足。

答:牛奶−→金枪鱼。

而出售金枪鱼和牛奶可能是
高于阈值,并不是所有的事务,包含牛奶
也包含金枪鱼。

这种低规则往往是无趣的。

(c)一个规则,低的支持和信心不足。

答:食用油−→洗衣粉。

如此低的信心规则
往往是无趣的。

(d)规则,低支持和高的信心。

答:伏特加−→鱼子酱。

这样的规则往往是有趣的
2。

考虑到数据集显示于表格6.1。

(一)计算支持项集{ e },{ b、d },{ b、d、e }通过治疗
每个事务ID作为一个市场购物篮。

答:
(b) Use the results in part (a) to compute the confidence for the association rules {b, d} −→{e} and {e} −→{b, d}. Is confidence a symmetric
measure?
c、重复部分(一)通过将每个客户ID作为一个市场购物篮。

每个项目应被视为一个二进制变量(1如果一个项目出现在至少有一个交易购买的顾客,和0否则。

)
d
e 没有明显关系s1,s2,c1和c2
所以c2有最低的置信度
4、
因为年代(A,B,C)≤年代(A,B)和max(s(一个),s(B),s(C))≥max(s(一个),s(B)), 因此ζ({ A、B })≥ζ({ A,B,C })。

(b)
因为s(A,B,C)≤s(A,B)和最小(s(A,B),s(A,C),s(B,C))≤min(s(一个),s(B),s(C)) ≤min(s(一个),s(B))、η({ A,B,C })可以大于或小于η({ A、B })。

因此,这些措施是单调。

(一)的最大数量,可以提取关联规则
从这个数据(包括规则,零支持)?
答:有六项数据集。

因此总
规则的数量是602。

(b)什么是频繁项集的最大大小,可以提取
(假设用来> 0)?
答:因为最长的事务包含4项,最大
频繁项集的大小是4。

(c)编写一个表达式最大数量的大小3项集,
可以源自这个数据集。

答:
(d)找到itemset(大小为2或更大),拥有最大的支持。

答:{面包、黄油}。

(e)找到一双项目,a和b,这样的规则{一}−→{ b }和{ b }−→{一}有同样的信心。

答:(啤酒,饼干)或(面包、黄油)。

比例的频繁项集= 16/32 = 50.0%(包括null 设置)。

修剪比率的比例是N的总数量的项目集。

因为的计数N = 11,因此修剪比例是11/32 = 34.4%。

误警率的比值我总数量的项目集。

因为计数的我= 5,因此误警率是5/32 = 15.6%。

相关文档
最新文档