数据挖掘_概念与技术(第2版)习题答案
第6章 大数据分析与挖掘习题答案

(1)请阐述什么是大数据分析。
大数据分析的主要任务主要有:第一类是预测任务,目标是根据某些属性的值,预测另外一些特定属性的值。
被预测的属性一般称为目标变量或因变量,被用来做预测的属性称为解释变量和自变量;第二类是描述任务,目标是导出概括数据中潜在联系的模式,包括相关、趋势、聚类、轨迹和异常等。
描述性任务通常是探查性的,常常需要后处理技术来验证和解释结果。
具体可分为分类、回归、关联分析、聚类分析、推荐系统、异常检测、链接分析等几种。
(2)大数据分析的类型有哪些?大数据分析主要有描述性统计分析、探索性数据分析以及验证性数据分析等。
(3)举例两种数据挖掘的应用场景?(1)电子邮件系统中垃圾邮件的判断电子邮件系统判断一封Email是否属于垃圾邮件。
这应该属于文本挖掘的范畴,通常会采用朴素贝叶斯的方法进行判别。
它的主要原理就是,根据电子邮件中的词汇,是否经常出现在垃圾邮件中进行判断。
例如,如果一份电子邮件的正文中包含“推广”、“广告”、“促销”等词汇时,该邮件被判定为垃圾邮件的概率将会比较大。
(2)金融领域中金融产品的推广营销针对商业银行中的零售客户进行细分,基于零售客户的特征变量(人口特征、资产特征、负债特征、结算特征),计算客户之间的距离。
然后,按照距离的远近,把相似的客户聚集为一类,从而有效地细分客户。
将全体客户划分为诸如:理财偏好者、基金偏好者、活期偏好者、国债偏好者等。
其目的在于识别不同的客户群体,然后针对不同的客户群体,精准地进行产品设计和推送,从而节约营销成本,提高营销效率。
(4)简述数据挖掘的分类算法及应用。
K-Means算法也叫作k均值聚类算法,它是最著名的划分聚类算法,由于简洁和效率使得它成为所有聚类算法中最广泛使用的。
决策树算法是一种能解决分类或回归问题的机器学习算法,它是一种典型的分类方法,最早产生于上世纪60年代。
决策树算法首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析,因此在本质上决策树是通过一系列规则对数据进行分类的过程。
数据挖掘概念与技术原书第3版课后练习题含答案

数据挖掘概念与技术原书第3版课后练习题含答案前言《数据挖掘概念与技术》(Data Mining: Concepts and Techniques)是一本经典的数据挖掘教材,已经推出了第3版。
本文将为大家整理并提供第3版课后习题的答案,希望对大家学习数据挖掘有所帮助。
答案第1章绪论习题1.1数据挖掘的基本步骤包括:1.数据预处理2.数据挖掘3.模型评价4.应用结果习题1.2数据挖掘的主要任务包括:1.描述性任务2.预测性任务3.关联性任务4.分类和聚类任务第2章数据预处理习题2.3数据清理包括以下几个步骤:1.缺失值处理2.异常值检测处理3.数据清洗习题2.4处理缺失值的方法包括:1.删除缺失值2.插补法3.不处理缺失值第3章数据挖掘习题3.1数据挖掘的主要算法包括:1.决策树2.神经网络3.支持向量机4.关联规则5.聚类分析习题3.6K-Means算法的主要步骤包括:1.首先随机选择k个点作为质心2.将所有点分配到最近的质心中3.重新计算每个簇的质心4.重复2-3步,直到达到停止条件第4章模型评价与改进习题4.1模型评价的方法包括:1.混淆矩阵2.精确率、召回率3.F1值4.ROC曲线习题4.4过拟合是指模型过于复杂,学习到了训练集的噪声和随机变化,导致泛化能力不足。
对于过拟合的处理方法包括:1.增加样本数2.缩小模型规模3.正则化4.交叉验证结语以上是《数据挖掘概念与技术》第3版课后习题的答案,希望能够给大家的学习带来帮助。
如果大家还有其他问题,可以在评论区留言,或者在相关论坛等平台提出。
数据挖掘考试习题

数据挖掘考试习题 work Information Technology Company.2020YEAR数据挖掘考试题一.选择题1. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离()A.分类B.聚类C.关联分析D.主成分分析2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。
A.MIN(单链)B.MAX(全链)C.组平均D.Ward方法3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。
A 分类B 预测 C关联规则分析 D聚类4.关于K均值和DBSCAN的比较,以下说法不正确的是( )A.K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。
B.K均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。
C.K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇D.K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇5.下列关于Ward’s Method说法错误的是:( )A.对噪声点和离群点敏感度比较小B.擅长处理球状的簇C.对于Ward方法,两个簇的邻近度定义为两个簇合并时导致的平方误差D.当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似6.下列关于层次聚类存在的问题说法正确的是:( )A.具有全局优化目标函数B.Group Average擅长处理球状的簇C.可以处理不同大小簇的能力D.Max对噪声点和离群点很敏感7.下列关于凝聚层次聚类的说法中,说法错误的事:( )A.一旦两个簇合并,该操作就不能撤销B.算法的终止条件是仅剩下一个簇OC.空间复杂度为()2mD.具有全局优化目标函数8.规则{牛奶,尿布}→{啤酒}的支持度和置信度分别为:( )9.下列( )是属于分裂层次聚类的方法。
A.MinB.MaxC.Group AverageD.MST10.对下图数据进行凝聚聚类操作,簇间相似度使用MAX计算,第二步是哪两个簇合并:( )A.在{3}和{l,2}合并B.{3}和{4,5}合并C.{2,3}和{4,5}合并D. {2,3}和{4,5}形成簇和{3}合并二.填空题:1.属性包括的四种类型:、、、。
数据挖掘习题题

数据挖掘复习题单选题1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题AA. 关联规则发现B. 聚类C. 分类D. 自然语言处理2. 以下两种描述分别对应哪两种对分类算法的评价标准Aa警察抓小偷,描述警察抓的人中有多少个是小偷的标准;b描述有多少比例的小偷给警察抓了的标准;A. Precision, RecallB. Recall, PrecisionA. Precision, ROC D. Recall, ROC3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务CA. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离BA. 分类B. 聚类C. 关联分析D. 隐马尔可夫链5. 什么是KDDAA. 数据挖掘与知识发现B. 领域知识发现C. 文档知识发现D. 动态知识发现6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务AA. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则7. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务BA. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则8. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务CA. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务AA. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则11.下面哪种不属于数据预处理的方法DA变量代换B离散化 C 聚集 D 估计遗漏值12. 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱;等频等深划分时,15在第几个箱子内BA 第一个B 第二个C 第三个D 第四个13.上题中,等宽划分时宽度为50,15又在哪个箱子里AA 第一个B 第二个C 第三个D 第四个14.下面哪个不属于数据的属性类型:DA 标称B 序数C 区间D相异15. 在上题中,属于定量的属性类型是:CA 标称B 序数C区间 D 相异16. 只有非零值才重要的二元属性被称作:CA 计数属性B 离散属性C非对称的二元属性 D 对称属性17. 以下哪种方法不属于特征选择的标准方法: DA嵌入 B 过滤 C 包装 D 抽样18.下面不属于创建新属性的相关方法的是:BA特征提取B特征修改C映射数据到新的空间D特征构造19. 考虑值集{1、2、3、4、5、90},其截断均值p=20%是 CA 2B 3CD 520. 下面哪个属于映射数据到新的空间的方法AA 傅立叶变换B特征加权 C 渐进抽样D维归约21. 熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是:BA 1比特B 比特C 比特D 比特22. 假设属性income的最大最小值分别是12000元和98000元;利用最大最小规范化的方法将属性的值映射到0至1的范围内;对属性income的73600元将被转化为:DA B 1.224 C D23.假定用于分析的数据包含属性age;数据元组中age的值如下按递增序:13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3;第二个箱子值为:AA B 22.6 C D24. 考虑值集{12 24 33 2 4 55 68 26},其四分位数极差是:AA 31B 24C 55D 325. 一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人;则年级属性的众数是:AA 一年级B二年级 C 三年级 D 四年级26. 下列哪个不是专门用于可视化时间空间数据的技术:BA 等高线图B饼图 C 曲面图 D 矢量场图27. 在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是:DA 有放回的简单随机抽样B无放回的简单随机抽样C分层抽样D 渐进抽样28. 数据仓库是随着时间变化的,下面的描述不正确的是CA. 数据仓库随时间的变化不断增加新的数据内容;B. 捕捉到的新数据会覆盖原来的快照;C. 数据仓库随事件变化不断删去旧的数据内容;D. 数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合.29. 关于基本数据的元数据是指: DA. 基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;B. 基本元数据包括与企业相关的管理方面的数据和信息;C. 基本元数据包括日志文件和简历执行处理的时序调度信息;D. 基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息.30. 下面关于数据粒度的描述不正确的是: CA. 粒度是指数据仓库小数据单元的详细程度和级别;B. 数据越详细,粒度就越小,级别也就越高;C. 数据综合度越高,粒度也就越大,级别也就越高;D. 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量.31. 有关数据仓库的开发特点,不正确的描述是: AA. 数据仓库开发要从数据出发;B. 数据仓库使用的需求在开发出去就要明确;C. 数据仓库的开发是一个不断循环的过程,是启发式的开发;D. 在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式32. 在有关数据仓库测试,下列说法不正确的是: DA. 在完成数据仓库的实施过程中,需要对数据仓库进行各种测试.测试工作中要包括单元测试和系统测试.B. 当数据仓库的每个单独组件完成后,就需要对他们进行单元测试.C. 系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试.D. 在测试之前没必要制定详细的测试计划.33. OLAP技术的核心是: DA. 在线性;B. 对用户的快速响应;C. 互操作性.D. 多维分析;34. 关于OLAP的特性,下面正确的是: D1快速性2可分析性3多维性4信息性5共享性A. 1 2 3B. 2 3 4C. 1 2 3 4D. 1 2 3 4 535. 关于OLAP和OLTP的区别描述,不正确的是: CA. OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同.B. 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务.C. OLAP的特点在于事务量大,但事务内容比较简单且重复率高.D. OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的.36. OLAM技术一般简称为”数据联机分析挖掘”,下面说法正确的是: DA. OLAP和OLAM都基于客户机/服务器模式,只有后者有与用户的交互性;B. 由于OLAM的立方体和用于OLAP的立方体有本质的区别.C. 基于WEB的OLAM是WEB技术与OLAM技术的结合.D. OLAM服务器通过用户图形借口接收用户的分析指令,在元数据的知道下,对超级立方体作一定的操作.37. 关于OLAP和OLTP的说法,下列不正确的是: AA. OLAP事务量大,但事务内容比较简单且重复率高.B. OLAP的最终数据来源与OLTP不一样.C. OLTP面对的是决策人员和高层管理人员.D. OLTP以应用为核心,是应用驱动的.38. 设X={1,2,3}是频繁项集,则可由X产生__C__个关联规则;A、4B、5C、6D、740. 概念分层图是__B__图;A、无向无环B、有向无环C、有向有环D、无向有环41. 频繁项集、频繁闭项集、最大频繁项集之间的关系是:CA、频繁项集频繁闭项集=最大频繁项集B、频繁项集= 频繁闭项集最大频繁项集C、频繁项集频繁闭项集最大频繁项集D、频繁项集= 频繁闭项集= 最大频繁项集42. 考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含CA、1,2,3,4B、1,2,3,5C、1,2,4,5D、1,3,4,543.下面选项中t不是s的子序列的是 CA、s=<{2,4},{3,5,6},{8}> t=<{2},{3,6},{8}>B、s=<{2,4},{3,5,6},{8}> t=<{2},{8}>C、s=<{1,2},{3,4}> t=<{1},{2}>D、s=<{2,4},{2,4}> t=<{2},{4}>44. 在图集合中发现一组公共子结构,这样的任务称为 BA、频繁子集挖掘B、频繁子图挖掘C、频繁数据项挖掘D、频繁模式挖掘45. 下列度量不具有反演性的是DA、系数B、几率C、Cohen度量D、兴趣因子46. 下列__A__不是将主观信息加入到模式发现任务中的方法;A、与同一时期其他数据对比B、可视化C、基于模板的方法D、主观兴趣度量47. 下面购物篮能够提取的3-项集的最大数量是多少CID 购买项1 牛奶,啤酒,尿布2 面包,黄油,牛奶3 牛奶,尿布,饼干4 面包,黄油,饼干5 啤酒,饼干,尿布6 牛奶,尿布,面包,黄油7 面包,黄油,尿布8 啤酒,尿布9 牛奶,尿布,面包,黄油10 啤酒,饼干A、1B、2C、3D、448. 以下哪些算法是分类算法,A,DBSCAN B,C4.5 C,K-Mean D,EM B49. 以下哪些分类方法可以较好地避免样本的不平衡问题, A,KNN B,SVM C,Bayes D,神经网络 A50. 决策树中不包含一下哪种结点,A,根结点root node B,内部结点internal node C,外部结点external node D,叶结点leaf node C51. 不纯性度量中Gini计算公式为其中c是类的个数AA, B, C, D, A53. 以下哪项关于决策树的说法是错误的CA. 冗余属性不会对决策树的准确率造成不利的影响B. 子树可能在决策树中重复多次C. 决策树算法对于噪声的干扰非常敏感D. 寻找最佳决策树是NP完全问题54. 在基于规则分类器的中,依据规则质量的某种度量对规则排序,保证每一个测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为BA. 基于类的排序方案B. 基于规则的排序方案C. 基于度量的排序方案D. 基于规格的排序方案;55. 以下哪些算法是基于规则的分类器AA. B. KNN C. Na ve Bayes D. ANN56. 如果规则集R中不存在两条规则被同一条记录触发,则称规则集R中的规则为C;A, 无序规则B,穷举规则C, 互斥规则D,有序规则57. 如果对属性值的任一组合,R中都存在一条规则加以覆盖,则称规则集R中的规则为B A, 无序规则B,穷举规则C, 互斥规则D,有序规则58. 如果规则集中的规则按照优先级降序排列,则称规则集是DA, 无序规则B,穷举规则C, 互斥规则D,有序规则59. 如果允许一条记录触发多条分类规则,把每条被触发规则的后件看作是对相应类的一次投票,然后计票确定测试记录的类标号,称为AA, 无序规则B,穷举规则C, 互斥规则D,有序规则60. 考虑两队之间的足球比赛:队0和队1;假设65%的比赛队0胜出,剩余的比赛队1获胜;队0获胜的比赛中只有30%是在队1的主场,而队1取胜的比赛中75%是主场获胜;如果下一场比赛在队1的主场进行队1获胜的概率为CA, B,0.35 C, D,61. 以下关于人工神经网络ANN的描述错误的有AA,神经网络对训练数据中的噪声非常鲁棒B,可以处理冗余特征C,训练ANN是一个很耗时的过程D,至少含有一个隐藏层的多层神经网络62. 通过聚集多个分类器的预测来提高分类准确率的技术称为AA,组合ensemble B,聚集aggregate C,合并combination D,投票voting63. 简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作BA、层次聚类B、划分聚类C、非互斥聚类D、模糊聚类64. 在基本K均值算法里,当邻近度函数采用A 的时候,合适的质心是簇中各点的中位数;A、曼哈顿距离B、平方欧几里德距离C、余弦距离D、Bregman散度65. C 是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的;A、边界点B、质心C、离群点D、核心点66. BIRCH是一种B ;A、分类器B、聚类算法C、关联分析算法D、特征选择算法67. 检测一元正态分布中的离群点,属于异常检测中的基于A 的离群点检测;A、统计方法B、邻近度C、密度D、聚类技术68. C 将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术;A、MIN单链B、MAX全链C、组平均D、Ward方法69. D 将两个簇的邻近度定义为两个簇合并时导致的平方误差的增量,它是一种凝聚层次聚类技术;A、MIN单链B、MAX全链C、组平均D、Ward方法70. DBSCAN在最坏情况下的时间复杂度是B ;A、OmB、Om2C、Olog mD、Omlog m71. 在基于图的簇评估度量表里面,如果簇度量为proximityCi , C,簇权值为mi ,那么它的类型是C ;A、基于图的凝聚度B、基于原型的凝聚度C、基于原型的分离度D、基于图的凝聚度和分离度72. 关于K均值和DBSCAN的比较,以下说法不正确的是A ;A、K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象;B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念;C、K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇;D、K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇;73. 以下是哪一个聚类算法的算法流程:①构造k-最近邻图;②使用多层图划分算法划分图;③repeat:合并关于相对互连性和相对接近性而言,最好地保持簇的自相似性的簇;④until:不再有可以合并的簇; C ;A、MSTB、OPOSSUMC、ChameleonD、Jarvis-PatrickJP74. 考虑这么一种情况:一个对象碰巧与另一个对象相对接近,但属于不同的类,因为这两个对象一般不会共享许多近邻,所以应该选择D 的相似度计算方法;A、平方欧几里德距离B、余弦距离C、直接相似度D、共享最近邻75. 以下属于可伸缩聚类算法的是A ;A、CUREB、DENCLUEC、CLIQUED、OPOSSUM76. 以下哪个聚类算法不是属于基于原型的聚类D ;A、模糊c均值B、EM算法C、SOMD、CLIQUE77. 关于混合模型聚类算法的优缺点,下面说法正确的是B ;A、当簇只包含少量数据点,或者数据点近似协线性时,混合模型也能很好地处理;B、混合模型比K均值或模糊c均值更一般,因为它可以使用各种类型的分布;C、混合模型很难发现不同大小和椭球形状的簇;D、混合模型在有噪声和离群点时不会存在问题;78. 以下哪个聚类算法不属于基于网格的聚类算法D ;A、STINGB、WaveClusterC、MAFIAD、BIRCH79. 一个对象的离群点得分是该对象周围密度的逆;这是基于C 的离群点定义;A.概率B、邻近度C、密度D、聚类80. 下面关于Jarvis-PatrickJP聚类算法的说法不正确的是D ;A、JP聚类擅长处理噪声和离群点,并且能够处理不同大小、形状和密度的簇;B、JP算法对高维数据效果良好,尤其擅长发现强相关对象的紧致簇;C、JP聚类是基于SNN相似度的概念;D、JP聚类的基本时间复杂度为Om;第一章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合;2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类;3、数据处理通常分成两大类:联机事务处理和联机分析处理;4、多维分析是指以“维”形式组织起来的数据多维数据集采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息;5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现;6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储于管理和数据表现等;7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库;8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的但是可“挥发”的、企业级的、详细的数据库,也叫运营数据存储;9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则;10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主;第二章1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据;2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源;因此,我们要求ETL过程产生的数据即调和数据层是详细的、历史的、规范的、可理解的、即时的和质量可控制的;3、数据抽取的两个常见类型是静态抽取和增量抽取;静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护;4、粒度是对数据仓库中数据的综合程度高低的一个衡量;粒度越小,细节程度越高,综合程度越低,回答查询的种类越多;5、使用星型模式可以从一定程度上提高查询效率;因为星型模式中数据的组织已经经过预处理,主要数据都在庞大的事实表中;6、维度表一般又主键、分类层次和描述属性组成;对于主键可以选择两种方式:一种是采用自然键,另一种是采用代理键;7、雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据;8、数据仓库中存在不同综合级别的数据;一般把数据分成4个级别:早期细节级、当前细节级、轻度综合级和高度综合级;第三章1、SQL Server SSAS提供了所有业务数据的同意整合试图,可以作为传统报表、在线分析处理、关键性能指示器记分卡和数据挖掘的基础;2、数据仓库的概念模型通常采用信息包图法来进行设计,要求将其5个组成部分包括名称、维度、类别、层次和度量全面地描述出来;3、数据仓库的逻辑模型通常采用星型图法来进行设计,要求将星型的各类逻辑实体完整地描述出来;4、按照事实表中度量的可加性情况,可以把事实表对应的事实分为4种类型:事务事实、快照事实、线性项目事实和事件事实;5、确定了数据仓库的粒度模型以后,为提高数据仓库的使用性能,还需要根据拥护需求设计聚合模型;6、在项目实施时,根据事实表的特点和拥护的查询需求,可以选用时间、业务类型、区域和下属组织等多种数据分割类型;7、当维表中的主键在事实表中没有与外键关联时,这样的维称为退化维;它于事实表并无关系,但有时在查询限制条件如订单号码、出货单编号等中需要用到;8、维度可以根据其变化快慢分为元变化维度、缓慢变化维度和剧烈变化维度三类;9、数据仓库的数据量通常较大,且数据一般很少更新,可以通过设计和优化索引结构来提高数据存取性能;10、数据仓库数据库常见的存储优化方法包括表的归并与簇文件、反向规范化引入冗余、表的物理分割分区;第四章1、关联规则的经典算法包括Apriori算法和FP-growth算法,其中FP-grownth算法的效率更高;2、如果L2={{a,b},{a,c},{a,d},{b,c},{b,d}},则连接产生的C3={{a,b,c},{a,b,d},{a,c,d},{b,c,d}}再经过修剪,C3={{a,b,c},{a,b,d}}3、设定supmin=50%,交易集如则L1={A},{B},{C} L2={A,C}T1 A B CT2 A CT3 A DT4 B E F第五章1、分类的过程包括获取数据、预处理、分类器设计和分类决策;2、分类器设计阶段包含三个过程:划分数据集、分类器构造和分类器测试;3、分类问题中常用的评价准则有精确度、查全率和查准率和集合均值;4、支持向量机中常用的核函数有多项式核函数、径向基核函数和S型核函数;第六章1、聚类分析包括连续型、二值离散型、多值离散型和混合类型4种类型描述属性的相似度计算方法;2、连续型属性的数据样本之间的距离有欧氏距离、曼哈顿距离和明考斯基距离;3、划分聚类方法对数据集进行聚类时包含三个要点:选种某种距离作为数据样本减的相似性度量、选择评价聚类性能的准则函数和选择某个初始分类,之后用迭代的方法得到聚类结果,使得评价聚类的准则函数取得最优值;4、层次聚类方法包括凝聚型和分解型两中层次聚类方法;填空题20分,简答题25分,计算题2个25分,综合题30分1、数据仓库的组成P2数据仓库数据库,数据抽取工具,元数据,访问工具,数据集市,数据仓库管理,信息发布系统2、数据挖掘技术对聚类分析的要求有哪几个方面P131可伸缩性;处理不同类型属性的能力;发现任意形状聚类的能力;减小对先验知识和用户自定义参数的依赖性;处理噪声数据的能力;可解释性和实用性3、数据仓库在存储和管理方面的特点与关键技术P7数据仓库面对的是大量数据的存储与管理并行处理针对决策支持查询的优化支持多维分析的查询模式4、常见的聚类算法可以分为几类P132基于划分的聚类算法,基于层次的聚类算法,基于密度的聚类算法,基于网格的聚类算法,基于模型的聚类算法等;5、一个典型的数据仓库系统的组成P12数据源、数据存储与管理、OLAP服务器、前端工具与应用6、数据仓库常见的存储优化方法P717、表的归并与簇文件;反向规范化,引入冗余;表的物理分割;8、数据仓库发展演变的5个阶段P209、以报表为主10、以分析为主11、以预测模型为主12、以运行向导为主以实时数据仓库、自动决策应用为主 13、ID3算法主要存在的缺点 P116 14、 1ID3算法在选择根结点和各内部结点中的分枝属性时,使用信息增益作为评价标准;信息增益的缺点是倾向于选择取值较多的属性,在有些情况下这类属性可能不会提供太多有价值的信息;15、2ID3算法只能对描述属性为离散型属性的数据集构造决策树; 16、简述数据仓库ETL 软件的主要功能和对产生数据的目标要求;P30 17、ETL 软件的主要功能: 18、数据的抽取,数据的转换,数据的加载 19、对产生数据的目标要求: 20、详细的、历史的、规范化的、可理解的、即时的、质量可控制的 21、简述分类器设计阶段包含的3个过程;★ 22、划分数据集,分类器构造,分类器测试 23、什么是数据清洗 P33★ 24、数据清洗是一种使用模式识别和其他技术,在将原始数据转换和移到数据仓库之前来升级原始数据质量的技术; 25、支持度和置信度的计算公式及数据计算P90 26、找出所有的规则X ◊ Y , 使支持度和置信度分别大于门限支持度: 事务中X 和Y 同时发生的比例,PX Ո Y 置信度:项集X 发生时,Y 同时发生的条件概率PY|X27、Example: 28、 29、 13、利用信息包图设计数据仓库概念模型需要确定的三方面内容;P57确定指标,确定维度,确定类别 14、K-近邻分类方法的操作步骤包括算法的输入和输出;P12815、什么是技术元数据,主要包含的内容 P29 技术元数据是描述关于数据仓库技术细节的数据,应用于开发、管理和维护DW,包含:● DW 结构的描述,如DW 的模式、视图、维、层次结构和导出数据的定义,数据集市的位置和内容等● 业务系统、DW 和数据集市的体系结构和模式● 汇总算法;包括度量和维定义算法,数据粒度、主题领域、聚合、汇总和预定义的查询和报告;● 由操作型业务环境到数据仓库业务环境的映射;包括源数据和他们的内容、数据分割、数据提取、清洗、转换规则和数据刷新规则及安全用户授权和存取控制16、业务元数据主要包含的内容 P29业务元数据:从业务角度描述了DW 中的数据,提供了介于使用者和实际系统之间的语()()()Support X Y c X Y Support X →=0.67)Beer(0.4,}Diaper ,Milk {⇒义层,主要包括:● 使用者的业务属于所表达的数据模型、对象名和属性名● 访问数据的原则和数据的来源● 系统提供的分析方法及公式和报表的信息;17、K-means 算法的基本操作步骤包括算法的输入和输出;P138★18、数据从集结区加载到数据仓库中的主要方法 P36● SQL 命令如Insert 或Update● 由DW 供应商或第三方提供专门的加载工具● 由DW 管理员编写自定义程序19、多维数据模型中的基本概念:维,维类别,维属性,粒度P37● 维:人们观察数据的特定角度,是考虑问题的一类属性,如时间维或产品维 ● 维类别:也称维分层;即同一维度还可以存在细节程度不同的各个类别属性如时间维包括年、季度、月等● 维属性:是维的一个取值,是数据线在某维中位置的描述;● 粒度:DW 中数据综合程度高低的一个衡量;粒度低,细节程度高,回答查询的种类多20、Apriori 算法的基本操作步骤P93★Apriori 使用一种称作逐层搜索的迭代方法,K 项集用于探索K+1项集;该方法是基于候选的策略,降低候选数Apriori 剪枝原则:若任何项集是非频繁的,则其超集必然是非频繁的不用产生和测试超集该原则基于以下支持度的特性:☜ 项集的支持度不会超过其子集☜ 支持度的反单调特性anti-monotone :如果一个集合不能通过测试,则它的所有超集也都不能通过相同的测试;令 k=1产生长度为1的频繁项集循环,直到无新的频繁项集产生☜ 从长度为k 的频繁项集产生长度为k+1的候选频繁项集☟ 连接步:项集的各项排序,前k-1个项相同☜ 若候选频繁子集包含长度为k 的非频繁子集,则剪枝☟ 剪枝步:利用支持度属性原则☜ 扫描数据库,计算每个候选频繁集的支持度☜ 删除非频繁项, 保留频繁项 )()()(:,Y s X s Y X Y X ≥⇒⊆∀。
参考答案of数据挖掘

笫一章卜列JS于数据挖掘任务的是<)根据性别划分公司的顾客计斃公司的总销傅额预測一对股子的结果利用历史记录预测公司的未來股价吋以在不同维度合并数据.从而形成数据立方体的足()数据库数据祿数据仓库数据库系统目的足缩小数据的取值范用•使其更适合于数据挖掘以浓的需要.井且能够得到和原始数据相同的分析结果的足()数据清洗数据集成数据变换数据归約卜谜四种方法嘛一种不足雷见的分类方法(〉决第树支持向fitK-Xeans (聚类)朴素贝叶斯分类卜列任务中.朋于数据挖掘技术在商务智能方面应用的足()欺诈检测垃圾邮件识别根据因特网的捜索引擎伍找特定的Web页面定向营销舁常检测的应用包括()网络攻击预测某股票的未来价格计算公司的总带會额根据性别划分公司顾客将原始数据进行集成.变换.维度规约、数值规约足哪个步驟的任务(〉猿繁模式挖掘分类和预测数据预处理数据流挖掘KDD是(数据挖掘9知识发现)卜列有关离群点的分析错谦的足(〉-纓宿况卜离群点会被肖作唤声而去弃离群点即足噪声数据在荣些待殊应用中离群点有特殊的总义信用卡在不常消费地区突然消费人壇金额的现盘属于离群点分析范畸卜列关于模式识别的相关说法中错谓的足(〉模式识别的本质足抽象出不同爭物中的模式并由此对爭物进行分类医疗诊断属干模式讲别的研宛内容之一F机的描纹解镇技术不属r模式识别的应用门然语育理解也包含模式识别何题()不属干数据挖抿的应用领域。
商务智能信息识别I搜童引鼻医疗诊斷目前数据分析和数据挖掘而临的挑战性何题不包括(〉数据类型的多样化高维度数据离群点数据分析与挖掘结果对视化常见的机器学习方法有监悴学习.无监怦学r监悴学习数据挖掘足从人规模的数据中抽1R或挖掘出感兴趣的知识或模式的过程或方法&施紫模式足描数据集中频緊出现的蟆式X肉群点足描全局或者局部范用内偏离一履水平的观测对盘联机分析处理足数据仓库的主要应用分类是措通过建立模型预测离散标签.I叩丿I足通过建立连续值模型推断新的数据的某个数值型属性。
数据库技术与应用 第二版 课后答案

第1章习题参考答案1.思考题(1)什么是数据库、数据库管理系统、数据库系统它们之间有什么联系答:数据库是存贮在计算机内的有结构的数据集合;数据库管理系统是一个软件,用以维护数据库、接受并完成用户对数据库的一切操作;数据库系统指由硬件设备、软件系统、专业领域的数据体和管理人员构成的一个运行系统。
(2)当前,主要有哪几种新型数据库系统它们各有什么特点用于什么领域,试举例说明答:主要有:分布式数据库、面向对象数据库、多媒体数据库、数据仓库技术、空间数据库。
(3)什么是数据模型目前数据库主要有哪几种数据模型它们各有什么特点答:数据模型是一组描述数据库的概念。
这些概念精确地描述数据、数据之间的关系、数据的语义和完整性约束。
很多数据模型还包括一个操作集合。
这些操作用来说明对数据库的存取和更新。
数据模型应满足3方面要求:一是能真实地模拟现实世界;二是容易为人们理解;三是便于在计算机上实现。
目前在数据库领域,常用的数据模型有:层次模型、网络模型、关系模型以及最近兴起的面向对象的模型。
(4)关系数据库中选择、投影、连接运算的含义是什么答:1)选择运算:从关系中筛选出满足给定条件的元组(记录)。
选择是从行的角度进行运算,选择出的记录是原关系的子集。
2)投影运算:从关系中指定若干个属性(字段)组成新的关系。
投影是从列的角度进行运算,得到的新关系中的字段个数往往比原关系少。
3)连接运算:将两个关系按照给定的条件横向拼接成新的关系。
连接过程是通过两个关系中公有的字段名进行的。
(5)关键字段的含义是什么它的作用是什么答:一个关系中可以确定一个字段为关键字段,该字段的值在各条记录中不能有相同的值。
(如:门牌号码);关键字段的作用主要是为建立多个表的关联和进行快速查询。
(6)什么是E-R图E-R图是由哪几种基本要素组成这些要素如何表示答:E-R图也称实体-联系图(EntityRelationshipDiagram),提供了表示实体类型、属性和联系的方法,用来描述现实世界的概念模型。
第6章 数据挖掘技术2(关联规则挖掘)

求L3。比较候选支持度计数与最小支持度计数得: 项集 I1,I2,I3 I1,I2,I5 支持度计数 2 2
所以 L3=C3 求C4= L3 ∞ L3={I1,I2,I3,I5} 子集{I2,I3,I5} L3,故剪去; 故C4=,算法终止。 结果为L=L1 U L2 U L3
24
19:40
定义5:强关联规则。同时满足最小支持度(min_sup) 和最小可信度(min_conf)的规则称之为强关联规 则 定义6:如果项集满足最小支持度,则它称之为频繁项 集(Frequent Itemset)。
19:40 9
2. 关联规则挖掘过程
关联规则的挖掘一般分为两个过程: (1)找出所有的频繁项集:找出支持度大于 最小支持度的项集,即频繁项集。
由L1 产生C2
项集 支持度 计数 {I1} {I2} {I3} {I4} {I5} 6 7 6 2 2
19:40
19
C2
C2
比较候 支持度 选支持 度计数 4 与最小 4 支持度 1 计数 2
4 2 2 0 1 0
L2
项集 支持度
{I1,I4} {I1,I5} {I2,I3} {I2,I4} {I2,I5} {I3,I4} {I3,I5} {I4,I5}
Apriori是挖掘关联规则的一个重要方法。 算法分为两个子问题: 找到所有支持度大于最小支持度的项集 (Itemset),这些项集称为频繁集 (Frequent Itemset)。 使用第1步找到的频繁集产生规则。
19:40
14
Apriori 使用一种称作逐层搜索的迭代方法, “K-项集”用于探索“K+1-项集”。 1.首先,找出频繁“1-项集”的集合。该集合 记作L1。L1用于找频繁“2-项集”的集合L2, 而L2用于找L3, 如此下去,直到不能找到“K-项集”。找每个 LK需要一次数据库扫描。
数据挖掘导论中文答案1.2.3.4.6.8.10章

习题一:1。
讨论是否每个以下活动是一个数据挖掘的任务。
(a)将公司的客户根据他们的性别。
不。
这是一个简单的数据库查询。
(b)将公司的客户根据他们的盈利能力。
不。
这是一个会计计算,紧随其后的是应用程序一个阈值。
然而,预测的盈利能力客户将数据挖掘。
(c)计算一个公司的总销售额。
不。
再次,这是简单的会计。
(d)排序一个学生数据库基于学生身份证号码。
不。
再一次,这是一个简单的数据库查询。
(e)预测结果掷双骰子(公平)。
不。
因为模具是公平的,这是一个概率计算。
如果死是不公平的,我们需要估计的概率每个结果的数据,那么这是更像的问题认为数据挖掘。
然而,在这种特定的情况下,解决方案这个问题是由数学家很长时间前,因此,我们不会认为它是数据挖掘。
(f)预测未来股价的公司使用历史记录。
是的。
我们将尝试创建一个模型,该模型可以预测连续价值的股票价格。
这是一个的例子数据挖掘领域称为预测模型。
我们可以使用回归建模,尽管在许多领域的研究者开发了各种各样的技术来预测时间吗系列。
(g)监测病人的心率异常。
是的。
我们可以建立一个模型,心脏的正常行为率和不同寻常的心行为发生时发出警报。
这将涉及到数据挖掘的区域称为异常检测。
这也可以被认为是一个分类问题如果我们有正常和异常的心行为的例子。
(h)监测地震活动的地震波。
是的。
在本例中,我们将构建一个不同类型的模型地震波与地震相关的活动和行为提高警报当其中一个不同类型的地震活动被观察到。
这是数据挖掘领域的一个例子被称为分类。
(i)提取声波的频率。
不。
这是信号处理。
2.假设你被录用,作为一个互联网数据挖掘咨询顾问搜索引擎公司。
描述数据挖掘可以帮助公司通过给具体的例子如何技术,如聚类,分类、关联规则挖掘和异常检测可以应用。
答:以下是可能的答案的例子。
•聚类可以把结果与类似的主题用户在一个更简洁的形式,例如通过报告集群中的十大最频繁的词语。
•分类可以将结果分配给预定义的类别等“体育”、“政治”,等等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘——概念概念与技术 DataMining Concepts and Techniques
习题解答
Jiawei Han Micheline Kamber 著 范明孟晓峰译 1.3假设你是BigUniversity的软件工程师,任务是设计一个数据挖掘系统,分析学校课程数据库。该数据库包括如下信息:每个学生的姓名、地址和状态(例如本科生或研究生)、所修课程以及他们的GPA(平均积分点)。描述你要选取的结构。该结构的每个成分的作用是什么? 答:该应用程序的数据挖掘的体系结构应包括以下主要组成部分: 数据库,数据仓库,万维网或其他信息库:这是一个或一组包含学生和课程信息数据库、数据仓库、电子表格或其他类型的信息库; 数据库或数据仓库服务器:根据用户数据挖掘请求,数据库或数据仓库服务器负责提取相关数据; 知识库:这是领域的知识,用于指导搜索或评估结果模式的兴趣度。 数据挖掘引擎:这是数据挖掘系统的基本部分,理想情况下由一组功能模块组成,用于执行特征化、关联和相关分析、分类、预测、聚类分析、离群点分析和演变分析等任务。 模式评估模块:该成分使用兴趣度度量,并与数据挖掘模块交互,以便将搜索聚焦在有兴趣的模式上。 用户界面:该模块在用户和数据挖掘系统之间通信,允许用户与系统交互,说明挖掘查询或任务,提供信息以帮助搜索聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。。 1.4 数据仓库和数据库有何不同?有哪些相似之处?p8 答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。它用表组织数据,采用ER数据模型。 相似:它们都为数据挖掘提供了源数据,都是数据的组合。 1.5 简述以下高级数据库系统和应用:对象-关系数据库、空间数据库、文本数据库、多媒体数据库、流数据和万维网。 答:对象-关系数据库的设计是基于面向对象的编程范式的数据是大量对象类和类层次结构组织。每个实体在数据库中被视为一个对象。该对象包含一组变量描述的对象,一组消息的对象可以使用的沟通与其他物体或与其余的数据库系统,以及一套方法,每种方法持有的代码实现一个消息。 空间数据库包含空间有关的数据,这可能是代表的形式,栅格或矢量数据。栅格数据包括n维位图或像素地图,矢量数据是由点,线,多边形或其他种类的图元处理,一些例子包括地理空间数据库(图)数据库,超大规模集成电路芯片设计,以及医疗和卫星图像数据库。 文本数据库包含文本文件或其他长句或段落格式的文字说明,如产品规格、误差或错误报告、警告信息、总结报告、说明或其他文件。 多媒体数据库存储的图像,音频,视频数据,并应用于诸如图像、基于内容的检索、语音邮件系统、视频点播系统、互联网和以语音为基础的用户界面。 流数据是一类新的数据的产生和分析,其中数据动态地从观测平台(或窗口)流进或流出。特点:海量甚至可能无限,动态变化,以固定的次序流进或流出,只允许一遍或少数几遍扫描,要求快速响应时间。如电力供应、网络通信、股票交易、电信、Web点击流、视频监视和气象或环境监控数据。 万维网上提供丰富的、全世界范围内的联机信息服务,其中的数据对象链接在一起便于交互访问。与之关联的分布式信息服务的例子如:美国在线,雅虎!Alta Vista等。 1.6 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。 答:特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息, 还有所修的课程的最大数量。 区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。 关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”) ⇒ owns(X, “personal computer”) [support=12%, confidence=98%] 其中,X 是一个表示学生的变量。这个规则指出正在学习的学生,12% (支持度)主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。 分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具: 分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。 聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分 层结构,把类似的事件组织在一起。 数据演变分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析 2.2 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。 ――――――――――――――――――――――――――――――――――――― 年龄 频率 ――――――――――――――――――――――――――――――――――――― 1~5 200 5~15 450 15~20 300 20~50 1500 50~80 700 80~110 44 ――――――――――――――――――――――――――――――――――――― 计算数据的近似中位数值。 解答: 先判定中位数区间:N=200+450+300+1500+700+44=3194;N/2=1597 ∵ 200+450+300=950<1597<2450=950+1500; ∴ 20~50 对应中位数区间。 ∴ median=32.97 岁。 2.4 假定用于分析的数据包含属性age。数据元组的age 值(以递增序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。 答:(a) 该数据的均值是什么?中位数是什么? 均值=(13+15+16+16+19+20+20+21+22+22+25+25+25+25+30+33+33+35+35+35+35+36+40+45+46+52+70)/27 =29.96
中位数应是第14个,即x14=25=Q2。 (b) 该数据的众数是什么?讨论数据的峰(即双峰、三峰等)。 这个数集的众数有两个:25 和35,发生在同样最高的频率处,因此是双峰众数。 (c) 数据的中列数是什么? 数据的中列数是最大数和最小数的均值。即:midrange=(70+13)/2=41.5。 (d) 你能(粗略地)找出数据的第一个四分位数(Q1)和第三个四分位数(Q3)吗? 数据集的第一个四分位数应发生在25%处,即在(N+1)/4=(27+1)/4=7 处。所以:Q1=20。 而第三个四分位数应发生在75%处,即在3×(N+1)/4=21 处。所以:Q3=35 (e) 给出数据的五数概括。 一个数据集的分布的5 数概括由最小值、第一个四分位数、中位数、第三个四分位数、和最大值构成。它给出了分布形状良好的汇总+并且这些数据是:13、20、25、35、70。 (f) 画出数据的盒图。
(g) 分位数—分位数图与分位数图的不同之处是什么? 分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。这样,他可以展示所有数的分位数信息,而为独立变量测得的值(纵轴)相对于它们的分位数(横轴)被描绘出来。但分位数—分位数图用纵轴表示一种单变量分布的分位数,用横轴表示另一单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域,且点按照两种分布分位数值展示。一条线(y=x)可画到图中+以增加图像的信息。落在该线以上的点表示在y 轴上显示的值的分布比x 轴的相应的等同分位数对应的值的分布高。反之,对落在该线以下的点则低。 2.7 使用习题2.4 给出的age 数据回答下列问题: (a) 使用分箱均值光滑对以上数据进行光滑,箱的深度为3。解释你的步骤。 评述对于给定的数据,该技术的效果。 (b) 如何确定数据中的离群点? (c) 对于数据光滑,还有哪些其他方法? 解答: (a) 使用分箱均值光滑对以上数据进行光滑,箱的深度为3。解释你的步骤。评述对于给定的数据,该技术的效果。 用箱深度为3 的分箱均值光滑对以上数据进行光滑需要以下步骤: 步骤1:对数据排序。(因为数据已被排序,所以此时不需要该步骤。) 步骤2:将数据划分到大小为3 的等频箱中。 箱1:13,15,16 箱2:16,19,20 箱3:20,21,22 箱4:22,25,25 箱5:25,25,30 箱6:33,33,35 箱7:35,35,35 箱8:36,40,45 箱9:46,52,70 步骤3:计算每个等频箱的算数均值。 步骤4:用各箱计算出的算数均值替换每箱中的每个值。 箱1:44/3,44/3,44/3 箱2:55/3,55/3,55/3 箱3:21,21,21 箱4:24,24,24 箱5: 80/3 ,80/3, 80/3 箱 6: 101/3,101/3, 101/3 箱7:35,35,35 箱8:121/3,121/3,121/3 箱9:56,56,56 (b) 如何确定数据中的离群点? 聚类的方法可用来将相似的点分成组或“簇”,并检测离群点。落到簇的集外的值可以被视为离群点。作为选择,一种人机结合的检测可被采用,而计算机用一种事先决定的数据分布来区分可能的离群点。这些可能的离群点能被用人工轻松的检验,而不必检查整个数据集。 (c) 对于数据光滑,还有哪些其他方法? 其它可用来数据光滑的方法包括别的分箱光滑方法,如中位数光滑和箱边界光滑。作为选择,等宽箱可被用来执行任何分箱方式,其中每个箱中的数据范围均是常量。除了分箱方法外,可以使用回归技术拟合成函数来光滑数据,如通过线性或多线性回归。分类技术也能被用来对概念分层,这是通过将低级概念上卷到高级概念来光滑数据。 2.9假设医院检测随机选择的18个成年人年龄和身体脂肪数据,得到如下结果: