数据挖掘原理与实践-蒋盛益-答案
数据挖掘导论习题答案(中文版)

介绍数据挖掘教师的解决方案手册陈甘美华Pang-NingMichael教授Vipin Kumar版权所有2006年Pearson Addison-Wesley。
保留所有权利。
内容。
1 Introduction 52 Data 53 Exploring Data 194 Classification: Basic Concepts, Decision Trees, and Model24 Evaluation 245 Classification: Alternative Techniques 446 Association Analysis: Basic Concepts and Algorithms 717 Association Analysis: Advanced Concepts 958 Cluster Analysis: Basic Concepts and Algorithms 1259 Cluster Analysis: Additional Issues and Algorithms 14510 Anomaly Detection 153三1介绍1.讨论是否执行下列每项活动的是一种数据miningtask。
(a)把客户的公司根据他们的性别。
否。
这是一种简单的数据库查询。
(b)把客户的公司根据他们的盈利能力。
第这是一种会计计算、应用程序的门限值。
然而,预测盈利的一种新的客户将数据挖掘。
(c)计算的总销售公司。
否。
这又是简单的会计工作。
(d)排序的学生数据库基于学生的身份证号码。
第再次,这是一种简单的数据库查询。
(e)预测结果丢(公平)的一对骰子。
否。
既然死是公正的,这是一种概率的计算。
如果死是不公平的,我们需要估计的概率对每个结果的数据,那么这更象研究的问题数据挖掘。
然而,在这种特定的情况下,要解决这一问题是由数学家很长一段时间前,因此,我们不认为它是数据挖掘。
(f)预测未来股价的公司使用。
数据挖掘试题参考答案

大学课程《数据挖掘》试题参考答案范围:∙ 1.什么是数据挖掘?它与传统数据分析有什么区别?定义:数据挖掘(Data Mining,DM)又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。
数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。
区别:(1)数据挖掘的数据源与以前相比有了显著的改变;数据是海量的;数据有噪声;数据可能是非结构化的;(2)传统的数据分析方法一般都是先给出一个假设然后通过数据验证,在一定意义上是假设驱动的;与之相反,数据挖掘在一定意义上是发现驱动的,模式都是通过大量的搜索工作从数据中自动提取出来。
即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。
在缺乏强有力的数据分析工具而不能分析这些资源的情况下,历史数据库也就变成了“数据坟墓”-里面的数据几乎不再被访问。
也就是说,极有价值的信息被“淹没”在海量数据堆中,领导者决策时还只能凭自己的经验和直觉。
因此改进原有的数据分析方法,使之能够智能地处理海量数据,即演化为数据挖掘。
∙ 2.请根据CRISP-DM(Cross Industry Standard Process for Data Mining)模型,描述数据挖掘包含哪些步骤?CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述.该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段.1: business understanding: 即商业理解. 在第一个阶段我们必须从商业的角度上面了解项目的要求和最终目的是什么. 并将这些目的与数据挖掘的定义以及结果结合起来.2.data understanding: 数据的理解以及收集,对可用的数据进行评估.3: data preparation: 数据的准备,对可用的原始数据进行一系列的组织以及清洗,使之达到建模需求.4:modeling: 即应用数据挖掘工具建立模型.5:evaluation: 对建立的模型进行评估,重点具体考虑得出的结果是否符合第一步的商业目的.6: deployment: 部署,即将其发现的结果以及过程组织成为可读文本形式.(数据挖掘报告)∙ 3.请描述未来多媒体挖掘的趋势随着多媒体技术的发展,人们接触的数据形式不断地丰富,多媒体数据库的日益增多,原有的数据库技术已满足不了应用的需要,人们希望从这些媒体数据中得到一些高层的概念和模式,找出蕴涵于其中的有价值的知识。
(完整版)数据挖掘概念课后习题答案

(b)(b)由基本方体[student,course,semester,instructor]开始,为列出BigUniversity每个学生的CS课程的平均成绩,应当使用哪些特殊的OLAP操作。
(c)如果每维有5层(包括all),如“student<major<status<university<all”, 该立方体包含多少方体?
合,因为它是松散耦合和 紧密耦合的折中。
第2章数据预处理
2.2假设给定的数据集的值已经分组为区间。区间和对应的频率如下。
年龄
频率
1~5
200
5~15
450
15~20
300
20~50
1500
50~80
700
80~110
44
计算数据的近似中位数值。
2.4假定用于分析的数据包含属性age。数据元组的age值(以递增序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。
(a)画出一个等宽为10的等宽直方图;
(b)为如下每种抽样技术勾画例子:SRSWOR,SRSWR,聚类抽样,分层抽样。使用大小为5的样本和层“青年”,“中年”和“老年”。
解答:
(b)为如下每种抽样技术勾画例子:SRSWOR,SRSWR,聚类抽样,分层
抽样。使用大小为5的样本和层“青年”,“中年”和“老年”。 元组:
用箱深度为3的分箱均值光滑对以上数据进行光滑需要以下步骤:
�步骤1:对数据排序。(因为数据已被排序,所以此时不需要该步骤。)
�步骤2:将数据划分到大小为3的等频箱中。
数据挖掘原理与算法01答案共57页文档

66、节制使快乐增加并使享受加强。 ——德 谟克利 特 67、今天应做的事没有做,明天再早也 是耽误 了。——裴斯 泰洛齐 68、决定一个人的一生,以及整个命运 的,只 是一瞬 之间。 ——歌 德 69、懒人无法享受休息之乐。——拉布 克 70、浪费时间是一桩大罪过。——卢梭
数据挖掘原理与算法01答案
51、没有哪个社会可以制订一部永远 适用的 宪法, 甚至一 条永远 适用的 法律。 ——杰 斐逊 52、法律源于人的自卫本能。——英 格索尔
53、人们通常会发现,法律就是这样 一种的 网,触 犯法律 的人, 小的可 以穿网 而过, 大的可 以破网 而出, 只有中 等的才 会坠入 网中。 ——申 斯通 54、法律就是法律它是一座雄伟的大 夏,庇 护着我 们大家 ;它的 每一块 砖石都法律。 ——罗·伯顿
数据挖掘原理与应用---试题及答案试卷十二答案精选全文完整版

数据挖掘原理与应用 试题及答案试卷一、(30分,总共30题,每题答对得1分,答错得0分)单选题1、在ID3算法中信息增益是指( D )A、信息的溢出程度B、信息的增加效益C、熵增加的程度最大D、熵减少的程度最大2、下面哪种情况不会影响K-means聚类的效果?( B )A、数据点密度分布不均B、数据点呈圆形状分布C、数据中有异常点存在D、数据点呈非凸形状分布3、下列哪个不是数据对象的别名 ( C )A、样品B、实例C、维度D、元组4、人从出生到长大的过程中,是如何认识事物的? ( D )A、聚类过程B、分类过程C、先分类,后聚类D、先聚类,后分类5、决策树模型中应如何妥善处理连续型属性:( C )A、直接忽略B、利用固定阈值进行离散化C、根据信息增益选择阈值进行离散化D、随机选择数据标签发生变化的位置进行离散化6、假定用于分析的数据包含属性age。
数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70。
问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。
第二个箱子值为:( A )A、18.3B、22.6C、26.8D、27.97、建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?( C )A、根据内容检索B、建模描述C、预测建模D、寻找模式和规则8、如果现在需要对一组数据进行样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量,应该采取( A )A、聚类分析B、回归分析C、相关分析D、判别分析9、时间序列数据更适合用( A )做数据规约。
A、小波变换B、主成分分析C、决策树D、直方图10、下面哪些场景合适使用PCA?( A )A、降低数据的维度,节约内存和存储空间B、降低数据维度,并作为其它有监督学习的输入C、获得更多的特征D、替代线性回归11、数字图像处理中常使用主成分分析(PCA)来对数据进行降维,下列关于PCA算法错误的是:( C )A、PCA算法是用较少数量的特征对样本进行描述以达到降低特征空间维数的方法;B、PCA本质是KL-变换;C、PCA是最小绝对值误差意义下的最优正交变换;D、PCA算法通过对协方差矩阵做特征分解获得最优投影子空间,来消除模式特征之间的相关性、突出差异性;12、将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( C )A、频繁模式挖掘B、分类和预测C、数据预处理D、数据流挖掘13、假设使用维数降低作为预处理技术,使用PCA将数据减少到k维度。
《数据挖掘》试题与答案[精品文档]
![《数据挖掘》试题与答案[精品文档]](https://img.taocdn.com/s3/m/a29e0b8b08a1284ac8504393.png)
一、解答题(满分30分,每小题5分)1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。
知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。
流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。
2. 时间序列数据挖掘的方法有哪些,请详细阐述之时间序列数据挖掘的方法有:1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。
例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。
2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值。
若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。
3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。
由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。
假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测。
3. 数据挖掘的分类方法有哪些,请详细阐述之分类方法归结为四种类型:1)、基于距离的分类方法:距离的计算方法有多种,最常用的是通过计算每个类的中心来完成,在实际的计算中往往用距离来表征,距离越近,相似性越大,距离越远,相似性越小。
数据挖掘_国防科技大学中国大学mooc课后章节答案期末考试题库2023年

数据挖掘_国防科技大学中国大学mooc课后章节答案期末考试题库2023年1.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()答案:关联规则发现2.下列有关SVM说法不正确的是()答案:SVM因为使用了核函数,因此它没有过拟合的风险3.影响聚类算法效果的主要原因有:()答案:特征选取_聚类准则_模式相似性测度4.7、朴素贝叶斯分类器不存在数据平滑问题。
( )答案:错误5.决策树中包含一下哪些结点答案:内部结点(internal node)_叶结点(leaf node)_根结点(root node) 6.标称类型数据的可以利用的数学计算为:众数7.一般,k-NN最近邻方法在( )的情况下效果较好答案:样本较少但典型性好8.考虑两队之间的足球比赛:队0和队1。
假设65%的比赛队0胜出、P(Y=0)=0.65。
剩余的比赛队1胜出、P(Y=1)=0.35。
队0获胜的比赛中只有30%在队1的主场、P(X=1|Y=0)=0.3,而队1获胜的比赛中75%是主场获胜、P(X=1|Y=1)=0.75。
则队1在主场获胜的概率即P(Y=1|X=1)为:()答案:0.579.一组数据的最小值为12,000,最大值为98,000,利用最小最大规范化将数据规范到[0,1],则73,000规范化的值为:()答案:0.71610.以下哪个分类方法可以较好地避免样本的不平衡问题:()答案:KNN11.简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,下列哪些不属于这种聚类类型层次聚类_模糊聚类_非互斥聚类12.数据点密度分布不均会影响K-means聚类的效果。
答案:正确13.数据集成需要解决模式集成、实体识别、数据冲突检测等问题答案:正确14.决策树模型中应处理连续型属性数据的方法之一为:根据信息增益选择阈值进行离散化。
答案:正确15.数据库中某属性缺失值比较多时,数据清理可以采用忽略元组的方法。
大数据分析与挖掘课后习题参考答案

dataFrame=spark.createDataFrame(df)
splits=[min(df['f1']),4.8,5.4,max(df['f1'])]
bucketizer = Bucketizer(splits=splits, inputCol='f1', outputCol='Buc_f1')
其中分层抽样更适合微信小程序受众人群的调查。首先对于某微信小程
序,受程序功能的影响,在不同特征上例如性别,年龄,兴趣等可能存在一定
程度的偏斜。按分层抽样的原理,可以根据不同的特征将总体分成子组,然后
从这些子组中选择样本进一步调查。
8
相对于第二种的随机抽样,第一种按比例分组抽样,所得各组样本的比
例为:
后数据的取值范围。
如题表 2-1 所示,从某个毕业班抽取出的 10 个同学的个人情况数据,包含
4 项特征:成绩绩点、身高、体重、工作月薪。利用两种以上的方法对每个
特征进行预处理。
题表 2-1
序号 成绩绩点 身高(m) 体重(斤) 工作月薪(元/月)
1
3.2
1.78
130
6000
2
3.5
1.76
122
第 2 章 习题
1.
2.
3.
4.
5.
6.
7.
8.
如果在没经过预处理的数据集合上进行数据挖掘的话,会有哪些问题?
假设原始数据服从正态分布,那么经过 z -score 变换后的标准分大于 3 的概
率有多大?
试分析 Spark 预处理 MaxabsScaler、MinMaxScaler 的处理方法,并给出处理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
习题参考答案第1 章绪论1.1 数据挖掘处理的对象有哪些?请从实际生活中举出至少三种。
答:数据挖掘处理的对象是某一专业领域中积累的数据,对象既可以来自社会科学,又可以来自自然科学产生的数据,还可以是卫星观测得到的数据。
数据形式和结构也各不相同,可以是传统的关系数据库,可以是面向对象的高级数据库系统,也可以是面向特殊应用的数据库,如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是Web 数据信息。
实际生活的例子:①电信行业中利用数据挖掘技术进行客户行为分析,包含客户通话记录、通话时间、所开通的服务等,据此进行客户群体划分以及客户流失性分析。
②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析,帮助天文学家发现其他未知星体。
③制造业中应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。
④市场业中应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。
1.2 给出一个例子,说明数据挖掘对商务的成功是至关重要的。
该商务需要什么样的数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗?答:例如,数据挖掘在电子商务中的客户关系管理起到了非常重要的作用。
随着各个电子商务网站的建立,企业纷纷地从“产品导向”转向“客户导向”,如何在保持现有的客户同时吸引更多的客户、如何在客户群中发现潜在价值,一直都是电子商务企业重要任务。
但是,传统的数据分析处理,如数据查询处理或简单的统计分析,只能在数据库中进行一些简单的数据查询和更新以及一些简单的数据计算操作,却无法从现有的大量数据中挖掘潜在的价值。
而数据挖掘技术却能使用如聚类、关联分析、决策树和神经网络等多种方法,对数据库中庞大的数据进行挖掘分析,然后可以进行客户细分而提供个性化服务、可以利用挖掘到的历史流失客户的特征来防止客户流失、可以进行产品捆绑推荐等,从而使电子商务更好地进行客户关系管理,提高客户的忠诚度和满意度。
1.3 假定你是Big-University 的软件工程师,任务是设计一个数据挖掘系统,分析学校课程数据库。
该数据库包括如下信息:每个学生的姓名、地址和状态(例如,本科生或研究生)、所修课程,以及他们的GPA。
描述你要选取的结构,该结构的每个成分的作用是什么?答:任务目的是分析课程数据库,那么首先需要有包含信息的关系型数据库系统,以便查找、提取每个属性的值;在取得数据后,需要有特征选择模块,通过特征选择,找出要分析的属性;接下来需要一个数据挖掘算法,或者数据挖掘软件,它应该包含像分类、聚类、关联分析这样的分析模块,对选择出来的特征值进行分析处理;在得到结果后,可以用可视化软件进行显示。
1.4 假定你作为一个数据挖掘顾问,受雇于一家因特网搜索引擎公司。
通过特定的例子说明,数据挖掘可以为公司提供哪些帮助,如何使用聚类、分类、关联规则挖掘和离群点检测等技术为企业服务。
答:(1) 使用聚类发现互联网中的不同群体,用于网络社区发现;第2 页共27 页(2) 使用分类对客户进行等级划分,从而实施不同的服务;(3) 使用关联规则发现大型数据集中间存在的关系,用于推荐搜索。
如大部分搜索了“广外”的人都会继续搜索“信息学院”,那么在搜索“广外”后会提示是否进进一步搜索“信息学院”。
(4) 使用离群点挖掘发现与大部分对象不同的对象,用于分析针对网络的秘密收集信息的攻击。
1.5 定义下列数据挖掘功能:关联、分类、聚类、演变分析、离群点检测。
使用你熟悉的生活中的数据,给出每种数据挖掘功能的例子。
答:关联是指发现样本间或样本不同属性间的关联。
例如,一个数据挖掘系统可能发现的关联规则为:maj or(X, “comput i ng sci ence”)⇒owns(X, “personal comput er”)[ support =12%, conf i dence=98%] 其中,X是一个表示学生的变量。
该规则指出主修计算机科学并且拥有一台个人计算机的学生所占比例为12%,同时,主修计算机专业的学生有98%拥有个人计算机。
分类是构造一系列能描述和区分数据类型或概念的模型(或功能),分类被用作预测目标数据的类的标签。
例如,通过对过去银行客户流失与未流失客户数据的分析,得到一个预测模型,预测新客户是否可能会流失。
聚类是将数据划分为相似对象组的过程,使得同一组中对象相似度最大而不同组中对象相似度最小。
例如,通过对某大型超市客户购物数据进行聚类,将客户聚类细分为低值客户、高值客户以及普通客户等。
数据演变分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析。
离群点检测就是发现与众不同的数据。
可用于发现金融领域的欺诈检测。
1.6 根据你的观察,描述一个可能的知识类型,它需要由数据挖掘方法发现,但本章未列出。
它需要一种不同于本章列举的数据挖掘技术吗?答:建立一个局部的周期性作为一种新的知识类型,只要经过一段时间的偏移量在时间序列中重复发生,那么在这个知识类型中的模式是局部周期性的。
需要一种新的数据挖掘技术解决这类问题。
1.7 讨论下列每项活动是否是数据挖掘任务:(1)根据性别划分公司的顾客。
(2)根据可赢利性划分公司的顾客。
(3)计算公司的总销售额。
(4)按学生的标识号对学生数据库排序。
(5)预测掷一对骰子的结果。
(6)使用历史记录预测某公司未来的股票价格。
(7)监视病人心率的异常变化。
(8)监视地震活动的地震波。
(9)提取声波的频率。
答:(1) 不是,这属于简单的数据库查询。
(2) 不是,这个简单的会计计算;但是新客户的利润预测则属于数据挖掘任务。
(3) 不是,还是简单的会计计算。
第3 页共27 页(4) 不是,这是简单的数据库查询。
(5) 不是,由于每一面都是同等概率,则属于概率计算;如概率是不同等的,根据历史数据预测结果则更类似于数据挖掘任务。
(6) 是,需要建立模型来预测股票价格,属于数据挖掘领域中的预测模型。
可以使用回归来建模,或使用时间序列分析。
(7) 是,需要建立正常心率行为模型,并预警非正常心率行为。
这属于数据挖掘领域的异常检测。
若有正常和非正常心率行为样本,则可以看作一个分类问题。
(8) 是,需要建立与地震活动相关的不同波形的模型,并预警波形活动。
属于数据挖掘领域的分类。
(9) 不是,属于信号处理。
第2 章数据处理基础2.1 将下列属性分类成二元的、分类的或连续的,并将它们分类成定性的(标称的或序数的)或定量的(区间的或比率的)。
例子:年龄。
回答:分类的、定量的、比率的。
(a)用AM 和PM 表示的时间。
(b)根据曝光表测出的亮度。
(c)根据人的判断测出的亮度。
(d)医院中的病人数。
(e)书的ISBN 号。
(f)用每立方厘米表示的物质密度。
答:(a)二元,定量,比率;(b)连续,定量,比率;(c)分类,定性,标称;(d)连续,定量,比率;(e)分类,定性,标称;(f)连续,定量,比率。
2.2 你能想象一种情况,标识号对于预测是有用的吗?答:学生的I D号可以预测该学生的毕业日期。
2.3 在现实世界的数据中,元组在某些属性上缺失值是常有的。
请描述处理该问题的各种方法。
答:处理遗漏值问题的策略有如下几种。
(1) 删除数据对象或属性。
一种简单而有效的策略是删除具有遗漏值的数据对象。
然而,即使部分给定的数据对象也包含一些信息,并且,如果许多对象都有遗漏值,则很难甚至不可能进行可靠的分析。
尽管如此,如果一个数据集只有少量的对象具有遗漏值,则忽略他们可能是合算的。
一种相关的策略是删除具有遗漏值的属性。
然而,做这件事要小心,因为被删除的属性可能对分析是至关重要的。
(2) 估计遗漏值。
有时,遗漏值可以可靠地估计。
例如,在考虑以较平滑的方式变化的具有少量但大大分散的遗漏值的时间序列,遗漏值可以使用其他值来估计(插值)。
作为另一个例子,考虑一个具有许多相似数据点的数据集。
在这种情况下,与具有遗漏值的点邻近的点的属性值常常可以用来估计遗漏的值。
如果属性是连续的,则可以使用最近邻的平均属性值;如果属性是分类的,则可以取最近邻中最常出现的第4 页共27 页属性值。
(3) 在分析时忽略遗漏值。
许多数据挖掘方法都可以修改,忽略遗漏值。
例如。
假定正在对数据对象聚类,需要计算数据对象间的相似性;如果对于某属性,两个对象之一或两个对象都有遗漏值,则可以仅使用没有遗漏值的属性来计算相似性。
当然,这种相似性只是紧邻的,但是除非整个属性数目很少,或者遗漏值的数量很大,否则这种误差影响不大。
同样的,许多分类方法都可以修改,处理遗漏值。
2.4 以下规范方法的值域是什么?(a) min-max 规范化。
(b) z-score 规范化。
(c) 小数定标规范化。
答:(a)[ new_mi n, new_max] ;(b)(-∞, + ∞);(c)(-1. 0,1. 0)。
2.5 假定用于分析的数据包含属性age,数据元组中age 的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。
(a) 使用按箱平均值平滑对以上数据进行平滑,箱的深度为3。
解释你的步骤。
评论对于给定的数据,该技术的效果。
(b) 对于数据平滑,还有哪些其它方法?答:(a)已知数据元组中age 的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70,且箱的深度为3,划分为(等频)箱:箱1:13,15,16箱2:16,19,20箱3:20,21,22箱4:22,25,25箱5:25,25,30箱6:33,33,33箱7:35,35,35箱8:35,36,40箱9:45,46,52箱10:70用箱均值光滑:箱1:15,15,15箱2:18,18,18箱3:21,21,21箱4:24,24,24箱5:27,27,37箱6:33,33,33箱7:35,35,35箱8:37,37,37箱9:48,48,48箱10:70;第5 页共27 页(b)对于数据平滑,其它方法有:(1)回归:可以用一个函数(如回归函数)拟合数据来光滑数据;(2)聚类:可以通过聚类检测离群点,将类似的值组织成群或簇。
直观地,落在簇集合之外的值视为离群点。
2.6 使用习题2.5 给出的age 数据,回答以下问题:(a) 使用min-max 规范化,将age 值35 转换到[0.0,1.0]区间。