数据挖掘与应用(七1)答案
数据挖掘试题参考答案

大学课程《数据挖掘》试题参考答案范围:∙ 1.什么是数据挖掘?它与传统数据分析有什么区别?定义:数据挖掘(Data Mining,DM)又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。
数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。
区别:(1)数据挖掘的数据源与以前相比有了显著的改变;数据是海量的;数据有噪声;数据可能是非结构化的;(2)传统的数据分析方法一般都是先给出一个假设然后通过数据验证,在一定意义上是假设驱动的;与之相反,数据挖掘在一定意义上是发现驱动的,模式都是通过大量的搜索工作从数据中自动提取出来。
即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。
在缺乏强有力的数据分析工具而不能分析这些资源的情况下,历史数据库也就变成了“数据坟墓”-里面的数据几乎不再被访问。
也就是说,极有价值的信息被“淹没”在海量数据堆中,领导者决策时还只能凭自己的经验和直觉。
因此改进原有的数据分析方法,使之能够智能地处理海量数据,即演化为数据挖掘。
∙ 2.请根据CRISP-DM(Cross Industry Standard Process for Data Mining)模型,描述数据挖掘包含哪些步骤?CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述.该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段.1: business understanding: 即商业理解. 在第一个阶段我们必须从商业的角度上面了解项目的要求和最终目的是什么. 并将这些目的与数据挖掘的定义以及结果结合起来.2.data understanding: 数据的理解以及收集,对可用的数据进行评估.3: data preparation: 数据的准备,对可用的原始数据进行一系列的组织以及清洗,使之达到建模需求.4:modeling: 即应用数据挖掘工具建立模型.5:evaluation: 对建立的模型进行评估,重点具体考虑得出的结果是否符合第一步的商业目的.6: deployment: 部署,即将其发现的结果以及过程组织成为可读文本形式.(数据挖掘报告)∙ 3.请描述未来多媒体挖掘的趋势随着多媒体技术的发展,人们接触的数据形式不断地丰富,多媒体数据库的日益增多,原有的数据库技术已满足不了应用的需要,人们希望从这些媒体数据中得到一些高层的概念和模式,找出蕴涵于其中的有价值的知识。
《数据挖掘》试题与答案(2021年整理精品文档)

《数据挖掘》试题与答案编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(《数据挖掘》试题与答案)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为《数据挖掘》试题与答案的全部内容。
一、解答题(满分30分,每小题5分)1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。
知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。
流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。
2. 时间序列数据挖掘的方法有哪些,请详细阐述之时间序列数据挖掘的方法有:1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。
例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。
2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值.若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。
(完整版)数据挖掘概念课后习题答案

(b)(b)由基本方体[student,course,semester,instructor]开始,为列出BigUniversity每个学生的CS课程的平均成绩,应当使用哪些特殊的OLAP操作。
(c)如果每维有5层(包括all),如“student<major<status<university<all”, 该立方体包含多少方体?
合,因为它是松散耦合和 紧密耦合的折中。
第2章数据预处理
2.2假设给定的数据集的值已经分组为区间。区间和对应的频率如下。
年龄
频率
1~5
200
5~15
450
15~20
300
20~50
1500
50~80
700
80~110
44
计算数据的近似中位数值。
2.4假定用于分析的数据包含属性age。数据元组的age值(以递增序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。
(a)画出一个等宽为10的等宽直方图;
(b)为如下每种抽样技术勾画例子:SRSWOR,SRSWR,聚类抽样,分层抽样。使用大小为5的样本和层“青年”,“中年”和“老年”。
解答:
(b)为如下每种抽样技术勾画例子:SRSWOR,SRSWR,聚类抽样,分层
抽样。使用大小为5的样本和层“青年”,“中年”和“老年”。 元组:
用箱深度为3的分箱均值光滑对以上数据进行光滑需要以下步骤:
�步骤1:对数据排序。(因为数据已被排序,所以此时不需要该步骤。)
�步骤2:将数据划分到大小为3的等频箱中。
数据挖掘习题答案

数据挖掘习题答案数据挖掘习题答案数据挖掘作为一门重要的技术和方法,广泛应用于各个领域。
在学习数据挖掘的过程中,习题是不可或缺的一部分。
通过解答习题,我们可以更好地理解和掌握数据挖掘的原理和应用。
以下是一些常见的数据挖掘习题及其答案,供大家参考。
一、选择题1. 数据挖掘的目标是什么?A. 发现隐藏在大数据中的模式和关联B. 提供数据存储和管理的解决方案C. 分析数据的趋势和变化D. 优化数据的存储和传输速度答案:A. 发现隐藏在大数据中的模式和关联2. 下列哪个不是数据挖掘的主要任务?A. 分类B. 聚类C. 回归D. 排序答案:D. 排序3. 数据挖掘的过程包括以下几个步骤,哪个是第一步?A. 数据清洗B. 数据集成C. 数据转换D. 数据选择答案:B. 数据集成4. 下列哪个不是数据挖掘中常用的算法?A. 决策树B. 支持向量机C. 朴素贝叶斯D. 深度学习答案:D. 深度学习5. 下列哪个不是数据挖掘的应用领域?A. 金融B. 医疗C. 娱乐D. 政治答案:D. 政治二、填空题1. 数据挖掘是从大量数据中发现________和________。
答案:模式,关联2. 数据挖掘的主要任务包括分类、聚类、回归和________。
答案:预测3. 数据挖掘的过程包括数据集成、数据清洗、数据转换和________。
答案:模式识别4. 决策树是一种常用的________算法。
答案:分类5. 数据挖掘可以应用于金融、医疗、娱乐等多个________。
答案:领域三、简答题1. 请简要介绍数据挖掘的主要任务和应用领域。
答:数据挖掘的主要任务包括分类、聚类、回归和预测。
分类是将数据集划分为不同的类别,聚类是将数据集中相似的样本归为一类,回归是根据已有的数据预测未知数据的值,预测是根据已有的数据预测未来的趋势和变化。
数据挖掘的应用领域非常广泛,包括金融、医疗、娱乐等。
在金融领域,数据挖掘可以用于信用评估、风险管理等方面;在医疗领域,数据挖掘可以用于疾病诊断、药物研发等方面;在娱乐领域,数据挖掘可以用于推荐系统、用户行为分析等方面。
数据挖掘计算题参考答案

数据挖掘计算题参考答案数据仓库与数据挖掘复习题1. 假设数据挖掘的任务是将如下的8个点(用(x,y)代表位置)聚类为3个类:X1(2,10)、X2(2,5)、X3(8,4)、X4(5,8)、X5(7,5)、X6(6,4)、X7(1,2)、X8(4,9),距离选择欧几里德距离。
假设初始选择X1(2,10)、X4(5,8)、X7(1,2)为每个聚类的中心,请用K_means算法来计算:(1)在第一次循环执行后的3个聚类中心;答:第一次迭代:中心点1:X1(2,10),2:X4(5,8),X7(1,2)X1 X2 X3 X4 X5 X6 X7 X81 0 25 36+36 9+4 25+25 16+36 1+64 4+12 9+4 9+9 9+16 0 4+9 1+16 16+36 1+13 1+64 1+9 53 16+36 45 29 0 58答案:在第一次循环执行后的3个聚类中心:1:X1(2,10)2:X3,X4,X5,X6,X8 (6,6)3:X2,X7 (1.5,3.5)(2)经过两次循环后,最后的3个族分别是什么?第二次迭代:d2X1 X2 X3 X4 X5 X6 X7 X81 0 25 36+36 9+4 25+25 16+36 1+64 4+12 32 17 8 5 2 4 41 1+13 52+6.5252+1.52 6.52+0.523.52+4.525.52+1.524.52+0.520.52+1.52 2.52+5.52答案:1:X1,X8 (3.5,9.5)2:X3,X4,X5,X6 (6.5,5.25)3:X2,X7 (1.5,3.5)2. 数据库有4个事务。
设min_sup=60%,min_conf=80%。
TID data TransactionT100 6/6/2007 K,A,D,BT200 6/6/2007 D,A,C,E,BT300 6/7/2007 C,A,B,ET400 6/10/2007 B,A,Da.使用Apriori算法找出频繁项集,并写出具体过程。
数据挖掘原理与应用---试题及答案试卷十二答案精选全文完整版

数据挖掘原理与应用 试题及答案试卷一、(30分,总共30题,每题答对得1分,答错得0分)单选题1、在ID3算法中信息增益是指( D )A、信息的溢出程度B、信息的增加效益C、熵增加的程度最大D、熵减少的程度最大2、下面哪种情况不会影响K-means聚类的效果?( B )A、数据点密度分布不均B、数据点呈圆形状分布C、数据中有异常点存在D、数据点呈非凸形状分布3、下列哪个不是数据对象的别名 ( C )A、样品B、实例C、维度D、元组4、人从出生到长大的过程中,是如何认识事物的? ( D )A、聚类过程B、分类过程C、先分类,后聚类D、先聚类,后分类5、决策树模型中应如何妥善处理连续型属性:( C )A、直接忽略B、利用固定阈值进行离散化C、根据信息增益选择阈值进行离散化D、随机选择数据标签发生变化的位置进行离散化6、假定用于分析的数据包含属性age。
数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70。
问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。
第二个箱子值为:( A )A、18.3B、22.6C、26.8D、27.97、建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?( C )A、根据内容检索B、建模描述C、预测建模D、寻找模式和规则8、如果现在需要对一组数据进行样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量,应该采取( A )A、聚类分析B、回归分析C、相关分析D、判别分析9、时间序列数据更适合用( A )做数据规约。
A、小波变换B、主成分分析C、决策树D、直方图10、下面哪些场景合适使用PCA?( A )A、降低数据的维度,节约内存和存储空间B、降低数据维度,并作为其它有监督学习的输入C、获得更多的特征D、替代线性回归11、数字图像处理中常使用主成分分析(PCA)来对数据进行降维,下列关于PCA算法错误的是:( C )A、PCA算法是用较少数量的特征对样本进行描述以达到降低特征空间维数的方法;B、PCA本质是KL-变换;C、PCA是最小绝对值误差意义下的最优正交变换;D、PCA算法通过对协方差矩阵做特征分解获得最优投影子空间,来消除模式特征之间的相关性、突出差异性;12、将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( C )A、频繁模式挖掘B、分类和预测C、数据预处理D、数据流挖掘13、假设使用维数降低作为预处理技术,使用PCA将数据减少到k维度。
数据挖掘考试题库及答案

数据挖掘考试题库及答案一、选择题1. 数据挖掘是从大量数据中提取有价值信息的过程,以下哪项不是数据挖掘的主要任务?A. 预测B. 分类C. 聚类D. 数据可视化答案:D2. 以下哪种技术不属于数据挖掘的常用方法?A. 决策树B. 支持向量机C. 关联规则D. 数据仓库答案:D3. 数据挖掘中,以下哪项技术常用于分类和预测?A. 神经网络B. K-均值聚类C. 主成分分析D. 决策树答案:D4. 在数据挖掘中,以下哪个概念表示数据集中的属性?A. 数据项B. 数据记录C. 数据属性D. 数据集答案:C5. 数据挖掘中,以下哪个算法用于求解关联规则?A. Apriori算法B. ID3算法C. K-Means算法D. C4.5算法答案:A二、填空题6. 数据挖掘的目的是从大量数据中提取______信息。
答案:有价值7. 在数据挖掘中,分类任务分为有监督学习和______学习。
答案:无监督8. 决策树是一种用于分类和预测的树形结构,其核心思想是______。
答案:递归划分9. 关联规则挖掘中,支持度表示某个项集在数据集中的出现频率,置信度表示______。
答案:包含项集的记录中同时包含结论的记录的比例10. 数据挖掘中,聚类分析是将数据集划分为若干个______的子集。
答案:相似三、判断题11. 数据挖掘只关注大量数据中的异常值。
()答案:错误12. 数据挖掘是数据仓库的一部分。
()答案:正确13. 决策树算法适用于处理连续属性的分类问题。
()答案:错误14. 数据挖掘中的聚类分析是无监督学习任务。
()答案:正确15. 关联规则挖掘中,支持度越高,关联规则越可靠。
()答案:错误四、简答题16. 简述数据挖掘的主要任务。
答案:数据挖掘的主要任务包括预测、分类、聚类、关联规则挖掘、异常检测等。
17. 简述决策树算法的基本原理。
答案:决策树算法是一种自顶向下的递归划分方法。
它通过选择具有最高信息增益的属性进行划分,将数据集划分为若干个子集,直到满足停止条件。
数据挖掘 习题及参考答案

①电信行业中利用数据挖掘技术进行客户行为分析,包含客户通话记录、通话时间、所 开通的服务等,据此进行客户群体划分以及客户流失性分析。
②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析,帮助天文 学家发现其他未知星体。
③制造业中应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。
第 4 页 共 27 页
(b)对于数据平滑,其它方法有: (1)回归:可以用一个函数(如回归函数)拟合数据来光滑数据; (2)聚类:可以通过聚类检测离群点,将类似的值组织成群或簇。直观地,落在簇集合 之外的值视为离群点。
2.6 使用习题 2.5 给出的 age 数据,回答以下问题: (a) 使用 min-max 规范化,将 age 值 35 转换到[0.0,1.0]区间。 (b) 使用 z-score 规范化转换 age 值 35,其中,age 的标准偏差为 12.94 年。 (c) 使用小数定标规范化转换 age 值 35。 (d) 指出对于给定的数据,你愿意使用哪种方法。陈述你的理由。
回归来建模,或使用时间序列分析。 (7) 是,需要建立正常心率行为模型,并预警非正常心率行为。这属于数据挖掘领域
的异常检测。若有正常和非正常心率行为样本,则可以看作一个分类问题。 (8) 是,需要建立与地震活动相关的不同波形的模型,并预警波形活动。属于数据挖
掘领域的分类。 (9) 不是,属于信号处理。
1.6 根据你的观察,描述一个可能的知识类型,它需要由数据挖掘方法发现,但本章未列出。 它需要一种不同于本章列举的数据挖掘技术吗?
答:建立一个局部的周期性作为一种新的知识类型,只要经过一段时间的偏移量在时间序列 中重复发生,那么在这个知识类型中的模式是局部周期性的。需要一种新的数据挖掘技 术解决这类问题。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(三) k近邻法
选择k值: 根据修正数据集评估不同k值对应的模型的性能,选择最优 的k值。 因为k近邻法的模型由训练数据集中的所有观测给出,所以 它也被称为基于记忆的推理(Memory-Based Reasoning)或基于 实例的学习(Instance-Based Learning )。
20
k近邻法示例
下表列出了不同k值对应的模型对训练数据集和修正数据 集的均方根误差。要使修正数据集的均方根误差最小,应该 选择k=2。
25
(四)线性模型
假设因变量来自正态分布:
Y~N(μ,σ2) μ与自变量x=(x1, … ,xp)之间的关系为:
μ=(α+xTβ)
其中α是截距项, β =(β1, … , βp)是对x的系数。 xr的值增加一个单位而其他自变量的值不变时,Y的平均值 增加βr(可能为负)。
26
(四)线性模型
设训练数据集为{(xi, yi), i=1, … ,N},其中xi被看作是给定的, 而yi被看作是相互独立的随机变量Yi的观测值。
系数α和β由最小二乘法估计,即最小化:
这等价于使用最大似然估计。 参数σ2可由最大似然法估计。
27
(五)广义线性模型
广义线性模型从两方面对线性模型进行扩展: 模型的系统成分:因变量Y分布的位置参数μ和自变量x的关 系。 令η= g(μ),其中g为一对一、连续可导的变换,使得η的取 值范围变成(-∞,∞);g(.)被称为连接函数。 η与x的关系为: η =(α+xTβ)
33
情形二:因变量为名义变量
可采用多项逻辑回归: 因变量Y的取值为1, … ,K,各取值之间是无序的。 令μ(l)表示Y取值为l的概率l=(1, … ,K),它们满足μ(l) +…+ μ(K) =1。对l=1, … ,K ,令:
那么(Y(l) , … ,Y(K))满足参数为(1, μ(l), … ,μ(K))的多项分 布, 没有刻度参数。
28
(五)广义线性模型
模型的随机成分:Y的分布,通常取指数族分布。指数族分 布的概率函数或概率密度函数的形式为:
其中φ被称为刻度参数,不是所有指数族分布都有刻度参 数,没有刻度参数时等价于φ ≡1。
29
(五)广义线性模型
令y=(y1, … ,yN), 令μ=(μ1, … ,μN),其中μi为Yi的分布的位置 参数。
~ (y; ) / ,其中 可以很容易证明比率偏差的形式为D ~ D (y; )与刻度参数φ无关,被称为偏差。线性模型中最小二乘 法所最小化的量就是偏差的一个特例。
估计广义线性模型的参数时,通过最小化偏差来估计α和β, 如果有刻度参数φ ,再通过最大似然法估计φ 。
31
情形一:因变量为二值变量
μl由训练数据集中属于类别l的观测的样本均值向量来估计。
8
3、判别分析的参数估计
估计∑l : 线性判别分析: ∑由合并样本协方差矩阵来估计; 设训练数据集中观测为x1,…,xN,其中N为观测数;考虑 训练数据集中属于类别l(l=1,…,K)的观测,令Nl表示这些观测 的个数,Cl表示它们的序号的集合, x l 表示它们的均值向量, 它们的样本协方差矩阵为:
4
1、线性判别分析
线性判别分析:
假设所有类别的协方差矩阵都相等, 即∑1=…= ∑ K= ∑;
可以推出:
5
1、线性判别分析
因为A的值对所有类别都一样,所以察看ξlfl(x)等价于察 看δl(X)。 根据贝叶斯定理,应该把自变量为x的观测归入δl(X)值 最大的类别。 δl(X)是x的线性函数,它被称为线性判别方程。 类别l和l’的边界由δl(X) =δl’(X)给出,该边界对x是线性
11
判别分析示例
数据集中的var1变量表示各种葡萄酒所使用的葡萄品种, 使用线性判别分析对这些葡萄酒进行分类的SAS程序如下: proc disc rim data=wine; /* 对wine数据集进行判别分析,缺省地进行线性判别分析, 若要进行二次判别分析需加上选项“pool=no” */ class var1; /*指出var1为因变量*/ run;
在广义线性模型下,所有μi都通过连接函数与同一组参数 (α,β)有关。
再考虑对μi没有任何限制的饱和模型,这时对每个μi都独 ˆs 表示饱和模型下对μ的最大似然估计。 立估计,令
30
(五)广义线性模型
令l(μ, φ│y)表示关于μ和φ的对数似然函数,定义比率偏 差 (Scaled Deviance):
15
(二)朴素贝叶斯分类算法
若Xr是可能取值为γ1, … , γv的分类变量,那么fl(xr= γv) v=(1, … ,V)可如下估计:
使用最大似然估计,即训练数据集属于类别l的观测中xir 取值为γv的比例:
其中#[条件]表示训练数据集中满足条件的观测数。
16
(二)朴素贝叶斯分类算法
如果训练数据集中没有满足条件的观测,相应的最大似然 ˆ ( x ) 的值为0。 估计 f l r v 在这种情形下,对于任何一个新的观测,只要自变量Xr取 ˆ ( x) 值为γv而不论其它变量取值如何,相应的 f 的值就为0,根据 l 贝叶斯公式估计的Pr(Y =l*︱X = x)的值就为0,该观测就不可 能被归为第l类。 为了避免这种武断的情况,假想在每个类别内另有Vn0个训 练观测,Xr的每种可能取值都分配n0个假想观测。可以得到一 种更加“平滑”的估计:
可采用逻辑回归: 不失一般性,设因变量Y的取值为0或1。 μ代表Y取值为1的概率。Y满足参数为μ的伯努力分布,没有 刻度参数。 使用逻辑(logit)连接函数,即:
它表示Y取值为1的概率与Y取值为0的概率的比的对数。 系数βr可以如下解释:xr的值增加一个单位而其他自变量的值 不变时,Y取值为1的概率与Y取值为0的概率的比是原来的 exp(βr)倍。
关键假设:给定类别Y的值,Xl, ... ,Xp是条件独立的。
对属于类别Y=l的观测,自变量X=(Xl, ... ,Xp)的概率函数 或概率密度函数fl(x)可以写成:
其中fl(xr)是类别l中自变量Xr的边缘分布。 要估计fl(x) ,可以对每个自变量独立估计fl(xr) ,然后将 它们相乘即可。
35
情形二:因变量为名义变量
对数似然函数为 l 1 y l log( i ,l ) ,其中μi,l代表第i个观测的 因变量取值为l的概率。在广义线性模型下,μi,l的表达式通过连 接函数可得:
K
i
36
情形二:因变量为名义变量
饱和模型对μi,l没有任何限制,这时对μi,l的最大似然估计为:
的。
6
2、二次判别分析
二次判别分析: 不假设各类别的协方差矩阵相等。容易推出,察看 ξlfl(x)等价于察看下列二次判别方程:
应该把自变量为x的观测归入ψl(x)值最大的类别。
类别l和类别l’的边界由ψl(x) =ψl’(x)给出,该边界是x的 二次方程。
7
3、判别分析的参数估计
在实际应用中,需要使用训练数据集来估计ξl、μl和∑l 的值: ξl由训练数据集中属于类别l的观测的比例来估计;
32
情形一:因变量为二值变量
对数似然函数为 i 1 [y i log( i ) (1 y i )log(1 i )] 。在广义 线性模型下,可得ui的表达式:
N
饱和模型对ui没有任何限制,这时对ui的最大似然估计为:
可得 l( ˆs; y ) 0 。 比率偏差和偏差都等于:
合并样本协方差矩阵为:
二次判别分析:∑l由Sl来估计(l=1, ... ,K)。
判别分析
虽然线性判别分析和二次判别分析都基于很简单的多元正 态假设,但是因为很多实际数据无法支持过于复杂的模型,所 以这两种方法的实际分类效果经常令人惊奇地好。
10
判别分析示例
假设work. wine数据集记录了对意大利某地区出产的178种 葡萄酒进行化学分析所得的酒精度、苹果酸、灰度、灰分碱度 等13种指标,这些葡萄酒分别酿自三种不同品种的葡萄(数据来 源于/ml/datasets/wine)。
k近邻法示例
假设SAS数据集work.car记录了22种品牌的159种车型的 如下表所示的一些信息(数据来源于http://archive.ics.uci.eda/ ml/datasets/Automobile)。
21
k近邻法示例
22
k近邻法示例
SAS软件的企业数据挖掘模块(Enterprise Miner)中,有一 个基于记忆的推理(Memory-Based Reasoning)节点可使用k近邻 法预测price变量的值。
第七讲
预测性建模的一些基本方法
1
(一)判别分析
判别分析适用于连续型自变量、名义型因变量的情形。
例如,它可用于将贷款、信用卡、保险等申请划分为不同 的风险类别。
2
(一)判别分析
判别分析使用贝叶斯定理对观测进行分类。 设因变量Y一共有K个类别。对 l=1,…,K,令ξl表示类别l的 K 先验概率,它们满足 l 1 1 1 。 设对属于类别Y=l的观测,自变量X=(X1, … ,Xp)的概率函数 或概率密度函数为fl(x)。 根据贝叶斯公式:
17
(二)朴素贝叶斯分类算法
若Xr是连续变量,可以假设对于类别Y=l而言,Xr满足均值 为μlr、方差为σlr2的正态分布。 只要训练数据集中每个类别的观测数至少为两个,μlr和σlr2 就可如下估计:
18
(三) k近邻法
k近邻法适用于自变量和因变量的类型没有特殊限制的情形。 它的具体步骤如下: 定义距离d(x, x’)度量自变量分别为x和x’的两个观测之间的 距离; 若要预测自变量为x*的观测的因变量Y的取值,对训练数据 集中的所有观测xi,计算d(x*, xi)的值。选择训练数据集中与x* 距离最小的k个观测。 使用这k个观测来预测x*对应的Y的取值: 若Y为离散变量,预测值为这k个观测的因变量中所占比例 最大的值。 若Y为连续变量,预测值为这k个观测的因变量的均值。