多元统计分析重点归纳.归纳.docx
第五章 多元统计分析(提纲)

第五章多元统计分析第一节多元描述统计一、列表法二、多元数据的图示法1.轮廓图作图步骤为:(1)作平面坐标系,横坐标取A个点表示A个变量。
(2)对给定的一次观测值,在P个点上的纵坐标(即高度)和它对应的变量取值成正比。
(3)连接P个高度的顶点得一折线,则一次观测值的轮廓为一条多角折线形。
n次观测值可画出M条折线.构成轮廓图。
2.雷达图(蛛网图)作图步骤是:(1)作一圆,并把圆周分为P等分。
(2)连接圆心和各分点,把这十条半径依次定义为各变量的坐标轴,并标以适当的刻度。
(3)对给定的—次观测值,把它的P个分量值分别点在相应的坐际轴上,然后连接成一个P 边形,这个P边形就是P元观测值的图示,n次观测值可画出M个多边形。
将上例数据用雷达图表示如下(值得注意的是,这里坐标轴只有正半袖,因而只能表示非负数据,若有负数据.只能通过合理变换使之非负才行):3.脸谱图(切尔诺夫脸)人们的反应表现在脸上。
切尔诺夫假定用二维平面的脸来表示多维观测结果,脸的特征(如脸的形状,嘴的弯曲率,鼻子的长度,服睛的大小,瞳孔的位置等等)是由P个变量的测量值所决定的。
按照最初的设计.切尔诺夫脸可处理多达18个变量。
脸部容貌对应的变量的分配是由实验者完成的,不同选择会产生不同的结果。
为了取得令人满意的表示常常需要一些重复步骤。
第二节综合评价方法一、综合评价及其要素1.综合评价根据多个指标,对评价对象进行客观、公正、合理的全面评价。
2.综合评价的要素(1)被评价的对象(2)评价指标(3)权重系数(4)综合评价模型(5)评价者二、综合评价的原则1.评价目标:总结性、发展性(预测性)2.评价对象采样:普遍、可比、可测性3.评价指标选择原则:相关性、全面性、可操作、与评价方法相协调。
三、综合评价的步骤:1.确定反映要研究的对象的主要方面及各方面的主要指标,建立评价指标体系。
2.评价指标的转换与综合的方法3.确定各种评估方法所需要的参数4.加权合成指标评价值,进行评估分析,得出评估结论五、评价指标的正向化与无量纲化1.正向指标、逆向指标与正向化正向指标是指数值越大越好的指标,逆向指标是数值越小越好的指标。
多元统计知识点总结

多元统计知识点总结一、多元正态分布。
1. 定义。
- 设X=(X_1,X_2,·s,X_p)^T,若X的概率密度函数为f(x)=(1)/((2π)^frac{p){2}∑^(1)/(2)}exp<=ft{-(1)/(2)(x - μ)^T∑^-1(x-μ)},其中μ =(μ_1,μ_2,·s,μ_p)^T为均值向量,∑为p× p正定协方差矩阵,则称X服从p元正态分布,记为Xsim N_p(μ,∑)。
2. 性质。
- 线性变换性质:若Xsim N_p(μ,∑),设Y = AX + b,其中A为m× p矩阵,b 为m×1向量,则Ysim N_m(Aμ + b,A∑ A^T)。
- 边缘分布性质:X的任何子向量也服从正态分布。
例如,若X=(X_1,X_2,·s,X_p)^T,Xsim N_p(μ,∑),取X_(1)=(X_1,·s,X_q)^T,X_(2)=(X_q + 1,·s,X_p)^T,则X_(1)sim N_q(μ_(1),∑_11),其中μ_(1)为μ的前q个元素组成的向量,∑_11为∑的左上角q× q子矩阵。
- 条件分布性质:在多元正态分布中,已知部分变量时,另一部分变量的条件分布仍然是正态分布。
二、均值向量和协方差矩阵的估计。
1. 样本均值向量。
- 设X_1,X_2,·s,X_n是来自p元总体Xsim N_p(μ,∑)的样本,则样本均值向量¯X=(1)/(n)∑_i = 1^nX_i,且E(¯X)=μ,Cov(¯X)=(1)/(n)∑。
2. 样本协方差矩阵。
- S=(1)/(n - 1)∑_i = 1^n(X_i-¯X)(X_i-¯X)^T,S是∑的无偏估计,即E(S)=∑。
三、主成分分析(PCA)1. 基本思想。
- 主成分分析是一种降维技术,它的目的是在损失很少信息的前提下把多个指标转化为几个综合指标(主成分)。
多元统计分析期末考试考点整理

二名词解释1、多元统计分析:多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广2、聚类分析:是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。
将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。
使类内对象的同质性最大化和类间对象的异质性最大化3、随机变量:是指变量的值无法预先确定仅以一定的可能性(概率)取值的量。
它是由于随机而获得的非确定值,是概率中的一个基本概念。
即每个分量都是随机变量的向量为随机向量。
类似地,所有元素都是随机变量的矩阵称为随机矩阵。
4、统计量:多元统计研究的是多指标问题,为了了解总体的特征,通过对总体抽样得到代表总体的样本,但因为信息是分散在每个样本上的,就需要对样本进行加工,把样本的信息浓缩到不包含未知量的样本函数中,这个函数称为统计量三、计算题解:答:答:题型三解答题1、简述多元统计分析中协差阵检验的步骤答:第一,提出待检验的假设和H1;第二,给出检验的统计量及其服从的分布;第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域;第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。
2、简述一下聚类分析的思想答:聚类分析的基本思想,是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。
把相似的样品或指标归为一类,把不相似的归为其他类。
直到把所有的样品(或指标)聚合完毕.3、多元统计分析的内容和方法答:1、简化数据结构,将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。
(1)主成分分析(2)因子分析(3)对应分析等2、分类与判别,对所考察的变量按相似程度进行分类。
(1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。
多元统计分析整理版.doc

1、主成分分析的目的是什么?主成分分析是考虑各指标间的相互关系,利用降维的思想把多个指标转换成较少的几个相互独立的、能够解释原始变量绝大部分信息的综合指标,从而使进一步研究变得简单的一种统计方法。
它的目的是希望用较少的变量去解释原始资料的大部分变异,即数据压缩,数据的解释。
常被用来寻找判断事物或现象的综合指标,并对综合指标所包含的信息进行适当的解释。
2、主成分分析基本思想?主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标。
同时根据实际需要从中选取几个较少的综合指标尽可能多地反映原来的指标的信息。
● 设p 个原始变量为 ,新的变量(即主成分)为 ,主成分和原始变量之间的关系表示为?3、在进行主成分分析时是否要对原来的p 个指标进行标准化?SPSS 软件是否能对数据自动进行标准化?标准化的目的是什么?需要进行标准化,因为因素之间的数值或者数量级存在较大差距,导致较小的数被淹没,导致主成分偏差较大,所以要进行数据标准化; 进行主成分分析时SPSS 可以自动进行标准化;标准化的目的是消除变量在水平和量纲上的差异造成的影响。
求解步骤⏹ 对原来的p 个指标进行标准化,以消除变量在水平和量纲上的影响 ⏹ 根据标准化后的数据矩阵求出相关系数矩阵 ⏹ 求出协方差矩阵的特征根和特征向量⏹ 确定主成分,并对各主成分所包含的信息给予适当的解释版本二:根据我国31个省市自治区2006年的6项主要经济指标数据,表二至表五,是SPSS 的输出表,试解释从每张表可以得出哪些结论,进行主成分分析,找出主成分并进行适当的解释:(下面是SPSS 的输出结果,请根据结果写出结论) 表一:数据输入界面p 21p x x x ,,, 21p ,21p y y y ,,, 21表二:数据输出界面a)此表为相关系数矩阵,表示的是各个变量之间的相关关系,说明变量之间存在较强的相关系数,适合做主成分分析。
观察各相关系数,若相关矩阵中的大部分相关系数小于0.3,则不适合作因子分析。
中国地质大学(北京)多元统计总结2016秋

Gauss-Markov 定理: 最小二乘估计量 b 是 的最优线性无偏估计. 2.回归方程的显著性检验 ① 拟合优度检验 总离差平方和= 回归平方和+残差平方和
s yy ˆa y )2 ˆa )2 U Q ( y ( ya y
a a
Q U s yy Q 2 R 1 样本决定系数: syy S yy s yy
n1 n2 p 1 2 T ~ F ( p, n1 n2 p 1) (n1 n2 2) p
4
当 H 0 为真时,
中国地质大学• 北京
数学教研室
对显著性水平 ,求出
(n n 2)p 2 T 1 2 F(p,n1 n2 p 1). n1 n2 p 1
④ 前m个主成分对第i个原始变量信息的被提取率为:
2 i u / j ij j 1 2 ij 2 i j 1 m m
2.会求主成分与贡献率累积贡献率. 二、因子分析 1.因子分析的数学模型,与回归、主成分的区别; 2.因子分析模型的性质: ①
Σ = AA +D
②模型不受计量单位的影响;③因子载荷不惟一. 3. 因子载荷矩阵的几个统计特征 ①因子载荷 aij 的统计意义;②变量共同度的统计意义; ③公共因子 Fj 方差贡献的统计意义. 4.因子载荷矩阵的估计方法: 主成分法;主因子法;极大似然估计法
i 1
i 1, 2 k
P( Gi x ) 判别准则: x Gl , 若P( Gl x ) max 1 i k
6
中国地质大学• 北京
数学教研室
等价地
max qi f i ( x) ,则 x 判给 Gl 若 ql f l ( x) 1 i k
② 最小平均误判代价准则 两个总体:用分法 R1,R2 来判别的平均错判损失为 ECM= C(2/1) P(2/1) q1+ C(1/2) P(1/2) q2 Bayes 的判别准则是选择使上式达极小的划分 R1 和 R2. Bayes 两类判别准则: (最小平均误判代价准则)
多元统计分析期末考试考点

多元统计分析期末考试考点The following text is amended on 12 November 2020.二名词解释1、多元统计分析:多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广2、聚类分析:是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。
将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。
使类内对象的同质性最大化和类间对象的异质性最大化3、随机变量:是指的值无法预先确定仅以一定的可能性(概率)取值的量。
它是由于随机而获得的非确定值,是概率中的一个基本概念。
即每个分量都是随机变量的向量为随机向量。
类似地,所有元素都是随机变量的矩阵称为随机矩阵。
4、统计量:多元统计研究的是多指标问题,为了了解总体的特征,通过对总体抽样得到代表总体的样本,但因为信息是分散在每个样本上的,就需要对样本进行加工,把样本的信息浓缩到不包含未知量的样本函数中,这个函数称为统计量三、计算题解:答:答:题型三解答题1、简述多元统计分析中协差阵检验的步骤答:第一,提出待检验的假设和H1;第二,给出检验的统计量及其服从的分布;第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域;第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。
2、简述一下聚类分析的思想答:聚类分析的基本思想,是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。
把相似的样品或指标归为一类,把不相似的归为其他类。
直到把所有的样品(或指标)聚合完毕.3、多元统计分析的内容和方法答:1、简化数据结构,将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。
(1)主成分分析(2)因子分析(3)对应分析等2、分类与判别,对所考察的变量按相似程度进行分类。
多元统计分析导论

多元统计分析导论
多元统计分析是一种应用统计学方法研究多个变量之间相互关系的领域。
本文档将介绍多元统计分析的基本概念和主要技术。
1. 什么是多元统计分析?
多元统计分析是分析多个变量之间关系的统计学方法。
在多元统计分析中,我们可以同时考虑多个变量之间的相互作用,以更全面地理解数据集。
2. 多元统计分析的应用领域
多元统计分析广泛应用于各个领域,包括社会科学、自然科学和工程学。
它常被用于解释变量之间的关系、预测未知变量、探索数据集的特征等。
3. 多元统计分析的技术和方法
在多元统计分析中,常用的技术和方法包括多元方差分析(MANOVA)、主成分分析(PCA)、因子分析、聚类分析、判别分析等。
这些方法能够帮助研究者发现数据集中的模式和结构。
4. 多元统计分析的步骤
进行多元统计分析时,通常需要经历以下步骤:
- 数据预处理:清洗数据、处理缺失值等。
- 变量选择:选择适合分析的变量。
- 模型建立:选择合适的模型进行分析。
- 模型评估:评估模型的拟合程度和效果。
- 结果解释:解释结果并得出结论。
5. 总结
多元统计分析是一种强大的统计学工具,它能够在研究多个变量之间的关系时提供有价值的信息。
通过应用多元统计分析,研究者能够更深入地理解和解释数据集中的模式和结构。
以上是关于多元统计分析导论的简要介绍。
希望本文档能对您理解和应用多元统计分析提供帮助。
天津市考研统计学复习资料多元统计分析重点知识点梳理

天津市考研统计学复习资料多元统计分析重点知识点梳理多元统计分析是统计学的一个重要分支,主要研究多个变量之间的关系。
在天津市考研统计学考试中,多元统计分析是一个重要的考点。
本文将为大家梳理多元统计分析的重点知识点,帮助大家更好地复习。
一、多元统计分析的基本概念多元统计分析是指研究多个变量之间关系的一种统计方法。
基本概念包括变量、样本、总体以及数据矩阵等。
变量是研究对象的属性或特征,可以分为自变量和因变量。
样本是从总体中抽取出来的一部分观察对象。
总体是包含所有观察对象的集合,数据矩阵则是由多个变量构成的数据表格。
二、多元统计分析的基本假设多元统计分析中,基本的假设包括正态性、方差齐性、线性关系和独立性。
正态性假设要求变量呈正态分布;方差齐性假设要求不同组之间的方差相等;线性关系假设要求变量之间存在线性关系;独立性假设要求各个样本之间是相互独立的。
三、多元统计分析的方法多元统计分析的方法包括主成分分析、因子分析、聚类分析、判别分析以及多元方差分析等。
主成分分析是一种降维技术,可以将多个变量转化为少数几个主成分;因子分析是一种变量提取技术,用于研究隐藏在观测变量背后的潜在因素;聚类分析是一种将样本按照某种相似性划分为不同群体的方法;判别分析是一种用于分类的方法,可以根据已知类别的样本训练分类模型,然后对未知类别的样本进行分类;多元方差分析是用于研究多个因素对多个变量的影响的方法。
四、多元统计分析的应用领域多元统计分析在实际应用中有广泛的应用领域。
比如,在金融风险管理领域,可以利用因子分析来识别和度量风险因子;在市场调研和消费者行为研究中,可以利用聚类分析来对消费者进行划分和分类;在医学研究中,可以利用判别分析来辅助诊断疾病。
五、多元统计分析的局限性多元统计分析也存在一定的局限性。
首先,多元统计分析的结果可能受到数据质量和样本分布的影响。
其次,多元统计分析的结果只是对样本的推断,不能直接推广到整个总体。
此外,多元统计分析的结果需要结合实际情况进行解释和分析,不能仅仅依赖统计指标。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多元统计分析重点宿舍版第一讲:多元统计方法及应用;多元统计方法分类(按变量、模型、因变量等) 多元统计分析应用选择题:①数据或结构性简化运用的方法有:多元回归分析,聚类分析,主成分分析,因子分析 ②分类和组合运用的方法有:判别分析,聚类分析,主成分分析 ③变量之间的相关关系运用的方法有:多元回归,主成分分析,因子分析, ④预测与决策运用的方法有:多元回归,判别分析,聚类分析 ⑤横贯数据:{因果模型(因变量数):多元回归,判别分析相依模型(变量测度):因子分析,聚类分析多元统计分析方法选择题:①多元统计方法的分类:1)按测量数据的来源分为:横贯数据(同一时间不同案例的观测数据),纵观数据(同样案例在不同时间的多次观测数据) 2)按变量的测度等级(数据类型)分为:类别(非测量型)变量,数值型(测量型)变量3)按分析模型的属性分为:因果模型,相依模型 4)按模型中因变量的数量分为:单因变量模型,多因变量模型,多层因果模型第二讲:计算均值、协差阵、相关阵;相互独立性第三讲:主成分定义、应用及基本思想,主成分性质,主成分分析步骤主成分定义:何谓主成分分析 就是将原来的多个指标(变量)线性组合成几个新的相互无关的综合指标(主成分),并使新的综合指标尽可能多地反映原来的指标信息。
主成分分析的应用 :(1)数据的压缩、结构的简化;(2)样品的综合评价,排序主成分分析概述——思想:①(1)把给定的一组变量X1,X2,…XP ,通过线性变换,转换为一组不相关的变量Y1,Y2,…YP 。
(2)在这种变换中,保持变量的总方差(X1,X2,…Xp 的方差之和)不变,同时,使Y1具有最大方差,称为第一主成分;Y2具有次大方差,称为第二主成分。
依次类推,原来有P 个变量,就可以转换出P 个主成分(3)在实际应用中,为了简化问题,通常找能够反映原来P 个变量的绝大部分方差的q (q<p )个主成分。
主成分性质:1)性质1:主成分的协方差矩阵是对角阵:(2)性质2:主成分的总方差等于原始变量的总方差(3)性质3:主成分Yk 与原始变量Xi 的相关系数为:ρ(YK,Xi )=√λ√σiitki,并称之为因子负荷量(或因子载荷量)。
主成分分析的具体步骤:①将原始数据标准化;②建立变量的相关系数阵;③求的特征根为**10p λλ≥≥≥,相应的特征向量为***12,,,p T T T ;④由累积方差贡献率确定主成分的个数(m ),并写出主成分为**()i i Y T '=X ,1,2,,i m =第四讲:因子分析定义,因子载荷统计意义,因子分析模型及假设,因子旋转因子分析定义:因子分析就是通过对多个变量的相关系数矩阵的研究,找出同时影响或支配所有变量的共性因子的多元统计方法。
因子载荷统计意义: 1.因子载荷ija 的统计意义对于因子模型1122i i i ij j im m iX a F a F a F a F ε=++++++ 1,2,,i p =我们可以得到,iX 与jF 的协方差为:1Cov(,)Cov(,)mi j ik k i j k X F a F F ε==+∑=1Cov(,)Cov(,)mik k j i j k a F F F ε=+∑=ija如果对iX 作了标准化处理,iX 的标准差为1,且jF 的标准差为1,因此,Cov(,)Cov(,)i j X F i j ijX F r X F a === (7.6)那么,从上面的分析,我们知道对于标准化后的iX ,ija 是iX 与jF 的相关系数,它一方面表示iX 对jF 的依赖程度,绝对值越大,密切程度越高;另一方面也反映了变量iX 对公共因子jF 的相对重要性。
了解这一点对我们理解抽象的因子含义有非常重要的作用。
2.变量共同度2i h 的统计意义设因子载荷矩阵为A ,称第i 行元素的平方和,即2211,2,,miij j h a i p===∑ (7.7)为变量iX 的共同度。
由因子模型,知2221122()()()()()i i i im m i D X a D F a D F a D F D ε=++++22212()i i im i a a a D ε=++++22i i h σ=+ (7.8)这里应该注意,(7.8)式说明变量iX 的方差由两部分组成:第一部分为共同度2i h ,它描述了全部公共因子对变量iX 的总方差所作的贡献,反映了公共因子对变量iX 的影响程度。
第二部分为特殊因子i ε对变量i X 的方差的贡献,通常称为个性方差。
如果对iX 作了标准化处理,有221i i h σ=+ (7.9)3、公因子jF 的方差贡献2jg 的统计意义设因子载荷矩阵为A ,称第j 列元素的平方和,即2211,2,,pjij i g a j m===∑为公共因子jF 对X 的贡献,即2jg 表示同一公共因子jF 对各变量所提供的方差贡献之总和,它是衡量每一个公共因子相对重要性的一个尺度。
因子分析模型及假设数学模型:每一个变量都可以表示成公共因子的线性函数与特殊因子之和,即:Xi=ai1*F1+a12*F2+…+aim*Fm+εi (i=1,2,…,p)式中的F1,F2,…Fm 称为公共因子,εi 称为Xi 的特殊因子。
该模型可用矩阵表示为:X=AF+ε,且满足:(1)m ≤p(2)Cov(F,ε)=0,即公共因子与特殊因子是不相关的;(3)DF=D(F)=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡1...0,0,0....0...0,1,00...0,0,1=Im,即各个公共因子不相关且方差为1;(4)D ε=D(ε)=⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡σσσ22221...0,0,0....0...0,,00...0,0,p ,即各个特殊因子不相关,方差不要求相等。
因子旋转因子旋转的目的:初始因子的综合性太强,难以找出因子的实际意义,因此需要通过坐标旋转,使因子负荷两极分化, 要么接近于0,要么接近于∓1,从而降低因子的综合性,使其实际意义凸现出来,以便于解释因子。
因子旋转的基本方法:一类是正交旋转(保持因子间的正交性,3种,常用最大方差旋转),一类是斜交旋转(因子间不一定正交)公共因子提取个数:(1)选特征值大于等于1的因子(主成分)作为初始因子,通过求响应的标准化正交特征向量来计算因子载荷(2)碎石图:删去特征值变平缓的那些因子(3)累计方差贡献率大于85%第五讲:聚类类型,系统聚类、K-均值聚类思想及步骤,系统聚类方法,相似性测度方法聚类类型:根据分类的对象可将聚类分析分为:系统Q型与R型(即样品聚类与变量聚类)系统聚类、K-均值聚类思想及步骤:①系统聚类的基本思想:距离相近的样本(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。
②聚类过程及步骤:假设总共有n个样品(或变量),第一步将每个样品(或变量)独自聚成一类,共有n类;第二步根据所确定的样品(或变量)“距离”公式,把距离较近的两个样品(或变量)聚合为一类,其它的样品(或变量)仍各自聚为一类,共聚成n-1类;第三步将“距离”最近的两个类进一步聚成一类,共聚成n-2类;…,以上步骤一直进行下去,最后将所有的样品(或变量)全聚成一类。
最后可以画谱系图分析。
③快速聚类的基本思想,步骤:(也称为K-均值法,逐步聚类,迭代聚类),基本思想是将每一个样品分配给最近中心(均值)的类中,具体的算法步骤如下:(1)将所有的样品分成K个初始类;(2)通过欧氏距离将某个样品划入离中心最近的类中,并对获得样品与失去样品的类,重新计算重心坐标。
(3)重复步骤2,直到所有的样品都不能再分配时为止。
系统聚类方法:最短距离法(单连接),最长距离法(完全连接),中间距离法,类平均法(组间平均连接法),可变类平均法,重心法,可变法,离差平方和法相似性测度方法:不同样本相似性度量:距离测度里包括:明氏,马氏,和兰式不同变量相似度的度量:包括:夹角余弦,相关系数。
第六讲:判别分析及各判别方法思想,判别分析假设条件,距离判别与贝叶斯判别关系判别分析定义:一种进行统计判别和分组的技术手段。
它可以就一定数量案例的一个分组变量和相应的其他多元变量的已知信息,确定分组与其他多元变量之间的数量关系,建立判别函数(discriminant Function )。
然后便可以利用这一数量关系对其他已知多元变量信息、但未知分组类型所属的案例进行判别分组。
各判别方法思想:①距离判别:求新样品X 到G 1的距离与到G 2的距离之差,如果其值为正,X 属于G 2;否则X 属于G 1②Bayes 判别:由于k 个总体出现的先验概率分别为kq q q ,,,21 ,则用规则R 来进行判别所造成的总平均损失为∑==ki i R i r q R g 1),()(∑∑===k i kj i R i j P i j C q 11),|()|( (4.12)所谓Bayes 判别法则,就是要选择,使得(4.12)式表示的总平均损失)(R g 达到极小。
③Fisher 判别的基本思想和步骤:从K 个总体中抽取具有p 个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数:U(X)=X pXp X X '...2211μμμμ=+++,其中系数μ=(μ1,μ2,…,μp )’确定的原则是使得总体之间区别最大,而使每个总体内部的离差最小。
有了线性判别函数后,对于一个新的样品,将它的p 个指标值代入线性判别函数式中求出U(X)值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。
判别分析假设条件:判别分析的假设之一,是每一个判别变量(解释变量)不能是其他判别变量的线性组合。
即不存在多重共线性问题。
判别分析的假设之二,是各组变量的协方差矩阵相等。
判别分析最简单和最常用的形式是采用线性判别函数,它们是判别变量的简单线性组合。
在各组协方差矩阵相等的假设条件下,可以使用很简单的公式来计算判别函数和进行显著性检验。
判别分析的假设之三,是各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布。
在这种条件下可以精确计算显著性检验值和分组归属的概率。
当违背该假设时,计算的概率将非常不准确。
kG G G ,,,21 kR R R ,,,21距离判别与贝叶斯判别关系:距离判别中两个总体的距离判别规则为:12,()0,()0G W G W ∈≥⎧⎨∈<⎩X X X X 如果如果,而贝叶斯判别规则为:⎩⎨⎧<∈≥∈dV G d V G )(,)(,21x x x x 当当,二者唯一差别仅在于阀值点,从某种意义上讲,距离判别是贝叶斯判别的特殊情形。
题型及分数:一、判断对错并改正(4题,8分) 二、不定项选择(10题,20分) 三、简答题(4题,32分) (六选四)主成分基本思想,系统聚类,K-均值聚类基本思想及过程,判别分析及费希尔基本思想,比较聚类与回归、判别,因子分析及因子旋转聚类与回归、判别:①判别与回归:联系:都是根据已有数据判别未来趋势。