《多元统计分析》第三章 判别分析

合集下载

判别分析

判别分析

判别分析
采用不同的判别规则,有Fisher、Bayes和距离判别方法 Fisher判别思想是投影:使多维问题简化为一维问题处理
选择一个适当的投影轴,使所有的样本点都投影到这个轴上形成 一个投影值,对这个投影轴的方向要求是:使每一类内的投影值 所形成的类内离差值尽可能小,而不同类之间的投影值所形成的 类间离差值尽可能大
DISCRIM过程
PROC DISCRIM语句为调用DISCRIM过程 的开始,语句中可设置的选项及其功能 见下. POOL=YES选项指出用合并协方差矩阵 计算距离;list选项请求显示数据集1中每 个观测值的分类结果;testlist选项请求 显示数据集2中所有观测分类后的结果
[例]有五种杂粮的数据资料。玉米(corn),棉花(cotton), 黄豆(soybeans),甜菜(sugbeet)及三叶草(clover) 的数据均以x1,x2,x3,x4四种属性描述
STEPDISC过程
PROC STEPDISC 选择项; CLASS 变量名; 指明分类变量 VAR 变量名表; 指出判别函数中的自变量 PROB 变量名表; 指明分类变量(变量类型必须是数值型的) FREQ 变量名; 指出频数变量 WEIGHT 变量名; 指明权重变量 By 变量名表; 指出分组变量 其中DATA=数据集名 指定输入数据集名称。缺省时为最新建立的 数据集。 FORWARD | FW 选择向前引入法。 BACKWARD | BW 选择向后剔除法。 STEPWISE | SW 选择逐步判别法。FW、SW、BW都缺省时,隐 含值是SW。
obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 group corn corn corn corn corn corn soybeans soybeans soybeans soybeans soybeans soybeans cotton cotton cotton x1 16 15 16 18 15 15 20 24 21 27 12 22 31 29 34 x2 27 23 27 20 15 32 23 24 25 45 13 32 32 24 32 x3 31 30 27 25 31 32 23 25 23 24 15 31 33 26 28 x4 33 30 26 23 32 15 25 32 24 12 42 43 34 28 45 obs 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 group cotton cotton cotton sugbeet sugbeet sugbeet sugbeet sugbeet sugbeet clover clover clover clover clover clover x1 26 53 34 22 25 34 54 25 26 12 24 87 51 96 31

多元统计分析(聚类分析,判别分析,对应分析)

多元统计分析(聚类分析,判别分析,对应分析)

h
11
对应分析
概述
对应分析的重要输出结果之一在于,把变量与样品同时反映到相同 坐标轴(因子轴)的一张图形上,结合计算结果,在绘出的图形上能 够直观地观察变量之间的关系、样品之间的关系以及变量与样品 之间的对应关系。为此也有人认为,对应分析的实质是将变量、 样品的交叉表变换成为一张散点图,从而将表格中包含的变量、 样品的关联信息用各散点空间位置关系的形式表现出来。
(5)画谱系聚类图; (6)决定总类的个数及各类的成员。
h
聚类分析 6
结果分析
返回
h
判别分析 7
概述
判别分析是用于判断个体所属类别的一种统计方法。根据已知观 测对象的分类和若干表明观测对象特征的变量值,建立判别函数和判 别准则,并使其错判率最小,对于一个未知分类的样本,将所测指标 代入判别方程,从而判断它来自哪个总体。当然,这种准则在某种意 义上是最优的,如错判概率最小或错判损失最小等。其前提是总体均 值有显著差异,否则错分率大,判别分析无意义。
h
目录 3 h
聚类分析 4 定义 聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法。聚
类分析又称群分析,它是研究对样品或指标进行分类的一种多元统计 方法。所谓的“类”,通俗地说就是相似元素的集合。
h
聚类分析 5
基本步骤
(1)计算n个样品两两间的距离,得样品间的距离矩阵 。类与类之间的距 离本文应用的是类平均法。所谓类平均法就是:两类样品两两之间平方距 离的平均作为类之间的距离,即: 采用这种类间距离的聚 类方法,称为 类平均法。
(2) 初始(第一步:i=1)n个样本各自构成一类,类的个数k=n,第t类 (t=1,2···,n)。此时类间的距离就是样品间的距离(即 )。

多元统计分析(聚类分析,判别分析,对应分析)

多元统计分析(聚类分析,判别分析,对应分析)

91.500
358.500
95.000
357.000
输出的第一部分对应表是由原始数据学号与科目 分类的列联表,可以看出观测总数n=40,说明原 始数据中没有记录缺失,有效边际为行列数的总 和。
维数 1 2 3 总计
汇总 惯量比例
置信奇异值
奇异值 .075 .052
惯量 .006 .003
解释 .548 .264
2 -.143 -.427 .065 -.013
概述列点a
惯量 .002 .003 .005 .000 .010
点对维惯量
1 .000
2 .099
.022
.880
.975
.021
.003
.001
1.000
1.000
贡献
1 .000 .047 .989 .039
维对点惯量 2 .135 .887 .010 .006
(列)的每一状态对每一维度(公共因子)特
征值的贡献及每一维度对行(列)各个状态的
特征值等贡献。如第一维度中,外语对应的数 值最大,为0.975,说明外语这一状态对第一维 度的贡献最大。
对应分析
由以上两张坐标表可以得出如下的叠加散点图,也是输出 的最后一部分,是学号各状态与科目各状态同时在一张二 维图上的投影。在图上既可以看到每一变量内部各状态之 间的相关关系,又可以同时考察两变量之间的相关关系。
对应分析
结果分析
学号 1 2 3 4
语文 82.000 81.000 83.000 72.000
对Байду номын сангаас表
数学 120.000 119.000 115.000 115.000
科目 外语 71.000 77.000 69.000 75.000

《多元统计实验》判别分析实验报告三

《多元统计实验》判别分析实验报告三

《多元统计实验》判别分析实验报告cbind(类别,newG,Z$post,Z$x)#合并原分类、回判分类回判后验概率及判别tab=table(类别,newG)#原分类和新分类列表比较tabsum(diag(prop.table(tab)))prenew=predict(ld,newdata=newdata)prenew#对三个待判样本进行判定cbind(prenew$class,prenew$post,prenew$x)#也可以按列合并在一起看二、实验结果分析5.5进行Fisher判别分析.若一位新客户的8个指标分别为(2 500, 1 500, 0,3, 2,3, 4, 1),试对该客户的信用度进行评价.以上输出结果中包括了lad()所用的公式、先验概率1、2、3、4、5 为:0.2941176 、0.1176471 、0.1764706 0.1764706 、0.2352941,各组均值向量、线性判别函数的系数。

输出所有分类组由输出结果可知第十二号样品为第四组的被误判给了第五组,且与距离判别法结果一致,最后对新客户的8个指标(2500,1500,0,3,2,3,4,1)进行判定。

说明:由$class可以看出该新用户被判入第一组,结果与距离判别法一致,对应的后验概率决定该新用户的归类组。

因此该新用户的信用度评价为一。

5.6试对表5-7中的数据进行Bayes判别分析并对8个待判样品的类别进行判定.由上结果可知,两个组别为一的被误判为第二组,第二组的三个被误判为第一组。

出现5个误判结果正确率为:0.9411765,误判错误的概率仍然较低。

Bayes判别法对八个待测样本的判定结果为:四个判给第一组,四个判给第二组,且Bayes 判别法是采用了新的后验概率,而不是先验概率。

因此判出概率相同。

多元统计分析第三章课件

多元统计分析第三章课件

( X 0 ) t n S
2 n ( X ) 2 1 t2 n ( X ) ( S ) ( X ) 2 S 对于多元变量而言,可以将 t 分布推广为下面将要介绍的 2 Hotelling T 分布。
定义
设 X ~ N p (μ , Σ , ) S ~ Wp ( n, Σ 且 ) X 与S
2 -1
相互独立,n p , 则称统计量 T nX S X 的分布 为非中心 HotellingT2 分布,记为 T 2 ~ T 2 ( p, n, μ) 。 当 μ 0 时,称 T 服从(中心) Hotelling T 分布。
2 2
记为 T 2 ( p, n) 。 由于这一统计量的分布首先由 Harold Hotelling 提出 来的,故称为 Hotelling T 分布,值得指出的是,我 国著名统计学家许宝禄先生在 1938 年用不同方法也
n ai μ ai X T aiSai
n 1

当k很小时,联合T2置信区间 aix T aiSai n ai μ ai X T aiSai
n , i 1, 2,, k
的置信度一般会明显地大于1−α,因而上述区间会显得过宽, 即精确度明显偏低。这时,考虑采用庞弗伦尼(Bonferroni) 联合置信区间(p177):
第三章 多元正态总体的统计推断
§3.1 引言 §3.2 单个总体均值的推断
§3.3 单个总体均值分量间结构关系的检验
§3.4 两个总体均值的比较推断 §3.5 两个总体均值分量间结构关系的检验 §3.6 多个总体均值的比较检验(多元方差分析) §3.7 协方差阵的检验
§3.1 引言
在单一变量的统计分析中,已经给出了正态总体N ( , 2) 的均值和方差2的各种检验。对于多变量

多元统计学-判别分析 思维导图

多元统计学-判别分析 思维导图

判别分析Discriminant analysis 概念判断样品所属类别的一种多元统计分析方法,根据一批分类明确的样品资料在若干判别指标上的观测值,建立一个关于指标的判别函数和判别法则,使得按此法则来判断这批样品归属类别的正确率达到最高,进而对给定的新样品判断其所属的类别总体。

步骤(1)收集训练样本在定义类别时,单个类内的样本个数不能太少;组的个数不应大于判别变量的个数。

(2)建立判别函数Y b0b1 X1b2 X2bp XP(3)估计判别函数判别准则a:组重心间的距离作为组间差异的标准(两组/方差相近)判别准则b:组间离差平方和/组内离差平方和(即判别函数已解释平方和/未解释平方和)(4)检验判别函数检验判别准则(判别准则的最大值)λ=已解释离差平方和/未解释离差平方和Wilks'Lambda,“反向”评价指标=1/(1+λ),未解释离差平方和/总离差平方和(5)检验判别变量可利用Wilks'Lambda对每个判别变量单独检验其判别能力。

对于显著性检验,可使用F检验代替卡方检验。

(6)将新元素分类分类距离判别法又称最近邻方法基本思想样品和哪个总体距离最近(重心),就判它属哪个总体考虑常涉及多个变量间有相关性且量纲不同--马氏距离适用条件分布无特定的要求,适用于任意分布的资料分类两类总体的判别(协方差矩阵相等/不相等)多类总体的判别判别效果一般要求错判率小于0.1或0.2才有应用的价值。

错判率的估计有训练样本(回代考核)和新样本(前瞻考核)两种方法。

Fisher判别又称典则判别基本思想基本思想是投影,即将k组p维数据投影到某一个方向,使得投影后组与组之间尽可能地分开.借鉴方差分析的思想,即要求投影点的类间离差与类内离差之比最大适用条件分布无特定的要求,适用于任意分布的资料核心步骤计算组间离差阵B和组内离差阵E求特征根和特征向量特征值Eigenvalue:组间平方和与组内平方和之比值;典则相关系数:是组间平方和与总平方和之比的平方根;变换式。

多元统计分析判别分析(方法步骤分析总结)

多元统计分析判别分析(方法步骤分析总结)

判别分析:实验步骤:1.在SPSS窗口中选择:分析-分类-判别,将变量导入自变量框中,group导入分组变量中,选择定义范围,最小为1最大为3,并选择一起输入自变量,点击继续2.点击统计量,描述性中选择“均值”,“单变量”和”Box”,选择函数系数中的“Fisher”“未标准化”,矩阵中选择“组内相关”,点击继续3.点击分类点击继续4.点击“保存”,三个框均选中,点击继续5.点击确定实验结果分析:1.表1 组统计量看各个总体在均值等指标上的值是否接近,若接近说明各类之间在该指标差异不大表2表3 汇聚的组内矩阵若自变量之间存在高度相关,则判别分析价值不大,但并不严格,允许出现一定的相关表4 协方差矩阵的均等性的箱式检验检验结果p值>0.05时,说明协方差矩阵相等,可以进行bayes检验表5表7由表7可知,两个Fisher 判别函数分别为1123456212345674.99 1.861 1.6560.8770.7980.098 1.57929.4820.867 1.1550.3560.0890.0540.69y X X XX X X y X X X X X X =--+-+++=--+--++表8 结构矩阵该表是原始变量与典型变量(标准化的典型判别函数)的相关系数,相关系数的绝对值越大,说明原始变量与这个判别函数的相关性越强由表9可知各类别重心的位置,通过计算观测值与各重心的距离,距离最小的即为该观测值的分类。

第一类:11234565317.2143.9153.190.153.011.0189.3F X X X X X X =--+-+++2. 将各样品的自变量值代入上述三个Bayes 判别函数,得到函数值。

比较函数值,哪个函数值比较大就可以判断该样品判入哪一类下面是赠送的保安部制度范本,不需要的可以编辑删除谢谢!保安部工作制度一、认真贯彻党的路线、方针政策和国家的法津法规,按照####年度目标的要求,做好####的安全保卫工作,保护全体人员和公私财物的安全,保持####正常的经营秩序和工作秩序。

多元统计分析(何晓群 中国人民大学) 第三章

多元统计分析(何晓群 中国人民大学)  第三章
• 为此最常用的技巧是聚类分析,聚类分析将个体或对 象分类,使得同一类中的对象之间的相似性比与其他 类的对象的相似性更强。目的在于使类间对象的同质 性最大化和类与类间对象的异质性最大化。本章将介 绍聚类分析的性质和目的,并且引导研究者使用各种 聚类分析方法。
2021/1/28
中国人民大学六西格玛质量管理研究中心
2021/1/28
中国人民大学六西格玛质量管理研究中心
23
目录 上页 下页 返回 结束
§3.2 相似性度量
2021/1/28
中国人民大学六西格玛质量管理研究中心
24
目录 上页 下页 返回 结束
§3.2 相似性度量
(2) 相关系数。这是大家最熟悉的统计量,它 是将数据标准化后的夹角余弦。
有时指标之间也可用距离来描述它们的接近程度。 实际上距离和相似系数之间可以互相转化,
• 与多元分析的其他方法相比,聚类分析的方法是 很粗糙的,理论上还不完善,但由于它能解决许 多实际问题,很受人们的重视,和回归分析、判 别分析一起被称为多元分析的三大方法。
2021/1/28
中国人民大学六西格玛质量管理研究中心
7
目录 上页 下页 返回 结束
§3.1 聚类分析的思想
• 3.1.2 聚类的目的
(2)一种改进的距离就是在前面曾讨论过 的马氏距离,它对一切线性变换是不变 的,不受指标量纲的影响。它对指标的 相关性也作了考虑,我们仅用一个例子 来说明。
2021/1/28
中国人民大学六西格玛质量管理研究中心
16
目录 上页 下页 返回 结束
§3.2 相似性度量
2021/1/28
中国人民大学六西格玛质量管理研究中心
2021/1/28
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
8
v (3) 交叉验证法(或称刀切法)
Ø 从组π1中取出x1j,用该组的其余n1−1个观测值和组π2的n2个观测值构造 判别函数,然后对x1j进行判别,j=1,2,⋯ ,n1。同样,从组π2中取出x2j, 用这一组的其余n2−1个观测值和组π1的n1个观测值构造判别函数,再对 x2j作出判别,j=1,2,⋯ ,n2。
v (1) 回代法
Ø 令n(2|1)——样本中来自π1而误判为π2的个数,n(1|2)——样本中来自π2
而误判为π1的个数,则P(2|1) 和P(1|2) 可估计为

2
| 1

n
2
| 1
,
Pˆ 1 | 2 n 1 | 2
n1
n2
Ø 该方法简单、直观,且易于计算。但它给出的估计值通常偏低,当样
xΣ 1x 2 Iix ci
其中 Ii

Σ 1 μi , ci


1 2
μiΣ 1 μi ,i
1, 2,, k,判别规则简化为
x l,
若Ilx

cl

max
1 i k
Iix

ci

这里Ii′x+ci为线性判别函数。
x l,
若d
2
x,
l


v 当Σ1=Σ2=⋯ =Σk=Σ时,采用线性判 别函数。
v 当Σ1,Σ2,⋯ ,Σk不全相等时,采用二 次判别函数
v 实践中,Σ1,Σ2,⋯ ,Σk几乎不可能完 全相等。
x l ,
若Iˆlx

cˆl

max
1 i k
Iˆix cˆi
Iˆi

S
1 p
xi
,
cˆi


1 2
xiS
无偏估计分别为
x1

1 n1
n1
x1 j
j 1

x2

1 n2
n2
x2 j
j 1
Σ的一个联合无偏估计为
Sp

n1
1 S1 n2 1 S2
n1 n2 2
其中
Si

1 ni 1
ni j 1
xij xi
xij xi
,
i 1,2
W x a x μ
μ

1 2

μ1

μ2
,a

Σ
1

μ1

μ2

4
v 实际使用的判别函数为
W x a x μ
Wˆ x aˆ x x μ1 2 Nhomakorabea
μ1

μ2
,a

Σ
1

μ1

μ2

这里 x

1 2
x1

x2
,


S
1 p
x1

x2
。其相应的判别规则为

Ø 令n*(2|1)——样本中来自π1而误判为π2的个数,n*(1|2)——样本中来自
π2而误判为π1的个数,则两个误判概率P(2|1)和P(1|2)的估计量为
Pˆ 2 |1 n* 2 |1 , Pˆ 1 | 2 n* 1 | 2
n1
n2
v 以上所述误判概率的这三种非参数估计方法同样适用于其它的判别方
Iix

ci

其中
Iˆi

S
1 p
xi
,
cˆi


1 2
xiS
1 p
xi
,
i 1, 2,, k
Ii

Σ 1 μi , ci


1 2
μiΣ 1 μi
5
Σ1,Σ2,⋯ ,Σk不全相等的情形
v Σi可估计为Si(i=1,2,⋯ ,k)。 v 实际应用中使用的判别规则是
其中
x l ,
我们对新样品x进行的判别分类将在很大程度上依赖于各组的总体分布 或其分布特征。
例如,
π1 :小学生组,π2 :大学生组 依据身高x作判别归类。
4
(一般)判别规则
v 设组π1和π2的均值分别为μ1和μ2,协差阵 分别为Σ1和Σ2(Σ1,Σ2>0) ,x是一个新样品 (p维),现欲判断它来自哪一组。
2a x μ
其中 μ

1 2

μ1

μ2
,a

Σ 1 μ1

μ2


v 令W x a x μ,则上述判别规则可简化为

x x

1 2
, ,
若W x 0 若W x 0
称W(x)为两组距离判别的(线性)判别函数,称a为判别系数向量。 2
v (基于马氏距离的)判别规则:

x x

1 2
, ,
若d 2 x,1 d 2 x, 2 若d 2 x,1 d 2 x, 2
1

x x

1 2
, ,
若d 2 x,1 d 2 x, 2 若d 2 x,1 d 2 x, 2
要做破坏性的试验(如欲获知某电子仪器的寿命) 成本高昂(如许多疾病只有通过代价高昂的手术才能确诊)。 本章讨论的是,依据不完备信息来进行判别分类,这难免会发生误判
,好的判别分类方法应使发生误判的概率尽可能地小。
2
判别分类的例子
有偿付力与无偿付力的财产责任保险公司。 判别变量:总资产,股票与债券价值,股票与债券的市值, 损失支出,盈余,签定的保费金额。
v μi可估计为
xi

1 ni
ni
xij
j 1
(i=1,2,⋯ ,k)。
v Σ1,Σ2,⋯ ,Σk的估计分如下两种情形: Ø Σ1=Σ2=⋯ =Σk=Σ Ø Σ1,Σ2,⋯ ,Σk不全相等
4
Σ1=Σ2=⋯ =Σk=Σ的情形
v Σ的联合无偏估计为
S p

1 nk
k
ni
i 1
1 Si
其中n=n1+n2+⋯
+nk,n−k≥p,Si
1 ni 1
ni
(xij xi )(xij xi )为第i组的样本协差阵。
j 1
v 实际应用中使用的判别规则是
x l ,
若Iˆlx
cˆl

max
1ik
Iˆix cˆi
x l,
若Ilx

cl

max
1 i k
Σ1=Σ2=Σ时的判别
v省略的 步骤见 书中第 115页。
d 2 x,1 d 2 x,2 x μ1 Σ 1 x μ1 x μ2 Σ 1 x μ2
xΣ 1x 2xΣ 1 μ1 μ1Σ 1 μ1 xΣ 1x 2xΣ 1 μ2 μ2 Σ 1 μ2
《多元统计分析》
3.1 引言
判别分析的目标
目标1(预测方面):分类(或分配)。 在已知历史上用某些方法已把研究对象分成若干 组(亦称类或总体)的情况下,来判定新的观测 样品应归属的组别。
目标2(描述方面):分离。 就是用图形(通常二维,有时三维或一维,一般 通过降维实现)方法或代数方法描述来自各组的 样品之间的差异性,最大限度地分离各组。

x2

S
1 p
x1

x2


μ1 μ2 Σ 1 μ1 μ2
Ø 该误判概率的估计是有偏的,但大样本时偏差的影响是可以忽略的。
5
误判概率的非参数估计
v 若两组不能假定为正态组,则P(2|1) 和 P(1|2) 可以用样本中样品的误 判比例来估计,通常有如下三种非参数估计方法:
新产品的速购者与迟购者。 判别变量:教育,收入,家庭大小,过去更换品牌的次数。
良好信用与不良信用风险。 判别变量:收入,年龄,信用卡数目,家庭规模。
3
本章讨论的判别分类
下一章将会 具体说明。
本章的讨论都是基于判别变量为定量变量(间隔变量)的判别分析。
每组中所有样品的p维向量值x x1, x2, , xp 构成了该组的(p元总 体)分布。
法或判别情形,并且可类似地推广到多组的情形。
9
Σ1≠Σ2时的判别
v 判别规则:

x x

1 2
, ,
若d 2 x,1 d 2 x, 2 若d 2 x,1 d 2 x, 2
v 实际应用中,μ1,μ2和Σ1,Σ2一般都是未知的,可分别由 x1,x2和S1,S2 代 替。
v 判别规则为
x l,
若d
2

x,
l


min
1 i k
d
2
x,i

该判别规则不受变量单位的影响。
1
Σ1=Σ2=⋯ =Σk=Σ时判别规则的简化
v 此时,上述判别规则可简化。
d 2 x, i x μi Σ 1 x μi xΣ 1 x 2 μiΣ1 x μiΣ1 μi
min
1 i k
d
2
x,i

2
v 当k=2时,可将上式写成

x x

1 2
, ,
若I1x

c1

I

2
x

c2
若I1x c1 I2x c2
相关文档
最新文档