第五章 判别分析
合集下载
应用多元统计分析课后习题答案详解北大高惠璇(第五章部分习题解答)

所以样品x=2.5判归 1. 判归G 因0.5218>0.3798>0.0984,所以样品 所以样品 判归
8
第五章 判别分析
5 − 3 设总体Gi 的均值为µ ( i ) (i = 1,2),同协差阵Σ. 1 ′µ (1) + a′µ ( 2 ) ), (其中a = Σ −1 ( µ (1) − µ ( 2) )), 记µ = (a 2 试证明(1)E(a′X | G1 ) > µ ; (2)E(a′X | G2 ) < µ . 1 (1) 1 (1) (2) ′X | G1) − µ = a′µ − (a′µ + a′µ ) = (a′µ(1) − a′µ(2) ) 解: E(a 2 2 1 (1) (2) −1 (1) (2) = (µ − µ )′Σ (µ − µ ) > 0, (因Σ > 0) 2 1 (1) (2) −1 (1) (2) 类似可证: E(a′X | G2 ) − µ = − (µ − µ )′Σ (µ − µ ) < 0,. 2 即 E(a′X | G1) > µ, E(a′X | G2 ) < µ .
第五章 判别分析
所以 q1 f1 ( x) = 0.1613, 类似可得 q2 f 2 ( x) = 0.0304, q3 f 3 ( x) = 0.1174,
所以样品x=2.5判归 1. 判归G 因0.1613>0.1174>0.0304,所以样品 所以样品 判归
7
第五章 判别分析
解三:后验概率判别法 解三 后验概率判别法, 后验概率判别法 计算样品x已知 已知,属 的后验概率: 计算样品 已知 属Gt的后验概率 qt f t ( x) P(t | x) = 3 (t = 1,2,3) ∑ qi fi ( x) 当样品x=2.5时,经计算可得 时 当样品
第5章 判别分析_1

'
def
2W ( X )
其中
W ( X ) ( X X * )' S 1 ( X (1) X ( 2) ) 1 (1) * X ( X X ( 2) ) 2
则判别准则还可以写为:
判 X G1 , 当W ( X ) 0时 判 X G2 , 当W ( X ) 0时
(2) < (1) ) , 令
(x )
(1) 2
2 1
(x )
( 2) 2
2 2
(1) 2 ( 2) 1 x 1 2
def
*
判 X G1 , x * 而按这种距离最近的判别准则为: 判 X G2 , x *
因只有一个指标,这时判别函数为:Y=Y(x)=x.此例中 * =79,因
表5.1 盐泉的特征数值 K· 3/Cl Br· 3/Cl K· 3/ 盐 10 10 10 (X1) (X2) (X3) 13.85 22.31 28.82 15.29 28.79 2.18 3.85 11.40 3.66 12.10 8.85 28.60 20.70 7.90 3.19 12.40 16.80 15.00 2.79 4.67 4.63 3.54 4.90 1.06 0.80 0.00 2.42 0.00 3.38 2.40 6.70 2.40 3.20 5.10 3.40 2.70 7.80 12.31 16.18 7.50 16.12 1.22 4.06 3.50 2.14 5.68 5.17 1.20 7.60 4.30 1.43 4.43 2.31 5.02
判别分析是用于判别样品所属类型的一种统计分析方
法,是根据表明事物特点的变量值和它们所属的类,求出判
第5章 判别分析

28.79 2.18 3.85 11.40 3.66 12.10 8.85 28.60 20.70 7.90 3.19 12.40
3.54
4.90 1.06 0.80 0.10 2.40 0.01 3.38 2.40 6.70 2.40 3.20 5.10
7.50
16.12 1.22 4.06 3.50 2.14 5.68 5.17 1.20 7.60 4.30 1.43 4.43
( 当、 (1)、 2) 已知时,令 ( a 1 ( (1) 2)) (a1 , a2 , , a p )
则W ( X )=(X- ) a a1 ( x1 1 ) a2 ( 2 ) a p ( x p p ) 显然,W ( X )是x1,x2, ,x p的线性函数。 称W ( X )为线性判别函数。a称为判别系数。
(i )
线性判别函数为: ˆ W ( X ) ( X X ) 1 ( X (1) X ( 2 ) )
我们注意到: 当p 1时,若两个正态总体的分布分别为N ( 1 , 2 )和 2 不妨设1 2,这时W ( X )的符号取决于X 或X 。
2
第五章
判别分析
党耀国
经济与管理学院
Iamdangyg@
判别分析
5.1 判别分析的概念 5.2 距离判别法 5.3 费歇尔判别法 5.4 贝叶斯判别法 5.5 逐步判别法 5.6 实例分析
5.1 判别分析的概念
• 在生产、科研和日常生活中,我们经常需要根据观 测到的数据资料,对所研究的对象进行判别分类,即 是根据历史上划分类别的有关资料和某种最优准则, 确定一种判别方法,判定一个新的样品归属于哪一类。 例如某医院有部分患有肺炎、肝炎、冠心病、高血压、 糖尿病等病人的资料,记录了每个患者若干症状的指 标数据,现在想利用现有的这些资料数据找出一种方 法,使对于一个新的病人,当测得这些症状指标数据 时,能够判断其患有哪一种疾病。在经济学中,根据 人均国民收入、人均工农业总产值、人均消费水平等 多项指标来判断一个国家所处的经济发展阶段。在气 象预报中,根据已有的气象资料(气温、气压、湿度 等)来判断明天、后天是阴天还是晴天,是有雨还是 无雨。在地质学中根据以往对矿物勘探资料(矿石的 化学和物理性质和所含化学成分)的分析,判断某一 矿石把他应归于哪一类矿石。总之,在实际问题中需 要判别的问题几乎无处不在。
3.54
4.90 1.06 0.80 0.10 2.40 0.01 3.38 2.40 6.70 2.40 3.20 5.10
7.50
16.12 1.22 4.06 3.50 2.14 5.68 5.17 1.20 7.60 4.30 1.43 4.43
( 当、 (1)、 2) 已知时,令 ( a 1 ( (1) 2)) (a1 , a2 , , a p )
则W ( X )=(X- ) a a1 ( x1 1 ) a2 ( 2 ) a p ( x p p ) 显然,W ( X )是x1,x2, ,x p的线性函数。 称W ( X )为线性判别函数。a称为判别系数。
(i )
线性判别函数为: ˆ W ( X ) ( X X ) 1 ( X (1) X ( 2 ) )
我们注意到: 当p 1时,若两个正态总体的分布分别为N ( 1 , 2 )和 2 不妨设1 2,这时W ( X )的符号取决于X 或X 。
2
第五章
判别分析
党耀国
经济与管理学院
Iamdangyg@
判别分析
5.1 判别分析的概念 5.2 距离判别法 5.3 费歇尔判别法 5.4 贝叶斯判别法 5.5 逐步判别法 5.6 实例分析
5.1 判别分析的概念
• 在生产、科研和日常生活中,我们经常需要根据观 测到的数据资料,对所研究的对象进行判别分类,即 是根据历史上划分类别的有关资料和某种最优准则, 确定一种判别方法,判定一个新的样品归属于哪一类。 例如某医院有部分患有肺炎、肝炎、冠心病、高血压、 糖尿病等病人的资料,记录了每个患者若干症状的指 标数据,现在想利用现有的这些资料数据找出一种方 法,使对于一个新的病人,当测得这些症状指标数据 时,能够判断其患有哪一种疾病。在经济学中,根据 人均国民收入、人均工农业总产值、人均消费水平等 多项指标来判断一个国家所处的经济发展阶段。在气 象预报中,根据已有的气象资料(气温、气压、湿度 等)来判断明天、后天是阴天还是晴天,是有雨还是 无雨。在地质学中根据以往对矿物勘探资料(矿石的 化学和物理性质和所含化学成分)的分析,判断某一 矿石把他应归于哪一类矿石。总之,在实际问题中需 要判别的问题几乎无处不在。
第11讲判别分析

协方差矩阵
9.0570 S1= 14.0055
14.0055 86.0570
21.7030 S2= 29.4205
29.4205 47.1680
15.3800 Sw= 21.7130
21.7130 66.6125
各样品到第一类和第二类的距离
d i( 1 ) x 1 7 .8 5 ,x 8 2 9 .1 4 2 0 0 . .0 13 2 9 0 0 0 . .0 0 2 4 2 3 6 4 x x 7 9 1 2 1 7 7 9 8 2 . .8 1 5 4 1 6 8 2 d i( 2 ) x 1 7 .4 0 ,x 4 2 9 .7 1 4 0 0 . .0 13 2 9 0 0 0 . .0 02 4 2 3 6 4 x x 7 9 1 2 1 7 7 9 8 2 . .4 7 0 1 1 6 4 4
N 1 10
N 2 10 N2错=3
13
APE R 1.67%
10 10
N1错=1 N2正=10
第一节 距离判别
在实际应用中,当假定正态总体且协差阵相等时,均值与协方差阵 要用估计值,即
d2x,G 1x1T ˆ1 1x1
d2x,G 2x2T ˆ2 1x2
解 W x : x T ˆ 1 1 2
ˆ1 2 6 2 2 4 4 3 , ˆ1 ˆ2 6 2 2 4 4 2
W (x ) (x 1 3 ,x 2 4 )1 3 4 1 1 1 4 2 4 x 1 2 x 2 4
判别 W x 函 x 数 1 2 2 : 1 21 2
第五章 判别分析

n a
H
n b
yi(a )y(a )2
yk(b )y(b )2组点内的判离别散函度数
i 1
k 1
1na
m
y(a) na
yi(a) cjxj(a)
i1
j1
y(b)n1bkn b1yi(b)jm 1cjxj(b)7
费歇尔准则: 使Q 达到最大、H 达到最小。
它的含义是: Q达到最大,表明 两组判别函数点的中 心距最大;H达到最 小,判别函数点的分 布最集中。满足以上 条件的判别函数可最 大限度地把A和B区 分开(如图所示)。
i, j = 1 ,2 ,…,m ; N = n1 + n2 +…+nG
由此,式(5-5)可以近似写为: 17
fg(X ) (2 S 1 )1 m /2 /2ex 1 2 p (X X g)TS 1 (X X g) (5-6)
把上式和Pg (Pg≈qg = n g /N)代入式(5-4)得: E g ( X ) q g f g ( X )( , g 1 ,2 , ,G )
章判别分析
§1两总体判别分析 §2多总体判别分析 §3逐步判别分析 §4应用算例简介
1
❖引言
地学领域内有很多属于归类判别的问题,如:储 层是否含油、岩样属于什么沉积相 、生油岩处于 什么演化阶段等,从定量角度看,它们都是对个体 进行归类判别的问题。
为叙述方便,将个体称为样品,个体所属的类称 为总体。在此基础上给出判别分析的一般概念:
判别分析:根据已知的G个总体中取出的G组样品 的观测值,建立总体与样品变量之间定量关系(判 别函数),并据此判别未知类属样品类别的一种多 元统计分析方法。
2
设ag(g=1,2,…,G)表示 G 个总体,每个总体中分 别有ng个样品,每个样品有m个变量。
第五章 判别分析(第1、2节 绪论、距离判别法)

第二节 距离判别法
□ 马氏距离
设 p 维 欧 氏 空 间 R p 中 的 两 点 X ( X 1 , X 2 ,, X p ) 和
Y (Y1 , Y2 ,, Yp
氏距离,即
d ( X, Y) 2 ( X 1 Y1 ) 2 ( X p Yp ) 2 .
它是 X 的二次函数,相应的判别规则为
X G1 , X G2 ,
如果 如果
W *(X ) 0 W *(X ) 0
第二节 距离判别法
我们用p=1时的特殊情形,说明两总体协方差不等时的归类过程。假定两总体为正态总体: 并假定 ,这时 ,当观测值x满足条件: 时,
2 1 2 x 1 x 2 x 1 1 2 d 2 ( x) d1 ( x) ( x * ), 2 1 1 2
第二节 距离判别法
(2) 当 1 2 , 1 2 时,我们采用(*)式作为判别规 则的形式。选择判别函数为
W * ( X ) D 2 ( X , G1 ) D 2 ( X , G2 )
( X 1 )1 1 ( X 1 ) ( X 2 )21 ( X 2 )
这里
1 n1 (1) X (1) X i n1 i 1
( 2)
S ( X i( ) X ( ) )( X i( ) X ( ) ),
i 1
n
1, 2
第二节 距离判别法
此时,两总体距离判别的判别函数为 其中 X
*
ˆ ˆ W ( X ) ( X X * )
G2 : N (75,4)
P(1 | 2)
第二节 距离判别法
P(2 | 1) P(1 | 2) P(Y ) (Y ~ N ( 2 , 2 )) Y 2 2 2 2 ) P( Z ) 1 ( ) 1 2 2 1 2 2 1 ( ) 1 ( ) 2 从错判概率公式 可看出,当两个总体的均值相差甚微,即 越小, 1 2 P(2 |1) P(1| 2) 1 ( ) 错判概率变得越大,这时作判别分析没有意义。因此只有当两个总体的均值有显著性差异时,做判别 2 分析才有意义。 | 1 2 | P(
多元统计第五章判别分析

第五章 判别分析
第一节 引言
在我们的日常生活和工作实践中,常常会遇到判别分析问题。
案例一:为了研究中小企业的破产模型,选定4个经济指标:总负债率、
收益性指标、短期支付能力、生产效率性指标。对17个破产企业(1类)和21
个正常运行企业(2类)进行了调查,得关于上述四个指标的资料。现有8个 未知类型的企业的四个经济指标的数据,判断其属于破产企业一类还是正 常运行企业一类? 案例二:根据经验,今天与昨天的湿度差x1及今天的压温差x2 (气压与温度
ˆ Σ
1 A , n 1
1,2,, k
三、判别分析的实质
设R1,R2,…,Rk是p维空间R p的k个子集,如果它们互
不 相交,且它们的和集为R p,则称R1,R2, …,Rk为R p的一 个划分。
在 两 个 总 体 的 距 离 判 别 问 题 中 , 利 用
W (X) (X μ)' α 可以得到空间 R p 的一个划分 R1 {X : W ( X) 0} R2 {X : W ( X) 0}
x2
-0.41 -0.31 0.02 -0.09 -0.09 -0.07 0.01 -0.06 -0.01 -0.14 -0.3 0.02 0 -0.23 0.05 0.11 -0.08 0.03 0 0.11 -0.27
x3
1.09 1.51 1.01 1.45 1.56 0.71 1.5 1.37 1.37 1.42 0.33 1.31 2.15 1.19 1.88 1.99 1.51 1.68 1.26 1.14 1.27
Σ 的一个联合无偏估计为
n
n2 1 和 X(2) Xi(2) n2 i 1 1 ˆ Σ ( A1 A2 ) n1 n2 2
第一节 引言
在我们的日常生活和工作实践中,常常会遇到判别分析问题。
案例一:为了研究中小企业的破产模型,选定4个经济指标:总负债率、
收益性指标、短期支付能力、生产效率性指标。对17个破产企业(1类)和21
个正常运行企业(2类)进行了调查,得关于上述四个指标的资料。现有8个 未知类型的企业的四个经济指标的数据,判断其属于破产企业一类还是正 常运行企业一类? 案例二:根据经验,今天与昨天的湿度差x1及今天的压温差x2 (气压与温度
ˆ Σ
1 A , n 1
1,2,, k
三、判别分析的实质
设R1,R2,…,Rk是p维空间R p的k个子集,如果它们互
不 相交,且它们的和集为R p,则称R1,R2, …,Rk为R p的一 个划分。
在 两 个 总 体 的 距 离 判 别 问 题 中 , 利 用
W (X) (X μ)' α 可以得到空间 R p 的一个划分 R1 {X : W ( X) 0} R2 {X : W ( X) 0}
x2
-0.41 -0.31 0.02 -0.09 -0.09 -0.07 0.01 -0.06 -0.01 -0.14 -0.3 0.02 0 -0.23 0.05 0.11 -0.08 0.03 0 0.11 -0.27
x3
1.09 1.51 1.01 1.45 1.56 0.71 1.5 1.37 1.37 1.42 0.33 1.31 2.15 1.19 1.88 1.99 1.51 1.68 1.26 1.14 1.27
Σ 的一个联合无偏估计为
n
n2 1 和 X(2) Xi(2) n2 i 1 1 ˆ Σ ( A1 A2 ) n1 n2 2
(北大)第五章判别分析

5
北大数学学院
第五章 §5.1 距离判别法
距离判别的基本思想是: 样品和哪个总体距离最近,就判它 属哪个总体.
距离判别也称为直观判别法. 我们在具体讨论距离判别法之前,应给 出合理的距离的定义.
6
北大数学学院
第五章 §5.1 距离判别法
马氏距离 已知有两个类G1和G2,比如G1是设备A生产的产 品,G2是设备B生产的同类产品.设备A的产品质量高 (如考察指标为耐磨度X),其平均耐磨度μ1=80,反映 设备精度的方差σ2(1)=0.25;设备B的产品质量稍差, 其平均耐磨度μ2=75,反映设备精度的方差σ2(2)=4.今 有一产品X0,测得耐磨度x0=78,试判断该产品是哪 一台设备生产的? 直观地看, x0 与μ1(设备A)的绝对距离近些,按距 离最近的原则是否应把该产品X0 判断为设备A生产 的?
24
第五章 §5.1 距离判别法
北大数学学院
两总体判别: Σ1=Σ2 时的判别方法(m=1时的错判率)
用这种判别法会发生错判,如X来自G1,但却落入D2, 被判为属G2 .错判的概率为下图中阴影左半部分 的面积,并记为P(2|1).类似有P(1|2).
分界点μ=77.5
25
第五章 §5.1 距离判别法
23
北大数学学院
第五章 §5.1 距离判别法
两总体判别: Σ1=Σ2 时的判别方法(m=1)
考察m=1的特殊情况,并设两总体为正态总体,其分 布已知为N(μ1,σ2)和N(μ2,σ2)(两总体的方差相同,记为 σ2 ),这时判别函数为
其中
不妨设μ 1>μ x>μ或x<μ.
2
,则a为正数,W(x)的符号取决于
(l , j 1,2, , m)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
欧氏距离在处理统计问题时的缺点:要求坐标各分量的度量 一致、波动幅度一致。
1936年,印度统计学家Mahalanobios引入统计距离概念, 也称为“马氏距离”
设Q点坐标固定,P点坐标相互独立变化。用s12,s22,…,sm2 表示P的m个坐标的n次观测的样本方差,则P到Q的统计距 离 2 2 2
t 1 j 1 t 1 j 1 def k nt k nt
a TBa 若k 个总体均值有显著差异,则比值 (a) T 应充分大. a Aa
def
a T Aa
问题转化为求a使得Δ(a)达到最大。为使解唯一,变为条件 极值问题:求a使得Δ(a)在条件 aTAa = 1 达到最大。
2
线性判别函数的求法
2 dm (X,G) (X μ)T Σ 1(X μ)
设两总体G1、G2,它们的均值向量为μ1和μ2,协方差阵都为 Σ,则总体G1和G2之间的马氏距离定义为
2 dm (G1, G2 ) (μ1 μ2 ) T Σ 1(μ1 μ2 )
马氏距离满足距离的三条公理
(1) 非负性
(2) 对称性
已知a在条件 aTAa = 1下使Δ(a) 达到最大的方向,称u(X) = aTX为线性判别函数。利用拉格朗日乘数法求条件极值。 令L(a) = aTBa-λ(aTAa-1) = 1,又令 dL/da = 2(B- λA)a = 0,可得 Ba=λAa,即 A-1Ba =λa。这说明λ是A-1B 的特征值,a是相应的特征向量。进一步, Δ(a) = aTBa =λaTAa =λ
2 误判率的交叉确认估计法
每次剔除一个样品,利用其余n1+n2-1个样本建立判别 准则,再用所建立的判别准则对删除的样品做判别,对样 本中每个样品都做上述分析,以其误判的比例来作为误判 概率的估计。具体步骤: (1) 从总体G1开始,剔除其中的一个样品,用剩余的n1-1 个样品为G1的样本, G2的样本不变,建立判别函数; (2) 用建立的判别函数对剔除的样品作判别; (3) 重复(1)(2),对G2也作如此处理,其误判样品个数分别 记为n12*、n21*。 n12 n 21 ˆ (4) 交叉误判率的估计 a* n1 n 2
第一节 距离判别法
第二节 以直线划分的判别法
第三节 以曲线划分的判别法
第四节 费歇尔判别法
第五节 逐步判别法
§1 距离判别法
1.1 统计距离 设m维空间上两点P(x1,x2,…,xm)与Q(y1,y2,…,ym),P与Q的 欧氏距离:
d(P,Q) = [(x1-y1)2+(x2-y2)2 +…+ (xm-ym)2]1/2
1
1 2
d ( x, k ) zz ( x x(k ))sk ( x x(k ))
• 判别原则: • 二、马氏距离导出的二次曲线判别
• 例3.研究某年全国各地区农民家庭收支的分布规 律,根据抽样调查资料进行分类,共抽取28个省、 市、自治区的六个指标数据。先采用聚类分析, 将28个省、市、自治区分为三组,其中北京、上 海、广州3个城市属于孤立样本单位,未归属于已 分的三组中,现采用曲线判别法来判定北京、上 海、广州归属于哪个组。原始数据见 spssex/ex603
3 Fisher判别准则 (一) 两个总体的Fisher判别准则 易知两总体的组间离阵B的秩为1,故A-1B只有一个非零 特征值λ,对应的特征向量为b。线性判别函数u(X) = bTX, 相应的判别效率
(1) 若 d(X,G1) ≥ d(X,G2) ,则 X ∈ G2; (2) 若 d(X,G2) ≥ d(X,G1) ,则 X ∈ G1; 实际问题中,μ1、μ2、Σ1、Σ2往往未知,分别用其样本 均值和样本方差来估计,则马氏距离的估计值分别为
-1 ˆ2 dm (X,G1 ) (X X (1)) T S1 (X X (1)) ˆ d2 (X,G ) (X X (2)) T S-1(X X (2))
问题最终转化为求A-1B的最大特征值。
设A-1B的正特征值λ1≥λ2≥…≥λr>0,相应的特征向量 a1,a2,…,ar。ui(X) =aiTX为第i个线性判别函数,当第1个线 性判别函数不能很好地区分多个总体时,可再利用第2、第 3、…线性判别函数。Δ(a) 也称为判别效率。 前q个线性判别函数的累计判别能力(q≤r) Pq = (λ1+…+λq) / (λ1+ … +λr)
注:一般地,总体差异越大,判别准则越有效。
§2 以直线划分的判别法
• 一、判别的基本思想 • 把观测到的n个样本看作p维空间的n个点,以 某种方法将p维空间划分为互不相交的q个区域, 每个区域对应着一个类,对于给定的新样本点, 必然要落入其中某个类中。 • 对于满足类内样本点接近、类间样本点疏远的 性质,可以通过统计量来表现。
1 k ˆ ΣS (nj 1)Sj n k j 1
其中 n nk
j 1
k
1.3 判别准则的评价
当一个判别准则提出后,还要研究其优良性,即要考 察误判概率。 1 误判率回代估计法
设 (X1(1),X2(1) ,…,Xn1(1) ) 与(X1(2) ,X2(2) ,…,Xn2(2) ) 是分别来 自总体G1、G2的样本,以全体样本作为n1+n2个新样本, 逐个代入已建立的判别准则中,判别其归属,这个过程为 回代。用n12、n21分别表示将本属于G1的样本误判为G2的 个数、将本属于G2的样本误判为G1的个数,误判率的回 代估计 ˆ n n 21 a 12 n1 n 2
m 2 2
距离判别准则为 ∧ ∧ (1) 若 d(X,G1) ≥ d(X,G2) ,则 X ∈ G2;
(2) 若 d(X,G2) ≥ d(X,G1) ,则 X ∈ G1;
∧
∧
1.2
多个总体的距离判别
设k个m元总体G1、…、Gk,它们的均值向量为μ1、…、 μk,协方差阵分别为Σ1、...、Σk。设X = (x1, x2, … , xm)是 一待判样品,马氏距离为
d(P,Q)≥0,等号成立的充要条件是P = Q;
d(P,Q) = d(Q,P); d(P,Q)≤d(P,R) + d(R,Q)。
(3) 三角不等式
设两个m元总体G1、G2,它们的均值向量为μ1和μ2,协 方差阵分别为Σ1、Σ2。设X = (x1, x2, … , xm)是一待判样品, 距离判别准则为
第五章 判别分析
在一些自然科学和社会科学的研究中,研究对象用某种 方法已划分为若干类型,当得到的一个新的样品数据(通常 是多元的),要确定该样品属于已知类型中的哪一类,这样 的问题属判别分析。 判别分析是根据观察或测量到若干变量值,判断研究对 象如何分类的方法。实际上是根据表明事物特点的变量值和 它们所属的类求出判别函数,根据判别函数对未知所属类别 的事物进行分类的一种分析方法。 分类: 1、按判别的组数来分,有两组判别分析和多组判别分析 2、按区分不同总体所用的数学模型来分,有线性判别和非 线性判别 3、按判别对所处理的变量方法不同有逐步判别、序贯判别。 4、按判别准则来分,有费歇尔判别准则、贝叶斯判别准则
• 将各组样本均值投影到某条直线上,得 到各组样本均值在该直线的投影坐标, 投影坐标值距离越远越容易判断待判样 本属于哪个组。
b
a
1 k nt ( t ) 1 X X j , X ( t ) n t 1 j1 nt 组间离差平方和
B0 n t ( a X a X) a
当k个总体协方差矩阵相等时,Σ1=Σ2=...=Σk= Σ。判别函 数为 Wij(X) = 0.5[d2(X,Gi)-d2(X,Gj)]
= [X-0.5(μi+μj)]T Σ-1 (μi-μj)
距离判别准则为
(i , j = 1,…,k)
对所有的j≠i,当Wij(X)>0时,则判X ∈ Gi; 当Wij(X)=0时,则判X ∈ Gi或X∈ Gj。 实际问题中,μ1、…、μk、Σ往往未知,分别用其样本均 值和样本方差来估计
y0 n1 n2
如果 y( A) y( B) ,则判定准则为: y>y0,x属于A 组; y<y0,x 属于B组 如果 y( A) y( B) ,则判定准则为:y>y0,x属于B组; y<y0, x属于A组
• 例1:为研究某地区育龄妇女的生育状况,根据生 育峰值年龄,一胎生育率,二胎生育率、多胎生 育率及总和生育率5项指标,将12个已知样本点 分为两组,根据已知样本建立判别函数,并判定 另外3个待判个体属于何组。数据见 spssex/ex601
(x1 y 1 ) (x 2 y 2 ) (x m y m ) D(P,Q) 2 2 2 s1 s2 sm
设X、Y是从均值向量为μ、协方差阵为Σ的总体G中抽取的 两个样本,X与Y两点间的马氏距离定义为
2 dm (X,Y) (X Y)T Σ 1(X Y)
X与总体G的马氏距离定义为
1 k nt ( t ) 1 X X j , X ( t ) n t 1 j1 nt
B0 n t ( a X a X) a
T (t ) T 2 t 1 k nt k T
X (j t ), t 1,.Leabharlann ., k j 1k
nt
nt (X X) (X X) a a TBa
y 1.035x1 4.117x2 1.544x3 2.008x5
• 三、三个类别情形的判别 • 1、三条线都有通过所有点的重心 • 2、三条线相交组成一个三角形
§3 以曲线划分的判别法
• 一、判别原理 • 马氏距离: • 判别函数:
2
dij (M ) [(xi x j )s 1 ( xi x j )]
d2 (X,Gi ) (X μi ) T Σ-1(X μi ) (i 1,...,k)