判别分析实例

合集下载

判别分析1_图文

图1由前面分析发现，协方差矩阵不等，可以考虑采用Separate-groups协方差矩阵。

输出结果表1-10：分類結果a被解释变量預測的群組成員資格總計Setosa 鸢尾花Versico-lor 鸢尾花Virginica 鸢尾花原始計數Setosa 鸢尾花50 0 0 50 Versico-lor 鸢尾花0 47 3 50Virginica 鸢尾花0 1 49 50 %Setosa 鸢尾花100.0 .0 .0 100.0 Versico-lor 鸢尾花.0 94.0 6.0 100.0 Virginica 鸢尾花.0 2.0 98.0 100.0a. 97.3% 個原始分組觀察值已正確地分類。

图2分類處理摘要已處理31 已排除遺漏或超出範圍群組代碼0至少一個遺漏識別變數0已在輸出中使用31群組的事前機率地区在前分析中使用的觀察值未加權加權1 .3332 2.0002 .333 2 2.0003 .333 1 1.000總計 1.000 5 5.000分類函數係數地区1 2 3人均食品支出.014 -.004 .021 人均衣着支出-.058 .024 -.092 （常數）-10.708 -3.645 -19.157 費雪 (Fisher) 線性區別函數图4 分類結果a地区預測的群組成員資格總計1 2 3原始計數 1 2 0 0 22 0 2 0 23 1 0 0 1未分組的觀察值8 18 0 26% 1 100.0 .0 .0 100.02 .0 100.0 .0 100.03 100.0 .0 .0 100.0未分組的觀察值30.8 69.2 .0 100.0a. 80.0% 個原始分組觀察值已正確地分類。

由表1-10可以看出，通过判别函数预测，有146个观测是分类正确的，其中，y=1组50个观测全部被判对，y=2组50个观测中有47个被判对，y=3组50个观测中有49个被判对，从而有97.3%的原始观测被判对。

判别分析实例共67页

33、如果惧怕前面跌宕的山岩，生命就永远只能是死水一潭。 34、当你眼泪忍不住要流出来的时候，睁大眼睛，千万别眨眼!你会看到世界由清晰变模糊的全过程，心会在你泪水落下的那一刻变得清澈明晰。盐。注定要融化的，也许是用眼泪的方式。
35、不要以为自己成功一次就可以了，也不要以为过去的光荣可以被永远肯定。
55、为中华之崛起而读书。 ——周恩来
判别分析实例
31、别人笑我太疯癫，我笑他人看不穿。(名言网) 32、我不想听失意者的哭泣，抱怨者的牢骚，这是羊群中的瘟疫，我不能被它传染。我要尽量避免绝望，辛勤耕耘，忍受苦楚。我一试再试，争取每天的成功，避免以失败收常在别人停滞不前时，我继续拼搏。
谢谢！
5—陆游 52、生命不等于是呼吸，生命是活动。——卢梭
53、伟大的事业，需要决心，能力，组织和责任感。 ——易卜生 54、唯书籍不朽。——乔特

判别分析案例(鸢尾花)

Wilks的Lambda函数检验Wilks的Lambda 卡方df Sig.1到2 .025 538.950 8 .0002 .774 37.3513 .000标准化的典型判别式函数系数函数1 2花萼长-.346 .039花萼宽-.525 .742花瓣长.846 -.386花瓣宽.613 .555=0.613-⨯⨯0.8460.525+.0346-1花萼长z花萼宽花瓣长⨯z花瓣宽+zD⨯z=0.555⨯0.386⨯0.742⨯20.039-+花萼宽花瓣长花瓣宽+花萼长zD⨯zzz结构矩阵函数1 2花瓣长.726*.165花萼宽-.121 .879*花瓣宽.651 .718*花萼长.221 .340*判别变量和标准化典型判别式函数之间的汇聚组间相关性按函数内相关性的绝对大小排序的变量。

*.每个变量和任意判别式函数间最大的绝对相关性典型判别式函数系数0.155=0.299---.01.2526⨯0630.196花萼长zz花萼宽⨯花瓣宽z花瓣长⨯z++D⨯=0.2710.089-+-0.0072.6978⨯0.218花萼宽z+花瓣长花瓣宽z花萼长z⨯⨯+D⨯z区域图典则判别函数2-16.0-12.0-8.0-4.0.04.08.012.016.0+---------+---------+---------+---------+---------+---------+---------+---------+16.0+13+I13II13II123II123II1223I12.0++++1223++++I1223II1223II1223II1223II1223I8.0++++12+23++++I1223II1223II1223II1223II1223I4.0++++12+23++++I1223II1223II1223II1223II1223*I.0+++*+12+23+++I12*23II1223II1223II1223II1223I-4.0++++12++23+++I1223II1223II1223II1223II1223I-8.0++++12++23+++I1223II1223II1223II1223II1223I-12.0+++12++23++I1223II1223II1223II1223II1223I-16.0+1223++---------+---------+---------+---------+---------+---------+---------+---------+-16.0-12.0-8.0-4.0.04.08.012.016.0典则判别函数1区域图中使用的符号符号组标签--------------------11刚毛鸢尾花22变色鸢尾花33佛吉尼亚鸢尾花*表示一个组质心。

判别分析例子

例1. 现有分别来自总体A 和总体B 的两组随机样本，样本量分别为5和6，样本均值分别为⎪⎪⎭⎫⎝⎛00和⎪⎪⎭⎫⎝⎛23，样本离差阵分别为⎪⎪⎭⎫⎝⎛4004和⎪⎪⎭⎫ ⎝⎛5005.2。

今欲判别一个新样本⎪⎪⎭⎫⎝⎛2.11来自哪一个总体：（1）. 请使用距离判别法（采用马氏距离）对上述新样本进行判别（不假设两个总体有相同的自协方差阵）。

（2）. 请采用Fisher 判别法求出判别函数，并利用此判别函数对上述新样本进行判别。

解答：（1）、先求取新样本到不同总体均值的马氏距离： 44.22.11002.114004151002.112212=+=⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛-⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫⎝⎛⎪⎪⎭⎫ ⎝⎛-'⎪⎪⎭⎫⎝⎛⎪⎪⎭⎫ ⎝⎛-⎪⎪⎭⎫⎝⎛=-AMD64.88.022232.115005.2161232.112212=+⨯=⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛-⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫⎝⎛⎪⎪⎭⎫ ⎝⎛-'⎪⎪⎭⎫⎝⎛⎪⎪⎭⎫ ⎝⎛-⎪⎪⎭⎫⎝⎛=-B MD显然有22B AMD MD<，故此，应判别新样本来自总体A 。

（2）、先求取线性判别函数： ⎪⎪⎭⎫ ⎝⎛=⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛-⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫⎝⎛⎪⎪⎭⎫ ⎝⎛+⎪⎪⎭⎫⎝⎛=-+=--9/213/600235005.24004)()(11)2()1(A BX XSSu线性判别函数为：X X u y u '⎪⎪⎭⎫⎝⎛='=9/213/6)(。

新样本的判别函数值：7282.02.119/213/6)()0(≈⎪⎪⎭⎫⎝⎛'⎪⎪⎭⎫ ⎝⎛=X u ；总体A 的均值的判别函数值：0)(=A X u ；总体B 的均值的判别函数值：829.1239/213/6)(≈⎪⎪⎭⎫⎝⎛'⎪⎪⎭⎫⎝⎛=B X u ；临界值：9977.00116829.1)()(≈+⨯=+++BA B B BA A A n n n X u n n n X u ；由于)()(B A X u X u <，且7282.0)()0(≈X u 小于临界值0.9977，所以应判别新样本来自总体A 。

多元统计第五章判别分析

第五章判别分析
第一节引言
在我们的日常生活和工作实践中，常常会遇到判别分析问题。
案例一：为了研究中小企业的破产模型，选定4个经济指标：总负债率、
收益性指标、短期支付能力、生产效率性指标。对17个破产企业（1类）和21
个正常运行企业（2类）进行了调查，得关于上述四个指标的资料。现有8个未知类型的企业的四个经济指标的数据，判断其属于破产企业一类还是正常运行企业一类？案例二：根据经验，今天与昨天的湿度差x1及今天的压温差x2 （气压与温度
ˆ Σ
1 A ， n 1
1,2,, k
三、判别分析的实质
设R1，R2，…，Rk是p维空间R p的k个子集，如果它们互
不相交，且它们的和集为R p，则称R1，R2， …，Rk为R p的一个划分。
在两个总体的距离判别问题中，利用
W (X) (X μ)' α 可以得到空间 R p 的一个划分 R1 {X : W ( X) 0} R2 {X : W ( X) 0}
x2
-0.41 -0.31 0.02 -0.09 -0.09 -0.07 0.01 -0.06 -0.01 -0.14 -0.3 0.02 0 -0.23 0.05 0.11 -0.08 0.03 0 0.11 -0.27
x3
1.09 1.51 1.01 1.45 1.56 0.71 1.5 1.37 1.37 1.42 0.33 1.31 2.15 1.19 1.88 1.99 1.51 1.68 1.26 1.14 1.27
Σ 的一个联合无偏估计为
n
n2 1 和 X(2) Xi(2) n2 i 1 1 ˆ Σ ( A1 A2 ) n1 n2 2

判别分析-实例-PPT

对光顾该商店的顾客进行n次观察。设：n1组数据为购买者（A）
n2组数据为非购买者（B）由已知变量X1，X2，将n1+n2=n组数据分成两大类；购买者（A）—— X1i (A), X2i (A) （I=1,2,…,n1)
非购买者（B）—— X1 j (B), X2 j (B) （j=1,2,…,n2)
例：样本A，舒张血压为75mmHg，血浆胆固醇为150mg%，分别代入方程后
G1=1.12364*75+0.21222*150-72.60310=43.5029
G2=0.94031*75+0.16755*150-49.34373=46.31202
由于G1小于G2，所以样本A判为正常人组（G=2）。
大家好
19
6、计算判别指标
y 1
C1
X
1
1
C2
X
1
2
C3
X
1
3
0.216928.29 0.01820 6.42 0.05604 6.00
2.251533
y 2
C1
X
2
1
C2
X
2
2
C3
X
2
3
0.21692 3.20 0.01820 3.80 0.05604 4.00
0.987464
判别指标为
大家好
35
大家好
36
大家好
37
大家好待判样品
38
大家好
39
大家好
40
大家好
41
大家好
42
大家好
43
大家好
44
大家好
45
大家好
46

判别分析的案例分

icted group membership”选项，单击“Continue”按钮，返回主对话框。
Step7：单击“OK”按钮，执行鉴别分析操作。
鉴别分析旳成果
1、分析个案综合统计量表1.2和表1.3所示为系统处理旳数据简要表白中旳数据，按变量 “组别”分组共有31个样本为鉴别基础数据进入分析，其中第一组十五例，第二组十六例。
Step2:选择“Analysis” →“Classify” →“Discriminant”命令，在 “Discriminant Analysis”对话框中，选择“组别”变量进入 “Grouping Variable”文本框；单击“Define Range”按钮，在 “Minimum”文本框中输入1，在“Maximum”文本框中输入2，单击“Continue”按钮，返回主对话框。
Squared Mahalanobis Distance to
Centroid 1.557 2.665 6.473 1.503 5.642 2.013 1.442 2.471 8.909 7.993 5.335 6.849 3.248 1.555 8.909 6.991 2.494 1.503 5.404 1.442 .838 6.162 4.926 3.813 .731 2.786 2.994 5.144 5.884 2.234 6.313
14 12.80 3.63
15 13.33 5.96
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
正常人组
舒张压胆固醇
10.66 2.07
12.53 4.45
13.33 3.06
9.33
3.94
10.66 4.45
10.66 4.92

判别分析法案例

判别分析法案例
人们到医院就诊时，通常要化验一些指标来协助医生的诊断。

诊断就诊人员是否患肾炎时通常要化验人体内各种元素含量。

表B.1（见附表）是确诊病例的化验结果，其中1－30号病例是已经确诊为肾炎病人的化验结果；31－60号病例是已经确诊为健康人的结果。

表B.2是就诊人员的化验结果。

问题一：根据表B.1中的数据，提出一种或多种简便的判别方法，判别属于患者或健康人的方法，并检验你提出方法的正确性。

然后按照提出的方法，判断表B.2（附表）中的30名就诊人员的化验结果进行判别，判定他（她）们是肾炎病人还是健康人。

问题二：能否根据表B.1的数据特征，确定哪些指标是影响人们患肾炎的关键或主要因素，以便减少化验的指标。

并根据得到的结果，重复判断表B.2（见附表）中的30名就诊人员是肾炎病人还是健康人。

问题三：对2和4的结果作进一步的分析。

判别分析案例(多元统计)

实验、判别分析
一、实验名称：判别分析
二、实验目的：通过本实验掌握使用SPSS进行判别分析
三、实验过程：
1.判断解释变量是属性变量而解释变量是度量变量。

2.判断各组的变量得协方差矩阵相等，并用很简单的公式来计算判别函数和进行显著性检验。

3. 各判别变量间具有多元正态分布，精确计算显著性检验值和分组归属的概率。

四、分析结果：
特征值
函数特征值方差的 % 累积 % 正则相关性
1 18.207a91.6 91.6 .974
2 1.460a7.
3 98.9 .770
3 .212a 1.1 100.0 .419
a. 分析中使用了前 3 个典型判别式函数。

从表显示出典型分析最终形成三个判别函数，判别函数F1的特征值为18.207，判别函数F2的特征值为1.460，判别函数F3的特征值为0.212.可见判别函数F1的判别能力大于F2和F3。

该表是非标准化的典型判别函数系数，写成函数为:
对原始数据中未进行分类的职工进行典型的判别分析。

得到结果如上图，可知职工号为26、27、28三个职工分别被判入了第三类和第四类。

数据：
表示工作产量，表示工作质量，表示工作出勤
表示工作损耗，表示工作态度，表示工作能力
五、心得体会：
通过判别，我们知道了当遇到需要识别一个个体所属类别的情况时，就能够运用自己所学的判别分析的知识，去解决这一类的问题，并能够准确的将其分类，甚至在遇到多重共线性问题，也能使用判别分析来解决。

通过此次的报告过程，我们对判别分析有了更进一步得认识，受益颇多。

第六章 bayes判别分析+ 举例

学习目的
本章只介绍判别分析的几种最基本的方法：贝叶斯判别、距离判别及费歇判别．学习本章，要密切联系实际，着重理解判别分析的基本思想方法及具体实现步骤，了解几种不同判别分析方法的优、缺点及应用背景．
第六章
判别分析
贝贝叶叶斯斯判判别别
距离判别费歇判别费歇判别
i =1
给定 R 的一个划分 R = ( R1 , R2 ,
Ri ∩ R j = φ (i ≠ j , i, j = 1,2,
, Rk ) ，即 ∪ Ri =R m ，
i =1
k
, k) ，由 R 规定的判别准
空间 R m 的一个分划（有时也称为判别）。即
R m = {R1 , R2 | R1 ∪ R2 = R m , R1 ∩ R2 = φ }
由 R 规定的判别准则如下：如果 x 落在 R1 内，则判其来自总体 π 1 ；如果 x 落在 R2 内，则判其来自总体 π 2 。给定分划的损失函数及平均损失设 C (1 | 2) 为样品 x 来自总体 π 2 而误判为总体这其 π 1 的损失，一误判的概率记为 P (1 | 2 , R ) ，中 R = ( R1 , R2 ) ； (2 | 1) 为样品 x 来自总体 π 1 而误判 C 于是有为总体 π 2 的损失，误判的概率记为 P(2 | 1, R) 。
R m 的任一划分，即
（6-4）
* * 证明：设 R = ( R1 , R2 ) 由（6-4）给出， R * = ( R1 , R2 ) 为
* * * * R1 ∪ R2 = R m ， R1 ∩ R2 = φ 。
g(R1 , R2 ) = q1C(2 | 1) P(2 | 1, R) + q2 C(1 | 2) P(1 | 2, R)

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

例：人文与发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中公布的。

该报告建议，目前对人文发展的衡量指标应当以人生的三大要素为重点。

衡量人生的三大要素的指标分别为：实际人均GDP指数、出生时的预期寿命指数、受教育程度指数（由成人识字率指数和综合总人学率指数按2/3、1/3的权重加权而得），将一生三个指数合成为一个指数就是人文发展指数。

今从2007年世界各国人文发展指数（2005年）的排序中，选取高发展水平、中等发展水平和低发展水平国家各6个作为三组样品，另选四个国家作为待判样品，资料如下表所示。

试用判别分析过程对以下数据资料进行判别分析，并据此对待
data develop;
input type gdp life rate zhrate@@;
cards;
1 41890 77.9 99.5 93.3
1 29461 79.1 99.
2 88
1 23381 78.9 96 99
1 29663 79.4 92.5 87.3
1 28529 80.3 98.4 90.6
1 22029 77.9 99 96
2 6000 77.7 99.8 87.6
2 9060 71.9 97.
3 76.8
2 8402 71.7 88.6 87.5
2 8677 69.6 92.6 71.2
2 5137 71 92.6 81.1
2 8407 71.4 87.4 68.7
3 1550 62.6 48.6 58.1
3 1128 46.5 69.1 56.2
3 2299 49.8 67.9 62.3
3 2370 64.6 49.9 40
3 3071 73.7 90.3 63.9
3 3843 69.7 90.
4 68.2
. 31267 82.3 99 85.9
. 3452 63.7 61 63.8
. 6757 72.5 90.9 69.1
. 11110 50.8 82.4 77
;
proc discrim simple wcov distance list;/*simple:要求技术各类样品的简单描述统计量；选项WCOV要求计算类内协方差阵；选项DISTANCE要求计算马氏距离；选项LIST要求输出重复替换归类结果。

由于没有给出方法选项，所以系统按缺省时的正态分布进行有关参数的估计和归类。

*/
class type;
var gdp life rate zhrate;
run;
proc discrim pool=test slpool=0.05list; /*simple: */
class type;
priors'1'=0.3'2'=0.4'3'=0.3 ;
run;
proc discrim method=npar k=2list; /*simple: */
class type;
run;
proc candisc out=result ncan=2; /*simple: */
class type;
var gdp life rate zhrate;
run;
proc gplot data=reult;
plot can1*can2=type;
run;
proc discrim data=result distance list;
class type;
var can1 can2;
run;
表1 已知样本分类水平信息
表2 样本统计量信息
表3 类间距离及三类总体均值差异的显著性检验
表3给出了类1与类2之间的马氏距离为37.58288，类1与类3之间的马氏距离为75.97603，类2与类3之间的马氏距离为10.91428.类与类之间总体均值的F检验统计量值分布为22.54978，45.58562，22.54973，对应的检验概率分别为<0.0001, <0.0001,<0.0001, 说明三类总体均值两辆之间的差异是显著的，因此判别分析有意义。

表4 线形判别函数
由表4可写出线形判别函数如下：
高发展水平：y1=-157.18932+0.00204gdp+1.66582life-0.37085rate+1.72851zhrate
中等发展水平Y2=-99.12840+0.0006250gdp+1.49389life-0.09262rate+1.19559zhrate
低发展水平：Y3=-62.22473+0.0002576gdp+1.31631life-0.08940rate+0.85253zhrate
表5：用距离判别法判别分析结果
由表5得，最后四个观测的归类结果为19号（日本）观测为高发展水平国家，第20号（印度）为第3类，即低发展水平国家，21号（中国）和22号（南非）归为中等发展水平国家。

表6 距离判别法判别分析结果小结
表6给出了分类错误信息，由输出结果可知分类错误的比率为0，即正确的比率为100%。

本程序中第二个判别分析过程的选项“pool=test”,要求进行类内协方差阵一致性检验，检验的显著性水平由选项”slpool=0.05”给出为0.05. priors语句给出了各发展水平国家的先验概率。

表7 分类信息及类内协方差阵一致性检验结果
表7表明3个类的先验概率分别为0.3，0.4，0.3，类内协方差阵行列式的自然对数不相等，表明类内协方差阵不相等，而卡方统计量值为46.068898，对应的概率是0.0008，在0.05的显著性水平下是显著的，即类内协方差阵存在显著差异。

由于类内协方差阵不等，所以判别函数应是二次函数。

表8 类间配对广义马氏距离
由表8可知，类内广义马氏距离不再为0，而且类间的广义马氏距离也不再相等，因而类内协方差和先验概率对后验概率的计算是起作用的。

表9 用Bayes判别法得到的判别分析部分结果
由表9可知，用BAYES判别法对待判样品的判别结果与距离判别法结果一致。

本程序中的第三个过程要求进行非参数分析，即对类密度函数进行非参数估计。

选项K=2要求用最近邻的两个样品进行密度函数估计，选项list要求输出重复替换归类结果。

该过程运行结果如下：
表10 用NPAR方法得到的判别分析部分结果
由表10可知，4个待判的样品中19号和21号归类结果与BAYES判别归类结果是一致的，但20号和22号所属类别则不能确定，这是与前面2中判别方法结果不一致的地方。

第四种FISHER判别：第一个过程执行典型判别分析。

第二个过程要求绘制第一个典型变量CAN1和第二个典型变量CAN2的散点图，以便更加直观了解分类情况。

第一、二个过程输出结果如下：
表11 典型相关的多变量检验结果
由上表对相关阵的显著性检验结果可知，至少有
表12 典型相关与特征值
上表可知，第一典型相关为0.969875，而第二典型相关为0.653396。

第一个特征值为15.8514，所占比例为95.51%，第二个特征值为0.7450，所占比例仅有4.49%，说明只需用第一个典型变量即可。

表13 原始变量的典型相关系数
由表12可得两个典型变量分别为：
CAN1=0.0002096544gdp+0.0382960552life-0.0346472260rate+0.0988009134zhrate
Can2=-0.0001135485gdp+0.0394378902life+0.0500655661rate+0.0390500134zhrate
表14 类间马氏距离及各类总体均值的显著性检验
由上表的显著性概率可知，在0.05的显著性水平下，三个类的总体均值两两显著不等。

表15 线性判别函数
由表15得3个类的线形判别函数分别为：
第一类：Y1=-12.01131+4.88922can1-0.34378can2
第二类：Y2=-1.16768-1.07130can1+1.08981can2
第三类：y3=-7.56654-3.81792can1-0.74604can2
表16 由DISCRIM利用两个典型变量进行判别部分样品归类结果
上表分类结果与前几种分类方法结果一样，总错判率为0.。