判别分析实例汇总

合集下载

10-判别分析

其中
1
，判别规则简化为
1 I i Σ μi , ci μiΣ 1 μi , i 1, 2, , k 2
x l , 若I lx cl max I ix ci
1 i k
这里Ii′x+ci为线性判别函数。 • 当组数k=2时，可将上式写成
x 1 , 若I1x c1 I 2 x c2 x 2 , 若I1x c1 I 2 x c2
误判概率： P 2 |1 P 1| 2 1 2 2 2
误判概率图示：
抽取样本估计有关未知参数
• 设 x11 , x12 ,, x1n1 是来自组π1的样本， x21 , x22 ,, x2 n2是来自组π2的样本，n1+n2−2≥p，则μ1和μ2的一个无偏估计分别为
• (3)称为交叉验证法或刀切法。该方法既避免了样本数据在构造判别函数的同时又被用来对该判别函数进行评价，造成不合理的信息重复使用，又几乎避免了构造判别函数时样本信息的损失。从组π1中取出x1j，用该组的其余n1−1个观测值和组π2的n2个观测值构造判别函数，然后对x1j进行判别，j=1,2,⋯,n1。同样，从组π2中取出x2j，用这一组的其余n2−1个观测值和组π1 的n1个观测值构造判别函数，再对x2j作出判别，j=1,2,⋯,n2。令n*(2|1)为样本中来自π1而误判为π2的个数，n*(1|2)为样本中来自π2而误判为π1的个数，则两个误判概率P(2|1)和P(1|2) 的估计量为 n* 2 |1 n* 1| 2 ˆ ˆ P 2 |1 , P 1| 2 n1 n2 它们都是接近无偏的估计量。
ˆ ˆ W x a x x

多元统计分析课件第六章-判别分析例题与操作过程可修改文字

.
(一) 操作步骤 1. 在SPSS窗口中选择Analyze→Classify→Discriminate，调出判别分析主界面，将左边的变量列表中的“group”变量选入分组变量中，将—变量选入自变量中，并选择Enter independents together单选按钮，即使用所有自变量进行判别分析。
1
5
50.06 23.03 2.83 23.74 112.52 63.3
1
6
33.24 6.24 1.18 22.9 160.01 65.4
2
7
32.22 4.22 1.06 20.7 124.7 68.7
2
8
41.15 10.08 2.32 32.84 172.06 65.85
2
9
53.04 25.74 4.06 34.87 152.03 63.5
由此表可知，两个Fisher判别函数分别为：
y1 74.99 1.861X1 1.656X 2 0.877 X3 0.798X 4 0.098X 5 1.579X 6 y2 29.482 0.867X1 1.155X 2 0.356X 3 0.089X 4 0.054X 5 0.69 X 6
判别分析例题
例1：设有两个正态总体 G1 和 G2 ，已知：
(1)
ห้องสมุดไป่ตู้
10 15
(2)
20 25
18 12 1=12 32
20 7
2
=
7
5
试用距离判别法判断：样品：
X
20 20
，应归属于哪一类
判别分析例题解：比较X到两个总体的马氏距离的大小
所以X属于正态总体 G1
例2：

08聚类分析与判别分析的例题

聚类分析与判别分析的例题1、某超市经销十种品牌的饮料，其中有四种畅销，三种滞销，三种平销。

下表是这十种品牌饮料的销售价格（元）和顾客对各种饮料的口味评分、信任度评分的平均数。

（1）根据数据建立贝叶斯判别函数，并根据此判别函数对原样本进行回判。

（2)现有一新品牌的饮料再该超市试销，其销售价格为3.0，顾客对其口味的评分平均分为8，信任评分为5，试预测该饮料的销售情况。

2、银行的贷款部门需要判别每个客户的信用好坏（是否未履行还贷责任），以决定是否给予贷款。

可以根据贷款申请人的年龄、受教育程度、现从事工作的年龄、未变更住址的年数、收入，负债收入比例、信用卡债务、其他债务等来判断其信用情况。

下表是某银行的客户资料中抽取的部分数据，（1）根据样本资料分别用距离判别法、贝叶斯判别法和费系尔判别法建立判别函数和判别规则。

(2)某客户的如上情况资料为（53，1，9，18，50，11，20，2.02，3.58），对其进行信用好坏的判别。

目前信用好坏客户序号已履行还贷责任1 23 1 7 2 31 6.6 0.34 1.712 34 1 173 59 8.0 1.81 2.913 42 2 7 23 41 4.6 0.94 0.944 39 1 195 48 13.1 1.93 4.365 35 1 9 1 34 5.0 0.40 1.30未履行还贷责任6 37 1 1 3 24 15.1 1.80 1.827 29 1 13 1 42 7.4 1.46 1.658 32 2 11 6 75 23.3 7.76 9.729 28 2 2 3 23 6.4 0.19 1.2910 26 1 4 3 27 10.5 2.47 0.363、从胃癌患者、萎缩性胃炎患者和非胃炎患者中分别抽取五个病人进行思想生化指标的化验：血清铜蛋白、蓝色反应、尿吲哚乙酸和中性硫化物，数据见下表。

试用距离判别法建立判别函数，并根据此判别函数对原样本进行回判。

判别分析案例

表示市场份额增长。
表示流动资金比例。
表示资金周转速度。
h
10
数gr据oup展示
表示类别
8个用来建立判别标准的变量
•该数据disc.sav共有90个样本，其中30个属于上升型，30个属
于稳定性，30属于下降型。这个已知类别的数据称为一个“训
练样本”。
h
11
SPSS实现——数据读入 File → Open → Data → “Disc.sav”
h
6
逐步判别法
逐步判别法就是在前面的方法中加入变量选择功能。有时，一些变量对于判别没有什么作用，为了得到对判别最合适的变量，可以使用逐步判别。
逐步判别的思想是先用少数变量进行判别，然后一边判别，一边引进判别能力最强的变量，同时淘汰判别能力不强的的变量。
主要利用一些检验来判断变量的判别能力。
和它们已知的类别，找出分类标准，并对没分类的企业进行分类。
h
9
变量描述
变量名称 group
is se sa prr ms msr cp cs
涵义描述
表示类别。group-1代表上升，group-2代表稳定，group-3代表下降。
表示企业规模。
表示服务。
表示雇员工资比例。
表示利润增长。
表示市场份额。
Prior Probabilities：设定先验概率。
All groups equal：各组等概率。
Compute from group sizesplay：输出。
Casewise result：每个观察单位判别分析后所属类别。
Limit cases to first []：前若干观察单位判别分析后所属类别。
距离判别法 Fisher判别法 Bayes判别法逐步判别法

判别分析实例共67页

33、如果惧怕前面跌宕的山岩，生命就永远只能是死水一潭。 34、当你眼泪忍不住要流出来的时候，睁大眼睛，千万别眨眼!你会看到世界由清晰变模糊的全过程，心会在你泪水落下的那一刻变得清澈明晰。盐。注定要融化的，也许是用眼泪的方式。
35、不要以为自己成功一次就可以了，也不要以为过去的光荣可以被永远肯定。
55、为中华之崛起而读书。 ——周恩来
判别分析实例
31、别人笑我太疯癫，我笑他人看不穿。(名言网) 32、我不想听失意者的哭泣，抱怨者的牢骚，这是羊群中的瘟疫，我不能被它传染。我要尽量避免绝望，辛勤耕耘，忍受苦楚。我一试再试，争取每天的成功，避免以失败收常在别人停滞不前时，我继续拼搏。
谢谢！
5—陆游 52、生命不等于是呼吸，生命是活动。——卢梭
53、伟大的事业，需要决心，能力，组织和责任感。 ——易卜生 54、唯书籍不朽。——乔特

bayes判别分析案例及结果

例：研究某年全国各地区农民家庭收支的分布规律，根据抽样调查资料进行分类，共抽取28个省、市、自治区的六个指标数据。

先采用聚类分析，将28个省、市、自治区分为三组。

北京、上海、广州3个城市属于待判样本。

（家庭收支.sav）1.选中判别分析，2.选择Fisher 即bayes判别分析方法，易混！！！3.确定组别4. 选择保存结果5. 模型检验（即判别准确率）重要结果分类函数系数类别1 2 3食品.480 .473 .429 衣着 1.612 1.354 .933 燃料 2.421 2.189 .777 住房.555 .335 .052 用品及其它 1.032 .580 .847 文化支出 5.387 5.446 4.317(常量) -117.620 -89.052 -53.616Fisher 的线性判别式函数按照案例顺序的统计量案例数目实际组最高组第二最高组判别式得分预测组P(D>d |G=g)P(G=g| D=d)到质心的平方Mahalanobis距离组P(G=g| D=d)到质心的平方Mahalanobis距离函数1函数2 p df初始 1 1 1 .320 2 1.000 2.282 2 .000 22.754 3.163 -2.7172 1 1 .799 2 1.000 .449 2 .000 17.611 3.559 -1.6593 1 2**.095 2 .688 4.705 1 .312 6.283 2.737 1.2754 1 1 .797 2 .984 .453 2 .016 8.670 2.855 -.5695 1 1 .504 2 1.000 1.372 2 .000 20.770 4.205 -1.4616 1 1 .313 2 .996 2.321 2 .004 13.305 1.847 -2.1317 2 2 .788 2 .986 .476 1 .011 9.482 .566 .5958 2 2 .405 2 .992 1.806 1 .008 11.456 1.756 1.9139 2 2 .532 2 .987 1.263 1 .013 9.942 1.645 1.60710 2 2 .451 2 .999 1.593 1 .001 15.008 1.358 2.26911 2 2 .826 2 .984 .383 1 .015 8.758 .816 .71812 2 2 .769 2 .994 .524 1 .006 10.742 1.252 1.52313 2 2 .378 2 .861 1.945 3 .139 5.594 -.611 .53914 2 2 .219 2 .639 3.034 3 .361 4.179 -1.036 .60515 2 2 .304 2 .941 2.379 3 .059 7.903 -.943 1.59616 2 2 .935 2 .997 .134 1 .003 12.046 .874 1.48517 3 3 .387 2 .994 1.899 2 .006 12.039 -1.570 -1.44818 3 3 .801 2 1.000 .443 2 .000 19.449 -3.157 -1.07619 3 3 .413 2 .991 1.767 2 .009 11.104 -1.531 -1.30320 3 3 .570 2 .984 1.124 2 .016 9.398 -1.635 -.84721 3 3 .880 2 .997 .255 2 .003 11.791 -2.562 -.12822 3 3 .826 2 .993 .383 2 .007 10.155 -2.282 -.14023 3 3 .130 2 1.000 4.077 2 .000 29.305 -4.643 -.18324 3 3 .078 2 .995 5.095 2 .005 15.558 -3.369 1.52625 3 3 .323 2 1.000 2.260 2 .000 25.638 -3.294 -1.98926 未分组的1 .0002 1.000 20.223 2 .000 62.899 7.054 -3.27827 未分组的1 .0002 1.000 82.160 2 .000 150.236 11.796 -3.63028 未分组的1 .0052 1.000 10.431 2 .000 25.808 5.621 .759交叉验证a 1 1 1 .349 6 1.000 6.707 2 .000 27.3012 1 1 .025 6 .999 14.400 2 .001 29.4123 1 2**.087 6 1.000 11.051 1 .000 37.7404 1 1 .233 6 .900 8.064 2 .100 12.4595 1 1 .136 6 1.000 9.738 2 .000 28.7186 1 1 .182 6 .975 8.851 2 .025 16.1797 2 2 .249 6 .945 7.850 1 .043 14.0428 2 2 .734 6 .984 3.575 1 .016 11.8079 2 2 .039 6 .880 13.285 1 .120 17.26810 2 2 .078 6 .996 11.349 1 .004 22.46511 2 2 .701 6 .967 3.819 1 .031 10.68312 2 2 .461 6 .984 5.669 1 .016 13.90313 2 3**.129 6 .703 9.898 2 .297 11.62214 2 3**.444 6 .684 5.820 2 .316 7.36815 2 2 .123 6 .635 10.047 3 .365 11.15116 2 2 .000 6 .878 35.006 1 .121 38.97317 3 3 .114 6 .955 10.252 2 .044 16.40718 3 3 .925 6 1.000 1.939 2 .000 20.37119 3 3 .288 6 .959 7.373 2 .041 13.67820 3 3 .652 6 .963 4.186 2 .037 10.70721 3 3 .526 6 .991 5.139 2 .009 14.63422 3 3 .834 6 .986 2.792 2 .014 11.30223 3 3 .101 6 1.000 10.616 2 .000 39.41124 3 3 .018 6 .917 15.261 2 .083 20.05725 3 3 .268 6 1.000 7.611 2 .000 32.555对初始数据来说，平方Mahalanobis 距离基于典则函数。

判别分析例子

例1. 现有分别来自总体A 和总体B 的两组随机样本，样本量分别为5和6，样本均值分别为⎪⎪⎭⎫⎝⎛00和⎪⎪⎭⎫⎝⎛23，样本离差阵分别为⎪⎪⎭⎫⎝⎛4004和⎪⎪⎭⎫ ⎝⎛5005.2。

今欲判别一个新样本⎪⎪⎭⎫⎝⎛2.11来自哪一个总体：（1）. 请使用距离判别法（采用马氏距离）对上述新样本进行判别（不假设两个总体有相同的自协方差阵）。

（2）. 请采用Fisher 判别法求出判别函数，并利用此判别函数对上述新样本进行判别。

解答：（1）、先求取新样本到不同总体均值的马氏距离： 44.22.11002.114004151002.112212=+=⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛-⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫⎝⎛⎪⎪⎭⎫ ⎝⎛-'⎪⎪⎭⎫⎝⎛⎪⎪⎭⎫ ⎝⎛-⎪⎪⎭⎫⎝⎛=-AMD64.88.022232.115005.2161232.112212=+⨯=⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛-⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫⎝⎛⎪⎪⎭⎫ ⎝⎛-'⎪⎪⎭⎫⎝⎛⎪⎪⎭⎫ ⎝⎛-⎪⎪⎭⎫⎝⎛=-B MD显然有22B AMD MD<，故此，应判别新样本来自总体A 。

（2）、先求取线性判别函数： ⎪⎪⎭⎫ ⎝⎛=⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛-⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫⎝⎛⎪⎪⎭⎫ ⎝⎛+⎪⎪⎭⎫⎝⎛=-+=--9/213/600235005.24004)()(11)2()1(A BX XSSu线性判别函数为：X X u y u '⎪⎪⎭⎫⎝⎛='=9/213/6)(。

新样本的判别函数值：7282.02.119/213/6)()0(≈⎪⎪⎭⎫⎝⎛'⎪⎪⎭⎫ ⎝⎛=X u ；总体A 的均值的判别函数值：0)(=A X u ；总体B 的均值的判别函数值：829.1239/213/6)(≈⎪⎪⎭⎫⎝⎛'⎪⎪⎭⎫⎝⎛=B X u ；临界值：9977.00116829.1)()(≈+⨯=+++BA B B BA A A n n n X u n n n X u ；由于)()(B A X u X u <，且7282.0)()0(≈X u 小于临界值0.9977，所以应判别新样本来自总体A 。

多元统计第五章判别分析

第五章判别分析
第一节引言
在我们的日常生活和工作实践中，常常会遇到判别分析问题。
案例一：为了研究中小企业的破产模型，选定4个经济指标：总负债率、
收益性指标、短期支付能力、生产效率性指标。对17个破产企业（1类）和21
个正常运行企业（2类）进行了调查，得关于上述四个指标的资料。现有8个未知类型的企业的四个经济指标的数据，判断其属于破产企业一类还是正常运行企业一类？案例二：根据经验，今天与昨天的湿度差x1及今天的压温差x2 （气压与温度
ˆ Σ
1 A ， n 1
1,2,, k
三、判别分析的实质
设R1，R2，…，Rk是p维空间R p的k个子集，如果它们互
不相交，且它们的和集为R p，则称R1，R2， …，Rk为R p的一个划分。
在两个总体的距离判别问题中，利用
W (X) (X μ)' α 可以得到空间 R p 的一个划分 R1 {X : W ( X) 0} R2 {X : W ( X) 0}
x2
-0.41 -0.31 0.02 -0.09 -0.09 -0.07 0.01 -0.06 -0.01 -0.14 -0.3 0.02 0 -0.23 0.05 0.11 -0.08 0.03 0 0.11 -0.27
x3
1.09 1.51 1.01 1.45 1.56 0.71 1.5 1.37 1.37 1.42 0.33 1.31 2.15 1.19 1.88 1.99 1.51 1.68 1.26 1.14 1.27
Σ 的一个联合无偏估计为
n
n2 1 和 X(2) Xi(2) n2 i 1 1 ˆ Σ ( A1 A2 ) n1 n2 2

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

判别分析实例汇总
例：人文与发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中公布的。

该报告建议，目前对人文发展的衡量指标应当以人生的三大要素为重点。

衡量人生的三大要素的指标分别为：实际人均GDP指数、出生时的预期寿命指数、受教育程度指数（由成人识字率指数和综合总人学率指数按2/3、1/3的权重加权而得），将一生三个指数合成为一个指数就是人文发展指数。

今从2007年世界各国人文发展指数（2005年）的排序中，选取高发展水平、中等发展水平和低发展水平国家各6个作为三组样品，另选四个国家作为待判样品，资料如下表所示。

试用判别分析过程对以下数据资料进行判别分析，并据此对待选的四个国家进行判别归类。

data develop;
input type gdp life rate zhrate@@; cards;
1 41890 77.9 99.5 93.3
1 29461 79.1 99.
2 88
1 23381 78.9 96 99
1 29663 79.4 92.5 87.3
1 28529 80.3 98.4 90.6
1 22029 77.9 99 96
2 6000 77.7 99.8 87.6
2 9060 71.9 97.
3 76.8
2 8402 71.7 88.6 87.5
2 8677 69.6 92.6 71.2
2 5137 71 92.6 81.1
2 8407 71.4 87.4 68.7
3 1550 62.6 48.6 58.1
3 1128 46.5 69.1 56.2
3 2299 49.8 67.9 62.3
3 2370 64.6 49.9 40
3 3071 73.7 90.3 63.9
3 3843 69.7 90.
4 68.2
. 31267 82.3 99 85.9
. 3452 63.7 61 63.8
. 6757 72.5 90.9 69.1
. 11110 50.8 82.4 77
;
proc discrim simple wcov distance list;/*simple:要求技术各类样品的简单描述统计量；选项WCOV要求计算类内协方差阵；选项DISTANCE要求计算马氏距离；选项LIST要求输出重复替换归类结果。

由于没有给出方法选项，所以系统按缺省时的正态分布进行有关参数的估计和归类。

*/
class type;
var gdp life rate zhrate;
run;
proc discrim pool=test slpool=0.05list; /*simple: */
class type;
priors'1'=0.3'2'=0.4'3'=0.3 ;
run;
proc discrim method=npar k=2list; /*simple: */
class type;
run;
proc candisc out=result ncan=2; /*simple: */
class type;
var gdp life rate zhrate;
run;
proc gplot data=reult;
plot can1*can2=type;
run;
proc discrim data=result distance list;
class type;
var can1 can2;
run;
表1 已知样本分类水平信息
表2 样本统计量信息
表3 类间距离及三类总体均值差异的显著性检
验
表3给出了类1与类2之间的马氏距离为37.58288，类1与类3之间的马氏距离为75.97603，类2与类3之间的马氏距离为10.91428.类与类之间总体均值的F检验统计量值分布为22.54978，45.58562，22.54973，对应的检验概率分别为<0.0001, <0.0001,<0.0001, 说明三类总体均值两辆之间的差异是显著的，因此判别分析有意义。

表4 线形判别函数
由表4可写出线形判别函数如下：
高发展水平：
y1=-157.18932+0.00204gdp+1.66582life-0.37085r ate+1.72851zhrate
中等发展水平
Y2=-99.12840+0.0006250gdp+1.49389life-0.0926 2rate+1.19559zhrate
低发展水平：
Y3=-62.22473+0.0002576gdp+1.31631life-0.0894 0rate+0.85253zhrate
表5：用距离判别法判别分析结果
由表5得，最后四个观测的归类结果为19号（日本）观测为高发展水平国家，第20号（印度）为第3类，即低发展水平国家，21号（中国）和22号（南非）归为中等发展水平国家。

表6 距离判别法判别分析结果小结
表6给出了分类错误信息，由输出结果可知分类错误的比率为0，即正确的比率为100%。

本程序中第二个判别分析过程的选项“pool=test”,要求进行类内协方差阵一致性检验，检验的显著性水平由选项”slpool=0.05”给出为0.05. priors语句给出了各发展水平国家的先验概率。

表7 分类信息及类内协方差阵一致性检验结果
表7表明3个类的先验概率分别为0.3，0.4，0.3，类内协方差阵行列式的自然对数不相等，表明类内协方差阵不相等，而卡方统计量值为46.068898，对应的概率是0.0008，在0.05的显著性水平下是显著的，即类内协方差阵存在显著差异。

由于类内协方差阵不等，所以判别函数应是二次函数。

表8 类间配对广义马氏距离
由表8可知，类内广义马氏距离不再为0，而且类间的广义马氏距离也不再相等，因而类内协方差和先验概率对后验概率的计算是起作用的。

表9 用Bayes判别法得到的判别分析部分结果
由表9可知，用BAYES判别法对待判样品的判别结果与距离判别法结果一致。

本程序中的第三个过程要求进行非参数分析，即对类密度函数进行非参数估计。

选项K=2要求用最近邻的两个样品进行密度函数估计，选项list要求输出重复替换归类结果。

该过程运行
结果如下：
表10 用NPAR方法得到的判别分析部分结
果
由表10可知，4个待判的样品中19号和21号归类结果与BAYES判别归类结果是一致的，但20号和22号所属类别则不能确定，这是与前面2中判别方法结果不一致的地方。

第四种FISHER判别：第一个过程执行典型判别分析。

第二个过程要求绘制第一个典型变量CAN1和第二个典型变量CAN2的散点图，以便更加直观了解分类情况。

第一、二个过程输出结果如下：
表11 典型相关的多变量检验结果
由上表对相关阵的显著性检验结果可知，至少有
表12 典型相关与特征值
上表可知，第一典型相关为0.969875，而第二典型相关为0.653396。

第一个特征值为15.8514，所占比例为95.51%，第二个特征值为0.7450，所占比例仅有4.49%，说明只需用第一个典型变量即可。

表13 原始变量的典型相关系数
由表12可得两个典型变量分别为：
CAN1=0.0002096544gdp+0.0382960552life-0.0346472260rate+0.0988009134zhrate
Can2=-0.0001135485gdp+0.0394378902life+ 0.0500655661rate+0.0390500134zhrate
表14 类间马氏距离及各类总体均值的显著
性检验
由上表的显著性概率可知，在0.05的显著性水平下，三个类的总体均值两两显著不等。

表15 线性判别函数
由表15得3个类的线形判别函数分别为：
第一类：Y1=-12.01131+4.88922can1-0.34378can2
第二类：Y2=-1.16768-1.07130can1+1.08981can2
第三类：y3=-7.56654-3.81792can1-0.74604can2
表16 由DISCRIM利用两个典型变量进行
判别部分样品归类结果
上表分类结果与前几种分类方法结果一样，总错判率为0.。