判别分析实例

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

例:人文与发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中公布的。该报告建议,目前对人文发展的衡量指标应当以人生的三大要素为重点。衡量人生的三大要素的指标分别为:实际人均GDP指数、出生时的预期寿命指数、受教育程度指数(由成人识字率指数和综合总人学率指数按2/3、1/3的权重加权而得),将一生三个指数合成为一个指数就是人文发展指数。今从2007年世界各国人文发展指数(2005年)的排序中,选取高发展水平、中等发展水平和低发展水平国家各6个作为三组样品,另选四个国家作为待判样品,资料如下表所示。试用判别分析过程对以下数据资料进行判别分析,并据此对待

data develop;

input type gdp life rate zhrate@@;

cards;

1 41890 77.9 99.5 93.3

1 29461 79.1 99.

2 88

1 23381 78.9 96 99

1 29663 79.4 92.5 87.3

1 28529 80.3 98.4 90.6

1 22029 77.9 99 96

2 6000 77.7 99.8 87.6

2 9060 71.9 97.

3 76.8

2 8402 71.7 88.6 87.5

2 8677 69.6 92.6 71.2

2 5137 71 92.6 81.1

2 8407 71.4 87.4 68.7

3 1550 62.6 48.6 58.1

3 1128 46.5 69.1 56.2

3 2299 49.8 67.9 62.3

3 2370 64.6 49.9 40

3 3071 73.7 90.3 63.9

3 3843 69.7 90.

4 68.2

. 31267 82.3 99 85.9

. 3452 63.7 61 63.8

. 6757 72.5 90.9 69.1

. 11110 50.8 82.4 77

;

proc discrim simple wcov distance list;/*simple:要求技术各类样品的简单描述统计量;选项WCOV要求计算类内协方差阵;选项DISTANCE要求计算马氏距离;选项LIST要求输出重复替换归类结果。由于没有给出方法选项,所以系统按缺省时的正态分布进行有关参数的估计和归类。*/

class type;

var gdp life rate zhrate;

run;

proc discrim pool=test slpool=0.05list; /*simple: */

class type;

priors'1'=0.3'2'=0.4'3'=0.3 ;

run;

proc discrim method=npar k=2list; /*simple: */

class type;

run;

proc candisc out=result ncan=2; /*simple: */

class type;

var gdp life rate zhrate;

run;

proc gplot data=reult;

plot can1*can2=type;

run;

proc discrim data=result distance list;

class type;

var can1 can2;

run;

表1 已知样本分类水平信息

表2 样本统计量信息

表3 类间距离及三类总体均值差异的显著性检验

表3给出了类1与类2之间的马氏距离为37.58288,类1与类3之间的马氏距离为75.97603,类2与类3之间的马氏距离为10.91428.类与类之间总体均值的F检验统计量值分布为22.54978,45.58562,22.54973,对应的检验概率分别为<0.0001, <0.0001,<0.0001, 说明三类总体均值两辆之间的差异是显著的,因此判别分析有意义。

表4 线形判别函数

由表4可写出线形判别函数如下:

高发展水平:y1=-157.18932+0.00204gdp+1.66582life-0.37085rate+1.72851zhrate

中等发展水平Y2=-99.12840+0.0006250gdp+1.49389life-0.09262rate+1.19559zhrate

低发展水平:Y3=-62.22473+0.0002576gdp+1.31631life-0.08940rate+0.85253zhrate

表5:用距离判别法判别分析结果

由表5得,最后四个观测的归类结果为19号(日本)观测为高发展水平国家,第20号(印度)为第3类,即低发展水平国家,21号(中国)和22号(南非)归为中等发展水平国家。

表6 距离判别法判别分析结果小结

表6给出了分类错误信息,由输出结果可知分类错误的比率为0,即正确的比率为100%。

本程序中第二个判别分析过程的选项“pool=test”,要求进行类内协方差阵一致性检验,检验的显著性水平由选项”slpool=0.05”给出为0.05. priors语句给出了各发展水平国家的先验概率。

表7 分类信息及类内协方差阵一致性检验结果

表7表明3个类的先验概率分别为0.3,0.4,0.3,类内协方差阵行列式的自然对数不相等,表明类内协方差阵不相等,而卡方统计量值为46.068898,对应的概率是0.0008,在0.05的显著性水平下是显著的,即类内协方差阵存在显著差异。由于类内协方差阵不等,所以判别函数应是二次函数。

表8 类间配对广义马氏距离

由表8可知,类内广义马氏距离不再为0,而且类间的广义马氏距离也不再相等,因而类内协方差和先验概率对后验概率的计算是起作用的。

表9 用Bayes判别法得到的判别分析部分结果

相关文档
最新文档