第十八章_判别分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
22
SPSS统计软件的判别分析与结果
(Fisher判别或典则判别)
1.确定研究的目的: 收集指标与建立判别分析目的一致(从专 业考虑) 2.统计检验建模数据的要求: 检验判别变量的区别能力 数据满足正态和协方差齐性 3.建立判别方程,评价判别效果。 4.模型结果解释和预测。
23
例18-1
16
变量的合并方差和协方差
( x A1 x A1 ) ( xB1 xB1 ) s11 nA 1 nB 1
2 2
( x A1 x A1 )( x A2 x A2 ) ( xB1 xB1 )( xB 2 xB 2 ) s12 nA 1 nB 1
a. First 1 canonical discriminant functions were used in the analysis.
表5
Wilks' Lambda Wilks' Lambda .538 Chi-square 11.466 df 3 Sig. .009
31
Test of Function(s) 1
z A z B 1.428 (1.722) zc 0.004 2 2
预测: 某病人测定了x1、x2、x3值,代 入方程z,计算的z>-0.004,为A类。
19
例:表18-1 两类疾病 22例患者三项指标预测结果
类别 A A A
B B B
x1 23 -1 -10
9 2 17
x2 8 9 5
Wilks' Lambda .929 .634 .712
单变量检验提示: X2和x3在区别不同类别人群有统计学 意义。
27
检验建模数据变量的变异在类间 是否齐性?

协方差的Box‘s M检验
Test Results Approx. df1 df2 Sig. 10.859 1.508 6 2613.311 .172
2
概 述
对事物分类,以便给予不同的处理。 但事物的分类常需要多个指标,判别分析 是通过多变量对事物进行分类方法。 医学中的分类问题: 疾病的预测 预测病人的预后(好或差),提出早期治疗方法 ,降低严重后果。
3
例: 新生儿缺氧缺血性脑病(HIE)预 后(山东某医院,2004年) 判别指标:
生后1 分钟阿氏评分(X1) 、窒息复苏时 间(X2 ) 、惊厥持续天数(X3 ) 、急性期CT 改变(X4) 及治疗3 天后原始反射情况(X5).
表3
Box's M F
Tests null hypothesis of equal population covariance matrices.
本例p>0.05,满足齐性条件
28
两总体方差不齐距离示意
z1
z2
29
建立判别规则和判别值(Zc)
z A zB zc 2
(18-5)
zi z c zi z c zi z c
判为A类 判为B类 判为任意一类
30
表4和表5反映建立判别方程提取信息量. 和有无统计意义
表4
Eigenvalues Function 1 Eigenvalue % of Variance .859a 100.0 Cumulative % 100.0 Canonical Correlation .680
表1
类别 1.00 X1 X2 X3 X1 X2 X3 X1 X2 X3
2.00
Total
各变量在类间的单因素统计检验 (F检验)
表2
X1 X2 X3

Tests of Equality of Group Means F 1.525 11.566 8.081 df1 1 1 1 df2 20 20 20 Sig. .231 .003 .010
24
25
讲义18-1实例分析 SPSS统计软件结果

变量判别能力的考察和统计描述
Group Statistics Mean -3.0000 4.0000 -1.0000 4.0000 -5.0000 1.0000 .1818 -.0909 -.0909 Std. Deviation 15.32674 5.27429 1.70561 10.12148 7.13364 1.56347 13.40446 7.57759 1.90010 Valid N (listwise) Unweighted Weighted 12 12.000 12 12.000 12 12.000 10 10.000 10 10.000 10 10.000 22 22.000 22 22.000 22 22.000 26
6

判别分析的特点

用途:通过数据建立判别方程,对研究事物进 行分类和预测。 对资料要求: 要求建立方程的观察对象分类(y)已经 明确(用金标准确定),收集建模对象(训 练样本)的m个变量(x)建立判别方程。

7
判别分析建模的方法
根据自变量(x)资料性质:

自变量(x)为计量数据: Fisher判别、Bayes判别(SPSS、SAS 统计软件可实现)。
36
例:世界经济统计研究(1995年)人文指数 反映国家综合水平
国家 美国 日本 训练样本 瑞士 阿根廷 阿联酋 保加利亚 古巴 巴拉圭 格鲁吉亚 南非 中国 待判样本 罗马尼亚 希腊 哥伦比亚 类别 期望寿命 1.00 76.00 1.00 79.50 1.00 78.00 1.00 72.10 1.00 73.80 2.00 71.20 2.00 75.30 2.00 70.00 2.00 72.80 2.00 62.90 2.00 68.50 2.00 69.90 1.00 77.60 1.00 69.30 识字率 99.00 99.00 99.00 95.90 77.70 93.00 94.90 91.20 99.00 80.60 79.30 96.90 93.80 90.30 GDP 5374.00 5359.00 5372.00 5242.00 5370.00 4250.00 3412.00 3390.00 2300.00 3799.00 1950.00 2840.00 5233.00 5158.00 37
-5 -1 -6
x3 0 -2 0
1 -1 -1
z值 判别结果 0.19 A 2.73 A 1.83 A
-2.07 -0.05 -2.22 B A B
20
z>-0.004,为A类
二、判别效果的评价
用误判率评价:
判为A类的例数 p( A / B) B类的例数
判为B类的例数 p( B / A) A类的例数
第十八章 判别分析 (Discriminant Analysis)
分类学是人类认识世界的基础科学。判别 分析是研究事物分类的基本方法,广泛应用 于自然和社会科学各个领域。
1
判别分析内容
* 第一节 Fisher判别 第二节 最大似然判别法 第三节 Bayes公式判别法 *第四节 Bayes判别 *第五节 逐步判别 * 第六节 判别分析中应注意的问题 (补充:SPSS统计软件的操作和结果) *重点:判别分析概念、应用、结果解释、注意 的问题。


求得判别值Z = 77, 以Z > 77 作为预后不 良的标准. 不良预后:①脑性瘫痪, ②严重智能低下
4
疾病诊断: 对疾病的诊断,确定进一步的治疗。
例:逐步判别分析在脑中风分类诊断中的应用(苏州 大学附属第一医院,2006年)
管理和经济学上分类: 对研究单位分类,判别所属类别,为管理者 制定政策提供依据。

自变量(x) 为定性数据: 最大似然判别法、Bayes公式判别(统计 软件不能自动实现)。
8
判别分析方法的基本步骤
1.建立判别函数(方程)
2.规定判别(分类)准则 判别新个体为某类 3.评价判别方程的效果
9
第一节 Fisher判别
一 、两类判别
1.
Fisher判别(典则判别 canonical discriminant)
Function 1 .523 -.782 .295
系数的绝 对值反映 重要性
33
评价判别效果
表8
Classification Resultsa Predicted Group Membership 1.00 2.00 10 2 2 8 83.3 16.7 20.0 80.0
Original
Count %
11
Fisher方差分析的思想
准则:寻找组间变异(类间均数)/ 组内 变异的比值最大化.

z A zB s s
2 A 2 B
英国统计学家Fisher R A 爵士(1890~1962)
z c1 x1 c2 x2 .... cm xm
12
通过解下列距阵得到判别系数(c)
S11C1 S12C2 ....S1mCm D1 S 21C1 S 22C2 ....S 2 mCm D2 ..... S m1C1 S m 2C2 ....S mmCm Dm
典型判别函数
(canonical discriminant function)
Canonical Discriminant Function Coefficients Function 1 .040 -.127 .179 -.002
表6
X1 X2 X3 (Constant)
根据表6系 数建立判 别方程
l xx ( x x )
2
l xy ( x x )( y y )
17
2.解正规方程得出判别系数C
175.3C1 20.3C2 2.3C3 7 20.3C1 38.2C2 5.8C3 9 2.3C1 5.8C2 2.7C3 2
类间 均数 差值
用已知类别(A或B)研究对象的x1, x2…… xm指 标,建立判别方程(z):
z c1 x1 c2 x2 .... cm xm
(18-1)
方程中系数c为判别系数,c1, c2…… cm,
10
Fisher判别的原理
Z

| Z A Z| B S A2 S B 2
z1
z2
正常人
冠心病人
Unstandardized coefficients
z 0.02 0.4x1 0.127 x2 0.179x3
32
表7提供了各变量对判别分类的重要性。
表7 Standardized Canonical Discriminant F unction Coefficients
X1 X2 X3
误判为B类 A类的例数 总误判率 A类 B类的例数
21
表18-1资料回顾性判别效果评价
原分类 判别分类 A B 合计 A 10 2 12 B 2 8 10 合计 12 10 22 第A类误判率=2/12=16.6% 第B类误判率=2/10=20.0% 方程总误判率=4/22=18.2%
类间 均数 差值 (18-3)
Sij为第i指标和第j个指标的ຫໍສະໝຸດ Baidu并协方差
z c1 x1 c2 x2 .... cm xm
13
2.建立判别规则和判别值(Zc)
z A zB zc 2
(18-5)
zi z c zi z c zi z c
判为A类 判为B类 判为任意一类
14
例:表18-1 两类疾病 22例患者三项指标观察结果
C1 0.07, C2 0.225, C3 0.318
z 0.07 x1 0.225x2 0.318x3
18
3.计算判别界值Zc
将各类每个个体的变量值代入判别方程, 得到zi,得到zA和zB的均数.
z 0.07 x1 0.225x2 0.318x3
z A 1.428, zB 1.722
编号 1 2 3 13 14 15 类别(y) A A A B B B x1 23 -1 -10 9 2 17 x2 8 9 5 -5 -1 -6 x3 0 -2 0 1 -1 -1
15
计算步骤:
1.计算各类均数和合并(A、B)的协方 差距阵(S)
s11, s12 , s13 175.3,20.3,2.3 s s21, s22 , s23 20.3,38.2,5.8 s31, s32, s33 2 . 3 , 5 . 8 , 2 . 7
例: 根据经济指标,人均收入、人均工农产值、人均 消费水平等判断不同地区经济发展程度类型。
5
事物分类的统计方法

主要有判别分析和聚类分析

判别分析:事物的分类是清楚的,目的是 通过已知分类建立判别函数,预测新的观察 对象所属类别。
聚类分析:事物分类不清楚,分几类不清 楚,目的希望将事物进行分类(探索性研 究)。
类别 1.00 2.00 1.00 2.00
Total 12 10 100.0 100.0
a. 81.8% of original grouped cases correctly classified.
灵敏度
特异度
34
软件给出判别结果和判别值
35
目前判别分析效果评价方法
1.回顾性评价: 将原始数据带入判别方程得误判率评价. 2.前瞻性: 将原始数据分为0.85(训练样本)建立判 别方程和0.15(验证样本).计算误判率(要 求例数较多)。 3.误判率 总误判率低于0.2,认为判别函数可用.
相关文档
最新文档