13_第三章-判别分析

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

其中xl，x2，…，xp为p个因子，c1,c2，…，cp为判别系数。求判别系数的标准方程组可类似(3．4)式写为
w11c1 w12 c2 ... w1 p c p d1 w21c1 w22 c2 ... w2 p c p d 2 .......... .......... .......... .......... w p1c1 w p 2c2 ... w pp c p d p
的方法进行验证，得到错判率。
判别分析步骤及Discriminant过程的选择项
1 建立或读入数据文件 2 进入程序 3 选择分类变量及其范围 4 指定判别分析的自变量 5 运行
实例
三种鸢(yuan)尾花的花瓣、花萼的长、宽数据。共有每种50个观测量，共150个观测量的数据。
1 建立或读入数据文件 data13-05
matrix (Within-groups) Plots (Combined-groups, Separategroups, Territorial map) Display (Summary table)
Statistics: Descriptive (Means) Function Coefficients (Fisher’s,
2 进入程序
Analyze Classify Discriminant
鸢尾花数据(花瓣,花萼的长宽) 5个变量: 花瓣长(slen),花瓣宽(swid), 花萼长(plen), 花萼宽(pwid), 分类号(spno) 1:Setosa, 2:Versicolor, 3:Virginica)
衡量点子集中程度的量就是方差。因此，类间方差与类内方差的比值为最大可作为
判别方程建立的原则，这就是费歇判别准则。

( y1 y2 )
2 2
(y
i 1
n1
1i
y1 ) ( y2i y2 )
2 i 1
n2
max
判别系数c1,c2的确定就是使
组间方差与组内方差的比达到最大
3）预报问题：实践或经历告诉我们，能够用某时刻之前发生的一些现象来预测其后可能发生的某些现象。我们观察这些前兆变量，并希望预报与其有依赖关系的但尚未出现的现象。
4 ) 破坏性试验：当一种试验会导致被试验个体的破坏时，我们需要一种不完全破坏其它个体就能够预言其特性的方法。
怎样进行判别分析？
y c1 x1 c2 x2
y 被称为线性判别函数（或方程）， c1 、c2 为判别
系数。
显然， y 大可预报为晴天，反之预报为雨天。这里需要找到一个差别值yc，在日常预报中，当前期因子值发生后，代入判别方程，求得判别函数值y0，若y0 >yc 就报未来晴；y0 <yc 就报未来雨。
判别方程可看成三维空间中的一
分类刚毛鸢尾花
变色鸢尾花
佛吉尼亚鸢尾花
Total
花萼长花萼宽花瓣长花瓣宽花萼长花萼宽花瓣长花瓣宽花萼长花萼宽花瓣长花瓣宽花萼长花萼宽花瓣长花瓣宽
鸢尾花数据(联合类内相关阵和协方差阵)
as Poo led Wi thin-G roups Matri ce
设选取晴类的样本容量为n1，雨类样本容量为n2，
总样本的容量为n= n1 + n2 。
根据(3.1)式，用不同因子值可算出不同类别的判别函数值y1i(i＝l，2，…,n1)及y2i(i＝1，，...,n2)。我们希望构成上图中的空间平面，使得平面上晴天的判别函数值对应的点子比较集中，雨天类的点子亦比较集中，但是两类点子之间距离较远，从而使得 y=yc平面容易地将两类点子区分开来。
个平面方程。我们总可以找到一
个平行于x1Ox2的平面y=yc，截（3.1）式的平面为两部分，使上半部的y值大于yc，下半部的y 值小于yc。两个平面的交线投影到x1Ox2平面上的交线投影线就称为分辨线，或称为判别线。
几何图形
判别分析的关键问题是如何找到合适的判别函数，即如何确定（3.1）式中判别系数c1 、c2的问题。
第三章判别分析
1 2 3
Part I : 判别分析的介绍
Part II: Fisher判别准则
Part III :多级判别
1
聚类分析
在气象预报中，为了使用需要，一些预报量
常常分成若干级别或类别。
例如，把降水量的资料用经验或使用其他数
学方法进行划分，使之变成不同的级别或类别
，如：暴雨、大雨、中雨、小雨和无雨；
对p个因子，也可以类似地检验它们来自的两类总体是否有显著差异，假设它们来自的两类总体无显著差异，即各因子在两类的数学期望相等，亦即 H0：E(dk)＝0 (k=1,2…p)
遵从分子自由度为p、分母自由度为(n1+n2—p—1)的 F
分布，式中
D 2 ( x1 x 2 )S 1 ( x1 x 2 ) (n 2) ck d k
Probability of group membership)
方法
鸢尾花基本数据信息
Group Statistics Mean 50.06 34.28 14.62 2.46 59.36 27.66 42.60 13.26 66.38 29.82 55.60 20.26 58.60 30.59 37.61 11.99 Std. Deviation 3.525 3.791 1.737 1.054 5.162 3.147 4.699 1.978 7.128 3.218 5.540 2.747 8.633 4.363 17.682 7.622 Valid N (listwise) Unweighted Weighted 50 50.000 50 50.000 50 50.000 50 50.000 50 50.000 50 50.000 50 50.000 50 50.000 50 50.000 50 50.000 50 50.000 50 50.000 150 150.000 150 150.000 150 150.000 150 150.000
判据，模型外的变量都不符合进入模型的判据时，逐步选择变量的过程停止。逐步选择法更能比较好的选择变量。
典则判别分析：
典则判别分析建立典则变量代替原始数据文件中指
定的自变量。典则变量是原始自变量的线性组合。
用少量的典则变量代替原始的多个变量可以比较方
便地描述各类之间的关系。判别函数的性能：判别分析得出的判别函数性能如何，可以通过回代
由(3.1)式，代入因子不同类的平均值，算出：
yC
1 n1 n2
(n c
k 1 1
2
k
xk 1 n2 ck xk 2 )
若y＞ yc ，报晴；反之，y＜ yc报雨。 yc 是一个阈值。
多因子二级判别
对于预报量分为二级 (类)别时，类似地可建立p个因子
的二级判别函数
y c1x1 c2 x2 ... c p x p
或者化为更为简单的两类：有雨和无雨。
判别分析
然后根据预报量不同类别，选择一些前期因
子，利用在不同类别的样本内，寻找因子与预
报量的关系，建立针对不同类别的预报量的预报方程。选择适当的判别规则，判别某个因子观测样品所属的类别，再来实现对预报量的预报。这种方法就称为判别分析，也成为分辨法。
什么情况下要进行判别分析？
逐步选择法：逐步判别法从模型中没有变量开始，
每一步都要对模型进行检验。每一步都把模型外的
对模型的判别能力贡献最大的变量加入到模型中的同时，也考虑把已经在模型中但又不符合留在模型中的条件的变量剔除。这是因为新变量的引入有可能使原本已经在模型中的变量对模型的贡献变得不
显著了。直到模型中的所有变量都符合引入模型的
怎样利用判别方程作预报。
§1 费歇判别准则 §2 多级判别
§1 Fisher 判别准则
假设要预报晴天/雨天，选择2个前期因子x1和x2。 x1是24h本站气压差， x2是温度露点差。根据经验， x1和x2当为大数值时，第二天常为
晴天；反之则为雨天。为了综合x1和x2的作用，可
以用一种简单的线性组合形式把x1和x2的作用综合起来，构成一个新的变量：
Unstandardized) Matrix (Within-groups correlation, Withingroups covariance, Separate-groups covariance, Total covariance)
Save: (Predicted group membership, Discriminant Scores,
y1
y2
y1
上式中
y2
y1 和 y2 为晴天和雨天的判别函数值的
平均值。
式中判别函数的平方和具有方差的意义。
判别系数的确定
当样本确定后，不同类别的因子值也已知，如果把式 (3．1)代入(3．2)式，则就是判别系数c1与c2的函数。据微积分学中求极值原则，有
0, c1
0 c2
举例：
取第二章例2资料，把一月气温小于-4.5称为1级（冷），反之称为2级（暖）。三个因子变量相应地分为两级样本，1级样本容量为 14，2级样本容量为16，总样本容量为30，因子数为 p=3。
……
• 判别方程的显著性检验
在下列假定条件下，可以对二级判别方程作出显著性
检验：
每类(组)的观测值是随机选择的；一个未知的样品来自两类中任一类的概率是相等的；在每一类(组)内变量是遵从正态分布的; 两类(组)组内的协方差阵是相等的；用于判别方程的观测值没有一个是错分的 ( 即判别方程的分辨线完全将两类点子区分开)。
据)时，变量的引入过程结束。当希望比较多的变量留在判别函数中时使用向前选择法。
向后选择法：与向前选择法完全相反。它是从把用户所有指定的变量建立一个全模型。每一步把一个对模型的判断能力贡献最小的变量剔除出模型，直
到模型中的所有变量都符合留在模型中的判据时，
剔除变量工作结束。在希望较少的变量留在判别函数中时使用。
已知:存Leabharlann Baidu两个总体A和B.
•给出一个随机样本，所有个体肯定来自总体A；
•给出另一个随机样本，所有个体肯定来自总体 B 。 •我们如何制定一个准则，使来源未知的其它个体能够分配到正确的总体中去？ •且希望在某种最优的意义上做到这一点：例如错
分尽可能少，或者如果有错分则要使其带来的代
价最小。
本章主要介绍费歇判别原则下如何建立判别方程，对判别方程进行显著性检验，以及
k 1
p
为马氏距离。
SPSS建立判别函数的方法全模型法：把用户指定的变量全部放入判别函数中：不
管变量对判别函数是否起作用及作用的大小。当对反映研究对象特征的变量认识比较全面时可以选择此种方法。
向前选择法：是从判别模型中没有变量开始，每一步把
一个对判别模型的判断能力贡献大的变量引入模型。直到没有被引人模型的变量没有一个符合进入模型的条件(判
w11c1 w12 c2 d1 w21c1 w22 c2 d 2
上式称为求判别系数 c1 ， c2的标准方程组。
d k x k1 x k 2
不同类别平均值之差
判别时，可建立y＝yc 平面，取两类y值的重心，即
yC
1 (n1 y1 n2 y2 ) n1 n2
1）丢失信息：考古学家或人类学家需要知道在古代墓地发现的骨架的性别。当研究对象是活着的话，就不会存在问题，因为有充分多的活的材料。但在考古中的信息则是死的。
2）不能获得的信息：医院中的病历记载了病人的外表症状与体内疾病的关系。而体内疾病需要对病人实施手术，或在病人去世后的解剖中才能搞清楚。问题是，在没有某种强有力的手段的情况下，如何由外表症状来诊断体内的疾病呢？
3 选择分类变量及其范围
Statistics→Classify →Discriminant: Variables: independent (slen,swid,plen,pwid) Grouping(spno)
Define range(min:1,max:3)
Classify: prior probability(All group equal) use covariance