判别分析的理论依据以及SPSS实现方法

合集下载

SPSS-判别分析

“判别分析”的计算机实现
SPSS---Discriminant
.
Discriminant
➢ Analyze Classifly Discriminant …
.
三种情形下的判别分析
➢ 使用SPSS默认选项进行判别分析 ➢ 使用选择项进行判别分析 ➢ 进行逐步判别分析
.
SPSS中使用的判别方法
➢ SPSS的Discriminant过程中默认情况下使用的是 Fisher判别，给出的是标准化的Fisher判别函数的系数
剩余判别指标
---Wilks’ Lambda
➢ 当资料来源于一个样本，计算出判别函数而又想推断它在判别总体案例时的情况涉及到的统计显著性问题。
➢ “剩余”的含义：在之前计算的判别函数已经提取过原始信息后，剩余的变量信息对于判别分组的能力
➢ 间接地进行判别函数的显著性检验，其值越小表示越高的判别力
根据判别系数可以写出判别函数的具体形式。若有了判别变量值代入后，即可得到样品在空间中的位置
.
Bayes判别系数
➢ Bayes分组便是判别分组
.
结构系数 ---structural cofficient
➢ 结构系数又称为判别负载(discriminant loading)，实际上是某个判别变量xi与判别值y之间的相关系数，它表达了两者之间的拟合水平：绝对值很大（接近+1或-1），这个函数表达的信息与这个变量表达的信息几乎完全相同，接近0，两者之间几乎没什么共同之处
.
使用默认值进行判别分析
➢ 选用数据文件8.sav ➢ 将x1, x2,…, x7移入Independents框 ➢ 将Group移入Grouping Variables框 ➢ 对输出结果的认识

SPSS数据分析—判别分析

判别分析作为一种多元分析技术应用相当广泛，和其他多元分析技术不同，判别分析并没有将降维作为主要任务，而是通过建立判别函数来概括各维度之间的差异，并且根据这个判别函数，将新加入的未知类别的样本进行归类，从这个角度讲，判别分析是从另一个角度对数据进行归类。

判别分析由于要建立判别函数，因此和回归分析类似，也有因变量和自变量，并且因变量应为分类变量，这样才能够最终将数据进行归类，而自变量可以是任意尺度变量，分类变量需要设置为哑变量。

既然和回归分析类似，那么判断分析也有一定的适用条件，这些适用条件也和回归分析类似1.自变量和因变量的关系符合线性假定违反时，可以使用曲线直线化、二次判别分析等方法2.因变量取值是独立的，并且必须事先就已确定这个很好理解，既然最终要归类，就要实现确定归为哪几类3.自变量服从多元正态分布违反时影响不大4.自变量各组间方差齐性，协方差矩阵齐违反时，可使用经典判别分析、非参数判别分析、距离判别分析5.自变量间不存在共线性违反时可以采用类似于线性回归中对共线性的处理，如逐步判别分析，岭判别分析等，和线性回归一样，共线性可以使判别函数的系数发生变化，但是对于判别结果则影响不大判别分析根据不同的判别准则可以分为经典判别分析、贝叶斯判别分析、非参数判别分析等，SPSS中将其和聚类共用一个过程，下面我们来介绍这几种方法在SPPS中的应用一、经典判别分析收集了一些鸢尾花的数据，其中spno为类别，有三个水平，其余四个为变量，想通过此数据进行判别分析，建立判别函数以对花进行区分，数据组成如下分析—分类—判别二、贝叶斯判别分析贝叶斯体系的主要思想是根据先验概率去推证后验概率也就是实验结果，将其引入判别分析之后，就变成计算后验概率及错判率，用最大后验概率来进行判别，并使错判率最小。

在SPSS中，贝叶斯判别和经典判别只是设置上稍有不同。

spss教程_13-1(判别分析)

y
( ) i
ax
'
k n
( ) i
, 1,2, k , i 1,2, n ,
Hale Waihona Puke ( ) iS 总 ( y
1 i 1
K
y )( y
( ) i
y ) a Ta,
' '
S 类间 n ( y
1
k
( )
y )( y y
( )
( )
判别分析
分类： 1、按判别的组数来分，有两组判别分析和多组判别分析 2、按区分不同总体所用的数学模型来分，有线性判别和非线性判别 3、按判别对所处理的变量方法不同有逐步判别、序贯判别。 4、按判别准则来分，有费歇尔判别准则、贝叶斯判别准则
判别分析
判别分析和前面的聚类分析有什么不同呢？主要不同点就是，在聚类分析中一般人们事先并不知道或一定要明确应该分成几类，完全根据数据来确定。而在判别分析中，至少有一个已经明确知道类别的“训练样本”，利用这个数据，就可以建立判别准则，并通过预测变量来为未知类别的观测值进行判别了。
费歇尔判别法
费歇尔判别方法是历史上最早提出的判别方法之一，也叫线性判别法费歇尔判别的思想是通过将多维数据投影到某个方向上，投影的原则是将类与类之间尽可能的分开，然后再选择合适的判别准则，将待判的样本进行分类判别。
费歇尔判别法
一、判别原理设有k个总体G1,G2,…,Gk,每类中含有样本数分别为n1,n2,…,nk 假定所建立的判别函数为
ax ax (k ) ax ax (l )
则x属于第k组
逐步判别分析
一、逐步判别原理逐步判别分析从模型没有变量开始，每一步都对模型进行检验，把模型外对模型的判别力贡献最大的变量加到模型中，同时考虑已经在模型中但又不符合留在模型中条件的变量从模型中剔除。

spss判别分析

判别的思想

判别分析：根据一批分类明确的样本在若干指标上的观察值，建立一个关于指标的判别函数和判别准则，然后根据这个判别函数和判别准则对新的样本进行分类，并且根据回代判别的准确率评估它的实用性。

判别函数(discriminant function)：指的是一个关于指标变量的函数。每一个样本在指标变量上的观察值代入判别函数后可以得到一个确定的函数值。
2、判别方法
SPSS系统提供的判别方法有马氏距离判别法、贝叶斯概率判别法以及费氏多类判别模型法。 ⑴马氏(Mahalamobis)距离判别法马氏距离判别法的思想就是建立马氏距离，当被判断个案距离哪个总体中的马氏距离最小，该个案就隶属于这个总体。假定有A、B两个总体，则： X∈A 若d(x,A)<d(x,B) X∈B 若d(x,A)>d(x,B) 待判若d(x,A)=d(x,B)
从聚类方法的选择上

1、看数据的类型，如果参与分类的变量是连续变量，层次聚类法、K-均值聚类法、以及两步聚类法都是适用的。如果变量中包括离散变量(计数变量)，则需要将先对离散变量进行连续化处理。当数据量较少时(比如小于100)，两种方法都可以选用，当数据量较多时(比如大于1000)，则应该考虑选用K-均值聚类法 2、要看分类的对象。如果是对样本分类，两种方法都可用；如果是对变量分类则应选择层次聚类法 (至少SPSS的程序是这样)
注意对分类结果的检验
分类结果是否合理取决于它是否 “有用”，但分类结果是否可靠和稳定，则需要反复聚类和比较。一般来说，在所分的类别中，各类所包含的对象(样本或变量)的数量应该大致相当。至少这从表面上看更漂亮一些。
问题
1、什么时候用快速聚类？ 2、什么时候用分层聚类？

SPSS数据分析实用教程13 判别分析

SPSS数据分析教程
—《SPSS数据分析教程》
第13章判别分析
本章要求

了解判别分析的基本概念；掌握判别分析的应用范围；了解判别分析的应用条件和限制；了解Fisher判别分析法和Mahalanobis判别分析法；掌握SPSS判别分析的应用。
13.1 判别分析简介

在科学试验、疾病诊断、考古、地质勘探、天气预报、社会调查、植物分类等工作中，往往要对当前研究的对象与以前已经得到的资料或者知识进行比较，以便获知该对象是否是我们已经掌握的对象中的某一种。例如：
“统计量（S）”选项，
分类选择
保存选项
组统计量
组统计量
有效的 N（列表状态）
Response 0 Months
均值 12.73
标准差 8.107
未加权的 917
已加权的 917.000
Artbooks
.33
.607
917
917.000
1
Months
9.41
5.951
83
83.000
Artbooks
马式距离判别法:2个总体

利用待判断的个体到各个总体的马式距离的远近来判断其归属。用表示总体1，其均值 1和协方差矩阵V1已知；用表示总体2，其均值 2和协方差矩阵V2 已知。
马氏距离法判别规则
如果，则X 被归为类 G1，否则X归为类 G2
逐步判别分析(Step wise)

一般应用Box检验来对各个类别的协方差矩阵是否相等进行检验。Box检验的统计量如下：

当分组协方差矩阵相等或者近似时，B等于或者接近为0

判别分析方法与SPSS分析

F 0.67 x 0.266 x 0.672 x 0.115x
* 1 * 2 * 3
* 4
典型判别函rix Function 1 短期支付能力（流动资产 /流动负债）总负债率（现金收益 /总负债）收益性指标（纯收入 /总财产）生产效率性指标（流动资产 /纯销售额） .846 .751 .255 .031
关于逐步判别的选项。
下面来观察输出结果
一、首先做全模型要求：所有本来均进入；先验概率相等；输出判别函数；做交叉核实；画分类散点地图；保存后验概率，判类结果和判别函数得分。
标准化的典型变量的函数
Standardized Canonical Discriminant Function Coefficients Function 1 总负债率（现金收益 /总负债）收益性指标（纯收入 /总财产）短期支付能力（流动资产 /流动负债）生产效率性指标（流动资产 /纯销售额） .670 -.266 .672 -.115
关于协方差矩阵的要求。
第五步：选择判类的一些前提条件和输出。
Prior—对先验概率的要求，上一个选项是先验概率相等，后一个是以样本的频率为先验概率； Display－对输出数据的要求。Casewise result——所有个案的结果； Summary table——判别结果的表格； Leave-out-classification——交叉核实。 Use Covariance—利用什么矩阵计算判别函数。组内的协方差矩阵，还是分组协方差矩阵； Plot—对典型变量进行分组，画直方图。分类区域散点图。

判别分析的SPSS实现

●Smallest F ratio.使任何两类间的最小的F值最大化法.
●Rao' V 使 RaoV统计量最大化.可以对一个要加入到模型中的变量的V值指定一个最小增量.选择此种方法后,应该在该项下面的"V to dntce'"后的矩形框中输这个增量的指定值.
②选择逐步判别停止的判据
选择逐步判别停止的判据在criteria组的矩形框中进行.可供选择的判据有：
Indepents对话框
数据变量输入框
数据判别分析
完成前面四步骤的操作即可使用各种系统默认值对工作数据集的数据进行判别分析了.可以使用的方法有两种： 1直接运行：在主对话框中按用鼠标单击"Ok"按钮
2生成SPSS命令程序后再运行：在主对话框中按"Paste"按钮, 激活"Syntax"窗,在该窗中按"Run"按钮执行该语句窗中的程序.
运行带有选择项的判别分析过程
运行Descriminant过程有两种方法： 1在主对话框中按"Ok"按钮,直接运行Descriminant过程. 2 在主对话框中按 "Paste" 按钮 , 将以上操作结果转换成 Descriminant过程的命令程序,显示在"Syntax"窗中.
5缺失值处理方式在classification子对话框的最下面有一
个选择项,用以选择对缺失值的处理方法.
Replace missing value with mean用该变量的均值代替缺失值.该选择项前面的小矩形框中出现"x"时表示选定所示的处理方法. 以上五项都给予了确定的选择后,单击"continue"按钮,返回主对话框.

判别分析方法与SPSS

判别分析方法与SPSS判别分析（Discriminant Analysis）是一种常用的统计方法，用于分析两个或多个已知样本分类的特征，确定如何将新样本分配到已知分类中的方法。

该方法通常用于判别样本的所属类别或进行预测分类，并且可以应用于多个学科领域，如市场研究、医学、生物学等。

SPSS（Statistical Package for the Social Sciences）是一种常用的统计软件，广泛应用于社会科学领域的数据分析。

SPSS提供了丰富的统计方法和数据分析工具，包括描述统计、相关分析、回归分析等，同时也提供了判别分析方法。

在SPSS中，进行判别分析需要先导入数据集并选择“分类”方法。

在分类方法中，可以选择“线性鉴别法”或者“二次鉴别法”，通常选择线性鉴别法。

选择线性鉴别法后，可以选择“反向排序”和“选择必备输入变量”。

反向排序是指将判别函数的变量排序方式从最大向最小递减排序的方式转变为最小向最大递增排序。

选择必备输入变量是指程序会自动选择在判别分析中具有最大判别力的变量。

在SPSS中执行判别分析后，可以得到一些结果，其中最重要的是判别函数。

判别函数用于预测未知样本的类别，可以提供样本的判别得分，判别得分越高表示属于该类别的可能性越大。

判别分析的结果也包括统计指标，如Wilks' Lambda、标准化判别函数系数等。

Wilks' Lambda是判别分析的一个重要统计量，用于衡量所有判别函数的总效应，其值介于0和1之间，越接近0表示判别函数越有效。

标准化判别函数系数用于表示各个变量对判别函数的贡献，系数绝对值越大表示对判别函数的影响越大。

总之，判别分析是一种常用的统计方法，可用于分类和预测。

SPSS 是一种常用的统计软件，提供了判别分析方法和相关的数据分析工具，可以方便地进行判别分析并解释结果。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

4/35
判别分析内容很丰富，方法很多。判断分析按判别的总体
数来区分，有两个总体判别分析和多总体判别分析；按区分不同总体所用的数学模型来分，有线性判别和非线性判别；按判别时所处理的变量方法不同，有逐步判别和序贯判别等。判别分析可以从不同角度提出问题，因此有不同的判别准则，如马氏距离最小准则、Fisher准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等，按判别准则的不同又提出多种判别方法。本章仅介绍常用的几种判别分析方法：距离判别法、Fisher判别法、Bayes判别法和逐步判别法。
X2
7.44 6.34 9.24 13.45 23.03 6.24 4.22 10.08 25.74 11.2 5.41 3.02 15.02 25.03 2.01 6.66 7.33 6.22 15.36
X3
1.12 1.08 1.04 1.43 2.83 1.18 1.06 2.32 4.06 6.07 0.07 0.09 1.08 2.11 0.07 1.08 1.11 1.12 1.07
的概率分别为 q1 , q 2 ,,q k （先验概率） qi 0 ，，
q
i 1
k
i
1。
假设已知若将本来属于 Gi 总体的样品错判到总体 G j 时造成的损失为 C ( j | i) ， i, j 1,2,, k 。在这样的情形下，对于新的样品 X 判断其来自哪个总体。
14/35
这样我们将会发现，判别分析问题实质上就是在某种意义
上，以最优的性质对p维空间R p构造一个“划分”，这个 “划分”就构成了一个判别规则。这一思想将在后面的各节中体现的更加清楚。
第三节贝叶斯（Bayes）判别法
11/35
一 Bayes判别的基本思想
二 Bayes判别的基本方法
12/35
从上节看距离判别法虽然简单，便于使用。但是该方法也有
第五节实例分析与计算机实现
这一节我们利用SPSS对Fisher判别法和Bayes判别法进行计
18/35
算机实现。为研究某地区人口死亡状况，已按某种方法将15个已知地区样品分为3类，指标含义及原始数据如下。试建立判别函数，并判定另外4个待判地区属于哪类？ X1 ： 0岁组死亡概率 X 2 ：1岁组死亡概率 X 4 ： 55岁组死亡概率 X5 ： 80岁组死亡概率
8/35
2、多个总体的距离判别问题
设有 k 个总体 G1 , G2 ,,G k ，其均值和协方差矩阵分别是问题：
μ1 , μ 2 ,, μ k 和 Σ1 , Σ 2 , , Σ k ，而且 Σ1 Σ 2 Σ k Σ 。对于一个新的样品 X ，要判断它来自哪个总体。
X 3 ： 10岁组死亡概率
X6 ：平均预期寿命
19/35
表4.1 各地区死亡概率表
X1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 待判待判待判待判 34.16 33.06 36.26 40.17 50.06 33.24 32.22 41.15 53.04 38.03 34.03 32.11 44.12 54.17 28.07 50.22 34.64 33.42 44.02
它明显的不足之处。第一，判别方法与总体各自出现的概率的大小无关；第二，判别方法与错判之后所造成的损失无关。Bayes判别法就是为了解决这些问题而提出的一种判别方法。
一、Bayes判别的基本思想
13/35
问题：设有 k 个总体 G1 , G2 ,,G k ，其各自的分布密度函数
f1 (x), f 2 (x), , f k (x) 互不相同的，假设 k 个总体各自出现
从 k 个总体中抽取具有
17/35
p 个指标的样品观测数据，借助方
差分析的思想构造一个线性判别函数
U ( X) u1 X 1 u2 X 2 u p X p uX
（4.19）
其中系数 u (u1 , u 2 ,, u p ) 确定的原则是使得总体之间区别最大，而使每个总体内部的离差最小。有了线性判别函数后，对于一个新的样品，将它的 p 个指标值代入线性判别函数（4.19）式中求出 U ( X) 值，然后根据判别一定的规则，就可以判别新的样品属于哪个总体。
定义点 X 到总体 G 的马氏距离为
Σ1 ( X μ) (4.3) D ( X, G) ( X μ) 这里应该注意到，当 Σ I （单位矩阵）时，即为欧氏距离
2
的情形。
二、距离判别的思想及方法
1、两个总体的距离判别问题问题：设有协方差矩阵∑相等的两个总体G1和G2，其均值分别是1和 2，对于一个新的样品X，要判断它来自哪个总体。一般的想法是计算新样品X到两个总体的马氏距离D2（X， G1）和D2（X，G2），并按照如下的判别规则进行判断
第四章判别分析
第一节
第二节第三节第四节第五节
1/35
引言
距离判别法贝叶斯（Bayes）判别法费歇（Fisher）判别法实例分析与计算机实现
第一节
引言
2/35
在我们的日常生活和工作实践中，常常会遇到判别分析问题，
即根据历史上划分类别的有关资料和某种最优准则，确定一种判别方法，判定一个新的样本归属哪一类。例如，某医院有部分患有肺炎、肝炎、冠心病、糖尿病等病人的资料，记录了每个患者若干项症状指标数据。现在想利用现有的这些资料找出一种方法，使得对于一个新的病人，当测得这些症状指标数据时，能够判定其患有哪种病。又如，在天气预报中，我们有一段较长时间关于某地区每天气象的记录资料（晴阴雨、气温、气压、湿度等），现在想建立一种用连续五天的气象资料来预报第六天是什么天气的方法。这些问题都可以应用判别分析方法予以解决。
h j (x) qi C ( j | i ) f i (x))
i 1
k
j 1,2,, k
（4.16）
然后再比较这 k 个误判平均损失 h1 (x), h2 (x), , hk (x) 的大小，选取其中最小的，则判定样品 X 来自该总体。
第四节费歇（Fisher）判别法
15/35
该问题与两个总体的距离判别问题的解决思想一样。计算新样品 X 到每一个总体的距离，即
D 2 ( X, G ) ( X μ )Σ1 ( X μ )
XΣ 1X 2μ Σ 1X μ Σ 1μ
1
XΣ X 2(I X C ) 1 1 这里 I Σ μ ， C μ Σ 1μ ， 1,2,, k 。 2
Fisher’s：给出Bayes判别函数的系数。（注意：这个选项不是
要给出Fisher判别函数的系数。这个复选框的名字之所以为 Fisher’s，是因为按判别函数值最大的一组进行归类这种思想是由Fisher提出来的。这里极易混淆，请读者注意辨别。） Unstandardized：给出未标准化的Fisher判别函数（即典型判别函数）的系数（SPSS默认给出标准化的Fisher判别函数系数）。
X4
7.87 6.77 8.97 13.88 23.74 22.9 20.7 32.84 34.87 27.84 5.2 3.14 15.15 25.15 3.02 22.54 7.78 22.95 16.45
X5
95.19 94.08 97.3 101.2 112.52 160.01 124.7 172.06 152.03 146.32 90.1 85.15 103.12 110.14 81.22 170.6 95.16 160.31 105.3
7/35
X G1 , X G2 ,
如果如果
D 2 ( X, G1 ) D 2 ( X, G2 ) D ( X, G1 ) D ( X, G2 )
2 2
（4.4）
这个判别规则的等价描述为：求新样品X到G1的距离与到G2
的距离之差，如果其值为正，X属于G2；否则X属于G1。
X6
69.3 69.7 68.8 66.2 63.3 65.4 68.7 65.85 63.5 66.8 69.5 70.8 64.8 63.7 68.3 65.2 69.3 68.3 64.2
类别 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 . . . .
20/35
(一) 操作步骤 1. 在SPSS窗口中选择Analyze→Classify→Discriminate，调出判别分析主界面，将左边的变量列表中的“group”变量选入分组变量中，将—变量选入自变量中，并选择Enter independents together单选按钮，即使用所有自变量进行判别分析。
第二节距离判别法
5/35
一马氏距离的概念
二距离判别的思想及方法
三判别分析的实质
6/35
为此，我们引入一种由印度著名统计学家马哈拉诺比斯
（Mahalanobis, 1936）提出的“马氏距离”的概念。设 X 和 Y 是来自均值向量为 μ ，协方差为 Σ( 0) 的总体 G 中的 p 维样本，则总体 G 内两点 X 与 Y 之间的马氏距离定义为 (4.2) D2 (X, Y) (X Y)Σ1 ( X Y)
这样，我们以 Bayes 判别的思想得到的划分 R ( R1 , R2 ,, Rk )
为
Ri {x | hi ( x) min h j ( x)}
1 j k
i 1,2,, k
（4.15）
具体说来，当抽取了一个未知总体的样本值 X ，要判断它属于哪个总体，只要前计算出 k 个按先验分布加权的误判平均损失
22/35
单击Continue按钮，返回主界面。