解读SPSS判别分析的计算过程

相关主题

spss进行判别分析步骤

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Total
Total
N 9 0 0
0
0 9
Percent 100.0 .0 .0
.0
.0 100.0
案例处理汇总分析，反映的是有效样本量和变量缺失的情况。本案例有效观测量为９个，没
有缺失值。
a2b 各组统计量描述
group 1.00 x1
x2 2.00 x1
x2 3.00 x1
x2 Total x1
⎦
=
1 2
⎡⎛ ⎢⎜ ⎣⎝
1 −2
−2 4
⎞ ⎟ ⎠
+
⎛ ⎜ ⎝
1 0
0 0
⎞ ⎟ ⎠
+
⎛ ⎜ ⎝
0 0
0⎞⎤
4
⎟⎥ ⎠⎦
=
1 2
⎛ ⎜ ⎝
2 −2
−2 8
⎞ ⎟ ⎠
=
⎛ ⎜ ⎝
1 −1
−1⎞
4
⎟ ⎠
其余各组内方差矩阵计算同上。在计算总体协方差矩阵时要使用总体均值向量。如果想省事也可以用 Bivariate 过程直接验证。
Valid N (listwise)
Unweighted Weighted
3
3.000
3
3.000
3
3.000
3
3.000
3
3.000
3
3.000
9
9.000
9
9.000
Group Statistics 是各组和总体的每个变量的描述统计分析。其中值得关注的是均值一栏，它是后面计算的基础
第 5 页，共 26 页
本问题假设各组协方差相等。所以各组标准差不应该有很大的变化。用图型方式来观察，可以看出，各组的均值差异较大，但各组的方差相同。
5
4
3
3
2
1
0
-1
x1
x2
-2
-1 组一
-3
平均值 4
1
x1
x2
组二
0
x1
x2
组三 -2
可以看出 x1 在各组的差异不如 x2 在各组的差异。
2.5 2
2 1.5
1 1
0.5
各组内协方差矩阵及其行列式的自然对数。在多组模型中，行列式自然对数值提供各组间协方差矩阵差别的度量。秩是行或列中线性独立的最大数。
第 9 页，共 26 页
本例中，三组行列式的自然对数值相同，意味着三组协方差阵相同。
一、数据整理
为了便于验证，考虑 g=3 个总体，每个总体容量为 ni =3 个样品，p=2 个变量的观测值。
假定总体有相同的协方差矩阵 Σ ，先验概率分别为 p1 = 0.25, p2 = 0.25, p3 = 0.50 。利用 SPSS
的判别分析过程来求得费歇尔判别函数得分和贝叶斯的分类函数得分。
现行介绍判别分析方法中，常常见到的有距离判别法，费歇尔判别法，贝叶斯判别法。这三种方法各有各的产生背景，有不同的使用条件，它们有一个共同的特点就是计算量巨大，以至于靠手算无法进行。为此现在主流统计软件都把判别分析作为一个专用模块来开发，但由于软件产生的只是结果，对于判别分析的整个推理过程涉及很少，不利于初次接触判别分析的人士学习，所以本文准备从具体的计算过程入手，详细解读 SPSS 产生的过程，使得学习者能够做到知其然而知其所以然。
在各组间差异显著。
具体数字可由ONE-AVONA过程得来。对x1来讲，其Wilks' lambda值为6/12=0.5，对x2来讲其Wilks' lambda值为24/86=0.279。F 统计量的第一个自由度df1=g-1=3-1=2,第二个自由度 df2=n-g=9-3=6。概率值可用SPSS的Sig.F 函数计算，利用COMPUTE p1 = SIG.F(3,2,6) . 语句，即可得到其值为0.125 ； COMPUTE p2 = SIG.F(7.75,2,6) .得到其值为0.022 。
5
−
3
⎟ ⎠
+
⎛ ⎜ ⎝
0 −1⎞ 3 − 3⎟⎠
⎛ ⎜ ⎝
0 −1⎞' 3 − 3⎟⎠
+
⎛ −1+1⎞ ⎛ −1+1⎞'
⎜⎝1 + 1
⎟ ⎠
⎜⎝1 +
1
⎟ ⎠
⎤ ⎥ ⎥⎦
=
1 2
⎡⎛ ⎢⎜ ⎣⎝
−1⎞
2
⎟ ⎠
( −1,
2)
+
⎛ ⎜ ⎝
−1⎞
0
⎟ ⎠
( −1,
0)
+
⎛ ⎜ ⎝
0 2
⎞ ⎟ ⎠
(
0,
2)⎤⎥
⎤ ⎦⎥
1 3
⎛ ⎝⎜
5−+2+3+01−1⎞⎠⎟
=
⎛ ⎝⎜
3−1⎞⎟⎠
对组 g=2
和 g=3 的均值向量的解法相同，分别为 x2
=
⎛1
⎜ ⎝
4
⎞ ⎟ ⎠
和x3
=
⎛ ⎜ ⎝
0 −2
⎞ ⎟ ⎠
第 6 页，共 26 页
( ) ( ) ( ) ( ) ( ) 1
总体均值向量为 x = 3
x1+x2 +x3
第 1 页，共 26 页
1．在 SPSS 数据编辑窗口中点选（ Analyze ）中的分类（ Classify ）进行判别分析（Discriminant…）。
2．分析时要选择的分析变量如下：第 2 页，共 26 页
3．点选统计量按钮，选择描述统计量，矩阵及判别函数系数中的所有选项。
Excluded Missing or out-of-range group codes
At least one missing discriminating variable
Both missing or out-of-range group codes and at least one missing discriminating variable
第 7 页，共 26 页
联合组内协方差阵显示一个协方差阵和一个相关矩阵。上半部分是联合组内协方差矩阵，由 3 组的组内协方差阵相加构成。
Sp
=
n
1 −
g
[(n1
−1)S1
+
(n2
− 1) S2
+
(n3
−1)S3 ]
=
9
1 −
3
[2S1
+
2S2
+
2S3 ]
=
2 ⎡⎛ 1
6
⎢⎜ ⎣⎝
−1
−1⎞
4
⎟ ⎠
−1
−1
下半部的联合组内相关矩阵是由联合组内协方差矩阵变换而来的。公式为 R = D 2 S p D 2 ，
−1
S p 为上面的联合组内协方差阵， D 2 为 S p 的对角线元素的平方根的倒数组成的对角矩阵。
−1 如 3 = −0.167
1× 4
此处的联合组内相关矩阵同总体相关矩阵有差异，因为它们依据的转换矩阵不同，一个是依据联合组内协方差阵，一个是依据总协方差阵。
6．点选粘贴按钮，注意红色部分，表示先验概率按照默认方式处理的程序代码。 7．修改后的程序代码
第 4 页，共 26 页
8．点选 Run 下的 All 选项，运行该过程。
二、报表解读
a1b 案例处理汇总分析
Analysis Case Processing Summary
Unweighted Cases Valid
来自总体 π1,π 2和π 3 的随机样本为
⎛ −2 5⎞
π1
:
X1
=
⎜ ⎜⎜⎝
0 −1
3 1
⎟ ⎟⎟⎠
⎛0 6⎞
π 2 : X2 = ⎜⎜⎜⎝12
4 2
⎟ ⎟⎠⎟
⎛ 1 -2⎞
π3
:
X3
=
⎜ ⎜⎜⎝
0 -1
0 -4
⎟ ⎟⎟⎠
n1 = 3
n2 = 3
n3 = 3
将以上数据按照 SPSS 对数据格式的要求录入到 SPSS 的数据编辑窗口。如下图所示：
F 统计量是组间均方与组内均方的比。有两个自由度，分子为 df1 分母为 df2。分子和分母自由度用来得到观测显著性水平。如果显著性水平值很小（比如说小于 0.10）表示组间差异显著。如果显著性水平较大（比如说大于 0.10）表示组间差异不显著。
本例中 x1 的 p 值为 0.125，表明 x1 在各组间的差异不显著，而 x2 的 p 值为 0.022，说明 x2
Box's 协方差矩阵检验
a6b 对数行列式
Log Determinants
group 1.00 2.00 3.00 Pooled within-groups
Rank 2 2 2 2
Log Determinant
1.099 1.099 1.099 1.358
The ranks and natural logarithms of determinants printed are those of the group covariance matrices.
a4b 联合组内协方差矩阵
Pooled Within-Groups Matricesa
Covariance x1
x1 1.000
x2 -.333
x2
-.333
4.000
Correlation x1
1.000
-.167
x2
-.167
1.000
a. The covariance matrix has 6 degrees of freedom.
=
1 3
⎡ ⎣⎢
−1 3
+
1 4
+
0 −2
⎤ ⎦⎥
=
1 3
⎡ ⎣⎢
−1+1+0 3+4−2
⎤ ⎦⎥
=
⎜⎜⎝⎛⎜053⎟⎟⎠⎞⎟
=
⎜⎝⎛10.667⎟⎠⎞
a b 标准差为 5 中各组协方差矩阵的主对角线方差的平方根。
a3b 各组均值相等检验
Tests of Equality of Group Means
Wilks'
Lambda
F
df1
df2
Sig.
x1
.500
3.000
2
6
.125
wk.baidu.com
x2
.279
7.750
2
6
.022
这张表是预测变量在各组间均值是否相等的假设检验。包含 Wilks' lambda，F 统计量和它的自由度和显著性水平。原假设：x1 在三组中的平均值相同。 x2 在三组中均值相同。
Wilks' lambda 是组内平方和与总平方和的比，值的范围在 0 到 1 之间。值越小表示组间有很大的差异。值接近 1 表示没有组间差异。
a5b 各组协方差矩阵
Covariance Matricesa
group 1.00 x1
x1 1.000
x2 -1.000
x2
-1.000
4.000
2.00 x1
1.000
-1.000
x2
-1.000
4.000
3.00 x1
1.000
1.000
x2
1.000
4.000
Total x1
1.500
.125
第 8 页，共 26 页
∑ 计算方法： Si
=
1 ni −1
ni
( X ij
j =1
−
X i )( X ij
−
X i )'
i=1" g, j = 1"ni
∑ S1
=
1 3−1
3 j =1
( X1j
−
X 1)( X1j
−
X 1)'
=
1 2
⎡⎢⎛⎜ ⎢⎣⎝
−2 +1⎞ ⎛ −2 +1⎞'
5−3
⎟ ⎠
⎜ ⎝
x2
.125
10.750
a. The total covariance matrix has 8 degrees of freedom.
各组内及总体协方差矩阵。总体协方差阵如果乘以自由度 8 便是总体 SSCP 阵。
判别分析的假设之一就是各组协方差阵相同。方差显示在主对角线上，协方差为各组交叉处。使用协方差阵和组内散布图可以帮助确定检验协方差相等的假设。
4．点选分类按钮，将显示和图形中的选项全部选取，先验概率先选择所有组别大小相等，但本问题是三个组别的先验概率不相等，后面用编写程序的方式更改过来。协方差矩阵的选项中选择组内协方差矩阵，因为我们假设三个总体的协方差矩阵相同。
第 3 页，共 26 页
5．点选保存按钮，勾选保存预测的组别，判别得分和各组成员的事后概率三个选项。
x2
Group Statistics
Mean -1.0000 3.0000 1.0000 4.0000
.0000 -2.0000
.0000 1.6667
Std. Deviation 1.00000 2.00000 1.00000 2.00000 1.00000 2.00000 1.22474 3.27872
+
⎛ ⎜ ⎝
1 −1
−1⎞
4
⎟ ⎠
+
⎛1 ⎜⎝1
1 4
⎞⎤ ⎟⎥ ⎠⎦
=
1 3
⎛ ⎜ ⎝
3 −1
−1⎞
12
⎟ ⎠
=
⎛ ⎜ ⎝
1 −0.333
−0.333⎞
4
⎟ ⎠
a b 其中 S1, S2 , S3 分别为 5 各组的协方差阵。注意，SPSS 没有列出组内 SSCP 阵W ，要经
过换算才能能到组内W ，即将上述矩阵乘以自由度 6 便可得到W 。
解读 SPSS 判别分析的计算过程
ITELLIN
在多元统计分析方法中，多元回归分析使用最普遍，几乎到了快要用滥的程度。但回归分析要求因变量和自变量的属性为定距以上的变量，如果这个条件不满足，使用起来比较费劲。在实际工作中，因变量为分类变量，自变量为连续变量的情况比比皆是，如对银行来讲如何辨别良好信用和不良信用的客户，对电信运营商来讲如何辨别大客户，中小客户，对生产企业来讲如何判断新产品的速购者和迟购者等等，这些都是我们经常遇见的问题，判别分析就是解决这类问题的一个优选的统计方法。
0
x1
x2
组一
标准差 2
1
x1
x2
组二
2 1
x1
x2
组三
x1 在各组的标准差相同，x2 在各组的标准差也相同。
计算方法：公式
X
=
1 n
n ∑
i=1
X (i)
x ( ) ( ) ( ) = 对组 g=1：
( ) 1=1 3
X(1) + X( 2) + X(3)
=
1 3
⎡ ⎣⎢
−2 5
+
0 3
+
−1 1