SPSS操作方法：判别分析例题

合集下载

SPSS操作方法：判别分析例题

为研究1991年中国城镇居民月平均收入状况，按标准化欧氏平方距离、离差平方和聚类方法将30个省、市、自治区．分为三种类型。

试建立判别函数，判定广东、西藏分别属于哪个收入类型。

判别指标及原始数据见表9-4。

1991年30个省、市、自治区城镇居民月平均收人数据表单位：元／人 x1：人均生活费收入 x6：人均各种奖金、超额工资(国有+集体) x2：人均国有经济单位职工工资 x7：人均各种津贴(国有+集体)x3：人均来源于国有经济单位标准工资 x8：人均从工作单位得到的其他收入x4：人均集体所有制工资收入 x9：个体劳动者收入5贝叶斯判别的SPSS操作方法：1. 建立数据文件2．单击Analyze→ Classify→ Discriminant，打开Discriminant Analysis 判别分析对话框如图1所示：图1 Discriminant Analysis判别分析对话框3．从对话框左侧的变量列表中选中进行判别分析的有关变量x1~x9进入Independents 框，作为判别分析的基础数据变量。

从对话框左侧的变量列表中选分组变量Group进入Grouping Variable 框，并点击Define Range...钮，在打开的Discriminant Analysis: Define Range对话框中，定义判别原始数据的类别数，由于原始数据分为3类，则在Minimum（最小值）处输入1，在Maximum（最大值）处输入3（见图2）。

选择后点击Continue按钮返回Discriminant Analysis主对话框。

图2 Define Range对话框4、选择分析方法Enter independent together 所有变量全部参与判别分析（系统默认）。

本例选择此项。

Use stepwise method 采用逐步判别法自动筛选变量。

单击该项时Method 按钮激活，打开Stepwise Method对话框如图3所示，从中可进一步选择判别分析方法。

spss教程_13-1(判别分析)

y
( ) i
ax
'
k n
( ) i
, 1,2, k , i 1,2, n ,
Hale Waihona Puke ( ) iS 总 ( y
1 i 1
K
y )( y
( ) i
y ) a Ta,
' '
S 类间 n ( y
1
k
( )
y )( y y
( )
( )
判别分析
分类： 1、按判别的组数来分，有两组判别分析和多组判别分析 2、按区分不同总体所用的数学模型来分，有线性判别和非线性判别 3、按判别对所处理的变量方法不同有逐步判别、序贯判别。 4、按判别准则来分，有费歇尔判别准则、贝叶斯判别准则
判别分析
判别分析和前面的聚类分析有什么不同呢？主要不同点就是，在聚类分析中一般人们事先并不知道或一定要明确应该分成几类，完全根据数据来确定。而在判别分析中，至少有一个已经明确知道类别的“训练样本”，利用这个数据，就可以建立判别准则，并通过预测变量来为未知类别的观测值进行判别了。
费歇尔判别法
费歇尔判别方法是历史上最早提出的判别方法之一，也叫线性判别法费歇尔判别的思想是通过将多维数据投影到某个方向上，投影的原则是将类与类之间尽可能的分开，然后再选择合适的判别准则，将待判的样本进行分类判别。
费歇尔判别法
一、判别原理设有k个总体G1,G2,…,Gk,每类中含有样本数分别为n1,n2,…,nk 假定所建立的判别函数为
ax ax (k ) ax ax (l )
则x属于第k组
逐步判别分析
一、逐步判别原理逐步判别分析从模型没有变量开始，每一步都对模型进行检验，把模型外对模型的判别力贡献最大的变量加到模型中，同时考虑已经在模型中但又不符合留在模型中条件的变量从模型中剔除。

2024版SPSS判别分析方法案例分析

01 查看判别分析的结果输出，包括判别函数系数、结构矩阵、分类结果等。
02 根据输出结果，解读判别分析的结果，如判别函数的贡献、分类准确率等。
03 结合专业知识和实际背景，对结果进行合理解释和讨论。
05
案例分析：某公司客户流失预测模型构建
案例背景及问题描述
01
某大型电信公司面临客户流失问题，需要构建客户流失
04
SPSS判别分析操作过程
导入数据并建立数据集
1
打开SPSS软件，选择“文件”->“打开”>“数据”，导入需要分析的数据文件。
2
在数据视图中检查数据的完整性和准确性，确保数据质量。
3
根据需要，对数据进行预处理，如缺失值处理、异常值处理等。
选择合适的判别分析方法
根据研究目的和数据特点，选择合适的判别分析方法，如线性判别分析、二次判别分析等。
决策树与随机森林
基于贝叶斯定理和多元正态分布假设，通过最大化类间差异和最小化类内差异来建立线性判别函数。适用于正态分布且各类别协方差矩阵相等的情况。
放宽了LDA的假设条件，允许各类别具有不同的协方差矩阵。通过构建二次判别函数进行分类。适用于更一般的数据分布情况。
基于距离度量的方法，将新样本分配给与其最近的K个已知样本中最多的类别。适用于多类别、非线性可分问题。
数据变换与标准化
数据变换
根据分析需求，对数据进行适当的变换，如对数变换、平方根变换等，以改善数据的分布形态或满足分析要求。
数据标准化
对数据进行标准化处理，消除量纲和数量级的影响，使不同变量具有可比性。常用的标准化方法包括Z分数标准化、最小最大标准化等。
数据离散化

SPSS操作方法：判别分析例题

1991 年 30 个省、市、自治区城镇居民月平均收人数据表
x2：人均国有经济单位职工工资
x3：人均来源于国有经济单位标准工资
x4：人均集体所有制工资收入
x5：人均集体所有制职工标准工资
样品序地区 x1
类号序
G1 6 7
G2 6 7
G3 1
1号北京 170.03 110.2
2
3
4
5
8
9
天津 141.55 82.58
1
2
3
4
5
8
9
山西 102.49 71.72
内蒙古 106.14 7
黑龙江 103.34 62.99
江西 98.089 69.45
河南 104.12 72.23 贵州 108.49 80.79
陕西 113.99 75.6
甘肃 114.06 84.31
实验指导之二
判别分析的 SPSS 软件的基本操作
[实验例题] 为研究 1991 年中国城镇居民月平均收入状况，按标准化欧氏平方
距离、离差平方和聚类方法将 30 个省、市、自治区．分为三种类型。试建立判
别函数，判定广东、西藏分别属于哪个收入类型。判别指标及原始数据见表 9-
4。
人
x1：人均生活费收入体)
10 青海 108.80 80.41
11 宁夏 115.96 88.2l
辽宁 128.46 68.91
x2
x3
59.76 50.98 53.39 60.24 52.30 53.02 48.18 45.60 50.13 50.57 69.70 47.72 46.19 44.60 42.95 43.04 47.31 47.52 50.88 52.78 50.45 51.85 43.4l

SPSS数据的判别分析

短期支付能力 1.09 1.51 1.01 1.45 1.56 .71 .22 1.31 2.15 1.19 1.88 1.99 1.51 1.68 1.26 1.14 1.27 2.49 2.01
5 zf
生产效率指标 .45 .16 .40 .26 .67 .28 .18 .25 .70 .66 .27 .38 .42 .95 .60 .17 .51 .54 .53
（2）各组变量的协方差矩阵相等。在此假设下，可以使用很简单的公式计算判别函数和进行显著性检验。
（3）各判别变量之间具有多元正态分布，即每个变量对于所有其他变量的固定值有正态分布。在此条件下，可精确计算显著性检验值和分组归属的概率。
2023/5/3
11
zf
➢ 三、判别分析方法
距离判别本专题将介绍的方法有费贝歇叶尔斯判判别别
判别分析 (Discriminate Analysis)
知识要点：
1、什么是判别分析？ 2、理解距离判别、Bayes判别以及Fisher判别的基本思想 3、结合SPSS软件进行案例分析 4、判别分析的应用（※※）
zf
判别分析的应用
医学：
例1：在医学诊断中，一个病人肺部有阴影，医生要判断他患的是肺结核、肺部良性肿瘤还是肺癌？肺结核病人、肺部良性肿瘤病人、肺癌病人组成三个总体，病人来自其中一个总体，可通过病人的指标（阴影大小、边缘是否光滑等）用判别分析判断他来自哪个总体（即判断他患的什么病？）
逐步判别
2023/5/3
12
zf
距离判别
❖ 首先根据已知分类的数据，分别计算各类的重心即各组（类）的均值，判别的准则是对任给样品，计算它到各类平均数的距离，哪个距离最小就将它判归哪个类。

判别分析的SPSS实现

第五节判别分析判别分析是根据观察或测量到的若干变量值，判断研究对象如何分类的方法。

判别函数一般形式是：F1= a i1x1+a i2x2+a i3x3．．．+a in x nF2= a i1x1+a i2x2+a i3x3．．．+a in x n: :F m= a m1x1+a m2x2+a m3x 3．．．+a mn x nSPSS提供的判别分析过程是Discriminant过程。

【例3-9】浙江北部地区1950~1982年小麦赤霉病发生程度与气象因子研究，总结出上年12月降雨量（x1）、上年10月下旬至11月中旬和当年1~2月总降雨（x2）、上年10月下旬至11月上旬日照时数（x3）、上年10月下旬至12月中旬和当年2月总雨量（x4）以及当年3月中旬平均温度（x5）等5个因子，并将赤霉病情分为轻中重三级（y，分别用1、2、3表示）。

用这些数据建立气象因子与小麦赤霉病发生程度的判别模型。

年份x1x2x3x4x5y195014.3107.3140.0105.3 6.91 195146.5129.1154.191.311.91 195243.0143.183.9157.413.02 195371.2280.582.5317.413.93 1954.769.3145.669.511.31 1955123.9297.364.6307.213.73 195685.4115.439.4144.711.11 195738.477.394.6143.213.92 195879.696.885.499.09.62 195933.474.7129.5103.49.91 196048.195.9155.392.010.511955123.9297.364.6307.213.73 195685.4115.439.4144.711.11 195738.477.394.6143.213.92 195879.696.885.499.09.62 195933.474.7129.5103.49.91 196048.195.9155.392.010.51 19617.7116.3158.2148.115.11 19628.9225.3104.2195.513.81 196334.8150.7165.0124.611.91 196444.4147.288.3158.712.72 196574.2232.794.1154.613.53 1966.180.9148.881.311.01 1967119.6208.070.9217.813.83 196894.0130.249.2176.211.02 196932.983.6115.3135.713.82 197065.588.1126.9102.59.71 197131.359.3105.182.910.01 197252.393.3173.791.210.01 19737.298.2154.3120.715.01 1974 5.3245.8100.4200.213.711准备分析数据在SPSS数据管理窗口，定义变量名x1、x2、x3、x4、x5、y分别表示表中对应变量。

spss判别分析(PPT)

第9章判别分析判别分析是一种常用的统计分析方法。

判别分析是根据观察或测量到若干变量值，判断研究对象如何分类的方法。

例如，我们积累了某种病虫害各种发生状态的若干历史资料样本），希望从中总结出分类的规律性（即判别公式，在以后的工作中遇到新的发生状态（样本）时。

只要根据总结出来的判别公式判断它所属的类就行了。

动物、植物分类等都可以用判别分析来解决。

　进行判别分析必须已知观测对象的分类和若干表明观测对象特征的变量值。

判别分析就是要从中筛选出能提供较多信息的变量并建立判别函数，使得利用推导出的判别函数对观测量判别其所属类别时的错判率最小。

　判别函数一般形式是：　Y = a1X1+a2X2+a3X3．．．+a n X n其中：　Ｙ为判别分数（判别值）；Ｘ１，Ｘ２，Ｘ３：…Ｘｎ为反映研究对象特征的变量，ａ１、ａ２、ａ３…ａｎ为各变量的系数，也称判别系数。

可以看出我们这里所讲的是线性判别函数。

　SPSS 对于分为m类的研究对象，建立m个线性判别函数。

对于每个个体进行判别时，把测试的各变量值代入判别函数，得出判别分数，从而确定该个体属于哪一类。

或者计算属于各类的概率，从而判断该个体属于哪—类。

还可建立标准化和未标准化的典则判别函数。

ＳＰＳＳ提供的判别分析过程是Ｄｉｓｃｒｉｍｉｎａｎｔ过程。

　[例子9-1]表9-1 浙江北部地区1950~1982年小麦赤霉病发生程度与气象因子数据表X1 X2 X3 X4 X5 y14.3 107.3 140.0 105.3 6.9 146.5 129.1 154.1 91.3 11.9 143.0 143.1 83.9 157.4 13.0 271.2 280.5 82.5 317.4 13.9 3.7 69.3 145.6 69.5 11.3 1123.9 297.3 64.6 307.2 13.7 385.4 115.4 39.4 144.7 11.1 138.4 77.3 94.6 143.2 13.9 279.6 96.8 85.4 99.0 9.6 233.4 74.7 129.5 103.4 9.9 148.1 95.9 155.3 92.0 10.5 17.7 116.3 158.2 148.1 15.1 18.9 225.3 104.2 195.5 13.8 134.8 150.7 165.0 124.6 11.9 144.4 147.2 88.3 158.7 12.7 274.2 232.7 94.1 154.6 13.5 3.1 80.9 148.8 81.3 11.0 1119.6 208.0 70.9 217.8 13.8 394.0 130.2 49.2 176.2 11.0 232.9 83.6 115.3 135.7 13.8 265.5 88.1 126.9 102.5 9.7 131.3 59.3 105.1 82.9 10.0 152.3 93.3 173.7 91.2 10.0 17.2 98.2 154.3 120.7 15.0 15.3 245.8 100.4 200.2 13.7 1128129浙江北部地区1950~1982年小麦赤霉病发生程度与气象因子研究，总结出上年12月将与（x1）、上年10月下旬至11月中旬和当年1~2月总降雨（x2）、上年10月下旬至11月上旬日照时数（x3）、上年10月下旬至12月中旬和当年2月总雨量（x4）以及当年3月中旬平均高文（x5）等5个因子，并将赤霉病情分为轻中重三级（y ，分别用1、2、3表示）。

专题16用SPSS进行判别分析

专题16 用SPSS进行判别分析1 用默认方法作判别分析2 选项的设置简介1 用默认方法作判别分析用默认方法作判别分析，可按如下步骤进行。

①建立或读入数据文件在数据窗中输入待分析的数据，或利用File菜单中的Open功能打开已存在的数据文件。

②展开主对话框在SPSS主界面中依次逐层选择“Analyze”、“Classify”、“Discriminant”，展开判别分析主对话框（如图）。

③选择分类变量及其取值范围在如图14.1的主对话框左边的矩形框中选定分类变量，并用上面一个箭头按钮将其移到“Grouping Variable”框中。

然后用其下面的“Define Range”按钮打开如图14.2的对话框。

分别在“Minimum”和“Maximum”后面的矩形框中键入分类变量的最大值与最小值，然后按“Continue”按钮返回主对话框。

分类变量须是数值型的，其值必须是整数，每个值代表一类，如１代表健将、２代表一级运动员、３代表二级运动员。

④选择判别变量在主对话框左边的矩形框中选择判别变量，并用下面一个箭头按钮将它们移到“Independents”矩形框中。

⑤选择是否作逐步判别若不用逐步判别筛选变量，在主对话框中选择“Enter independents together”。

若作逐步判别，则选择“Use stepwise method”。

⑥运行程序检查所选变量是否有误，若选择有误，则选定错误变量，用边上的箭头按钮将其移出。

若变量选择无误，按“OK”按钮即可运行程序。

返回2 选项的设置简介①在主对话框中单击“Statistics”按钮可以打开选择输出统计量的对话框。

●选定“Means”可得到各类的均数、标准差等统计量●选定“Univariate ANOVAs”可得到各单变量的方差分析●选定“Box’s M”可得到各类协差阵相等性的Box检验●选择“Fisher’s”可得到费歇的线性分类函数●选定“Unstandardized”可以得到非标准化的典型判别函数系数●选定“Within-groups covariance”可以得到合并组内协差阵。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

为研究1991年中国城镇居民月平均收入状况，按标准化欧氏平方距离、离差平方和聚类方法将30个省、市、自治区．分为三种类型。

试建立判别函数，判定广东、西藏分别属于哪个收入类型。

判别指标及原始数据见表9-4。

选择后点击Continue按钮返回Discriminant Analysis主对话框。

图2 Define Range对话框4、选择分析方法✧Enter independent together 所有变量全部参与判别分析（系统默认）。

本例选择此项。

✧Use stepwise method 采用逐步判别法自动筛选变量。

单击该项时Method 按钮激活，打开Stepwise Method对话框如图3所示，从中可进一步选择判别分析方法。

图3 Stepwise Method对话框✧Method栏，选择变量的统计量方法Wilks’lambda （默认）按统计量Wilks λ最小值选择变量；Unexplained variance ：按照所有组方差之和最小值选择变量；Mahalanobis’distance：按照相邻两组的最大马氏距离选择变量；Smallest F ratio：按组间最小F值比的最大值选择变量；Rao’s V按照统计量Rao V最大值选择变量。

✧Criteria 选择逐步回归的标准（略）选择系统默认项。

5.单击Statistics 按钮，打开Statistics对话框如图4所示，从中指定输出的统计量。

✧Descriptives描述统计量栏Means -各类中各自变量的均值，标准差std Dev 和各自变量总样本的均值和标准差（本例选择）。

Univariate ANOV----对各类中同一自变量均值都相等的假设进行检验，输出单变量的方差分析结果（本例选择）。

Box’s M --对各类的协方差矩阵相等的假设进行检验（本例选择）。

图4 Statistics对话框✧Function coefficients 选择输出判别函数系数Fisherh’s 给出贝叶斯判别函数系数（本例选择）Unstandardized 给出未标准化的典型判别（也称典则判别）系数（费舍尔判别函数）。

✧Matrices 栏选择给出的自变量系数矩阵Within-groups correlation 合并类内相关系数矩阵（本例选择）Within-groups covariance 合并类内协方差矩阵（本例选择）Separate-groups covariance 各类内协方差矩阵（本例选择）Total covariance 总协方差矩阵（本例选择）6.单击Classify按钮，打开Classify对话框如图5所示：图5 Classify对话框✧Prior Probabilities栏，选择先验概率。

All groups equal 各类先验概率相等（系统默认）；Compute from groups sizes 各类的先验概率与其样本量成正比. （本例选择）✧Use Covariance Matrix 栏，选择使用的协方差矩阵Within-groups --使用合并类内协方差矩阵进行分类（系统默认）（本例选择）Separate-groups --使用各类协方差矩阵进行分类✧Display栏，选择生成到输出窗口中的分类结果Casewise results 输出每个观测量包括判别分数实际类预测类(根据判别函数求得的分类结果)和后验概率等。

Summary table 输出分类的小结给出正确分类观测量数(原始类和根据判别函数计算的预测类相同)和错分观测量数和错分率（本例选择）。

Leave-one-out classification 输出交互验证结果。

✧Plots栏，要求输出的统计图Combined-groups 生成一张包括各类的散点图（本例选择）；Separate-groups 每类生成一个散点图；Territorial map 根据生成的函数值把各观测值分到各组的区域图。

（本例选择）6.单击Save 按钮，打开Save对话框，见图6.图6 Save对话框✧Predicted group membership 建立一个新变量，系统根据判别分数，把观测量按后验概率最大指派所属的类；（本例选择）✧Discriminant score 建立表明判别得分的新变量，该得分是由未标准化的典则判别函数计算。

（本例选择）Probabilities of group membership 建立新变量表明观测量属于某一类的概率。

有m 类，对一个观测量就会给出m 个概率值，因此建立m 个新变量。

（本例选择）全部选择完成后，点击OK，得到输出结果如下：Analysis Case Processing Summary 分类样本综述Group Statistics 各类统计分析Tests of Equality of Group Means每个变量各类均值相等的检验Pooled Within-Groups Matrices(a) 合并类内协方差阵和相关矩阵a The covariance matrix has 25 degrees of freedom.Covariance Matrices(a)类内协方差矩阵和总协方差阵3 人均生活费收入(元/人）292.972 38.451 14.013 37.178 13.567 78.758 -8.776 29.547 16.466人均国有经济单位职工工资38.451 36.758 2.665-13.73-14.286 16.990 19.297 3.658 4.120人均来源于国有经济单位标准工资14.013 2.665 .843 1.649 .400 4.905 -.783 1.806 .732人均集体所有制工资收入37.178 -13.730 1.649 16.731 11.802 8.488 -15.180 5.753 .532人均集体所有制职工标准工资13.567 -14.286 .400 11.802 9.278 1.340 -11.632 3.026 -.549人均各种奖金、超额工资(国有+集体)78.758 16.990 4.905 8.488 1.340 29.089 -3.967 10.556 4.171人均各种津贴(国有+集体) -8.776 19.297 -.783-15.18-11.632 -3.967 18.898 -2.998 1.312均从工作单位得到的其他收入29.547 3.658 1.806 5.753 3.026 10.556 -2.998 7.891 .680 个体劳动者收入16.466 4.120 .732 .532 -.549 4.171 1.312 .680 1.246To ta l人均生活费收入(元/人）493.973 182.382 51.722 40.606 15.154 123.390 24.245 39.841 1.513人均国有经济单位职工工资182.382 146.169 52.685-20.328-19.362 40.532 42.118 11.447 2.648人均来源于国有经济单位标准工资51.722 52.685 37.092-12.222-7.958 7.157 5.158 -.595 -.133人均集体所有制工资收入40.606 -20.328 -12.222 28.788 18.414 15.043 -11.572 5.872 -.720 人均集体所有制职工标准工资15.154 -19.362 -7.958 18.414 12.542 6.755 -10.523 2.711 -1.031 人均各种奖金、超额工资(国有+集体)123.390 40.532 7.157 15.043 6.755 37.318 1.737 13.194 .106 人均各种津贴(国有+集体)24.245 42.118 5.158-11.572-10.523 1.737 30.703 .708 2.548 均从工作单位得到的其他收入39.841 11.447 -.595 5.872 2.711 13.194 .708 8.911 .335 个体劳动者收入 1.513 2.648 -.133 -.720 -1.031 .106 2.548 .335 1.603a The total covariance matrix has 27 degrees of freedom.Box's Test of Equality of Covariance Matrices 协方差矩阵相等的检验 Log DeterminantsThe ranks and natural logarithms of determinants printed are those of the group covariance matrices.a Rank < 6b Too few cases to be non-singularTest Results(a)检验结果Tests null hypothesis of equal population covariance matrices.a Some covariance matrices are singular and the usual procedure will not work. The non-singular groups will be tested against their own pooled within-groups covariance matrix. The log of its determinant is 17.611.注意，检验没有通过，即各类的协方差相等的假设在显著性水平下是不成立的。