SPSS软件中对应分析

对应分析

当A 与B 的取值较少时,把所得的数据放在一张列联表中,就可以很直观的对A 与B 之间及它们的各种取值之间的相关性作出判断,当ij P 较大时,则说明属性变量A 的第i 状态与B 的第j 状态之间有较强的依赖关系.但是,当A 或者B 的取值比较多时,就很难正确的作出判断,此时就需要利用降维的思想简化列联表的结构.

几个基本定义:

我们此处讨论因素A 有n 个水平，因素B 有p 个水平。行剖面：当变量A 的取值固定为i 时（i=1，2，…，n ），变量B 的各个状态相对出现的概率情况，即：可以方便的把第i 行表示成在p 维欧氏空间中的一个点，其坐标为：

)

,,,(..2

.1i ip i i i i r

p p p p p p p = ，i=1，2，… , n ,

实际上，该坐标可以看成p 维超平面121=+++p x x x 上的点。记n 个行剖面的集合为n(r)。

由于列联表行与列的地位是对等的，由上面行剖面的定义方法，可以很容易的定义列剖面。列剖面：

)

,,,(..2.1j nj

j j j j c

p p p p p p p = ，j=1，2，… , p,

实际上，该坐标可以看成n 维超平面121=+++n x x x 上的点。记p 个列剖面的集合为p(c)。

定义了行剖面和列剖面之后，我们看到属性变量A 的各个取值情况可以用p 维空间的n 个点来表示，而B 的不同取值情况可以用n 维空间上的p 个点来表示。而对应分析就是利用降维思想，把A 的各个状态表现在一张二维图上，又把B 的各个状态表现在一张二维图上，且通过后面的分析可以看到，这两张二维图的坐标有着相同的含义，即可以把A 的各个取值与B 的各个取值同时在一张二维图上表示出来。距离：

通过行剖面与列剖面的定义，A 的不同取值可以利用P 维空间中

的不同点表示，各个点的坐标分别为r

i P （i=1，2，…，n ）。而B

的不同取值可以用n 维空间中的不同点表示，各个点的坐标分别

为c

j P （j=1，2，…，p ）。对此，就可以引入距离概念来分别描

述A 的各个状态之间与B 的各个状态之间的接近程度。定义A 的第k 状态与第l 状态之间的加权距离为：

..2

)

(

),(.

∑=-

j j lj j kj l k p p p p p p l k D ，

该距离也可以看做是坐标为：

)

(

2.2.

1.1i p ip

i i i i p p p p p p p p p ，i=1，2，…,n （1）

的任意两点之间的普通欧式距离。

类似的，定义属性变量B 的两个状态s ，t 之间的加权距离为：

...2

)(),(.∑=-

i t

i it

i is

p p p p p p t s D s

总惯量：

根据上面的准备，可以给出行剖面集合n(r)的总惯量的定义：由（1）式定义的n 个点与其重心的欧式距离之和称为行剖面集合n(r)的总惯量，记为I I 。

注意：（1）总惯量类似方差，反映差异信息。

（2）经过数学分解，我们可以得知，总惯量与2

χ统计量

仅相差一个常数，而由前面列联表的分析我们知道，2

χ统计量

反映了列联表横栏与纵栏的相关关系。

对应分析就是在总惯量信息损失最小的前提下，简化数据结构以反映两属性变量之间的相关关系。实际上，总惯量的概念类似于主成分分析或因子分析中方差总和的概念。在SPSS 软件中进行对应分析，系统会给出对总惯量的提取情况。

完全对应的，我们对列进行相应分析，可以得到列剖面集

合的总惯量为：2

1χn I I I J ==

SPSS 中有一个概念：惯量：相当于因子分析中的特征根，用于说明对应分析各个维度的结果能够解释列联表中两变量联系的程度。

对应分析基本理论：

经过上述变化后，就可以直接计算属性变量各个状态之间的距离，通过距离大小反映各个状态之间的接近程度，同类型的状态之间距离应当较短，而不同类型的状态之间距离应当较长，据此可以对各个状态之间进行分类以简化数据结构。但是，这样做不能对两个属性变量同时进行分析。因此，我们不计算距离，代之求协方差矩阵，进行主成分分析，提取主成分，用主成分所定义的坐标轴作为参照系，对两个变量的各个状态进行分析。计算行剖面的协方差矩阵Z Z r '=∑，列剖面的协方差矩阵

Z Z c '=∑。具体分解过程可参考《多元统计分析》，何晓群。

由矩阵的知识可知，Z Z r '=∑，Z Z c '=∑有相同的非零特征根。

j j j j r u u Z Z u λ='=∑ ，对该式两边左乘矩阵Z '，有 )()(j j j u Z u Z Z Z '=''λ ，

即)()(j j j c u Z u Z '='∑λ。

该式表明：对于因素A 降维，投影方向为 ,,21u u ，

对于因素B 降维，投影方向为 ,,21'

u Z u Z ' ，这两个直角坐标

重合。这样,因素A 和因素B 降维后可以在同一个坐标轴中表示出来,只不过对坐标轴有一个拉伸。

注意： r ∑与c ∑具有相同的非零特征根，而这些特征根正是各个公因子所解释的方差，或提取的总惯量的份额，即有：

J I r

i i

I I ==∑=1

。

那么变量B 的第一主成分、第二主成分…….

直到第r 个主成分与变量A 的相对应的各个主成分在总方差中所占的百分比完全相同。这样就可以用相同的坐标轴同时表示两个属性变量的各个状态，把两个变量的各个状态同时反映在具有相同坐标轴的因子平面上，以直观的反映两个属性变量及各个状态之间的相关关系。一般情况下，我们取两个，这样就可以在一张二维图上同时画出两个变量的各个状态。对应分析的优点：

结果直观、简单；适用于研究较多分类变量；对应分析的缺点：

不能进行具体联系的检查，本质是一种统计描述方法；无法自动判断最佳维度数；

分析结果对极端值敏感。所以数据量不能太少，样本量越大越好。例题讲解：

这里以较为经典的头发颜色与眼睛颜色的研究案例说明SPSS 中对应分析的实现方法，该数据由Fisher 在1940年首次引用。研究者收集了苏格兰北部Caithness 郡5387名小学生眼睛与头发颜色的数据。研究者希望直到头发与眼睛的颜色存在何种关联，即某种头发颜色的人更倾向于何种颜色? 数据见文件hair&eye 。（1）对数据的初步分析

按照常规方法，采用列联分析，crosstabulation，结论：存在明显相关关系。

看看从图表方式能否看出具体的关联方式：graph——bar——stacked，然后双击图，options，scales to 100%

利用统计图，做出条图和马赛克图.结果显示：随着头发颜色有金色、红色逐渐变为深色、黑色，人群中眼睛颜色为浅色的比例越来越低，而眼睛深色的比例越来越高。显然，这一信息提示头发颜色和眼睛颜色之间是有关联的。

以上信息是通过对样本直接观察得到的，这种联系是真实存在还是由抽样误差导致的假象？这可以通过检验加以证实。对于两变

χ检验来证实。但是究竟是怎样的联系方量关联问题一般使用2

χ式？是其中仅某两类中存在联系，还是两两都有联系？这是2

检验不能回答的，需要采用更复杂的分析方法才能得到进一步的分析结果，而对应分析就是一个很好的选择。

结果难点讲解：

结果汇总表：

（1）奇异值：Z矩阵分解过程中产生，他的平方就是inertia. （2）行变量各类别的分析结果状况

Mass：各类别的组成，发色为金色的占总人口的27%

Scores in dimension：给出各类别在相关维度上的评分。金色在2维空间中的坐标值（-0.814，-0.417），依次类推。然后给出惯量在行变量中的分解情况。数值越大，说明该类别对惯量的贡献越大。此处贡献最大的是深色。

Contribution：首先给出各维度信息量在各类别间的分解情况，本例中可见第一维度的信息主要被金色、深色和黑色3各类别所携带，意味着，这三个类别在第一维度区分度较好。同理，在第二维度上金色和棕色区分度较好。随后给出各类别的信息在各个维度上的分布比例。如金色的总信息量中90.7%分布在第一维度，

只有9.3%分布在第二维度。最后一栏是信息量之和。

（3）图中，红色离原点太近，说明两个维度上对红色的信息提取不够，我们只能说明头发颜色金色和眼睛颜色深色、

浅色关系较强。所以我们选择3个维度进行分析。

从图形可以看出，红色离其它颜色都较远，无法作出合理判断。说明我们选取两个维度分析就足够了。

实际上对于对应分析而言，所有信息主要反映在图中，因此多数分析报告均只使用图进行描述。

进一步分析：

当参与对应分析的变量其类别间可能存在某种内在的次序关系时，分析者往往希望在表格中直接观察到这种次序。对应分析可以提供这种输出。由于各个类别在各个维度上已经算出相应的坐标值，因此只需要将各个类别按照坐标值从小到大排列即可。

选项：statistic ，permutations

我们发现：眼睛颜色和头发颜色都是按照坐标值（降维后）从小到大进行排列。更为重要的是：表格中的频数会集中在主对角线上，使得对应关系比原来清楚。如现在我们可以立刻发现，头发黑色与眼睛深色、棕色有较强关联。

在model模块中，还有很多菜单选项没有给大家讲解。这些模块主要适用于基于均数的对应分析范围，但个人认为这种方法很不成熟，效果做出来也不是很理想，所以没有给大家介绍。有兴趣

的同学可以参考张文彤高级篇。

多重对应分析

在前面的分析中，考察的都是一个二维交叉表中行、列变量间各类别的联系情况，我们希望能够同时考察多个分类变量类别取值间的联系。例如性别、职业、学历等和职务级别之间的关系如何。显然对应分析也可以解决此类问题，但是简单对应分析只能对两个分类变量进行分析，这里涉及多个分类变量，我们可以进行多重对应分析。

虽然名为多重对应分析，但是这一方法和前述的简单对应分析完全不同。最突出的部分表现在它的算法和简单对应分析完全不同，它会首先对各个变量进行最优尺度变换，以尽量凸显类别间的差异，然后再按照标准的对应分析算法进行计算。这使得即使在两变量的情况下，这两个过程的结果也不会完全等价。不过，主要使用正确，两个结果在解释上是基本一致的。

在SPSS分析菜单下选择降维（Data Redaction-数据消减）后选择最优尺度算法，该选项下，根据数据集和数据测量尺度不同有三种不同的高级定类分析算法，主要包括：多重对应分析、分类（非线性）主成分分析、非线性典型相关分析。

当变量都是多重名义型数据，则自动采用多重对应分析方法；

当某些变量不是多重名义型，则自动采用分类（非线性）主成分分析；

当变量集合多于一个，则采用非线性典型相关分析。

例题数据mcorres.Sav。

变量全部进入analysis variables模块；补充变量的含义是如果有哪个变量你并不想作为对应分析的变量，而只是作为附属变量表现在对应图上可以加入。

点击V ARIABLES，画图形。

对应分析练习：

1、请根据以下列联表数据进行对应分析

人数初级(B1) 高级(B2) 中级(B3) 其它职称(B4)

教师(A1) 99 34 217 12

科技人员(A2) 98 31 149 9

现役军人(A3) 49 5 66 48

行政干部(A4) 1299 248 2261 2430

其他人员(A5) 171 11 238 69

2、SPSS自带数据voter.sav

1992年美国大选时出现了3位候选人，最终是克林顿击败了老布什和佩罗当选总统，那么不同教育程度的选民其倾向性如何？变量pres92记录受访者选择了哪位候选人，degree

则为受访者的文化程度，

A．试用对应分析考察不同文化程度的选民倾向性；

B．试进行多重对应分析

第九章---spss的回归分析

第九章spss的回归分析 1、利用习题二第4题的数据，任意选择两门课程成绩作为解释变量和被解释变量，利用SPSS 提供的绘制散点图功能进行一元线性回归分析。请绘制全部样本以及不同性别下两门课程成绩的散点图，并在图上绘制三条回归直线，其中，第一条针对全体样本，第二和第三条分别针对男生样本和女生样本，并对各回归直线的拟和效果进行评价。选择fore和phy两门成绩做散点图步骤：图形→旧对话框→散点图→简单散点图→定义→将phy导入X轴、将fore导入Y 轴，将sex导入设置标记→确定图标剪辑器内点击元素菜单→选择总计拟合线→选择线性→确定→再次选择元素菜单→点击子组拟合线→选择线性→确定分析：如上图所示，通过散点图，被解释变量y与fore有一定的线性相关关系。 2、线性回归分析与相关性回归分析的关系是怎样的？线性回归分析是相关性回归分析的一种，研究的是一个变量的增加或减少会不会引起另一个变量的增加或者减少。

3、为什么需要对线性回归方程进行统计检验？一般需要对哪些方面进行检验？线性回归方程能够较好地反映被解释变量和解释变量之间的统计关系的前提是被解释变量和解释变量之间确实存在显著的线性关系。回归方程的显著性检验正是要检验被解释变量和解释变量之间的线性关系是否显著，用线性模型来描述他们之间的关系是否恰当。一般包括回归系数的检验，残差分析等。 4、SPSS多元线性回归分析中提供了哪几种解释变量筛选策略？包括向前筛选策略、向后筛选策略和逐步筛选策略。 5、先收集到若干年粮食总产量以及播种面积、使用化肥量、农业劳动人数等数据，请利用建立多元线性回归方程，分析影响粮食总产量的主要因素。数据文件名为“粮食总产量.sav”。步骤：分析→回归→线性→粮食总产量导入因变量、其余变量导入自变量→确定结果如图： Variables Entered/Removed b Model Variables Entered Variables Removed Method 1 农业劳动者人数(百万人), 总播种面积(万公顷), 风灾面积比例(%), 粮食播种面积(万公顷), 施用化肥量 (kg/公顷), 年份a . Enter a. All requested variables entered. b. Dependent Variable: 粮食总产量(y万吨) ANOVA b Model Sum of Squares df Mean Square F Sig. 1 Regression 2.025E9 6 3.375E8 414.944 .000a Residual 2.278E7 28 813478.405 Total 2.048E9 34 a. Predictors: (Constant), 农业劳动者人数(百万人), 总播种面积(万公顷), 风灾面积比例(%), 粮食播种面积(万公顷), 施用化肥量(kg/公顷), 年份 b. Dependent Variable: 粮食总产量(y万吨) Coefficients a Model Unstandardized Coefficients Standardized Coefficients t Sig. B Std. Error Beta

第三篇 SPSS深入分析(第9章相关分析与一般线性模型)

第三篇SPSS深入分析本篇要点导读：第9章相关分析与广义线性模型一般相关分析和偏相关分析，偏相关系数计算，以及广义线性模型简单应用；第10章回归分析一元线性回归、多元线性回归、非线性回归及Logistic回归的模型和应用；第11章聚类分析和判别分析聚类和判别分析的适用条件，聚类分析包括层次聚类和K-均值聚类，判别分析包括Fisher判别和Bayes判别；第12章因子分析和对应分析因子分析的一般模型，因子分析的应用；对应分析的一般模型和应用；第13章时间序列分析时间序列的建立，预处理，时间序列中常用的ARIMA模型和季节调整模型。本篇说明： 1. 本篇讲述的内容都是涉及两个以上变量的，称为多元统计分析，本篇重点说明多元统计分析方法的应用条件，统计方法的模型和统计方法的SPSS操作实现即结果分析； 2. 虽然本篇对各种多元统计分析方法的模型进行了比较详细的介绍，然而本书毕竟是以SPSS应用为重点，因此不可能对多元统计分析模型面面俱到详细介绍，模型的详细内容请读者参考专业多元统计分析书籍； 3. 请读者在阅读本篇时注意两个问题：一方面要注意各种多元统计分析方法应用的条件，条件不满足不能轻易使用多元统计分析模型；另一方面要注意归纳各种多元统计方法之间的区别和联系，书中列出了各方法的主要区别和联系，读者注意理解。同时读者也可能自己发现方法间新的区别与联系。 4. 由于篇幅关系，对于前面的基本SPSS操作和一元统计分析SPSS操作本篇不再详细说明，只是列出简要操作步骤，请读者注意自行练习，操作验证。

『 2 』第9章相关分析与一般线性模型第9章相关分析与一般线性模型在前面的第2篇中，我们讲解的统计方法基本都是一元统计方法，只分析一个变量。这其中有几个例外：多选项分析中涉及多个SPSS变量，但是经过多选项集定义以后，还是将多选项集当作一个变量在分析；参数检验和非参数检验中都有配对样本检验，也涉及多个SPSS变量，只是对于配对变量来说，都是同一性质的变量，分析时也是结合在一起分析的，因此可以算作分析一个变量；方差分析中涉及多个变量；但是方差分析主要是分析观测变量，控制变量只是用来对观测变量分类的，因此仍然是分析一个变量。当然一元统计分析的模型还有很多，本书限于篇幅只是列举了SPSS中常用的功能，对于其他模型有兴趣的读者可以查阅相关统计专业书籍。从本章开始，我们开始介绍多元统计分析的模型和方法，和一元统计分析对应，多元统计分析方法分析的是多个性质不同的SPSS变量；一元统计只是分析总体的某个特征，而多元统计分析则是分析总体的多个特征，分析这些特征各自的情况，并分析这些特征的联系，对这些特征进行处理的方法等等。因此多元统计的问题比一元统计复杂，处理的方法也更多。在本篇中将给读者介绍SPSS中常用的多元统计方法：相关分析、回归分析、聚类和判别、因子与对应分析，以及时间序列分析。相关分析是比较简单的多元分析方法，但是也是经常使用的多元统计分析方法，它能快速发现总体特征（变量）之间关系，并检验这些特征的显著性。这一方面对于简单的统计分析已经可以提供足够的结论，另一方面也为后续的更加复杂的多元统计分析模型提供条件和依据。因此，相关分析在多元统计分析中的作用是非常大的。一般线性模型是方差分析的推广和延伸，其作用是分析一个或多个自变量对一个或多个应变量的线性关系，其内容非常丰富，包含方差分析、重复测量方差分析、多元线性回归等等，在第8章我们已经接触过它的强大功能了，掌握一般线性模型对于我们提高自身的统计分析能力有很大帮助。我们就从这两个简单而又重要的方法开始学习多元统计分析的模型。 9.1 相关分析现代自然科学研究、经济检验、企业管理等活动中普遍存在的相互影响、相互依存的关系可以概括为两大类：函数关系和相关关系，函数关系是一种严格的确定对应关系，而相关关系是一种不要求确定对应，具有一定随机性的关系，实际中，并且相关关系更具有一般性。相关分析是处理变量之间相关关系的一种统计方法。通过相关分析，可以了解两个或两个以上的变量之间是否有相关关系，相关关系的方向、形式以及相关密切程度。下面我们就为读者简单介绍相关分析。 9.1.1 引例，相关分析概述相关分析是用来研究变量间相关关系的，因此读者必须对相关关系有一个比较清楚的概念。在现实生产生活中，各种事物特征、各种现象之间相互联系、相互制约、相互依存，某些现象发生变化时，另一现象也会随之变化，例如，居民收入的高低会影响银行储蓄额的增减，商品价格的变化会影响商品销售量的变化等等。这些影响依存的关系又可分为函数关系和相关关系两大类。

《统计分析与SPSS的应用(第五版)》课后练习答案(第9章)

《统计分析与SPSS的应用（第五版）》（薛薇）课后练习答案第9章SPSS的线性回归分析 1、利用第2章第9题的数据，任意选择两门课程成绩作为解释变量和被解释变量，利用SPSS 提供的绘制散点图功能进行一元线性回归分析。请绘制全部样本以及不同性别下两门课程成绩的散点图，并在图上绘制三条回归直线，其中，第一条针对全体样本，第二和第三条分别针对男生样本和女生样本，并对各回归直线的拟和效果进行评价。选择fore和phy两门成绩体系散点图步骤：图形旧对话框散点图简单散点图定义将fore导入Y轴，将phy导入X轴，将sex导入设置标记确定。接下来在SPSS输出查看器中，双击上图，打开图表编辑

在图表编辑器中，选择“元素”菜单选择总计拟合线选择线性应用再选择元素菜单点击子组拟合线选择线性应用。

分析：如上图所示，通过散点图，被解释变量y(即：fore)与解释变量phy有一定的线性关系。但回归直线的拟合效果都不是很好。 2、请说明线性回归分析与相关分析的关系是怎样的？相关分析是回归分析的基础和前提，回归分析则是相关分析的深入和继续。相关分析需要依靠回归分析来表现变量之间数量相关的具体形式，而回归分析则需要依靠相关分析来表现变量之间数量变化的相关程度。只有当变量之间存在高度相关时，进行回归分析寻求其相关的具体形式才有意义。如果在没有对变量之间是否相关以及相关方向和程度做出正确判断之前，就进行回归分析，很容易造成“虚假回归”。与此同时，相关分析只研究变量之间相关的方向和程度，不能推断变量之间相互关系的具体形式，也无法从一个变量的变化来推测另一个变量的变化情况，因此，在具体应用过程中，只有把相关分析和回归分析结合起来，才能达到研究和分析的目的。线性回归分析是相关性回归分析的一种，研究的是一个变量的增加或减少会不会引起另一个变量的增加或减少。 3、请说明为什么需要对线性回归方程进行统计检验？一般需要对哪些方面进行检验？检验其可信程度并找出哪些变量的影响显著、哪些不显著。主要包括回归方程的拟合优度检验、显著性检验、回归系数的显著性检验、残差分析等。