交联列表及在SPSS中的实现

合集下载

用SPSS进行列联表分析(Crosstabs)实例

用SPSS进行列联表分析（Crosstabs）实例列联表分析（Crosstabs）列联表是指两个或多个分类变量各水平的频数分布表，又称频数交叉表。

SPSS的Crosstabs过程，为二维或高维列联表分析提供了22种检验和相关性度量方法。

其中卡方检验是分析列联表资料常用的假设检验方法。

例子：山东烟台地区病虫测报站预测一代玉米螟卵高峰期。

预报发生期y为3级（1级为6月20日前，2级为6月21-25日，3级为6月25日后）；预报因子5月份平均气温x1（℃）分为3级（1级为16.5℃以下，2级为16.6-17.8℃，3级为17.8℃以上），6月上旬平均气温x2（℃）分为3级（1级为20℃以下，2级为20.1-21.5℃，3级为21.5℃以上），6月上旬降雨量x3（mm）分为3级（1级为15mm以下，2级为15.1-30mm，3级为30mm以上），6月中旬降雨量x4（mm）分为3级（1级为29mm以下，2级为29.1-36mm，3级为36mm以上）。

数据如下表。

注：摘自《农业病虫统计测报》131页。

1) 输入分析数据在数据编辑器窗口打开“data1-3.sav”数据文件。

数据文件中变量格式如下：2)调用分析过程在菜单选中“Analyze-Descriptive- Crosstabs”命令，弹出列联表分析对话框，如下图3)设置分析变量选择行变量：将“五月气温[x1]，六月上气温[x2]，六月上降雨[x3]，六月中降雨[x4]”变量选入“Rows:”行变量框中。

选择列变量：将“玉米螟卵高峰发生期[y]”变量选入“Columns:”列变量框中。

4)输出条形图和频数分布表Display clustered bar charts: 选中显示复式条形图。

Suppress table: 选中则不输出多维频数分布表。

5)统计量输出点击“Statistics”按钮，弹出统计分析对话框（如下图）。

Chi-Square: 卡方检验。

spss项目分析操作步骤SPSS常用分析方法操作步骤

spss项目分析操作步骤SPSS常用分析方法操作步骤导读：就爱阅读网友为您分享以下“SPSS常用分析方法操作步骤”资讯，希望对您有所帮助，感谢您对的支持!SPSS常用分析方法操作步骤一、单变量单因素方差分析例题：某个年级有三个班，现在对他们的一次数学考试成绩进行随机抽（见下表），试在显著性水平0.005下检验各班级的平均分数有无显著差异（数据文件：数学考试成绩.sav）。

（1）建立数学成绩数据文件。

（2）选择“分析” →“比较均值” →“单因素方差”，打开单因素方差分析窗口，将“数学成绩”移入因变量列表框，将“班级”移入因子列表框。

（3）单击“两两比较”按钮，打开“单因素ANOVA两两比较”窗口。

（4）在假定方差齐性选项栏中选择常用的LSD检验法，在未假定方差齐性选项栏中选择T amhane’s检验法。

在显著性水平框中输入0.05，点击继续，回到方差分析窗口。

（5）单击“选项”按钮，打开“单因素ANOV A选项”窗口，在统计量选项框中勾选“描述性”和“方差同质性检验”。

并勾选均值图复选框，点击“继续”，回到“单因素ANOV A选项”窗口，点击确定，就会在输出窗口中输出分析结果。

二、单变量多因素方差分析研究不同温度与不同湿度对粘虫发育历期的影响，得试验数据如表5-7。

分析不同温度和湿度对粘虫发育历期的影响是否存在着显著性差异（数据文件：粘虫.sav）。

（1）建立数据文件“粘虫.sav”。

（2）选择“分析” →“一般线性模型” →“单变量”，打开单变量设置窗口。

（3）分析模型选择：此处我们选用默认；（4）比较方法选择：在窗口中单击“对比”按钮，打开“单变量：对比”窗口进行设置，单击“继续”返回；（5）均值轮廓图选择：单击“绘制”按钮，设置比较模型中的边际均值轮廓图，单击“继续”返回；（6）“两两比较”选择，用于设置两两比较检验，本例中设置为“温度”和“湿度”。

三、相关分析调查了29人身高、体重和肺活量的数据见下表，试分析这三者之间的相互关系。

spass相关分析实验报告.

Mean Std. Deviation N花瓣长40.44 5.973 18花枝长19.67 5.029 18花萼长16.17 3.294 18Correlations花瓣长花枝长花萼长花瓣长Pearson Correlation 1 .955**.797**Sig. (2-tailed) .000 .000Sum of Squares andCross-p606.444 487.667 266.667oductsC35.673 28.686 15.686varianceN 18 18 18花枝长Pearson Correlation .955** 1 .678**Sig. (2-tailed) .000 .002Sum of Squares and487.667 430.000 191.000Cross-productsCovariance 28.686 25.294 11.235N 18 18 18花萼长Pearson Correlation .797**.678** 1Sig. (2-tailed) .000 .002Sum of Squares and266.667 191.000 184.500Cross-productsCovariance 15.686 11.235 10.853N 18 18 18**. Correlation is significant at the 0.01 level (2-tailed).分析：表中给出了3个变量两两之间的Pearson相关系数（Pearson Correlation）、双侧显著情况检验概率（Sig.(2-tailed)）和数据组数（N）。

脚注内容显示相关分析结果在0.01的水平上显著。

另外，从表中可以看出，花瓣长和花枝长的数据具有很强的相关性。

而双侧检验的显著性概率均小于0.05，因此否定零假设（零假设是变量之间不具有相关性），认为相关系数不为零，变量之间具有相关性。

列联表资料的SPSS分析

我们以实验研究列联表资料实例，运用SPSS 软件包进行统计分析，对操作过程和结果解释予以详细说明，希望能给大家提供借鉴。
1
一、一般四格表（2 × 2 列联表）资料
实验研究一般四格表（2×2 列联表）资料分析目的主要有 2 个，一是分析两个比率总体的差别有无统计学意义或两样本某指标的分布（或构成）总体是否相同，二是分析两个分类特征是否有关联。
别；Kappa 检验（SPSS 不给可信区间），Kappa = 0.824， P < 0. 01，说明两种检查具有较好的一致性。
可以看出, 两种检验结果是矛盾的。为什么呢? McNemar 法一般用于样本含量 n 不太大的资料，因只考虑结果不一致的情况，而未考虑样本含量 n 和结果一致的情况，所以，当 n 很大且结果一致率高时，不一致的数值相对较小，容易出现有统计学意义的检验结果，但实际意义可能不大。本例即是如此，应以一致性检验结果为准。实际上，对于两种检验（查）方法或诊断方法结果进行分析时，主要分析的也就是一致性。根据Kappa 值判断一致性强度的标准尚有争议，一般认为：Kappa 值< 0.4 时，一致性较差；在 0.4～0.75 之间有中度至高度一致性；> 0.75 时，有极好的一致性。
列联表资料的SPSS分析
在实验研究与基础实验研究中，所分析的指标可以是定量的，也可以是定性的。其定量指标, 有时也转化成定性资料进行分析。这些定性资料或由定量资料转化而来的定性资料，一般都整理成列联表形式，根据资料性质和分析目的选择恰当的分析方法进行统计分析，并将统计分析结果与专业知识相结合, 做出合理的解释。
51
合计
260 182 144
532
有效率（%）
96.60 90.11 81.94

用SPSS软件包构建列联表频数数据的简易方法

用SPSS软件包构建列联表频数数据的简易方法王乐三　(湖南医科大学,长沙,410078)中图分类号:R195.1 文献标识码:A 统计软件包SPSS(S tatistical Package for the S ocial Science)给医学科研工作者统计分析提供了很大方便。

SPSS for Windows 版本推出后,使用者无需编写程序也可完成统计分析。

在医学统计教学、咨询和医学科研实践中,经常遇到对已列成列联表的频数数据的分析。

SPSS for Windows中Crosstabs过程中只对依据分类变量资料原始数据构建列联表的方法提供了介绍,国内一些介绍SPSS for Windows书籍中[1～2]对Crosstabs过程也只提供依据分类变量资料原始数据构建列联表方法的例题:个别作者则采用将已列成列联表的频数数据还原为原始数据的方法[2],但在实际操作中不方便且容易出错。

本文介绍一种用SPSS软件包中Weight Cases功能构建列联表频数数据的简易方法以达到通过Crosstabs等过程来完成统计分析。

1　二维列联表频数数据(以2×2表为例)111　实例例1.应用团体病例对照研究考察吸烟史与肺癌的关系,病例组108人中68人吸烟,对照组108人中49人吸烟,结果见表1。

问两组吸烟率有无差别?若有差别进而求比值比和总体比值比的95%可信限。

表1　吸烟史与肺癌关系的病例对照研究吸烟史病例对照合计吸烟　68　49　117不吸烟405999合计108108216112　统计分析(以spss for windows9.0为例,下同)11211　建立数据文件examplel.sav如下:sm oke group f1168124921402259注:　sm oke为吸烟史指示变量;1代表吸烟,2代表不吸烟。

group为组别指示变量;1代表病例,2代表对照。

f为频数变量。

11212　构建及分析步骤1121211　通过“DAT A”→Weight Cases”打开“Weight Cases”对话框,激活“Weight Case by”选项;从左边源变量名称框中选择频数变量f作为权变量,将其选入“frequency variable”框中;单击“OK”图标按钮,执行加权命令。

第章SPSS列联表及对数线性模型PPT课件

OPINION * INCOME Crosstabulation
C o un t
OPINION 0 1
Total
1 7
45 52
INC O ME 2 15 25 40
3 19 12 31
Total 41 82 123
可编辑
2020/1/10
7
二维列联表的检验
▪ 对于上面那样的二维表。我们检验的零假设和备选假设为
Hale Waihona Puke 可编辑2020/1/10
15
对数线性模型
▪ 现在简单直观地通过二维表介绍一下对数线性模型，假定不同的行代表第一个变量的不同水平，而不同的列代
表第二个变量的不同水平。用mij代表二维列联表第i行，第j列的频数。人们常假定这个频数可以用下面的公式来
可编辑
2020/1/10
3
可编辑
2020/1/10
4
列联表
▪ 列联表的中间各个变量不同水平的交汇处，就是这种水平组合出现的频数或计数（count）。
▪ 二维的列联表又称为交叉表（cross table）。 ▪ 列联表可以有很多维。维数多的叫做高维列联表。 ▪ 注意前面这个列联表的变量都是定性变量;但列联表也会
可编辑
2020/1/10
12
具体运算：先加权，加权之后，按照次序选Analyze－ Descriptive Statistics－Crosstabs。在打开的对话框中，把opinion和income分别选入Row（行）和Column（列）；至于哪个放入行或哪个放入列是没有关系的。如果要Fisher精确检验则可以点Exact，另外在Statistics中选择Chi-square，以得到c2检验结果。最后点击OK之后，就得到有关Pearson c2统计量、似然比c2统计量以及Fisher统

13 列联表及其spss实现过程2

i 1 j 1
边缘和
父
35
40
65
N=140
Eij
86 .22
脑力
体力
农业
k (r 1)(c 1) 2 2 4
子
脑力体力
Eij
ni* n* j n
1
接受域
0.05
农业
拒绝域
02.05 9.49
2 86.22 02.05 9.49，落入拒绝域，认为子辈职业与父辈职业有关系。
2
• （三）使用统计量对列联表进行检验，每一格值的E ij要保持在一定数目之上。如果其中有的格值 2 2 n E 过小，那么在计算值时， ij ij 值的波动就会 Eij 扩大。 • 如果有两个格值，要求 E ij 5 • 对于 r c 列联表，要求 E ij 3 • 或者 E ij小于5的格数不应超过总个数的20%。 • 当出现不符合上述要求时，可将期望值偏小的格值合并。
变量y(喜爱的节目）与变量x(年龄）是有关的。
我们把关于y的条件分布和边缘分布合写在一个表格中，如果统计结果如下：
y x 老年（27）中年（40）青年（57） 0.74 0.74 0.74 边缘和（124） 0.74
戏曲
歌舞球赛
0.18 0.08
0.18 0.08
0.18 0.08
0.18 0.08
变量y(喜爱的节目）与
变量x(年龄）没有关系。
称作变量之间是相互独立的。
• 如果变量间是相互独立的，则变量的条件分布与它的边缘分布相同：
y 戏曲 x 老年（27） 0.74 中年青年（57）（40） 0.74 0.18 0.74 0.18 边缘和（124） 0.74 0.18

用SPSS作列联分析

列联表的一般结构
列联表中的自由度
I×j列联表
f ij
C1 f11 f 21
C2 f12 f 22

Cj
f1 j f2 j
合计
RT 1 RT 2
R1 R2

Ri

f i1

fi 2

f ij

RTi
合计
CT 1
CT 2
CTj
n
3×3列联表自由度为4
C1 R1 R2
R3
C2 f12 f 22
大学生的运动偏好是否存在差异的问题。如果男女大学生的运动偏好没有差异，体育部与学生会将针对全体学生发起整体性的宣传活动；如果有差异，将分别针对男生和女生采取不同的宣传策略。为此，体育部与学生会随机发放了200份问卷，让每一个学生在乒乓球、羽毛球、网球这三个运动项目上选择出自己最喜欢的一项。调查数据整理后，得出如表下所示的表格:
f 2

接受域
拒绝域
0.05
0
5.9915 22.4
2
2 22.4 5.9915，拒绝原假设。结论：男女大学生的
运动偏好是有差异的，做出这一推断的把握程度是95%。
某啤酒厂生产三种类型啤酒：淡啤酒、普通啤酒、黑啤酒。会议上有人提出男性
与女性饮酒者啤酒偏好是否相同的问题。若不同，公司将针对不同的目标市场采
1954

a bc d a c b d
ad bc

525 763 831 1123 985 969
0.43
Φ相关系数比较适用于2×2列联表。列联表的行数和列数大于2时， Φ相关系数会出现大于是1情况。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

文章编号:1002—1566(2002)01—0014—06列联表分析及在SPSS 中的实现ΞΞΞ陈雪东(楚雄师范专科学校数学系,云南楚雄　675000)摘　要:本文首先介绍了列联表的一致性与独立性检验、相关分析、某些特殊统计量等内容,然后说明了上述分析在SPSS9.0中的实现,并最终结合实例进行了应用。

关键词:列联表(Contingency table );卡方检验;相关分析;SPSS9.0中图分类号:O212.1文献标识码:A一、引　言在问卷调查、产品检验、医学统计等领域中常常需要对某些问题按两个或多个不同的特征进行分类,然后对样本进行交叉汇总后就得到了各种各样的列联表。

一般情况下,对列联表的统计分析往往只着重于关心按上述分类的特征之间是否相互依赖,或者说是否相互独立。

其实,列联表分析的内容是比较丰富的,既可做各种卡方检验,又可计算相关系数做相关分析,还可根据不同数据类型给出相应的关联系数,计算某些特殊的统计量。

只不过涉及到的统计量多,种类复杂且计算繁琐。

本文将结合SPSS9.0的相应功能,介绍有关二维列联表的统计分析问题。

二、列联表的统计分析假设n 个随机试验的结果根据两个特征A 与B 进行分类,在A 中有c 个类A 1,…,A c ,对应的值为X 1<,…,<X c ;在B 中有r 个类B 1,…,B r ,对应的值为Y 1<,…,<Y r ;属于A j与B i 类的个体有n ij 个,于是有如下的一张r ×c 的列联表。

特征A A 1A 2…A j …A G 合计特征BB 1B 2…B rn 11n 21…n r1n 12n 22…n r2………n 1j n 2j…n rj ………n 1G n 2G …n r G n 1.n 2.…n r.合计n .1n .2…n .j…n .G n记概率P ij =P (A j ∩B i ),且P i ・=ΣjPij ,P ・j =ΣiPij 。

再记41 数理统计与管理 21卷　1期　2002年1月ΞΞΞ修改稿日期:2001-03-27收稿日期:2000-11-10Q =n Σri =1Σcj =1n 2ijn i ・n ・j～χ2((c -1)(r -1)),为Pearson ’s 卡方统计量。

关于列联表分析有(1)独立性与一致性检验对独立性,H 0:P ij =P i ・P ・j ,i =1,…r ;j =1,…c 。

该检验就是讨论两个特征A ,B 之间的相互依赖或相互独立问题。

对一致性,H 0:P i1=…=P ic =P i (i =1,…r )或P 1j =…=P rj =P j (j =1,…c )即上述H 0表明事件A j (或B i )发生的概率与j (或i )无关,是一致的。

一般来说,独立性与一致性检验的检验统计量为Q ,当然也可用其他的统计量检验,如似然比统计量(Likelihood Ratio )、n 小于20时四格表的Fisher ’s 检验等。

(2)相关系数及相关分析经过一致性或独立性的卡方检验后,在得到差异是否显著或是否独立的同时,已经分析出两个特征(变量)是否相关了。

比如差异显著或不独立,则说明两变量相关显著,反之则相关不显著。

但为了量化其相关程度,还应给出相关系数。

根据两个特征(变量)的数据类型,相关系数有下列种类:名称及类型定义公式适用范围及说明Pearson 积矩相关系数r r =cov (X ,Y )D (X )D (Y )适用于分区间的连续数据或计数数据之间,且总体呈正态或近似正态,n Ε30。

Spearman 秩相关系数r sr s =cov (R ,C )D (R )D (C )等级或有序数据之间,应用范围较广,n <30,总体不呈正态均可。

列联相关系数CC =Q 2Q 2+n1/2;v =Q 2n (q -1)1/2,其中q =min{r ,c}适用于名义数据之间,其定义基于卡方检验统计量Q其中:Cov (X ,Y )=Σi ,jn ij X i Y j -(Σin i ・X i )(Σjn ・j Y j )/n ;而D (X )=Σin i ・X 2i -(Σin i ・X i )2/n ;D (Y )=Σjn ・j Y 2j -(Σjn ・j Y j )2/n同样Cov (R ,C )及D (R )与D (C ),也有相同的表达式。

而且有。

R i =Σk <in k ・+(n i ・+1)/2,i =1,…,r ;C j =Σh <jn ・j +(n ・j +1)/2,j =1,…,c(3)不同数据类型的有关统计量根据两个特征(变量)的数据类型的不同,列联表分析还可给出某些关联系数及一些特别的统计量(限于篇幅,不给具体计算公式,只作简单说明)51列联表分析及在SPSS 中的实现适用范围名称及类型意义及作用说明名义数据之间lambda系数(三种):λY|X,λY|X及λ用于反映以一个变量的值去预测另一个变量的值时可能发生的误差。

值为1表明一个变量能较完全地预测另一个的取值,为0则表明在预测上无任何帮助。

不确定系数Uncertainty coefficient用于表明从一个观测值预测另一个变量时所产生的不确定性能减小的程序。

次序数据之间G amma水平依据某一有序水平所测得的两变量之间的相关程度,介于21与1之间,符号表示正、负相关,数值则表示相关程度。

Somers’d水平是G amma水平的非对称扩展,其区别在于包括了与自变量不相关的成对数据。

K endall’s系数:τbandτc用于对次序变量进行非参数相关检验,其中前者适用于相关数据,而反者忽略相关关系。

值介于21与1间。

名义数据与区间数据之间Eta系数用于度量类别数据的变量与区间数据的变量之间的关联程度。

0表明行、列变量无关联,1则表明关联密切。

三、用SPSS处理的步骤及选项步骤一、建立适用于列联表分析的数据文件(1)　如果讨论的特征(变量)是分类数据或有序数据,可直接用原始数据进行。

(2)　如果涉及的变量是连续数据类型,则先分为区间再化为分类数据进行。

用SPSS中的Transform/Categorize Variables选项或Transform/Recode into Different Variables 选项来实现。

(3)　如果已有的数据已是列联表的形式,则只需在SPSS的数据文件中根据行、列变量的取值情况对每个单元格编码,并将观察值所在的变量用Data/weight cases选项加权。

如下列情况一年级二年级三年级合格102030不合格405060序号成绩年级数目1合　格一10 2合　格二20 3合　格三30 4不合格一40 5不合格二50 6不合格三60步骤二、在SPSS中分别选Analyze/Descriptive Statistics/Crosstabs…进入列联表分析。

首先选定行、列变量,再在Statistics项中根据数据类型选统计内容及项目。

具体内容如下表,相应的选项已在前面介绍过,不再累述。

61 数理统计与管理 21卷　1期　2002年1月步骤三、运行结果的解读(结合实例说明)。

四、实例例1.新生儿肺出血症是一种非常严重的病症,在条件较差的地方死亡率很高。

为有效地预防、诊治,某医院对337例新生儿进行了统计,有如下数据:337例中有42例患肺出血症,其中89例低体重儿(<2500g )有15例患该症;112例早产儿有21例患该症;57例产时并发窘迫的有18例患该症。

现分析上述三个因素与肺出血症的关系。

分析:为简单起见,用FCX (Y es ,No )表示是否患肺出血症:A (Y es ,No )表示是否是低体重儿;B (Y es ,No )表示是否早产;C (Y es ,No )表示是否产时并发窘迫。

(1)FCX 对因素A 的分析及结果因为是名义数据对名义数据,故在Crosstabs …/中的Statistics 选项选Chi 2square 。

FCX ’A CrosstabulationCountANoY es Total FCXNo 22174295Y es 271542Total24889337Chi 2Square TestsValue df Asymp.Sig.(22sided )Exact Sig.(22sided )Exact Sig.(12sided )Pears on Chi 2Square2.137b1.144Continuity Correction21.6251.202Likelihood Ratio 2.0241.155F isher ’s Exact T est.189.103N of Valid Cases puted only for a 2×2tableb.0cells (.0%)have expected count less than 5.The minimum expected count is 11.09. 由上两表可看出,FCX 与因素A 相互独立的sig 等于0.144(Pearson Chisquare ),0.202(Continuity Correction ),0.155(Likelihood Ratio ),0.189(Fish ’s Test ),均大于0.05,故接受假设,认为其独立,并不再考虑关联程度。

(2)FCX 对因素B 的分析及结果同样因为是名义数据对名义数据,在做完Chi 2square 检验后发现不独立,再选Nominal 中的Phi ,Contingency coefficient ,Cramer ’s V ,及Lambda ,Uc 。

(限于篇幅,与(1)相同的两表省略,仅保留列联相关系数的计算结果)71列联表分析及在SPSS 中的实现Symmetric MeasuresValue Approx. Sig.Nominalby Nominal Phi.134.014 Cramer’sV.134.014 C ontingency C oefficient.133.014N of Valid Cases337 由计算结果可发现,独立性检验的显著水平sig在各个卡方检验统计量下均小于0.05,即说明FCX于因素B有关系;且在计算了列联相关系数后发现φ=V=0.134,CC=0. 133,而0.01<sig=0.014<0.05,即相关显著。

但另一方面,λ=λFCX|B=λB|FCX=0,而由Directional Measures表(略)可知Uc(Uncertainty coefficient)=0.017,Uc FCX|B=0.023,Uc B|FCX=0.013,sig=0.016说明由B的情况来推断FCX的状况,误差会较大。