SPSS列联表分析

合集下载

SPSS统计分析教程列联表分析

2 列联表分析（Crosstabs）列联表是指两个或多个分类变量各水平的频数分布表，又称频数交叉表。

SPSS的Crosstabs过程，为二维或高维列联表分析提供了22种检验和相关性度量方法。

其中卡方检验是分析列联表资料常用的假设检验方法。

例子：山东烟台地区病虫测报站预测一代玉米螟卵高峰期。

预报发生期y为3级（1级为6月20日前，2级为6月21-25日，3级为6月25日后）；预报因子5月份平均气温x1（℃）分为3级（1级为16.5℃以下，2级为16.6-17.8℃，3级为17.8℃以上），6月上旬平均气温x2（℃）分为3级（1级为20℃以下，2级为20.1-21.5℃，3级为21.5℃以上），6月上旬降雨量x3（mm）分为3级（1级为15mm以下，2级为15.1-30mm，3级为30mm以上），6月中旬降雨量x4（mm）分为3级（1级为29mm以下，2级为29.1-36mm，3级为36mm以上）。

数据如下表。

山东烟台历年观测数据分级表（）注：摘自《农业病虫统计测报》 131页。

1) 输入分析数据在数据编辑器窗口打开“”数据文件。

数据文件中变量格式如下：2)调用分析过程在菜单选中“Analyze-Descriptive- Crosstabs”命令，弹出列联表分析对话框，如下图3)设置分析变量选择行变量：将“五月气温[x1]，六月上气温[x2]，六月上降雨[x3]，六月中降雨[x4]”变量选入“Rows:”行变量框中。

选择列变量：将“玉米螟卵高峰发生期[y]”变量选入“Columns:”列变量框中。

4)输出条形图和频数分布表Display clustered bar charts: 选中显示复式条形图。

Suppress table: 选中则不输出多维频数分布表。

5)统计量输出点击“Statistics”按钮，弹出统计分析对话框（如下图）。

Chi-Square: 卡方检验。

选中可以输出皮尔森卡方检验（Pearson）、似然比卡方检验（Likelihood-ratio）、连续性校正卡方检验（Continuity Correction）及Fisher精确概率检验（Fisher’s Exact test）的结果。

第四章 SPSS的基本统计分析知识讲解

多选项分析
多选项分析的基本思路
– 定义多选项变量集 – 多选项频数分析 – 多选项交叉分组下的频数分析
多选项分析
定义多选项变量集
目的:将已分解的变量定义为一个集合,便于进行多选项分析
– 菜单选项:analyze->multiple response->define sets – 从原变量中选取被分解的变量(数值型)到variables in
进一步计算
– cells选项:选择在频数分析表中输出各种百分比.
row:行百分比(Row pct); column:列百分比(Col pct); total:总百分比(Tot pct);
分析列联表中变量间的关系
目的：
通过列联表分析，检验行列变量之间是否独立。
方法：
– 卡方检验：对品质数据的相关性进行度量
频数分析
基本操作步骤
(1)菜单选项:analyze->descriptive statistics->frequencies (2)选择几个待分析的变量到variables框. (3)chart选项，选择所需要的图形
计算描述统计量
目的
– 精确把握变量的总体分布状况，了解数据的集中趋势、离散趋势、对称程度、陡峭程度。
– 菜单选项:analyze->multiple response->crosstabs
频数分析
目的
粗略把握变量值的分布状况。
例：研究被调查者的特征（如：性别、年龄、收入）研究被调查者对某个问题的总体看法（如：教学方式、选修课程）研究被调查者某方面的状态（如：购买家电的类型、居民月支出状况）
采用的方法
– 计算频分布表：包括计算频数、累计频数、百分比、累计百分比

应用SPSS软件进行列联表分析

应用SPSS软件进行列联表分析在许多调查研究中，所得到的数据大多为定性数据，即名义或定序尺度测量的数据。

例如在一项全球教育水平的研究中，调查了400余人的个人信息，包括性别、学历、种族等，对原始资料进行整理就可以得到频数分布表。

定义四个变量：gender（性别）、educat（学历）、minority（种族）、count（人数），其中前三个为分类变量，并且gender变量取值为0、1,标签值定义为：0表示female，1表示male;educat变量取值为1、2、3，标签值定义为：1表示学历低，2表示学历中等，3表示学历高；minority变量值为0、1，标签值定义为：0表示非少数种族，1表示为少数种族。

下面做gender、educat、minority的三维列联表分析及其独立性检验。

数据文件如图1所示。

图1第一步：用“count”变量作为权重进行加权分析处理。

从菜单上依次选Data--weight Cases 命令，打开对话框，如图2所示。

图2点选Weight Cases by项，并将变量“count”移入Frequency Variable栏下，之后单击OK按钮。

第二步：从菜单上依次点选Analyze--Deseriptive Statistics--Crosstabs命令，打开列联分析对话框(Crosstabs),如图3所示。

图3第三步：在Crosstabs对话框中，如图4将变量性别gender从左侧的列表框内移入行变量Row(s)框内，并将受教育年限编码后得到的学历变量educat移入列变量Column(s)框内（若此时单击OK按钮，则会输出一个2*3的二维列联表）。

这里要输出一个三维列联表，将变量种族minority作为分层变量移入Layer框中，并且可以勾选左下方的Display clustered bar charts项，以输出聚集的条形图，如图8图9所示。

图4第四步：选择统计量，单击Cosstabs对话框下侧的Statistics按钮，打开其对话框，如图5 所示。

列联表资料的SPSS分析

我们以实验研究列联表资料实例，运用SPSS 软件包进行统计分析，对操作过程和结果解释予以详细说明，希望能给大家提供借鉴。
1
一、一般四格表（2 × 2 列联表）资料
实验研究一般四格表（2×2 列联表）资料分析目的主要有 2 个，一是分析两个比率总体的差别有无统计学意义或两样本某指标的分布（或构成）总体是否相同，二是分析两个分类特征是否有关联。
别；Kappa 检验（SPSS 不给可信区间），Kappa = 0.824， P < 0. 01，说明两种检查具有较好的一致性。
可以看出, 两种检验结果是矛盾的。为什么呢? McNemar 法一般用于样本含量 n 不太大的资料，因只考虑结果不一致的情况，而未考虑样本含量 n 和结果一致的情况，所以，当 n 很大且结果一致率高时，不一致的数值相对较小，容易出现有统计学意义的检验结果，但实际意义可能不大。本例即是如此，应以一致性检验结果为准。实际上，对于两种检验（查）方法或诊断方法结果进行分析时，主要分析的也就是一致性。根据Kappa 值判断一致性强度的标准尚有争议，一般认为：Kappa 值< 0.4 时，一致性较差；在 0.4～0.75 之间有中度至高度一致性；> 0.75 时，有极好的一致性。
列联表资料的SPSS分析
在实验研究与基础实验研究中，所分析的指标可以是定量的，也可以是定性的。其定量指标, 有时也转化成定性资料进行分析。这些定性资料或由定量资料转化而来的定性资料，一般都整理成列联表形式，根据资料性质和分析目的选择恰当的分析方法进行统计分析，并将统计分析结果与专业知识相结合, 做出合理的解释。
51
合计
260 182 144
532
有效率（%）
96.60 90.11 81.94

列联表资料的SPSS分析39页PPT

❖ 丰富你的人生
71、既然我已经踏上这条道路，那么，任何东西都不应妨碍我沿着这条路走下去。——康德 72、家庭成为快乐的种子在外也不致成为障碍物但在旅行之际却是夜间的伴侣。——西塞罗 73、坚持意志伟大的事业需要始终不渝的精神。——伏尔泰 74、路漫漫其修道远，吾将上下而求索。——屈原 75、内外相应，言行相称。——韩非
列联表资料的SPSS分析
1、纪律是管理关系的形式。——阿法纳西耶夫 2、改革如果不讲纪律，就难以成功。
3、道德行为训练，不是通过语言影响，而是让儿童练习良好道德行为，克服懒惰、轻率、不守纪律、颓废等不良行为。 4、学校没有纪律便如磨房里没有水。 ——夸美纽斯
5、教导儿童服从真理、服从集体，养成儿童自觉的纪律性，这是儿童道德教育最重要的部分。—— 陈鹤琴

SPSS列联表分析

例3：以下是胃癌真菌病因研究中3种食物样品的真菌检出率,比较3种食物真菌检出率有无差异.
本例中SPSS提示没有理论频数小于5,且最小的理论频数为8.00,故直接选择Pearson 卡方结果,即χ2=22.841,P<0.001,提示三种食物中真菌检出率不同.此时还需要进一步考虑三种食物真菌检出率到底谁与谁之间的差异存在统计学意义,这里就需要用到卡方分割,通俗讲就是把RC列联表拆分成若干个四个表分别进行χ2检验,进而判断不同组两两比较差异是否用统计学意义,但是因为多组比较可能会增加犯I类错误概率,所以还需要对χ2检验的P值进行校正.常用Bonferroni法进行校正,本例中需要进行3次两两比较,校正的检验水准α=0.05/比较次数=0.05/3=0.0167,即当两两比较P<0.0167才能认为差异有统计学意义.
Kappa一致性检验
1、Kappa检验旨在评价两种方法是否存在一致性，或者是同一个研究者先后两次的诊断结果 2、Kappa检验会利用列联表的全部数据 3、Kappa检验可计算Kappa值用于评价一致性大小
配对χ2检验(McNemar检验)
1、配对χ2检验主要确定两种方法诊断结果是否有差别 2、配对χ2检验只利用“不一致“数据，如表中b和c 3、配对χ2检验只能给出两种方法差别是否具有统计学意义的判断
无效疗效=1
好转疗效=2
显效疗效=3
治愈疗效=4
合计
有效率%
甲法
24
26ห้องสมุดไป่ตู้
72
186
308
92.2
乙法
20
16
24
32
92
78.3
丙法
20
22
14
22

用SPSS作列联分析

列联表的一般结构
列联表中的自由度
I×j列联表
f ij
C1 f11 f 21
C2 f12 f 22

Cj
f1 j f2 j
合计
RT 1 RT 2
R1 R2

Ri

f i1

fi 2

f ij

RTi
合计
CT 1
CT 2
CTj
n
3×3列联表自由度为4
C1 R1 R2
R3
C2 f12 f 22
大学生的运动偏好是否存在差异的问题。如果男女大学生的运动偏好没有差异，体育部与学生会将针对全体学生发起整体性的宣传活动；如果有差异，将分别针对男生和女生采取不同的宣传策略。为此，体育部与学生会随机发放了200份问卷，让每一个学生在乒乓球、羽毛球、网球这三个运动项目上选择出自己最喜欢的一项。调查数据整理后，得出如表下所示的表格:
f 2

接受域
拒绝域
0.05
0
5.9915 22.4
2
2 22.4 5.9915，拒绝原假设。结论：男女大学生的
运动偏好是有差异的，做出这一推断的把握程度是95%。
某啤酒厂生产三种类型啤酒：淡啤酒、普通啤酒、黑啤酒。会议上有人提出男性
与女性饮酒者啤酒偏好是否相同的问题。若不同，公司将针对不同的目标市场采
1954

a bc d a c b d
ad bc

525 763 831 1123 985 969
0.43
Φ相关系数比较适用于2×2列联表。列联表的行数和列数大于2时， Φ相关系数会出现大于是1情况。

应用SPSS软件进行列联表分析资料

应用SPSS 软件进行列联表分析应用SPSS软件进行列联表分析在许多调查研究中，所得到的数据大多为定性数据，即名义或定序尺度测量的数据。

例如在一项全球教育水平的研究中，调查了400余人的个人信息，包括性别、学历、种族等，对原始资料进行整理就可以得到频数分布表。

定义四个变量：gender（性别）、educat （学历）、minority （种族）、count （人数），其中前三个为分类变量，并且gender变量取值为0、1,标签值定义为：0表示female，1表示male;educat变量取值为1、2、3，标签值定义为：1表示学历低，2表示学历中等，3表示学历高；minority变量值为0、1，标签值定义为：0表示非少数种族，1表示为少数种族。

下面做gen der.educa t minority的三维列联表分析及其独立性检验。

数据文件如图1所示。

ye Edit 辿ew Derta Transforfti Analyse Graphs Utlltie^ Add-cns Window Help®■昌国穷》8h再鄭H<5曲圜flj靄20图1第一步：用’Count”变量作为权重进行加权分析处理。

从菜单上依次选Data--weight Cases命令，打开对话框，如图2所示。

点选Weight Cases by项，并将变量“count”移入Frequency Variable栏下，之后单击OK按钮。

第二步：从菜单上依次点选An alyze--Deseriptive Statistics-Crosstabs命令，打开列联分析对话框(Crosstabs)如图3所示Fdi 迥 E住rH 丁 T W TPI►i : K 「Tl19CnprCdlK1 13131X5 0GCl 71H 1 9 1 tc 0 11皿F 耳第三步：在Crosstabs 对话框中，如图4将变量性别gender 从左侧的列表框内移入行变量Row(s)框内，并将受教育年限编码后得到的学历变量educat 移入列变量Column(s)框内(若此时单击OK 按钮，则会输出一个2*3的二维列联表)。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

回目录
2.配对四格表卡方检验
回目录
例2：有两种方法可用于诊断某种癌症，A方法简单易行，成本低，患者更容易接受，B 方法结果可靠，但操作繁琐，患者配合困难。某研究选择了53例待诊断的门诊患者，每个患者分别用A和B两种方法进行诊断，判断两种方法诊断癌症有无差别， A方法是否可以代替B方法。问题1：两种方法诊断癌症有无差别？问题2：A方法是否可以代替B方法（两者的一致性如何）？
回目录
Kappa一致性检验
1、Kappa检验旨在评价两种方法是否存在一致性，或者是同一个研究者先后两次的诊断结果 2、Kappa检验会利用列联表的全部数据
3、Kappa检验可计算Kappa值用于评价一致性大小
配对χ2检验(McNemar检验)
1、配对χ2检验主要确定两种方法诊断结果是否有差别
发病率%
服药组 40（50.49）190（179.51）230
17.3
（nR） 9
对照组 50（39.51）130（140.49）180
27.7
8
合计
90（nC）TRC=3n2R0nC/n
410（n）21.9
5 TRC：第R行、第C列格子的理论频数；nR：第R行的合计数； nc：第C行的合计数；n：总计数
回目录
变量视图数据视图
回目录
结论：
两种药物治疗急性心肌梗塞患者的预后并不相同，A药病死率为5.6%，低于 B药 (14.3%)，但差异无统计学意义（χ2=2.796， P=0.095>0.05）。
回目录
例1.3：案例解析（ Fisher精确检验）用两种药物治疗某种疾病的结果如下，问两药的疗效有误差别？
回目录
结论：
两种药物治疗胃溃疡的复发率并不相同，中药组复发率为23.2%，高于西药组(5.9%)，差异有统计学意义（χ2=6.305，P=0.012<0.05）。
回目录
例1.2：案例解析（连续性校正卡方）
用药物A治疗急性心肌梗死患者198例，24小时内死亡11例，病死率为5.56%，另 42例治疗时采用药物B，24小时内死亡6例，病死率为14.29%，提问：两组病死率有无差别？
组别
A药 B药合计
治愈
2 3 5
未治愈合计
14
16
8
11
22
27
治愈率 % 12.5 27.3 18.5
回目录
Fisher 精确检验比较稳健，国外有统计学专家认为样本数<1000就应该用 Fisher 精确检验，也有些人认为所有的卡方检验都可以使用 Fisher精确检验。
回目录
例1.1：案例解析：某种中药治疗胃溃疡的复发率与常规西药比较是否相同？
Hale Waihona Puke 疗效分组治愈中药
43
西药
48
操作流程：
数据：加权个案-频率变量：权重-确定分析-统计描述-交叉表行：分组列：疗效
统计量：卡方-确定单元格：计数-观察值、期望值
百分比：行-继续确定
复发 13 3
回目录
数据录入
个案加权
列联表分析
回目录
列联表是指对一组观察对象，分别观察其两种分类变量的表现，归纳成双向交叉排列的统计表，这类统计表用的描述行变量和列变量之间的关系称列联表，或交叉表。
回目录
回目录
回目录
➢一、四格表资料的2检验 ➢二、配对四格表资料的 2检验 ➢三、四格表资料的Fisher确切概率法 ➢四、 R×C列表资料的2检验 ➢五、多个样本率间的多重比较
2、配对χ2检验只利用“不一致 “数据，如表中b和c
回目录
前面介绍过列联表，它的行变量和列变量代表的是一个事物的两个不同属性，以我们举过的A药和B药治疗急性心肌梗死患者疗效比较为例，例子中行变量 “药物”和列变量“转归”是患者的两个不同特征。
本例为配对设计的列联表，它的行变量和列变量代表的是一个事物的同一属性，只是对这个属性的判断方法不同而已。如上表所示，行和列均指的是患者是否患有癌症，所不同的是一个是A方法，另一个是B方法。这种列联表最大的特点是行和列数目永远都是一样的，且属性相同。此时，再用成组计数资料的 χ2检验就不合适了。这里我们就要用到Kappa一致性检验和配对χ2检验 (McNemar检验)。
（130-140.49）2/140.49=6.36，=（2-1）*（2-1）=1，查表得，0.25>P>0.01
回目录
2检验实际上是将两样本率的比较转换成实际频数与理论频数的比较，2值的大小反应了各格子的实际频数与理论频数T的接近程度。若检验假设H0成立，实际频数与理论频数相差就不应该很大，因此得到的2值可能就比较小，P>,可认为两样本率来自同一总体的可能性比较大。反之，若实际频数与理论频数相差很大，则得到的2也相应的很大，P<，可认为两样本率来自同一总体的可能性比较小。
率的比较一致性检验拟合度检验
回目录
1.四格表卡方检验
回目录
目的：推断两个样本率（构成比）是否有差别（两样本率来自总体率相同的总体）要求：两样本的两分类个体数排列成四格表资料 H0：两样本的率相同； H1：两样本的率不同
Pearson卡方值：自由度：
回目录
两组人群流感发病率的比较
分组
发病人数未发病人数合计
假设两组发病率相同，均等于合计的发病率21.95（90/410），组服药组的理论发病人数
T11=230*(90/410)=50.49,对照组的理论发病人数T21=180 *(90/410)=39.51，同理可以算出两
组未发病的理论频数分别为179.51,140.49
带入上述公式2=（40-50.49）2/50.49+（190-179.51）2/179.51+（50-39.51）2/39.51+
回目录
回目录
四格表与各组率
卡方检验结果
回目录
四核表卡方的选用条件：
1、总例数≥40，且所有理论频数≥5，看Pearson卡方结果； 2、总例数≥40，有1个理论频数≥1且<5，χ2检验需进行连续性校正，这时以连续性校正结果为准；（连续性校正卡方只在四格表中才计算） 3、总例数≥40，至少2个理论频数≥1且<5，看Fisher精确检验结果； 4、总例数<40或者出现理论频数<1，看Fisher精确检验结果； 5、总例数≥40，且所有理论频数≥5，似然比χ2检验与Pearson卡方一致