SPSS统计分析教程列联表分析

合集下载

用SPSS对计数数据进行统计分析和检验

第七节计数数据统计分析的SPSS操作对于计数数据的统计分析，SPSS提供了不同的分析和检验方法，从总体上来说，大致可以分为：用于比率差异的非参数二项检验，用于离散型变量配合度检验的卡方检验、用于连续型变量配合度检验的单样本K-S检验和正态图检验法和用于独立性检验的列联表分析等，这一节我们简单介绍如何通过SPSS操作解决这些常见的计数数据分析的统计问题。

一、二项分布的非参数检验方法我们常常需要检验一个事件在特定条件下发生的概率是否与已知结论相同，如某地区出生婴儿的性别比例是否与通常男女各半的结论相符，或在一次抽样中，男女两性所占的比例是否与原先设计好的比例相符。

此时即可用二项分布（Binomial）方法进行检验。

下面结合具体数据说明Binomial方法在检验比率差异时的应用。

1．数据所用数据文件为SPSS目录下之GSS93 subset.sav。

这里我们将该数据文件另寸为“8-6-1.sav”。

该文件中有一变量SEX，是回答者的性别，我们想检验这些回答者的性别是否各占一半。

2．理论分析从上面数据来看，我们的目的是检验数据中男生和女生所占的比例是否相等，这等价于检验男生所占的比例是否等于0.5，可以用比例检验的方法进行检验。

在SPSS中对应于二项分布的检验（Binomial Test）过程。

3．二项分布检验过程（1）打开该数据文件后点击菜单Analyze，在下拉菜单中选择Nonparametrics Tests子菜单中的Binomial…，单击可进入二项检验（Binomial Test）的主菜单。

把SEX变量选入到检验变量表列中，其他选项请保持默认（图8-1）。

图8-1：二项分布检验主对话框（2）请单击Options…按钮，打开对话框如图8-2所示。

在此我们想同时在结果中输出一些描述统计量及百分位数，可设置如图所示。

设置完成单击Continue按钮回到主对话框。

图8-2：二项分布Options窗口（3）在主对话框中点击OK得到程序运行结果。

第四章 SPSS的基本统计分析知识讲解

多选项分析
多选项分析的基本思路
– 定义多选项变量集 – 多选项频数分析 – 多选项交叉分组下的频数分析
多选项分析
定义多选项变量集
目的:将已分解的变量定义为一个集合,便于进行多选项分析
– 菜单选项:analyze->multiple response->define sets – 从原变量中选取被分解的变量(数值型)到variables in
进一步计算
– cells选项:选择在频数分析表中输出各种百分比.
row:行百分比(Row pct); column:列百分比(Col pct); total:总百分比(Tot pct);
分析列联表中变量间的关系
目的：
通过列联表分析，检验行列变量之间是否独立。
方法：
– 卡方检验：对品质数据的相关性进行度量
频数分析
基本操作步骤
(1)菜单选项:analyze->descriptive statistics->frequencies (2)选择几个待分析的变量到variables框. (3)chart选项，选择所需要的图形
计算描述统计量
目的
– 精确把握变量的总体分布状况，了解数据的集中趋势、离散趋势、对称程度、陡峭程度。
– 菜单选项:analyze->multiple response->crosstabs
频数分析
目的
粗略把握变量值的分布状况。
例：研究被调查者的特征（如：性别、年龄、收入）研究被调查者对某个问题的总体看法（如：教学方式、选修课程）研究被调查者某方面的状态（如：购买家电的类型、居民月支出状况）
采用的方法
– 计算频分布表：包括计算频数、累计频数、百分比、累计百分比

列联表分析及在SPSS中的实现

二、列联表的统计分析假设ｎ随机试验的结果根据两个特征个
ＡＡｌ２
特Ｂｎｌ＂ｌｉ１１２１
征Ｂｎｌ２２２ｎ２
Ｂ
●
Ａ
ｎｈ
●
Ａ６合计
ｎＧ１ｌｎ．
ｎＧ２２ｎ
● ： ● ：
：
●
：
：
●
：
耳
ｌｎｒ２
ＴｌＴ
合计ｎ１．２ｎ
ｎｉ
ｎＧ
记概率Ｐ＝ＰＡＯＢ）且Ｐ＝ｍ￣Ｐ＝ｍ￣ｊ（ｉ￣，Ｐ，．Ｐ。再记ｊｊｊ
・
收稿日期：００一】一１２ｏ】０修改稿日期：０１３７２０ —０ —２
数有下列种类名称及类型定义公式适用范围及说明
Ｐａｓｎｅｒ积矩ｏ
∞ｖＸ．（Ｙ）
适用于分区间的连续数据或计数数
相系关数ｒ
Ｓｅｒｎ秩ｐａｍａ
一
寂
０ｖＲＣａ（，）
据间且体正或似态之，总呈态近正，
ｒ３。ｌ０ ≥
等级或有序数据之间，应用范围较
相关系数ｒｓ
、｜伍＿
西
广，＜３，ｎ０总体不呈正态均可。
列联相关系数
Ｃ［Ｃ＝
ｖ＝
适于义据间其定义基于用名数之
，
［］
卡检统量方验计Ｑ
，
其中ｑ＝ｍｉ｛１｝ｎｒｃ
其：￣，）ｙ一・（）；中ｃ（ｙｏｘ舌ｊ（墨）・／而Ｄｘ・（・；（）・一手・Ｊ／（）辫一墨）Ｄｙ（ｙ）

spss4-2(基本统计分析)

频数分析表
Central tendency: 用于定义描述集中趋势的一组指标：均数(Mean)、中位数(Median)、众数(Mode)、总和(Sum)。
频数分析表
Dispersion:定义描述离散趋势的一组指标： Std.deviation:标准差 Variance:方差 Range :全距 Minimum:最小值 Maximum:最大值 S.E.mean:标准误
众数
(不唯一性)
无众数原始数据: 8 10 5 9 12 6
一个众数原始数据:
6
5
9
8
5
5
多于一个众数原始数据: 25 28 28 36 42 42
中位数
(median)
1. 排序后处于中间位置上的值
50%
2. 不受极端值的影响
Me
50%
3. 主要用于顺序数据，也可用数值型数据，但不能用于分类数据 4. 各变量值与中位数的离差绝对值之和最小，即
8
9
1
2
3
4
5
6
7
n 1 9 1 位置 5 2 2 中位数 1080
数值型数据的中位数
(10个数据的算例)
【例】：10个家庭的人均月收入数据
排序: 660 750 780 850 1630 2000 位置: 960 1080 1250 1500
9
10
n 1 10 1 位置 5.5 2 2
2 众数(Mode)：出现频率最高的数 3 中位数(Median)：将数据排序后位于正中间的数值。适合于所有分布类型的数据 4 总和(Sum)
众数
(mode) 1. 出现次数最多的变量值

SPSS 教程第三章基本分析

描述性统计分析（Descriptive Statistics）统计分析往往是从了解数据的基本特征开始的。

描述数据分布特征的统计量可分为两类：一类表示数量的中心位置，另一类表示数量的变异程度（或称离散程度）。

两者相互补充，共同反映数据的全貌。

这些内容可以通过SPSS中的“Descriptive Statistics”菜单中的过程来完成。

1 频数分析 (Descriptive Statistics - Frequencies)频数分布分析主要通过频数分布表、条形图和直方图，以及集中趋势和离散趋势的各种统计量来描述数据的分布特征。

下面我们通过例子来学习单变量频数分析操作。

1) 输入分析数据在数据编辑器窗口打开“data1-2.sav”数据文件。

2)调用分析过程在主菜单栏单击“Analyze”，在出现的下拉菜单里移动鼠标至“Descriptive Statistics”项上，在出现的次菜单里单击“Frequencies”项，打开如图3-4所示的对话框。

图3-4 “Frequencies” 对话框3)设置分析变量从左则的源变量框里选择一个和多个变量进入“Variable(s):”框里。

在这里我们选“三化螟蚁螟 [虫口数]”变量进入“Variable(s):”框。

4)输出频数分布表Display frequency tables，选中显示。

5)设置输出的统计量单击“Statistics”按钮，打开图3-5所示的对话框，该对话框用于选择统计量：图3-5 “Statistics”对话框① 选择百分位显示“Percentiles Values”栏：Quartiles：四分位数，显示25%、50%和75%的百分位数。

Cut points for 10 equal groups：将数据平分为输入的10个等份。

Percentile(s):：用户自定义百分位数，输入值0—100之间。

选中此项后，可以利用“Add”、“Change”和“Remove”按钮设置多个百分位数。

列联表资料的SPSS分析

我们以实验研究列联表资料实例，运用SPSS 软件包进行统计分析，对操作过程和结果解释予以详细说明，希望能给大家提供借鉴。
1
一、一般四格表（2 × 2 列联表）资料
实验研究一般四格表（2×2 列联表）资料分析目的主要有 2 个，一是分析两个比率总体的差别有无统计学意义或两样本某指标的分布（或构成）总体是否相同，二是分析两个分类特征是否有关联。
别；Kappa 检验（SPSS 不给可信区间），Kappa = 0.824， P < 0. 01，说明两种检查具有较好的一致性。
可以看出, 两种检验结果是矛盾的。为什么呢? McNemar 法一般用于样本含量 n 不太大的资料，因只考虑结果不一致的情况，而未考虑样本含量 n 和结果一致的情况，所以，当 n 很大且结果一致率高时，不一致的数值相对较小，容易出现有统计学意义的检验结果，但实际意义可能不大。本例即是如此，应以一致性检验结果为准。实际上，对于两种检验（查）方法或诊断方法结果进行分析时，主要分析的也就是一致性。根据Kappa 值判断一致性强度的标准尚有争议，一般认为：Kappa 值< 0.4 时，一致性较差；在 0.4～0.75 之间有中度至高度一致性；> 0.75 时，有极好的一致性。
列联表资料的SPSS分析
在实验研究与基础实验研究中，所分析的指标可以是定量的，也可以是定性的。其定量指标, 有时也转化成定性资料进行分析。这些定性资料或由定量资料转化而来的定性资料，一般都整理成列联表形式，根据资料性质和分析目的选择恰当的分析方法进行统计分析，并将统计分析结果与专业知识相结合, 做出合理的解释。
51
合计
260 182 144
532
有效率（%）
96.60 90.11 81.94

SPSS超详细操作：卡方检验（R×C列联表）

SPSS超详细操作：卡⽅检验（R×C列联表）医咖会之前推送过⼀些卡⽅检验相关的⽂章，包括：卡⽅检验(2x2)、卡⽅检验(2xC)、配对卡⽅检验、分层卡⽅检验等。

今天我们再和⼤家分享⼀下，如何⽤SPSS来做RxC列联表的卡⽅检验。

⼀、问题与数据研究者拟分析购房⼈与购房类型的关系，共招募了在过去12个⽉中有过购房记录的333位受试者，收集了购房⼈类型（buyer_type）和房屋类型（property_type）的变量信息。

其中研究对象类型按照单⾝男性（single male）、单⾝⼥性（single female）、已婚两⼈（married couple）和多⼈家庭（family）分类；房屋类型按照楼房（flat）、平房（bungalow）、独栋别墅（detached house）和联排别墅（terrace）分类，部分数据如下图。

其中，Individual scores for each paticipant（左图）列出了每⼀个研究对象的情况，⽽Total count data (frequencies)（右图）则是对相同情况研究对象的数据进⾏了汇总。

⼆、对问题的分析研究者想分析多种购房⼈类型与多种房屋类型的关系，建议使⽤卡⽅检验（R×C），但需要先满⾜3项假设：假设1：存在两个⽆序多分类变量，如本研究中购房⼈类型和房屋类型均为⽆序分类变量。

假设2：具有相互独⽴的观测值，如本研究中各位研究对象的信息都是独⽴的，不会相互⼲扰。

假设3：样本量⾜够⼤，最⼩的样本量要求为分析中的任⼀期望频数⼤于5。

本研究数据符合假设1和假设2，那么应该如何检验假设3，并进⾏卡⽅检验（R×C）呢？三、SPSS操作1. 数据加权如果数据是汇总格式（如上图中的Total count data），则在进⾏卡⽅检验之前，需要先对数据加权。

如果数据是个案格式（如上图中的Individual scores for each paticipant），则可以跳过“数据加权”步骤，直接进⾏卡⽅检验的SPSS操作。

SPSS基本统计分析（三）：列联表分析

SPSS基本统计分析（三）：列联表分析1、引入在医学统计中，计数资料是非常常见的，比如（患病、未患病），（男、女），（有效、无效）等等，这类资料通常会被整理成列联表的形式，我们平常接触到的列联表多数都是二维的（R×C列联表）。

根据变量是否有序，又分为单向有序、双向有序属性相同、双向有序属性不同列联表，不同的列联表所用统计方法是不一样的。

在后续定性资料统计推断中我们会一一介绍其操作步骤，这节先通过一个例子看一下简单的2×2列联表的卡方检验（反映理论频数和实际频数的差异大小）过程。

2、问题与数据为了探讨吸烟与慢性支气管炎有无关系，调查了339人，结果如下：3、操作步骤3.1 数据录入注意数据的录入方式，给不同变量的不同分类定义新的标签值，这里，变量x代表是否吸烟：0代表吸烟，1代表不吸烟；变量y代表是否患病：0代表患病，1代表不患病。

3.2 数据加权因为数据是汇总格式，所以需要先对数据进行加权。

弹出个案加权对话框后，选择个案加权系数，激活频率变量，将人数放入频率变量栏中，点击确定。

3.3 卡方检验和Fisher精确检验将是否吸烟选入行，是否患慢性支气管炎选入列（结局变量放入列）点击精确，弹出的对话框中选择卡方点击格式，计数框中选择实测和期望，百分比框中选择列。

4、结果解读4.1个案处理摘要表中可以看出有效个案数、缺失个案数和总计个案数。

4.2交叉表由于使用卡方检验要求每个单元格频数不少于5，当条件不满足时，应当用Fisher精确检验。

由表格可以看出期望计数的最小值为22.14，大于5，所以可以直接采用卡方检验。

4.3卡方检验由结果得χ2=7.469，P=0.006<0.05，所以应该拒绝原假设，认为患慢性支气管炎与吸烟之间不是相互独立的。

研究问题时，当任何一个期望计数小于5时，便不再使用卡方检验，而是采用Fisher精确检验，由表格可以看出，本题的费希尔精确检验的双侧P值为0.007。

用SPSS作列联分析

列联表的一般结构
列联表中的自由度
I×j列联表
f ij
C1 f11 f 21
C2 f12 f 22

Cj
f1 j f2 j
合计
RT 1 RT 2
R1 R2

Ri

f i1

fi 2

f ij

RTi
合计
CT 1
CT 2
CTj
n
3×3列联表自由度为4
C1 R1 R2
R3
C2 f12 f 22
大学生的运动偏好是否存在差异的问题。如果男女大学生的运动偏好没有差异，体育部与学生会将针对全体学生发起整体性的宣传活动；如果有差异，将分别针对男生和女生采取不同的宣传策略。为此，体育部与学生会随机发放了200份问卷，让每一个学生在乒乓球、羽毛球、网球这三个运动项目上选择出自己最喜欢的一项。调查数据整理后，得出如表下所示的表格:
f 2

接受域
拒绝域
0.05
0
5.9915 22.4
2
2 22.4 5.9915，拒绝原假设。结论：男女大学生的
运动偏好是有差异的，做出这一推断的把握程度是95%。
某啤酒厂生产三种类型啤酒：淡啤酒、普通啤酒、黑啤酒。会议上有人提出男性
与女性饮酒者啤酒偏好是否相同的问题。若不同，公司将针对不同的目标市场采
1954

a bc d a c b d
ad bc

525 763 831 1123 985 969
0.43
Φ相关系数比较适用于2×2列联表。列联表的行数和列数大于2时， Φ相关系数会出现大于是1情况。

应用SPSS软件进行列联表分析资料

应用SPSS 软件进行列联表分析应用SPSS软件进行列联表分析在许多调查研究中，所得到的数据大多为定性数据，即名义或定序尺度测量的数据。

例如在一项全球教育水平的研究中，调查了400余人的个人信息，包括性别、学历、种族等，对原始资料进行整理就可以得到频数分布表。

定义四个变量：gender（性别）、educat （学历）、minority （种族）、count （人数），其中前三个为分类变量，并且gender变量取值为0、1,标签值定义为：0表示female，1表示male;educat变量取值为1、2、3，标签值定义为：1表示学历低，2表示学历中等，3表示学历高；minority变量值为0、1，标签值定义为：0表示非少数种族，1表示为少数种族。

下面做gen der.educa t minority的三维列联表分析及其独立性检验。

数据文件如图1所示。

ye Edit 辿ew Derta Transforfti Analyse Graphs Utlltie^ Add-cns Window Help®■昌国穷》8h再鄭H<5曲圜flj靄20图1第一步：用’Count”变量作为权重进行加权分析处理。

从菜单上依次选Data--weight Cases命令，打开对话框，如图2所示。

点选Weight Cases by项，并将变量“count”移入Frequency Variable栏下，之后单击OK按钮。

第二步：从菜单上依次点选An alyze--Deseriptive Statistics-Crosstabs命令，打开列联分析对话框(Crosstabs)如图3所示Fdi 迥 E住rH 丁 T W TPI►i : K 「Tl19CnprCdlK1 13131X5 0GCl 71H 1 9 1 tc 0 11皿F 耳第三步：在Crosstabs 对话框中，如图4将变量性别gender 从左侧的列表框内移入行变量Row(s)框内，并将受教育年限编码后得到的学历变量educat 移入列变量Column(s)框内(若此时单击OK 按钮，则会输出一个2*3的二维列联表)。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2 列联表分析（Crosstabs）
列联表是指两个或多个分类变量各水平的频数分布表，又称频数交叉表。

SPSS的Crosstabs过程，为二维或高维列联表分析提供了22种检验和相关性度量方法。

其中卡方检验是分析列联表资料常用的假设检验方法。

例子：山东烟台地区病虫测报站预测一代玉米螟卵高峰期。

预报发生期y为3级（1级为6月20日前，2级为6月21-25日，3级为6月25日后）；预报因子5月份平均气温x1（℃）分为3级（1级为16.5℃以下，2级为16.6-17.8℃，3级为17.8℃以上），6月上旬平均气温x2（℃）分为3级（1级为20℃以下，2级为20.1-21.5℃，3级为21.5℃以上），6月上旬降雨量x3（mm）分为3级（1级为15mm以下，2级为15.1-30mm，3级为30mm以上），6月中旬降雨量x4（mm）分为3级（1级为29mm以下，2级为29.1-36mm，3级为36mm以上）。

数据如下表。

山东烟台历年观测数据分级表（）
注：摘自《农业病虫统计测报》 131页。

1) 输入分析数据
在数据编辑器窗口打开“”数据文件。

数据文件中变量格式如下：
2)调用分析过程
在菜单选中“Analyze-Descriptive- Crosstabs”命令，弹出列联表分析对话框，如下图
3)设置分析变量
选择行变量：将“五月气温[x1]，六月上气温[x2]，六月上降雨[x3]，六月中降雨[x4]”
变量选入“Rows:”行变量框中。

选择列变量：将“玉米螟卵高峰发生期[y]”变量选入“Columns:”列变量框中。

4)输出条形图和频数分布表
Display clustered bar charts: 选中显示复式条形图。

Suppress table: 选中则不输出多维频数分布表。

5)统计量输出
点击“Statistics”按钮，弹出统计分析对话框（如下图）。

Chi-Square: 卡方检验。

选中可以输出皮尔森卡方检验（Pearson）、似然比卡方检验（Likelihood-ratio）、连续性校正卡方检验
（Continuity Correction）及Fisher精确概率检验（Fisher’s Exact test）的结果。

Correlations: 选中输出皮尔森（Pearson）和Spearman相关系数，用以说明行变量和列变量的相关程度。

Nominal: 两分类变量的关联度（Association）测量
Contingency Coefficient: 列联系数，其值越大关联性越强。

Phi and Cramer’s V：Cramer列联系数，其值越大关联性越强。

Lambda: 减少预测误差率，1表示预测效果最好，0表示预测效果最差。

Uncertainty Coefficient: 不定系数
Ordinal: 两有序分类变量（等级变量）的关联度测量
Gamma: 关联度，+1表示完全正关联，-1表示负关联，0表示无联。

Somers’d：列联度，其取值范围和意义同上。

Kendall’s tau-b：
Nominal by Interval: 一个定性变量和一个定量变量的关联度
Eta：关联度统计量。

Kappa：吻合度系数，其取值-1至+1，其值越大吻合程度越高。

Risk：危险度分析。

McNemar：配对计数资料的卡方检验。

Cochran’s and Mantel-Haenszel statistics：检验在协变量存在下，两个二分类变量是否独立。

6) 设置列联表的显示
单击“Cells”按钮，弹出列联表显示内容对话框（如下图）。

Counts: 频数
Observed: 观测频数。

Expected: 期望频数。

Percentages: 百分比
Row: 占本行的百分比。

Column: 占本列的百分比。

Total: 占全部的百分比。

Residuals: 残差分析
Unstandardized: 非标准化残差分析。

Standardized: 标准化残差分析。

Adj. Standardized: 调整的标准化残差分析。

Noninteger Weights:
⊙ Round cell counts: 临近列计算。

○ Truncate cell counts:。

○ Round case Weights临近记录度量
○ Truncate case Weights
○ No adjustments: 不调整。