应用SPSS软件进行列联表分析

合集下载

SPSS统计分析教程列联表分析

2 列联表分析（Crosstabs）列联表是指两个或多个分类变量各水平的频数分布表，又称频数交叉表。

SPSS的Crosstabs过程，为二维或高维列联表分析提供了22种检验和相关性度量方法。

其中卡方检验是分析列联表资料常用的假设检验方法。

例子：山东烟台地区病虫测报站预测一代玉米螟卵高峰期。

预报发生期y为3级（1级为6月20日前，2级为6月21-25日，3级为6月25日后）；预报因子5月份平均气温x1（℃）分为3级（1级为16.5℃以下，2级为16.6-17.8℃，3级为17.8℃以上），6月上旬平均气温x2（℃）分为3级（1级为20℃以下，2级为20.1-21.5℃，3级为21.5℃以上），6月上旬降雨量x3（mm）分为3级（1级为15mm以下，2级为15.1-30mm，3级为30mm以上），6月中旬降雨量x4（mm）分为3级（1级为29mm以下，2级为29.1-36mm，3级为36mm以上）。

数据如下表。

山东烟台历年观测数据分级表（）注：摘自《农业病虫统计测报》 131页。

1) 输入分析数据在数据编辑器窗口打开“”数据文件。

数据文件中变量格式如下：2)调用分析过程在菜单选中“Analyze-Descriptive- Crosstabs”命令，弹出列联表分析对话框，如下图3)设置分析变量选择行变量：将“五月气温[x1]，六月上气温[x2]，六月上降雨[x3]，六月中降雨[x4]”变量选入“Rows:”行变量框中。

选择列变量：将“玉米螟卵高峰发生期[y]”变量选入“Columns:”列变量框中。

4)输出条形图和频数分布表Display clustered bar charts: 选中显示复式条形图。

Suppress table: 选中则不输出多维频数分布表。

5)统计量输出点击“Statistics”按钮，弹出统计分析对话框（如下图）。

Chi-Square: 卡方检验。

选中可以输出皮尔森卡方检验（Pearson）、似然比卡方检验（Likelihood-ratio）、连续性校正卡方检验（Continuity Correction）及Fisher精确概率检验（Fisher’s Exact test）的结果。

用SPSS做相关性分析的入门操作步骤

概述：自变量是连续变量，因变量是连续变量，怎么做相关性分析？自变量是分类变量，因变量是连续变量，怎么做相关性分析？自变量是连续变量，因变量是分类变量，怎么做相关性分析？注：还有其他可替代的分析方法，但效果基本一致。

1、线性回归（自变量连续变量，因变量连续变量）（1）步骤：分析-回归-线性（2）数据处理：i对变量取lg：对连续变量取lg再做回归，用于检验非线性相关关系。

ii均值中心化：先求均值：数据-分类汇总-把变量放到“汇总变量-变量摘要”里。

再进行均值中心化：转换-变量计算-“变量-均值”-得出中心化的新变量。

2、比较均值“独立样本T检验”（自变量分类变量，因变量连续变量）步骤：分析-比较均值-独立样本T检验-因变量放“检验变量”，自变量放“分组变量”，然后定义组-确定结果解读：关注点：看“Sig.(双侧)”是否小于0.05。

3、logistic回归（自变量连续变量，因变量分类变量）步骤：分析-回归-二元logistic-自变量放“协变量”-“选项”点Hosmer-Lemeshow 拟合度（类似于R方）结果解读：（1）模型拟合= Hosmer 和 Lemeshow 检验 =步骤卡方df Sig.1 24.641 8 .002关注点：卡方越小，Sig.越高，说明模型拟合度越高。

关注点：看变量的显著性水平是否小于0.05。

4、列联表分析（自变量分类变量，因变量分类变量）步骤：分析-描述统计-交叉表-自变量放“列”，因变量放“行”-“统计量”点“卡方”-“单元格”点“百分比-行”结果解读：卡方检验值df 渐进 Sig. (双侧)精确 Sig.(双侧)精确 Sig.(单侧)Pearson 卡方 3.245a 1 .072连续校正b 2.900 1 .089似然比 3.313 1 .069Fisher 的精确检验.077 .043 有效案例中的 N 1084a. 0 单元格(.0%) 的期望计数少于 5。

列联表分析及在SPSS中的实现

二、列联表的统计分析假设ｎ随机试验的结果根据两个特征个
ＡＡｌ２
特Ｂｎｌ＂ｌｉ１１２１
征Ｂｎｌ２２２ｎ２
Ｂ
●
Ａ
ｎｈ
●
Ａ６合计
ｎＧ１ｌｎ．
ｎＧ２２ｎ
● ： ● ：
：
●
：
：
●
：
耳
ｌｎｒ２
ＴｌＴ
合计ｎ１．２ｎ
ｎｉ
ｎＧ
记概率Ｐ＝ＰＡＯＢ）且Ｐ＝ｍ￣Ｐ＝ｍ￣ｊ（ｉ￣，Ｐ，．Ｐ。再记ｊｊｊ
・
收稿日期：００一】一１２ｏ】０修改稿日期：０１３７２０ —０ —２
数有下列种类名称及类型定义公式适用范围及说明
Ｐａｓｎｅｒ积矩ｏ
∞ｖＸ．（Ｙ）
适用于分区间的连续数据或计数数
相系关数ｒ
Ｓｅｒｎ秩ｐａｍａ
一
寂
０ｖＲＣａ（，）
据间且体正或似态之，总呈态近正，
ｒ３。ｌ０ ≥
等级或有序数据之间，应用范围较
相关系数ｒｓ
、｜伍＿
西
广，＜３，ｎ０总体不呈正态均可。
列联相关系数
Ｃ［Ｃ＝
ｖ＝
适于义据间其定义基于用名数之
，
［］
卡检统量方验计Ｑ
，
其中ｑ＝ｍｉ｛１｝ｎｒｃ
其：￣，）ｙ一・（）；中ｃ（ｙｏｘ舌ｊ（墨）・／而Ｄｘ・（・；（）・一手・Ｊ／（）辫一墨）Ｄｙ（ｙ）

SPSS软件在定性数据分析中的技术处理

SPSS软件在定性数据分析中的技术处理郭梦霞【摘要】SPSS全称为社会科学统计软件包，SPSS软件在数据管理、统计建模、结果报告等方面具有相当大的优势。

本文主要研究的是在做定性数据分析的时候，如何才能利用SPSS软件恰当的进行数据的组织。

本文主要对多变量的列联表、多选项和单变量等三种形式的定性数据统计分析和输入方式进行的深入的研究。

通过本文的研究，希望各个领域、行业当需要进行定性数据分析的时候，通过本文的阅读能够掌握SPSS软件如何进行定性数据分析，方便自己的使用。

%Called the SPSS social science statistical package,SPSS software in data management,statistical modeling,the results report has a big advantage.This paper mainly studies the when doing the qualitative data analysis,how to use SPSS software appropriate for data organization.This article mainly to multivariate contingency table,more options,and the three types of qualitative data such as univariate statistical analysis and input methods of in-depth study.Through the study of this article,I hope each domain, industry when the need for qualitative data analysis,through reading of this article can grasp qualitative data analysis and SPSS software to facilitate their use.【期刊名称】《电子测试》【年(卷),期】2014(000)008【总页数】3页(P106-108)【关键词】社会科学统计;定性数据;单变量;多变量【作者】郭梦霞【作者单位】陕西职业技术学院管理系，陕西西安，710000【正文语种】中文0 引言SPSS 全称为社会科学统计软件包，英文全称为statistical product and service solutions。

列联表资料的SPSS分析

我们以实验研究列联表资料实例，运用SPSS 软件包进行统计分析，对操作过程和结果解释予以详细说明，希望能给大家提供借鉴。
1
一、一般四格表（2 × 2 列联表）资料
实验研究一般四格表（2×2 列联表）资料分析目的主要有 2 个，一是分析两个比率总体的差别有无统计学意义或两样本某指标的分布（或构成）总体是否相同，二是分析两个分类特征是否有关联。
别；Kappa 检验（SPSS 不给可信区间），Kappa = 0.824， P < 0. 01，说明两种检查具有较好的一致性。
可以看出, 两种检验结果是矛盾的。为什么呢? McNemar 法一般用于样本含量 n 不太大的资料，因只考虑结果不一致的情况，而未考虑样本含量 n 和结果一致的情况，所以，当 n 很大且结果一致率高时，不一致的数值相对较小，容易出现有统计学意义的检验结果，但实际意义可能不大。本例即是如此，应以一致性检验结果为准。实际上，对于两种检验（查）方法或诊断方法结果进行分析时，主要分析的也就是一致性。根据Kappa 值判断一致性强度的标准尚有争议，一般认为：Kappa 值< 0.4 时，一致性较差；在 0.4～0.75 之间有中度至高度一致性；> 0.75 时，有极好的一致性。
列联表资料的SPSS分析
在实验研究与基础实验研究中，所分析的指标可以是定量的，也可以是定性的。其定量指标, 有时也转化成定性资料进行分析。这些定性资料或由定量资料转化而来的定性资料，一般都整理成列联表形式，根据资料性质和分析目的选择恰当的分析方法进行统计分析，并将统计分析结果与专业知识相结合, 做出合理的解释。
51
合计
260 182 144
532
有效率（%）
96.60 90.11 81.94

SPSS超详细操作：卡方检验（R×C列联表）

SPSS超详细操作：卡⽅检验（R×C列联表）医咖会之前推送过⼀些卡⽅检验相关的⽂章，包括：卡⽅检验(2x2)、卡⽅检验(2xC)、配对卡⽅检验、分层卡⽅检验等。

今天我们再和⼤家分享⼀下，如何⽤SPSS来做RxC列联表的卡⽅检验。

⼀、问题与数据研究者拟分析购房⼈与购房类型的关系，共招募了在过去12个⽉中有过购房记录的333位受试者，收集了购房⼈类型（buyer_type）和房屋类型（property_type）的变量信息。

其中研究对象类型按照单⾝男性（single male）、单⾝⼥性（single female）、已婚两⼈（married couple）和多⼈家庭（family）分类；房屋类型按照楼房（flat）、平房（bungalow）、独栋别墅（detached house）和联排别墅（terrace）分类，部分数据如下图。

其中，Individual scores for each paticipant（左图）列出了每⼀个研究对象的情况，⽽Total count data (frequencies)（右图）则是对相同情况研究对象的数据进⾏了汇总。

⼆、对问题的分析研究者想分析多种购房⼈类型与多种房屋类型的关系，建议使⽤卡⽅检验（R×C），但需要先满⾜3项假设：假设1：存在两个⽆序多分类变量，如本研究中购房⼈类型和房屋类型均为⽆序分类变量。

假设2：具有相互独⽴的观测值，如本研究中各位研究对象的信息都是独⽴的，不会相互⼲扰。

假设3：样本量⾜够⼤，最⼩的样本量要求为分析中的任⼀期望频数⼤于5。

本研究数据符合假设1和假设2，那么应该如何检验假设3，并进⾏卡⽅检验（R×C）呢？三、SPSS操作1. 数据加权如果数据是汇总格式（如上图中的Total count data），则在进⾏卡⽅检验之前，需要先对数据加权。

如果数据是个案格式（如上图中的Individual scores for each paticipant），则可以跳过“数据加权”步骤，直接进⾏卡⽅检验的SPSS操作。

SPSS数据的基本统计分析

SPSS数据的基本统计分析SPSS（统计软件包用于社会科学）是一种广泛使用的统计分析软件，它提供了一系列功能强大的工具，可以对数据进行基本的统计分析。

在本文中，将介绍SPSS数据的基本统计分析方法，包括数据导入、数据描述统计、数据绘图和假设检验。

数据导入SPSS可以导入多种数据格式，如Excel、CSV、TXT等。

在导入数据时，需要设置数据类型和变量属性，并进行数据清洗。

数据清洗包括处理缺失值、异常值和离群值等。

数据描述统计一旦数据导入SPSS，可以使用描述统计方法来了解数据的基本情况，包括数据的中心趋势、离散趋势和分布情况。

中心趋势：中心趋势是指一组数据的集中程度。

常见的中心趋势度量包括均值、中位数和众数。

SPSS可以计算这些统计量，并提供了描述统计分析的结果。

离散趋势：离散趋势是指一组数据的分散程度。

常见的离散趋势度量包括方差、标准差和极差。

SPSS可以计算这些统计量。

分布情况：了解数据的分布情况可以帮助研究人员判断数据是否满足正态分布或其他分布假设。

SPSS可以绘制直方图、箱线图和正态概率图等来展示数据的分布情况。

数据绘图数据绘图是一种可视化数据的方法，可以更直观地了解数据之间的关系和趋势。

SPSS提供了多种数据绘图方法，包括柱状图、折线图、散点图和饼图等。

可以通过简单的菜单选择来创建相应的图表，并设置图表的格式和风格。

假设检验假设检验是统计分析中非常重要的一步，可以帮助研究人员验证研究假设是否成立。

SPSS提供了各种假设检验方法，如t检验、方差分析、卡方检验和相关分析等。

t检验：用于比较两个样本均值是否存在差异。

SPSS可以进行独立样本t检验和配对样本t检验。

方差分析：用于比较多个样本均值是否存在差异。

SPSS可以进行单因素方差分析和多因素方差分析。

卡方检验：用于比较观察频数与期望频数之间是否存在差异。

SPSS 可以进行卡方检验和列联表分析。

相关分析：用于分析两个变量之间的相关性。

SPSS可以计算皮尔逊相关系数和斯皮尔曼等级相关系数。

SPSS基本功能及操作

SPSS基本功能及操作SPSS（Statistical Package for the Social Sciences）是一种统计分析软件，它提供了一系列强大的数据处理和分析功能，广泛应用于社会科学、商业和医学等领域。

本文将介绍SPSS的基本功能及操作，帮助用户了解如何使用该软件进行数据分析。

一、数据输入与管理2. 数据导入：用户可以从外部文件中导入数据，如Excel文件、文本文件等，方便检索和分析。

二、数据描述与统计分析SPSS提供了丰富的数据描述和统计分析功能，帮助用户更好地理解和解释数据。

下面是一些常用的数据描述和统计分析功能：1.描述统计：SPSS可以计算变量的描述统计量，如均值、标准差、最大值、最小值等，帮助用户了解数据的基本特征。

2.频数分析：对分类变量进行频数分析，生成频数表、百分比表和列联表等，并支持绘制直方图和柱状图。

3.相关分析：计算变量之间的相关系数，帮助用户了解变量之间的相关关系，并支持绘制散点图和相关矩阵图。

4.方差分析：进行单因素或多因素方差分析，检验不同因素对因变量的影响，并进行统计显著性检验。

5.回归分析：进行线性回归或多元回归分析，建立回归模型，预测因变量的值，并进行模型评估和统计检验。

三、数据可视化与报告输出SPSS提供了丰富的数据可视化和报告输出功能，帮助用户更直观地呈现数据分析结果。

下面是一些常用的数据可视化和报告输出功能：1.图表绘制：SPSS支持绘制多种图表类型，如直方图、柱状图、散点图、线图等，帮助用户更好地展示数据分布和趋势。

2. 报告输出：用户可以将数据分析结果导出为报告格式，如Word、PDF等，方便结果的分享和演示。

3.表格制作：用户可以在SPSS中直接生成各类统计分析结果的表格，如频数表、交叉表、相关矩阵表等，便于数据的整理和查阅。

4.发布图形：用户可以将统计结果图形发布到网页或者PPT等，方便在其他软件中引用和展示。

四、数据挖掘与高级分析SPSS提供了一些高级的数据挖掘和分析功能，帮助用户发现数据中的隐藏信息和规律。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

应用SPSS软件进行列联表分析
在许多调查研究中，所得到的数据大多为定性数据，即名义或定序尺度测量的数据。

例如在一项全球教育水平的研究中，调查了400余人的个人信息，包括性别、学历、种族等，对原始资料进行整理就可以得到频数分布表。

定义四个变量：gender（性别）、educat（学历）、minority（种族）、count（人数），其中前三个为分类变量，并且gender变量取值为0、1,标签值定义为：0表示female，1表示male;educat变量取值为1、2、3，标签值定义为：1表示学历低，2表示学历中等，3表示学历高；minority变量值为0、1，标签值定义为：0表示非少数种族，1表示为少数种族。

下面做gender、educat、minority的三维列联表分析及其独立性检验。

数据文件如图1所示。

图1
第一步：用“count”变量作为权重进行加权分析处理。

从菜单上依次选Data--weight Cases 命令，打开对话框，如图2所示。

图2
点选Weight Cases by项，并将变量“count”移入Frequency Variable栏下，之后单击OK按钮。

第二步：从菜单上依次点选Analyze--Deseriptive Statistics--Crosstabs命令，打开列联分析对话框(Crosstabs),如图3所示。

图3
第三步：在Crosstabs对话框中，如图4将变量性别gender从左侧的列表框内移入行变量Row(s)框内，并将受教育年限编码后得到的学历变量educat移入列变量Column(s)框内（若
此时单击OK按钮，则会输出一个2*3的二维列联表）。

这里要输出一个三维列联表，将变量种族minority作为分层变量移入Layer框中，并且可以勾选左下方的Display clustered bar charts项，以输出聚集的条形图，如图8图9所示。

图4
第四步：选择统计量，单击Cosstabs对话框下侧的Statistics按钮，打开其对话框，如图5 所示。

图5
在Statistics对话框内，勾选Chi-square项，以输出表2进行独立性检验。

这里由于不是定距
及定比尺度测量的数据，因此可以不选择简单相关系数Correlations 项。

接下来根据数据的类型而选择相应的列联相关的测量值：在定类数据Nominal 栏下，勾选列联系数Contingency coefficient 和Phi and Cramer ’s V 选项（这里Phi 系数可以不选，因它只用于2*2的列联表，但SPSS 把它与Cramer 的V 统计量放在一个选项上，也就只好一并选上了），以及Lamabda 和不确定系数Uncertainty coefficient 。

也可选择定序数据Ordinal 栏下得Gamma 、Somers 的d 、Kendall 的b τ和c τ。

至于Nominal by Interval 栏下的Eta 选项就不必选了，因为这里不是定距及定比尺度测量的数据。

单击Continue 按钮回到Crosstabs 主对话框。

第五步：单击Crosstabs 对话框下侧的Cells 按钮，打开其对话框，如图6所示。

在Cell Display 对话框内，勾选Counts(计数)栏下的Observed(观测频数)与Expected(期望频数)两个选项；并勾选Percentage 百分栏下得Row(行百分比)、Column(列百分比)和Total(总百分比)三个选项。

由此，可以输出列联表（如表1）。

单击Continue 按钮回到Crosstabs 主对话框。

图6
第六步：单击Crosstabs 对话框下侧的Format 按钮，打开Table Format 对话框，如图7所示。

它只是一个输出格式的定义，行序（Row Order ）按照Ascending(升序)还是Descending(降序)排列，系统隐含设置是按照Ascending(升序)排列（事实上，一般不必打开此对话框，只用系统隐含设置即可）。

单击Continue 按钮回到Crosstabs 主对话框。

图7
第七步：在Crosstabs对话框中，单击OK按钮执行。

输出结果如表1~4所示。

表1性别、学历、种族交叉表
表2卡方检验表表3方向性测度
表4对称性测度
在三维列联表中，结合图7图8，可以看出：非少数种族的女性低学历的比例为72.9%,高于男性低学历的比例25.8%;而相反女性高学历的比例仅为0.6%，远远低于男性高学历的比例。

在少数种族中，从低学历至高学历，无论男女都是同样的递减趋势，即低学历的所占比百分比高，中等学历的所占百分比其次，最少的就是高学历的所占百分比，只不过女性这种趋势更明显，分别为75%、25%、0%。

图8
图9
χ=93.724，非常大，相应的p值小于0.001.因此在0.001的显著水在非少数种族类型中：2
平下高度显著，即拒绝：性别与学历相互独立的原假设，两者之间具有高度显著的相关关联。

由聚集的条形图可以直观的看到：女性低学历比例比男性高，同时男性高学历比例又比女性高。

χ=5.926，p=0.052>0.05,因此在0.05的显著水平下，没有理由拒绝在少数种族类型内：2
两个变量独立的原假设，表示性别与学历这两个变量之间相互独立，没有显著的相关关联。

在表3的方向性测度(Directional Measures)中，有两类系数：不确定系数（Uncertainty Coefficient）和Somers’d。

每种系数均有三种形式：对称的（Symmetric）、以性别为因变量的及以学历为因变量的。

事实上，我们关心的是两种形式——对称的（Symmetric）和以学历为因变量的。

在这里非少数种族的对称不确定系数为0.173，而少数种族的对称不确定系数为0.050；并且以学历为因变量的非少数种族的对称不确定系数为0.148，而少数种族的列联相关程度高于少数种族的。

在对称性测度（Symmetric Measures）中，Crammer的V值列联表系数、Kendall的τ系数值以及γ值（Gamma）,非少数种族的上述各项值均高于少数种族的，显示出预测力以非少数种族更强。

事实上，在少数种族的Crammer的V值列联表系数的近似的p值为0.052，在0.05的显著水平下不显著。

在列联表分析中，列联表的分布除了观察值的分布外，还要构造条件百分比表。

这个百分比就是由于对比的基数不同，从而分为行百分比、列百分比和总百分比。

所以，列联表由于维数的增加而使得它所包含的信息要比“单个变量”的频数（包括频率）分布表包含的信息多得多，由此我们可以分析出来的内容也更加丰富有价值。

参考文献：数据分析与SPSS应用高祥宝董寒青编著，清华大学出版社。