交叉列联分析

交叉列联分析
交叉列联分析

3.5 交叉列联表分析

在实际分析中,除了需要对单个变量的数据分布情况进行分析外,还需要掌握多个变量在不同取值情况下的数据分布情况,从而进一步深入分析变量之间的相互影响和关系,这种分析就称为交叉列联表分析。

当所观察的现象同时与两个因素有关时,如某种服装的销量受价格和居民收入的影响,某种产品的生产成本受原材料价格和产量的影响等,通过交叉列联表分析,可以较好地反映出这两个因素之间有无关联性及两个因素与所观察现象之间的相关关系。

因此,数据交叉列联表分析主要包括两个基本任务:一是根据收集的样本数据,产生二维或多维交叉列联表;二是在交叉列联表的基础上,对两个变量间是否存在相关性进行检验。要获得变量之间的相关性,仅仅靠描述性统计的数据是不够的,还需要借助一些表示变量间相关程度的统计量和一些非参数检验的方法。常用的衡量变量间相关程度的统计量是简单相关系数,但在交叉列联表分析中,由于行列变量往往不是连续变量,不符合计算简单相关系数的前提条件。因此,需要根据变量的性质选择其他的相关系数,如Kendall等级相关系数、Eta值等。SPSS提供了多种适用于不同类型数据的相关系数表达,这些相关性检验的零假设都是:行和列变量之间相互独立,不存在显著的相关关系。根据SPSS检验后得出的相伴概率(Concomitant Significance)判断是否存在相关关系。如果相伴概率小于显著性水平0.05,那么拒绝零假设,行列变量之间彼此相关;如果相伴概率大于显著性水平0.05,那么接受原假设,行列变量之间彼此独立。

在交叉列联表分析中,SPSS所提供的相关关系的检验方法主要有以下3种:(1)卡方(χ2)统计检验:常用于检验行列变量之间是否相关。计算公式为:

(3.11)其中,f0表示实际观察频数,f e表示期望频数。

卡方统计量服从(行数-1)′(列数-1)个自由度的卡方统计。SPSS在计算卡方统计量时,同时给出相应的相伴概率,由此判断行列变量之间是否相关。

(2)列联系数(Contingency coefficient):常用于名义变量之间的相关系数计算。计算公式由卡方统计量修改而得,公式如下:

(3.12)(3)y系数(Phi and Cramer’s V):常用于名义变量之间的相关系数计算。计算公式由卡方统计量修改而得,公式如下:

(3.13)y系数介于0和1之间,其中,K为行数和列数较小的实际数。

交叉列联表分析的具体操作步骤如下:

01打开数据文件,选择【分析】(Analyze)菜单,单击【描述统计】(Descri ptive Statistics)命令下的【交叉表】(Crosstabs)命令。“交叉表”(Cr osstabs)主对话框如图3-13所示。

图3-13 “交叉表”主对话框

在该主对话框中,左边的变量列表为原变量列表,通过单击按钮可选择一个或者几个变量进入右边的“行”(Row(s))变量列表框、“列”(Column(s))变量列表框和“层”(Layer)变量列表框中。

如果是二维列联表分析,只需选择行列变量即可,但如进行三维以上的列联表分析,可以将其他变量作为控制变量选到“层”(Layer)变量列表框中。有多个

层控制变量时,可以根据实际的分析要求确定它们的层次,既可以是同层次的也可以是逐层叠加的。

在“交叉表”对话框底端有两个可选择项:

l 显示复式条形图(Display clustered bar chart):指定绘制各个变量不同交叉取值下关于频数分布的柱形图;

l 取消表格(Suppress table):不输出列联表的具体表格,而直接显示交叉列联表分析过程中的统计量,如果没有选中统计量,则不产生任何结果。所以,一

般情况下,只有在分析行列变量间关系时选择此项。

该对话框的右端有4个按钮,从上到下依次为【精确】(Exact)按钮、【统计量】(Statistics)按钮、【单元格】(Cells)按钮和【格式】(Format)按钮。单击可进入对应的对话框。

02单击【精确】(Exact)按钮,打开“精确检验”(Exact Tests)对话框,如图3-14所示。

该对话框提供了3种用于不同条件的检验方式来检验行列变量的相关性。用户可选择以下3种检验方式之一:

l 仅渐近法(Asymptotic only):适用于具有渐近分布的大样本数据,SPSS默认选择该项。

l Monte Carlo(蒙特卡罗法):此项为精确显著性水平值的无偏估计,无需数据具有渐近分布的假设,是一种非常有效的计算确切显著性水平的方法。在“置信水

平”(Confidence Level)参数框内输入数据,可以确定置信区间的大小,一般

为90、95、99。在“样本数”(Number of samples)参数框中可以输入数据的

样本容量。

l 精确(Exact):观察结果概率,同时在下面的“每个检验的时间限制为”(Time l imit per test)的参数框内,选择进行精确检验的最大时间限度。

用户在本对话框内进行选择后,单击【继续】(Continue)按钮即可返回“交叉表”主对话框。一般情况下,“精确检验”(Exact Tests)对话框的选项都默认为系统默认值,不作调整。

图3-14 “精确检验”对话框

03单击【统计量】(Statistics)按钮,打开“交叉表:统计量”(Crosstabs:Statistics)对话框,如图3-15所示。

在该对话框中,用户可以选择输出合适的统计检验统计量。对话框中各选项的意义如下:

(1)卡方(Chi-square)检验复选框:检验列联表行列变量的独立性检验,也被称为Pearson chi-square检验、χ2检验。

(2)相关性(Correlations)检验复选框:输出列联表行列变量的Pearson相关系数或Spearman相关系数。

(3)名义(Nominal)栏:适用于名称变量统计量。

l 相依系数(Contingency coefficient):即Pearson相关系数或Spearman相关系数。

l Phi 和Cramer变量(y系数):常用于名义变量之间的相关系数计算。计算公式由卡方统计量修改而得,如公式(3.13)所示。ψ系数介于0和1之间,其中,

K为行数和列数较小的实际数。

l Lambda(λ系数):在自变量预测中用于反映比例缩减误差,其值为1时表明自变量预测因变量好,为0时表明自变量预测因变量差。

l 不定性系数(Uncertainty coefficient):以熵为标准的比例缩减误差,其值接近1时表明后一变量的信息很大程度上来自前一变量,其值接近0时表明后一变

量的信息与前一变量无关。

图3-15 “交叉表:统计量”对话框

(4)有序(Ordinal)栏:适用于有序变量的统计量。

l Gamma(伽马系数,γ系数):两有序变量之间的关联性的对称检验。其数值界于0和1之间,所有观察实际数集中于左上角和右下角时,取值为1,表示两

个变量之间有很强的相关;取值为0时,表示两个变量之间相互独立。

l Somers’d值:两有序变量之间的关联性的检验,取值范围为[-1,1]。

l Kendall¢s tau-b值:考虑有结的秩或等级变量关联性的非参数检验,相同的观察值选入计算过程中,取值范围为[-1,1]。

l Kendall¢s tau-c值:忽略有结的秩或等级变量关联性的非参数检验,相同的观察值不选入计算过程,取值范围界为[-1,1]。

(5)按区间标定(Nominal by interval)栏:适用于一个名义变量与一个等距变量的相关性检验。

l Kappa系数:检验数据内部的一致性,仅适用于具有相同分类值和相同分类数量的变量交叉表。

l Eta值:其平方值可认为是因变量受不同因素影响所致方差的比例。

l 风险(相对危险度):检验事件发生和某因素之间的关联性。

l McNemar检验:主要用于检验配对的资料率(相当于配对卡方检验)。

(6)Cochran's and Mantel-Haenszel统计量复选框:适用于在一个二值因素变量和一个二值响应变量之间的独立性检验。

用户在“交叉表:统计量”对话框中进行选择后,单击【继续】(Continue),即可返回“交叉表”(Crosstabs)主对话框。一般情况下,对“交叉表:统计量”对话框内的选项不作选择或选择较为常用的卡方检验。

04单击【单元格】(Cells)按钮,打开“交叉表:单元显示”(Crosstabs:C ell Display)对话框,如图3-16所示。

图3-16 “交叉表:单元显示”对话框

在该对话框中,用户可以指定列联表单元格中的输出内容。SPSS17.0默认在交叉列联表中输出实际的观察值,但观察值有时候不能确切地反映事物的实质,因此还需要输出其他的数据项。对话框中各选项的具体意义如下:

(1)计数(Counts)栏:

l 观察值(Observed):系统默认选项,表示输出为实际观察值。

l 期望值(Expected):表示输出为理论值。

(2)百分比(Percentages)栏:

l 行(Row)百分比:以行为单元,统计行变量的百分比。

l 列(Column)百分比:以列为单元,统计列变量的百分比。

l 总计(Total)百分比:行列变量的百分比都进行输出。

(3)残差(Residuals)栏:

l 未标准化(Unstandardized):输出非标准化残差,为实际数与理论数的差值。

l 标准化(Standardized):输出标准化残差,为实际数与理论数的差值除以理论数。

l 调节的标准化(Adjusted standardized):输出修正标准化残差,为标准误确定的单元格残差。

(4)非整数权重(Noninteger Weights)栏:

l 四舍五入单元格计数(Round cell counts,系统默认):将单元格计数的非整数部分的尾数四舍五入为整数。

l 截短单元格计数(Truncate cell counts):将单元格计数的非整数部分的尾数舍去,直接化为整数。

l 四舍五入个案权重(Round case Weights):将观测量权数的非整数部分的尾数四舍五入为整数。

l 截短个案权重(Truncate case Weights):将观测量权数的非整数部分的尾数舍去,化为整数。

l 无调节(No adjustments):不对计数数据进行调整。

用户在“交叉表:单元显示”对话框中进行选择后,单击【继续】(Continue)按钮,即可返回“交叉表”主对话框。一般情况下,对“交叉表:单元显示”对话框的选项都默认为系统默认值,不作调整。

05单击【格式】(Format)按钮,打开“交叉表:表格格式”(Crosstabs:Ta ble Format)对话框,如图3-17所示。

图3-17 “交叉表:表格格式”对话框

在该对话框中,用户可以指定列联表的输出排列顺序。对话框中各选项的具体意义如下:在行序(Row Order)栏中有如下两个选项:

l 升序(Ascending):系统默认,以升序显示各变量值;

l 降序(Descending):以降序显示各变量值。

用户在该对话框中进行选择后,单击【继续】(Continue)按钮,即可返回“交叉表”主对话框。

06在“交叉表”对话框中单击【确定】(OK)按钮,可在输出窗口中得到数据概述、交叉列联表、卡方检验表、交叉分组下频率分布柱形图、相对危险性估计等图表。

交叉表分析

进行交叉表分析时需要注意: (1)卡方检验要求各单元的期望频数均大于5或小于5的比例不能超过20%;当样本数小于40时,需要进行小样本的交叉表分析。即选择输出结果中的Fisher精确检验结果(Fisher's Exact Test) (2)若变量为定距以上的变量需要先转化为定类或定序变量 data05-02为某公司工资数据(n=15)。使用变量性别sex、收入高低earnings分析男女经理间薪金是否平等。 可以利用data05-01中的数据,使用变量occcat80为工作性质分类,region为地区,childs 为每个家庭的孩子数。将childs为行变量,occcat80为列变量,region为控制变量选入Layer of框中,进行交叉表分析。 列联表(交叉表)分析 1、项目名称 Crosstabs过程 4、实训原理 Crosstabs过程用于定类数据和定序数据进行统计描述和简单的统计推断。在分析时可以产生二维至n维列联表,并计算相应的百分数指标。 4-1 列联表分析的含义与任务 在实际分析中,当问题涉及到多个变量时,我们不仅要了解单个变量的分布特征,还要分析多个变量不同取值下的分布,掌握多变量的联合分布特征,进而分析变量之间的相互影响和关系。很明显,如果还采用单纯的频数分析方法显然不能满足要求。因此,我们需要借助交叉分组下的频数分析,即列联表分析。列联表分析的主要任务有两个: (1)根据样本数据产生二维或多维交叉列联表。交叉列联表是两个或两个以上变量交叉分组后形成的频数分布表。 (2)在交叉列联表的基础上,分析两变量之间是否具有独立性或一定的相关性。 4-2 卡方检验的原理 为了理解列联表中行变量(Row)和列变量(Column)之间的关系,我们需要借助非参数检验方法。通常采用的方法是卡方检验。和一般假设检验一样,

交叉列联分析

交叉列联表分析 在实际分析中,除了需要对单个变量的数据分布情况进行分析外,还需要掌握多个变量在不同取值情况下的数据分布情况,从而进一步深入分析变量之间的相互影响和关系,这种分析就称为交叉列联表分析。 当所观察的现象同时与两个因素有关时,如某种服装的销量受价格和居民收入的影响,某种产品的生产成本受原材料价格和产量的影响等,通过交叉列联表分析,可以较好地反映出这两个因素之间有无关联性及两个因素与所观察现象之间的相关关系。 因此,数据交叉列联表分析主要包括两个基本任务:一是根据收集的样本数据,产生二维或多维交叉列联表;二是在交叉列联表的基础上,对两个变量间是否存在相关性进行检验。要获得变量之间的相关性,仅仅靠描述性统计的数据是不够的,还需要借助一些表示变量间相关程度的统计量和一些非参数检验的方法。常用的衡量变量间相关程度的统计量是简单相关系数,但在交叉列联表分析中,由于行列变量往往不是连续变量,不符合计算简单相关系数的前提条件。因此,需要根据变量的性质选择其他的相关系数,如Kendall等级相关系数、Eta值等。SPSS提供了多种适用于不同类型数据的相关系数表达,这些相关性检验的零假设都是:行和列变量之间相互独立,不存在显著的相关关系。根据SPSS检验后得出的相伴概率(Concomitant Significance)判断是否存在相关关系。如果相伴概率小于显著性水平,那么拒绝零假设,行列变量之间彼此相关;如果相伴概率大于显著性水平,那么接受原假设,行列变量之间彼此独立。 在交叉列联表分析中,SPSS所提供的相关关系的检验方法主要有以下3种:(1)卡方(χ2)统计检验:常用于检验行列变量之间是否相关。计算公式为: ()其中,f0表示实际观察频数,f e表示期望频数。 ^ 卡方统计量服从(行数-1)′(列数-1)个自由度的卡方统计。SPSS在计算卡方统计量时,同时给出相应的相伴概率,由此判断行列变量之间是否相关。

SPSS统计分析教程列联表分析

2 列联表分析(Crosstabs) 列联表是指两个或多个分类变量各水平的频数分布表,又称频数交叉表。SPSS的Crosstabs过程,为二维或高维列联表分析提供了22种检验和相关性度量方法。其中卡方检验是分析列联表资料常用的假设检验方法。 例子:山东烟台地区病虫测报站预测一代玉米螟卵高峰期。预报发生期y为3级(1级为6月20日前,2级为6月21-25日,3级为6月25日后);预报因子5月份平均气温x1(℃)分为3级(1级为16.5℃以下,2级为16.6-17.8℃,3级为17.8℃以上),6月上旬平均气温x2(℃)分为3级(1级为20℃以下,2级为20.1-21.5℃,3级为21.5℃以上),6月上旬降雨量x3(mm)分为3级(1级为15mm以下,2级为15.1-30mm,3级为30mm以上),6月中旬降雨量x4(mm)分为3级(1级为29mm以下,2级为29.1-36mm,3级为36mm以上)。数据如下表。 山东烟台历年观测数据分级表() 注:摘自《农业病虫统计测报》 131页。 1) 输入分析数据 在数据编辑器窗口打开“”数据文件。 数据文件中变量格式如下: 2)调用分析过程 在菜单选中“Analyze-Descriptive- Crosstabs”命令,弹出列联表分析对话框,如下图 3)设置分析变量 选择行变量:将“五月气温[x1],六月上气温[x2],六月上降雨[x3],六月中降雨[x4]”

变量选入“Rows:”行变量框中。 选择列变量:将“玉米螟卵高峰发生期[y]”变量选入“Columns:”列变量框中。 4)输出条形图和频数分布表 Display clustered bar charts: 选中显示复式条形图。 Suppress table: 选中则不输出多维频数分布表。。 5)统计量输出 点击“Statistics”按钮,弹出统计分析对话框(如下图)。 Chi-Square: 卡方检验。选中可以输出皮尔森卡方检验(Pearson)、似然比卡方检验(Likelihood-ratio)、连续性校正卡方检验 (Continuity Correction)及Fisher精确概率检验(Fisher’s Exact test)的结果。 Correlations: 选中输出皮尔森(Pearson)和Spearman相关系数,用以说明行变量和列变量的相关程度。 Nominal: 两分类变量的关联度(Association)测量 Contingency Coefficient: 列联系数,其值越大关联性越强。 Phi and Cramer’s V:Cramer列联系数,其值越大关联性越强。 Lambda: 减少预测误差率,1表示预测效果最好,0表示预测效果最差。 Uncertainty Coefficient: 不定系数 Ordinal: 两有序分类变量(等级变量)的关联度测量 Gamma: 关联度,+1表示完全正关联,-1表示负关联,0表示无联。 Somers’d:列联度,其取值范围和意义同上。 Kendall’s tau-b: Nominal by Interval: 一个定性变量和一个定量变量的关联度

应用SPSS软件进行列联表分析

应用SPSS软件进行列联表分析 在许多调查研究中,所得到的数据大多为定性数据,即名义或定序尺度测量的数据。例如在一项全球教育水平的研究中,调查了400余人的个人信息,包括性别、学历、种族等,对原始资料进行整理就可以得到频数分布表。 定义四个变量:gender(性别)、educat(学历)、minority(种族)、count(人数),其中前三个为分类变量,并且gender变量取值为0、1,标签值定义为:0表示female,1表示male;educat变量取值为1、2、3,标签值定义为:1表示学历低,2表示学历中等,3表示学历高;minority变量值为0、1,标签值定义为:0表示非少数种族,1表示为少数种族。下面做gender、educat、minority的三维列联表分析及其独立性检验。数据文件如图1所示。 图1 第一步:用“count”变量作为权重进行加权分析处理。从菜单上依次选Data--weight Cases 命令,打开对话框,如图2所示。

图2 点选Weight Cases by项,并将变量“count”移入Frequency Variable栏下,之后单击OK按钮。 第二步:从菜单上依次点选Analyze--Deseriptive Statistics--Crosstabs命令,打开列联分析对话框(Crosstabs),如图3所示。 图3 第三步:在Crosstabs对话框中,如图4将变量性别gender从左侧的列表框内移入行变量Row(s)框内,并将受教育年限编码后得到的学历变量educat移入列变量Column(s)框内(若

此时单击OK按钮,则会输出一个2*3的二维列联表)。这里要输出一个三维列联表,将变量种族minority作为分层变量移入Layer框中,并且可以勾选左下方的Display clustered bar charts项,以输出聚集的条形图,如图8图9所示。 图4 第四步:选择统计量,单击Cosstabs对话框下侧的Statistics按钮,打开其对话框,如图5 所示。 图5 在Statistics对话框内,勾选Chi-square项,以输出表2进行独立性检验。这里由于不是定距

第七章 列联表分析

第七章列联表分析 7.1 列联表(Crosstabs)分析的过程 7.2 列联表的实例分析 7.1 列联表 (Crosstabs) 分析的过程 列联表分析的过程是对两个变量之间关系的分析方法。被分析的变量可以是定类变量也可以是定序变量。系统是通过生成列联表对两个变量进行列联表分析的。 列联表分析的功能可以通过下述操作来实现。 图7-1 列联表分析对话框 1.打开列联表分析对话框 执行下述操作: Analyze→Descriptive→Crosstabs 打开Crosstabs 对话框如图7-1 所示。 2.确定列联分析的变量 从左侧的源变量窗口中选择两个定类变量或定序变量分别进入Row(s)(行)窗口和Column(s)(列)窗口。进入Row(s)窗口的变量的取值将作为行的标志输出,而进入Column(s)窗口的变量的取值将作为列的标志输出。Display clustered bar charts 是在输出结果中显示聚类条图。Suppress table 是隐藏表格,如果选择此项,将不输出R×C 列联表。 3.选择统计分析内容 单击statistics 按钮,打开statistics 对话框,如图7-2 所示。

图7-2statistics 对话框 下面介绍该对话框中的选项和选项栏的内容: (1)Chi-square 是卡方(X2)值选项,用以检验行变量和列变量之间是否独立。适用于定类变量和定序变量。 (2)Correlations 是皮尔逊(Pearson)相关系数r 的选项。用以测量变量之间的线性相关。适用于定序或数值变量(定距以上变量)。 (3)Nominal 是定类变量选项栏。选项栏中的各项是当分析的两个变量都为定类变量时可以选择的参数。 1)Contingency coefficient:列联相关的C 系数,由卡方系数修正而得。 2) Phi and Cramer's V:列联相关的V 系数,由卡方系数修正而得。 3)Lambda:λ系数。 4)Uncertainty Coefficient:不定系数。 (4)Ordinal 是定序变量选项栏。选项栏中的各项是当分析的两个变量都为定序变量时可以选择的参数。 1)Gramma:Gramma 等级相关系数。 2)Somers’d:Somers 等级相关d 系数。 3)Kendall’s tau-b:肯得尔等级相关tau-b 系数。 4)Kendall’s tau-c:肯得尔等级相关tau-c 系数。 (5)Nominal by Interval 选项栏中的Eta 是当一个变量为定类变量,另一个变量为数值变量时,测量两个变量之间关系的相关比率。 系统默认状态是不输出上述参数。如需要可自行选择。上述选择做完以后,单击Continue 返回到Crosstabs 对话框。 4.确定列联表内单元格值的选项 单击Cells(单元格)按钮,打开Cell Display 对话框,如图7-3 所示。

交叉列联表分析

交叉列联表分析 ---------用于分析属性数据 1. 属性变量与属性数据分析 从变量的测量水平来看分为两类:连续变量和属性(Categorical)变量,属性变量又可分为有序的(Ordinal)和无序的变量。 对属性数据进行分析,将达到以下几方面的目的: 1) 产生汇总分类数据——列联表;2) 检验属性变量间的独立性(无关联性); 3) 计算属性变量间的关联性统计量;4) 对高维数据进行分层分析和建模。 在实际中,我们经常遇到判断两个或多个属性变量之间是否独立的问题,如:吸烟与患肺癌是否有关?色盲与性别是否有关?上网时间与学习成绩是否有关等等.解决这类问题常用到建立列联表,利用χ2 统计量作显著性检验来完成. 2.列联表(Contingency Table ) 列联表是由两个以上的属性变量进行交叉分类的频数分布表。 设二维随机变量(X ,Y ),X 可能取得值为x x x r ,,,2 1 ,Y 可能取得值 为y y y s ,,,2 1 .现从总体中抽取容量为n 的样本,其中事件(X =x i Y =y j ) 发生的频率为n j i (i = 1,2, …,r ,j=1,2, …,s ,)记n i ?= ∑=s j j i n 1 ,n j ?=∑=r i j i n 1 , 则有n = ∑∑==r i s j j i n 11 =∑=?r i i n 1 = ∑=?s j j n 1 ,将这些数据排列成如下的表: 这是一张r ×s 列联表.

3.属性变量的关联性分析 对于不同的属性变量,从列联表中可以得到它们联合分布的信息。但有时还想知道形成列联表的行和列变量间是否有某种关联性,即一个变量取不同数值时,另一个变量的分布是否有显著的不同,这就是属性变量关联性分析的内容。 属性变量关联性检验的假设为 H0:变量之间无关联性; H1:变量之间有关联性 由于变量之间无关联性说明变量互相独立,所以原假设和备择假设可以写为: H0:变量之间独立; H1:变量之间不独立 χ 2 检验 H 0: X 与Y 独立. 记P (X =x i ,η=y j ) = p j i ,i =1,2,…,r ,,j = 1,2,…,s , P (X =x i ) = p i . , i =1,2,…,r ,P (Y = y j ) =p j . ,j = 1,2,…,s . 由离散性随机变量相互独立的定义,则原假设等价于 H 0:p j i = p i .p j . ,i =1,2,…,r ,,j = 1,2,…,s . 若 p j i 已知,我们可以建立皮尔逊χ2 统计量 χ 2 = ∑==∑ -r i s ij j i j i j i p n p n n 1 1 2 ) (. 由皮尔逊定理知,χ2 的极限分布为)1(2 -rs χ .但这里p j i 未知,因此用它 的极大似然估计 p ij ∧ 代替,这时检验统计量为 χ 2 = ∑==∧ ∧ ∑-r i s ij j i j i j i p n p n n 1 1 2 ) (. 在H 0成立的条件下, p j i = p i .p j .,即等价于用p i ?和p j ?.的极大似然估计 p i ?∧ 和p j ?∧ 的积去代替.可以求得 p i ?∧ = n n i ? , i =1,2,…,r , p j ?∧ = n n j ? , j = 1,2,…,s ,

上机练习3列联表分析与方差分析

上机练习 3 列联表分析与方差分析 本上机练习的主要目的:熟悉如何利用SPSS与Excel进行列联表分析及方差分析。本练习所使用数据文件为 和“Salary.sav”。“carown.dat”、“fastfood.sav” 1. 列联表分析 Q:如何利用列联表分析考察家庭成员数与家庭所拥有汽车数之间 的关系?(数据文件为“Carown.dat”) 在这之前,我们首先检验各变量是否存在野码(wild code)或异常值 (outlier),这可以通过频数表以及箱形图(boxplot)来判断。 在家庭成员数的频数表中,我们发现,有一个样本的家庭成员数为0,而 ,该样本取值在其范围之外,即为野码(wild 该变量的取值范围为[1, +∞] code)。对于野码的处理,一般可以采用将该样本的此变量设为缺失值或 直接去掉该样本的做法。

在家庭所拥有汽车数的频数表中,我们发现,有一个样本的家庭所拥有汽 车数为9,显然是一个极端值。我们利用boxplot也证实了该样本为一个异常值(outlier)。异常值处于该变量的正常取值范围内,但可能会对该 变量的相关统计结果产生较为严重的影响。对于异常值的处理,一般可以 采用直接去掉该样本的做法或者根据情况进行调整。而对于上述我们发现 的异常值来说,我们可以直接去掉该样本。 在上述数据清理的工作完成之后,我们可以开始进行列联表分析。因为列 联表分析只适用于分类变量,我们需要利用Transform Recode Into Different Variables…对家庭人数以及家庭所拥有汽车数进行分类,分别 定义新变量member1和cars1与之对应。具体对应关系如下: 旧变量新变量新变量类别旧变量新变量新变量类别

第十四章--交叉表分析法(课件)

多变量描述统计分析 交叉表分析法 一、交叉表分析法的概念 交叉表(交叉列联表) 分析法是一种以表格的形式同时描述两个或多个变量的联合分布及其结果的统计分析方法,此表格反映了这些只有有限分类或取值的离散变量的联合分布。当交叉表只涉及两个定类变量时,交叉表又叫做相依表。 交叉列联表分析易于理解,便于解释,操作简单却可以解释比较复杂的现象,因而在市场调查中应用非常广泛。 频数分布一次描述一个变量,交叉表可同时描述两个或更多变量。交叉表法的起点是单变量数据,然后依研究目的将这些数据分成两个或多个细目。 下面是一个描述交叉表法应用的例子。 某保险公司对影响保户开车事故率的因素进行调研,并对各种因素进行了交叉表分析。 表1 驾驶员的事故率 然后,在性别基础上分解这个信息,判断是否在男女驾车者之间有差别。这样就出现了二维交叉表2。 表2 男女驾驶员的事故率 高。但人们会提出这样的疑问而否定上述判断的正确性,即男士的事故多,是因为他们驾驶的路程较长。这样就引出第三个因素"驾驶距离",于是出现了三维交叉表3。 表3 不同驾驶距离下的事故率 有证明男士和女士哪个驾驶得更好或更谨慎,仅证明了驾车事故率只与驾驶距离成正比,而与驾驶者的性别无关。 二、两变量交叉列联表分析 例如,研究城镇居民在某地的居住时间与其对当地百货商场的熟悉程度之间

的关系,对“居住时间”和“熟悉程度”这两个变量进行交叉列联分析。如表4所示。 间低于30年的居民比居住时间在30年以上的居民似乎更熟悉百货商场。进一步计算出百分比,则可以看得更直观一些。见表5。 表5 居住时间与对百货商场的熟悉程度的交叉列联分析(%) 行百分比与列百分比的选择取决于哪个变量是因变量哪个变量是自变量。一般的规则是,在自变量的方向上,对因变量计算百分比。 以表5为例,居住时间为自变量,对商场的熟悉程度为因变量,因而可以对各居住时间分别计算熟悉程度的百分比。由表5可见,53.6%的居住时间低于13年的人和60.9%的居住时间在13年~30年的人都熟悉该商店,而只有32.9%的居住时间在30年以上的人熟悉该商店。看来,同样住在该地区的人,居住时间越长,对购物环境反而更不熟悉。这个结论是有一定道理的,在一个地方居住很长时间的人一般相对来说更没有动力去熟悉该商场。 如果我们在因变量的方向上对自变量计算百分比(如表6所示),则显然没意义。 表6暗示,对当地商场不熟悉会影响居民在该地的居住时间,这显然是不合理的。但是,居住时间与对百货商场的熟悉程度之间的联系可能受第三变量的影响,例如年龄。居住时间越长的人可能年龄越大。尽管分析结果表明年龄在此不是影响因素,但由此可见需要检查第三因素的影响。 三、三变量的交叉列联表分析 引入第三变量后再进行交叉列联分析,则可能出现以下四种结果: (1)剔除外部环境的影响,使原先两变量间的关系更单纯。例如,在表7中,仅分析婚姻状况和衣服支出水平这两个变量时,从数字上看未婚者在衣服支出方面比已婚者更高一些。但引入变量性别以后,发现对于男性来说,已婚者与未婚者在衣服支出方面没有显著差异,但对于女性未婚者与已婚者,在衣服支出方面的差异则很明显。见表8。

第12章 列联表和对应分析

第十二章 列联表和对应分析 我们前面介绍的相关分析可以用来分析定量变量之间的关系,但不能用于定性变量的分析。本章介绍的列联表检验和对应分析方法则可以用来分析定性变量之间的关系。 第一节 列联表与独立性检验 【例12.1】美国的一般社会调查(General Social Survey )是由美国芝加哥大学的民意调查中心进行的一项随机抽样调查,调查对象为18岁以上的成年人。调查中获得了居民的婚姻状况和幸福状况方面的数据。下面我们根据1996年的调查结果来分析两个变量之间的关系(数据文件gss96.sav )。在调查中,婚姻状况的取值为已婚、丧偶、离异、分居和未婚(分别用1-5表示);幸福状况的取值为:非常幸福、比较幸福和不太幸福(分别用1-3表示)。在SPSS 软件中打开数据文件,选择“分析”→“描述统计”→“交叉表”,把“婚姻状况”设为行变量,把“幸福状况”设为列变量,可以得到表12-1所示的列联表。从表中我们可以看出,从婚姻状况看,已婚人员的比重最高;从幸福状况看,比较幸福的人员比重最高。但从表中我们很难直观地看出两个变量之间的内在联系。 表12-1 婚姻状况和幸福状况列联表 幸福状况 合计 非常幸福 比较幸福 不太幸福 婚姻状况 已婚 574 726 82 1382 丧偶 70 149 59 278 离异 83 292 79 454 分居 14 73 30 117 未婚 136 419 99 654 合计 877 1659 349 2885 要研究二维列联表中的两个变量是否相互独立,可以使用我们在非参数检验中讲过χ2 检验。检验的零假设和备择假设为 H 0:婚姻状况和幸福状况这两个变量相互独立;H 1:婚姻状况和幸福状况不相互独立。 假定样本量为n ,列联表有r 行、s 列,表中各行的合计值分别为r i R i ,,2,1,Λ=,各列的合计值分别为s j C j ,2,1,Λ=。每个单元格中的频数为j i O ,。在零假设成立,即行变量和列变量相互独立时,每个单元格频数的期望值可以按照式(12-1)计算: n C R n n C n R E j i j i ij ?= ??= (12-1) 显然,如果期望频数ij E 和观测频数ij O 相差不大,则零假设可能是正确的;如果二者差别很大,则零假设可能不成立。按照式(12-2)构造检验统计量:

交叉表分析

data05-02为某公司工资数据(n=15)。使用变量性别sex、收入高低earnings分析男女经理间薪金是否平等。 可以利用data05-01中的数据,使用变量occcat80为工作性质分类,region为地区,childs 为每个家庭的孩子数。将childs为行变量,occcat80为列变量,region为控制变量选入Layer of框中,进行交叉表分析。 列联表(交叉表)分析 1、项目名称 Crosstabs过程 4、实训原理 Crosstabs过程用于定类数据和定序数据进行统计描述和简单的统计推断。在分析时可以产生二维至n维列联表,并计算相应的百分数指标。 4-1 列联表分析的含义与任务 在实际分析中,当问题涉及到多个变量时,我们不仅要了解单个变量的分布特征,还要分析多个变量不同取值下的分布,掌握多变量的联合分布特征,进而分析变量之间的相互影响和关系。很明显,如果还采用单纯的频数分析方法显然不能满足要求。因此,我们需要借助交叉分组下的频数分析,即列联表分析。列联表分析的主要任务有两个: (1)根据样本数据产生二维或多维交叉列联表。交叉列联表是两个或两个以上变量交叉分组后形成的频数分布表。 (2)在交叉列联表的基础上,分析两变量之间是否具有独立性或一定的相关性。 4-2 卡方检验的原理 为了理解列联表中行变量(Row)和列变量(Column)之间的关系,我们需要借助非参数检验方法。通常采用的方法是卡方检验。和一般假设检验一样,卡方检验主要包括三个步骤: (1)建立零假设:行变量和列变量相互独立。 (2)选择和计算检验统计量。列联表分析中的检验统计量是Pearson卡方统计量。其公式为:

列联表分析

列联表分析 【例1】性别与所喜爱颜色的调查表。 双向列联表:性别×颜色 【程序】 proc freq data=SASUSER.data9_01; tables SEX*COLOR / CHISQ NOPERCENT NOROW; weight F; run; 【例3】下面数据是某个“统计入门”课程的数据,记录了该课程中所有学生的性别和专业 (“是”为统计专业,“非”为其他专业)。对数据进行整理生成列联表并分析。 【操作:解决方案-分析-分析家调入数据统计-表分析】 【程序】 *** Table Analysis ***; proc freq data=SASUSER.data9_03; tables SEX*MAJOR; run;

【例5】雇员情况数据集Employee变量有:性别(gender)、工种(jobcat)、薪水(salary) /薪水等级(salaryrank,分高(=1)100人,中(=2)200人,低(=3)其他人)、初薪(begsalary) /薪水等级(begsalaryrank,分高(=1)100人,中(=2)200人,低(=3)其他人)和受教 育年限。试作三向、四向、五向列联表。 【程序prog9_05_1】三向表:对性别、薪水等级和工种的情况进行统计(生成2张表) *** Table Analysis ***; proc freq data=SASUSER.data9_05; tables GENDER*SALARYRANK*JOBCAT; run; 【程序prog9_05_3】五向表:对性别、薪水等级、初薪等级、受教育年限和工种的情况进 行统计(生成18张表) *** Table Analysis ***; proc freq data=SASUSER.data9_05; tables GENDER*SALARYRANK*BEGSALARYRANK*EDUCATION*JOBCAT; run; 【例6】下表是一个由220名饮酒者组成的随机样本,对饮酒者进行酒类型偏好的调查。检 验性别与饮酒偏好是否有关?(α=0.05) 【程序】 data sasuser.data9_06; input sex wine people; datalines; 1 1 60 2 1 40 1 2 50 2 2 70 ; proc freq; weight people; tables sex*wine/chisq; run;

最新spss 列联表各按钮介绍

s p s s列联表各按钮 介绍

检验公式 (2) 具体操作 (3) 打开 (3) 底端选项 (4) 右端按钮 (4) 【精确】 (4) 【统计量】 (5) 【单元格】 (7) 【格式】 (8) https://www.360docs.net/doc/c25111777.html,/SPSSjiaocheng/mstj/70.html spss交叉列联表分析 在实际分析中,除了需要对单个变量的数据分布情况进行分析外,还需要掌握多个变量在不同取值情况下的数据分布情况,从而进一步深入分析变量之间的相互影响和关系,这种分析就称为交叉列联表分析。 当所观察的现象同时与两个因素有关时,如某种服装的销量受价格和居民收入的影响,某种产品的生产成本受原材料价格和产量的影响等,通过交叉列联表分析,可以较好地反映出这两个因素之间有无关联性及两个因素与所观察现象之间的相关关系。 因此,数据交叉列联表分析主要包括两个基本任务:一是根据收集的样本数据,产生二维或多维交叉列联表;二是在交叉列联表的基础上,对两个变量

间是否存在相关性进行检验。要获得变量之间的相关性,仅仅靠描述性统计的数据是不够的,还需要借助一些表示变量间相关程度的统计量和一些非参数检验的方法。 常用的衡量变量间相关程度的统计量是简单相关系数,但在交叉列联表分析中,由于行列变量往往不是连续变量,不符合计算简单相关系数的前提条件。因此,需要根据变量的性质选择其他的相关系数,如Kendall等级相关系数、Eta值等。 SPSS提供了多种适用于不同类型数据的相关系数表达,这些相关性检验的零假设都是:行和列变量之间相互独立,不存在显著的相关关系。根据SPSS检验后得出的相伴概率(Concomitant Significance)判断是否存在相关关系。如果相伴概率小于显著性水平0.05,那么拒绝零假设,行列变量之间彼此相关;如果相伴概率大于显著性水平0.05,那么接受原假设,行列变量之间彼此独立。 检验公式 在交叉列联表分析中,SPSS所提供的相关关系的检验方法主要有以下3种: (1)卡方(χ2)统计检验:常用于检验行列变量之间是否相关。计算公式为:

交叉列联分析

3.5 交叉列联表分析 在实际分析中,除了需要对单个变量的数据分布情况进行分析外,还需要掌握多个变量在不同取值情况下的数据分布情况,从而进一步深入分析变量之间的相互影响和关系,这种分析就称为交叉列联表分析。 当所观察的现象同时与两个因素有关时,如某种服装的销量受价格和居民收入的影响,某种产品的生产成本受原材料价格和产量的影响等,通过交叉列联表分析,可以较好地反映出这两个因素之间有无关联性及两个因素与所观察现象之间的相关关系。 因此,数据交叉列联表分析主要包括两个基本任务:一是根据收集的样本数据,产生二维或多维交叉列联表;二是在交叉列联表的基础上,对两个变量间是否存在相关性进行检验。要获得变量之间的相关性,仅仅靠描述性统计的数据是不够的,还需要借助一些表示变量间相关程度的统计量和一些非参数检验的方法。常用的衡量变量间相关程度的统计量是简单相关系数,但在交叉列联表分析中,由于行列变量往往不是连续变量,不符合计算简单相关系数的前提条件。因此,需要根据变量的性质选择其他的相关系数,如Kendall等级相关系数、Eta值等。SPSS提供了多种适用于不同类型数据的相关系数表达,这些相关性检验的零假设都是:行和列变量之间相互独立,不存在显著的相关关系。根据SPSS检验后得出的相伴概率(Concomitant Significance)判断是否存在相关关系。如果相伴概率小于显著性水平0.05,那么拒绝零假设,行列变量之间彼此相关;如果相伴概率大于显著性水平0.05,那么接受原假设,行列变量之间彼此独立。 在交叉列联表分析中,SPSS所提供的相关关系的检验方法主要有以下3种:(1)卡方(χ2)统计检验:常用于检验行列变量之间是否相关。计算公式为: (3.11)其中,f0表示实际观察频数,f e表示期望频数。 卡方统计量服从(行数-1)′(列数-1)个自由度的卡方统计。SPSS在计算卡方统计量时,同时给出相应的相伴概率,由此判断行列变量之间是否相关。

交叉列联表分析步骤

交叉列联表分析步骤 1【分析】—【描述统计】—【交叉表】 【精确】 一般情况下,"精确检验"(Exact Tests)对话框的选项都默认为系统默认值,不作调整。 【统计量】

【单元格】 【格式】

2 结果分析: 职称* 学历交叉制表 学历 合计 本科专科高中初中 职称高级工程师计数 1 1 1 0 3 职称中的% 33.3% 33.3% 33.3% .0% 100.0% 学历中的% 25.0% 25.0% 20.0% .0% 18.8% 总数的% 6.3% 6.3% 6.3% .0% 18.8% 工程师计数 1 3 0 0 4 职称中的% 25.0% 75.0% .0% .0% 100.0% 学历中的% 25.0% 75.0% .0% .0% 25.0% 总数的% 6.3% 18.8% .0% .0% 25.0% 助理工程师计数 2 0 1 3 6 职称中的% 33.3% .0% 16.7% 50.0% 100.0% 学历中的% 50.0% .0% 20.0% 100.0% 37.5% 总数的% 12.5% .0% 6.3% 18.8% 37.5% 无技术职称计数0 0 3 0 3 职称中的% .0% .0% 100.0% .0% 100.0% 学历中的% .0% .0% 60.0% .0% 18.8% 总数的% .0% .0% 18.8% .0% 18.8% 合计计数 4 4 5 3 16 职称中的% 25.0% 25.0% 31.3% 18.8% 100.0% 学历中的% 100.0% 100.0% 100.0% 100.0% 100.0% 总数的% 25.0% 25.0% 31.3% 18.8% 100.0% 卡方检验 值df 渐进Sig. (双侧) Pearson 卡方18.533a9 .029 似然比20.629 9 .014 线性和线性组合 2.617 1 .106 有效案例中的N 16

列联表模型

有些数据是类型变量,要求做因素影响的显著性分析或相关分析可以采用本模型 本模型的相关分析涉及三种相关系数,而且是层层递进的,我们可以刻意将它们写成模型的一步步改进 列联分析模型 1.2.1 列联表 列联表是由两个及两个以上的变量进行交叉分类的频数分布表。我们以是否就业和政治面貌为例,可以有以下列联表(2?4): 表1.2.1 其中,n 是总体样本数。交叉项为频数。 1.2.2 列联表中2χ统计量 2χ统计量常用于列联表中变量之间是否相关的检验。用0f 表示观察值频数,用e f 表示期望值频数,则2χ统计量可以写为: () 2 02e e f f f χ-=∑ (公式1.2.2) 2χ的自由度计算: 自由度=(行数-1)(列数-1)=(R-1)(C-1) 如表1.2.1(2?4)列联表的2χ分布的自由度为(2-1)(4-1)=3 1.2.3 φ相关系数测定与影响就业因素间的相关性 φ相关系数是描述2?2列联表数据相关程度较好的一种相关系数。计算公式为: φ= (公式1.2.3.1)

式中,2χ是按(公式1.2.2)计算出的2χ值;n 为列联表中的总频数,及总体样本数。 由表1.1知,有五个影响因素是二分变量,我们可以采用φ相关系数分析的方法。其列联表如下: 表1.2.3 是否就业与因素X 的2?2列联表 表1.2.3中,a,b,c,d 均为条件频数。在2?2列联表中,每个单元中频数的期望值为: 由(公式1.2.2)有: 将此结果代入(公式1.2.3.1),得到: ()()()() ad bc a b c d a c b d φ-= = ++++ (公式1.2.3.1) 分析: 由上式我们知道,当ab-bc 时,φ=0,两者完全独立。若b=0,c=0, φ=1;若a=0,d=0, φ=-1。由于列联表中,变量的位置可以任意变换,因此φ的符号在这里没实际意义,其绝对值=1只是表面两者完全相关。在此模型中,φ的取值范围是在0~1之间,且φ的绝对值越大,说明是否就业与因素X 的相关程度越高。对于表1.1中的五个二分变量的因素的研究,我们可以采用2?2列联表的φ相关系数。但是对于其他的不是二分变量的因素,其在列联表R ?C 中的列数C 大于2时,φ系数将随C 的增大而增大,且φ没上限。这时用φ系数测定两者的相关程度就不够清晰,所以,对其他的因素与是否就业之间的相关性的测定,我们采用列联相关系数。 1.2.4 列联相关系数(C 系数)测定与影响就业因素间的相关性 列联相关系数用于大于2?2列联表的情况。C 系数的计算公式为: c = (公式1.2.4)

相关文档
最新文档