卡方检验应用

合集下载

卡方检验三个组别例题与解析

卡方检验三个组别例题与解析

卡方检验三个组别例题与解析Title: Analysis of Three Examples of Chi-square Test in Different Groups在统计学中,卡方检验是一种用于比较不同组别之间差异的方法。

它通常用于比较分类数据,并确定这些数据是否存在显著性差异。

本文将通过三个具体的例题来解析卡方检验在不同组别中的应用。

例题一:小明想要研究不同性别在健康意识方面是否存在差异。

他随机选择了100名男性和100名女性,收集了他们对于健康饮食的意识水平(高、中、低)数据。

小明将数据进行了统计分组如下表所示。

| 健康意识水平 | 男性 | 女性 ||--------------|-----|-----|| 高 | 40 | 50 || 中 | 30 | 20 || 低 | 30 | 30 |小明想要确定两个性别在健康意识水平上是否存在显著差异。

他使用卡方检验进行分析后发现卡方统计量为5.83,自由度为2,p值为0.054。

由于p值大于0.05的显著性水平,小明无法拒绝原假设,即他无法得出性别对健康意识水平的显著影响。

例题二:研究人员想要了解不同受教育程度下的就业情况是否存在差异。

为此,他们调查了500名受访者,收集了不同受教育程度(小学、中学、大学)下的就业与失业人数。

结果如下表所示。

| 就业情况 | 小学 | 中学 | 大学 ||--------------|-----|-----|-----|| 就业 | 100 | 150 | 200 || 失业 | 20 | 30 | 50 |研究人员进行卡方检验后发现卡方统计量为6.02,自由度为2,p值为0.049。

由于p值小于0.05的显著性水平,研究人员可以拒绝原假设,即受教育程度对就业情况存在显著影响。

例题三:一家餐馆想要了解不同服务时间带来的顾客满意度是否存在差异。

他们调查了200名顾客,记录了就餐时间(早餐、午餐、晚餐)下的满意度数据(满意、一般、不满意)。

卡方检验在统计学中的应用

卡方检验在统计学中的应用

公式
根据不同的理论分布,拟合优度 卡方检验的公式也有所不同,但 基本思路是计算样本数据与理论 分布之间的差异程度。
应用场景
例如,判断某地区居民的身高是 否符合正态分布。
03 卡方检验在统计学中的应 用场景
分类变量间关系的研究
研究两个分类变量之间的关系,判断它们 是否独立。通过卡方检验可以比较观测频 数与期望频数的差异,从而判断两个分类 变量之间是否存在关联或因果关系。
公式
与独立性卡方检验类似,但计算的是同一观察对象在不同条件下的实际观测频数与期望频数的差异程度。
应用场景
例如,判断某药物在不同剂量下的疗效是否一致。
拟合优度卡方检验
定义
拟合优度卡方检验用于检验一个 样本数据是否符合某个理论分布 或模型。假设有一组样本数据, 拟合优度卡方检验的目的是判断 这组数据是否符合正态分布、二 项分布等理论分布。
数据来源
市场调查中的消费者数据,包括消费者的年龄、性别、收 入等信息以及他们对某一产品的评价和偏好。
分析方法
使用卡方检验分析不同消费者群体对同一产品的偏好程度 ,判断是否存在显著性差异。
结果解释
如果卡方检验结果显著,说明不同消费者群体对同一产品 的偏好程度存在显著差异;如果结果不显著,则说明消费 者偏好较为接近。
它通过计算观测频数与期望频 数之间的卡方值,评估两者之 间的差异是否具有统计学显著 性。
卡方检验常用于分类数据的分 析,如计数数据和比例数据。
卡方检验的基本思想
1 2
基于假设检验原理
卡方检验基于假设检验的基本思想,首先提出原 假设和备择假设,然后通过样本数据对原假设进 行检验。
比较实际观测与期望值
要点二
自由度

t检验和卡方检验的应用条件(一)

t检验和卡方检验的应用条件(一)

t检验和卡方检验的应用条件(一)应用条件t检验•样本符合正态分布:t检验是基于正态分布假设的,所以在使用t检验之前,需要对数据样本进行正态性检验。

可以使用Kolmogorov-Smirnov检验或Shapiro-Wilk检验等方法。

•样本方差齐性:t检验要求不同样本的方差相等,可以通过方差齐性检验来判断,如Levene检验或Bartlett检验。

•样本独立性:t检验要求样本之间相互独立,即每个观察值只属于一个样本而不属于其他样本。

如果样本之间存在相关性,t检验的结果可能会失去意义。

•样本容量适中:t检验对样本容量有一定的要求,样本容量太小时,可能导致统计推断不可靠;反之,样本容量过大时,即使很小的差异也可能导致显著结果。

一般来说,当样本容量大于30时,t检验具有较好的效果。

卡方检验•变量类型:卡方检验适用于定性(离散)变量的分析,可以用来探究不同类别之间的关联性。

当存在两个或更多个类别的变量时,可以采用卡方检验来进行分析。

•样本独立性:卡方检验方法要求样本之间相互独立。

样本来自不同的实验单位,互相之间没有任何关联。

如果样本之间存在相关性,卡方检验的结果可能会失去准确性。

•预期频数要求:卡方检验的前提是对每个类别的预期频数都要有足够的数量,否则结果可能会不可靠。

通常要求每个类别的预期频数都不小于5,这可以通过计算每个类别的期望频数来进行判断。

以上是对t检验和卡方检验应用条件的简要总结。

在实际应用中,需要根据具体问题和数据特征来选择合适的检验方法,并确保满足检验的前提条件,以获得可靠的统计推断结果。

简述四格表资料卡方检验的应用条件

简述四格表资料卡方检验的应用条件

简述四格表资料卡方检验的应用条件一、卡方检验的应用条件为使各类数据资料分析结果与理论预测结果保持良好的相关,必须了解卡方检验应用的几个条件。

二、卡方检验的结果表示1、卡方检验的基本公式2、卡方检验的应用范围3、卡方检验的计算公式为:4、卡方检验的注意事项1)注意运用多种分析方法进行综合分析以取得更加可靠的资料2)注意进行独立性检验,在检验时,无论是计算卡方还是求t值,当观察到两组数据呈直线相关或曲线相关的时候,应再做一次相关分析,以证实是否有系统误差3)如果要证明资料之间是协方差关系,则先要作协方差分析,协方差分析即资料本身包含着平方和,如果只有协方差没有平方和,则说明原始资料包含有错误,若同时出现卡方值的协方差和平方和,则说明是随机误差所致,反映了这种资料具有良好的数据处理性质。

3、卡方检验的计算公式为:4、卡方检验的注意事项1)注意运用多种分析方法进行综合分析以取得更加可靠的资料2)注意进行独立性检验,在检验时,无论是计算卡方还是求t值,当观察到两组数据呈直线相关或曲线相关的时候,应再做一次相关分析,以证实是否有系统误差3)如果要证明资料之间是协方差关系,则先要作协方差分析,协方差分析即资料本身包含着平方和,如果只有协方差没有平方和,则说明原始资料包含有错误,若同时出现卡方值的协方差和平方和,则说明是随机误差所致,反映了这种资料具有良好的数据处理性质。

5、卡方检验不能确定因果关系。

4、卡方检验的注意事项1)注意运用多种分析方法进行综合分析以取得更加可靠的资料2)注意进行独立性检验,在检验时,无论是计算卡方还是求t值,当观察到两组数据呈直线相关或曲线相关的时候,应再做一次相关分析,以证实是否有系统误差3)如果要证明资料之间是协方差关系,则先要作协方差分析,协方差分析即资料本身包含着平方和,如果只有协方差没有平方和,则说明原始资料包含有错误,若同时出现卡方值的协方差和平方和,则说明是随机误差所致,反映了这种资料具有良好的数据处理性质。

简述四格表资料卡方检验的应用条件

简述四格表资料卡方检验的应用条件

简述四格表资料卡方检验的应用条件一、四格表资料卡方检验的应用条件。

(一)样本具有代表性(二)可用t检验。

(三)四格表资料卡方检验。

(四)资料中无重大缺失值,资料无偏斜,独立样本均值和方差相等。

二、三格表资料卡方检验的应用条件。

(一)有3个或3个以上数据可以作为参考值。

(二)可用t检验。

三、四格表资料卡方检验的适用范围。

(一)使用前提:被检验的资料必须是正态分布。

(2)当非正态分布时,只能利用t检验来判断结果。

(二)使用说明:如果使用三格表资料进行卡方检验时,可以通过做差运算处理后,在用t检验对未知参数值进行判断。

如果需要将数据进行调整之后再进行卡方检验,就要做比例因子的运算。

在我们做差运算之后,必须将比例因子加到已知数据中去,并保证两者同为1。

(三)例题:已知样本的标准差和方差如下:一格表资料卡方检验:只有一个样本组, X=3, Y=4, Z=5,则Y=0, Z=0的概率为多少?二格表资料卡方检验:使用的样本组有4个样本,且X=1, Y=1, Z=2,则Z=1的概率为多少?三格表资料卡方检验:四格表资料卡方检验:假设这四组数据具有如下特点:二、三格表资料卡方检验的应用条件。

(一)有3个或3个以上数据可以作为参考值。

(二)可用t检验。

二格表资料卡方检验:四格表资料卡方检验:四格表资料卡方检验: (三)例题:某机械厂2000年产量及职工人数如下表所示,试计算各组职工年龄之间的关系。

四格表资料卡方检验:四格表资料卡方检验:已知数据X=5, Y=6, Z=7,则Y=8的概率为多少?三格表资料卡方检验:使用的样本组有3个样本,且X=1, Y=1, Z=2,则Z=1的概率为多少?四格表资料卡方检验:四格表资料卡方检验:已知数据X=6, Y=7, Z=8,则Y=9的概率为多少?三格表资料卡方检验:使用的样本组有3个样本,且X=1, Y=1, Z=2,则Z=1的概率为多少?四格表资料卡方检验: (1)假设四个样本X=1, Y=1, Z=1,则Y=8的概率为多少? (2)使用三格表资料进行卡方检验,四格表资料卡方检验。

卡方检验原理与应用实例

卡方检验原理与应用实例

卡方检验原理与应用实例本文简单介绍卡方检验的原理和两个类型的卡方检验实例。

、卡方检验的作用和原理1)卡方检验的作用:简单来说就是检验实际的数据分布情况与理论的分布情况是否相同的假设检验方法。

怎么理解这句话呢,拿一个群体的身高来说,理论上身高低于1米5的占10%高于2.0的占10%中间的占80%现在我们抽取了这个群体中的一群人,那么对应这三个身高段的人数的比例关系是不是1:8:1呢?卡方分析就是解决这类问题。

2)卡方检验的原理:上面已经提到卡方检验是检验实际的分布于理论的分布时候一致的检验,那么用什么统计量来衡量呢!统计学家引入了如下的公式:Ai为i水平的观察频数,Ei为i水平的期望频数,n为总频数,pi为i水平的期望频率。

i水平的期望频数Ti等于总频数n xi水平的期望概率pi,k为单元格数。

当n比较大时,x 2统计量近似服从k-1(计算Ei时用到的参数个数)个自由度的卡方分布。

和参数检验的判断标准一样,这个统计量有一个相伴概率p。

零假设是理论分布与实际分布是一致的,所以如果P小于0.05,那么就拒绝原假设,认为理论和实际分布不一致。

、适合性卡方测验所谓适合性检验就是检验一个样本的分布是否符合某个分布的一种假设检验方法。

比如说检验数据是否正态分布,是否成二项分布或者平均分布等等。

拿正态分布来说吧!请看下图在这个近似标准正态分布的玉米株高的分布中,横轴代表的是株高的数据,而 纵轴代表的是对应株高的频数,简单来说,正态曲线上的某点的纵坐标代表的 就是这个点对应的横轴坐标显示株高的玉米有多少株。

只不过正态分布曲线上 显示的是频率值,而频率m 亥组株数/总的株数,所以分布曲线不会变,只不过 纵坐标由频数变为频率。

这也解释了昨天推送的《如何判断数据是否符合正态 分布》中用带正态曲线的直方图判断数据是否符合正态分布的原理。

回到本节,当我们要检验玉米株高是否符合正态分布时,我们能够通过计算, 计算出当样本量为600 (注意本例株高数据的个案数为 600,下载数据资料进行 练习过的学员应该知道)时,每个株高下的玉米株数设为 E ,然后我们已经有 实际值 设为A,然后我们带入上面的公式计算得到卡方统计量,由 SPSS 俞出相直方图 勻値=229』伴概率,我们就能判断数据是否符合正态分布了。

多组分类变量的卡方检验

多组分类变量的卡方检验

多组分类变量的卡方检验一、简介卡方检验是一种常用的统计方法,用于检验两个分类变量是否独立,或者比较两个分类变量的分布是否相同。

它基于观察频数和期望频数的差异来评估变量之间的关系强度。

在本篇文章中,我们将详细介绍多组分类变量的卡方检验的应用,包括以下几个方面:二、检验两个分类变量是否独立卡方检验可以用来检验两个分类变量是否独立。

具体而言,我们可以使用卡方检验来比较观察到的频数与期望的频数是否一致,从而判断两个分类变量是否相互独立。

如果观察频数与期望频数差异较大,则说明两个分类变量不独立,它们之间存在某种关联或依赖关系。

三、比较两个分类变量的分布是否相同通过卡方检验,我们可以比较两个分类变量的分布是否相同。

首先,我们需要将数据分为两组,然后使用卡方检验来比较这两组数据的分布是否一致。

这种方法可以用于比较不同组别之间的差异性,例如比较不同性别、年龄段或地区的人群在某项调查中的分布情况。

四、检验一个分类变量是否与一个有序分类变量相关卡方检验也可以用来检验一个分类变量是否与一个有序分类变量相关。

例如,我们可以使用卡方检验来分析不同教育程度的人群在某项调查中的分布情况,以判断教育程度是否与调查结果相关。

如果两个分类变量之间存在相关性,那么它们的分布可能会表现出一定的趋势或模式。

五、检验一个分类变量的不同水平是否有不同的异常率通过卡方检验,我们可以比较一个分类变量的不同水平是否有不同的异常率。

例如,在医学研究中,我们可以通过卡方检验来分析不同疾病类型的异常率是否有显著差异。

这种方法可以帮助我们了解不同疾病类型的发病机制和临床特征,为后续的研究和治疗提供依据。

六、比较多个分类变量是否相同或不同最后,卡方检验还可以用来比较多个分类变量是否相同或不同。

例如,在市场调研中,我们可以通过卡方检验来比较不同品牌、不同价格区间的产品在消费者中的接受度是否有显著差异。

这种方法可以帮助企业了解市场需求和竞争态势,为产品定位和市场策略提供决策依据。

列联表和卡方检验的定义及应用

列联表和卡方检验的定义及应用

列联表和卡方检验的定义及应用概述在统计学中,列联表和卡方检验是重要的分析工具。

列联表是用于比较两个或多个变量之间关系的一种表格形式,而卡方检验则是用于检验这些变量之间是否存在显著的关联性。

本文将介绍列联表和卡方检验的定义、原理和应用。

一、列联表1.1 定义列联表是一种展示两个或多个变量之间关系的二元频数表,用于比较不同组别之间的差异。

它通常由两个或多个分类变量和个体数(或频数)组成。

例如,我们可以用一个列联表来比较男女学生在一个考试中的得分情况,或者比较不同疾病在不同年龄段中的发生情况。

1.2 列联表的应用列联表可以用于研究任何两个或多个变量之间的关系。

它可以帮助我们发现隐藏在数据中的模式,并在研究中提供有关变量之间关系的信息。

列联表还可以用于产生一些其他的统计工具,例如卡方检验和残差分析等。

二、卡方检验2.1 定义卡方检验是一种用于分析列联表数据的统计方法。

它基于一个假设:假设两个变量之间不存在显著的关联性。

如果列联表数据显示这种关联性可能存在,则拒绝这个假设,说明两个变量之间存在显著的关联性。

2.2 卡方检验的原理卡方检验的原理很简单。

它比较观测值和期望值之间的差异,其中期望值是假设两个变量之间不存在关系时的期望结果。

卡方值则是这些差异之和的平方除以期望值的总和,其值越大就意味着观测值与期望值之间的差异越大,显著性水平也越高。

2.3 卡方检验的步骤卡方检验可以分为三个主要步骤。

第一,建立研究假设。

我们需要制定研究假设:H0假设两个变量之间不存在关系,H1假设两个变量之间存在关系。

如果我们无法拒绝H0假设,则可以认为数据中不存在两个变量之间的显著关联性。

第二,计算卡方值。

我们需要计算出卡方值。

从列联表中计算每个单元格的观测值和期望值,然后计算出所有单元格观测值和期望值之间的差异。

将这些差异加起来,并用期望值的总和除以卡方值。

如果卡方值越大,则差异越大,两个变量之间的关系也越显著。

通常,我们需要将卡方值与指定的显著性水平进行比较。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

卡方检验应用第八章记数数据统计法—卡方检验法知识引入在各个研究领域中,有些研究问题只能划分为不同性质的类别,各类别没有量的联系。

例如,性别分男女,职业分为公务员、教师、工人、……,教师职称又分为教授、副教授、……。

有时虽有量的关系,因研究需要将其按一定的标准分为不同的类别,例如,学习成绩、能力水平、态度等都是连续数据,只是研究者依一定标准将其划分为优良中差,喜欢与不喜欢等少数几个等级。

对这些非连续等距性数据,要判别这些分类间的差异或者多个变量间的相关性方法称为计数数据统计方法。

卡方检验是专用于解决计数数据统计分析的假设检验法。

本章主要介绍卡方检验的两个应用:拟合性检验和独立性检验。

拟合性检验是用于分析实际次数与理论次数是否相同,适用于单个因素分类的计数数据。

独立性检验用于分析各有多项分类的两个或两个以上的因素之间是否有关联或是否独立的问题。

在计数数据进行统计分析时要特别注意取样的代表性。

我们知道,统计分析就是依据样本所提供的信息,正确推论总体的情况。

在这一过程中,最根本的一环是确保样本的代表性及对实验的良好控制。

在心理与教育研究中,所搜集到的有些数据属于定性资料,它们常常是通过调查、访问或问卷获得,除了少数实验可以事先计划外,大部分收集数据的过程是难于控制的。

例如,某研究者关于某项教育措施的问卷调查,由于有一部分教师和学生对该项措施存有意见,或对问卷本身有偏见,根本就不填写问卷。

这样该研究所能收回的问卷只能代表一部分观点,所以它是一个有偏样本,若据此对总体进行推论,就会产生一定的偏差,势必不能真实地反映出教师与学生对这项教育措施的意见。

因此应用计数资料进行统计推断时,要特别小心谨慎,防止样本的偏倚性,只有具有代表性的样本才能作出正确的推论。

第一节卡方拟合性检验一、卡方检验的一般问题卡方检验应用于计数数据的分析,对于总体的分布不作任何假设,因此它又是非参数检验法中的一种。

它由统计学家皮尔逊推导。

理论证明,实际观察次数(f o)与理论次数(f e),又称期望次数)之差的平方再除以理论次数所得的统计量,近似服从卡方分布,可表示为:这是卡方检验的原始公式,其中当f e越大(f e≥5),近似得越好。

显然f o与f e相差越大,卡方值就越大;f o与f e相差越小,卡方值就越小;因此它能够用来表示f o与f e相差的程度。

根据这个公式,可认为卡方检验的一般问题是要检验名义型变量的实际观测次数和理论次数分布之间是否存在显著差异。

它主要应用于两种情况:卡方检验能检验单个多项分类名义型变量各分类间的实际观测次数与理论次数之间是否一致的问题,这里的观测次数是根据样本数据得多的实计数,理论次数则是根据理论或经验得到的期望次数。

这一类检验称为拟合性检验。

拟合性检验的零假设是观测次数与理论次数之间无差异。

其中理论次数的计算一般是根据某种理论,按一定的概率通过样本即实际观测次数来计算。

这里所说的某种理论,可能是经验规律,也可能是理论分布。

确定理论次数是卡方检验的关键。

拟合性检验自由度的确定与两个因素有关:一是分类的项数,二是在计算理论次数时,所用统计量或约束条件的个数,这两者之差即为自由度。

由于一般情况下,计算理论次数时只用到“总数”这一统计量,所以自由度一般是分类的项数减1。

但在对连续数据分布的配合度检验中,常常会用数据个数、平均数、标准差等统计量来计算理论次数,所以此时的自由度应从总分类项中减去更多的个数。

按照检验中理论次数的定义不同,拟合性检验有以下集中应用。

二、检验无差假设所谓无差假设,是指各项分类的实计数之间没有差异,也就是说各项分类之间的概率相等(均匀分布),因此理论次数完全按概率相等的条件来计算。

即任一项的理论次数都等于总数/分类项数。

因此自由度也就等于分类项数减1。

【例1】随机地将麻将色子抛掷300次,检验该色子的六个面是否均匀。

结果1-6点向上的次数依次是,43,49,56,45,66,41。

解:每个类的理论次数是300/6 = 50,代入公式:因此,在0.05的显著性水平下,可以说这个色子的六面是均匀的。

【例2】随机抽取60名高一学生,问他们文理要不要分科,回答赞成的39人,反对的21人,问对分科的意见是否有显著的差异。

解:如果没有显著的差异,则赞成与反对的各占一半,因此是一个无差假设的检验,于是理论次数为60/2=30,代入公式:所以对于文理分科,学生们的态度是有显著的差异的。

三、检验假设分布的概率这里的假设分布可以是经验性的,也可以是某理论分布。

公式中所需的理论次数则按照这里假设的分布进行计算。

【例3】国际色觉障碍讨论会宣布,每12个男子中,有一个是先天性色盲。

从某校抽取的132名男生中有4人是色盲,问该校男子色盲比率与上述比例是否有显著差异?解:按国际色觉障碍讨论会的统计结果,132人应该有132/12=11人是色盲,剩下的121人非色盲,代入公式有:因此,在0.05和显著性水平下,该校男子色盲比率与国际色觉障碍讨论会的统计结果有显著差异,显然根据比例可知该校的色盲率小于国际色觉障碍讨论会的统计结果。

【例4】在英语四级考试中,某学生做对了80个四择一选择题中的28题,现在要判断该生是否是完全凭猜测做题。

解:假如该生完全凭猜测做题,那么平均而言每道题做对的可能性是1/4,因此80个题中平均而能做对80/4=20题,代入公式有:因此,该生可能会做一些题。

四、连续变量分布的拟合性检验对于一组连续数据,经常需要对其次数分布究竟服从哪种理论分布进行探讨,这一方面的主要应用就是在前面经常所提到的总体正态性检验。

首先要将测量数据整理成次数分布表和画出次分布图,并据此选择恰当的理论分布。

这些理论分布是多种多样的,例如有正态分布、均匀分布等。

然后根据选择的理论分布计算出理论次数,就可以计算卡方统计量并进行显著性检验了。

若差异显著,说明所选择的理论分布不合适,可以再选一个理论分布进行检验,直至完全拟合。

当然有时也只需检验是否与某确定的理论分布相符,如正态性检验(参见教材有关内容)。

对连续随机变量分布的吻合性检验,关键的步骤是计算理论次数与确定自由度。

理论次数的计算是按所选理论分布规律,并利用观测数据的有关统计量来计算各分组(次数分布表中)理论次数。

自由度则是用分组数减去计算理论次数时所用统计量的数目。

这种拟合性检验计算较为繁琐,不做要求。

五、小理论次数时的连续性校正卡方检验中,当某分类理论次数小于5时,卡方统计量不能很好地满足卡方分布,此时需要对卡方统计量进行校正,称为卡方的连续性校正,其公式如下:尽管采用此方法校正后,卡方统计量能较为接近卡方分布,不过我们仍然建议在实际中最好增大样本的容量,尽量减少出现这种不大服从理论分布的情况。

第二节独立性检验卡方检验还可以用于检验两个或两个以上因素(各有两项或以上的分类)之间是否相互影响的问题,这种检验称为独立性检验。

例如要讨论血型与性格的关系,血型有A、B、AB、O四类,性格采用心理学上的A型性格来划分,即有A 型和B型两种,每个人可能是它们之间交叉所形成的8种类型中的一种,那么倒底它们之间有不有关系,就可以用卡方独立性检验。

卡方独立性检验用于检验两个或两个以上因素(各有两项或以上的分类)之间是否相互影响的问题。

所谓独立,即无关联,互不影响,就意味着一个因素各个分类之间的比例关系,在另一个因素的各项分类下都是相同的,比如在血型与性格关系中,如果A型性格人群中各血型的比例关系,与B型性格人群中各血型的比例关系相同,就可能说血型与性格相互独立,当然这里的“两者比例相同”在统计的意义下,应表述为“两比例差异不超过误差范围”,因为就算总体之间相互独立,收集到两个比例完全相同的样本的可能是很小很小的,甚至是不可能的。

相反,若一个因素各个分类之间的比例关系,在另一个因素的各项分类下是不同的,则它们之间相关。

假如A型性格中A型血的比例高于B型性格中A 型血的比例,而且达到显著水平,那么就可以说血型与性格之间相关,不相互独立。

卡方独立性检验的零假设是各因素之间相互独立。

因此理论次数的计算也是基于这一假设,具体计算时,采用列联表的方式,后面将举例说明。

【例1】某校对学生课外活动内容进行调查,结果整理成下表,表中彩色格子里的数是原始数据的汇总数,括号内的数是理论次数(是按下面将要介绍的原理计算得来的),此外的是原始数据。

性别(因素2)课外活动内容(因素1)小计和(fx) 体育文娱阅读男生21(15.3) 11(10.2) 23(29.5) 55女生 6(11.7) 7(7.8) 29(22.5) 42小计和(fy) 27 18 52 97由于所有学生参加三项活动的比例是27:18:52,因此如果课外活动的选择与性别没有关系的话,男女生参加这三项活动的比例也应是这同一比例,而男女各自的人数可以计算,所以每格内的理论次数的计算方法如下:男生中参加体育活动的理论人数:55×27/97=15.3参加文娱活动的理论人数:55×18/97=10.2参加阅读活动的理论人数:55×52/97=29.5女生中参加体育活动的理论人数:42×27/97=11.7参加文娱活动的理论人数:42×18/97= 7.8参加阅读活动的理论人数:42×52/97=22.5我们将行列的小计和分别用f x和f y来表示,总人数用N 来表示时,上述计算理论次数的方法可以表示为:fe ij = fx i× fy j/N所以,卡方独立性检验的公式可以表示如下,其中最后一个式子比较便于计算,fxy 表示每格的原始数据。

由于在计算理论次数时,用了按每个因素分类的小计和(fx 和fy,其个数分别记为R 个和 C 个),和总和N ,而总和又可由按每个因素分类的小计和计算得来,因此若从总分类个数R×C中减去R+C,则将总和重复减去了,因此要补 1 个自由度回来,所以最终独立性检验的自由度表示为:上述例题最终计算得:或者:这两个公式的计算结果有一点点差异,这完全是计算误差即四舍五入引起的。

df = (3-1)(2-1) = 2,而χ20.05(2) = 5.99,所以在0.05的显著性水平下,拒绝零假设,即可以认为性别与课外活动内容有关联,或者说男女生在选择课外活动上存在显著的差异。

四格表独立性检验对于两个都只作两项分类的因素,它们的数据整理成的是一个2×2 的表格,一般称为四格表,对于四格表教材里给出了一个更简洁的公式:公式中,a、b、c、d的规定要求是a和d 必须呈对角线。

该公式的含义非常明确,即当对角线单元格中的次数差异越大时,卡方检验越容易显著,自然也就意味着两变量间的关联越密切。

掌握了一般的R*C表计算后,四格表计算相对简单地多。

相关文档
最新文档