卡方检验

合集下载

卡方检验的原理和步骤

卡方检验的原理和步骤卡方检验（Chi-squared test）是一种用于统计学中的假设检验方法，主要用于检验两个或更多个分类变量之间是否存在相关性。

它的原理和步骤可以概括如下：原理：卡方检验是基于卡方统计量的方法，卡方统计量是通过计算实际观察值与期望理论值之间的差异来判断变量间是否存在相关性。

具体来说，卡方统计量是通过计算每个观察值与对应期望值之间的差异平方的总和来衡量的。

如果差异较小，说明实际观察值与期望值之间较为接近，两个变量间可能不存在相关性；如果差异较大，则说明实际观察值与期望值之间存在较大差异，两个变量间可能存在相关性。

步骤：1.建立假设：在进行卡方检验之前，需要明确两个变量之间的假设。

通常有两种假设：原假设（H0）和备择假设（Ha）。

原假设是指两个变量之间没有相关性，备择假设是指两个变量之间存在相关性。

2.构建列联表：列联表（Contingency table）是用来统计两个或多个分类变量的交叉频次分布的表格。

在卡方检验中，我们需要根据实际观察数据构建列联表。

3.计算期望值：在卡方检验中，我们需要计算期望理论值。

期望理论值是指如果两个变量之间不存在相关性，那么我们可以根据边际总计与变量间的分布来计算出的预期频次。

一般情况下，期望理论值可以通过边际总计和整体频率来计算。

4.计算卡方统计量：在有了观察值和期望理论值后，我们可以通过计算卡方统计量来判断两个变量之间是否存在相关性。

卡方统计量的计算公式为：χ2=∑((O-E)^2/E)，其中χ2为卡方统计量，O为观察值，E为期望理论值。

计算出卡方统计量后，可以根据自由度去查找对应的临界值。

5.决策：根据卡方统计量的计算结果，我们可以通过比较卡方统计量与对应自由度的临界值来进行决策。

如果卡方统计量小于临界值，则接受原假设，即认为两个变量之间没有相关性；如果卡方统计量大于临界值，则拒绝原假设，即认为两个变量之间存在相关性。

6.结论：最后，根据决策结果，我们可以得出结论，即两个变量之间是否存在相关性。

统计方法卡方检验

统计方法卡方检验卡方检验（Chi-Square Test）是一种统计方法，用于检验两个或多个分类变量之间的关系。

它通过比较观察到的频数与期望的频数之间的差异，来判断这些变量是否独立或存在相关性。

卡方检验可以用于不同类型的问题，包括：1.两个分类变量之间的关系：例如，我们可以使用卡方检验来确定性别和吸烟偏好之间是否存在关联。

2.多个分类变量之间的关系：例如，我们可以使用卡方检验来确定教育水平、职业和收入之间是否有关联。

卡方检验的原理是基于观察到的频数与期望的频数之间的差异。

观察到的频数是指在实际数据中观察到的变量组合的频数。

期望的频数是指在假设独立的情况下，根据变量边际分布计算得到的预期频数。

卡方检验通过计算卡方统计量来衡量这两组频数之间的差异。

在进行卡方检验之前，需要设置零假设（H0）和备择假设（Ha）。

零假设通常是指两个或多个分类变量之间独立的假设，而备择假设则是指两个或多个分类变量之间存在相关性的假设。

卡方检验的计算过程可以分为以下几个步骤：1.收集观察数据：将观察到的数据以交叉表格的形式整理起来。

表格的行和列分别代表两个或多个分类变量的不同组合，表格中的数值表示观察到的频数。

2.计算期望频数：根据变量边际分布计算得到期望频数。

期望频数是在零假设成立的情况下，根据变量边际分布计算得到的预期频数。

3.计算卡方统计量：根据观察频数和期望频数之间的差异计算卡方统计量。

卡方统计量的计算公式为：X^2=Σ(（O-E）^2/E)其中，Σ代表对所有单元格进行求和，O表示观察到的频数，E表示期望频数。

4. 计算自由度：自由度（degrees of freedom）是进行卡方检验时需要考虑的自由变量或条件的数量。

在卡方检验中，自由度等于（行数 - 1）乘以（列数 - 1）。

5.查找临界值：使用给定的自由度和显著性水平（通常为0.05）查找卡方分布表格，以确定接受或拒绝零假设。

6.比较卡方统计量和临界值：如果卡方统计量大于临界值，则拒绝零假设，认为两个或多个分类变量之间存在相关性；如果卡方统计量小于临界值，则接受零假设，认为两个或多个分类变量之间独立。

卡方检验名词解释

卡方检验名词解释
卡方检验属于非参数检验，由于非参检验不存在具体参数和总体正态分布的假设，所以有时被称为自由分布检验。

参数和非参数检验最明显的区别是它们使用数据的类型。

非参检验通常将被试分类，如民主党和共和党，这些分类涉及名义量表或顺序量表，无法计算平均数和方差。

卡方检验分为拟合度的卡方检验和卡方独立性检验。

我们用几个例子来区分这两种卡方检验：
•对于可口可乐公司的两个领导品牌，大多数美国人喜欢哪一种？•公司采用了新的网页页面B，相较于旧版页面A，网民更喜欢哪一种页面？
以上两个例子属于拟合度的卡方检验，原因在于它们都是有关总体比例的问题。

我们只是将个体分类，并想知道每个类别中的总体比例。

它检验的内容仅涉及一个因素多项分类的计数资料，检验的是单一变量在多项分类中实际观察次数分布与某理论次数是否有显著差异。

拟合度的卡方检验定义：
主要使用样本数据检验总体分布形态或比例的假说。

测验决定所获得的的样本比例与虚无假设中的总体比例的拟合程度如何。

拟合度的卡方检验又叫最佳拟合度的卡方检验，为何取名“最佳拟合”？这是因为最佳拟合度的卡方检验的目的是比较数据（实际频数）与虚无假设。

确定数据如何拟合虚无假设指定的分布，因此取名“最佳拟合”。

关于拟合度的卡方检验有一些翻译上的区别，其实表达的是一个意思：
拟合度的卡方检验=卡方拟合优度检验=最佳拟合度卡方检验
以下统称：卡方拟合优度检验
卡方统计的公式：卡方卡方=χ2=Σ(fo−fe)2fe
公式中O代表observation，即实际频数；E代表Expectation，即期望频数。

卡方检验医学统计学

卡方检验医学统计学卡方检验是医学统计学中最常用的检验方法之一，它可用于测量两组数据之间的关联性。

在研究中，我们常常需要探究二者之间是否存在某种关联，卡方检验就是我们解决这个问题的利器。

卡方检验的原理卡方检验的原理是基于期望频数和实际频数的差异来检验两个变量之间的关系。

期望频数指的是在假设两个变量独立的情况下，我们可以根据样本量和其他条件，计算出不同组之间的理论值。

而实际频数则是实验中观察到的实际结果。

卡方检验的步骤如下：1.建立零假设和备择假设。

零假设指的是假设两个变量之间不存在任何关系，备择假设则是反之。

2.确定显著性水平 alpha，通常取值为0.05。

3.构建卡方检验统计量。

计算方法为将所有观察值与期望值的差平方后，再除以期望值的总和。

4.根据自由度和显著性水平，查卡方分布表得到 P 值。

5.如果 P 值小于显著性水平，拒绝零假设；否则无法拒绝零假设。

卡方检验的应用卡方检验可以应用于多个领域，其中医学统计学是最为常见的一个。

卡方检验可以用来分析两个疾病之间的相关性或者测量一种治疗方法的效果。

举个例子，某药厂要研发一种新的药物来治疗心脏病。

为了验证该药的疗效，实验组和对照组各50 人。

在 6 个月的治疗后，实验组和对照组中分别有 10 人和 15 人痊愈了。

卡方检验的作用就在于此时可以用来检验两组之间的差异是否具有统计学意义。

除了医学统计学之外，卡方检验在社会学、心理学、市场营销、物理等领域也都有广泛应用。

卡方检验的限制虽然卡方检验被广泛应用于各种实验和研究中，但它也有着自己的限制。

其中比较明显的一点就是对样本量有一定的要求。

当样本量较小的时候，期望频数的计算就会出现一定的误差，进而导致检验结果不准确。

此外，在面对非常态分布数据时，卡方检验也会出现问题。

当数据呈现正态分布时，卡方检验的准确性最高。

然而，实际上，很多数据都呈现出非正态分布，这时需要使用一些修正方法来解决。

卡方检验是医学统计学中最常用的统计方法之一，它可以用来测量两个变量之间的关联性。

卡方检验格式

卡方检验格式一、什么是卡方检验？卡方检验（chi-square test）是一种常用的假设检验方法，用于比较实际观测值与理论预期值之间的差异是否显著。

它适用于离散型的数据，通常用于比较两个或多个分类变量之间的关联性。

卡方检验可以帮助我们判断观察到的数据是否符合某种期望的分布模式，从而评估变量之间的独立性。

二、卡方检验的原理卡方检验的原理基于卡方统计量（chi-square statistic），它用于度量观测值与理论预期值之间的差异程度。

卡方统计量的计算公式如下：^2}{E_i})其中，为观测值，为理论预期值。

三、卡方检验的步骤卡方检验一般包括以下步骤：1. 设置假设在进行卡方检验前，需要明确研究者想要验证的假设。

通常会设立两个假设：零假设（H0）和备择假设（H1）。

零假设常常是指变量之间没有关联或没有差异，备择假设则是指变量之间存在关联或差异。

2. 构建列联表在进行卡方检验时，需要构建一个列联表（contingency table），用于记录观测值和理论预期值。

列联表是一个二维表格，行代表一个变量的不同类别，列代表另一个变量的不同类别。

观测值填写实际观测到的频数，理论预期值填写根据假设计算得到的期望频数。

3. 计算卡方统计量根据构建的列联表，可以计算卡方统计量。

按照公式 ^2}{E_i}) 计算每个观测值与期望值的差异平方和，并相加得到卡方统计量。

4. 确定显著性水平在进行卡方检验时，需要设定一个显著性水平（significance level）来评估卡方统计量的显著性。

常用的显著性水平有0.05和0.01两种。

更小的显著性水平表示对差异的要求更高。

5. 查表或计算临界值根据显著性水平和自由度（degree of freedom），可以查找卡方分布表得到临界值。

根据卡方统计量和临界值的比较，可以判断观测值与理论预期值之间的差异是否显著。

6. 判断结论根据卡方统计量与临界值的比较结果，可以判断零假设是否被拒绝。

08卡方检验

及格农民干部 32 55 不及格 13 17
知识分子
25
11
4. 初步统计频数卡方独立性检验：SPSS

New file > Variable View > define variables Data View > input data Data > Weight Cases > “Counts” to be weighted Run “Crosstabs” analysis
统计方法与数据分析
第七讲卡方检验
1. 卡方检验：概述

卡方（Chi-square）, 数学符号表示为χ2, 是一种非参数检验方法。它适用于比较两组（或以上）互斥的频数数据之间是否存在显著差异。卡方比较的是观测频数（observed frequency）和期待频数（expected frequency）之间的比例，以考察是否存在显著差异。期待频数也称理论频数，通常是指假定各组均等的频数。

卡方检验结果显示，对语言教学影响因素的看法受教龄的影响显著（χ2=35.300，df=2，p<0.05）。教龄5年以上的教师认为语言/学习因素是主要的；教龄5年以下的教师认为环境和学习者因素是主要的（下表）。这可能是因为…
4. 初步统计频数卡方独立性检验：练习

一项研究得到家庭背景不同的学生（农民、干部、知识分子）的英语学习成绩（及格、不及格）。现要考察“家庭背景”与“英语成绩”之间是否彼此独立？
卡方拟合检验SPSS结果(2)
卡方拟合检验结果在论文中的呈现方式

卡方检验结果显示，双语教师的课堂用语有显著差异（χ2=340.556，df=5，p<0.05）。大多数双语教师使用英语的量多于汉语，或至少英语汉语使用比例差不多。仅使用英语或汉语授课的教师极少（下表）。这可能是因为…

生物统计学—卡方检验

卡方检验的原理和方法
由于离散型资料的卡方检验只是近似地服从连续型变量的卡方分布，所以在对离散型资料进行卡方检验计算的时，结果常常偏低，特别是当自由度df=1时，有较大偏差，为此需要进行矫正：
cc
2 i 1 k

Oi Ei 0.5 Ei
2
当自由度df>1时，与连续型随机变量卡方分相近似，这时可以不做连续性矫正注意：要求各个组内的理论次数不小于5，如某组理论次数小于5，则应把它与其相邻的一组或几组合并，知道理论次数大于5为止
卡方检验的原理和方法
Pearson定理的基本含义：如果样本确实是抽自由（P1，P2，…,Pk）代表的总体，Oi和Ei之间的差异就只是随机误差，则Pearson统计量可视为服从卡方分布反之，如果样本不是抽自由（P1，P2，…,Pk）代表的总体，Oi和Ei之间的差异就不只是是随机误差，从而使计算出的统计量有偏大的趋势因此，对Pearson统计量进行单尾检验（即右尾检验）可用于判断离散型资料的观测值与理论值是不是吻合
当用样本平均数估计总体平均数时，有：
c
2
1

2
x x
2
将样 s 2
2
其c2服从自由度为(k-1)的卡方分布
卡方函数的使用
2 2 假设 H 0: 2 0 , 适用右尾检验，其否定区为： c 2 c
假设 H 0: 2 02 , 适用左尾检验，其否定区为： c 2 c12 假设
卡方检验的原理和方法
统计假设： H0：观测值与理论值的差异是由随机误差引起 HA：观测值与理论值之间有真实差异
所以卡方值是度量实际观测值与理论值偏南程度的一个统计量卡方值越小，表明观测值与理论值越接近卡方值越大，表明观测值与理论值相差越大卡方值为0，表明H0严格成立，且它不会有下侧否定区，只能进行右尾检验

医学统计学-卡方检验

医学统计学-卡方检验
卡方检验是一种常用的统计方法，用于比较观察值和期望值之间的差异。它在医学研究中有着广泛的应用，可以帮助我们验证假设、推断总体特征以及分析类别变量的相关性。
卡方检验的定义和原理
卡方检验是一种基于卡方分布的统计检验方法。它基于观察值与期望值之间的差异来判断样本数据与理论分布的拟合程度。
卡方检验的局限性和注意事项
• 卡方检验只能验证分类变量之间的关联性，不能验证因果关系。 • 卡方检验对样本足够大和数据分类合理的要求比较严格。 • 卡方检验结果受样本选择和观察误差的影响，需要谨慎解释。 • 在进行卡方检验前，需要对数据进行充分的清洗和准备。
结论和要点
卡方检验是一种常用的统计方法
卡方检验的应用领域
医学研究
卡方检验可以用来分析疾病的发生与某个因素之间的关联性，如吸烟与肺癌。
社会科学
卡方检验可以用来研究不同人群之间的行模式和态度偏好，如性别与政治观点。
市场调研
卡方检验可以用来分析消费者的购买偏好和市场细分，如年龄与产品偏好。
卡方检验的假设和前提条件
1 独立性假设
卡方检验基于观察值和期望值之间的差异来验证两个变量之间是否存在独立性。
它可以帮助我们验证假设、推断总体特征以及分析类别变量的相关性。
结果解读和意义
卡方检验的结果可以帮助我们了解变量之间的关系，并为决策提供依据。
应用广泛
卡方检验在医学研究、社会科学和市场调研等领域都有着重要的应用。
局限性和注意事项
卡方检验有一定的局限性，需要注意样本大小和数据分类的合理性。
4
比较卡方值和临界值
判断卡方值是否大于临界值，从而做出关于拒绝或接受原假设的决策。
卡方检验的结果解读和意义

卡方检验

2
列联表中，（1）在 r×c 列联表中，若 1/5 以上的格子的理论频数小于 5，或有一个格子的理论频数小于 1，则应使理论频数小于 5 或小于 1 的格子与临组合并，以增大理论频数。或采用四格表资料的（或采用与临组合并，以增大理论频数。或采用四格表资料的 Fisher 确切概率（法）。检验中，若拒绝原假设，（2）在 r×c 列联表的 χ 检验中，若拒绝原假设，说明被比较的）
专业运动年限发病人数未发病人数合计发病率 %
1 年一下 2-4年 5-7年 10年 8 - 10 年合计 4 15 10 12 41 80 70 50 40 240 84 85 60 52 281 4.76 17.65 16.67 23.08 14.59
问：发病率的不同是由随机误差引起还是由条件误差（运动年限）引起？发病率的不同是由随机误差引起还是由条件误差（运动年限）引起？误差引起还是由条H0：发病率与运动年限无关；H0：发病率与运动年限有关
A2 2 − 1 ≈10.36 ○ χ = n ∑ n ⋅n r c 3 ○ 取α=0.05， n' = (r − 1)(c − 1) =（4-1）×（2-1）=3，，（）），
2
2
检验的专用公式。检验的专用公式。即： χ
2
=∑
( A − T )2
T
(ad − bc )2 n 或χ = 。 (a + b )(c + d )(a + c )(b + d )
2 2
检验的校正公式。（2）总例数 n＞40 且 1 格子的 1＜T＜5 时：当用四格表资料 χ 检验的校正公式。：即
定义
随机变量x1,x2……xn相对独立，并且服从标准正态分布。则随机变量

卡方检验及校正卡方检验的计算

卡方检验及校正卡方检验的计算卡方检验（Chi-squared test）是一种用于比较观察值与期望值之间的差异是否显著的统计方法。

它可以用于分析两个或多个分类变量之间的关联性或独立性。

卡方检验的原假设是观察值与期望值没有显著差异，备择假设是它们有显著差异。

在进行卡方检验之前，需要计算期望值以比较与观察值的差异。

这可以通过以下步骤完成：1.建立假设：首先，建立原假设和备择假设。

原假设通常假设两个变量之间没有关联性或独立性，备择假设则是它们之间存在关联性或独立性。

2.计算期望频数：对于给定的样本数据，可以计算出每个分类变量的期望频数。

期望频数是基于原假设计算出来的，它表示了在原假设成立的情况下，每个分类变量中的期望观察值数量。

3.计算卡方值：卡方值是观察频数与期望频数的差异的平方的总和除以期望频数的总和。

卡方值越大，观察值与期望值之间的差异越大，意味着更有可能拒绝原假设。

4.确定自由度：自由度是用于计算卡方分布的参数。

对于二维列联表（2x2），自由度为1；对于更大的列联表，自由度为(行数-1)x(列数-1)。

5.判断统计显著性：根据自由度和卡方值，可以查找卡方分布表以确定观察值与期望值之间的差异是否显著。

如果卡方值大于临界值，则可以拒绝原假设，认为观察值与期望值之间存在显著差异。

校正卡方检验（Adjusted Chi-squared test）是对卡方检验的改进，它通过应用连续性修正或其他修正方法来解决离散数据中的小样本问题。

当样本容量较小时，卡方检验可能会产生不准确的结果，因为期望频数可能会小于5，从而违反了卡方检验的假设条件。

校正卡方检验的计算步骤与普通卡方检验类似，但需要应用修正方法来计算期望频数。

修正方法可以是连续性校正（continuity correction）、费希尔校正（Fisher's exact test）或模拟校正（simulation correction）等。

连续性校正是在计算期望频数时，对每个单元格中的观察频数进行微小的调整。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第八章记数数据统计法—卡方检验法知识引入在各个研究领域中，有些研究问题只能划分为不同性质的类别，各类别没有量的联系。

例如，性别分男女，职业分为公务员、教师、工人、……，教师职称又分为教授、副教授、……。

有时虽有量的关系，因研究需要将其按一定的标准分为不同的类别，例如，学习成绩、能力水平、态度等都是连续数据，只是研究者依一定标准将其划分为优良中差，喜欢与不喜欢等少数几个等级。

对这些非连续等距性数据，要判别这些分类间的差异或者多个变量间的相关性方法称为计数数据统计方法。

卡方检验是专用于解决计数数据统计分析的假设检验法。

本章主要介绍卡方检验的两个应用：拟合性检验和独立性检验。

拟合性检验是用于分析实际次数与理论次数是否相同，适用于单个因素分类的计数数据。

独立性检验用于分析各有多项分类的两个或两个以上的因素之间是否有关联或是否独立的问题。

在计数数据进行统计分析时要特别注意取样的代表性。

我们知道，统计分析就是依据样本所提供的信息，正确推论总体的情况。

在这一过程中，最根本的一环是确保样本的代表性及对实验的良好控制。

在心理与教育研究中，所搜集到的有些数据属于定性资料，它们常常是通过调查、访问或问卷获得，除了少数实验可以事先计划外，大部分收集数据的过程是难于控制的。

例如，某研究者关于某项教育措施的问卷调查，由于有一部分教师和学生对该项措施存有意见，或对问卷本身有偏见，根本就不填写问卷。

这样该研究所能收回的问卷只能代表一部分观点，所以它是一个有偏样本，若据此对总体进行推论，就会产生一定的偏差，势必不能真实地反映出教师与学生对这项教育措施的意见。

因此应用计数资料进行统计推断时，要特别小心谨慎，防止样本的偏倚性，只有具有代表性的样本才能作出正确的推论。

第一节卡方拟合性检验一、卡方检验的一般问题卡方检验应用于计数数据的分析，对于总体的分布不作任何假设，因此它又是非参数检验法中的一种。

它由统计学家皮尔逊推导。

理论证明，实际观察次数（f o）与理论次数（f e），又称期望次数）之差的平方再除以理论次数所得的统计量，近似服从卡方分布，可表示为：这是卡方检验的原始公式，其中当f e越大（f e≥5）,近似得越好。

显然f o与f e相差越大，卡方值就越大；f o与f e相差越小，卡方值就越小；因此它能够用来表示f o与f e相差的程度。

根据这个公式，可认为卡方检验的一般问题是要检验名义型变量的实际观测次数和理论次数分布之间是否存在显著差异。

它主要应用于两种情况：卡方检验能检验单个多项分类名义型变量各分类间的实际观测次数与理论次数之间是否一致的问题，这里的观测次数是根据样本数据得多的实计数，理论次数则是根据理论或经验得到的期望次数。

这一类检验称为拟合性检验。

拟合性检验的零假设是观测次数与理论次数之间无差异。

其中理论次数的计算一般是根据某种理论，按一定的概率通过样本即实际观测次数来计算。

这里所说的某种理论，可能是经验规律，也可能是理论分布。

确定理论次数是卡方检验的关键。

拟合性检验自由度的确定与两个因素有关：一是分类的项数，二是在计算理论次数时，所用统计量或约束条件的个数，这两者之差即为自由度。

由于一般情况下，计算理论次数时只用到“总数”这一统计量，所以自由度一般是分类的项数减1。

但在对连续数据分布的配合度检验中，常常会用数据个数、平均数、标准差等统计量来计算理论次数，所以此时的自由度应从总分类项中减去更多的个数。

按照检验中理论次数的定义不同，拟合性检验有以下集中应用。

二、检验无差假设所谓无差假设，是指各项分类的实计数之间没有差异，也就是说各项分类之间的概率相等（均匀分布），因此理论次数完全按概率相等的条件来计算。

即任一项的理论次数都等于总数/分类项数。

因此自由度也就等于分类项数减1。

【例1】随机地将麻将色子抛掷300次，检验该色子的六个面是否均匀。

结果1-6点向上的次数依次是，43，49，56，45，66，41。

解：每个类的理论次数是300/6 = 50，代入公式：因此，在0.05的显著性水平下，可以说这个色子的六面是均匀的。

【例2】随机抽取60名高一学生，问他们文理要不要分科，回答赞成的39人，反对的21人，问对分科的意见是否有显著的差异。

解：如果没有显著的差异，则赞成与反对的各占一半，因此是一个无差假设的检验，于是理论次数为60/2=30，代入公式：所以对于文理分科，学生们的态度是有显著的差异的。

三、检验假设分布的概率这里的假设分布可以是经验性的，也可以是某理论分布。

公式中所需的理论次数则按照这里假设的分布进行计算。

【例3】国际色觉障碍讨论会宣布，每12个男子中，有一个是先天性色盲。

从某校抽取的132名男生中有4人是色盲，问该校男子色盲比率与上述比例是否有显著差异？解：按国际色觉障碍讨论会的统计结果，132人应该有132/12=11人是色盲，剩下的121人非色盲，代入公式有：因此，在0.05和显著性水平下，该校男子色盲比率与国际色觉障碍讨论会的统计结果有显著差异，显然根据比例可知该校的色盲率小于国际色觉障碍讨论会的统计结果。

【例4】在英语四级考试中，某学生做对了80个四择一选择题中的28题，现在要判断该生是否是完全凭猜测做题。

解：假如该生完全凭猜测做题，那么平均而言每道题做对的可能性是1/4，因此80个题中平均而能做对80/4=20题，代入公式有：因此，该生可能会做一些题。

四、连续变量分布的拟合性检验对于一组连续数据，经常需要对其次数分布究竟服从哪种理论分布进行探讨，这一方面的主要应用就是在前面经常所提到的总体正态性检验。

首先要将测量数据整理成次数分布表和画出次分布图，并据此选择恰当的理论分布。

这些理论分布是多种多样的，例如有正态分布、均匀分布等。

然后根据选择的理论分布计算出理论次数，就可以计算卡方统计量并进行显著性检验了。

若差异显著，说明所选择的理论分布不合适，可以再选一个理论分布进行检验，直至完全拟合。

当然有时也只需检验是否与某确定的理论分布相符，如正态性检验（参见教材有关内容）。

对连续随机变量分布的吻合性检验，关键的步骤是计算理论次数与确定自由度。

理论次数的计算是按所选理论分布规律，并利用观测数据的有关统计量来计算各分组（次数分布表中）理论次数。

自由度则是用分组数减去计算理论次数时所用统计量的数目。

这种拟合性检验计算较为繁琐，不做要求。

五、小理论次数时的连续性校正卡方检验中，当某分类理论次数小于5时，卡方统计量不能很好地满足卡方分布，此时需要对卡方统计量进行校正，称为卡方的连续性校正，其公式如下：尽管采用此方法校正后，卡方统计量能较为接近卡方分布，不过我们仍然建议在实际中最好增大样本的容量，尽量减少出现这种不大服从理论分布的情况。

第二节独立性检验卡方检验还可以用于检验两个或两个以上因素（各有两项或以上的分类）之间是否相互影响的问题，这种检验称为独立性检验。

例如要讨论血型与性格的关系，血型有A、B、AB、O四类，性格采用心理学上的A型性格来划分，即有A型和B型两种，每个人可能是它们之间交叉所形成的8种类型中的一种，那么倒底它们之间有不有关系，就可以用卡方独立性检验。

卡方独立性检验用于检验两个或两个以上因素（各有两项或以上的分类）之间是否相互影响的问题。

所谓独立，即无关联，互不影响，就意味着一个因素各个分类之间的比例关系，在另一个因素的各项分类下都是相同的，比如在血型与性格关系中，如果A型性格人群中各血型的比例关系，与B型性格人群中各血型的比例关系相同，就可能说血型与性格相互独立，当然这里的“两者比例相同”在统计的意义下，应表述为“两比例差异不超过误差范围”，因为就算总体之间相互独立，收集到两个比例完全相同的样本的可能是很小很小的，甚至是不可能的。

相反，若一个因素各个分类之间的比例关系，在另一个因素的各项分类下是不同的，则它们之间相关。

假如A型性格中A型血的比例高于B型性格中A型血的比例，而且达到显著水平，那么就可以说血型与性格之间相关，不相互独立。

卡方独立性检验的零假设是各因素之间相互独立。

因此理论次数的计算也是基于这一假设，具体计算时，采用列联表的方式，后面将举例说明。

【例1】某校对学生课外活动内容进行调查，结果整理成下表，表中彩色格子里的数是原始数据的汇总数，括号内的数是理论次数（是按下面将要介绍的原理计算得来的），此外的是原始数据。

由于所有学生参加三项活动的比例是27:18:52，因此如果课外活动的选择与性别没有关系的话，男女生参加这三项活动的比例也应是这同一比例，而男女各自的人数可以计算，所以每格内的理论次数的计算方法如下：男生中参加体育活动的理论人数：55×27/97=15.3参加文娱活动的理论人数：55×18/97=10.2参加阅读活动的理论人数：55×52/97=29.5女生中参加体育活动的理论人数：42×27/97=11.7参加文娱活动的理论人数：42×18/97= 7.8参加阅读活动的理论人数：42×52/97=22.5我们将行列的小计和分别用f x和f y来表示，总人数用N 来表示时，上述计算理论次数的方法可以表示为：fe ij = fx i× fy j/N所以，卡方独立性检验的公式可以表示如下，其中最后一个式子比较便于计算，fxy 表示每格的原始数据。

由于在计算理论次数时，用了按每个因素分类的小计和（fx 和fy，其个数分别记为R 个和C 个），和总和N ，而总和又可由按每个因素分类的小计和计算得来，因此若从总分类个数R×C中减去R+C，则将总和重复减去了，因此要补 1 个自由度回来，所以最终独立性检验的自由度表示为：上述例题最终计算得：或者：这两个公式的计算结果有一点点差异，这完全是计算误差即四舍五入引起的。

df = (3-1)(2-1) = 2，而χ20.05(2) = 5.99，所以在0.05的显著性水平下，拒绝零假设，即可以认为性别与课外活动内容有关联，或者说男女生在选择课外活动上存在显著的差异。

四格表独立性检验对于两个都只作两项分类的因素，它们的数据整理成的是一个2×2 的表格，一般称为四格表，对于四格表教材里给出了一个更简洁的公式：公式中，a、b、c、d的规定要求是a和d必须呈对角线。

该公式的含义非常明确，即当对角线单元格中的次数差异越大时，卡方检验越容易显著，自然也就意味着两变量间的关联越密切。

掌握了一般的R*C表计算后，四格表计算相对简单地多。

这里不再展开。

注意，在独立性检验中，同样存在某格的理论次数小于等于 5 的问题，如同拟合性检验中一样，我们仍然建议在实际中最好增大样本的容量，尽量减少出现这种不大服从理论分布的情况。

此外，在独立性检验中，若拒绝了零假设，即各因素之间有关联，则如同方差分析中仅判定了存在交互作用一样，只是一个总体的结果，并不能回答具体关联的形式的问题。