9 第十二章卡方检验(一)

合集下载

《卡方检验正式》课件

卡方检验的结果可以直接解释为实际意义，例如，如果卡方值较大，则说明观察频数与期望频数存在显著差异。
缺点
对数据要求高
卡方检验要求数据量较大，且各分类的期望频数不能太小，否则可能导致结果不准确。
对离群值敏感
卡方检验对离群值比较敏感，离群值可能会对结果产生较大的影响。
无法处理缺失值
卡方检验无法处理含有缺失值的数据，如果数据中存在缺失值，需要进行适当的处理。
案例二：市场研究中的卡方检验
总结词
市场研究中，卡方检验用于评估不同市场细分或产品特征与消费者行为之间的关联。
VS
详细描述
在市场研究中，卡方检验可以帮助研究者了解消费者对不同品牌、产品或服务的偏好。例如，通过比较不同年龄段消费者对某品牌的选择比例，企业可以更好地制定市场策略和产品定位。
案例三：社会调查中的卡方检验
小，表示两者之间的差异越小。通常根据卡方值的概率水平来判断差异
是否具有统计学显著性。
02
卡方检验的步骤
建立假设
假设1
观察频数与期望频数无显著差异
假设2
观察频数与期望频数有显著差异
收集数据
从样本数据中获取观察频数确定期望频数，可以使用理论值或预期频数
制作交叉表
将收集到的数据整理成二维表格形式，行和列分别表示分类变量
卡方检验的基本思想
01
基于假设检验原理
卡方检验基于假设检验的原理，通过构建原假设和备择假设，利用观测
频数与期望频数的差异来评估原假设是否成立。
02
比较实际观测频数与期望频数
卡方检验的核心是比较实际观测频数与期望频数，通过卡方值的大小来
评估两者之间的差异程度。
03

统计学-第十二章卡方检验

总体分布形态已知或可假定，通常假设观察频数服从多项分布。
避免误用与误判的建议
充分理解卡方检验的原理和适用条件，避免在不满足条件的情况下使用。
结合专业知识判断观察频数与期望频数的差异是否具有实际意义，避免过度解读统计结果。
ABCD
在进行卡方检验前，对数据进行充分的描述性统计分析，了解数据的分布特点。
统计学-第十二章卡方检验
目录
• 第十二章概述 • 卡方检验的基本原理 • 卡方检验的应用场景 • 卡方检验的步骤与实现 • 卡方检验的优缺点及注意事项 • 实例分析与操作演示
01
第十二章概述
章节内容与目标
01
掌握卡方检验的基本原理和假设检验流程
02
了解卡方检验在不同类型数据中的应用
能够运用卡方检验进行实际问题的分析和解决
THANK YOU
卡方分布及其性质
卡方分布的定义
若$n$个相互独立的随机变量$X_1, X_2, ldots, X_n$均服从标准正态分布$N(0,1)$，则它们的平方和$X^2 = sum_{i=1}^{n}X_i^2$服从自由度为$n$的卡方分布，记为$chi^2(n)$。
期望和方差
$E(X) = n$，$D(X) = 2n$，其中$X sim chi^2(n)$。
运行分析
点击“确定”按钮，运行卡方检验分析。
结果解读与报告撰写
结果解读
根据卡方检验的结果，判断各组分类数据的分布是否存在差异，以及差异的显著性水平。
报告撰写
将分析结果以文字、表格和图表的形式呈现出来，包括研究目的、数据收集与整理过程、卡方检验结果和结论等部分。同时，需要
注意报告的规范性和可读性。

第十二讲卡方检验.

2 f ft 0.52 ft
例如：某区中学共青团员的比率为0.8，现从该区某中学随机抽取 20人，其中共青团员有12人，问该校共青团员的比率与全区是否一样？
频数分布正态性的卡方检验
• 120个11岁男生身高的频数分布如下表所示，问其总体是否呈正态分布？
X 1.9 , 3 X 9 7 .5
家庭经济状况
对于报考师范大学的态度
愿意
不愿意
未定
上 18（20.53） 27（19.43） 10（15.03）
中 20（22.03） 19（20.58） 20（16.13）
下 18（13.44） 7（12.72） 11（9.84）
总和
56
53
41
总和
55 59 36 150
在双向表卡方检验中，如果是判断几次重复实验的结果是否相同，
这种卡方检验称为同质性卡方检验。
• 从甲、乙、丙三个学校的平行班中，随机抽取三组学生，测得他们的语文成绩如下表括号外面的数据所示。问甲、乙、丙三个学校此次语文测验成绩是否相同？
甲乙丙总和
及格
不及格
24（17.68） 10（16.32）
15（18.20） 20（16.80）
13（16.12） 18（14.88）
高级知识分子职员
工人
总和
对某种学制的态度
总和
赞成
反对不定
14
18
20
52
22
10
12
44
12
7
10
29
48
35
42
125
• 某校高三物理考试成绩如下表所示，问四个平行班的成绩是否有本质差异？
班别一班二班三班四班总和

《卡方检验》课件

制作交叉表
确定交叉表的行列变量
根据研究目的和内容，选择合适的行列变量，构建交叉表。
制作交叉表
将分组后的数据按照行列变量制作成交叉表，以便于进行卡方检验。
计算理论频数
确定期望频数
根据交叉表中的数据，结合各组的概率计算期望频数。
计算理论频数
根据期望频数和实际频数计算理论频数，为后续的卡方检验提供依据。
计算卡方值
计算卡方值
使用卡方检验的公式计算卡方值，该值反映了实际频数与理论频数的差异程度。
自由度的确定
在计算卡方值时，需要确定自由度，自由度通常为行数与列数的减一。
显著性水平的确定
选择显著性水平
显著性水平是衡量卡方值是否显著的指标，通常选择0.05或0.01作为显著性水平。
判断显著性
根据卡方值和自由度，结合显著性水平判断卡方检验的结果是否显著，从而得出结论。
3.84、6.63等），可以确定观测频数与期望频数之间的差异是否具有统
计学显著性。
02
卡方检验的步骤
收集数据
确定研究目的
制定调查问卷或收集程序
在开始收集数据之前，需要明确研究的目的和假设，以便有针对性地收集相关数据。
根据研究目的和内容，制定合适的调查问卷或建立数据收集程序，确保数据的完整性和准确性。
详细描述
例如，在市场调研中，我们可以通过卡方检验来分析不同年龄段、性别、职业等人群对于某产品的态度或购买意愿是否有显著差异，从而为产品定位和营销策略提供依据。
实际案例二：医学研究中的应用
总结词
在医学研究中，卡方检验常用于病例对照研究和队列研究中的分类变量关联性分析。
详细描述
例如，在病例对照研究中，我们可以通过卡方检验来比较病例组和对照组在某些基因型、生活方式或暴露因素上的分布是否有统计学差异，从而探讨病因或危险因素。

《卡方检验方法》ppt课件

在υ=1, 02.05,1u02.05/21.962
自在度一定时，P值越小， x2值越大，反比关系。
当P 值一定时，自在度越大， x2越大。
=1时， P=0.05， x2 =3.84
P=0.01， x2 =6.63
P=0.05时， =1， x2 =3.84
=2， x2 =5.99
第一节四格表资料χ2检验
2
0 2 , 1,2,3,...
2分布是一种延续型分布(Continuous
distribution)，v 个相互独立的规范正态变量
(standard normal variable)
ui(i1,2, 的,)平
方和称为 2 变量，其分布即为 2 分布；自
在度(degree of freedom)为v 。
普通四格表的根本方式
B1
B2
合计
A1
a
b
a+b
A2
c
d
c+d
合计 a+c b+d n=a+b+c+d
表7-1 完全随机设计两样本率比较的四格表
处置组
属性
阳性
阴性
合计
1
A11 (T11) A12 (T12) n1(固定值)
2
A21 (T21) A22 (T22) n2(固定值)
合计
m1
m2
n
四格表2检验的公用公式
7
36
28
37
35
73
阳性率〔%〕 80.56
24.32
52.05
2检验(Chi-square test)是现代统计学的开创人之一，英国人K . Pearson〔 1857-1936〕于1900年提出的一种具有广泛用途的统计方法。

第十二章卡方检验

果是：优8名、良20 良 20 21.5 2.25 0.10
名，中18名，差4名。中 18 21.5 12.25
试检验其评定的分布
差 ∑
4 50
3.5 50
0.25 —
与正态分布所期待的
2(3)0.05=7.81
结果有无显著差别？
0.57 0.07 6.53
例12-7：测得 551名学生的身高如下表。试问学生的实际身高是否符合正态分布？
148-150 80 149 –1.21 .21540 .12746 70
145-147 25 146 –1.70 .09400 .05562 31
142-144 139-141
8 143 –2.29 .02890 .01710 9 4 140 –2.88 .00670 .00396 121
∑ 551 －－
551
身高 f0 ft
2
169-171 0.125
2
18
166-168 7 7
163-165 22 23 0.043
160-162 57 60 0.150
157-159 110 104 0.471
154-156 124 130 0.277 151-153 112 114 11 0.035
148-150 80 70
求2
df=k-3 =9-
3=6 2(6)0.05=12.6
第三节独立性检验
• 定义：检验两个变量是独立的，还是相关的性。质：二元分类资料的χ 2检验。方法
r×c列联表的χ 2检验 2×2列联表的χ 2检验
一、r×c列联表的χ 2检验
例12-7：某小学三、四年级独立概括某种教
nr nc

[理学]09卡方检验_OK

实际观察人数比较，计算卡方统计量，如果卡方值较大则拒绝原假设
15
组段 122.0~ 126.0~
A
Fx1
Fx2 P= Fx2 Fx1 T=n×P (A-T)2/T
5 0.00832 0.03240 8 0.03240 0.09704
0.02408
理论数小于5，合并这两段
0.06463
2.8900 7.7557
化疗方法
单纯化疗
缓解情况
缓解 (理论缓解)
未缓解 (理论未缓解)
2(4.8)
10(7.2)
合计 12
复合化疗合计
14(11.2) 16
14(16.8) 24
28 40
29
四格表卡方检验的校正
• 在上表中最小的理论数应该是“单纯化疗” “缓解”所对应，因为它所对应的行、列合计值最小；2所对应的理论数为4.8，小于5，而且例数不小于40，所以本题应该作校正
• 卡方值满足卡方分布，求得相应卡方值的曲线下面积就可以得到P值，进而作结论
• 可见卡方检验的基本原理就是分析实际频数与根据假设构建的理论频数间的吻合程度（拟合度）
14
一、拟合优度检验 (goodness of fit test)
• 拟合优度检验旨在根据样本的频数分布检验其总体分布是否等于某给定的理论分布 • 例如：能否判断120个男童身高满足正态分布（例9-1）？ • 解答思路：假设身高满足正态，依据正态分布估计不同身高区间对应的理论人数，与
治疗药物
疗效有效无效合计 (有效率)兰芩口服液 41
4
45(91.1%)
银黄口服液 24
11
35(68.6%)
合计
65
15

卡方检验

作业2 卡方测验（一）1.资料：P144习题7.4。

2.数据说明：大麦杂交F2代芒性状表型有钩芒、长芒、短芒三种，测验三种性状是否符合9:3:4比例。

3.结果。

FREQ 过程检验gouxing 频数百分比百分比---------------------------------------钩芒 348 56.13 56.25长芒 115 18.55 18.75短芒 157 25.32 25.00指定比例的卡方检验-------------------------卡方 0.0409自由度 2渐近的 Pr >卡方 0.9798精确的 Pr >= 卡方 0.9797样本大小 = 6204.分析。

H0:三种性状符合9:3:4；H A：不符合。

显著水平：α=0.05 υ=2χ20.05,2=5.99＞χ2.因此接受无效假设，无显著差异。

5．程序代码。

optionps=32767ls=255nocenter;data xiti7_4;x 'F:';x 'cd "F:\"';infile 'xiti7_4.csv' dsd;inputgouxing$ zhushu;run;procfreq data=xiti7_4 order=data;weightzhushu;tablesgouxing/nocumtestp=(56.2518.7525);/*ratio of 9:3:4*/exactpchi;run;（二）1.资料：P144习题7.6。

2.数据说明：某杂交组F2得到四种表型，B_C_，B_cc，bbC_，bbcc。

判断四种表型实际观察次数是否符合9:3:3:1的比例，判断是连锁遗传还是独立遗传。

3.结果。

FREQ 过程检验biaoxing 频数百分比百分比----------------------------------------B-C- 132 58.41 56.25B-cc 42 18.58 18.75bbC- 38 16.81 18.75bbcc 14 6.19 6.25指定比例的卡方检验-------------------------卡方 0.6431自由度 3渐近的 Pr >卡方 0.8865精确的 Pr >= 卡方 0.8915样本大小 = 2264．分析。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

确切概率法计算公式
在四格表的周边合计不变的条件下 , 用下式直接计算表内四个数据的各种组合之概率。的各种组合之概率。式中a、b、c、d为四格表的实际频数
(a+b)!(c+d)!(a+c)!(b+d)! P= a!b c!d!n ! !
四格表资料的精确检验法基本步骤
1、建立假设 Ho：假设差别是由抽样误差引起的 H1：假设差别是本质上存在的确定显著性水准：２、确定显著性水准：α＝0.05 ３、计算确切概率P 周边合计不变，列出各种组合的四格表；（1）周边合计不变，列出各种组合的四格表；计算各个四格表的| （2）计算各个四格表的|A-T|值；样本| （3）求|A-T|值≥样本|A-T|值的所有四格表的Pi 值； Pi=(a+b)!(c+d)!(a+c)!(b+d)!/[a!b!c!d!n!] （4）求出确切概率P：P＝ΣPi 结果判断：４、结果判断：在事先确定的显著性水准α下作出专业结论。出专业结论。
行×列表资料χ2检验时的注意事项
1、行×列表资料χ2检验对资料的要求是：不宜有1／5以上检验对资料的要求是：不宜有1 格子的理论数小于5 且理论数应大于1 格子的理论数小于 5 ，且理论数应大于 1 ，若发生上述情可选用下述三种处理方法三种处理方法：况，可选用下述三种处理方法： ① 适当增大样本含量以增大理论频数；增大理论频数； ② 将理论数过小的格子所在的行或列与性质相近的行或列中的实际数合并，性质相近的行或列中的实际数合并，使重新计算的理论数增大；删去理论数过小的行或列。数增大； ③ 删去理论数过小的行或列。后两种处理方法有可能损失资料信息，且可能破坏样本随机性，有可能损失资料信息，且可能破坏样本随机性，故不宜常规使用。常规使用。 2、当试验效应按照强弱分为若干个级别，试验结果可整理当试验效应按照强弱分为若干个级别，为单向有序行×列表资料，为单向有序行 × 列表资料，在比较各处理组间的效应有无差别时，宜选用秩和检验、Ridit分析趋势检验等，分析、无差别时，宜选用秩和检验、Ridit分析、趋势检验等，检验只能说明各组构成比的差别有无显著性。如作χ2检验只能说明各组构成比的差别有无显著性。 3、多个样本率或多个构成比的χ2检验，结果有显著性意义检验，只能认为总体率或总体构成之间总的来说有差别，时，只能认为总体率或总体构成之间总的来说有差别，不能说明两两之间皆有差别，不能说明两两之间皆有差别，若要对每两个率或每两个构成比进行比较，应采用行× 构成比进行比较，应采用行×列表的χ2分割法或者采用其它率或构成比的多重比较。其它率或构成比的多重比较。
第三节
2检验配对计数资料的χ
2、配对计数资料的χ2检验
⑴、两种处理方法的比较 ①.基本公式法：b+c>40 基本公式法：b+c>
2 2= (b−c) ,ν =1 χ b+c
②.校正公式法：b+c≤40 校正公式法：b+c≤
2 2= ( b−c −1) ,ν =1 χ b+c
⑵、两种以上处理方法的比较
A −1) χ =n(∑ nn
R C
R×C表的χ2检验通用公式推导
合 × 合行计列计 nn R C 理频 T= 论数 = n 总数例
代入基本公式可推导出：可推导出：基本公式
2 2
通用公式
2
( A−T) A 2 ( ⇔ =n Σ −1) χ =Σ χ T nn R C
自由度= 行数− （列数− （列数自由度=（行数−1）列数−1）
四格表精确检验法
又称四格表确切概率法，常用于四格表资又称四格表确切概率法，料的假设检验。适用条件： <40或有理论数料的假设检验。适用条件：n <40或有理论数 T<1，或求得的P 值接近检验水准时采用，作 <1，或求得的P 值接近检验水准时采用，检验的补充。检验的基本思为四格表资料χ2检验的补充。检验的基本思四格表资料周边合计不变的情况下，想是：四格表资料周边合计不变的情况下，直接计算表内四个实际频数的所有各种组合的概其概率的合计为1 率，其概率的合计为1。表内四个实际频数的组合数共有“周边合计中的最小值＋组合数共有“周边合计中的最小值＋1”个。本法需要计算等于及大于样本计算等于及大于样本| 本法需要计算等于及大于样本|A-T|各四格表的累计概率。双侧检验取两侧累计概率，累计概率。双侧检验取两侧累计概率，单侧检验取一侧累计概率。验取一侧累计概率。
2值计算公式和理论值计算 χ
(A−T) 1 2 χ =∑ =(A−T) ∑ T T )( ) ν =(R−1 C−1
2 2
( w 计 ( lu n 计 n n 行ro )合 ×列co m )合 R C T= = n 总数例
2 χ
检验的基本原理
χ2值反映了实际频数和理论频数吻合的程度。相差越大，的程度。A与T相差越大，则(A－T )2的值越大，反之则越小。成立，越大，反之则越小。若H0成立，则四个格子的实际频数A与理论频数T相差不应该很统计量不应该很大。大，即χ2统计量不应该很大。若A与T 完全相同，值必为零。全相同，则χ2值必为零。除了这种情况值永远为正，值越大，外，χ2值永远为正，且χ2值越大，相对值越小，应的P 值越小，若P≤α，则A与T 相差太正确是个小概率事件，大，即推断H0正确是个小概率事件，继而拒绝H0，接受其对立假设H1，即π1≠π2。
χ2检验的方法选择及使用条件
一、四格表资料的χ2 检验 1、基本公式法：n≥40 ，T≥5 基本公式法： 2、校正公式法：n≥40 ，1≤T<5 校正公式法： 3、直接概率法：（精确检验法）：n<40 直接概率法：精确检验法）或T<1 二、配对计数资料的χ2检验 1、基本公式法：b+c>40 基本公式法：b+c>40 2、校正公式法：b+c≤40 校正公式法：b+c≤40 三、行×列表资料的χ2检验 T<5的个数不能多于理论数总个数的1／5，的个数不能多于理论数总个数的1 而且T 而且T>1。
四格表资料连续性校正公式
适用条件：n≥40 ，1≤T<5 适用条件：校正公式：校正公式： 2
(A T−05 − .) χ =∑ T
2
专用公式：专用公式：
2
χ =(a+b)(c+d)(a+c)(b+d)
n n (a − c− ) d b 2
2
第二节
四格表资料的精确四格表资料的精确检验法资料的精确检验法
0 同理可得当校正公式：同理可得当 b+c≤4 时，校正公式：
(| A−T | − .5 0 ) (| b−c| − ) 1 χ =Σ = T b+c
2 2 2
两种以上处理方法比较的计算方法
∑T T −
(
)
2
=∑ T
2
χ = k(
2 j
( ) k k−1 ∑T T −
∑fu) −(∑f u)
2
配对四格表资料的χ2检验公式推导
b+c （+，−）和（−，+）两个格子中的理论频数均为 2 ，
〉 0 基本公式：当 b+c 4 时，基本公式：
b+c 2 b+c 2 ) (c− ) 2 (b− 2 (A−T) 2 2 + 2 (b−c) b− χ =Σ = 2 = b+c b+c T b+c ～ χ 分布 2 2
χ2值、P值与统计结论
α
பைடு நூலகம்X2 值
P值
统计结论不拒绝H 不拒绝H0，差别无差别无显著性
0.05 < χ20.05(ν) >0.05
0.05 ≥χ20.05(ν) ≤0.05 拒绝H0，接受H1 拒绝H 接受H 差别有差别有显著性 0.05 ≥χ20.01(ν) ≤0.01 拒绝H0，接受H1 拒绝H 接受H 有高度显著性差别有高度差别有高度显著性
χ2检验的资料类型检验的资料类型
1、四格表资料的χ 四格表资料的
2检验
2、配对计数资料的χ2检验配对计数资料的 3、行×列表资料的χ2检验列表资料的
第一节 2检验四格表资料的四格表资料的χ
1、四格表资料的χ2检验
⑴、基本公式法：n≥40 ，基本公式法： T≥5 校正公式法： ⑵、校正公式法：n≥40 ， 1≤T<5 直接概率法（ ⑶、直接概率法（精确检验法）：n<40 或 T<1
R×C表χ2检验的应用注意事项
若较多格子（的理论频数小于5 1. 对R×C表，若较多格子（1/5）的理论频数小于5 或有的个格子的理论频数小于1 则易犯第一类错误。或有的个格子的理论频数小于1，则易犯第一类错误。出现某些格子中理论频数过小时怎么办？出现某些格子中理论频数过小时怎么办？① 增大样本含量（最好！删去该格所在的行或列（含量（最好！）② 删去该格所在的行或列（丢失信息！）③ 根据专业知识将该格所在行或列与别的行或列合并。丢失信息！甚至出假象）合并。（丢失信息！甚至出假象）多组比较时，若效应有强弱的等级， ++， +++， 2 . 多组比较时，若效应有强弱的等级，如 + ， ++ ， +++ ，最好采用后面的非参数检验方法。最好采用后面的非参数检验方法。χ2 检验只能反映其构成比有无差异，不能比较效应的平均水平。构成比有无差异，不能比较效应的平均水平。 3.行列两种属性皆有序时， 3.行列两种属性皆有序时，可考虑趋势检验或等级相关分行列两种属性皆有序时析。

9 第十二章 卡方检验(一)

《卡方检验正式》课件

统计学-第十二章卡方检验

第十二讲卡方检验.

《卡方检验》课件

《卡方检验方法》ppt课件

第十二章卡方检验

[理学]09卡方检验_OK

卡方检验

9 第十二章卡方检验(一)