25列联表的独立性检验
高中数学 新人教A版选择性必修第三册 第八章 8.3列联表与独立性检验 课件

【解析】由2×2列联表得a=4,b=8,c=16,d=2,n=30,代入公式得χ2=
30×(4×2-8×16)2 20×10×12×18
=10.
答案:10
探究点二 独立性检验 【典例2】电视台“国家品牌计划”栏目组为了做好新能源汽车的品牌推广,利用 网络平台对年龄(单位:岁)在[20,60]内的人群进行了调查,并从参与调查者中 随机选出600人,把这600人分为对新能源汽车比较关注和不太关注两类,并制成 如下表格:
【解析】(1)根据题意,填充2×2列联表如下:
由χ2=(a+b)(cn+(da)d-(bac+)c2)(b+d) =600(40204×02×0500×-39106×0×211050)2 ≈13.19>6.635=x0.01, 根据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为性别与对新能 源汽车关注度有关,此推断犯错误的概率不大于0.01.
(2)根据(1),男女比例为2∶1,6人中女性的人数为2人,男性为4人,
记3人中女性的人数为X,X=0,1,2, P(X=0)=CC3436 =51 =0.2; P(X=1)=CC12 C36 42 =35 =0.6; P(X=2)=CC22 C36 41 =15 =0.2;
X的分布列如下:
X
0
课堂素养达标
1.以下关于独立性检验的说法中,错误的是( ) A.独立性检验依据小概率原理 B.独立性检验得到的结论一定正确 C.样本不同,独立性检验的结论可能有差异 D.独立性检验不是判定两分类变量是否相关的唯一方法
【解析】选B.根据独立性检验的原理可知得到的结论是错误的情况是小概率事 件,但并不一定是准确的.
主题2 独立性检验 依据小概率值α=0.01的χ2独立性检验,分析主题1中的抽样数据,能否据此推断 认为作业量的大小与性别有关?
高考数学一轮复习列联表与独立性检验

.
(+)(+)(+)(+)
α
0.100
0.050
0.010
xα
2.706
3.841
6.635
目录
解 (2)零假设为H0:甲、乙两城之间的长途客车是否准点与客车所属公司无
关,列联表如下表所示:
公司
班次是否准点
合计
准点班次数
未准点班次数
A
240
20
260
B
210
30
240
合计
450
50
的把握说变量X,Y有关系(填百分数).
解析:因为χ2≈4.328>3.841=x0.05,所以在犯错误的概率不超过0.05的前提下
认为变量X,Y有关系.所以最大有95%的把握说变量X,Y有关系.
答案:95%
目录
02
目录
分类变量与列联表
1.(多选)根据如图所示的等高堆积条形图,下列叙述正确的是
据中没有发现足够的证据支持结论“X与Y有关系”.
目录
某市政府调查市民收入增减与旅游愿望的关系时,采用独立性检验法抽查了3
000人,计算得χ2=6.023,则市政府断言市民收入增减与旅游愿望有关系的可
信程度是(
A.90%
)
B.95%
C.99%
D.99.5%
解析:B 由临界值表,得6.023>3.841=x0.05,所以可断言市民收入增减与旅
(2)根据公式χ2=
(− )2
计算;
(+)(+)(+)(+)
(3)比较χ2与临界值的大小关系,作统计推断.
目录
2025年高考数学一轮复习-第十章-第三节-数据分析-列联表与独立性检验【课件】

育改革态度的关系,随机抽取了392名成年人进行调查,所得数据如下表所示:
积极支持教育改革
不太赞成教育改革
合计
大学专科以上学历
39
157
196
大学专科以下学历
29
167
196
合计
68
324
392
对于教育机构的研究项目,根据上述数据能得出什么结论?
5
2
5
2
4−5 25−27 + 5−5 26−27 + 6−5 30−27
4−5 2 + 5−5 2 + 6−5 2
= ,ො = 27 − × 5 = 14.5,所以关于的经验回归方程为ො = 2.5 + 14.5.
②若由经验回归方程得到的估计数据与所选出的检验数据的误差均不超过2盒,则认为
有关的结论.
规律方法
独立性检验的关注点
在2 × 2列联表中,如果两个分类变量没有关系,那么应满足 − ≈ 0,因此 −
越小,关系越弱; − 越大,关系越强.
题型三 独立性检验与回归分析的综合
典例4 盲盒里面通常装的是动漫、影视作品的周边,或者设计师单独设计出来的玩偶.
周数
1
2
3
4
5
6
盒数
16
—
23
25
26
30
由于电脑故障,第二周数据现已丢失,该销售网点负责人决定用第4,5,6周的数据求经验
回归方程,再用第1,3周的数据进行检验.
+ .
①请用第4,5,6周的数据求出关于的经验回归方程ො =
独立性检验 列联表与独立性检验 教学PPT课件

38
7
45
合计
71
17
88
所以
讲
课
人
:
邢
启
强
数学成绩
学校
=
(×−×)
×××
≈ . < . =x0.1
根据小概率值=0.1的 独立性检验,没有充分证据推断H0不成立,因此可以
认为H0成立,即认为两校的数学成绩优秀率没有差异。
12
思考例1和例2都是基于同一组数据的分析,但却得出了不同的结论,你能说明其
中间的四个格中的数是表
格的核心部分,给出了事件
{X=x,Y=y}(x,y=0,1)中样本
点的个数;右下角格中的数
是样本空间中样本点的总
数。
讲
课
人
:
邢
启
强
X
Y
X=0
X=1
Y=0
a
c
Y=1
b
d
合计
a+c
b+d
合计
a+b
c+d
n=a+b+c+d
2
复习回顾
两个分类变量之间关联关系的定性分析的方法:
(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大
中的原因吗?
例1只是根据一个样本的两个频率间存在差异得出两校学生数学成绩优秀率
有差异的结论,并没有考虑由样本随机性可能导致的错误,所以那里的推断依据不
太充分,在本例中,我们用 独立性检验对零假设H0进行了检验,通过计算,发现
≈0.837小于α=0.1所对应的临界值2.706,因此认为没有充分证据推断H0不成立,所
分别考虑③中的四个差的绝对值很困难,我们需要找到一个既合理又能够计算分布的统
独立性检验基本思想及应用

独立性检验基本思想及应用独立性检验是一种用于确定两个变量之间是否存在关联的统计方法。
其基本思想是通过比较观察到的数据与预期的数据之间的差异来推断这两个变量之间的关系。
独立性检验的应用非常广泛。
在社会科学中,独立性检验常被用于研究两个分类变量之间是否存在关联,例如性别和职业、教育水平和政治倾向等。
在医学研究中,独立性检验也可以用来检查某种治疗方法是否与疾病的发展有关,以及风险因素和某种疾病之间的关系。
此外,独立性检验还被广泛应用于市场调查、品牌定位以及质量控制等领域。
独立性检验的基本思想是建立一个零假设(H0)和一个备择假设(H1)。
零假设认为两个变量是独立的,即它们之间没有关联;备择假设则认为两个变量之间存在关联。
独立性检验的步骤可以分为以下几步:1. 收集数据:需要收集两个分类变量的数据,例如通过问卷调查或观察获得数据。
2. 建立列联表:将数据整理成列联表形式,列联表是一种用于描述两个或多个分类变量之间关系的矩阵。
表格的行表示一个变量的不同类别,列表示另一个变量的不同类别,表格中的每个单元格表示两个类别的交叉数量。
3. 计算期望频数:在独立性检验中,我们假设两个变量是独立的,因此可以基于各类别的边际总数以及样本总数来计算期望频数。
期望频数是在两个变量独立情况下,各个类别的交叉数量。
4. 计算卡方统计量:卡方统计量用于衡量观察到的数据与期望数据之间的差异程度。
计算公式为:χ2 = Σ((观察频数- 期望频数)^2 / 期望频数)。
其中,Σ表示对所有单元格进行求和。
5. 设定显著性水平:显著性水平α为决策的临界点,用于决定是否拒绝零假设。
通常,α的常见选择为0.05或0.01。
6. 判断和解释结果:根据计算出的卡方统计量与临界值进行比较,如果计算出的卡方值大于临界值,拒绝零假设,认为两个变量之间存在关联;反之,接受零假设,认为两个变量是独立的。
独立性检验的结果常常以卡方统计量和p值的形式呈现。
p值是在零假设成立的条件下,观察到的数据与期望数据之间差异的概率。
列联表的独立性检验

拒绝域形式Q2 c.
因为ˆi
ni n
,ˆ j
n j n
.
r
Q2
s
nij
nin j n
2
r
s
2
nnij nin j
i1 j1
nin j
i1 j1
nnin j
如果H0成立,Qn2渐近服从自由度为(r -1() s -1)
的 2分布.
例1 随机抽取某校男生35名,女生31,进行
体育达标考核,结果如下表 问体育达标水平是
2.5 列联表的独立检验
一、二维r 列s联表
设A, B为两个定性变量,A有r个不同水平(A1,A2 , Ar ),
B有s个不同水平(B1,B2 , Bs ).观测n次, 各水平组合(Ai ,Bj )
出现频数为nij. 列表如下: 二维 r s 列联表
s
令:ni nij j 1
A
B B1,
B2 ,
著的差异.
即有 n11 n21
n1 n2+
如果p1 p2, 表示有属性A的个体中有属性B的比例高
即
n11 n1
n21 n2+
如果p1 p2,表示有属性A的个体中有属性B的比例低
即
n11 n21
n1 n2+
四表格的检验问题, 即属性A和B的独立性检验问题有
(1) H0 : p1=p2, H1 : p1 p2 (2) H0 : p1=p2, H1 : p1 p2 (3) H0 : p1=p2, H1 : p1 p2
X-squared = 0.0057, df = 1, p-value = 0.9397 因此在0.05显著性水平下,接受原假设.
新教材2023高中数学第八章成对数据的统计分析8.3列联表与独立性检验8.3.2独立性检验课件新人教

(2)考查独立性检验的综合问题时,常与统计、概率等
知识综合,一般需要根据条件列出 2×2 列联表,计算 χ2 的值,
从而解决问题.
【跟踪训练】
2.给出下列实际问题:
①一种药物对某种病的治愈率;
②两种药物治疗同一种病的效果是否有区别;
③吸烟者得肺病的概率;
④吸烟是否与性别有关联;
2
≈4.514.
探索点一
独立性检验
【例 1】在 500 人身上试验某种血清预防感冒的情况,把
他们一年中的感冒记录与另外 500 名未使用血清的人的感冒
记录进行比较,结果如下表所示.问:依据小概率值 α=0.01 的独
立性检验,能否认为该种血清能起到预防感冒的作用?
单位:人
感冒
血清
合计
未感冒 感冒
258
和 Y 有关联.
α
0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
解析:因为 χ2>7.879,在临界值表中与 7.879 对应的是
0.005,所以可以在犯错误的概率不超过 0.005 的前提下,认为
X 和 Y 有关联.
5.某科研团队对 1 050 例某肺炎确诊患者的临床特征进
的海上航行中男乘客比女乘客更容易晕船?
解: 零假设为
H0:在 2~3 级风的海上航行中晕船和性别没有关联.
根据列联表中的数据,经计算得
2
2 71×(12×24-10×25)
χ=
22×49×37×34
≈0.076<2.706=x0.1.
根据小概率值 α=0.1 的独立性检验,没有充分证据推断
列联表的独立性检验作业

本节研究的是两个分类变量的独立性检验问题。
探究
列联表
为了调查吸烟是否对肺癌有影响, 为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965 9965人 得到如下结果(单位: 地调查了9965人,得到如下结果(单位:人)
吸烟与肺癌列联表 不患肺癌 不吸烟 吸烟 总计 7775 2099 9874 患肺癌 42 49 91 总计 7817 2148 9965
合计
27
40
57
联合概率分布(图示) 联合概率分布(图示)
概率
老年 戏曲 歌舞 球赛 中年
y边缘分布
青年
合计 32/124 60/124 32/124 1
20/124 5/124 2/124
10/124 20/124 10/124
2/124 35/124 20/124
合计
27/124
40/124
57/124
合计
27
40
57
第二节 列联表的检验 χ2 检验
假设检验的步骤 提出原假设和备择假设 确定适当的检验统计量 规定显著性水平α 规定显著性水平α,查表得出拒绝域和临界值 计算检验统计量的值 作出统计判断: 作出统计判断: 水平的临界值进行比较, 将检验统计量的值与α 水平的临界值进行比较, 得出接受或拒绝原假设的结论: 得出接受或拒绝原假设的结论:若样本统计 量的值落入拒绝域,则拒绝原假设, 量的值落入拒绝域,则拒绝原假设,接受备 择假设;否则,接受H 择假设;否则,接受H0
1. 2.
3. 4.
5.
行变量的类别用 r 表示, ri 表示第 i 个类别 表示, 列变量的类别用 c 表示, cj 表示第 j 个类 表示, 别 每种组合的观察频次用 fij 表示 表中列出了行变量和列变量的所有可能的 组合, 组合,所以称为列联表 一个 r 行 c 列的列联表称为 r × c 列联表
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
B A
A1 A2
M
Ar j
r s 列联表的联合及边缘分布列
B1,
L B2 ,
L 11
12
L 21
22
Bs
i
1s
1
2s
2
MM L r1 r 2
L 1 2
MM
rs
r
s 1
s
i ij , i 1, 2,L , r j 1
r
j ij , j 1, 2,L , s. i 1 rs 1 ij. i1 j 1
若A, B独立 ij i g j ,i 1, 2L r, j 1, 2,L s.
原假设 H0:A, B独立
即为ij i g j ,i 1, 2L , r, j 1, 2,L , s成立.
备则假设 H1:A, B不相互独立
即为至少(i, j), 使ij i g j .
(A, B)的观测值为对应的列联表(观测次数n),
频数四表格
B
A
n11
A
n21
n+1
对应的概率四表格
B
A
p11
A
p21
p+1
B 合计
n12
n1+
n22
n2+
n+2
n++
B 合计
p12
p1+
p22
p2+
p+2 1
假设边缘频数 n1,n2,n1,n2 固定
n11,n21 分别服从二项分布 B(n1+,p1)和B(n2+,p2 ) 其中,p1=P(B | A), 表示有属性A的个体中有属性B的条件概率
ij n ij n i g
s (观测频数-理论频数)2
j 1
理论频数
称为Pearson 2 统计量
j
.
如果H 0成立,Q2的值应较小.
拒绝域形式Q2 c.
因为ˆi
ni n
,ˆ j
n j n
.
r
Q2
s
nij
nin j n
2
r
s
2
nnij nin j
i1 j1
nin j
i1 j1
92页例2.14自己看
在使用Pearson 2 独立性检验时, 要注意格子
的期望频数小于5的格子数不超过总格子数的20%, 且没有一个格子的期望频数小于1
不满足时, 用Pearson近似效果很差, 一般采用 Fisher精确检验.
2.5.2 Fisher精确检验
Fisher精确检验对于单元频数小的表格特别适用 四表格的Fisher精确检验
15
20
35
女
13
18
31
n
合 计 28
38
66
(1)建立假设
H 0:体育达标水平与性别无关 H1:体育达标水平与性别有关
(2)计算
Q
2
值,理论频
数
n
i
j
=
ni n n
j
估计为:
35 28 14.85 35 38 20.15
66
66
31 28 13.15 66
31 38 17.85 66
Q2 (15 14.85)2 (20 20.15)2 (13 13.15)2 (18 17.85)2
A1
n11
L B2 , L n12
r
n j nij i 1
rs
n
nij =n
i1 j 1
A2
n21
L n22
M MM
Ar
L nr1 nr 2
L 合计 n1
n 2
Bs
合计
n n1s
1
n n2s
2
MM
nrs nr
ns n n
为了调查吸烟是否对肺癌有影响,对632位×2列 肺癌患者及43位非患者(对照组)调查了联表
Fisher精确检验的统计量
假设边缘频数 n1,n2,n1,n2 都固定
2.5 列联表的独立性检验
一、二维r s列联表
设A, B为两个定性变量,A有r个不同水平(A1,A2 L , Ar ),
B有s个不同水平(B1,B2 L , Bs ).观测n次, 各水平组合(Ai 二维 r s 列联表
s
令:ni nij j 1
A
B B1,
其中的吸烟人数.
吸烟 不吸烟
总计
吸烟与肺癌列联表
患肺癌 不患肺癌
60
32
3
11
63
43
总计 92 14 106
二、二维r s列联表的独立性检验
设A, B为随机变量,A取值A1,A2 L , Ar ,
B取值为B1,B2 L
,
Bs
.取值(Ai
,B
j
)的概率为
,
ij
i , j为A, B的边缘分布. 列表如下:
14.85
20.15
13.15
17.85
0.006
(3)统计决断: 首先确定自由度 df ,本例
df
=1,查 df
=1
的
2
表,
2 (
0.05() 1)=3.84,故有
2 < . 2(0.05() 1)
因此在0.05显著性水平下,接受原假设.
其结论为:体育达标水平与性别无关.
R函数chisq.test ( )
如果p1 p2,表示有属性A的个体中有属性B的比例低
即
n11 n21
n1 n2+
四表格的检验问题, 即属性A和B的独立性检验问题有
(1) H0 : p1=p2, H1 : p1 p2 (2) H0 : p1=p2, H1 : p1 p2 (3) H0 : p1=p2, H1 : p1 p2
R程序如下 >x<-matrix(c(15,13,20,18),nr = 2) >chisq.test(x, correct=F) 输出结果为 Pearson's Chi-squared test data: x
X-squared = 0.0057, df = 1, p-value = 0.9397 因此在0.05显著性水平下,接受原假设.
nnin j
如果H0成立,Qn2渐近服从自由度为(r -1() s -1)
的 2分布.
例1 随机抽取某校男生35名,女生31,进行
体育达标考核,结果如下表 问体育达标水平是
否与性别有关?
r
Q2
s
nij
nin j n
2
i1 j1
nin j
体育达标考核情况表 达 标 未 达 标合 计
男
p2 P(B | A)
表示没有属性A的个体中有属性B的条件概率
如果p1=p2, 则属性A和属性B相互独立
即有属性A的个体中有属性B的个体的频率与没有
属性A的个体中有属性B的个体的频率应该没有显
著的差异.
即有 n11 n21
n1 n2+
如果p1 p2, 表示有属性A的个体中有属性B的比例高
即
n11 ? n21 n1 n2+
nij为观测频数,n ij 理论频数.
H0成立,即nij ni g j成立,对i 1, 2L , r, j 1, 2,L , s.
检验基本思想:
如果H
0成立,n较大时,理论频数n
i
与相应的
j
观测频数nij相差均不应很大。
H0成立
n 检验统计量
r
Q2
r
s
(nij
-n
i
)i21
j
i1 j1 ni g j