选修1-2.1.2独立性检验ppt课件
合集下载
苏教版选修1-2高中数学1.1《独立性检验》ppt课件

【训练2】 某大型企业人力资源部为了研究企业员工工 作积极性和对待企业改革态度的关系,随机抽取了 189名员工进行调查,所得数据如下表所示:
积极支持 不太赞成 企业改革 企业改革
合计
工作 积极
54
40
94
工作 一般
32
63
95
对于人合力计 资源部86 的研究项10目3 ,根据上1述89数据能得出 什么结论?
解 提出假设 H0:工作积极性与是否积极支持企业改革无关. χ2=1899×4×549×5×638-6×401×03322≈10.759. 当 H0 成立时,χ2>6.635 的概率约为 0.010, 因为 10.759>6.635,所以有 99%的把握说:抽样员工对待企业改 革的态度与工作积极性是有关的,可以认为企业的全体员工对待 企业改革的态度与其工作积极性是有关的.
44
合计 480 520 1 000
依据公式得
χ2=1
000×442×6-38×5142 480×520×956×44
≈27.139.
当 H0 成立时,χ2≥10.828 的概率约为 0.001, 因为 χ2≈27.139>10.828,
所以我们有 99.9%的把握认为色盲与性别是有关的.
题型二 独立性检验的基本思想
如P(χ2≥6.635)≈0.01,由实际计算得χ2>6.635说明假设不 合理的程度约为99%,即两个分类变量有关系这一结论 成立的可信程度为99%.
2.利用χ2的值判定两个研究对象Ⅰ和Ⅱ之间的关系
(1)若χ2>10.828,则有99.9%的把握认为“Ⅰ与Ⅱ有 关系”;
(2)若χ2>6.635,则有99%的把握认为“Ⅰ与Ⅱ有关 系”;
人教A版高中数学选修1-2课件独立性检验的基本思想及其初步应用.ppt

这个值是不是很大呢?
在H0成立的情况下,统计学家估算出如下概率
PK2 6.635 0.01.
2
即在H0成立的情况下K 2的值大于6.635的概率 非常小,近似于0.01, 是一个小概率事件。
现在K2观测值k 56.632,远远大于6.635,所以 我们有理由断定H0不成立,即认为"吸烟与 肺癌有关系"。但这种判断会犯错误,犯错 误的概率不会超过0.010,即:我们有 99% 的把握认为H 0不成立,即有99%的把握认为 "吸烟与肺癌有关系".
为了回答上述问题, 我们先假设 H0 :吸烟与患肺癌没有关系.
把表1 7中的数字用字母代替 ,得到如下用字
母表示的列联表 :
表1 8 吸烟与患肺癌列联表
不吸烟 吸烟 总计
不患肺癌 患肺癌 总计
a
b
ab
c
d
cd
ac
bd abcd
如果“吸烟与患肺癌没有关系”,那么 吸烟样本中不患肺癌的比例应该与不吸烟样 本中相应的比例差不多,即
ac ab cd
ac d ca b
ad bc 0 因此, ad bc 越小,说明吸烟与患肺癌之间关 系越弱; ad bc 越大,说明吸烟与患肺癌之间 关系越强.
为了使不同样本容量的数据有统一的评判标
准, 基于上面的分析, 我们构造一个随机变量
K
2
a
b
n ad bc2 c d a cb
探究 为调查吸烟是否对患肺癌有影响,某 肿瘤研究所随机地调查了9 965人,得到如下 结果 (单位: 人) :
表1 7吸烟与患肺癌列联表
不患肺癌 患肺癌 总计
不吸烟 吸烟 总计
2014年人教A版选修1-2课件 1.2 独立性检验的基本思想及其初步应用

问题1. 下表是对吸烟和不吸烟的人中患肺癌的调 查数据, 你能从中分析吸烟对患肺癌的影响程度吗?
不吸烟 吸烟 总计 不患肺癌 7775 2099 9874 患肺癌 42 49 91 总计 7817 2148 9965
对于某种变量取不同的 “值” 表示不同的类别, 这样的变量称为分类变量. 如: 是否吸烟, 是否信仰宗教, 男性或女性等. 如上表这样, 列出两个分类变量的频数表, 称为 列联表.
不患肺癌 患肺癌 总计 不吸烟 a b a+ b 即 |ad -bc| 越小, 吸烟与患肺癌之间的关系越弱 ; 吸烟 c d c+d 反之越强.总计 a+ c b+ d a+b+c+d
为了使不同容量的数据有统一的评判标准, 我们 我们把列联表中的数字用字母代替, 并计算: 把检查 |ad-bc| 的大小转换成检查 a ; “不吸烟” 样本中 “不患肺癌” 的比例 : n(ad - bc)2 a+ b 2 K , (a + b)(c + d )(a的比例 + c)(b +c “吸烟” 样本中 “不患肺癌” :d ) . c+d 其中 na+b+c+d 为样本容量. 假设 H0: 吸烟与患肺癌没有关系 , 则需 2 若 H0 成立, a则 K c 应该很小. , ad-bc≈0. a + b c + d H0 成立与否呢? 小到什么程度来判断
0.4
0.2 0 不吸烟 吸烟
问题1. 下表是对吸烟和不吸烟的人中患肺癌的调 查数据, 你能从中分析吸烟对患肺癌的影响程度吗?
不吸烟 吸烟 总计 不患肺癌 7775 2099 9874
1
人教A版选修1-2《1.2独立性检验的基本思想及其初步应用》课件

nad-bc2 2.K2= a+bc+da+cb+d.
其中n=a+b+c+d为样本容量.
3.独立性检验的具体做法
(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率 的上界α,然后查表确定 临界值k0 . (2)利用公式计算随机变量K2的 观测值.k (3)如果 k≥k0 ,就推断“X与Y有关系”,这种推断犯错误的概率不超过α; 否则,就认为在 犯错误的概率 不超过α的前提下不能推断“X与Y有关 系”,或者在样本数据中 没有发现足够证据 支持结论“X与Y有关系”.
P(K2≥k0) k0
0.10 2.706
0.05 3.841
0.01 6.635
解答
类型三 独立性检验的综合应用
例3 电视传媒公司为了解某地区观众 对某类体育节目的收看情况,随机抽 取了100名观众进行调查,其中女性有 55名.如图所示的是根据调查结果绘制 的观众日均收看该体育节目时间的频 率分布直方图. 将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知 “体育迷”中有10名女生.
数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?
解答
反思与感悟
(1)等高条形图实质上是列联表中的数据的频率特征. (2)由于高度相等的条形分别用两种不同颜色表示,其频率差异更能直观 地表现出来.
跟踪训练1 网络对现代人的生活影响较大,尤其是对青少年,为了解 网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随 机抽取了1 000人调查,发现其中经常上网的有200人,这200人中有80人 期末考试不及格,而另外800人中有120人不及格.利用图形判断学生经常 上网与学习成绩有关吗?
知识点二 等高条形图
1.与表格相比,图形更能直观地反映出两个分类变量间是否 相互,影常响用 等
其中n=a+b+c+d为样本容量.
3.独立性检验的具体做法
(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率 的上界α,然后查表确定 临界值k0 . (2)利用公式计算随机变量K2的 观测值.k (3)如果 k≥k0 ,就推断“X与Y有关系”,这种推断犯错误的概率不超过α; 否则,就认为在 犯错误的概率 不超过α的前提下不能推断“X与Y有关 系”,或者在样本数据中 没有发现足够证据 支持结论“X与Y有关系”.
P(K2≥k0) k0
0.10 2.706
0.05 3.841
0.01 6.635
解答
类型三 独立性检验的综合应用
例3 电视传媒公司为了解某地区观众 对某类体育节目的收看情况,随机抽 取了100名观众进行调查,其中女性有 55名.如图所示的是根据调查结果绘制 的观众日均收看该体育节目时间的频 率分布直方图. 将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知 “体育迷”中有10名女生.
数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?
解答
反思与感悟
(1)等高条形图实质上是列联表中的数据的频率特征. (2)由于高度相等的条形分别用两种不同颜色表示,其频率差异更能直观 地表现出来.
跟踪训练1 网络对现代人的生活影响较大,尤其是对青少年,为了解 网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随 机抽取了1 000人调查,发现其中经常上网的有200人,这200人中有80人 期末考试不及格,而另外800人中有120人不及格.利用图形判断学生经常 上网与学习成绩有关吗?
知识点二 等高条形图
1.与表格相比,图形更能直观地反映出两个分类变量间是否 相互,影常响用 等
高中数学课件-人教版选修【1-2】1.2《独立性检验的基本思想及其初步应用》ppt课件

看到这个课题,你能想到什么?
案 例:某医疗机构为了了解呼吸道疾病与吸 烟是否有关,进行了一次抽样调查,共调查了 515个成年人,其中吸烟者220人,不吸烟者 295人。
调查结果:吸烟的220人中有37人患呼吸道疾 病,183人未患呼吸道疾病;不吸烟的295人中 有21人患病,274人未患病。
根据这些数据,能否断定:患呼吸道疾 病与吸烟有关?
274 295
457
515
一般化:
P(A)、P(B)不知道,怎么办?
频率估计概率
P(A)
P(B)
P(AB)
•
由此估计: 吸烟且患病的人数约为
n•
•
同理,吸烟但不患病的人数约为
n•
•
不吸烟但患病的人数约为
n•
•
不吸烟也不患病的人数约为
n•
•
怎样估计实际观测值与理论估计值的误差?
采用如下的量(称为χ2 统计量)来刻画这个差异:数据整理吸烟 Fra bibliotek吸烟合计
患病
37 21 58
未患病
183 274 457
合计
220 295 515
问题:判断的标准是什么?
吸烟与不吸烟,患病的可能性的大小是否有差异?
频率估计概率
患 病 未患病 合 计(n)
吸烟 不吸烟
16.82% 83.18% 100%(220) 7.12% 92.88% 100%(295)
卡方临界值表:
0.5 0.4 0.25 0.15 0.1 0.05 0.025 0.01 0.005 0.001
P( 2 x0 )
xo
0.4 0.7 1.32 2.07 2.7 3.84 5.024 6.63 7.879 10.82
人教版高中数学选修1-2第一章第2节《独立性检验的基本思想及其初步应用》(共18张PPT)教育课件

作时间(单位:min)绘制了如图所示的茎叶图:
总计
第一种生产方式 15
5
20
第二种生产方式
5
15
20
总计
20
20
40
0.050 0.010 0.001 3.841 6.635 10.828
讲练结合
练习:某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调 查.现从高一年级学生中随机抽取 180 名学生,其中男生 105 名;在这 180 名学生中选择社 会科学类的男生、女生均为 45 名. (1)试问:从高一年级学生中随机抽取 1 人,抽到男生的概率约为多少? (2)根据抽取的 180 名学生的调查结果,完成下面的 2×2 列联表.并判断能否在犯错误的概 率不超过 0.025 的前提下认为科类的选择与性别有关?
条形图
柱形图
列联表
分类变量间的关系
独立性检验
2.条形图、柱形图、列联表:生活中,常常关心两个分类变量之间是否有关系.
抽样调查
样本
直观形象 易于观察
可靠?
列联表:列出两个分类变量的频数表称为列联表.
由于列联表中的数据是样本数据,它只是总体的代表,具有随机性.因此,需要用列 联表检验的方法提供所得结论犯错误概率的信息.
心
安
;
书
一
笔
清
远
,
盈
一
抹
恬
淡
,
浮
华
三
千
,
只
做
自
己
;
人
间
有
情
,
心
中
有
爱
,
携
一
米
高中数学1-2独立性检验的基本思想及其初步应用同步课件新人教A版选修1-2.ppt

与性别是有关的.
根据列联表中所给的数据,有 a=38,b=442,c=6,
d=514,a+b=480,c+d=520,a+c=44,b+d=956,n
=1000,得 K2 的观测值
k=(a+b)(cn+(add-)(ab+c)c2)(b+d)
=
1000×(38×514-442×6)2 480×520×44×956
第一种剂量 第二种剂量
合计
死亡 14 6 20
存活 11 19 30
合计 25 25 50
三、解答题
7.在500个人身上试验某种血清预防感冒的作用,把一年中的记录与另外500个未用血 清的人作比较,结果如下表所示.
试画出列表的条形图,并通过图形判断这种血清能否起到预防感冒的作用?并进行独立
性检验.
[答案] 0.005
[解析] k=8.654>7.879,就推断“X与Y有关”犯错误的 概率不超过0.005.
6.为了探究电离辐射的剂量与人体的受损程度是否有关,用两种不同剂量的电离辐射 照射小白鼠.在照射后14天内的结果如下表所示:
进行统计分析时的统计假设是__________________. [答案] 假设电离辐射的剂量与人体受损程度无关.
≈27.1.
由
于
k≈27.1>10.828,所以我们有 99.9%的把握认为色盲与性
别有关系.这个结论只对所调查的 480 名男人和 520 名
女人有效.
[点评] 本题应首先作出调查数据的列联表,再根据列联 表画出二维条形图或三维柱形图,并进行分析,最后利用 独立性检验作出判断.
1.利用图形来判断两个分类变量是否有关系,可以画出三 维柱形图,也可以画出二维条形图,仅从图形上只可以粗 略地判断两个分类变量是否有关系,可以结合所给的数值 来进行比较.作图应注意单位统一,图形准确,但它不能 给我们两个分类变量有关或无关的精确的可信程度,若要 作出精确的判断,可以作独立性检验的有关计算.
人教版高中数学 选修1-2 第一章 2独立性检验的基本思想及其初步应用 (共38张PPT)教育课件

a+b c+d
因此,
|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强.
为了使不同样本容量的数据有统一的评判 标准,基于上述分析,我们构造一个随机变量:
K2 =
n(ad - bc)n
(a + b)(c + d)(a + c)(b + d)
其中n=a+b+c+d为样本容量.
P(k2>k) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 0.455 0.708 1.323 2.072 2.706 3.84 5.024 6.635 7.879 10.83
(2)利用K2公式,计算随机变量K2的观测值k.
(3)如果k>k0,就推断“X与Y有关系”,这 种推断犯错误的概率不超过a;否则,就认为在犯 错误的概率不超过a的前提下不能推断“X与Y有关 系”.
若H0成立,即“吸烟与患肺癌没有关系”, 则K2应该很小.
不吸烟 吸烟 总计
不患肺癌 7775 2099 9874
患肺癌 42 49 91
总计 7817 2148 9965
利用上述公式得
K2 = 9965(7775 49 - 42 2099)2 56.632 7817 2148 9874 91
不吸烟
吸烟
患肺癌 不患肺癌
探究
通过数据和图形分析,我们得到的直观判 断是“吸烟和患肺癌有关”,那么这种判断是否 可靠呢? 我们先假设
H0:吸烟与患肺癌没有关系. 用A表示不吸烟,B表示不患肺癌,则“吸烟 与患肺癌没有关系”等价于“吸烟与患肺癌独 立”,即假设H0等价于
因此,
|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强.
为了使不同样本容量的数据有统一的评判 标准,基于上述分析,我们构造一个随机变量:
K2 =
n(ad - bc)n
(a + b)(c + d)(a + c)(b + d)
其中n=a+b+c+d为样本容量.
P(k2>k) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 0.455 0.708 1.323 2.072 2.706 3.84 5.024 6.635 7.879 10.83
(2)利用K2公式,计算随机变量K2的观测值k.
(3)如果k>k0,就推断“X与Y有关系”,这 种推断犯错误的概率不超过a;否则,就认为在犯 错误的概率不超过a的前提下不能推断“X与Y有关 系”.
若H0成立,即“吸烟与患肺癌没有关系”, 则K2应该很小.
不吸烟 吸烟 总计
不患肺癌 7775 2099 9874
患肺癌 42 49 91
总计 7817 2148 9965
利用上述公式得
K2 = 9965(7775 49 - 42 2099)2 56.632 7817 2148 9874 91
不吸烟
吸烟
患肺癌 不患肺癌
探究
通过数据和图形分析,我们得到的直观判 断是“吸烟和患肺癌有关”,那么这种判断是否 可靠呢? 我们先假设
H0:吸烟与患肺癌没有关系. 用A表示不吸烟,B表示不患肺癌,则“吸烟 与患肺癌没有关系”等价于“吸烟与患肺癌独 立”,即假设H0等价于
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
上面这种利用随机变量K2来确定在多大程度上可以认 为“两个分类变量有关系”的方法称为两个分类变量 的独立性检验。
9
临界值表:
P(K 2 k0 ) 0.50
0.40
0.25
0.15
0.10
0.05
0.02 5
0.01 0.45 0.70 1.32 2.07 2.70 3.84 5.02 6.63 7.87 10.82
“光盘”与性别列联表
不患肺癌 患肺癌 总计
不吸烟
a
b
a+b
吸烟
c
d
c+d
总计
a+c
b+d a+b+c+d
5
不吸烟 吸烟 总计
不患肺癌 a c
a+c
患肺癌 b d
b+d
总计 a+b c+d a+b+c+d
如果”吸烟与患肺癌没有关系”,则在吸烟样本中不 患肺癌的比例应该与不吸烟样本中相应的比例差不多,
即 a c ac d ca b ad bc 0
课题引入:
在现实中,我们会遇到类似下面的问题: 肺癌是严重威胁人类生命的一种疾病,吸烟 与患肺癌有关系吗? 性别对是否喜欢数学课程有影响吗?
1
1.2 独立性检验的基本思想及其初步应用
对于性别变量,其取值为男和女两种。 这种变量的 不同“值”表示个体所属的不同类别,像这样的变 量称为“分类变量”。在现实生活中,分类变量是 大量存在的,例如是否吸烟,宗教信仰,国籍…… 日常生活中,我们常常关心两个分类变量之间是否 有关系,例如吸烟是否与患肺癌有关系?性别是否 对于喜欢数学课程有影响等等。
0.54%
0% 不吸烟
2.28%
吸烟
患病比例
不患肺癌 患肺癌
不患病比例
4
上面我们通过分析数据和图形,得到的直观印象是“吸 烟和患肺癌有关”。这一直觉来自于观测数据,即样本。
问题是我们有多大的把握认为“吸烟和患肺癌有关”
我们假设
H0:吸烟与患肺癌没有关系 看看能推出什么样的结论。
为了研究的一般性,在列联表1-7中中用字母代替数字:
在统计学中,独立性检验是检验 两个分类变量是否有关系的一种 统计方法。
2
探究:
为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人)
表1-7 吸烟与患肺癌列联表
不患肺癌 患肺癌 总计
不吸烟
7775
42
7817
吸烟
2099
49
2148
列联表:两个 分类变量的频 数表
(5)如果k 3.841,就有95%的把握认为" X与Y有关系"
(6)如果k 2.706,就有90%的把握认为" X与Y有关系"
(7)如果k 2.706,就认为没有充分的证据显示" X 与Y
有关系"
10
思考:
你能从上述探究过程中总结出判断两个分类变量有关 系的思路吗? 一般地,假设有两个分类变量X 和Y ,它们的取值分别为
若H0成立,即“吸烟与患肺癌没有关系”,则
2
K
应
该很小。
7
接下来,我们就利用卡方统计量K2来判断探究中“吸 烟与患肺癌有关”的可靠程度。
例:现在,根据表1-7中的数据
不吸烟
不患肺癌 7775
患肺癌 42
总计 7817
吸烟
2099
49
2148
总计
9874
91
9965
利用公式(1)计算得K2的观测值为:
99657775 49 42 20992
k
56.632
7817 2148 9874 91
8
在H0成立的情况下,统计学家估算出如下的概率:
P K 2 6.635 0.010
即在H0成立的情况下,K2的值大于6.635的概率非常小, 近似于0.010。
现在的观测值56.632远大于6.635,即假设成立的概率 为0.010,是小概率事件,所以有理由断定H0不成立, 即认为“吸烟与患肺癌有关系”。但这种判断会犯错 误,犯错误的概率不会超过0.010 。即有99%的把握认 为“吸烟与患肺癌有关”。
{x1, x2}和{y1, y2}, 其样本频数列联表(称为2 2列联表)为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d a+b+c+d
若要推断的结论为H1:”X与Y有关系”,可用如下方法: 1、频率比较法:根据列联表。
2、图形分析法:通过等高条形图。
11
3.独立性检验法 步骤:
(1)列出列联表, (2)假设 两分类变量没有关系, (3)计算K2观测值k, (4)查临界值表,作出判断(两分类变量有关
系的程度).
12
例题解析:
例1 春节期间,“厉行节约,反对浪费”之风悄然吹开, 某市随机询问100名性别不同的居民是否能做到“光 盘”行动, (1)完成如下列联表。 (2)有多大的把握认为居民能否做到“光盘”与性 别有关系? (3)能否在犯错误的概率不超过0.010的前提下认为 居民能否做到“光盘”与性别有关系?
5
8
3
2
6
1
4
5
9
8
(1)如果k 10.828,就有99.9%的把握认为" X与Y有关系" (2)如果k 7.879,就有99.5%的把握认为" X与Y有关系"
(3)如果k 6.635,就有99%的把握认为" X与Y有关系"
(4)如果k 5.024,就有97.5%的把握认为" X与Y有关系"
“光盘”与性别列联表
做不到光盘 做到光盘 总计
男
45
55
女
15
总计
75
100
13
例题解析:
例1 春节期间,“厉行节约,反对浪费”之风悄然吹开, 某市随机询问100名性别不同的居民是否能做到“光盘” 行动,
(1)完成如下列联表。 (2)有多大的把握认为居民能否做到“光盘”与性 别有关系?
(3)能否在犯错误的概率不超过0.010的前提下认为居 民能否做到“光盘”与性别有关系?
(四行四列)
总计
9874
91
9965
那么吸烟是否对患肺癌有影响?
在不吸烟者中患肺癌的比例是 0.54% 在吸烟者中患肺癌的比例是 2.28%
与表格相比, 等高条形图能 更直观地反映 出相关数据的 总体状况
因此,直观上得到结论:
吸烟者和不吸烟者患肺癌的可能性存在差异。
3
等高条形图
100% 80% 60% 40% 20%
ab cd
结论:|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强;
6
为了使不同样本容量的数据有统一的评判标准,基于 上述分析,我们构造一个随机变量(卡方统计量)
2
K
nad bc2 abcd acbd (1)
其中n a b c d为样本容量
9
临界值表:
P(K 2 k0 ) 0.50
0.40
0.25
0.15
0.10
0.05
0.02 5
0.01 0.45 0.70 1.32 2.07 2.70 3.84 5.02 6.63 7.87 10.82
“光盘”与性别列联表
不患肺癌 患肺癌 总计
不吸烟
a
b
a+b
吸烟
c
d
c+d
总计
a+c
b+d a+b+c+d
5
不吸烟 吸烟 总计
不患肺癌 a c
a+c
患肺癌 b d
b+d
总计 a+b c+d a+b+c+d
如果”吸烟与患肺癌没有关系”,则在吸烟样本中不 患肺癌的比例应该与不吸烟样本中相应的比例差不多,
即 a c ac d ca b ad bc 0
课题引入:
在现实中,我们会遇到类似下面的问题: 肺癌是严重威胁人类生命的一种疾病,吸烟 与患肺癌有关系吗? 性别对是否喜欢数学课程有影响吗?
1
1.2 独立性检验的基本思想及其初步应用
对于性别变量,其取值为男和女两种。 这种变量的 不同“值”表示个体所属的不同类别,像这样的变 量称为“分类变量”。在现实生活中,分类变量是 大量存在的,例如是否吸烟,宗教信仰,国籍…… 日常生活中,我们常常关心两个分类变量之间是否 有关系,例如吸烟是否与患肺癌有关系?性别是否 对于喜欢数学课程有影响等等。
0.54%
0% 不吸烟
2.28%
吸烟
患病比例
不患肺癌 患肺癌
不患病比例
4
上面我们通过分析数据和图形,得到的直观印象是“吸 烟和患肺癌有关”。这一直觉来自于观测数据,即样本。
问题是我们有多大的把握认为“吸烟和患肺癌有关”
我们假设
H0:吸烟与患肺癌没有关系 看看能推出什么样的结论。
为了研究的一般性,在列联表1-7中中用字母代替数字:
在统计学中,独立性检验是检验 两个分类变量是否有关系的一种 统计方法。
2
探究:
为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人)
表1-7 吸烟与患肺癌列联表
不患肺癌 患肺癌 总计
不吸烟
7775
42
7817
吸烟
2099
49
2148
列联表:两个 分类变量的频 数表
(5)如果k 3.841,就有95%的把握认为" X与Y有关系"
(6)如果k 2.706,就有90%的把握认为" X与Y有关系"
(7)如果k 2.706,就认为没有充分的证据显示" X 与Y
有关系"
10
思考:
你能从上述探究过程中总结出判断两个分类变量有关 系的思路吗? 一般地,假设有两个分类变量X 和Y ,它们的取值分别为
若H0成立,即“吸烟与患肺癌没有关系”,则
2
K
应
该很小。
7
接下来,我们就利用卡方统计量K2来判断探究中“吸 烟与患肺癌有关”的可靠程度。
例:现在,根据表1-7中的数据
不吸烟
不患肺癌 7775
患肺癌 42
总计 7817
吸烟
2099
49
2148
总计
9874
91
9965
利用公式(1)计算得K2的观测值为:
99657775 49 42 20992
k
56.632
7817 2148 9874 91
8
在H0成立的情况下,统计学家估算出如下的概率:
P K 2 6.635 0.010
即在H0成立的情况下,K2的值大于6.635的概率非常小, 近似于0.010。
现在的观测值56.632远大于6.635,即假设成立的概率 为0.010,是小概率事件,所以有理由断定H0不成立, 即认为“吸烟与患肺癌有关系”。但这种判断会犯错 误,犯错误的概率不会超过0.010 。即有99%的把握认 为“吸烟与患肺癌有关”。
{x1, x2}和{y1, y2}, 其样本频数列联表(称为2 2列联表)为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d a+b+c+d
若要推断的结论为H1:”X与Y有关系”,可用如下方法: 1、频率比较法:根据列联表。
2、图形分析法:通过等高条形图。
11
3.独立性检验法 步骤:
(1)列出列联表, (2)假设 两分类变量没有关系, (3)计算K2观测值k, (4)查临界值表,作出判断(两分类变量有关
系的程度).
12
例题解析:
例1 春节期间,“厉行节约,反对浪费”之风悄然吹开, 某市随机询问100名性别不同的居民是否能做到“光 盘”行动, (1)完成如下列联表。 (2)有多大的把握认为居民能否做到“光盘”与性 别有关系? (3)能否在犯错误的概率不超过0.010的前提下认为 居民能否做到“光盘”与性别有关系?
5
8
3
2
6
1
4
5
9
8
(1)如果k 10.828,就有99.9%的把握认为" X与Y有关系" (2)如果k 7.879,就有99.5%的把握认为" X与Y有关系"
(3)如果k 6.635,就有99%的把握认为" X与Y有关系"
(4)如果k 5.024,就有97.5%的把握认为" X与Y有关系"
“光盘”与性别列联表
做不到光盘 做到光盘 总计
男
45
55
女
15
总计
75
100
13
例题解析:
例1 春节期间,“厉行节约,反对浪费”之风悄然吹开, 某市随机询问100名性别不同的居民是否能做到“光盘” 行动,
(1)完成如下列联表。 (2)有多大的把握认为居民能否做到“光盘”与性 别有关系?
(3)能否在犯错误的概率不超过0.010的前提下认为居 民能否做到“光盘”与性别有关系?
(四行四列)
总计
9874
91
9965
那么吸烟是否对患肺癌有影响?
在不吸烟者中患肺癌的比例是 0.54% 在吸烟者中患肺癌的比例是 2.28%
与表格相比, 等高条形图能 更直观地反映 出相关数据的 总体状况
因此,直观上得到结论:
吸烟者和不吸烟者患肺癌的可能性存在差异。
3
等高条形图
100% 80% 60% 40% 20%
ab cd
结论:|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强;
6
为了使不同样本容量的数据有统一的评判标准,基于 上述分析,我们构造一个随机变量(卡方统计量)
2
K
nad bc2 abcd acbd (1)
其中n a b c d为样本容量