数学选修2-3 列联表独立性分析 课件
合集下载
【选修2-3课件】3.5独立性检验的思想及应用(二)

临界值表
P(K 2 ≥ k0 ) 0.50
0.40 0.708
其 n = a + b + c + d为 中 样本 量 容 。
0.25 1.323 0.15 2.072 0.10 2.706 0.05 3.841 0.025 5.024 0.010 6.635 0.005 7.879 0.001 10.828
k0
0.455
K 2 > 10.828
0.1%把握认为A 0.1%把握认为A与B无关 把握认为
1%把握认为A 1%把握认为A与B无关 把握认为
99.9%把握认A 99.9%把握认A与B有关 把握认 99%把握认为A 99%把握认为A与B有关 把握认为 90%把握认为A 90%把握认为A与B有关 把握认为
在某医院,因为患心脏病而住院的665名男性病人中,有214 名男性病人中, 例1 在某医院,因为患心脏病而住院的 名男性病人中 人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有 人秃顶; 而另外 名不是因为患心脏病而住院的男性病人中有 175人秃顶。 分别利用图形和独立性检验方法判断秃顶与患心脏 人秃顶。 人秃顶 病是否有关系?你所得的结论在什么范围内有效? 病是否有关系?你所得的结论在什么范围内有效? 解:根据题目所给数据得到如下列联表: 根据题目所给数据得到如下列联表:
秃顶 不秃顶 总计
患心脏病 600 500 400 300 200 100 0 214 175 451
患心脏病 214 451 665
患其他病 597
不患心脏病 175 597 772
总计 389 1048 1437
患其他病
秃头 不秃头
患心脏病
相应的三维柱形图如图所 比 较来 副对 示 , 比较 来 说 , 底 面 副对 角线 上两 个 柱 体高 度 的乘 上 两个 的乘 大 一些 以在 积要 大一 些 , 因此 可 以在 程 度上 顶与 某种 程度 上 认 为 “ 秃 顶与 患心脏病有关” 患心脏病有关”。
P(K 2 ≥ k0 ) 0.50
0.40 0.708
其 n = a + b + c + d为 中 样本 量 容 。
0.25 1.323 0.15 2.072 0.10 2.706 0.05 3.841 0.025 5.024 0.010 6.635 0.005 7.879 0.001 10.828
k0
0.455
K 2 > 10.828
0.1%把握认为A 0.1%把握认为A与B无关 把握认为
1%把握认为A 1%把握认为A与B无关 把握认为
99.9%把握认A 99.9%把握认A与B有关 把握认 99%把握认为A 99%把握认为A与B有关 把握认为 90%把握认为A 90%把握认为A与B有关 把握认为
在某医院,因为患心脏病而住院的665名男性病人中,有214 名男性病人中, 例1 在某医院,因为患心脏病而住院的 名男性病人中 人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有 人秃顶; 而另外 名不是因为患心脏病而住院的男性病人中有 175人秃顶。 分别利用图形和独立性检验方法判断秃顶与患心脏 人秃顶。 人秃顶 病是否有关系?你所得的结论在什么范围内有效? 病是否有关系?你所得的结论在什么范围内有效? 解:根据题目所给数据得到如下列联表: 根据题目所给数据得到如下列联表:
秃顶 不秃顶 总计
患心脏病 600 500 400 300 200 100 0 214 175 451
患心脏病 214 451 665
患其他病 597
不患心脏病 175 597 772
总计 389 1048 1437
患其他病
秃头 不秃头
患心脏病
相应的三维柱形图如图所 比 较来 副对 示 , 比较 来 说 , 底 面 副对 角线 上两 个 柱 体高 度 的乘 上 两个 的乘 大 一些 以在 积要 大一 些 , 因此 可 以在 程 度上 顶与 某种 程度 上 认 为 “ 秃 顶与 患心脏病有关” 患心脏病有关”。
最新人教版高中数学选修2-3《独立性检验》课件

说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患 肺癌的可能性大。
吸烟与肺癌列联表 不患肺癌 不吸烟 吸烟 总计 7775 2099 9874 患肺癌 42 49 91 总计 7817 2148 9965
用A表示吸烟,B表示患肺癌,则“吸烟与患肺 癌没有关系”等价于“吸烟与患肺癌独立”,即 P(AB)=P(A)P(B).
那么这个值到底能告诉我们什么呢?
卡方统计量作为检验在多大程度上可以认为“两个变量有关系”的标准 分析:卡方越小,|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; 卡方越大,|ad-bc|越大,说明吸烟与患肺癌之间关系越强.
H0:吸烟与患肺癌没有关系.
在假设成立,即“吸烟与患肺癌没有关系”成立的前提下, 则卡方应该很小.故,当卡方很小时,说明在一定可信程度上 假设成立,即“吸烟与患肺癌没有关系”成立 当卡方很大时,说明没有充分的证据说明假设成立,即没有充 分的证据说明“吸烟与患肺癌没有关系”成立,即“吸烟与患 肺癌没有关系”不成立,即“吸烟与患肺癌有关系”成立。
得到的正确结论是( ) 有99%以上的把握认为“爱好该项运动与性别有关” 有99%以上的把握认为“爱好该项运动与性别无关” 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关” 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
3.在吸烟与患肺病这两个分类变量的计算中,下列说法正确
本节研究的是两个分类变量的独立性检验问题。
1.给出下列实际问题:
①一种药物对某种病的治愈率; ②两种药物治疗同一种病是否有区别; ③吸烟者得肺病的概率; ④吸烟人群是否与性别有关系; ⑤上网与青少年的犯罪率是否有关系. 其中,用独立性检验可以解决的问题有___
高二数学(人教b版)选修2-3课件:2.2.2事件的独立性(共18张ppt)

相互独立事件同时发生的概率等于每个事件发生的 概率的积,这一点与互斥事件的概率和也是不同的。
16
七、布置作业
课本第54页,练习B,1,2 弹性作业: 《新教材新学案》第51~56页
17
下课
概念2.相互独立事件的性质
性质2:若事件A,B相互独立,则
A与B, A与B, A与B 也是相互独立的。
证明: 不妨证A 与 B 独立。ቤተ መጻሕፍቲ ባይዱ
因为 A (A I B)U(A I B )且 (A I B) I (A I B) ,
所以 P( A) P( A I B) P( A I B),
即 P(A I B) P(A) P(A I B )
概念1.事件的独立性
一般地,对于任何两个事件A、B,事件A是否发生 对事件B发生的概率没有影响,即
P(B|A)=P(B) 这时,我们称两个事件A,B相互独立,并把这两个 事件叫做相互独立事件。
三事件两两相互独立的概念
设A,B,C是三个事件,且同时满足P(B|A)=P(B), P(C|B)=P(C),P(A|C)=P(A),则称A,B,C两两相 互独立。
0.086
11
四、应用举例
练习:甲、乙两名篮球运动员分别进行一次投篮, 如果两人投中的概率都是0.9,计算: (1)两人都投中的概率; (2)其中恰有一人投中的概率; (3)至少有一人投中的概率。
练习:甲、乙两名篮球运动员分别进行一次投篮,如果 两人投中的概率都是0.9,计算: (1)两人都投中的概率; (2)其中恰有一人投中的概率; (3)至少有一人投中的概率。 解:设A=“甲投篮一次,投中”,B=“乙投篮一次, 投中”,由题意知,A与B相互独立。 (1)两人都投中实质上就是A∩B 所以P(A∩B)=P(A)·P(B)=0.9×0.9=0.81 (2)两人恰有一人投中包含两种情况,一种是甲投中、 乙未投中,另一种是甲未投中、乙投中。 所以 P(A B) P(A B) 0.9(10.9) (10.9)0.9
16
七、布置作业
课本第54页,练习B,1,2 弹性作业: 《新教材新学案》第51~56页
17
下课
概念2.相互独立事件的性质
性质2:若事件A,B相互独立,则
A与B, A与B, A与B 也是相互独立的。
证明: 不妨证A 与 B 独立。ቤተ መጻሕፍቲ ባይዱ
因为 A (A I B)U(A I B )且 (A I B) I (A I B) ,
所以 P( A) P( A I B) P( A I B),
即 P(A I B) P(A) P(A I B )
概念1.事件的独立性
一般地,对于任何两个事件A、B,事件A是否发生 对事件B发生的概率没有影响,即
P(B|A)=P(B) 这时,我们称两个事件A,B相互独立,并把这两个 事件叫做相互独立事件。
三事件两两相互独立的概念
设A,B,C是三个事件,且同时满足P(B|A)=P(B), P(C|B)=P(C),P(A|C)=P(A),则称A,B,C两两相 互独立。
0.086
11
四、应用举例
练习:甲、乙两名篮球运动员分别进行一次投篮, 如果两人投中的概率都是0.9,计算: (1)两人都投中的概率; (2)其中恰有一人投中的概率; (3)至少有一人投中的概率。
练习:甲、乙两名篮球运动员分别进行一次投篮,如果 两人投中的概率都是0.9,计算: (1)两人都投中的概率; (2)其中恰有一人投中的概率; (3)至少有一人投中的概率。 解:设A=“甲投篮一次,投中”,B=“乙投篮一次, 投中”,由题意知,A与B相互独立。 (1)两人都投中实质上就是A∩B 所以P(A∩B)=P(A)·P(B)=0.9×0.9=0.81 (2)两人恰有一人投中包含两种情况,一种是甲投中、 乙未投中,另一种是甲未投中、乙投中。 所以 P(A B) P(A B) 0.9(10.9) (10.9)0.9
【高中数学】列联表与独立性检验(课件) 高二数学(人教A版2019选择性必修第三册)

当 2<xα时,没有充分的证据推断H0不成立,可以认为X和Y独立.
这种利用 2的取值推断分类变量X和Y是否独立的方法称为 2独立性检验,
简称独立性检验 .
探究新知
下表为独立性检验中几个常用的小概率值和相应的临界值
α
xα
0.1
2.706
0.05
3.841
0.01
6.635
0.005
7.879
0.001
根据小概率值α=0.001的独立性检验,推断H0不成立,即认为吸烟与
患肺癌有关联,此推断犯错误的概率不大于0.001.
典型例题
根据表中数据计算,不吸烟者中不患肺癌和患肺癌的频率分别为
7775/7817≈0.9946 和 42/7817≈0.0054
吸烟者中不患肺癌和患肺癌的频率分别为
2099/2148≈0.9772 和 49/2148≈0.0228
中有 43 人的饮食以蔬菜为主,另外 27 人则以肉类为主;六十岁以下的人中有
21 人饮食以蔬菜为主,另外 33 人则以肉类为主.请根据以上数据作出饮食习
惯与年龄的列联表,并利用 P(Y=1|X=0)与 P(Y=1|X=1)判断二者是否有关系.
[解]
用 Ω 表示共调查了 124 人所构成的集合,定义一对分类变量 X 和 Y
性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?
探究新知
[解]
病人组中尿液为阳性和阴性的频率分别为:
29
7
≈0.805 6 和 ≈0.194 4.
36
36
对照组中尿液为阳性和阴性的频率分别为:
9
28
≈0.243 2 和 ≈0.756 8.
37
37
这种利用 2的取值推断分类变量X和Y是否独立的方法称为 2独立性检验,
简称独立性检验 .
探究新知
下表为独立性检验中几个常用的小概率值和相应的临界值
α
xα
0.1
2.706
0.05
3.841
0.01
6.635
0.005
7.879
0.001
根据小概率值α=0.001的独立性检验,推断H0不成立,即认为吸烟与
患肺癌有关联,此推断犯错误的概率不大于0.001.
典型例题
根据表中数据计算,不吸烟者中不患肺癌和患肺癌的频率分别为
7775/7817≈0.9946 和 42/7817≈0.0054
吸烟者中不患肺癌和患肺癌的频率分别为
2099/2148≈0.9772 和 49/2148≈0.0228
中有 43 人的饮食以蔬菜为主,另外 27 人则以肉类为主;六十岁以下的人中有
21 人饮食以蔬菜为主,另外 33 人则以肉类为主.请根据以上数据作出饮食习
惯与年龄的列联表,并利用 P(Y=1|X=0)与 P(Y=1|X=1)判断二者是否有关系.
[解]
用 Ω 表示共调查了 124 人所构成的集合,定义一对分类变量 X 和 Y
性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?
探究新知
[解]
病人组中尿液为阳性和阴性的频率分别为:
29
7
≈0.805 6 和 ≈0.194 4.
36
36
对照组中尿液为阳性和阴性的频率分别为:
9
28
≈0.243 2 和 ≈0.756 8.
37
37
高中数学选修2-3优质课件:独立性检验的基本思想及其初步应用

C.52,54
D.54,52
解析:由aa+ +221==b7,3, 得ab= =5524, .
答案:C
3.独立性检验所采用的思路是:要研究A,B两类型变量彼 此相关,首先假设这两类变量彼此________,在此假设下 构造随机变量K2,如果K2的观测值较大,那么在一定程度 上说明假设________. 答案:无关 不成立
4.在吸烟与患肺病是否相关的判断中,有下面的说法: ①若K2的观测值k>6.635,则在犯错误的概率不超过0.01的 前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人 中必有99人患有肺病; ②从独立性检验可知在犯错误的概率不超过0.01的前提 下,认为吸烟与患肺病有关系时,若某人吸烟,则他有 99%的可能患有肺病; ③从独立性检验可知在犯错误的概率不超过0.05的前提 下,认为吸烟与患肺病有关系时,是指有5%的可能性使得 推断错误.其中说法正确的是________.
立性检验的方法判断.
附:
P(K2≥k0)
0.10
0.05 0.025
k0
2.706 3.841 5.024
[解] 根据题目所给数据建立如下 2×2 列联表:
肯定
否定
总计
男生
22
88
110
女生
22
38
60
总计
44
126
170
根据 2×2 列联表中的数据得到:
k=1701×10×226×0×384-4×221×26882≈5.622>3.841.
[对点训练] 在一次天气恶劣的飞机航程中,调查了男女乘客在飞机上晕机
的情况:男乘客晕机的有 24 人,不晕机的有 31 人;女乘客晕
机的有 8 人,不晕机的有 26 人.请你根据所给数据判定:在
数学选修2-3 列联表独立性分析 课件

2
500 500 1000
解:设H0:感冒与是否使用该血清没有关系。
1000 258 284 242 216 2 7 .075 474 526 500 500 因当H0成立时,χ2≥6.635的概率约为0.01,故有99%的把握认 为该血清能起到预防感冒的作用。
adbc05004002501501000500250010000500010455070813232072270638415024663578791082805004002501501000500250010000500010455070813232072270638415024663578791082882801把握认为a与b无关1把握为a与b无关999把握认为a与b有关99把握认为a与b有关90把握认为a与b有关10把握认为a与b无关没有充分的依据显示a与b有关但也不能显示a与b无关例如独立性检验通过公式计算患病不患病总计吸烟391554不吸烟212546总计604010010039251521730754466040吸烟和患病之间没有关系已知在成立的情况下不成立即有99的把握认为患病与吸烟有关系
世博会英国馆
8.4列联表独立性 分析案例1(一)
2015/9/1
郑平正
制作
在许多实际问题中,我们需要考察两种因素的关系。例如: 数学解题能力是否与性别有关;高考升学率是否与补课有关。为 了分析这些问题,我们需要获取一些数据,并对数据进行分析处 理,对所得的结论作出判断。
某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽 样调查,共调查了 100 个成年人,其中吸烟者 54 人,不吸烟者 46 人,调查结果是:吸烟的 54 人中 39 人患病, 15 人不患病; 不吸烟的 46 人中 21 人患病, 25 人不患病。
500 500 1000
解:设H0:感冒与是否使用该血清没有关系。
1000 258 284 242 216 2 7 .075 474 526 500 500 因当H0成立时,χ2≥6.635的概率约为0.01,故有99%的把握认 为该血清能起到预防感冒的作用。
adbc05004002501501000500250010000500010455070813232072270638415024663578791082805004002501501000500250010000500010455070813232072270638415024663578791082882801把握认为a与b无关1把握为a与b无关999把握认为a与b有关99把握认为a与b有关90把握认为a与b有关10把握认为a与b无关没有充分的依据显示a与b有关但也不能显示a与b无关例如独立性检验通过公式计算患病不患病总计吸烟391554不吸烟212546总计604010010039251521730754466040吸烟和患病之间没有关系已知在成立的情况下不成立即有99的把握认为患病与吸烟有关系
世博会英国馆
8.4列联表独立性 分析案例1(一)
2015/9/1
郑平正
制作
在许多实际问题中,我们需要考察两种因素的关系。例如: 数学解题能力是否与性别有关;高考升学率是否与补课有关。为 了分析这些问题,我们需要获取一些数据,并对数据进行分析处 理,对所得的结论作出判断。
某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽 样调查,共调查了 100 个成年人,其中吸烟者 54 人,不吸烟者 46 人,调查结果是:吸烟的 54 人中 39 人患病, 15 人不患病; 不吸烟的 46 人中 21 人患病, 25 人不患病。
高二数学之(人教版)高中数学选修2-3课件:3.2

• 附:
P(K2≥k0) k0
0.025 0.010 0.005 5.024 6.635 7.879
解析: 根据列联表中的数据,由公式得 K2 的观测值 k=a+bcn+add-ab+cc2b+d=100503×2×503×8-441×8×56122 ≈16.234. 因为 16.234>6.635,所以,在犯错误的概率不超过 0.01 的 前提下认为高二年级统计案例的测试成绩与高一年级数学教学 中增加统计思想的渗透有联系.
• [思路点拨] (1)根据表中的信息计算K2的观测值,并根据临界值表 来分析相关性的大小,对于(2)要列出2×2列联表,方法同(1).
(1)假设 H0:传染病与饮用水无关.把表中数
据代入公式得:
K2 的观测值 k=8301×46×526×842×185-184×663×12942≈54.21,4 分
分类变量和列联表
• 1.分类变量
• 变量的不同“值”表示个体所属的___________,像这样的变量称为分
类变量.
不同类别
• 2.列联表
• (1)定义:列出的两个分类变量的___________,称为列联表.
频数表
• (2)2×2列联表 •y2一},般其地样,本假频设数两列个联分表类(称变2量×X2和列Y联,表它)们为的:取值分别为{x1,x2}和{y1,
• 3.理解独立性检验的基本思想及实施步骤,能运用自己所学知识对具 体案例进行检验.
• 饮用水的质量是人类普遍关心的问题. •据统计,饮用优质水的518人中,身体状 •况优秀的有466人,饮用一般水的312人中, •身体状况优秀的有218人. • 人的身体健康状况与饮用水的质量之间有关系吗? • [提示] 人的身体健康状况与饮用水的质量之间有关系.
高中数学人教A版选修2-3课件:3.2独立性检验的基本思想及其初步应用

x
).
问题导学
当堂检测
一、用列联表和等高条形图分析两变量间的关系
活动与探究 问题 1:怎样从列联表判断两个分类变量有无关系? 提示:|ad-bc|越小,说明两个分类变量 x,y 之间的关系越弱;|ad-bc|越 大,说明 x,y 之间的关系越强.
x
问题 2:等高条形图对分析两个分类变量是否有关系,有何帮助? 提示:通过画等高条形图,我们可以通过观察两个变量的比例关系, 直观判断两个变量是否有关系.
问题导学
当堂检测
(1)利用列联表直接计算 分类变量之间有关系.
������ ������ 和 ,如果两者相差很大,就判断两个 ������+������ ������+������
(2)在等高条形图中展示列联表数据的频率特征,比较图中两个深 色条的高可以发现两者频率不一样而得出结论 ,这种直观判断的不足 之处在于不能给出推断“两个分类变量有关系”犯错误的概率.
问题导学
当堂检测
相应的等高条形图如图所示.
图中两个深色条的高分别表示甲在生产现场和甲不在生产现场样 本中次品数的频率.从图中可以看出,甲不在生产现场样本中次品数的 频率明显高于甲在生产现场样本中次品数的频率 .因此可以认为质量 监督员甲在不在生产现场与产品质量好坏有关系 .
问题导学
当堂检测
迁移与应用 某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格 内向的学生 426 人中有 332 人在考前心情紧张,性格外向的学生 594 人 中有 213 人在考前心情紧张,作出等高条形图,利用图形判断考前心情 紧张与性格类别是否有关系. 解:作列联表如下:
2
其中 n=a+b+c+d 为样本容量.
).
问题导学
当堂检测
一、用列联表和等高条形图分析两变量间的关系
活动与探究 问题 1:怎样从列联表判断两个分类变量有无关系? 提示:|ad-bc|越小,说明两个分类变量 x,y 之间的关系越弱;|ad-bc|越 大,说明 x,y 之间的关系越强.
x
问题 2:等高条形图对分析两个分类变量是否有关系,有何帮助? 提示:通过画等高条形图,我们可以通过观察两个变量的比例关系, 直观判断两个变量是否有关系.
问题导学
当堂检测
(1)利用列联表直接计算 分类变量之间有关系.
������ ������ 和 ,如果两者相差很大,就判断两个 ������+������ ������+������
(2)在等高条形图中展示列联表数据的频率特征,比较图中两个深 色条的高可以发现两者频率不一样而得出结论 ,这种直观判断的不足 之处在于不能给出推断“两个分类变量有关系”犯错误的概率.
问题导学
当堂检测
相应的等高条形图如图所示.
图中两个深色条的高分别表示甲在生产现场和甲不在生产现场样 本中次品数的频率.从图中可以看出,甲不在生产现场样本中次品数的 频率明显高于甲在生产现场样本中次品数的频率 .因此可以认为质量 监督员甲在不在生产现场与产品质量好坏有关系 .
问题导学
当堂检测
迁移与应用 某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格 内向的学生 426 人中有 332 人在考前心情紧张,性格外向的学生 594 人 中有 213 人在考前心情紧张,作出等高条形图,利用图形判断考前心情 紧张与性格类别是否有关系. 解:作列联表如下:
2
其中 n=a+b+c+d 为样本容量.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2
500 500 1000
解:设H0:感冒与是否使用该血清没有关系。
1000 258 284 242 216 2 7 .075 474 526 500 500 因当H0成立时,χ2≥6.635的概率约为0.01,故有99%的把握认 为该血清能起到预防感冒的作用。
例 1. 在 500 人身上试验某种血清预防感冒作用,把他们 P(2 ≥x0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 一年中的感冒记录与另外 500 名未用血清的人的感冒记 x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 录作比较,结果如表所示。问:该种血清能否起到预防 感冒的作用? 未感冒 感冒 合计 使用血清 未使用血清 合计 258 216 474 242 284 526
例3:气管炎是一种常见的呼吸道疾病,医药研究人 P(χ≥x0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 员对两种中草药治疗慢性气管炎的疗效进行对比, x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 所得数据如表所示,问:它们的疗效有无差异? 复方江剪刀草 胆黄片 合计 有效 184 91 275 无效 61 9 70
n11 n1 n1 若 ,则吸烟是与肺癌无关联,可以认为它们相 n n n n1 n1 互独立。这个式子还可以改写为:n11 .在吸烟与患肺癌 n n1 n1 32.4<39 ,这说明既吸烟又患肺癌的人数比独 问题中, n
立时要多,在这种情况下,吸烟会使患肺癌的人数增加。
来衡量独立性的大小
2 n ( n n n n ) 11 22 12 21 可以化简为 2 n1 n2 n1n2
怎样描述实际观测值与估计值的差异呢? 统计学中采用
2 ( 观测值 预期值 ) 用卡方统计量: 2 预期值 来刻画实际观测值与估计值的差异.
即
ab bd 2 ab ac 2 (b n ) (a n ) n n n n k2 ab ac ab bd n n n n n n cd ac 2 cd bd 2 (c n ) (d n ) n n n n cd ac cd bd n n n n n n
根据这些数据能否断定:患肺癌与吸烟有关吗?
案例 患肺癌与吸烟是否有关? 肺癌与吸烟的调查数据 患肺癌 吸烟 不吸烟 总计 未患肺癌 总计
n11 =39
n12 =15 n22 =25 n2 =40
n1 =54
n2 =46
n21 =21 n1 =60
n =100
分析: 吸烟的人在调查总人数中所占的百分比:54% 患肺癌的人在调查总人数中所占的百分比:60% 既吸烟又患肺癌的人在调查总人数中所占的百分比:39% 显然, 54% 60% 39%。 我们有理由相信吸烟是与肺癌有关的。
P ( 6.635) 0.010
2率非常 小,近似为0.010 2 现在的 =7.307的观测值远大于6.635,出 现这样的观测值的概率不超过0.010。
故有99%的把握认为H0不成立,即有99%的把 握认为“患病与吸烟有关系”。
世博会英国馆
8.4列联表独立性 分析案例1(一)
2015/9/1
郑平正
制作
在许多实际问题中,我们需要考察两种因素的关系。例如: 数学解题能力是否与性别有关;高考升学率是否与补课有关。为 了分析这些问题,我们需要获取一些数据,并对数据进行分析处 理,对所得的结论作出判断。
某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽 样调查,共调查了 100 个成年人,其中吸烟者 54 人,不吸烟者 46 人,调查结果是:吸烟的 54 人中 39 人患病, 15 人不患病; 不吸烟的 46 人中 21 人患病, 25 人不患病。
2
合计 245 100 345
解:设H0:两种中草药的治疗效果没有差异。
345 184 9 61 91 2 11 .098 275 70 245 100
因当H0成立时,χ2≥10.828的概率为0.001,故有99.9%的把握 认为,两种药物的疗效有差异。
课堂小结 1.在统计学中,独立性检验就是检验两个分类变量是否有关 系的一种统计方法。
2
合计 98 95 193
解:设H0:药的效果与给药方式没有关系。
2
193 58 31 64 40 1 .3896 <2.072 122 71 98 95 因当H0成立时,χ2≥1.3896的概率大于15%,故不能否定假设 H0,即不能作出药的效果与给药方式有关的结论。
作业P87 习题?
2.为使不同的样本容量的数据有统一的评判标准,构造了一
2 n ( n n n n ) 11 22 12 21 个随机变量 2 n1 n2 n1n2
P(2 ≥x0) 0.50 0.40 0.25 0.15 x0
0.10
0.05 0.025 0.010 0.005 0.001
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
实际上,为了应用概率论得到统计量的近似的分布,统计学 家最终选用了:
n11 n1 n1 2 n12 n1 n2 2 ( ) ( ) n n n n n 2 n[ n n1 n1 n1 n2 n n n n n21 n1 n2 2 n22 n2 n2 2 ( ) ( ) n n n n n n n1 n2 n2 n2 n n n n
P(2 ≥x0) 0.50 0.40 0.25 0.15 x0 0.10 0.05 0.025 0.010 0.005 0.001 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
P(2 ≥x0) 0.50 0.40 0.25 0.15 x0
0.10
0.05 0.025 0.010 0.005 0.001
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
例如 0.1%把握认为A 99.9%把握认 10.828 与B无关 为A与B有关 1%把握为A与B 99%把握认 2 6.635 无关 为A与B有关 90%把握认 10%把握认为 2 2.706 为A与B有关 A与B无关 没有充分的依据显示A与B有关 2 2.706 ,但也不能显示A与B无关
例 2:为研究不同的给药方式(口服与注射)和药的效 P(χ≥x 0.10 0.05 0.025 0.010 0.005 0.001 0) 0.50 0.40 0.25 0.15 果(有效与无效)是否有关,进行了相应的抽样调查, x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 调查的结果列在表中,根据所选择的193个病人的数 据,能否作出药的效果和给药方式有关的结论? 口服 注射 合计 有效 58 64 122 无效 40 31 71
吸烟 不吸烟 总计 患病 a c a+c 不患病 b d b+d 总计 a+b c+d a+b+c+d
第三步:引入一个随机变量:卡方统计量
k
2
a b c d a c b d
其中n a b c d
n ad bc
2
第四步:查对临界值表,作出判断。
2
独立性检验 解:H0: 吸烟和患病之间没有关系 患病 吸烟 不吸烟 总计 通过公式计算 39 21 60 不患病 15 25 40 总计 54 46 100
100 39 25 15 21 7.307 54 46 60 40
2 2
已知在 H 0 成立的情况下,
2 n ( ad bc ) 化简得 k 2 ( a c )(b d )( a b )(c d )
独立性检验
用χ2统计量研究 这类问题的方法 步骤
通过数据和图表分析,得到 结论是:吸烟与患病有关 结论的可靠 程度如何?
第一步:H0: 假设吸烟和患病之间没有关系
第二步:列出2×2列联表
500 500 1000
解:设H0:感冒与是否使用该血清没有关系。
1000 258 284 242 216 2 7 .075 474 526 500 500 因当H0成立时,χ2≥6.635的概率约为0.01,故有99%的把握认 为该血清能起到预防感冒的作用。
例 1. 在 500 人身上试验某种血清预防感冒作用,把他们 P(2 ≥x0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 一年中的感冒记录与另外 500 名未用血清的人的感冒记 x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 录作比较,结果如表所示。问:该种血清能否起到预防 感冒的作用? 未感冒 感冒 合计 使用血清 未使用血清 合计 258 216 474 242 284 526
例3:气管炎是一种常见的呼吸道疾病,医药研究人 P(χ≥x0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 员对两种中草药治疗慢性气管炎的疗效进行对比, x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 所得数据如表所示,问:它们的疗效有无差异? 复方江剪刀草 胆黄片 合计 有效 184 91 275 无效 61 9 70
n11 n1 n1 若 ,则吸烟是与肺癌无关联,可以认为它们相 n n n n1 n1 互独立。这个式子还可以改写为:n11 .在吸烟与患肺癌 n n1 n1 32.4<39 ,这说明既吸烟又患肺癌的人数比独 问题中, n
立时要多,在这种情况下,吸烟会使患肺癌的人数增加。
来衡量独立性的大小
2 n ( n n n n ) 11 22 12 21 可以化简为 2 n1 n2 n1n2
怎样描述实际观测值与估计值的差异呢? 统计学中采用
2 ( 观测值 预期值 ) 用卡方统计量: 2 预期值 来刻画实际观测值与估计值的差异.
即
ab bd 2 ab ac 2 (b n ) (a n ) n n n n k2 ab ac ab bd n n n n n n cd ac 2 cd bd 2 (c n ) (d n ) n n n n cd ac cd bd n n n n n n
根据这些数据能否断定:患肺癌与吸烟有关吗?
案例 患肺癌与吸烟是否有关? 肺癌与吸烟的调查数据 患肺癌 吸烟 不吸烟 总计 未患肺癌 总计
n11 =39
n12 =15 n22 =25 n2 =40
n1 =54
n2 =46
n21 =21 n1 =60
n =100
分析: 吸烟的人在调查总人数中所占的百分比:54% 患肺癌的人在调查总人数中所占的百分比:60% 既吸烟又患肺癌的人在调查总人数中所占的百分比:39% 显然, 54% 60% 39%。 我们有理由相信吸烟是与肺癌有关的。
P ( 6.635) 0.010
2率非常 小,近似为0.010 2 现在的 =7.307的观测值远大于6.635,出 现这样的观测值的概率不超过0.010。
故有99%的把握认为H0不成立,即有99%的把 握认为“患病与吸烟有关系”。
世博会英国馆
8.4列联表独立性 分析案例1(一)
2015/9/1
郑平正
制作
在许多实际问题中,我们需要考察两种因素的关系。例如: 数学解题能力是否与性别有关;高考升学率是否与补课有关。为 了分析这些问题,我们需要获取一些数据,并对数据进行分析处 理,对所得的结论作出判断。
某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽 样调查,共调查了 100 个成年人,其中吸烟者 54 人,不吸烟者 46 人,调查结果是:吸烟的 54 人中 39 人患病, 15 人不患病; 不吸烟的 46 人中 21 人患病, 25 人不患病。
2
合计 245 100 345
解:设H0:两种中草药的治疗效果没有差异。
345 184 9 61 91 2 11 .098 275 70 245 100
因当H0成立时,χ2≥10.828的概率为0.001,故有99.9%的把握 认为,两种药物的疗效有差异。
课堂小结 1.在统计学中,独立性检验就是检验两个分类变量是否有关 系的一种统计方法。
2
合计 98 95 193
解:设H0:药的效果与给药方式没有关系。
2
193 58 31 64 40 1 .3896 <2.072 122 71 98 95 因当H0成立时,χ2≥1.3896的概率大于15%,故不能否定假设 H0,即不能作出药的效果与给药方式有关的结论。
作业P87 习题?
2.为使不同的样本容量的数据有统一的评判标准,构造了一
2 n ( n n n n ) 11 22 12 21 个随机变量 2 n1 n2 n1n2
P(2 ≥x0) 0.50 0.40 0.25 0.15 x0
0.10
0.05 0.025 0.010 0.005 0.001
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
实际上,为了应用概率论得到统计量的近似的分布,统计学 家最终选用了:
n11 n1 n1 2 n12 n1 n2 2 ( ) ( ) n n n n n 2 n[ n n1 n1 n1 n2 n n n n n21 n1 n2 2 n22 n2 n2 2 ( ) ( ) n n n n n n n1 n2 n2 n2 n n n n
P(2 ≥x0) 0.50 0.40 0.25 0.15 x0 0.10 0.05 0.025 0.010 0.005 0.001 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
P(2 ≥x0) 0.50 0.40 0.25 0.15 x0
0.10
0.05 0.025 0.010 0.005 0.001
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
例如 0.1%把握认为A 99.9%把握认 10.828 与B无关 为A与B有关 1%把握为A与B 99%把握认 2 6.635 无关 为A与B有关 90%把握认 10%把握认为 2 2.706 为A与B有关 A与B无关 没有充分的依据显示A与B有关 2 2.706 ,但也不能显示A与B无关
例 2:为研究不同的给药方式(口服与注射)和药的效 P(χ≥x 0.10 0.05 0.025 0.010 0.005 0.001 0) 0.50 0.40 0.25 0.15 果(有效与无效)是否有关,进行了相应的抽样调查, x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 调查的结果列在表中,根据所选择的193个病人的数 据,能否作出药的效果和给药方式有关的结论? 口服 注射 合计 有效 58 64 122 无效 40 31 71
吸烟 不吸烟 总计 患病 a c a+c 不患病 b d b+d 总计 a+b c+d a+b+c+d
第三步:引入一个随机变量:卡方统计量
k
2
a b c d a c b d
其中n a b c d
n ad bc
2
第四步:查对临界值表,作出判断。
2
独立性检验 解:H0: 吸烟和患病之间没有关系 患病 吸烟 不吸烟 总计 通过公式计算 39 21 60 不患病 15 25 40 总计 54 46 100
100 39 25 15 21 7.307 54 46 60 40
2 2
已知在 H 0 成立的情况下,
2 n ( ad bc ) 化简得 k 2 ( a c )(b d )( a b )(c d )
独立性检验
用χ2统计量研究 这类问题的方法 步骤
通过数据和图表分析,得到 结论是:吸烟与患病有关 结论的可靠 程度如何?
第一步:H0: 假设吸烟和患病之间没有关系
第二步:列出2×2列联表