3.2独立性检验的基本思想及其初步应用

合集下载

3.2独立性检验的基本思想及其初步应用

3.2独立性检验的基本思想及其初步应用
9000 8000 7000 6000 5000 4000 3000 2000 1000
0
a
b
c
d
a+c b+d
不吸烟
总计 a+b c+d a+b+c+d
不吸烟 吸烟 总计
不患肺癌 a c
a+c
患肺癌 b d
b+d
总计 a+b c+d a+b+c+d
患肺癌 不患肺癌
吸烟
(2)在二维条形图中,两个比例的值相差越大,H1成立的可 能性就越大
到如下结果:
类变量的频数表
不患肺癌 患肺癌 总计 比例
不吸烟 7775
42
7817 0.54%
吸烟
2099
49
2148 2.28%
总计
9874
91
9965
问:吸烟是否对患肺癌有影响?
解 从图表的比例可以看出:吸烟与不吸烟 可能对患肺癌的可能存在差异,我们再通 过不同的图表来分析
三维柱形图
不吸烟 吸烟 总计
3.2独立性检验的基 本思想及其初步应用
两种变量:
定量变量:体重、身高、温度、考试成绩等等。
变量 分类变量:性别、是否吸烟、是否患肺癌、
宗教信仰、国籍等等。
研究两个变量的相关关系:
定量变量——回归分析(画散点图、相关系数r、
变量
相关指数R2、残差分析)
分类变量—— 独立性检验
分类变量:变量的不同”值”表示个体所属 的不同类别.
患肺癌 b d
b+d
总计 a+b c+d a+b+c+d

3.2《独立性检验》

3.2《独立性检验》

(这是“反证法”采用的假 设)
1. ad bc 越小说明吸烟与患肺癌之间关系越弱; 2. ad bc 越大说明吸烟与患肺癌之间关系越强;
这就是用数量来刻画“有关”程度的一种 方法
为了使不同样本容量的数据有一个统一的标准,我们构造一个随机变量K 2,
2 n ( ad bc ) k2的观测值为 K ,其中n=a+b+c+d为样本容量 (a b)(c d )(a c)(b d )
在假设H0成立的前提下,K 2的观测值k应该比较小。
当k很小时,H0成立的理由很充分,即没有足够的理由拒绝H0成立。 k很大时,说明没有充分的证据说明H0成立。 “假设H ”成立的概率
k大小的“标准”是什么呢?
P(K 2 k0 ) 0.50
0.40 0.708 0.25 1.323
0
临界值表
0.10 2.706
k0
在吸烟与患肺病这两个分类变量的计算中,下列说法正确
的是( c

A、若K的观测值为k=6.635,我们有99%的把握认为吸烟与患 肺病有关系,那么在100个吸烟的人中必有99个患肺病 B、从独立性检验可知有99%的把握认为吸烟与患肺病有关 系时,我们说某人吸烟,那么他有99%的可能患肺病
C、若从统计量中求出有95%的把握认为吸烟与患肺病有关
9965(7775 49 42 2099)2 K 的观测值为 k 56.632 7817 2148 9874 91
2
根据临界值表可知P( K 2 10.828) 0.001 只有0.1%的理由说明H0成立,所以有99.9%的理由判断H0不成立, 所以吸烟与患癌症有关系。
这种判断可能有错误,但是犯错误的概率不会超过0.001,这 是个小概率事件,我们有99.9%的把握认为“吸烟与患癌症有 关系”

2020学年高中数学第3章统计案例3.2独立性检验的基本思想及其初步应用课件新人教A版选修2_3

2020学年高中数学第3章统计案例3.2独立性检验的基本思想及其初步应用课件新人教A版选修2_3

返回目录
(2)独立性检验(精确判断) 具体实施步骤如下: ①根据实际问题需要的可信程度确定临界值 k0; ② 根 据 观 测 数 据 计 算 随 机 变 量 K2 = a+bcn+add-ab+cc2b+d的观测值 k,其中 n=a+b+c+ d 为样本容量;
返回目录
③查临界值表(以K2的观测值k的大小作为检验在多 大程度上可以认为“两个变量有关系”的标准),如果 k≥k0,就以(1-P(K2≥k0))×100%的把握认为“两分类 变量有关系”;否则,就认为根据样本数据没有充分的 理由说明“两分类变量有关系”.
返回目录
2.(独立性检验)有人发现,多看电视容易使人变冷 漠,下表是一个调查机构对此现象的调查结果.
冷漠 不冷漠 总计 多看电视 68 42 110 少看电视 20 38 58
总计 88 80 168
返回目录
则大约有多大的把握认为多看电视与人变冷漠有关
系( )
A.99%
B.97.5%
C.95%
D.90%
返回目录
要点三 独立性检验
定义 利用随机变量K2来判断“两个分类变量有关系” 的方法称为独立性检验 nad-bc2
公式 K2=_____a_+__b__c_+__d__a_+__c___b_+__d_____,其中n= ___a_+_b_+__c_+__d___
返回目录
①认真读题,取出相关数据,作出2×2列联表; 具体 ②根据2×2列联表中的数据,计算K2的观测值k; 步骤 ③通过观测值k与临界值k0比较,得出事件有关的
返回目录
P(K2≥k0) 0.100 0.050 0.010 k0 2.706 3.841 6.635
思维导引:根据列联表直接代入K2公式可得南方学 生和北方学生的差异与是否喜欢甜品的相关程度.

第三章--统计案例-3.2-独立性检验的基本思想及其初步应用

第三章--统计案例-3.2-独立性检验的基本思想及其初步应用

解:由列联表中的数据,得 K2 的观测值为 1 633×30×1 355-224×242 k= ≈68.033>10.828. 254×1 379×54×1 579 因此,在犯错误的概率不超过 0.001 的前提下,认为每 一晚都打鼾与患心脏病有关.
为了调查某生产线上,某质量监督员甲对产
品质量好坏有无影响,现统计数据如下:质量监督员在现 场时,990件产品中合格品为 982 件,次品数为 8 件,甲不 在现场时,510件产品中合格品为493件,次品数为17件, 试分别用列联表、等高条形图、假设检验的方法对数据进
的方法来判断色盲与性别是否有关?你所得的结论在什么
范围内有效? 解:根据题目所给的数据作出如下的列联表: 色盲 不色盲 合计
男 女 合计
38 6 44
442 514 956
480 520 1 000
根据列联表作出相应的等高条形图,如图所示:
38 从等高条形图来看在男人中患色盲的比例480比在女人
38 6 6 中患色盲的比例520要大,其差值为480-520 ≈0.068,差
位统一,图形准确,但它不能给我们两个分类变量有关或
无关的精确的判断,若要作出精确的判断,可以进行独立 性检验的有关计算.
本题应首先作出调查数据的列联表,再根据列联表画
出等高条形图,并进行分析,ห้องสมุดไป่ตู้后利用独立性检验作出判 断.
在调查 480 名男士中有 38 名患有色盲, 520名女士中有6名患有色盲,分别利用图形和独立性检验


③如果 k≥k0 ,就推断“X与Y有关系”,这种推断
犯错误的概率不超过α;否则,就认为在犯错误的概 率不超过α的前提下不能推断“X与Y有关系”,或者 在样本数据中没有发现足够证据支持结论“X与Y有 关系”.

3.2.2独立性检验的基本思想及其初步应用教案

3.2.2独立性检验的基本思想及其初步应用教案

学校:二中 学科:数学 编写人: 游恒涛 审稿人:马英济3.2.2独立性检验的基本思想及其初步应用教学目标通过对典型案例的探究,进一步巩固独立性检验的基本思想、方法,并能运用K 2进行独立性检验.教学重点:独立性检验的基本方法 教学难点:基本思想的领会及方法应用 教学过程 一.学生活动练习:(1)某大学在研究性别与职称(分正教授、副教授)之间是否有关系,你认为应该收集哪些数据?女教授人数,男教授人数,女副教授人数,男副教授人数。

(2)某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:为了判断主修统计专业是否与性别有关系,根据表中的数据,得到 K 2250(1320107) 4.84423272030⨯⨯-⨯=≈⨯⨯⨯,∵K 2 3.841≥,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为 .(答案:5%)附:临界值表(部分):P (K 2≥k 0)0.10 0.05 0.025 0.010 k 02.7063.8415.0246.635二.数学运用例1 为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表: 喜欢数学课程 不喜欢数学课程 总 计 男 37 85 122 女 35 143 178 总 计72228300由表中数据计算得到2K 的观察值 4.514k ≈. 在多大程度上可以认为高中生的性别与是否数学课程之间有关系?为什么? (学生自练,教师总结)强调:①使得2( 3.841)0.05P K ≥≈成立的前提是假设“性别与是否喜欢数学课程之间没有关系”.如果这个前提不成立,上面的概率估计式就不一定正确; ②结论有95%的把握认为“性别与喜欢数学课程之间有关系”的含义;③在熟练掌握了两个分类变量的独立性检验方法之后,可直接计算2K 的值解决实际问题,而没有必要画相应的图形,但是图形的直观性也不可忽视.专业性别非统计专业 统计专业男13 10 女7 20例2、为研究不同的给药方式(口服或注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果如表所示。

独立性检验的基本思想及其初步应用

独立性检验的基本思想及其初步应用

如果“吸烟与患肺癌没有关系”,那么吸烟样
本中不患肺癌的比例应该与不吸烟样本中相应的比
例差不多.
所以
a a+
b

c
c +d
,
所以 a c + d ca + b,
ad bc
即 ad bc 0.
︱ad-bc︱越小,说明吸烟与患肺癌之间的关系越弱;
︱ad-bc︱越大,说明吸烟与患肺癌之间的关系越强.
患心脏病 患其他病 总计
秃顶
214
175
389
不秃顶
451
597
1 048
总计
665
772
1 437
(1)相应的等高条形图如下所示,
不患心脏病 患心脏病
秃顶
不秃顶
由图可认为秃顶与患心脏病有关系
吸烟与患肺癌列联表(单位:人)
不患肺癌
患肺癌
总计
不吸烟
7 775
42
7 817
吸烟
2 099
49
2 148
总计
9 874
91
9 965
在不吸烟者中患肺癌的比重是__0_._5_4_%_,
在吸烟者中患肺癌的比重是__2_._2_8_%_.
说明:吸烟者和不吸烟者患肺癌的可能性存在差异, 吸烟者患肺癌的可能性大.
K2
(n ad bc)2
(a b)(c d )(a c)(b d )
临界值表:
P ( K 2 k 0 ) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
k 0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828

3.2独立性检验的基本思想及其初步应用 课件(人教A版选修2-3)


3. 独立性检验临界值表
P(K2 ≥k 0 ) k0
0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
想一想:在K2运算时,在判断变量相关时,若K2的观测值k= 56.632,则P(K2≥6.635)≈0.01和P(K2≥10.828)≈0.001, 哪种说法是正确的? 提示 两种说法均正确.
兴趣不浓厚的
总计

86
73
103
95
189
判断学生的数学成绩好坏与对学习数学的兴趣是否有关?
解 由公式得 K 的观测值
解 由公式得 K 的观测值 86×103×95×94
2
189× 64×73-22×30 k189 = ×64×73-22×302 ≈38.459. 86 × 103 × 95 × 94 k= ≈38.459.
想一想:如何理解分类变量?
提示
(1)这里的“变量”和“值”都应作为“广义”的变量和值
来理解.例如:对于性别变量,其取值有“男”和“女”两 种,这里的“变量”指的是“性别”,这里的“值”指的是“男”
或“女”.因此,这里说的“变量”和“值”不一定是取具体的
数值. (2)分类变量是大量存在的.例如:吸烟变量有吸烟与不 吸烟两种类别,而国籍变量则有多种类别.
2.独立性检验 利用随机变量K2来判断“两个分类变量有关系”的方法 定义 称为独立性检验
公式
n ad-bc2 a+bc+da+c b+d K2=_______________________ 其中n=___________ a+b+c+d

独立性检验的基本思想及其初步应用教学设计-【通用,经典教学资料】

3.2.1 《独立性检验的基本思想及其初步应用》教学设计【教学目标】1.知识与技能:通过对典型案例的探究,了解独立性检验的基本思想,会对两个分类变量进行独立性检验,明确独立性检验的基本步骤,并能解决实际问题。

2.过程与方法:通过设置问题,引导学生自主发现、合作探究、归纳展示、质疑对抗,使学生成为课堂主体。

3.情感、态度与价值观:通过本节课学习,让学生体会统计方法在决策中的作用;合作探究的学习过程,使学生感受发现、探索的乐趣及成功展示的成就感,培养学生学习数学知识的积极态度。

【教学重点】了解独立性检验的基本思想及实施步骤。

【教学难点】独立性检验的基本思想;随机变量2K的含义。

【学情分析】本节课是在学习了统计、回归分析的基本思想及初步应用后,利用独立性检验进一步分析两个分类变量之间是否有关系,为以后学习统计理论奠定基础。

【教学方式】多媒体辅助,合作探究式教学。

【教学过程】一、情境引入,提出问题请看视频:[设计意图说明]好的课堂情景引入,能激发学生的求知欲,是新问题能够顺利解决的前提之一。

问题1、你认为吸烟与患肺癌有关系吗?怎样用数学知识说明呢?[设计意图说明]提出问题,引导学生自主探究,指明方向,步步深入。

二、阅读教材,探究新知1.分类变量对于性别变量,其取值为男和女两种:[设计意图说明]利用图像向学生展示变量的不同取值,更加形象的表示分类变量的概念。

这种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量。

生活中有很多这样的分类变量如:是否吸烟宗教信仰国籍民族……2.列联表为研究吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果:表3—7 吸烟与患肺癌列联表单位:人不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965究每个分类变量只取两个值,这样的列联表称为22 列联表)。

问题1、吸烟与患肺癌有关系吗?由以上列联表,我们估计①在不吸烟者中患肺癌的比例为________;②在吸烟者中患肺癌的比例为。

高中数学人教A版选修2-3课件:3.2独立性检验的基本思想及其初步应用

x
).
问题导学
当堂检测
一、用列联表和等高条形图分析两变量间的关系
活动与探究 问题 1:怎样从列联表判断两个分类变量有无关系? 提示:|ad-bc|越小,说明两个分类变量 x,y 之间的关系越弱;|ad-bc|越 大,说明 x,y 之间的关系越强.
x
问题 2:等高条形图对分析两个分类变量是否有关系,有何帮助? 提示:通过画等高条形图,我们可以通过观察两个变量的比例关系, 直观判断两个变量是否有关系.
问题导学
当堂检测
(1)利用列联表直接计算 分类变量之间有关系.
������ ������ 和 ,如果两者相差很大,就判断两个 ������+������ ������+������
(2)在等高条形图中展示列联表数据的频率特征,比较图中两个深 色条的高可以发现两者频率不一样而得出结论 ,这种直观判断的不足 之处在于不能给出推断“两个分类变量有关系”犯错误的概率.
问题导学
当堂检测
相应的等高条形图如图所示.
图中两个深色条的高分别表示甲在生产现场和甲不在生产现场样 本中次品数的频率.从图中可以看出,甲不在生产现场样本中次品数的 频率明显高于甲在生产现场样本中次品数的频率 .因此可以认为质量 监督员甲在不在生产现场与产品质量好坏有关系 .
问题导学
当堂检测
迁移与应用 某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格 内向的学生 426 人中有 332 人在考前心情紧张,性格外向的学生 594 人 中有 213 人在考前心情紧张,作出等高条形图,利用图形判断考前心情 紧张与性格类别是否有关系. 解:作列联表如下:
2
其中 n=a+b+c+d 为样本容量.

《3.2独立性检验的基本思想及其初步应用》教学案5

《3.2独立性检验的基本思想及其初步应用》教学案5一.教学目标:1,理解独立性检验的基本思想; 2,理解独立性检验的实施步骤; 3,了解随机变量K 2的含义。

二.教学重点:理解独立性检验的基本思想实施步骤。

教学难点;1、理解独立性检验的基本思想及实施步骤2、了解随机变量K 2的含义。

三.知识链接独立性检验原理:四.新课学习1. 独立性检验的概念:利用随机变量2K 来确定在多大程度上可以认为“__________”的方法,称为两个分类变量的独立性检验。

2. 独立性检验的步骤:设有两个分类变量X 与Y ,他们的取值分别为 和 其样本频数列联表(称2⨯2列联表)为:引入随机变量2K , ____________________2=K ,(其中d c b a n +++=为样本容量)推断X 与Y 有关系可按下列步骤进行: (1)假设0H : X 与Y 没有关系(2)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界a ,然后查表1-11确定临界值o k(3)利用公式(1),计算随机变量2K 的观测值k 。

(4)如果,就判断“X 与Y 有关系”,这种判断犯错误的概率不超过a ,否则,就认为在犯错误的概率不超过a 的前提下不能推断“X 与Y 有关系”,或则在样本数据中没有发现足够证据支持结论“X 与Y 有关系”,3. 为了使不同样本容量的数据有统一的评判标准,我们利用统计量2K 的观测值k来判断x 与y 有关系的程度。

如果828.10>k ,就有_____的把握认为“x 与y 有关系”; 如果879.7>k ,就有_____的把握认为“x 与y 有关系”; 如果_____>k ,就有99%的把握认为“x 与y 有关系”; 如果_____>k ,就有97.5%的把握认为“x 与y 有关系”;如果841.3>k ,就有_____的把握认为“x 与y 有关系”; 如果706.2>k ,就有_____的把握认为“x 与y 有关系”; 如果706.2≤k,就认为没有充分证据显示“x 与y 有关系” 。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

总计 7817 2148 9965
通过公式计算
9965(7775 49 42 2099 ) K 56.632 7817 2148 9874 91
2 2
独立性检验
已知在 H 0成立的情况下,
P( K 6.635) 0.01
2
即在 H 0成立的情况下,K2 大于6.635概率非常 小,近似为0.01 现在的K2=56.632的观测值远大于6.635
一:假设检验问题的原理
假设检验问题由两个互斥的假设构成,其中 一个叫做原假设,用H0表示;另一个叫做备择 假设,用H1表示. 例如,在前面的例子中,
原假设为: H0:面包分量足,
备择假设为 H1:面包分量不足.
这个假设检验问题可以表达为:
H0:面包分量足 ←→ H1:面包分量不足
二:求解假设检验问题
考虑假设检验问题: H0:面包分量足 ←→ H1:面包分量不足 求解思路:
1. 在H0成立的条件下,构造与H0矛盾的小概 率事件; 2. 如果样本使得这个小概率事件发生,就能 以一定把握断言H1成立;否则,断言没有 发现样本数据与H0相矛盾的证据.
三: 二个概念
1.分类变量 对于性别变量,取值为:男、女 这种变量的不同取“值”表示个体所属的不同 类别,这类变量称为分类变量 分类变量在现实生活中是大量存在的,如是否吸 烟,是否患肺癌,宗教信仰,国别,年龄,出生月 份等等.
例2. 为考察高中生性别与是否喜欢数学课程 之间的关系,在某城市的某校高中生中随机抽 取300名学生,得到如下列联表:
性别与喜欢数学课程列联表 喜欢数学课程 男 女 总计 37 35 72 a c 不喜欢数学课程 b d 85 143 228 总计 122 178 300
由表中数据计算得K 2 4.513 ,高中生的性别与是 否喜欢数学课程之间是否有关系?为什么? 解:P111
0
按照上述规则,把“两个分类变量之间有没关系”错误的判断 2 为“两个分类变量之间有关系”的概率为P( k ). K
0
在实际应用中,我们把 k k0解释为有(1 P( K 2 k )) 100% 的把握认为“两个分类变量之间有关系”;把 k0 解释为 k 不能以 P( K 2 k )) 100% 的把握认为“两个分类变量 (1 之间有关系”,或者样本观测数据没有提供“两个分类变量 之间有关系”的充分证据。
不患肺癌 比例
独立性检验
通过数据和图表分析,得到 结论是:吸烟与患肺癌有关
H0: 吸烟和患肺癌之间没有关系←→ H1: 吸烟和患肺癌之间有关系 结论的可靠 用 A 表示“不吸烟”, B 表示“不患肺癌” 则 H0: 吸烟和患肺癌之间没有关系 等价于 “吸烟”与“患肺癌”独立,即A与B独立
等价于 程度如何?
(3)根据随机变量K2的含义,可以通过评价该假设不合理的 程度,由实际计算出的,说明假设合理的程度为99%,即“两 个分类变量有关系”这一结论成立的可信度为约为99%.
怎样判断K2的观测值k是大还是小呢?
这仅需要确定一个正数 k0 ,当 k k 时就认为K2的观测 0 值 k大。此时相应于 k0 的判断规则为: 如果 k k0 ,就认为“两个分类变量之间有关系”;否则 就认为“两个分类变量之间没有关系”。 k ----临界值
判断 H 0是否成立的规则
如果 k 6.635 ,就判断 H 0 不成立,即认为吸烟与 患肺癌有关系;否则,就判断 H 0 成立,即认为吸烟 与患肺癌没有关系。
H0 在该规则下,把结论“H 0 成立”错判成“ P( 2 成立”的概率不会差过K 6.635) 0.01, 即有99%的把握认为 H 0不成立。
背景分析
条形图
柱形图
列联表
分类变量之间关系
独立性检验
例1. 在某医院,因为患心脏病而住院的665名男 性病人中,有214人秃顶,而另外772名不是因为 患心脏病而住院的男性病人中有175人秃顶.分 别利用图形和独立性检验方法判断是否有关? 你所得的结论在什么范围内有效?
600 500 400 300 200 100 0 秃顶 不秃顶 患其他病 患心脏病 患心脏病 患其他病
2 2
作为检验在多大程度上可以认为“两个 变量有关系”的标准 .
设有两个分类变量X和Y它们的值域分别为{x1, x2}和 {y1, y2}其样本频数列表(称为2×2列联表) 为
2×2列联表
2 (ad bc) n K2 (a b)(c d )(a c)(b d ) P(k2 ≥ m)
P ( AB) P ( A) P ( B)
吸烟与肺癌列联表 不患肺癌 a c a+c 患肺癌 b d b+d 总计 a+b c+d a+b+c+d
不吸烟 吸烟 总计
a+b a+c a P(A) , P(B) , P(AB) n n n 其中n = a + b + c + d
a c , a+b c+d
答:判断出错的概率为0.01。
9965(7775 49 42 2099)2 现在观测值k 56.632太大了, 7817 2148 9874 91 在H 0成立的情况下能够出现这样的观测值的概率不超过0.01, 因此我们有99%的把握认为H 0不成立,即有99%的把握认为“吸烟 与患肺癌有关系”。

独立性检验的定义
上面这种利用随机变量K2来确定在多大程度上 可以认为“两个分类变量有关系”的方法,称为两 个分类变量的独立性检验。
独立性检验的基本思想(类似反证法)
(1)假设结论不成立,即 H0 : “两个分类变量没有关系”. (2)在此假设下我们所构造的随机变量 K2 应该很小,如果由 观测数据计算得到K2的观测值k很大,则在一定可信程度上 说明 H 0 不成立.即在一定可信程度上认为“两个分类变量 有关系”;如果k的值很小,则说明由样本观测数据没有发现 反对 0 的充分证据。 H
不吸烟 吸烟 吸烟 不吸烟
2) 通过图形直观判断两个分类变量是否相关:
9000 8000 7000 6000 5000 4000 3000 2000 1000 0 不吸烟 吸烟 患肺癌 不患肺癌
二维条 形图
3)通过图形直观判断两个分类变量是否相关: 患肺癌 比例
患肺癌 不患肺癌
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 不吸烟 吸烟
在H0成立的情况下,统计学家估算出如下的概率
即在H0 成立的情况下,K2 的值大于6.635的概率非常小,近似 于0.01。
P( K 2 6.635) 0.01.
(2)
也就是说,在H0成立的情况下,对随机变量K2进行多次观 测,观测值超过6.635的频率约为0.01。
思考
如果K 2 6.635,就断定H0不成立,这种判断出错的可能性有多大 ?
5)如果P(m>3.841)= 0.05表示有95%的把握认为”X与Y”有关系; 6)如果P(m>2.706)= 0.010表示有90%的把握认为”X与Y”有关系;
7)如果m≤2.706),就认为没有充分的证据显示”X与Y”有关系;
独立性检验
不吸烟 吸烟 总计
吸烟与肺癌列联表 不患肺癌 患肺癌 7775 42 2099 49 9874 91
x1 x2
总计
y1 a c a+c
y2 b d b+d
总计
a+b c+d a+b+c+d
1)如果P(m>10.828)= 0.001表示有99.9%的把握认为”X与Y”有关系; 适用观测数据a、 2)如果P(m>7.879)= 0.005表示有99.5%的把握认为”X与Y”有关系; b、c、d不小于5 3)如果P(m>6.635)= 0.01表示有99%的把握认为”X与Y”有关系; 4)如果P(m>5.024)= 0.025表示有97.5%的把握认为”X与Y”有关系;
ad bc
a a+b a+c × n n n
a c + d c a + b ,
独立性检验
ad bc 0.
ad - bc 越小,说明吸烟与患肺癌之间的关系越弱, ad - bc 越大,说明吸烟与患肺癌之间的关系越强
引入一个随机变量
(ad - bc) n K = (a + b)(c + d)(a + c)(b + d)
利用随机变量K2来确定在多大程度上可以 认为”两个分类变量有关系”的方法称为两个 分类变量的独立性检验.(为假设检验的特例)
列联表
为了调查吸烟是否对肺癌有影响,某肿瘤研究所 随机地调查了9965人,得到如下结果(单位:人)
不吸烟 吸烟
总计
吸烟与肺癌列联表 不患肺癌 患肺癌 7775 42
总计 7817 2148
独立性检验的基本思想 及初步应用
问题: 数学家庞加莱每天都从一家
面包店买一块1000g 的面包,并记 录下买回的面包的实际质量.一年后, 这位数学家发现,所记录数据的均 值为950g.于是庞加莱推断这家面包 店的面包分量不足. • 假设“面包分量足”,则一年购买面包的质量 数据的平均值应该不少于1000g ; • “这个平均值不大于950g”是一个与假设“面包 分量足”矛盾的小概率事件; • 这个小概率事件的发生使庞加莱得出推断结果.
91
在不吸烟者中患肺癌的比重是 0.54% 2.28% 在吸烟者中患肺癌的比重是 说明:吸烟者和不吸烟者患肺癌的可能性存在差异, 吸烟者患肺癌的可能性大
1)通过图形直观判断两个分类变量是否相关:
相关文档
最新文档