1.21 独立性检验的基本思想及其初步应用(文、理)
独立性检验的基本思想及其初步应用-PPT文档资料11页

不吸烟 吸烟 总计
不患肺癌 a c
a+c
患肺癌 b d
b+d
总计 a+b c+d a+b+c+d
独立性检验原理(与反证法类似):
反证法
假设检验
要证明结论A 备择假设H
在A不成立的前 在H不成立的条件下,即H成立的 提下进行推理 条件下进行推理
推出矛盾,意味 推出有利于H成立的小概率事件
着结论A成立
(它越小,原假设“H:吸烟与患肺癌没有关系” 成立的可能性越大;它越大,备择假设“H
0
吸1 烟与患肺癌有关系”成立的可能性越大. 第三步:查表得出结论
P(k2>k) 0.50 0.40 0.25 0.15 0.10 0.05
k
0.455 0.708 1.323 2.072 2.706 3.84
0.025 5.024
独立性检验的基本思想 及其初步应用
分类变量
探究
为调查吸烟是否对患肺癌有影响,某肿瘤研究所随 机的调查了9965人,得到如下结果(单位:人)
吸烟是与患肺癌列联表
不患肺癌 患肺癌
总计
不吸烟
7775
42
7817
吸烟
2099
49
2148
总计
9874
91
9965
那么吸烟是否对患肺癌有影响?
吸烟是与患肺癌列联表
(概率不超过的事件)发生,意味 着H成立的可能性
没有找到矛盾, 推出有利于H成立的小概率事件不 不能对A法
不成功
独立性检验步骤
第一步:提出假设检验问题H 吸烟与患肺癌没有关系 :吸烟与患肺癌有关系
0
第二步:选择检验的指标 K2
1.2 独立性检验的基本思想及其初步应用

2.下列是一个2×2列联表:
y1
x1
a
x2
2
总计
b
则该表中a,b的值分别为( C )
A.94,96
B.52,50
y2
总计
21
73
25
27
46
100
C.52,54
解析:a=73-21=52,b=a+2=52+2=54.
D.54,52
——能力提升——
14.(5分)假设两个分类变量X与Y,它们的取值分别为{x1,x2},
样方法在校园内调查了 120 位学生,得到如下 2×2 列联表:
男 女 总计
爱好
a
b
73
不爱好
c
25
总计
74
则 a-b-c 等于( D )
A.6
B.7
C.8
D.9
13.(13分)某校为了了解学生对紧急避险常识的了解情况,从高 一年级和高二年级各选取100名同学参加紧急避险常识知识竞赛.图 ①和图②分别是对高一年级和高二年级参加竞赛的学生成绩按 [40,50),[50,60),[60,70),[70,80]分组后得到的频率分布直方图.
高二年级学生竞赛的平均成绩为(45×15+55×35+65×35+ 75×15)÷100=60(分).
(2)补全2×2列联表如下:
成绩小于60分 成绩不小于60
总计
的人数
分的人数
高一年级
70
30
100
高二年级
50
50
100
总计
120
80
200
∴K2的观测值k=20100×0×501×007×0-12500××83002≈8.333>7.879,
独立性检验的基本思想及其初步应用 课件

1.分类变量和列联表 (1)分类变量 变量的不同“值”表示个体所属的 不同类别 ,像这样的 变量称为分类变量. (2)列联表 ①定义:两个分类变量的 频数表 称为列联表.
②2×2 列联表
一般地,假设两个分类变量 X 和 Y,它们的取值分别为 {x1,x2} 和{y1,y2},其样本频数列联表(也称为 2×2 列联表)
4.在独立性检验中,设 K2 的观测值为 k,当 k> 3.841 时, 有 95%的把握说事件 A 与 B 有关;当 k> 6.635 时;有 99%的 把握说事件 A 与 B 有关;当 k≥10.828 时,有 99.9%的把握认 为 A 与 B 有关;当 k≤ 3.841 时,认为 事件 A 与 B 是无关的.
[解析] 按照独立性检验的基本步骤,假设票价上浮后游 客人数与所处地区没有关系.
因为 K2 的观测值 k= 76454×24194×073×39260×652-73288×424×90173312≈30.35>6.635. 所以在犯错误的概率不超过 0.01 的前提下认为票价上浮 后游客人数与所处地区有关系.
独立性检验的应用
在调查的 480 名男人中有 38 名患有色盲,520 名 女人中有 6 名患有色盲,通过图形判断色盲与性别是否有关.利 用独立性检验判断,是否能够以 99.9%的把握认为“色盲与性别 有关系”.你所得到的结论在什么范围内有效?
[分析] 依据独立性检验的步骤,应先作出 2×2 列联表, 计算 K2 的观测值 k,查表作出推断并确定这种推断犯错误的概 率
等高条形图的应用
从发生交通事故的司机中抽取 2000 名司机作随 机样本,根据他们血液中是否含有酒精以及他们是否对事故负有 责任将数据整理如下:
独立性检验的基本思想及其初步应用(含答案)

3.2 独立性检验的基本思想及其初步应用1.下面是一个2×2列联表:则表中a 、b ( D ). A .94、96 B .52、50 C .52、60 D .54、52 2.下列关于等高条形图的叙述正确的是 ( C ). A .从等高条形图中可以精确地判断两个分类变量是否有关系 B .从等高条形图中可以看出两个变量频数的相对大小 C .从等高条形图可以粗略地看出两个分类变量是否有关系 D .以上说法都不对3.关于分类变量x 与y 的随机变量K 2的观测值k ,下列说法正确的是 ( B ).A .k 的值越大,“X 和Y 有关系”可信程度越小B .k 的值越小,“X 和Y 有关系”可信程度越小C .k 的值越接近于0,“X 和Y 无关”程度越小D .k 的值越大,“X 和Y 无关”程度越大4.若由一个2×2列联表中的数据计算得k =4.013,那么在犯错误的概率不超过__0.05______的前提下认为两个变量之间有关系.5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥3.841)中数据,得到k =50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性约为___0.05___.6.在二维条形图中,两个比值( )相差越大,要推断的论述成立的可能性就越大。
A .b a a +与dc c + B .d c a +与b a c + C . d a a +与c b c + D . d b a +与ca c + 7.下列关于2K 的说法中正确的是( C )A .2K 在任何相互独立问题中都可以用来检验有关还是无关B .2K 的值越大,两个事件的相关性就越大C .2K 是用来判断两个分类变量是否有关系的随机变量,只对两个分类变量适合D .2K 的观测值k 的计算公式为 ))()()(()(d b c a d c b a bc ad n k ++++-=8.在吸烟与患肺癌这两个分类变量的计算中,下列说法正确的是( C )。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4.2 独立性检验的基本思想及其初步应用 【学习目标】
1. 了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用 2. 通过典型案例的探究,了解实际推断原理和假设检验的基本思想、方法及初步应用. 【要点梳理】 要点一、分类变量 有一种变量,这种变量所取不同的“值”表示的是个体所属不同类别,称这种变量为分类变量。 要点诠释: (1)对分类变量的理解。 这里的“变量”和“值”都应作为广义的“变量”和“值”进行理解。例如:“性别变量”有“男”和“女”两种类别,这里的变量指的是性别,同样这里的“值”指的是“男”和“女”。因此,这里所说的“变量”和“值”取的不一定是具体的数值。 (2)分类变量可以有多种类别。例如:吸烟变量有“吸烟”与“不吸烟”两种类别,而国籍变量则有多种类别。 要点二、2×2列联表 1. 列联表 用表格列出的分类变量的频数表,叫做列联表。 2. 2×2列联表 对于两个事件A,B,列出两个事件在两种状态下的数据,如下表所示:
事件B 事件B 合计 事件A a b a+b 事件A c d c+d 合计 a+c b +d a+b+c+d 这样的表格称为2×2列联表。 要点三:卡方统计量公式 为了研究分类变量X与Y的关系,经调查得到一张2×2列联表,如下表所示 Y1 Y2 合计 X1 a b a+b X2 c d c+d 合计 a+c b+d n=a+b+c+d 统计中有一个有用的(读做“卡方”)统计量,它的表达式是: 22()()()()()nadbcKabcdacbd(nabcd为样本容量)。 要点四、独立性检验 1. 独立性检验 通过2×2列联表,再通过卡方统计量公式计算2K的值,利用随机变量2K来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。 2. 变量独立性的判断 通过对2K统计量分布的研究,已经得到两个临界值:3.841和6.635。当数据量较大时,在统计中,用以下结果对变量的独立性进行判断: ①如果2K≤3.841时,认为事件A与B是无关的。 ②如果2K>3.841时,有95%的把握说事件A与事件B有关; ③如果2K>6.635时,有99%的把握说事件A与事件B有关; 要点诠释: (1)独立性检验一般是指通过计算2K统计量的大小对两个事件是否有关进行判断; (2)独立性检验的基本思想类似于反证法。即在H0:事件A与B无关的统计假设下,利用2K统计量的大小来决定在多大程度上拒绝原来的统计假设H0,即拒绝“事件A与B无关”,从而认为事件A与B有关。独立性检验为假设检验的特例。 (3)利用独立性检验可以考察两个分类变量是否有关,并且能较精确地给出这种判断的把握程度。 3.独立性检验的基本步骤及简单应用 独立性检验的步骤: 要推断“A与B是否有关”,可按下面步骤进行: (1)提出统计假设H0:事件A与B无关(相互独立); (2)抽取样本(样本容量不要太小,每个数据都要大于5); (3)列出2×2列联表;
(4)根据2×2列联表,利用公式:22()()()()()nadbcKacbdabcd,计算出2K的值;
(5)统计推断:当2K>3.841时,有95%的把握说事件A与B有关; 当2K>6.635时,有99%的把握说事件A与B有关; 当2K>10.828时,有99.9%的把握说事件A与B有关; 当2K≤3.841时,认为事件A与B是无关的. 要点诠释: ① 使用2K统计量作2×2列联表的独立性检验时,要求表中的4个数据都要大于5. ② 一定要弄清2K的表达式22()()()()()nadbcacbdabcd中各个量的含义. ③ 独立性检验的基本思想类似于反证法.要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下构造的随机变量2K应该很小,如果由观测数据计算得到的2K的观测值很大,则在一定程度上说明假设不合理.根据随机变量2K的含义,由实际计算的2K>6.635,说明假设不合理的程度约为99%,即“两个分类变量有关系”这一结论成立的可信程度约为99%.当2K≤3.841时,认为两个分类变量是无关的. 【典型例题】 类型一、利用2×2列联表计算卡方 例1.为了考察中学生的性别与是否喜欢数学课程之间的关系,在某校学生中随机地抽取了50名学生,得到如下列联表: 喜欢数学 不喜欢数学 合计 男 13 10 23 女 7 20 27 合计 20 30 50 根据表中的数据,计算2K 【思路点拨】利用2K公式计算
【解析】得到2250(1320107)4.84423272030K
【思路点拨】在利用22列联表计算2统计量作独立性检验时,要求表中的4个数据大于等于5,为此,在选取样本的容量时一定要注意这一点。 举一反三: 【变式1】研究两个事件A,B之间的关系时,根据数据信息列出如下的2×2列联表:
B B 合计 A n11 n12 n1+ A n21 n22 n2+ 合计 n+1 n+2 n 则以下2计算公式正确的是( )
A.22112212211212()nnnnnnnnn B.22112211122122()nnnnnnnnn
C.22111221221212()nnnnnnnnn D.22112112221212()nnnnnnnnn
【答案】A 【变式2】由列联表
1y 2y
合计
1x 43 162 205
2x 13 121 134 合计 56 283 339 则随机变量2 。(精确到0.001) 【答案】由2K公式计算得:7.469 类型二、独立性检验 例2.(2016春 楚雄州期末)心理学家分析发现视觉和空间能力与性别有关,某数学兴趣小组为了验证这个结论,从兴趣小组中按分层抽样的方法抽取50名同学(男30女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答。选题情况如下表:(单位:人)
下面的临界值表供参考: (参考公式:22()()()()()nadbcKabcdacbd,其中n=a+b+c+d) 则在犯错的概率不超过0.025的前提下认为视觉和空间能力与性别________(填“有关”或“无关”)。 【思路点拨】这是一个2×2列联表的独立性检验问题,根据列联表的数据求解判断。
【解析】由观测值2250(2510510)6.3495.02430203515K, ∴在犯错的概率不超过0.025的前提下认为视觉和空间能力与性别有关,故答案为:有关。 【总结升华】在掌握了独立性检验的基本思想后我们一般通过计算2K的值,然后比较2K的值与临界值的大小来精确地给出“两个分类变量”的相关程度. 举一反三: 【变式1】某企业为了更好地了解设备改造前后与生产合格品的关系,随机抽取了180件产品进行分析。其中设备改造前生产的合格品有36件,不合格品有49件;设备改造后生产的合格品有65件,不合格品有30件。根据上面的数据,你能得出什么结论? 【答案】由已知数据得到下表 合格品 不合格品 合计 设备改造后 65 30 95 设备改造前 36 49 85 合计 101 79 180
根据公式22112212211212()nnnnnnnnn得791018595303649651802≈12.38。 由于12.38>6.635,可以得出产品是否合格与设备改造是有关的。 【变式2】考察黄烟经过培养液处理与否跟发生青花病的关系。调查了457株黄烟,得到下表中数据,请根据数据作统计分析。 培养液处理 未处理 合计 青花病 25 210 235 无青花病 80 142 222 合计 105 352 457 分析:计算2的值与临界值的大小关系。 【答案】根据公式2=35210522223521080142254572≈41.61。 由于41.61>6.635,说明经过培养液处理的黄烟跟发生青花病是有关的。 【变式3】为了研究色盲与性别的关系,调查了1000人,调查结果如下表所示: 根据上述数据试问色盲与性别是否是相互独立的? 【答案】由已知条件可得下表 男 女 合计 正常 442 514 956 色盲 38 6 44 合计 480 520 1000 依据公式22112212211212()nnnnnnnnn得2=5204804495651438644210002=27.139。 由于27.139>6.635,所以有99%的把握认为色盲与性别是有关的,从而拒绝原假设,可以认为色盲与性别不是相互独立的。 例3. 对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示: 又发作过心脏病 未发作过心脏病 合计 心脏搭桥手术 39 157 196 血管清障手术 29 167 196 合计 68 324 392 试根据上述数据比较这两种手术对病人又发作过心脏病的影响有没有差别.
【思路点拨】先提出假设,然后根据2K的大小做出准确估计判断。 【解析】 假设病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术没有关系. 由于a=39,b=157,c=29,d=167,a+b=196,c+d=196,a+c=68,b+d=324,n=392,
所以22()()()()()nadbcKacbdabcd 392(3916715729)21.77919619668324。 因为2K≈1.779<<2.706,所以不能作出病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术有关系的结论.即这两种手术对病人又发作过心脏病的影响没有差别.
【总结升华】此类问题的一般解法是利用22()()()()()nadbcKacbdabcd,求出2K的值,再利用与临界值的大小关系来判断假设是否成立.在解题时应注意准确代数与计算. 举一反三: 【变式1】对男女大学生在购买食品时是否看营养说明进行了调查,得到的数据如下表所示: 看营养说明 不看营养说明 合计
男大学生 23 32 55 女大学生 9 25 34 合 计 32 57 89 利用2×2列联表的独立性检验估计看营养说明与性别的关系中准确的是( ) A.二者一定无关 B.有95%的把握说二者有关 C.有99%的把握说二者有关
男 女 正常 442 514 色盲 38 6