列联表独立性分析案例

合集下载

【高中数学】列联表与独立性检验(课件) 高二数学(人教A版2019选择性必修第三册)

【高中数学】列联表与独立性检验(课件) 高二数学(人教A版2019选择性必修第三册)
当 2<xα时,没有充分的证据推断H0不成立,可以认为X和Y独立.
这种利用 2的取值推断分类变量X和Y是否独立的方法称为 2独立性检验,
简称独立性检验 .
探究新知
下表为独立性检验中几个常用的小概率值和相应的临界值
α

0.1
2.706
0.05
3.841
0.01
6.635
0.005
7.879
0.001
根据小概率值α=0.001的独立性检验,推断H0不成立,即认为吸烟与
患肺癌有关联,此推断犯错误的概率不大于0.001.
典型例题
根据表中数据计算,不吸烟者中不患肺癌和患肺癌的频率分别为
7775/7817≈0.9946 和 42/7817≈0.0054
吸烟者中不患肺癌和患肺癌的频率分别为
2099/2148≈0.9772 和 49/2148≈0.0228
中有 43 人的饮食以蔬菜为主,另外 27 人则以肉类为主;六十岁以下的人中有
21 人饮食以蔬菜为主,另外 33 人则以肉类为主.请根据以上数据作出饮食习
惯与年龄的列联表,并利用 P(Y=1|X=0)与 P(Y=1|X=1)判断二者是否有关系.
[解]
用 Ω 表示共调查了 124 人所构成的集合,定义一对分类变量 X 和 Y
性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?
探究新知
[解]
病人组中尿液为阳性和阴性的频率分别为:
29
7
≈0.805 6 和 ≈0.194 4.
36
36
对照组中尿液为阳性和阴性的频率分别为:
9
28
≈0.243 2 和 ≈0.756 8.
37
37

【高质量】列联表独立性分析案例PPT文档

【高质量】列联表独立性分析案例PPT文档

40
35 30 25 20 15 10
5 0
患肺癌
不患肺癌
三维 柱状图
不吸烟 吸烟
吸烟 不吸烟
设计意图:通过图形直观判断两个分类变量是否相关:
2) 通过图形直观判断两个分类变量是否相关:
60 推出矛盾,意味着结论A成立
并且在高一学习必修三概率统计时已经初步了解变量间的相关关系问题;
二维
(4)学生对利用计算机上数学课比较感兴趣,并能掌握计算机的基本操作;
列联表独立性分析案例
优选列联表独立性分析案例
教材分析 目标分析 特征分析 策略分析
过程分析
教材分析 目标分析 过特程征分析 教策法略分析 过评程价分析
教材分析
一)、教材的地位和作用 本节课是湘教版普通高中课程标准实验教科书选修1-2第
四章第三节第一课时的内容。主要内容是:列联表独立性分 析案例。独立性检验是《课程标准》中要求学生体验的重要 统计模型之一,该模型的教育价值:让学生在必修3课程学习 到的变量间的相关关系和选修1-2事件的独立性的基础上, 利用独立性检验进一步分析两个分类变量之间是否有关系, 为下一节学习一元线性回归案例和今后学习统计理论奠定基 础。
❖ 2)通过对具体问题作出独立性检验,明确独 立性检验的基本步骤,并能用其基本思想解 决实际问题。
目标分析
❖ 2、过程与方法 ❖ 1)通过探究“吸烟是否与患肺癌有关系”引出独
立性检验的问题,借助样本数据,列联表、柱形 图和条形图,使学生直观感觉到吸烟和患肺癌可能 有关系.这一直觉来自于观测数据,即样本问题是 这种来自于样本的印象能够在多大程度上代表总 体,这节课就是为了解决这个问题,让学生亲身 体验直观感受的基础上,提高学生的数据分析能 力. ❖ 2)经历判断“X与Y是否有关系”的一般步骤和利 用独立性检验来考察两个分类变量是否有关系, 获得较准确地给出这种判断的可靠程度的具体做

8.4列联表独立性分析案例课件-湘教版数学选修2-3

8.4列联表独立性分析案例课件-湘教版数学选修2-3
根据这些数据能否断定:患呼吸道疾病与 吸烟有关?
列联表
为了调查吸烟是否患呼吸道疾病有影响,某医疗研究 所随机地调查了515人,得到如下结果(单位:人)
吸烟与呼吸道疾病列联表
患病 不患病 总计
吸烟
37
183
220
不吸烟
21274Fra bibliotek295
总计
58
457
515
在不吸烟者中患呼吸道疾病的比重是 7.12% 在吸烟者中患呼吸道疾病的比重是 16.82%
用 统计量研究这类问题的方法称为独立性检验。
一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类 取值,即类A和B(如吸烟与不吸烟);Ⅱ也有两类 取值,即类1和2(如患病与不患病)。于是得到 下列联表所示的抽样数据:
类1 类2
总计
类A
a
b
a+b
类B
c
d
c+d
总计
a+c
b+d
a+b+c+d
要推断“Ⅰ和Ⅱ有关系”,可按下面的步骤进行:
患病 不患病 总计
吸烟
37
183
220
不吸烟 21
274
295
总计
58
457
515
通过公式计算
独立性检验
已知在 H0成立的情况下,
即在H0 成立的情况下, 2大于6.635概率非常小, 近似为0.01 现在的 2=11.8634的观测值远大于6.635, 出现这样的观测值的概率不超过0.01。 故有99%的把握认为H0不成立,即有99%的把 握认为“患呼吸道疾病与吸烟有关系”。
列联表独立性分析案例
某医疗机构为了了解呼吸道疾病与吸烟是否 有关,进行了一次抽样调查,共调查了515个 成年人,其中吸烟者220人,不吸烟者295人, 调查结果是:吸烟的220 人中37人患呼吸道 疾病, 183人不患呼吸道疾病;不吸烟的295 人中21人患呼吸道疾病, 274人不患呼吸道 疾病。

数学(选修12)练习4.3列联表独立性分析案例活页作业3

数学(选修12)练习4.3列联表独立性分析案例活页作业3

活页作业(三) 列联表独立性分析案例1.对于分类变量X 与Y 的统计量χ2的值说法正确的是( ) A .χ2越大,“X 与Y 有关系”的把握性越小 B .χ2越小,“X 与Y 有关系”的把握性越小 C .χ2越接近于0,“X 与Y 无关系”的把握性越小 D .χ2越接近于0,“X 与Y 无关系”的把握性越大解析 χ2越大,X 与Y 越不独立,所以关联越大;相反,χ2越小,关联越小. 答案:B2.在2×2列联表中,两个比值________相差越大,两个分类变量之间的关系越强( ) A .a a +b 与c c +dB .a c +d 与c a +bC .a a +d 与c b +cD .a b +d 与c a +c解析a a +b 与c c +d相差越大,说明ad 与bc 相差越大,两个分类变量之间的关系越强. 答案:A3.对两个分类变量进行独立性检验的主要作用是( ) A .判断模型的拟合效果 B .对两个变量进行相关分析C .给出两个分类变量有关系的可靠程度D .估计预报变量的平均值解析 独立性检验的目的就是明确两个分类变量有关系的可靠程度. 答案:C4.为了了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机选取了60名高中生,通过问卷调查,得到以下数据:作文成绩优秀作文成绩一般总计 课外阅读量较大 22 10 32 课外阅读量一般8 20 28 总计3030602>7.879时,有99.5%的把握判定两个变量有关联)( )A .没有充足的理由认为课外阅读量大与作文成绩优秀有关B .有0.5%的把握认为课外阅读量大与作文成绩优秀有关C .有99.9%的把握认为课外阅读量大与作文成绩优秀有关D .有99.5%的把握认为课外阅读量大与作文成绩优秀有关 解析 χ2≈9.643>7.879,P (χ2≈9.643>7.879)=0.005.∴在犯错误的概率不超过0.005的前提下认为作文成绩优秀与课外阅读量大有关. 答案:D5.已知某校文理科教师与性别的列联表如下:解析χ2=300×(37×143-85×35)2122×178×72×228≈4.513 9.答案:4.513 96.为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,经计算χ2=8.01,则认为“喜欢乡村音乐与性别有关系”的把握性约为________.解析 ∵χ2=8.01>6.635,∴有99%的把握说学生性别与喜欢乡村音乐有关系. 答案:99%7.某次全国性会议在北京召开.为了做好对外宣传工作,会务组选聘了16名男记者和14名女记者担任对外翻译工作,调查发现,男、女记者中分别有10人和6人会俄语.(1)根据以上数据完成以下2×2列联表:(2) 解 (1)对应的2×2列联表如下:(2)χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=30×(10×8-6×6)2 16×14×16×14≈1.157 5<2.706.∴不能在犯错的概率不超过0.10的前提下认为性别与会俄语有关.8.某校对高三部分学生的数学质检成绩作相对分析.(1)按一定比例进行分层抽样抽取了20名学生的数学成绩,并用茎叶图(图1)记录,但部分数据不小心丢失了,已知数学成绩[70,90)的频率是0.2,请补全表格并绘制相应频率分布直方图(图2).分数段(分)[50,70)[70,90)[90,110)[110,130)[130,150]频率理成绩进行比较,得到统计数据如下表:物理成绩优秀物理成绩一般合计数学成绩优秀15318数学成绩一般51722合计202040时,有99.9%的把握判定两个变量有关联)解(1)填表如下:分数段(分)[50,70)[70,90)[90,110)[110,130)[130,150]频率0.10.20.40.20.1(2)假设学生的物理成绩优秀与数学成绩优秀没有关系, 则χ2=40×(15×17-5×3)220×20×22×18≈14. 55>10.828.∴有99.9%的把握认为物理成绩优秀与数学成绩优秀有关系.1.两个分类变量X 和Y 的值域分别为{x 1,x 2}和{y 1,y 2},其样本频数分别是a =10,b =21,c +d =35.若X 与Y 有关系的可信程度不小于97.5%,则c 等于(已知当χ2>5.024时,则有97.5%的把握认为变量X 与Y 有关系)( )A .3B .4C .5D .6解析χ2=66×[10(35-c )-21c ]231×35×(10+c )(56-c )>5.024,把选项A ,B ,C ,D 代入验证可知选A .答案:A2.在打鼾与患心脏病之间的关系研究中,通过收集数据、整理分析数据得“打鼾与患心脏病有关”的结论,并且有99%以上的把握认为这个结论是成立的.下列说法中正确的是( )A .100个心脏病患者中,至少有99人打鼾B .1个人患心脏病,则这个人有99%的概率打鼾C .在100个心脏病患者中,一定有打鼾的人D .在100个心脏病患者中,可能1个打鼾的都没有解析 由题意知,“打鼾与患心脏病有关”的结论有99%以上的把握正确,而不是心脏病患者打鼾的概率为99%,故选D .答案:D3.独立性检验中,若两个分类变量“X 和Y 有关系”的可信程度是95%,则随机变量χ2的取值范围是________________.解析 当χ2>3.841时,有95%的把握判定X 与Y 有关系,当χ2>6.635时,有99%的把握判定X 与Y 有关系,∴3.841<χ2≤6.635.答案:(3.841,6.635]4.假设有两个分类变量X 与Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其中2×2列联表如下:________.(填序号)①a =5,b =4,c =3,d =2; ②a =5,b =3,c =4,d =2; ③a =2,b =3,c =4,d =5; ④a =2,b =3,c =5,d =4.解析 四个选项中a +b +c +d 的值与(a +b )(a +c )(c +d )(b +d )的值分别相等,则由χ2的计算公式,可知只需计算(ad -bc )2.经计算,知其值最大的一组是④.答案:④5.某城市随机抽取一年内100天的空气质量指数API 的监测数据,统计结果如下表:(1)ω)的关系式为S =⎩⎪⎨⎪⎧0(0≤ω≤100),4ω-400(100<ω≤300),2 000(ω>300).试估计在本年内随机抽取一天,该天经济损失S 大于200元且不超过600元的概率. (2)若本次抽取的样本数据有30天是在供暖季,其中有8天为重度污染,完成下面2×2列联表,并判断能否有95%的把握认为该市本年空气重度污染与供暖有关.解 (1)设“600元”为事件A ,由200<S ≤600,得150<ω≤250,频数为39. ∴P (A )=39100.(2)根据已知数据得到如下列联表:χ2=100×(22×7-63×8)85×15×30×70≈4.575>3.841.所以有95%的把握认为空气重度污染与供暖有关.6.目前,在“互联网+”和“大数据”浪潮的推动下,在线教育平台如雨后春笋般蓬勃发展,与此同时,很多学生家长和相关专家对在线教学也产生了质疑,主要原因就是对在线教学,学生是否能认真听讲存在疑虑.在这种情况下,某市教育主管部门在该市各中小学采用分层抽样的方式抽出15周岁以下和15周岁以上各200人进行调查研究,其中15周岁以下的能认真听讲的有150人,不能做到认真听讲的有50人,15周岁以上的170人能认真听讲,不能做到认真听讲的有30人.(1)完成下列2×2列联表:97.5%的把握判定两个变量有关联)(3)现用分层抽样的方法,从15周岁以下的人中抽取8人,在这8人中任取2人进行座谈,求抽到的人中至少有1人能认真听讲的概率.解 (1)填表如下:(2)χ2=400×(50×170-30×150)280×320×200×200=6.25.因为6.25>5.024,所以有97.5%的把握认为能否认真听讲与年龄有关.(3)由题意可知,从15周岁以下抽8人,其中能认真听讲的为6人,不能认真听讲的为2人.设能认真听讲的人为a 1,a 2,a 3,a 4,a 5,a 6,不能认真听讲的人为b 1,b 2,于是,在8人中任意抽取2人有(a 1,a 2),(a 1,a 3),(a 1,a 4),(a 1,a 5),(a 1,a 6),(a 2,a 3),(a 2,a 4),(a 2,a 5),(a 2,a 6),(a 3,a 4),(a 3,a 5),(a 3,a 6),(a 4,a 5),(a 4,a 6),(a 5,a 6),(b 1,a 1)(b 1,a 2),(b 1,a 3),(b 1,a 4)(b 1,a 5),(b 1,a 6),(b 2,a 1),(b 2,a 2)(b 2,a 3),(b 2,a 4),(b 2,a 5),(b 2,a 6),(b 1,b 2)共28种,其中,至少有1人能认真听讲的对立事件是2人都不能认真听讲,只有(b 1,b 2)一种情况.于是,设事件A =“至少有一人认真听讲”, 则P (A )=1-P (A -)=2728.。

2022年《列联表独立性分析案例》教学优秀教案1

2022年《列联表独立性分析案例》教学优秀教案1

列联表独立性分析案例一、学习目标1、通过对典型案例〔如“肺癌与吸烟有关吗〞〕的探究,了解独立性检验〔只要求2×2列联表〕的根本思想、方法及初步应用。

2、让学生经历数据处理的过程,提高探索解决问题的能力。

二、学习重点让学生体会独立性检验的根本思想三、学习难点了解独立性检验的根本思想;了解随机变量的含义。

四、学习过程〔一〕引入课题在许多实际问题中,我们需要考察两种因素的关系。

例如:数学解题能力是否与性别有关;高考升学率是否与补课有关。

为了分析这些问题,我们需要获取一些数据,并对数据进行分析处理,对所得的结论作出判断。

〔二〕案例讲解案例患肺癌与吸烟是否有关?肺癌与吸烟的调查数据分析:吸烟的人在调查总人数中所占的百分比:54%患肺癌的人在调查总人数中所占的百分比:60%既吸烟又患肺癌的人在调查总人数中所占的百分比:39%显然,54%60%39%。

我们有理由相信吸烟是与肺癌有关的。

在解决具体实例的根底上,教师要引导学生总结出一般情况下的解决问题的方法。

假设,那么吸烟是与肺癌无关联,可以认为它们相互独立。

这个式子还可以改写为:.在吸烟与患肺癌问题中,,这说明既吸烟又患肺癌的人数比独立时要多,在这种情况下,吸烟会使患肺癌的人数增加。

需要注意的是,在式子中的各个分式在实际中都是频率,不能等同于概率。

实际上,为了应用概率论得到统计量的近似的分布,统计学家最终选用了:来衡量独立性的大小,它可以化简为当时,有95%的把握判定两个属性不独立;当时,有99%的把握判定两个属性不独立。

〔三〕稳固练习打鼾不仅影响别人休息,而且可能与患某种疾病有关,下表是一次调查所得数据,试问:每一晚都打鼾与患心脏病有关系吗?有多大把握认为你的结论成立?解:由题意:,所以我们有99.9%的把握认为每一晚都打鼾与患心脏病有关系。

〔四〕课堂小结1.在统计学中,独立性检验就是检验两个分类变量是否有关系的一种统计方法。

独立性检验的思想来自于统计上的假设检验思想,它与反证法类似。

2018年数学同步优化指导湘教版选修1-2练习:4-3 列联

2018年数学同步优化指导湘教版选修1-2练习:4-3 列联

4.3列联表独立性分析案例
1.如果有99%的把握认为“x与y有关系”,那么χ2满足()
A.χ2>6.635B.χ2≥5.024
C.χ2≥7.879 D.χ2>3.841
答案:A
2.为了了解中学生近视情况,在某校开展调查,已知该校150名男生中有80名近视,140名女生中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力()
A.平均数B.方差
C.回归分析D.独立性检验
解析分析已知条件,易得如下表格:
根据列联表可得χ2,故利用独立性检验的方法最有说服力.
答案:D
3.高二第二学期期中考试,按照甲、乙两个班级学生数学考试成绩优秀和不优秀统计后,得到如下表格:
班组与成绩统计表
则统计量χ2的值为
解析由列联表易得a=11,b=34,c=8,d=37,
则χ2=
(a+b+c+d)(ad-bc)2 (a+b)(a+c)(b+d)(c+d)
=90×(11×37-8×34)2
19×71×45×45
=0.600 4≈0.60.
答案:0.60
4.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
已知P(χ2>3.841)表中数据,得到χ2=50×(13×20-10×7)2
≈4.844.则认为选修文科与性别有关系出错的可能性为________.
23×27×20×30
解析∵χ2≈4.844>3.841,∴认为选修文科与性别有关系出错的可能性为5%.
答案:5%。

2019年高中数学第8章统计与概率8.4列联表独立性分析案例讲义(含解析)湘教版

2019年高中数学第8章统计与概率8.4列联表独立性分析案例讲义(含解析)湘教版

8.4列联表独立性分析案例[读教材·填要点]1.列联表一般地,对于两个因素X和Y,X的两个水平取值:A和A(如吸烟和不吸烟),Y也有两个水平取值:B和B(如患肺癌和不患肺癌),我们得到下表中的抽样数据,这个表格称为2×2列联表.2.χ2公式χ2=n ad-bc2a +b c+d a+c b+d.3.独立性检验的概念用随机变量χ2研究两变量是否有关的方法称为独立性检验.4.独立性检验的步骤要判断“X与Y有关系”,可按下面的步骤进行:(1)提出假设H0:X与Y无关;(2)根据2×2列联表及χ2公式,计算χ2的值;(3)查对临界值,作出判断.其中临界值如表所示:表示在H0成立的情况下,事件“χ2≥x0”发生的概率.5.变量独立性判断的依据(1)如果χ2>10.828时,就有99.9%的把握认为“X与Y有关系”;(2)如果χ2>6.635时,就有99%的把握认为“X与Y有关系”;(3)如果χ2>2.706时,就有90%的把握认为“X与Y有关系”;(4)如果χ2≤2.706时,就认为没有充分的证据显示“X与Y有关系”,但也不能作出结论“H0成立”,即X与Y没有关系.[小问题·大思维]1.利用χ2进行独立性分析,估计值的准确度与样本容量有关吗?提示:利用χ2进行独立性分析,可以对推断的正确性的概率作出估计,样本容量n越大,这个估计值越准确.如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.2.在χ2运算后,得到χ2的值为29.78,在判断因素相关时,P(χ2≥6.64)≈0.01和P(χ2≥7.88)≈0.005,哪种说法是正确的?提示:两种说法均正确.P(χ2≥6.64)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两因素相关;而P(χ2≥7.88)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两因素相关.[例1]数据:[解] 由列联表中的数据,得χ2的值为χ2=-2254×1 379×54×1 579≈68.033>6.635.因此,有99%的把握认为每一晚打鼾与患心脏病有关系.解决一般的独立性分析问题,首先由所给2×2列联表确定a,b,c,d,a+b+c+d 的值,然后代入随机变量的计算公式求出观测值χ2,将χ2与临界值x0进行对比,确定有多大的把握认为两个分类变量有关系.1.某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,经过调查得到如下列联表:系?解:由列联表中的数据,得 χ2=-294×95×86×103≈10.759>6.635,∴有99%的把握认为工作态度与支持企业改革之间有关系.[例2] (1)(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.[解] (1)假设H 0:传染病与饮用水无关.把表中数据代入公式,得χ2=-2146×684×518×312≈54.21,因为当H 0成立时,χ2≥10.828的概率约为0.001,所以我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关.(2)依题意得2×2列联表:此时,χ2=-214×72×55×31≈5.785.由于5.785>2.706,所以我们有90%的把握认为该种疾病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有90%的把握肯定.独立性分析的步骤:要推断“X与Y是否有关”可按下面的步骤进行:①提出统计假设H0:X与Y无关;②根据2×2列联表与χ2计算公式计算出χ2的值;③根据两个临界值,作出判断.2.为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.是否有90%的把握认为“学生选报文、理科与对外语的兴趣有关”?解:根据题目所给的数据得到如下列联表:χ2=-2211×150×236×125≈1.871×10-4.因为1.871×10-4<2.706,所以没有90%的把握认为“学生选报文、理科与对外语的兴趣有关”.[例3] 为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.下表1和表2分别是注射药物A和药物B后的试验结果.(疱疹面积单位:mm2) 表1:注射药物A后皮肤疱疹面积的频数分布表表2:注射药物B 后皮肤疱疹面积的频数分布表完成下面2×2列联表,并回答是否有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.表3:[解]χ2=-2100×100×105×95≈24.56>6.635.因此,有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.在绘制列联表时,应对问题中的不同数据分成不同的类别,然后列表.要注意列联表中各行、各列中数据的意义及书写格式.3.已知某班n 名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a ,b ,c 成等差数列,且成绩在[90,100]内的有6人.(1)求n 的值;(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析是否有90%的把握认为“本次测试的及格情况与性别有关”?附:χ2=a +bc +d a +cb +d解:(1)依题意得⎩⎪⎨⎪⎧+0.025+c +2b +a =1,2b =a +c ,解得b =0.01.因为成绩在[90,100]内的有6人, 所以n =60.01×10=60.(2)由于2b =a +c ,而b =0.01,可得a +c =0.02,则不及格的人数为0.02×10×60=12,及格的人数为60-12=48,设及格的人中,女生有x 人,则男生有x -4人, 于是x +x -4=48,解得x =26,故及格的人中,女生有26人,男生有22人. 于是本次测试的及格情况与性别的2×2列联表如下:结合列联表计算可得χ2=30×30×48×12=1.667<2.706,故没有90%的把握认为“本次测试的及格情况与性别有关”.性别与患色盲是否有关?你所得到的结论在什么范围内有效?[解] 由题意作2×2列联表如下:法一:由列联表中数据可知,在调查的男人中,患色盲的比例是38480≈7.917%,女人中患色盲的比例为6520≈1.154%,由于两者差距较大,因而我们可以认为性别与患色盲是有关系的.法二:由列联表中所给的数据可知,a=38,b=442,c=6,d=514,a+b=480,c+d=520,a+c=44,b+d=956,n=1 000,代入公式得χ2=-2480×520×44×956≈27.1.由于χ2≈27.1>6.635,所以我们有99%的把握即在犯错误不超过0.01的前提下认为性别与患色盲有关系.这个结论只对所调查的480名男人和520名女人有效.1.下面是2×2列联表:则表中a,b的值分别为A.94,96 B.52,50C.52,54 D.54,52解析:选C ∵a+21=73,∴a=52.又∵a+2=b,∴b=54.2.下列关于χ2的说法中正确的是( )A.χ2在任何相互独立问题中都可以用于检验是否相关B.χ2的值越大,两个事件的相关性越大C.χ2是用来判断两个相互独立事件相关与否的一个统计量,它可以用来判断两个事件是否相关这一类问题D.χ2=n ad-bca +b c+d a+c b+d答案:C3.对于因素X与Y的随机变量χ2的值,下列说法正确的是( )A.χ2越大,“X与Y有关系”的可信程度越小B.χ2越小,“X与Y有关系”的可信程度越小C.χ2越接近于0,“X与Y没有关系”的可信程度越小D.χ2越大,“X与Y没有关系”的可信程度越大解析:选B χ2越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大.即χ2越小,“X与Y有关系”的可信程度越小.4.若由一个2×2列联表中的数据计算得χ2的观测值为4.013,那么在犯错误的概率不超过________的前提下,认为两个变量之间有关系.解析:因为4.013>3.841,所以在犯错误的概率不超过0.05的前提下,认为两个变量之间有关系.答案:0.055.某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数如下:解析:χ2=-275×28×15×88≈13.826>6.635.故有99%的把握说,新防护服比旧防护服对预防工人职业性皮炎有效.答案:99%6.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表:已知在全部50人中随机抽取1人抽到爱打篮球的学生的概率为35.(1)请将上面的列联表补充完整;(2)是否有99%的把握认为喜爱打篮球与性别有关;请说明理由. 附参考公式:χ2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d .解:(1)列联表补充如下:(2)∵χ2=-230×20×25×25≈8.333>6.635,∴有99%的把握认为喜爱打篮球与性别有关.一、选择题1.有两个因素X 与Y 的一组数据,由其列联表计算得χ2≈4.523,则认为X 与Y 有关系是错误的可信度为( )A .95%B .90%C .5%D .10%解析:选C ∵χ2≥3.841.∴X 与Y 有关系的概率为95%,∴X 与Y 有关系错误的可信度为5%.2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:计算得,χ2=-260×50×60×50≈7.8.附表:A.在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别有关”B.在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别无关”C.有99%以上的把握认为“爱好该项运动与性别有关”D.有99%以上的把握认为“爱好该项运动与性别无关”解析:选C 根据独立性分析的思想方法,正确选项为C.3.某高校“统计初步”课程的老师随机调查了选该课的一些学生情况,具体数据如下表:为了分析主修统计中的数据,得到χ2=-223×27×20×30≈4.84,所以断定主修统计专业与性别有关系,这种判断出错的可能性为( )A.0.025 B.0.05C.0.975 D.0.95解析:选B ∵χ2≈4.84>3.841,所以我们有95%的把握认为主修统计专业与性别无关,即判断出错的可能性为0.05.4.已知P(x2≥2.706)=0.10,两个因素X和Y,取值分别为{x1,x2}和{y1,y2},其样本频数分别是a=10,b=21,c+d=35.若在犯错误的概率不超过0.1的前提下,认为X与Y有关系,则c等于( )A.5 B.6C.7 D.8解析:选A 经分析,c=5.二、填空题5.班级与成绩2×2列联表:表中数据m,n,p,解析:m=10+7=17,n=35+38=73,p=7+38=45,q=m+n=90.答案:17,73,45,906.在吸烟与患肺病是否相关的判断中,有下面的说法:①若χ2>6.64,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性分析可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;③从独立性分析可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是________.解析:χ2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说明③正确.答案:③7.统计推断,当________时,在犯错误的概率不超过0.05的前提下认为事件A与B 有关;当________时,认为没有充分的证据显示事件A与B是有关的.解析:当k>3.841时,就有在犯错误的概率不超过0.05的前提下认为事件A与B有关,当k<2.706时认为没有充分的证据显示事件A与B是有关的.答案:k>3.841 k<2.7068.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:由表中数据直观分析,收看新闻节目的观众是否与年龄有关:________(填“是”或“否”).解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即ba +b =1858,dc +d =2742,两者相差较大,所以,经直观分析,收看新闻节目的观众与年龄是有关的.答案:是 三、解答题9.某市对该市一重点中学2018年高考上线情况进行统计,随机抽查得到表格:解:对于上述四个科目,分别构造四个随机变量 χ21,χ22,χ23,χ24. 由表中数据可以得到: 语文:χ21=-2201×43×204×40=7.294>6.64,数学:χ22=-2201×43×201×43=30.008>6.64,英语:χ23=-2201×43×200×44=24.155>6.64,综合科目: χ24=-2201×43×201×43=17.264>6.64.所以有99%的把握认为语文、数学、英语、综合科目上线与总分上线有关系,数学上线与总分上线关系最大.10.一次对人们休闲方式的调查中共调查了124人,其中女性70人,男性54人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.(1)根据以上数据建立一个2×2列联表;(2)能否在犯错误的概率不超过0.05的前提下认为性别与休闲方式有关系? 解:(1)2×2列联表如下:(2)χ2=-270×54×64×60≈6.201.因为6.201>3.841,所以有理由认为假设休闲方式与性别无关是不合理的,即在犯错误的概率不超过0.05的前提下认为休闲方式与性别有关.。

8.4列联表独立性分析案例课件-湘教版数学选修2-3

8.4列联表独立性分析案例课件-湘教版数学选修2-3
x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
X
Y 有效
口服
58
无效 40
合计 98
注射
64
31
95
合计
122
71
193
解:设H0:药的效果与给药方式没有关系
<3.841
练习巩固:
1. 在吸烟与患肺病这两个分类变量的计算中,下列说法正确 的是( )
x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
得到原结论成立的可信程度 故有 的把握认为X与Y相关
x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
X Y 喜欢数学课程 不喜欢数学课程

15
35
总计 50

4
46
50
总计
19
81
100
例2、某项实验,在100次实验中,成功率只有10%,进行技术 改造后,又进行了100次实验.试问:若要有97.5%以上的把握 认为“技术改造有明显效果”,实验的成功率至少为多少? (设 P( 2 5) 0.025 )
40
3700% 2650%
30 2500%
20 341005%%
患肺癌患肺癌 不患肺不癌吸患肺烟癌
不吸烟
2100% 10 105%
不吸烟
从各个三频维数柱的形相图0对能0大清0% 小楚肺条不不吸癌形吸烟的图烟 比、例等高高于条不形患图肺能癌看的出比,例吸烟
独立假性设检验
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

0.1%把握认为A与B无关
1%把握认为A与B无关
99.9%把握认A与B有关 99%把握认为A与B有关
10%把握认为A与B无关 90%把握认为A与B有关
没有充分的依据显示A与B有关,但也不能显示A与B无关
独立性检验的步骤
第一步:H0: 吸烟和患病之间没有关系
第二步:列出2×2列联表
吸烟 不吸烟
总计
患病 a c
k0
时就认为K2的观测
k 如就果认为k“两k个0 ,分就类认变为量“之两间个没分有类关变系量”之。-间---有临关界系值”;否则 0
按照上述规则,把“两个分类变量之间有没关系”错误的判断
为“两个分类变量之间有关系”的概率为KP2( k0 ).
在实际应用中,我们把 k k0解释为有(1 P(K 2 k)) 100%
列联表独立性分析案例
2020/12/11
两种变量:
定量变量:体重、身高、温度、考试成绩等等。
变量 分类变量:性别、是否吸烟、是否患肺癌、
宗教信仰、国籍等等。
在日常生活中,我们常常关心分类变量之间是否有关系:
例如,吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?等等。
研究两个变量的相关关系:
2020/12/11
例1 在某医院,因为患心脏病而住院的665名男性病人中,有214 人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有 175人秃顶。利用独立性检验方法判断秃顶与患心脏病是否有关 系?你所得的结论在什么范围内有效?
解:根据题目所给数据得到如下列联表:
秃顶 不秃顶
总计
患心脏病 214 451 665
2020/12/11
例2 为考察高中生的性别与是否喜欢数学课程之间的关系,在
某城市的某校高中生中随机抽取300名学生,得到如下联表:
喜欢数学课程 不喜欢数学课程
总计

37
85
122

35
总计
72
143
178
228
300
由表中数据计算K2的观测值k 4.514。能够以95%的把握认为高
中生的性别与是否喜欢数学课程之间有关系吗?请详细阐述得出
2020/1那2/11么这个值到底能告诉我们什么呢?
在H0成立的情况下,统计学家估算出如下的概率
P(K 2 6.635) 0.01.
(2)
即在H0成立的情况下,K2的值大于6.635的概率非常小,近似
于0.01。
也就是说,在H0成立的情况下,对随机变量K2进行多次观 测,观测值超过6.635的频率约为0.01。
k0 3.841 5.024 6.636 7.879
2020/12/11
0.10 2.706
0.001 10.828
独立性检验
随机变量-----卡方统计量 K 2
n(ad bc)2
,
(a b)(c d )(a c)(b d )
临界值表
其中n a b c d为样本容量。
P(K2 k0 ) 0.50
有关系”;如果k的值很小,则说明由样本观测数据没有发现
反对H0 的充分证据。
(3)根据随机变量K2的含义,可以通过评价该假设不合理的 程度,由实际计算出的,说明假设合理的程度为99%,即“两 个分类变量有关系”这一结论成立的可信度为约为99%.
怎样判断K2的观测值k是大还是小呢?

这仅需要确定一个正数 k0 ,当 k k大。此时相应于k 0 的判断规则为:
因此,K 2 越大, “性别与喜欢数学课程之间有关系”成立的可能性就越大。
另一方面,在假设“性别与喜欢数学课程之间有关系”的前提下,事件
{K 2 3.841} 的概率为 P(K 2 3.841) 0.05,
因此事件A是一个小概率事件。而由样本数据计算得 K 2的观测值k=4.514,即
小概率事件A发生。因此应该断定“性别与喜欢数学课程之间有关系”成立, 并且这种判断结果出错的可能性约为5%。所以,约有95%的把握认为“性 别2与02喜0/1欢2/11数学课程之间有关系”。
37
85
35
143
72
228
总计 122 178 300
由表中数据计算K2的观测值k 4.514。能够以95%的把握认为高
中生的性别与是否喜欢数学课程之间有关系吗?请详细阐述得出
结论的依据。
(a b c d)(a b)(c d) K 2
n(ad bc)2
,
(a c)(b d)
(a b)(c d )(a c)(b d )
与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系” 的充分证据。
在实际应用中,要在获取样本数据之前通过下表确定临界值:
P(K2 k0 ) 0.50 0.40 0.25 0.15
k0 0.455 0.708 1.323 2.072
P(K2 k0 ) 0.05 0.025 0.010 0.005
k0 0.455
0.40 0.708
0.25 1.323
0.15 2.072
0.10 0.05 0.025 0.010 0.005 0.001 2.706 3.841 5.024 6.635 7.879 10.828
K 2 10.828
K 2 6.635
K 2 2.706
K 2 2.706
2020/12/11
析,我们构造一个随机变量-----卡方统计量
K2
n(ad bc)2
,
(a b)(c d )(a c)(b d )
(1)
其中n a b c d为样本容量。
若 H0成立,即“吸烟与患肺癌没有关系”,则K2应很小。
根据表3-7中的数据,利用公式(1)计算得到K2的观测值为:
k 9965(777549 42 2099)2 56.632 (2) 7817 2148987491
定量变量——回归分析(画散点图、相关系数r、
变量
相关指数R2、残差分析)
分类变量—— 独立性检验
本20节20/12研/11 究的是两个分类变量的独立性检验问题。
探究
列联表
为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人)
吸烟与肺癌列联表
不患肺癌
患肺癌
总计
一般地,假设有两个分类变量X和Y,它们的值域 分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2x2列 联表)为:
表1-11 2x2联表
y1
x1
a
x2
c
总计
a+c
2020/12/11
y2
总计
b
a+b
d
c+d
b+d a+b+c+d
若要判断的结论为:H1:“X与Y有关系”,可以 按如下步骤判断H1成立的可能性:
即有99%的把握认为 H0不成立。
独立性检验的定义
上面这种利用随机变量K2来确定在多大程度上 可以认为“两个分类变量有关系”的方法,称为两 个分类变量的独立性检验。
2020/12/11
独立性检验的基本思想(类似反证法)
(1)假设结论不成立,即 H0 :“两个分类变量没有关系”.
(2)在此假设下我们所构造的随机变量 K2 应该很小,如果由 观测数据计算得到K2的观测值k很大,则在一定可信程度上 说明 H0 不成立.即在一定可信程度上认为“两个分类变量
现在想要知道能够以多大的把握认为“吸烟与患肺癌有关”, 为此先假设
H0:吸烟与患肺癌没有关系.
用A表示不吸烟,B表示不患肺癌,则“吸烟与患肺癌没有关系”
等价于“吸烟与患肺癌独立”,即假设H0等价于 P(AB)=P(A)P(B).
把表中的数字用字母代替,得到如下用字母表示的列联表
不吸烟 吸烟 总计
2020/12/11
结论的依据。
解:可以有95%以上的把握认为“性别与喜欢数学课程之间有关系”。
分别用a,b,c,d表示样本中喜欢数学课的男生人数、不喜欢数学课的男生
人数、喜欢数学课的女生人数、不喜欢数学课的女生人数。
a
如果性别与是否喜欢数学课有关系,则男生中喜欢数学课的比例 与女生中喜欢数学课的比例 c 应该相差很多,即
可以利用独立性检验来考察两个分类变量是否有关系,并且 能较精确地给出这种判断的可靠程度。
a ab c
cd
2020/12/11
具体作法是:
(1)根据实际问题需要的可信程度确定临界值
k

0
(2)利用公式(1),由观测数据计算得到随机变量 K 2的观测值;
(3)如果 k k0 ,就以(1 P(K 2 k0 )) 100%的把握认为“X
a ≈ a + b×a + c nn n
其中n = a + b + c + d为样本容量,即
(a+b+c+d)a (a+b)(a+c),
即ad bc
因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强。
2020/12/11
独立性检验
为了使不同样本容量的数据有统一的评判标准,基于上述分
不吸烟
7775
42
7817
吸烟
2099
49
2148
总计
9874
91
9965
在不吸烟者中患肺癌的比重是 0.54%
在吸烟者中患肺癌的比重是 2.28%
说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患 肺癌的可能性大。
2020/12/11
上面我们通过分析数据,得到的直观印象是吸烟和患肺癌 有关,那么事实是否真的如此呢?这需要用统计观点来考察 这个问题。
相关文档
最新文档