§1.2 独立性检验的基本思想及其初步应用
(完整版)1.2.2独立性检验的基本思想及其初步应用习题及答案

数学·选修1-2(人教A版)1.2 独立性检验的基本思想及其初步应用►达标训练1.在研究两个分类变量之间是否有关时,可以粗略地判断两个分类变量是否有关的是( )A.散点图B.等高条形图C.2×2列联表 D.以上均不对答案:B2.在等高条形图形图中,下列哪两个比值相差越大,要推断的论述成立的可能性就越大( )A.aa+b与dc+dB.ca+b与ac+dC.aa+b与cc+dD.aa+b与cb+c答案:C3.对分类变量X与Y的随机变量K2的观测值k,说法正确的是( )A.k越大,“ X与Y有关系”可信程度越小B.k越小,“ X与Y有关系”可信程度越小C.k越接近于0,“X与Y无关”程度越小D.k越大,“X与Y无关”程度越大答案:B4.下面是一个2×2列联表:则表中a、b的值分别为( )A.94、96 B.52、50C.52、54 D.54、52答案:C5.性别与身高列联表如下:那么,检验随机变量K2的值约等于 ( )A.0.043 B.0.367C.22 D.26.87答案:C6.给出列联表如下:根据表格提供的数据,估计“成绩与班级有关系”犯错误的概率约是( )A.0.4 B.0.5 C.0.75 D.0.85答案:B►素能提高1.在调查中发现480名男人中有38名患有色盲,520名女人中有6名患有色盲,下列说法中正确的是( )A .男人、女人中患有色盲的频率分别为0.038、0.006B .男人、女人患色盲的概率分别为19240、3260C .男人中患色盲的比例比女人中患色盲的比例大,患色盲是与性别有关的D .调查人数太少,不能说明色盲与性别有关解析:男人患色盲的比例为38480,比女人中患色盲的比例6520大,其差值为⎪⎪⎪⎪⎪⎪38480-6520≈0.067 6,差值较大. 答案:C2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男 女 总计 爱好 40 20 60 不爱好 20 30 50 总计 60 50 110由K 2=算得, K 2=≈7.8.附表:P (K 2≥k 0)0.050 0.010 0.001 k 03.841 6.635 10.828参照附表,得到的正确结论是( )A .有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”答案:A3.若由一个2×2列联表中的数据计算得K2=4.013,那么在犯错误的概率不超过0.05的前提下认为两个变量______(填“有”或“没有”)关系.答案:有4.(2013·韶关二模)以下四个命题:①在一次试卷分析中,从每个试室中抽取第5号考生的成绩进行统计,是简单随机抽样;②样本数据:3,4,5,6,7的方差为2;③对于相关系数r,|r|越接近1,则线性相关程度越强;④通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下列联表:男女总计走天桥402060走斑马线203050总计6050110由K2=可得,K2==7.8,则有99%以上的把握认为“选择过马路方式与性别有关”,其中正确的命题序号是________.答案:②③④附表P (K2≥k0)0.050.0100.001k03.8416.63510.8285.某学校为了调查喜欢语文学科与性别的关系,随机调查了一些学生情况,具体数据如下表:类别性别不喜欢语文喜欢语文男1310女720为了判断喜欢语文学科是否与性别有关系,根据表中的数据,得到K2的观测值k=≈4.844,因为k≥3.841,根据下表中的参考数据:P(K2≥k0)0.500.400.250.150.100.050.0250.010.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828 判定喜欢语文学科与性别有关系,那么这种判断出错的可能性为________.答案:5%6.某学校课题组为了研究学生的数学成绩与物理成绩之间的关系,随机抽取高二年级20名学生某次考试成绩(满分100分)如下表序号12345678910 数学成绩95758094926567849871物理成绩90637287917158829381序号11121314151617181920 数学成绩67936478779057837283物理成绩77824885699161847886若单科成绩85以上(含85分),则该科成绩优秀.数学成绩优秀数学成绩不优秀合计物理成绩优秀物理成绩不优秀合计解析:(1)2×2列联表为(单位:人):数学成绩优秀数学成绩不优秀合计物理成绩优秀 527物理成绩不优秀 1 1213 合计 6 1420(2)根据题(1)中表格的数据计算,能否在犯错误的概率不超过0.005的前提下认为学生的数学成绩与物理成绩之间有关系?参数数据:①假设有两个分类变量X和Y,它们的值域分别为(x1,x2)和(y1,y2),其样本频数列联表(称为2×2列联表)为:y1y2合计x1 a b a+bx2 c d c+d合计a+c b+d a+b+c+d则随机变量K2=,其中n=a+b+c+d为样本容量;②独立检验随机变量K2的临界值参考表如下:P(K2≥k0)0.500.400.250.150.10k00.4550.708 1.323 2.072 2.706P(K2≥k0)0.050.0250.0100.0050.001 k0 3.841 5.024 6.6357.87910.828解析:根据列联表可以求得K2的观测值k=≈8.802>7.879.在犯错误的概率不超过0.005的前提下认为:学生的数学成绩与物理成绩之间有关系.7. 2013年3月14日,CCTV财经频道报道了某地建筑市场存在违规使用未经淡化海砂的现象.为了研究使用淡化海砂与混凝土耐久性是否达标有关,某大学实验室随机抽取了60个样本,得到了相关混凝土耐久性达标混凝土耐久性不达标总计使用淡化海砂25530 使用未经淡化海砂151530 总计402060的概率不超过1%的前提下,认为使用淡化海砂与混凝土耐久性是否达标有关?解析:提出假设H0:使用淡化海砂与混凝土耐久性是否达标无关.根据表中数据,求得K2的观测值k==7.5>6.635.查表得P(K2≥6.635)=0.010.∴能在犯错误的概率不超过1%的前提下,认为使用淡化海砂与混凝土耐久性是否达标有关.(2)若用分层抽样的方法在使用淡化海砂的样本中抽取了6个,现从这6个样本中任取2个,则取出的2个样本混凝土耐久性都达标的概率是多少?P(K2≥k)0.100.0500.0250.0100.001 k 2.706 3.841 5.024 6.63510.828解析:用分层抽样的方法在使用淡化海砂的样本中抽取6个,其中应抽取“混凝土耐久性达标”的为2530×6=5,“混凝土耐久性不达标”的为6-5=1,“混凝土耐久性达标记”为A1,A2,A3,A4,A5”;“混凝土耐久性不达标”的记为B.在这6个样本中任取2个,有以下几种可能:(A1,A2),(A1,A3),(A1,A4),(A1,A5),(A1,B),(A2,A3),(A2,A4),(A2,A5),(A2,B),(A3,A4),(A3,A5),(A3,B),(A4,A5),(A4,B)(A5,B),共15种.设“取出的2个样本混凝土耐久性都达标”为事件A,它的对立事件A为“取出的2个样本至少有1个混凝土耐久性不达标”,包含(A1,B),(A2,B),(A3,B),(A4,B),(A5,B),共5种可能.∴P(A)=1-P(A)=1-515=23.即取出的2个样本混凝土耐久性都达标的概率是2 3 .8.某食品厂为了检查甲、乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取40件产品作为样本称出它们的重量(单位:克),重量值落在(495,510]的产品为合格品,否则为不合格品.左下表是甲流水线样本频数分布表,右下图是乙流水线样本的频率分布直方图.产品重量/克频数(490,495] 6(495,500]8(500,505]14(505,510]8(510,515] 4(1)根据上表数据作出甲流水线样本的频率分布直方图;解析:甲流水线样本的频率分布直方图如下:(2)若以频率作为概率,试估计从两条流水线分别任取1件产品,该产品恰好是合格品的概率;解析:由题表知甲样本中合格品数为8+14+8=30,由题图知乙样本中合格品数为(0.06+0.09+0.03)×5×40=36,故甲样本合格品的频率为3040=0.75,乙样本合格品的频率为3640=0.9.据此可估计从甲流水线任取1件产品,该产品恰好是合格品的概率为0.75.从乙流水线任取1件产品,该产品恰好是合格品的概率为0.9.(3)由以上统计数据完成下面2×2列联表,能否在犯错误的概率不超过0.1的前提下认为产品的包装质量与两条自动包装流水线的选择有关?甲流水线乙流水线合计合格品a=b=不合格品c=d=合计n=附表:P(K2≥k0)0.150.100.050.0250.010.0050.001k02.0722.7063.8415.0246.6357.87910.828(参考公式:K2=,其中n=a+b+c+d)解析:2×2列联表如下:∵K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=80×(120-360)266×14×40×40≈3.117>2.706.∴在犯错误的概率不超过0.1的前提下认为产品的包装质量与两条自动包装流水线的选择有关.►品味高考1.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老人,结果如下:解析:调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中需要帮助的老年人的比例的估计值为70500=14%.(2)能否在犯错误的概率不超过0.01的前提下认为该地区的老年人是否需要志愿者提供帮助与性别有关?解析:K2的观测值k=500×(40×270-30×160)2200×300×70×430≈9.967,由于9.967>6.635所以在犯错误的概率不超过0.01的前提下认为该地区的老年人是否需要帮助与性别有关.(3)根据(2)的结论,能否提出更好的调查办法来估计该地区的老年人中需要志愿者提供帮助的老年人的比例?说明理由.解析:由于(2)的结论知,该地区的老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法比采用简单随机抽样方法更好.附:K2=P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.8282.某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分为5组:[50,60),[60,70),[70,80),[80,90),[90,100)分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;解析:由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名.所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),记为A1,A2,A3;25周岁以下组工人有40×0.05=2(人),记为B1,B2.从中随机抽取2名工人,所有的可能结果共有10种,它们是:(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).其中至少有1名“25岁以下组”工人的可能结果共有7种,它们是:(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).故所求的概率P=7 10 .(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?附:K2=P(K2≥k0)0.1000.0500.0100.001k0 2.706 3.841 6.63510.828解析:由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手60×0.25=15(人),“25周岁以下组”中的生产能手40×0.375=15(人),据此可得2×2列联表如下:生产能手非生产能手合计25周岁以上组15456025周岁以下组152540合计3070100因为1.79<2.706,所以没有90%的把握认为“生产能手与工人所在年龄组有关”.。
1.2独立性检验的基本思想及其初步应用

三元整合导学模式数学学科导学稿主编人:覃振宇审稿人:高二数学科组定稿日:2013年02月20日课题:1.2独立性检验的基本思想及其初步应用(人教A版数学新课标教材选修1-2第一章1.2)。
课型分析:本课属于数学规则课型。
学习要求:1.通过探究“吸烟是否与患肺癌有关系”引出独立性检验的问题,并借助样本数据的列联表、柱形图和条形图展示在吸烟者中患肺癌的比例比不吸烟者中患肺癌的比例高,让学生亲身体验独立性检验的必要性.2.会根据列联表求统计量.学习重点:对独立性检验的基本思想的理解.学习难点:独立性检验的基本思想的应用.学习过程:一、复习准备:复习线性回归分析的方法、步骤,刻画模型拟合效果的方法(相关指数、残差分析).二、学习新课:新知一:学习探究:吸烟与患肺癌的关系1.由列联表可粗略的看出:(1)不吸烟者有患肺癌;(2)不吸烟者有患肺癌.因此,直观上课的结论: .2.用等高条形图直观反映:根据列联表的数据,作出等高条形图:由上图可以直观地看出,吸烟与患肺癌 .反思:(独立性检验的必要性)通过数据和图形,我们得到的直观印象是患肺癌有关.那是否有一定的把握认为“吸烟与患肺癌有关”呢?新知2:吸烟与患肺癌列联表具体做法是:根据观测数据计算由K2=给出的检验随机变量K2的值k,其值越大,说明“X与Y有关系”成立的可能性越大.可以通过查阅下表来确定断言“X与Y有关系”的可信程度.P(K2≥k)0.500.400.250.150.100.050.0250.0100.0050.001 k0.4550.708 1.323 2.072 2.706 3.841 5.024 6.6357.87910.828(1)如果≥10.828,就有______的把握认为“与有关系”;(2)如果k≥7.879,就有______的把握认为“X与Y有关系”;(3)如果k≥6.635,就有99%的把握认为“X与Y有关系”;(4)如果k≥5.024,就有97.5%的把握认为“X与Y有关系”;(5)如果k≥3.841,就有95%的把握认为“X与Y有关系”;(6)如果k≥2.706,就有____的把握认为“X与Y有关系.提示:在判断两变量相关时,若K2的观测值k=56.632,则P(K2≥6.635)≈0.01和P(K2≥10.828)≈0.001,哪种说法是正确的?提示:两种说法均正确.P(K2≥6.635)≈0.01的含义是在犯错误的概率不超过0.01的前提下,认为两变量相关;而P(K2≥10.828)≈0.001的含义是在犯错误的概率不超过0.001的前提下,认为两变量相关.典型例题例1. 在一次天气恶劣的飞行航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8人,不晕机的有26人.请你根据所给数据判定:在天气恶劣的飞行航程中,男乘客是否比女乘客更容易晕机?【思路点拨】列2×2列联表――→根据公式求随机变量值――→分析比较结论晕机不晕机总计男乘客243155女乘客82634总计325789由公式可得K2的观测值失误防范:1.K2≥6.635是指两个分类变量有关系这一结论成立的可信度为99%,不是指两个分类变量有关系的概率为99%.2.独立性检验首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立.三、总结提升1. 列联表: .2. 统计量: .四.课时训练1. 在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是()A. 若k=6.635,则有99%的把握认为吸烟与患肺病有关,那么100名吸烟者中,有99个患肺病.B. 从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,可以说某人吸烟,那么他有99%的可能性患肺病.C. 若从统计量中求出有95%的把握认为吸烟与患肺病有关,是指有5%的可能性使推断出现错误.D. 以上三种说法都不对.2. 下面是一个列联表A. 94,96B. 52,50C. 52,54D. 54,52,数据如下表:( )A. 99%B. 95%C. 90%D.无充分依据4. 在独立性检验中,当统计量满足时,我们有99%的把握认为这两个分类变量有关系.5.为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取。
004-005独立性检验的基本思想及其初步应用

高二数学序号004-005 班级:高二()教师:方雄飞学生:_______ §1.2 独立性检验的基本思想及其初步应用教学内容:独立性检验教学目的:1.通过探究“吸烟是否与患肺癌有关系”引出独立性检验的问题,并借助样本数据的列联表、条形图展示在吸烟者中患肺癌的比例比不吸烟者中患肺癌的比例高,亲身体验独立性检验的必要性;2.会根据22⨯列联表求统计量2K.重点难点:独立性检验的思想和应用教学过程:一.课前准备(预习教材10-12页,找出疑惑之处)复习:回归分析的方法、步骤,刻画模型拟合效果的方法(相关指数、残差分析)、步骤.二.新课学习问题的引入:为研究吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)像左图列出的两个分类变量的频率表称为列联表那么吸烟是否对患肺癌有影响?1.由上表中的数据,你能初步得到什么结论?直观上来判断:在不吸烟的样本中,有_______%患肺癌;在吸烟的样本中,则有______%由此,吸烟群体和不吸烟群体患肺癌的可能性存在差异.2.根据列联表的数据,作出等高条形图:通过数据和图形,我们得到的直观印象是吸烟与患肺癌有关.那是否有一定的把握认为“吸烟与患肺癌有关”呢?(一)独立性检验:1、把上表中数字用字母代替,得到如下用字母表示的列联表:2、假设0H:吸烟与患肺癌没有关系那么吸烟样本中不患肺癌的比例应该与不吸烟样本中不患肺癌的比例差不多,即:______________________________________________________因此:bcad-越小说明吸烟与患肺癌之间的关系__ ____.反之,则___ __3、计算2K:为了使不同样本变量的数据有统一的评测标准,构造一个随机变量2K=__________________________________________其中_______________=n为样本容量.从而,若0H成立,即“吸烟与患肺癌没有关系”,则2K应该_______,反之,2K应该_______。
人教A版选修1-2 1.2 独立性检验的基本思想及其初步应用教案(1)

1.2独立性检验的基本思想及其初步应用(一)教学要求:通过探究“吸烟是否与患肺癌有关系”引出独立性检验的问题,并借助样本数据的列联表、柱形图和条形图展示在吸烟者中患肺癌的比例比不吸烟者中患肺癌的比例高,让学生亲身体验独立性检验的实施步骤与必要性.教学重点:理解独立性检验的基本思想及实施步骤.教学难点:了解独立性检验的基本思想、了解随机变量2K的含义.教学过程:一、复习准备:回归分析的方法、步骤,刻画模型拟合效果的方法(相关指数、残差分析)、步骤.二、讲授新课:1. 教学与列联表相关的概念:①分类变量:变量的不同“值”表示个体所属的不同类别的变量称为分类变量. 分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别,如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级,等等. 分类变量的取值有时可用数字来表示,但这时的数字除了分类以外没有其他的含义. 如用“0”表示“男”,用“1”表示“女”.②列联表:分类变量的汇总统计表(频数表). 一般我们只研究每个分类变量只取两个值,这样的列联表称为22⨯. 如吸烟与患肺癌的列联表:2. 教学三维柱形图和二维条形图的概念:由列联表可以粗略估计出吸烟者和不吸烟者患肺癌的可能性存在差异.(教师在课堂上用EXCEL软件演示三维柱形图和二维条形图,引导学生观察这两类图形的特征,并分析由图形得出的结论)3. 独立性检验的基本思想:①独立性检验的必要性(为什么中能只凭列联表的数据和图形下结论?):列联表中的数据是样本数据,它只是总体的代表,具有随机性,故需要用列联表检验的方法确认所得结论在多大程度上适用于总体.第一步:提出假设检验问题H0:吸烟与患肺癌没有关系↔H1:吸烟与患肺癌有关系第二步:选择检验的指标22()K()()()()n ad bca b c d a c b d-=++++(它越小,原假设“H:吸烟与患肺癌没有关系”成立的可能性越大;它越大,备择假设“H1:吸烟与患肺癌有关系”成立的可能性越大.1.2独立性检验的基本思想及其初步应用(二)教学要求:通过探究“吸烟是否与患肺癌有关系”引出独立性检验的问题,并借助样本数据的列联表、柱形图和条形图展示在吸烟者中患肺癌的比例比不吸烟者中患肺癌的比例高,让学生亲身体验独立性检验的实施步骤与必要性.教学重点:理解独立性检验的基本思想及实施步骤.教学难点:了解独立性检验的基本思想、了解随机变量2K 的含义. 教学过程: 教学过程:一、复习准备:独立性检验的基本步骤、思想 二、讲授新课: 1. 教学例1:例1 在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175名秃顶. 分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?① 第一步:教师引导学生作出列联表,并分析列联表,引导学生得出“秃顶与患心脏病有关”的结论;第二步:教师演示三维柱形图和二维条形图,进一步向学生解释所得到的统计结果; 第三步:由学生计算出2K 的值; 第四步:解释结果的含义.② 通过第2个问题,向学生强调“样本只能代表相应总体”,这里的数据来自于医院的住院病人,因此题目中的结论能够很好地适用于住院的病人群体,而把这个结论推广到其他群体则可能会出现错误,除非有其它的证据表明可以进行这种推广. 2. 教学例2:例 2 为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机由表中数据计算得到K 的观察值 4.513k ≈. 在多大程度上可以认为高中生的性别与是否数学课程之间有关系?为什么?(学生自练,教师总结)强调:①使得2( 3.841)0.05P K ≥≈成立的前提是假设“性别与是否喜欢数学课程之间没有关系”.如果这个前提不成立,上面的概率估计式就不一定正确; ②结论有95%的把握认为“性别与喜欢数学课程之间有关系”的含义;③在熟练掌握了两个分类变量的独立性检验方法之后,可直接计算2K 的值解决实际问题,而没有必要画相应的图形,但是图形的直观性也不可忽视. 3. 小结:独立性检验的方法、原理、步骤 三、巩固练习: 某市为调查全市高中生学习状况是否对生理健康有影响,随机进行调查并得到如下的列联表:请问有多大把握认为“高中生学习状况与生理健康有关”?。
高考数学 1.2独立性检验的基本思想及其初步应用

高考数学 1. 2 独立性检验的基本思想及其初步应用课前预习学案一、预习目标:能用所学的知识对实际问题进行回归分析,体会回归分析的实际价值与基本思想;了解判断刻画回归模型拟合好坏的方法――相关指数和残差分析。
二、预习内容1. 给出例3:一只红铃虫的产卵数y 和温度x 有关,现收集了7组观测数据列于下表中,试建立y 与x 之间的回归方程.温度/x C21 23 25 27 29 32 35 产卵数/y 个 71121 24 66115325(学生描述步骤,教师演示)2. 讨论:观察右图中的散点图,发现样本点并没有分布在某个带状区域内,即两个变量不呈线性相关关系,所以不能直接用线性回归方程来建立两个变量之间的关系.课内探究学案一、学习要求:通过对典型案例的探究,了解独立性检验的基本思想、方法及初步应用学习重点:对独立性检验的基本思想的理解.学习难点:独立性检验的基本思想的应用.二、学习过程:知识点详解知识点一:分类变量对于性别变量,其取值为男和女两种.这种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.知识点二:列联表为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机调查了9965人,得到如下结果(单位:人):吸烟与患肺癌列联表不患肺癌 患肺癌 总计 不吸烟 7775 42 7817 吸烟 2099 49 2148 总计9874919965像上表这样列出的两个分类变量的频数表,称为列联表. 知识点三:独立性检验这种利用随机变量K 2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.知识点四:判断结论成立的可能性的步骤一般地,假设有两个分类变量X 和Y ,它们的值域分别为{x 1,x 2}和{y 1,y 2},其样50100150200250300350010203040温度产卵数本频数列联表(称为2×2列联表)为:2×2列联表y1y2总计x1x b x+bx2c d c+d总计x+c b+d x+b+c+d 若要推断的论述为H1:“X与Y有关系”,可以按如下步骤判断结论H1成立的可能性:(1)通过三维柱形图和二维条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度.①在三维柱形图中,主对角线上两个柱形高度的乘积xd与副对角线上的两个柱形高度的乘积bc相差越大,H1成立的可能性就越大.②在二维条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例a a+b ,也可以估计满足条件X=x2的个体中具有Y=y1的个体所占的比例cc+d.两个比例的值相差越大,H1成立的可能性就越大.(2)可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度.具体做法是:根据观测数据计算由K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)给出的检验随机变量K2的值k,其值越大,说明“X 与Y有关系”成立的可能性越大.当得到的观测数据x,b,c,d都不小于5时,可以通过查阅下表来确定断言“X与Y有关系”的可信程度.P(K2≥k)0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 说明:当观测数据x,b,c,d中有小于5时,需采用很复杂的精确的检验方法.五、几个典型例题:例1 三维柱形图中柱的高度表示的是(A)A.各分类变量的频数B.分类变量的百分比C.分类变量的样本数D.分类变量的具体值例2 分类变量X和Y的列联表如下y1y2总计x1x b x+bx2c d c+d总计x+c b+d x+b+c+d 则下列说法正确的是(C)X.xd-bc越小,说明X和Y关系越弱B.xd-bc越大,说明X和Y关系越强C.(xd-bc)2越大,说明X和Y关系越强D.(xd-bc)2越接近于0 ,说明X和Y关系越强例3 研究人员选取170名青年男女大学生的样本,对他们进行一种心理测验,发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的18名,不定的42名;男生110名在相同的项目上作肯定的有22名,否定的有88名.问:性别与态度之间是否存在某种关系?分别用图形和独立性检验的方法判断.解:根据题目所给数据建立如下列联表性别 肯定 否定 总计 男生 22 88 110 女生 18 42 60 总计40130170根据列联表中的数据得到K 2=170×(22×42-18×88)2110×60×40×130≈2.158<2.706因此没有充分的证据显示“性别与态度有关”.例 4 打鼾不仅影响别人休息,而且可能与患某种病症有关.下表是一次调查所得的数据,试问:每一晚都打鼾与患心脏病有关吗?患心脏病 未患心脏病总计 每一晚都打鼾 30 224 254 不打鼾 24 1355 1379 总计5415791633解:根据列联表中数据,得到,K 2=1633×(30×1355-224×24)21379×254×54×1579=68.033.因为68.033>6.635,所以有99%的把握说,每一晚都打鼾与患心脏病有关课后练习与提高为了研究某种细菌随时间x 变化,繁殖的个数,收集数据如下:天数x /天 1 2 3 4 5 6繁殖个数y /个 612254995190(1)用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图;(2)试求出预报变量对解释变量的回归方程.(答案:所求非线性回归方程为0.69 1.112ˆy =e x .)。
高中数学-独立性检验的基本思想及其初步应用2

【例 1】 为考察某种药物预防疾病的效果进行动物试验,得到如下
列联表:
药物效果试验列联表
患病 未患病 总计
服用药 10 45
55
未服用药 20 30
50
总计 30 75 105
试用等高条形图分析服用药和患病之间是否有关系.
解 析 : 根 据 列 联 表 所 给 的 数 据 可 得 出 服 用 药 患 病 的 频 率 为 1505
答案:C
3.为了研究患慢性气管炎与吸烟量的关系,调查了 228 人,其中 每天的吸烟支数在 10 支以上 20 支以下的调查者中,患者人数有 98 人,非患者人数有 89 人,每天的吸烟支数在 20 支以上的调查者中, 患者人数有 25 人,非患者人数有 16 人.
(1)根据以上数据建立一个 2×2 的列联表. (2)试问患慢性气管炎是否与吸烟量有关?
独立性检验的基本思想类似于反证法.要确认“两个分类变量有 关系”这一结论成立的可信程度,首先假设该结论不成立,即假设结 论“两个分类变量没有关系”成立,在该假设下构造的随机变量 K2 应该很小.如果由观测数据计算得到的 K2 的观测值 k 很大,则在一定 程度上说明假设不合理.根据随机变量 K2 的含义,可以通过概率 P(K2≥k)的大小来评价该假设不合理的程度有多大,从而说明这“两 个分类变量有关系”这一结论成立的可信程度有多大.
≈0.18,未服用药患病的频率为2500=0.4,两者的差距是|0.18-0.4|= 0.22,两者相差很大,作出等高条形图如图所示,因此服用药与患病 之间有关系的程度很大.
典例解析
典例 2 独立性检验的步骤 独立性检验的具体做法是: (1)根据实际问题的需要确定容许推断“两个分类变量有关系” 犯错误概率的上界 α,然后查下表确定临界值 k0.
2014-2015学年高中数学(人教版选修1-2)课时训练第一章 1.2 独立性检验的基本思想及其初步应用
y
x x1 x2 总计
y1
a c a+c
y2
b d b+d
总计
a+b c+ d a+b+c+d
栏 目 链 接
在列联表中,如果两个分类变量没有关系,则应该满足ad -bc≈0.因此|ad-bc|越小,说明两个分量之间的关系越 弱;|ad-bc|越大,说明两个分类变量之间的关系越强.
栏 目 链 接
解析:P(K2>3.841)=0.05,判断出错的可能性为5%.
答案:5%
栏 目 链 接
1.重点 通过案例理解分类变量、列联表、独立性检验的含义; 利用列联表的独立性检验进行估计.
栏 目 链 接
2.难点 独立性检验的基本思想;随机变量K2的含义.
第一章
统计案例
1.2 独立性检验的基本思想及其初步应用
栏 目 链 接
1. 了解独立性检验 记住K2的计算公式. 用.
只要求 2×2 列联表
的基本思想,
2. 了解实际推断原理和假设检验的基本思想及其初步应 3. 通过实际问题培养学生的学习兴趣,激发学生学习的 积极性和主动性,增强社会实践能力,培养分析问题、解决 问题的能力.
②图形分析: 利用等高条形图来分析两分类变量之间是否具有相关关系,形象、直 观地反映两个分类变量之间的总体状态和差异大小, 进而推断它们之间是 否有关系. a.绘制等高条形图时,列联表的行对应的是高度,两行的数据不相等, 但对应的条形图的高度是相同的,两列的数据对应不同颜色.b.等高条形 图中有两个高度相同的矩形,每一个矩形中都有两种颜色,观察下方颜色 a c 区域的高度,如果两个高度相差比较明显(即 和 相差很大),就判 a+b c+d 断两个分类变量之间有关系.