高考数学专题复习:分类变量与列联表
高考数学 专题 独立性检验复习课件

(2)根据列联表可以得出什么样的结论?对以后的复习有什么指 导意义?
解: (2)计算可知,午休的考生及格率为 P1=
80 4 = ,不午休的考生 180 9
65 13 的及格率为 P2= = ,则 P1>P2,因此,可以粗略判断午休与考生 200 40
考试及格有关系,并且午休的及格率高,所以在以后的复习中考生 应尽量适当午休,以保持最佳的学习状态.
即时训练1-2: 如表是一个2×2列联表:
y1 y2 总计
x1
x2 总计
a
8 b
21
25 46
73
33 110
则表中a,b处的值分别为( C ) (A)94,96 (B)52,50 (C)52,60 (D)54,52
题型二 利用等高条形图判断两个分类变量是否相关 【例2】 为了解铅中毒病人与尿棕色素为阳性是否有关系,分 别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:
方法技巧 利用列联表可以较好地看出两个分类变量是否具 有关系,如本题的午休与考试及格,类似地, 我们也可以用列联 表进行粗略估计吸烟与健康,读书年限与视力等变量间的关系.
即时训练1-1:班级与成绩2×2列联表:
优秀 甲班 乙班 10 7 不优秀 35 38 总计 45 p
总计
m
n
q
表中数据m,n,p,q的值应分别为( ) (A)70,73,45,188 (B)17,73,45,90 (C)73,17,45,90 (D)17,73,45,45 解析:由表中数据可知m,n,p,q的值分别为 17,73,45,90.故选B.
2×2列联表的定义 列出两个分类变量的 频数表 ,称为列联表。假设两个分类 变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表 (也称为2×2列联表)为
高中数学新教材选择性必修第三册第八章 成对数据的统计分析 8.3 分类变量与列联表(南开题库含详解)

第八章成对数据的统计分析 8.3 分类变量与列联表一、选择题(共40小题;共200分)1. 某市政府在调查市民收入增减与旅游愿望的关系时,采用独立性检验法抽查了3000人,计算发现K2的观测值k=6.023,根据这一数据查阅下表,市政府断言市民收入增减与旅游愿望有关系这一断言犯错误的概率不超过( )P(K2≥k0)0.500.400.250.150.100.50.0250.0100.0050.001 k00.4550.708 1.323 2.072 2.706 3.841 5.024 6.6357.87910.828A. 0.1B. 0.05C. 0.025D. 0.0052. 某医疗研究所为了检验新开发的流感疫苗对甲型H7N9流感的预防作用,把1000名注射了疫苗的人与另外1000名未注射疫苗的人半年的感冒记录作比较,提出假设H o:“这种疫苗不能起到预防甲型H7N9流感的作用”,并计算出P(χ2≥6.635≈0.01),则下列说法正确的是( )A. 这种疫苗能起到预防甲型H7N9流感的有效率为1%;B. 若某人未使用该疫苗,则他在半年中有99%的可能性得甲型H7N9;C. 有1%的把握认为“这种疫苗能启动预防甲型H7N9流感的作用”;D. 有99%的把握认为“这种疫苗能启动预防甲型H7N9流感的作用”.3. 通过随机询问110名大学生是否爱好某项运动,得到如下的列联表男女总计爱好402060不爱好203050总计6050110由上表算得k≈7.8,因此得到的正确结论是( )A. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C. 有99%以上的把握认为“爱好该项运动与性别有关”D. 有99%以上的把握认为“爱好该项运动与性别无关”4. 通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女合计爱好402060不爱好203050合计6050110由K方公式算得:K2≈7.8,附表:P(K2≥k)0.0500.0100.001k 3.841 6.63510.828参照附表:得到的正确的结论是( )A. 在犯错的概率不超过0.1%的前提下,认为“爱好该运动与性别无关”B. 在犯错的概率不超过0.1%的前提下,认为“爱好该运动与性别有关”C. 有99%以上的把握认为“爱好该运动与性别有关”D. 有99%以上的把握认为“爱好该运动与性别无关”5. 某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K2=7.069,则所得到的统计学结论是:有( )的把握认为“学生性别与支持该活动有关系”.P(K2≥k0)0.1000.0500.0250.0100.001k0 2.706 3.841 5.024 6.63510.828A. 0.1%B. 1%C. 99%D. 99.9%6. 考察棉花种子经过处理跟生病之间的关系得到如表数据:种子处理种子未处理合计得病32101133不得病61213274合计93314407根据以上数据,则( )A. 种子经过处理与是否生病有关B. 种子经过处理与是否生病无关C. 种子经过处理决定是否生病D. 以上都是错误的7. 下列关于卡方(K2)的说法中正确的是( )A. K2在任何相互独立问题中都可以用于检验是否相关B. K2的值越大,两个事件的相关性越大C. K2是用来判断两个相互独立事件相关与否的一个统计量,它可以来判断两个事件是否相关这一类问题D. K2=n(n11n22−n12n21)n11+n12+n21+n228. 已知x与y之间的几组数据如下表:x123456y021334假设根据上表数据所得线性回归直线方程为y^=b^x+a^,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=bʹx+aʹ,则以下结论正确的是( )A. b^>bʹ,a^>aʹB. b^>bʹ,a^<aʹC. b^<bʹ,a^>aʹD. b^<bʹ,a^<aʹ9. 某企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,随机抽取了72名员工进行调查,所得的数据如表所示:积极支持改革不太支持改革合计工作积极28836工作一般162036合计442872对于人力资源部的研究项目,根据上述数据能得出的结论是(参考公式与数据:X2=n(n11n22−n12n21)2(n11+n12)(n11+n21)(n12+n22)(n21+n22).当Χ2>3.841时,有95%的把握说事件A与B有关;当Χ2>6.635时,有99%的把握说事件A与B有关;当Χ2<3.841时认为事件A与B无关.)( )A. 有99%的把握说事件A与B有关B. 有95%的把握说事件A与B有关C. 有90%的把握说事件A与B有关D. 事件A与B无关10. 下列说法中正确的是( )A. 若分类变量X和Y的随机变量K2的观测值k越大,则“X与Y相关”的可信程度越小B. 对于自变量x和因变量y,当x取值一定时,y的取值具有一定的随机性,x,y间的这种非确定关系叫做函数关系C. 相关系数r2越接近1,表明两个随机变量线性相关性越弱D. 若分类变量X与Y的随机变量K2的观测值k越小,则两个分类变量有关系的把握性越小11. 某校为了研究“学生的性别”和“对待某项运动的喜爱程度”是否有关,运用2×2列联表进行独立性检验,经计算K2=6.669,则认为“学生性别与对待某项运动的喜爱程度有关系”的犯错误的概率不超过( )附:P(K2≥k0)0.1000.0500.0250.0100.001k0 2.706 3.841 5.024 6.63510.828A. 0.1%B. 1%C. 99%D. 99.9%12. 通过随机询问110名不同的大学生是否爱好某项运动,得到如下的列联表:男女总计爱好402060不爱好203050总计6050110由X2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d)计算得,X2=110×(40×30−20×20)260×50×60×50≈7.8.附表:P(X2≥k)0.0500.0100.001k 3.841 6.63510.828参照附表,得到的正确结论是( )A. 有99%以上的把握认为“爱好该项运动与性别有关”B. 有99%以上的把握认为“爱好该项运动与性别有无关”C. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”13. 某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下2×2列联表:偏爱蔬菜偏爱肉类合计50岁以下481250岁以上16218合计201030则可以说其亲属的饮食习惯与年龄有关的把握为( )附:参考公式和临界值表:K 2.706 3.841 6.63610.828 P(χ2≥k)0.100.050.0100.001χ2=n(n11n22−n12n21)2n1+⋅n2+⋅n+1⋅n+2A. 90%B. 95%C. 99%D. 99.9%14. 通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女总计爱好402060不爱好203050总计6050110由K2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d)算得K2=110×(40×30−20×20)260×50×60×50≈7.8附表:P(K2≥k)0.0500.0100.001k 3.841 6.63510.828参照附表,得到的正确结论是( )A. 在犯错误的概率不超过0.1%的前提下,认为"爱好该项运动与性别有关"B. 在犯错误的概率不超过0.1%的前提下,认为"爱好该项运动与性别无关"C. 有99%以上的把握认为"爱好该项运动与性别有关"D. 有99%以上的把握认为"爱好该项运动与性别无关"15. 如果根据性别与是否爱好数学的列表,得到χ2≈3.843>3.841,所以判断性别与数学有关,那么这种判断出错的可能性为( )A. 5%B. 10%C. 1%D. 95%16. 考察棉花种子经过处理跟生病之间的关系,得到下表中的数据:种子经过处理种子未处理合计得病32101133不得病61213274合计93314407根据以上数据可以判断( )A. 种子经过处理跟是否得病有关B. 种子经过处理跟是否得病无关C. 种子是否经过处理决定是否得病D. 以上都是错误的17. 利用独立性检验的方法调查大学生的性别与爱好某项运动是否有关,通过随机询问110名不同的大学生是否爱好某项运动,利用2×2列联表,由计算可得K2≈8.806P(K2>k)0.100.050.0250.0100.0050.001k 2.706 3.841 5.024 6.6357.87910.828参照附表,得到的正确结论是( )A. 有99.5%以上的把握认为“爱好该项运动与性别无关”B. 有99.5%以上的把握认为“爱好该项运动与性别有关”C. 在犯错误的概率不超过0.05%的前提下,认为“爱好该项运动与性别有关”D. 在犯错误的概率不超过0.05%的前提下,认为“爱好该项运动与性别无关”18. 为了普及环保知识,增强环保意识,某大学从理工类专业的A班和文史类专业的B班各抽取20名同学参加环保知识测试.统计得到成绩与专业的列联表:优秀非优秀总计A班14620B班71320总计211940则下列说法正确的是( )附:参考公式及数据:(n=a+b+c+d).(1)统计量:K2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d)(2)独立性检验的临界值表:P(K2≥k0)0.0500.010k0 3.841 6.635A. 有99%的把握认为环保知识测试成绩与专业有关B. 有99%的把握认为环保知识测试成绩与专业无关C. 有95%的把握认为环保知识测试成绩与专业有关D. 有95%的把握认为环保知识测试成绩与专业无关19. 有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:优秀非优秀总计甲班10b乙班c30合计附:P(K2≥k0)0.050.0250.0100.005k0 3.841 5.024 6.6357.879已知在全部105人中随机抽取1人,成绩优秀的概率为2,则下列说法正确的是( )7A. 列联表中c的值为30,b的值为35B. 列联表中c的值为15,b的值为50C. 根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”D. 根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系”20. 在一个2×2列联表中,由其数据计算得k2=13.097,则其两个变量间有关系的可能性为(P(k>10.828)=0.001)( )A. 99%B. 95%C. 90%D. 无关系21. 在独立性检验中,统计量K2有两个临界值:3.841和6.635;当K2>3.841时,有95%的把握说明两个事件有关,当K2>6.635时,有99%的把握说明两个事件有关,当K2≤3.841时,认为两个事件无关.在一项打鼾与患心脏病的调查中,共调查了2000人,经计算得K2=20.87,根据这一数据分析,认为打鼾与患心脏病之间( )A. 有95%的把握认为两者有关B. 约有95%的打鼾者患心脏病C. 有99%的把握认为两者有关D. 约有99%的打鼾者患心脏病22. 为了增强环保意识,某校从男生中随机抽取了60人,从女生中随机制取了50人参加环保知识测试,统计数据如下表所示:优秀非优秀总计男生402060女生203050总计6050110附:χ2=n(n11n22−n12n21)2n1+n2+n+1n+2P(χ2≥k)0.5000.1000.0500.0100.001k0.455 2.706 3.841 6.63510.828则有( )的把握认为环保知识是否优秀与性别有关.A. 90%B. 95%C. 99%D. 99.9%23. 为了增强环保意识,某校从男生中随机抽取了60人,从女生中随机抽取了50人参加环保知识测试,统计数据如下表所示:优秀非优秀总计男生402060女生203050总计6050110,附:χ2=n(n11n22−n12n21)2(n11+n12)(n21+n22)(n11+n21)(n12+n22)P(χ2≥k)0.5000.1000.0500.0100.001k0.455 2.706 3.841 6.63510.828则有( )的把握认为环保知识是否优秀与性别有关.A. 90%B. 95%C. 99%D. 99.9%24. 某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下2×2列联表:偏爱蔬菜偏爱肉类合计50 岁以下481250 岁以上16218合计201030则可以说其亲属的饮食习惯与年龄有关的把握为 ( )附:参考公式和临界值表P (K 2≥k )0.0500.0100.001k 3.841 6.63510.828由 K 2=n (ad−bc )2(a+b )(c+d )(a+c )(b+d )A. 90%B. 95%C. 99%D. 99.9%25. 给出如下列联表:患心脏病患其它病合计高血压201030不高血压305080合计5060110参照公式 K 2=n (ad−bc )2(a+b )(c+d )(a+c )(b+d ),P (K 2≥10.828)≈0.001,P (K 2≥6.635)≈0.01,得到的正确结论是 ( ) A. 有 99% 以上的把握认为“高血压与患心脏病无关” B. 有 99% 以上的把握认为“高血压与患心脏病有关”C. 在犯错误的概率不超过 0.1% 的前提下,认为“高血压与患心脏病无关”D. 在犯错误的概率不超过 0.1% 的前提下,认为“高血压与患心脏病有关”26. 某人研究中学生的性别与成绩、视力、智商、阅读量这 4 个变量之间的关系,随机抽查了 52 名中学生,得到统计数据如表 1 至表 4,则与性别有关联的可能性最大的变量是 ( )A. 成绩B. 视力C. 智商D. 阅读量27. 春节期间,“厉行节约,反对浪费”之风悄然吹开.某市通过随机询问 100 名性别不同的居民是否能做到“光盘”行动,得到如下列联表:做不到"光盘"能做到"光盘"男4510女3015附表:P (k 2≥k )0.100.050.025k 2.706 3.841 5.024k 2=n (ad −bc )2(a +b )(c +d )(a +c )(b +d ).参照附表,得到的正确结论是 ( ) A. 在犯错误的概率不超过 1% 的前提下,认为“该市居民能否做到'光盘'与性别有关” B. 在犯错误的概率不超过 1% 的前提下,认为“该市居民能否做到'光盘'与性别无关” C. 有 90% 以上的把握认为“该市居民能否做到'光盘'与性别有关” D. 有 90% 以上的把握认为“该市居民能否做到'光盘'与性别无关”28. 考察棉花种子经过处理与生病之间的关系得到如下表数据:种子处理种子未处理合计得病32101133不得病61213274合计93314407根据以上数据,则 ( ) A. 种子经过处理与是否生病有关 B. 种子经过处理与是否生病无关 C. 种子经过处理决定是否生病D. 以上都是错误的29. 某同学寒假期间对其 30 位亲属的饮食习惯进行了一次调查,列出了如下 2×2 列联表:偏爱蔬菜偏爱肉类合计50岁以下481250岁以上16218合计201030则可以说其亲属的饮食习惯与年龄有关的把握为 ( )附:参考公式和临界值表: x 2=n (n 11n 22−n 12n 21)2n 1+⋅n 2+⋅n +1⋅n +2k 2.706 3.841 6.63610.828P (x 2≥k )0.100.050.0100.001 A. 90% B. 95%C. 99%D. 99.9%30. 通过随机询问 110 名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女总计爱好402060不爱好203050总计6050110由K2=n(ad−bc)2(a+d)(c+d)(a+c)(b+d)算得,K2=110×(40×30−20×20)260×50×60×50≈7.8.附表:p(K2≥k)0.0500.0100.001k 3.841 6.63510.828参照附表,得到的正确结论是( )A. 有99%以上的把握认为“爱好该项运动与性别有关”B. 有99%以上的把握认为“爱好该项运动与性别无关”C. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”31. 某工厂为了调查工人文化程度与月收入的关系,随机抽取了部分工人,得到如下列表:文化程度与月收入列表单位:人月收入2000元以下月收入2000元及以上总计高中文化以上104555高中文化及以下203050总计3075105由上表中数据计算得K2=105×(10×30−20×45)255×50×30×75≈6.109,请根据下表:p(K2≥k)0.150.100.050.0250.0100.0050.001k 2.072 2.706 3.841 5.024 6.6357.87910.828估计有多大把握认为“文化程度与月收入有关系” ( )A. 1%B. 99%C. 2.5%D. 97.5%32. 随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如表.非一线一线总计愿生452065不愿生132235总计5842100附表:P(K2≥k)0.0500.0100.001k 3.841 6.63510.828由K2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d)算得,K2=100×(45×22−20×13)258×42×35×65≈9.616.参照附表,得到的正确结论是( )A. 在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B. 在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C. 有99%以上的把握认为“生育意愿与城市级别有关”D. 有99%以上的把握认为“生育意愿与城市级别无关”33. 某同学利用课余时间做了一次社交软件使用习惯调查,得到2×2列联表如下:偏爱微信偏爱QQ合计30岁以下481230岁以上16218合计201030则下列结论正确的是( )A. 在犯错误的概率不超过0.005的前提下认为社交软件使用习惯与年龄有关B. 在犯错误的概率超过0.005的前提下认为社交软件使用习惯与年龄有关C. 在犯错误的概率不超过0.001的前提下认为社交软件使用习惯与年龄有关D. 在犯错误的概率超过0.001的前提下认为社交软件使用习惯与年龄有关34. 假设有两个分类变量X和Y的2×2列联表:XY y1y2总计x1a10a+10x2c30c+30总计6040100对同一样本,以下数据能说明X与Y有关系的可能性最大的一组为( )A. a=45,c=15B. a=40,c=20C. a=35,c=25D. a=30,c=3035. 某疾病研究所想知道吸烟与患肺病是否有关,于是随机抽取1000名成年人调查是否吸烟及是否患有肺病,得到2×2列联表,经计算得K2=5.231.已知在假设吸烟与患肺病无关的前提条件下,P(K2≥3.841)=0.05,P(K2≥6.635)=0.01,则该研究所可以( )A. 有95%以上的把握认为“吸烟与患肺病有关”B. 有95%以上的把握认为“吸烟与患肺病无关”C. 有99%以上的把握认为“吸烟与患肺病有关”D. 有99%以上的把握认为“吸烟与患肺病无关”36. 为了解疾病A是否与性别有关,在一医院随机地对入院50人进行了问卷调查得到了如下的列联表:患疾病A不患疾病A合计男20525女101525合计302050请计算出统计量χ2,你有多大的把握认为疾病A与性别有关( )下面的临界值表供参考:P(χ2≥k)0.050.0100.0050.001k 3.841 6.6357.87910.828A. 95%B. 99%C. 99.5%D. 99.9%37. 下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程y^=3−5x,变量x增加一个单位时,y平均增加5个单位;③线性回归方程y^=b^x+a^必过(x,y);④在一个2×2列联中,由计算得K2=13.079,则有99%的把握确认这两个变量间有关系.其中错误的个数是( )本题可以参考独立性检验临界值表:P(K2≥k)0.50.400.250.150.100.050.250.0100.0050.001 k0.4550.708 1.323 2.072 2.706 3.841 5.024 6.5357.87910.828A. 0B. 1C. 2D. 338. 在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )A. 若K2的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病B. 从独立性检验可知,有99%的把握认为吸烟与患肺病有关系,我们说某人吸烟,那么他有99%的可能患有肺病C. 若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误D. 以上三种说法都不正确39. 给出下列四个命题,其中正确的一个是( )A. 在线性回归模型中,相关指数R2=0.80,说明预报变量对解释变量的贡献率是80%B. 在独立性检验时,两个变量的2×2列联表中对角线上数据的乘积相差越大,说明这两个变量没有关系成立的可能性就越大C. 相关指数R2用来刻画回归效果,R2越小,则残差平方和越大,模型的拟合效果越好D. 随机误差e是衡量预报精确度的一个量,它满足E(e)=040. 在三维柱形图中,主对角线上两个柱形高度的乘积与副对角线上的两个柱形的高度的乘积相差越大两个变量有关系的可能性就( )A. 越大B. 越小C. 无法判断D. 以上都不对二、填空题(共40小题;共201分)41. 对过度看电视与近视之间关系的一项调查,根据样本数据计算得K2的值大于3.841,则我们至少有的把握认为过度看电视与近视有关.42. 若由一个2∗2列联表中的数据计算得K2=4.013,那么有把握认为两个变量有关系.43. 若由一个2×2列联表中的数据计算得K2=4.013,那么有把握认为两个变量有关系.44. 在H1:分类变量X与Y有关的情况下,K2=9.8,则P(K2≥k)=;此时说" X与Y有关"的可信度为 %.45. 为了判断高中学生选修文科是否与性别有关系,现随机抽取50名学生,得到如下2×2列联表:理科文科男1310女720≈已知P(χ2≥3.841)≈0.05,P(χ2≥5.024)≈0.025.根据表中数据,得到k=50×(13×20−10×7)223×27×20×304.844.则认为选修文科与性别有关系出错的可能性为.46. 2008 年北京奥运会期间,北京某五星级宾馆上调了住宿价格.为了调查上调价格与客人所处地区是否有关系,奥运会后,统计本国客人与外国客人的人数,与去年同期相比,结果如下:本国客人外国客人合计2007年2182384562008年123354477合计341592933通过计算,可得统计量χ2=,我们可以得到结论:.47. 为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科文科男1310女720≈已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到k=50×(13×20−10×7)223×27×20×304.844.则认为选修文科与性别有关系出错的可能性为.48. 考察棉花种子经过处理跟生病之间的关系得到如下表所示的数据:种子处理种子未处理合计得病32101133不得病61213274合计93314407根据以上数据,则统计量χ2的值是.49. 考察棉花种子经过处理跟生病之间的关系得到如下表所示的数据:种子处理种子未处理合计得病32101133不得病61213274合计93314407根据以上数据,则统计量χ2的值是.50. 在吸烟与患肺病这两个分类变量的计算中,"若χ2的观测值为6.635,我们有99%的把握认为吸烟与患肺病有关系"这句话的意思:①是指"在100个吸烟的人中,必有99个人患肺病;②是指"有1%的可能性认为推理出现错误";③是指"某人吸烟,那么他有99%的可能性患有肺病";④是指"某人吸烟,如果他患有肺病,那么99%是因为吸烟".其中正确的解释是.51. 已知表中数据:(单位:亩)有病虫害无病虫害浸种处理20100没浸种处理8080则进行种子浸种处理与发生病虫害(填"有"或"没有")明显关系.52. 为了研究服用某种新药是否会患某种慢性病,调查了200名服用此种新药和100名未服用此种新药的人,调查结果见下表:患慢性病未患慢性病合计服用新药40160200未服用新药1387100合计53247300根据列联表中的数据可得χ2=.53. 在一项打鼾与患心脏病的调查中,共调查了1671人,经过计算χ2=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是(有关,无关)的.54. 在一项打鼾与患心脏病的关系的调查中,共调查了2000人,经计算得χ2=20.87,根据这一数据分析,我们有的把握认为打鼾与患心脏病是的.55. 相应于显著性水平0.05,观测值为10组的相关系数临界值为.56. 某高校《统计学初步》课程的教师随机调查了选该课的一些学生的情况,具体数据见下表:非统计专业统计专业合计男131023女72027合计203050≈为了判断主修统计专业是否与性别有关系,根据表中的数据求得χ2=50×(13×20−10×7)220×30×23×274.844.因为χ2>3.841,所以主修统计专业与性别有关系.这种判断出错的可能性为.57. 若两个分类变量X与Y的2×2列联表为:y1y2x1515x24010则"X与Y之间有关系"的概率是.58. 给出2×2列联表如下表所示:则(1)①;②;③;④;⑤;(2)A1与B1相互(填“独立”或“不独立”).59. 在对某小学的学生进行吃零食的调查中,得到如下数据:吃零食不吃零食合计男学生243155女学生82634合计325789根据上述数据分析,我们得出的K2=.(结果保留4个有效数字)60. 对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:又发作过心脏病未发作过心脏病合计心脏搭桥手术39157196血管清障手术29167196合计68324392试根据上述数据计算K2=(结果精确到0.01),比较这两种手术对病人又发作心脏病的影响有没有差别.61. 对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如表所示:又发作过心脏病未发作过心脏病合计心脏搭桥手术39157196血管清障手术29167196合计68324392试根据上述数据计算χ2≈.62. 下面是2×2列联表:y1y2合计x1a2835x2113445合计b6280则表中a=,b=.63. 2008年北京奥运会期间,北京某五星级宾馆上调了住宿价格.为了调查上调价格与客人的所处地区是否有关系,奥运会后,统计本国客人与外国客人的人数,与2007年同期相比,结果如下表:本国客人外国客人合计2007年2182384562008年123354477合计341592933通过计算,可得统计量χ2=,我们可以得到结论:.64. 为了考察某种药物预防疾病的效果,进行动物试验,得到了如下的列联表,认为这种药物对预防疾病有效果的把握有.患病未患病合计服用药104656没服用药223254合计327811065. 为调查患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调查结果如下:患慢性气管炎未患慢性气管炎合计吸烟43162205不吸烟13121134合计56283339根据列联表数据,求得χ2=.66. 对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:又发作过心脏病未发作过心脏病合计心脏搭桥手术39157196血管清障手术29167196合计68324392试根据上述数据计算χ2=.(保留两位小数)比较这两种手术对病人又发作心脏病的影响有没有差别:.67. 对某种产品进行用户市场调查,请被调查者对产品质量回答:差、好,并回答是否接受过该产品的广告宣传,回答情况如下表.根据列联表的数据,我们有理由认为广告与人们对产品的评价是(有关,无关)的.差好合计听过广告宣传112940未听过广告宣传102030合计21497068. 以下四个命题中:①从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样,②两个随机变量的线性相关性越强,相关系数的绝对值越接近于1,③某项测量结果ξ服从正态分布N(1,a2),P(ξ≤5)=0.81,则P(ξ≤−3)=0.19,④对于两个分类变量X与Y的随机变量K2的观测值k来说,k越小,判断“X与Y有关系”的把握程度越大.以上命题中其中真命题的个数为.69. 某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K2≈3.918,经查对临界值表知P(K2≥3.841)≈0.05.对此,四名同学作出了以下的判断:p:有95%的把握认为“这种血清能起到预防感冒的作用”;q:若某人未使用该血清,则他在一年中有95%的可能性得感冒;r:这种血清预防感冒的有效率为95%;s:这种血清预防感冒的有效率为5%.则下列结论中,正确结论的序号是.(把你认为正确的命题序号都填上)①p∧¬q;②¬p∧q;③(p∧¬q)∧(r∨s).70. 某班主任对全班50名学生的积极性和对待班级工作的态度进行了调查,统计数据如下表所示:积极参加班级工作不太积极参加班级工作合计学习积极性高18725学习积极性一般61925合计242650则至少有的把握认为学生的学习积极性与对待班级工作的态度有关.(请用百分数表示).独立性检验界值表P(χ2≥k)0.0250.0100.0050.001k 5.024 6.6357.87910.82871. 调查了520名中年人,其中136人有高血压史,其他384人无高血压史.有高血压史的136人中有48人有冠心病,在无高血压史的384人中有36人有冠心病.根据上述数据分析,我们得出χ2=.72. 给出列联表如下:优秀不优秀合计甲班331245乙班232245合计563490根据表中数据,估计“成绩与班级有关系”犯错误的概率不超过.73. 某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未用血清的人一年中的感冒记录作比较,提出假设H0:"这种血清不能起到预防感冒的作用",利用2×2列联表计算得K2≈3.918,经查对临界值表知P(K2≥3.841)≈0.05.对此,四名同学做出了以下的判断:p:有95%的把握认为"这种血清能起到预防感冒的作用"q:若某人未使用该血清,那么他在一年中有95%的可能性得感冒r:这种血清预防感冒的有效率为95%s:这种血清预防感冒的有效率为5%.则下列结论中,正确结论的序号是.(把你认为正确的命题序号都填上)①p∧¬q;②¬p∧q;③(¬p∧¬q)∧(r∨s);④(p∨¬r)∧(¬q∨s).74. 有人发现,多看电视容易使人变冷漠,下表是一个调查机构对此现象的调查结果:冷漠不冷漠总计多看电视6842110不多看电视203858总计8880168则大约有的把握认为多看电视与人变冷漠有关系.。
高中数学选择性必修三 8 3 分类变量与列联表(精练)(含答案)

8.3 分类变量与列联表(精练)【题组一列联表】1.(2020·全国)为考察高中生的性别与是否喜欢数学课程之间的关系,利用2×2列联表进行检验,经计算K2的观测值k=7.069,参考下表,则认为“性别与是否喜欢数学课程有关”犯错误的概率不超过()A.0.001 B.0.01 C.0.99 D.0.999【答案】B【解析】k=7.069>6.635,对照表格,则认为“性别与是否喜欢数学课程有关”犯错误的概率不超过0.01,故选:B.2.(2020·全国高二单元测试)在一次对性别与是否说谎有关的调查中,得到如下数据,说法正确的是()A.在此次调查中有95%的把握认为是否说谎与性别有关B.在此次调查中有95%的把握认为是否说谎与性别无关C.在此次调查中有99%的把握认为是否说谎与性别有关D.在此次调查中没有充分证据显示说谎与性别有关【答案】D【解析】由表中数据得2230(6987)14161317K⨯⨯-⨯=⨯⨯⨯≈0.002 42<3.841.因此没有充分证据认为说谎与性别有关,故选:D.3.(2020·全国)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K2=2()()()()()n ad bca b c d a c c d-++++,算得K2=2110(40302020)60506050⨯⨯-⨯⨯⨯⨯≈7.822.附表:参照附表,得到的正确结论是()A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C.有99%以上的把握认为“爱好该项运动与性别有关”D.有99%以上的把握认为“爱好该项运动与性别无关”【答案】C【解析】根据独立性检验的定义,由27.822 6.635K≈>,可知我们在犯错误的概率不超过0.01的前提下,有99%以上的把握认为“爱好该项运动与性别有关”.故选:C.4.(2020·全国高二课时练习)某中学共有5000人,其中男生有3500人,女生有1500人,为了了解该校学生每周平均体育锻炼时间的情况以及该校学生每周平均体育锻炼时间是否与性别有关,现在用分层抽样的方法从中收集300位学生每周平均体育锻炼时间的样本数据(单位:小时),其频率分布直方图如下:已知在样本数据中,有60位女生的每周平均体育锻炼时间超过4小时,根据独立性检验原理,我们()A.没有理由认为“该校学生每周平均体育锻炼时间与性别有关”B.有95%的把握认为“该校学生每周平均体育锻炼时间与性别有关”C.有95%的把握认为“该校学生每周平均体育锻炼时间与性别无关”D.有99%的把握认为“该校学生每周平均体育锻炼时间与性别有关”【答案】B【解析】由题意得,男生、女生各抽取的人数为35001500 300210,30090 50005000⨯=⨯=,又由频率分布直方图可知,每周平均体育锻炼时间超过4小时的人数的频率为0.75,所以在300人中每周平均体育锻炼时间超过4小时的人数为3000.75225⨯=,又有60位女生的每周平均体育锻炼时间超过4小时,所以男生每周平均体育锻炼时间超过4小时的人数为22560165-=,可得如下的22⨯列联表:结合列联表可得22300(456016530)4.762 3.8412109075225Κ⨯⨯-⨯=≈>⨯⨯⨯,所以有95%的把握认为“该校学生每周平均体育锻炼时间与性别有关”,故选:B.5.(2020·全国高二课时练习)通过随机询问100名性别不同的大学生是否爱好踢毽子,得到如下的列联表:附表:)2k随机变量22()()()()()n ad bcXa b c d a c b d-=++++,经计算2 4.762X≈,参照附表,下列结论正确的是()A.在犯错误的概率不超过5%的前提下,认为“是否爱好踢毽子与性别有关”B.在犯错误的概率不超过5%的前提下,认为“是否爱好踢毽子与性别无关”C.有99%以上的把握认为“是否爱好踢毽子与性别有关”D.有99%以上的把握认为“是否爱好踢毽子与性别无关”【答案】A【解析】2 4.762 3.841X≈>,则参照题中附表,可得在犯错误的概率不超过5%的前提下,认为“是否爱好踢毽子与性别有关”或有95%以上的把握认为“是否爱好踢毽子与性别有关”.故选:A.6.(2020·全国高二单元测试)现在,很多人都喜欢骑“共享单车”,但也有很多市民并不认可.为了调查人们对这种交通方式的认可度,某同学从交通拥堵不严重的A城市和交通拥堵严重的B城市分别随机调查了20名市民,得到如下22⨯列联表:附:22(),()()()()n ad bcK n a b c da b c d a c b d-==+++++++.)2k0.12.706根据表中的数据,下列说法中正确的是()A.没有95%以上的把握认为“是否认可与城市的拥堵情况有关”B.有99%以上的把握认为“是否认可与城市的拥堵情况有关”C.可以在犯错误的概率不超过0.01的前提下认为“是否认可与城市的拥堵情况有关”D.可以在犯错误的概率不超过0.05的前提下认为“是否认可与城市的拥堵情况有关”【答案】D【解析】由题意,根据22⨯列联表中的数据,得2240(131557)6.46518222020K⨯⨯-⨯=≈⨯⨯⨯,又3.841 6.465 6.635<<,所以可以在犯错误的概率不超过0.05的前提下认为“是否认可与城市的拥堵情况有关”.故选:D.7.(多选)(2020·全国高三专题练习)(多选)2018年12月1日,贵阳市地铁1号线全线开通,在一定程度上缓解了市内交通的拥堵状况.为了了解市民对地铁1号线开通的关注情况,某调查机构在地铁开通后的某两天抽取了部分乘坐地铁的市民作为样本,分析其年龄和性别结构,并制作出如下等高条形图:根据图中(35岁以上含35岁)的信息,下列结论中一定正确的是()A.样本中男性比女性更关注地铁1号线全线开通B.样本中多数女性是35岁以上C.样本中35岁以下的男性人数比35岁以上的女性人数多D.样本中35岁以上的人对地铁1号线的开通关注度更高【答案】ABD【解析】设等高条形图对应2×2列联表如下:根据第1个等高条形图可知,35岁以上男性比35岁以上女性多,即a>b;35岁以下男性比35岁以下女性多,即c>d.根据第2个等高条形图可知,男性中35岁以上的比35岁以下的多,即a>c;女性中35岁以下的比35岁以下的多,即b>d.对于A,男性人数为a+c,女性人数为b+d,因为a>b,c>d,所以a+c>b+d,所以A正确;对于B,35岁以上女性人数为b,35岁以下女性人数为d,因为b>d,所以B正确;对于C,35岁以下男性人数为c,35岁以上女性人数为b,无法从图中直接判断b与c的大小关系,所以C 不一定正确;对于D,35岁以上的人数为a+b,35岁以下的人数为c+d,因为a>c,b>d,所以a+b>c+d,所以D正确.故选:ABD.8.(多选)(2021·全国高二专题练习)因防疫的需要,多数大学开学后启用封闭式管理.某大学开学后也启用封闭式管理,该校有在校学生9000人,其中男生4000人,女生5000人,为了解学生在封闭式管理期间对学校的管理和服务的满意度,随机调查了40名男生和50名女生,每位被调查的学生都对学校的管理和服务给出了满意或不满意的评价,经统计得到如下列联表:附表:附:22()()()()()n ad bc K a b c d a c b d -=++++以下说法正确的有( )A .满意度的调查过程采用了分层抽样的抽样方法B .该学校学生对学校的管理和服务满意的概率的估计值为0.6C .有99%的把握认为学生对学校的管理和服务满意与否与性别有关系D .没有99%的把握认为学生对学校的管理和服务满意与否与性别有关系 【答案】AC【解析】因为男女比例为4000︰5000,故A 正确.满意的频率为204020.667903+=≈,所以该学校学生对学校的管理和服务满意的概率的估计值约为0.667,所以B 错误.由列联表2290(20102040)9 6.63540506030K ⨯⨯-⨯==>⨯⨯⨯,故有99%的把握认为学生对学校的管理和服务满意与否与性别有关系,所以C 正确,D 错误. 故选:AC.【题组二 独立性检验】1.(2021·安徽芜湖市)“直播带货”是指通过一些互联网平台,使用直播技术进行商品线上展示、咨询答疑、导购销售的新型服务方式.某高校学生会调查了该校100名学生2020年在直播平台购物的情况,这100名学生中有男生60名,女生40名.男生中在直播平台购物的人数占男生总数的23,女生中在直播平台购物的人数占女生总数的78. (1)填写22⨯列联表,并判断能否有99%的把握认为校学生的性别与2020年在直播平台购物有关?(2)若把这100名学生2020年在直播平台购物的频率作为该校每个学生2020年在直播平台购物的概率,从全校所有学生中随机抽取4人,记这4人中2020年在直播平台购物的人数与未在直播平台购物的人数之差为X ,求X 的分布列与期望.附:n a b c d =+++,22()()()()()n ad bc K a b c d a c b d -=++++.【答案】(1)列联表答案见解析,没有99%的把握认为该校学生的性别与220年在直播平台购物有关;(2)分布列答案见解析,数学期望:2. 【解析】(1)列22⨯列联表:22100(4053520) 5.556 6.63575256040K ⨯-⨯=≈<⨯⨯⨯.故没有99%的把握认为该校学生的性别与220年在直播平台购物有关 (2)设这4人中2020年在直播平台购物的人数为Y ,则0,1,2,3,4Y =,且3~4,4Y B ⎛⎫ ⎪⎝⎭,(4)24X Y Y Y =--=-,故4,2,0,2,4X =--,且4411(4)(0)4256P X P Y C ⎛⎫=-==== ⎪⎝⎭, 1314313(2)(1)4464P X P Y C ⎛⎫⎛⎫=-==== ⎪ ⎪⎝⎭⎝⎭,22243127(0)(2)44128P X P Y C ⎛⎫⎛⎫===== ⎪ ⎪⎝⎭⎝⎭, 3343127(2)(3)4464P X P Y C ⎛⎫⎛⎫=====⎪ ⎪⎝⎭⎝⎭,444381(4)(4)4256P X P Y C ⎛⎫===== ⎪⎝⎭. 所以X 的分布列为()434E Y =⨯=,()(24)2()42342E X E Y E Y =-=-=⨯-=, 即()2E X =2.(2021·安徽高二期末)随着新冠疫情防控进入常态化,人们的生产生活逐步步入正轨.为拉动消费,某市发行2亿元消费券.为了解该消费券使用人群的年龄结构情况,该市随机抽取了50人,对是否使用过消费券的情况进行调查,结果如下表所示,其中年龄低于45岁的人数占总人数的35.(1)若以“年龄45岁为分界点”,由以上统计数据完成下面22⨯列联表,并判断是否有99%的把握认为是否使用消费券与人的年龄有关.参考数据:)20k 0.15 2.072 22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.(2)从使用消费券且年龄在[15,25)与[25,35)的人中按分层抽样方法抽取6人,再从这6人中选取2名,记抽取的两人中年龄在[15,25)的人数为X ,求X 的分布列与数学期望.【答案】(1)列联表答案见解析,有99%的把握认为是否使用消费券与人的年龄有关;(2)分布列答案见解析,数学期望:23. 【解析】(1)由题意得515105505153505m n m +++++=⎧⎪++⎨=⎪⎩解得10,5m n ==;由以上统计数据填写下面22⨯列联表,如下 根据公式计算2250(1027103)9.98 6.63537133020K ⨯-⨯=≈>⨯⨯⨯,所以有99%的把握认为是否使用消费券与人的年龄有关:(2)由题意知抽取的6人中年龄在[15,25)的有2人,年龄在[25,35)的有4人, 所以X 的可能取值为0,1,2.且21124242222666281(0),(1),(2)51515C C C C P X P X P X C C C =========, 所以X 的分布列为()012515153E X =⨯+⨯+⨯=.3.(2021·江西新余市·高二期末(文))推进垃圾分类处理,是落实绿色发股理心的必然选择.为加强社区居民的垃圾分类意识,某社区在健身广场举办了“垃圾分类,从我做起”生活垃圾分类大型宣传活动,号召社区居民用实际行动为建设绿色家园贡献一份力量,为此需要征集一部分垃圾分类志愿者.(1)某垃圾站的日垃圾分拣量y (千克)与垃圾分类志愿者人数x (人)满足回归直线方程y bx a =+,数据统计如下:已知511405i i y y ===∑,52190i i x ==∑,51885i i i x y ==∑,根据所给数据求t 和回归直线方程.y bx a =+.附:1221ni ii nii x y nx yb xnx ==-=-∑∑,a y bx =-.(2)为调查社区居民喜欢担任垃圾分类志愿者是否与性别有关,现随机选取了一部分社区居民进行调查,其中被调查的男性居民和女性居民人数相同,男性居民中不喜欢担任垃圾分类志愿者占男性居民的35,女性居民中不喜欢担任垃圾分类志愿者占女性居民的15. ①若被调查的男性居民人数为a 人,请完成以下2×2列联表:②若研究得到在犯错误概率不超过0.010的前提下,认为居民喜欢担任垃圾分类志愿者与性别有关,则被调查的女性居民至少多少人?附()()()()()22n ad bc k a b c d a c b d -=++++,n a b c d =+++,【答案】(1)60t =,8.56y x =+;(2)①2×2列联表见解析;②20 【解析】(1)根据表中数据可知()125304045405y t =++++=,解得60t =, ()12345645x =++++=, 5152221588554408.590545i ii ii x y x yb xx ==--⨯⨯∴===-⨯-∑∑,408.546a =-⨯=,所以回归直线方程为8.56y x =+; (2)①根据题意可得2×2列联表如下:②在犯错误概率不超过0.010的前提下,认为居民喜欢担任垃圾分类志愿者与性别有关,22214325555 6.63564355a a a a a a K a a a a ⎛⎫⋅⋅-⋅ ⎪⎝⎭∴==>⋅⋅⋅,解得19.905a >,故a 的最小值为20,所以被调查的女性居民至少20人.4(2021·云南曲靖市)移动支付(支付宝及微信支付)已经渐渐成为人们购物消费的一种支付方式,为调查曲靖市民使用移动支付的年龄结构,随机对100位市民做问卷调查得到22⨯列联表如下:(1)将上22⨯列联表补充完整,并请说明在犯错误的概率不超过0.01的前提下,认为支付方式与年龄是否有关?(2)在使用移动支付的人群中采用分层抽样的方式抽取10人做进一步的问卷调查,从这10人随机中选出3人颁发参与奖励,设年龄都低于35岁(含35岁)的人数为X,求X的分布列及期望.)2k0.500.455(参考公式:22()()()()()n ad bcKa b c d a c b d-=++++)(其中n a b c d=+++)【答案】(1)列联表见解析,在犯错误的概率不超过0.010的前提下,认为支付方式与年龄有关.;(2)分布列见解析,125.【解析】(1)根据题意及22⨯列联表可得完整的22⨯列联表如下:根据公式可得22100(40401010)36 6.63550505050K⨯-⨯==>⨯⨯⨯,所以在犯错误的概率不超过0.010的前提下,认为支付方式与年龄有关.(2)根据分层抽样,可知35岁以下(含35岁)的人数为4010850⨯=人,35岁以上的有2人,所以获得奖励的35岁以下(含35岁)的人数为X , 则X 的可能为1,2,3,且122138282833310101085656(1),(2),(3)12010120C C C C C P X P X P X C C C =========,其分布列为1231201201205EX =⨯+⨯+⨯=. 5.(2021·江西高二期末)某花圃为提高某品种花苗质量,开展技术创新活动,在A ,B 实验地分别用甲、乙方法培育该品种花苗.为观测其生长情况,分别在A ,B 试验地随机抽选各50株,对每株进行综合评分,将每株所得的综合评分制成如图所示的频率分布直方图.记综合评分为80及以上的花苗为优质花苗.(1)求图中a 的值,并求综合评分的中位数;(2)用样本估计总体,以频率作为概率,若在A ,B 两块实验地随机抽取3棵花苗,求所抽取的花苗中的优质花苗数的分布列和数学期望;(3)填写下面的列联表,并判断是否有90%的把握认为优质花苗与培育方法有关.附:下面的临界值表仅供参考.(参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.)【答案】(1)0.040a =,82.5;(2)分布列见解析,95EX =;(3)列联表见解析,有90%的把握认为优质花苗与培育方法有关系.【解析】(1)由0.005100.010100.02510100.020101a ⨯+⨯+⨯+⨯+⨯=, 解得0.040a =.令得分中位数为x ,由()0.020100.040900.5x ⨯+⨯-=, 解得82.5x =.故综合评分的中位数为82.5. (2)由(1)与频率分布直方图 ,优质花苗的频率为()0.040.02100.6+⨯= ,即概率为0.6, 设所抽取的花苗为优质花苗的颗数为X ,则3~35X B ⎛⎫ ⎪⎝⎭,,()3032805125P X C ⎛⎫==⨯= ⎪⎝⎭;()2133236155125P X C ⎛⎫==⨯⨯=⎪⎝⎭; ()2233254255125P X C ⎛⎫==⨯⨯= ⎪⎝⎭;()33332735125P X C ⎛⎫==⨯=⎪⎝⎭. 其分布列为:所以,所抽取的花苗为优质花苗的数学期望355EX =⨯=. (3)结合(1)与频率分布直方图, 优质花苗的频率为()0.040.02100.6+⨯=,则样本中,优质花苗的颗数为60棵,列联表如下表所示:可得()221002010304016.667 6.63560405050K⨯-⨯=≈>⨯⨯⨯.所以,有90%的把握认为优质花苗与培育方法有关系.6.(2020·四川成都市)一网络公司为某贫困山区培养了100名“乡土直播员”,以帮助宣传该山区文化和销售该山区的农副产品,从而带领山区人民早日脱贫致富.该公司将这100名“乡土直播员”中每天直播时间不少于5小时的评为“网红乡土直播员”,其余的评为“乡土直播达人”.根据实际评选结果得到了下面22⨯列联表:(1)根据列联表判断是否有95%的把握认为“网红乡土直播员”与性别有关系?(2)在“网红乡土直播员”中按分层抽样的方法抽取6人,在这6人中选2人作为“乡土直播推广大使”.设被选中的2名“乡土直播推广大使”中男性人数为ξ,求ξ的分布列和期望.附:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【答案】(1)有95%的把握认为“网红乡土直播员”与性别有关系;(2)分布列见解析;期望为23. 【解析】(1)由题中22⨯列联表,可得()2210010302040 4.762 3.84150503070K ⨯-⨯=≈>⨯⨯⨯.∴有95%的把握认为“网红乡土直播员”与性别有关系. (2)在“网红乡土直播员”中按分层抽样的方法抽取6人, 男性人数为106230⨯=人;女性人数为206430⨯=人. 由题,随机变量ξ所有可能的取值为0,1,2.()022426620155C C P C ξ====,()1124268115C C P C ξ===,()2024261215C C P C ξ===, ∴ξ的分布列为∴ξ的数学期望()01251515153E ξ=⨯+⨯+⨯==. 7.(2020·山东济南市)2019年6月25日,《固体废物污染环境防治法(修订草案)》初次提请全国人大常委会审议,草案对“生活垃圾污染环境的防治”进行了专章规定.草案提出,国家推行生活垃圾分类制度.为了了解人民群众对垃圾分类的认识,某市环保部门对该市市民进行了一次垃圾分类网络知识问卷调查,每一位市民仅有一次参加机会,通过随机抽样,得到参加问卷调查的1000人(其中450人为女性)的得分(满分:100分)数据,统计结果如表所示:(1)由频数分布表可以认为,此次问卷调查的得分Z 服从正态分布(),210N μ,μ近似为这1000人得分的平均值(同一组数据用该组区间的中点值作为代表),请利用正态分布的知识求()50.594P Z <<;(2)把市民分为对垃圾分类“比较了解”(不低于60分的)和“不太了解”(低于60分的)两类,请完成如下22⨯列联表,并判断是否有99%的把握认为市民对垃圾分类的了解程度与性别有关?(3)从得分不低于80分的被调查者中采用分层抽样的方法抽取10名.再从这10人中随机抽取3人,求抽取的3人中男性人数的分布列及数学期望.14.5≈;②若()2,XN μσ,则()0.6827P X μσμσ-<<+=,()220.9545P X μσμσ-<<+=,()330.9973P X μσμσ-<<+=;③()()()()()22n ad bc K a b c d a c b d -=++++, .n a b c d =+++【答案】(1)0.8186;(2)列联表答案见解析,有99%的把握认为学生对垃圾分类的了解程度与性别有关;(3)分布列详见见解析,数学期望:95. 【解析】(1)由题意知:350.025450.15550.2650.25750.225850.1950.0565μ=⨯+⨯+⨯+⨯+⨯+⨯+⨯=,又50.565≈9465≈+ 所以11(50.594)0.68270.95450.818622P Z <<=⨯+⨯=. (2)由题意得列联表如下:221000(235310315140)14.249 6.635375625550450K ⨯⨯-⨯=≈>⨯⨯⨯,所以有99%的把握认为学生对垃圾分类的了解程度与性别有关.(3)不低于80分的被调查者的男女比例为3:2,所以采用分层抽样的方法抽取10人中,男性为6人,女性为4人.设从这10人中随机抽取的3人中男性人数为ξ,则ξ的取值为0,1,2,3343101(0)30C P C ξ===,21463103(1)10C C P C ξ===,12463101(2)2C C P C ξ===,363101(3)6C P C ξ===,所以随机变量ξ的分布列为所以其期望()2310265E ξ=+⨯+⨯= 8.(2020·四川师范大学附属中学)新冠肺炎疫情期间,各地均响应“停课不停学,停课不停教”的号召开展网课学习.为检验网课学习效果,某机构对2000名学生进行了网上调查,发现有些学生上网课时有家长在旁督促,而有些没有网课结束后进行考试,根据考试结果将这2000名学生分成“成绩上升”和“成绩没有上 升”两类,对应的人数如下表所示:(1)完成以上列联表,并通过计算(结果精确到()0.001)说明,是否有90%的把握认为家长督促学生上网课与学生的成绩上升有关联(2)从有家长督促的800名学生中按成绩是否上升,采用分层抽样的方法抽出8人,再从8人中 随机抽取 3人做进一步调查,记抽到3名成绩上升的学生得1分,抽到1名成绩没有上升的学生得1-分,抽到3名生的总得分用X 表示,求X 的分布列和数学期望.附:()()()()()22,n ad bc K n a b c d a b c d a c b d -==+++++++【答案】(1)列联表见解析,有90%的把握认为家长督促学生上网课与学生的成绩上升有关联;(2)分布列见解析,数学期望为34. 【解析】(1)()222000500500300700125 3.472 2.7068001200120080036K ⨯-⨯==≈>⨯⨯⨯∴有90%的把握认为家长督促学生上网课与学生的成绩上升有关联.(2)从有家长督促的800名学生中按成绩是否上升,采用分层抽样的方法抽出8人,其中成绩上升的有5人,成绩没有上升的有3人,再从8人中随机抽取3人,随机变量X 所有可能的取值为3,1,1,3--()0353381356C C P X C ⋅=-== ()12533815156C C P X C ⋅=-==()21533815128C C P X C ⋅=== ()3053385328C C P X C ⋅===X ∴的分布列如下:()115301033113565656564E X =-⨯-⨯+⨯+⨯= 9.(2020·全国高二专题练习)景泰蓝(Cloisonne ),中国的著名特种金属工艺品之一,到明代景泰年间这种工艺技术制作达到了最巅峰,因制作出的工艺品最为精美而闻名,故后人称这种瓷器为“景泰蓝”.其制作过程中有“掐丝”这一环节,某大型景泰蓝掐丝车间共有员工10000人,现从中随机抽取100名对他们每月完成合格品的件数进行统计.得到如下统计表:(1)若每月完成合格品的件数超过18件,则车间授予“工艺标兵”称号,由以上统计表填写下面的22⨯列联表,并判断是否有95%的把握认为“工艺标兵”称号与性别有关;(2)为提高员工的工作积极性,该车间实行计件工资制:每月完成合格品的件数在12件以内(包括12件),每件支付员工200元,超出(0,2]的部分,每件支付员工220元,超出(2,4]的部分,每件支付员工240元,超出4件以上的部分,每件支付员工260元,将这4段频率视为相应的概率,在该车间男员工中随机抽取2人,女员工中随机抽取1人进行工资调查,设实得计件工资超过3320元的人数为ξ,求ξ的分布列和数学期望.附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.)2k0.12.706【答案】(1)表格见解析,有95%的把握认为“工艺标兵”称号与性别有关;(2)分布列见解析,1310. 【解析】(1)22⨯列联表如下:22100(488422)4 3.84150509010K ⨯⨯-⨯==>⨯⨯⨯,所以有95%的把握认为“工艺标兵”称号与性别有关.(2)若员工实得计件工资超过3320元,则每月完成合格品的件数需超过16件,由题中统计表数据可得,男员工实得计件工资超过3320元的概率125P =,女员工实得计件工资超过3320元的概率212P =. 设随机抽取的男员工中实得计件工资超过3320元的人数为X ,随机抽取的女员工中实得计件工资超过3320元的人数为Y ,则21~2,,~1,52X B Y B ⎛⎫⎛⎫ ⎪ ⎪⎝⎭⎝⎭. 由题意可知,ξ的所有可能取值为0,1,2,3,2319(0)(0,0)5250P P X Y ξ⎛⎫=====⨯= ⎪⎝⎭,210223213121(1)(1,0)(0,1)5525250P P X Y P X Y C C ξ⎛⎫====+===⨯⨯⨯+⨯⨯= ⎪⎝⎭, 22122213218(2)(2,0)(1,1)5255225P P X Y P X Y C C ξ⎛⎫====+===⨯⨯+⨯⨯⨯= ⎪⎝⎭,2212(3)(2,1)5225P P X Y ξ⎛⎫=====⨯= ⎪⎝⎭,所以随机变量ξ的分布列为所以9218213()01235050252510E ξ=⨯+⨯+⨯+⨯=. 10.(2020·广东广州市)某学校高三年级数学备课组的老师为了解新高三年级学生在假期的自学情况,在开学初进行了一次摸底测试,根据测试成绩评定“优秀”、“良好”、“要加油”三个等级,同时对相应等级进行量化:“优秀”记10分,“良好”记5分,“要加油”记0分.现随机抽取年级120名学生的成绩,统计结果如下所示:(1)若测试分数90分及以上认定为优良.分数段在[]120,150,[)90,120,[)0,90内女生的人数分别为4人,40人,20人,完成下面的22⨯列联表,并判断:是否有95%以上的把握认为性别与数学成绩优良有关?(2)用分层抽样的方法,从评定为“优秀”、“良好”、“要加油”的三个等级的学生中选取10人进行座谈,现再从这10人中任选2人,所选2人的量化分之和记为X ,求X 的分布列及数学期望()EX .附表及公式:()()()()22()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【答案】(1)表格见解析,没有95%以上的把握认为性别与数学成绩优良有关;(2)分布列见解析,8. 【解析】(1)解:依题意,完成下面的22⨯列联表:()22120164440200.102 3.84136845664K ⨯⨯-⨯=≈<⨯⨯⨯.故没有95%以上的把握认为性别与数学成绩优良有关.(2)解:按照分层抽样,评定为“优秀”、“良好”、“要加油”三个等级的学生分别抽取1人,6人,3人.现再从这10人中任选2人,所选2人的量化分之和X 的可能取值为15,10,5,0.()1116210162154515C C P X C ⨯====,()211613*********104515C C C P X C C ==+==()116321018654515C C P X C ====,()232103104515C P X C ====所以X 的分布列为:所以()151050815151515E X =⨯+⨯+⨯+⨯=. 11.(2020·湖南高三月考)某公司有1400名员工,其中男员工900名,用分层抽样的方法随机抽取28名员工进行5G 手机购买意向调查,将计划在今年购买5G 手机的员工称为“追光族”,计划在明年及明年以后购买5G 手机的员工称为“观望者”,调查结果发现抽取的这28名员工中属于“追光族”的女员工有2人,男员工有10人.(1)完成下面2×2列联表,并判断是否有95%的把握认为该公司员工属于“追光族”与“性别”有关;(2)在抽取的属于“追光族”的员工中任选4人,记选出的4人中男员工有X 人,女员工有Y 人,求随机变量X Y ξ=-的分布列与数学期望.附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.)20k 0.15 2.072【答案】(1)列联表答案见解析,没有95%的把握认为该公司员工属于“追光族”与“性别”有关;(2)分布列答案见解析,数学期望:83. 【解析】1)由题意得:2×2列联表如下:2228(28810)448= 3.3212161018135K ⨯⨯-⨯=≈⨯⨯⨯ 3.841<,故没有95%的把握认为该公司员工属于“追光族”与“性别”有关;(2)由(1)知在样本里属于“追光族"的员工有12人.其中男员工10人,女员工2人, 所以ξ可能的取值有0,2,4,4010241221014(4)(40)=49533C C P P X Y C ξ======且,3110241224016(2)(31)=49533C C P P X Y C ξ======且,221024121(0)(22)=4951145C C P P X Y C ξ======且, ξ∴的分布列为:ξ∴的期望()024*******E ξ=⨯+⨯+⨯=. 12.(2020·全国高三专题练习)某电商平台为提升服务质量,从用户系统中随机选出300名客户,对该平台售前服务和售后服务的评价进行统计,得到一份样本数据,并用以估计所有用户对该平台服务质量的满意度.其中售前服务的满意率为1315,售后服务的满意率为23,对售前服务和售后服务都不满意的客户有20人(1)完成下面22⨯列联表,并分析是否有97.5%的把握认为售前服务满意度与售后服务满意度有关;(2)若用频率代替概率,假定在业务服务协议终止时,对售前服务和售后服务两项都满意的客户保有率为95%,只对其中一项不满意的客户保有率为66%,对两项都不满意的客户保有率为1%,从该运营系统中任选3名客户,求在业务服务协议终止时保有客户人数ξ的分布列和期望,附:22()()()()()n ad bcKa b c d a c b d-=++++,n a b c d=+++.【答案】(1)列联表见解析,有97.5%的把握认为售前服务满意与售后服务满意有关;(2)分布列见解析,数学期望为125.【解析】(1)由题意知对售前服务满意的有1330026015⨯=人,对服务不满意的有13001003⨯=人,所以,补全22⨯列联表如下:经计算得22300(180208020)755.77 5.0242001002604013K⨯⨯-⨯==≈>⨯⨯⨯,所以有97.5%的把握认为售前服务满意与售后服务满意有关.(2)在业务服务协议终止时,对售前服务和售后服务都满意的客户保有的概率为1805795%300100⨯=, 只有一项满意的客户保有的概率为1002266%300100⨯=, 对二者都不满意的客户保有的概率为20115%300100⨯=. 所以,从系统中任选一名客户保有的概率为5722141005++=, 故4~3,5B ξ⎛⎫⎪⎝⎭,{0,1,2,3}ξ∈, 311(0)5125P ξ⎛⎫=== ⎪⎝⎭, 2134112(1)55125P C ξ⎛⎫==⨯⨯=⎪⎝⎭, 2231448(2)55125P C ξ⎛⎫==⨯⨯=⎪⎝⎭, 3464(3)5125P ξ⎛⎫===⎪⎝⎭ 所以ξ的分布列为:()1248641201231251251255E ξ=+⨯+⨯+⨯=. 【点睛】此题考查独立性检验、二项分布、独立重复试验以及离散型随机变量的分布列与数学期望,考查分析问题的能力.本题第二问解题的关键在于根据保有率计算得到系统中任选一名客户保有的概率为5722141005++=,进而得到4~3,5B ξ⎛⎫⎪⎝⎭,属于中档题。
2025年高考数学一轮复习讲义含答案解析 第3节 第2课时 列联表与独立性检验

第2课时列联表与独立性检验课标解读考向预测1.通过实例,理解2×2列联表的统计意义.2.通过实例,了解2×2列联表独立性检验及其应用.预计2025年高考列联表、独立性检验可能会以实际问题为背景,与概率、随机变量的分布列及数字特征相结合命题,难度适中.必备知识——强基础1.分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.2.2×2列联表一般地,假设有两个分类变量X和Y,它们的取值均为0,1,其2×2列联表为XY合计Y=0Y=1X=0a b a+bX=1c d c+d合计a+c b+d a+b+c+d3.独立性检验(1)零假设:以Ω为样本空间的古典概型,设X和Y为定义在Ω上,取值于{0,1}的成对分类变量,H0:01P(Y=1|X=0)=P(Y=1|X=1).通常称H0为零假设或原假设.(2)χ2的计算公式:记n=a+b+c+d,则χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).(3)临界值:对于任何小概率值α,可以找到相应的正实数xα,使得后面关系成立:P(χ2≥xα)=α.我们称xα为α的临界值,这个临界值就可以作为判断χ2大小的标准,概率值α02越小,临界值xα越大.(4)基于小概率值α的检验规则是:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立.(5)应用独立性检验解决实际问题的主要环节①提出零假设H0:X和Y相互独立,并给出在问题中的解释;②根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较;③根据检验规则得出推断结论;④在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则认为两分类变量有关的把握越大.1.概念辨析(正确的打“√”,错误的打“×”)(1)分类变量中的变量与函数中的变量是同一概念.()(2)2×2列联表是借助两个分类变量之间频率大小差异说明两个变量之间是否有关联.()(3)应用独立性检验的基本思想对两个变量间的关系作出的推断一定是正确的.()(4)若分类变量X,Y关系越密切,则由观测数据计算得到的χ2的观测值越小.()答案(1)×(2)√(3)×(4)×2.小题热身(1)(人教B选择性必修第二册4.3.2练习A T2改编)为了解某大学的学生是否爱好体育锻炼,用简单随机抽样方法在校园内调查了120位学生,得到如下2×2列联表:男女合计爱好a b73不爱好c25合计74则a-b-c=()A.7B.8C.9D.10答案C解析根据题意,可得c =120-73-25=22,a =74-22=52,b =73-52=21,∴a -b -c=52-21-22=9.(2)在下列两个分类变量X ,Y 的样本频数列联表中,可以判断X ,Y 之间有无关系的是()y 1y 2合计x 1a b a +b x 2c d c +d 合计a +cb +da +b +c +dA .|a a +b -b c +d |B .|c a +b -d c +d|C .|b a +b -c c +d |D .|a a +b -c c +d |答案D解析∵χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),则分类变量X 和Y 有关系时,ad 与bc 差距会比较大,由a a +b -c c +d =ac +ad -ac -bc (a +b )(c +d )=ad -bc (a +b )(c +d ),故a a +b 与cc +d 的值相差应该大,即|a a +b -c c +d |的大小可以判断X ,Y 之间有无关系.(3)已知P (χ2≥6.635)=0.01,P (χ2≥10.828)=0.001.在检验喜欢某项体育运动与性别是否有关的过程中,某研究员搜集数据并计算得到χ2=7.235,则根据小概率值α=________的χ2独立性检验,分析喜欢该项体育运动与性别有关.答案0.01解析因为6.635<7.235<10.828,所以根据小概率值α=0.01的χ2独立性检验,分析喜欢该项体育运动与性别有关.考点探究——提素养考点一分类变量的两种统计表示形式(多考向探究)考向1等高堆积条形图例1(2023·四川南充三诊)为考查A ,B 两种药物预防某疾病的效果,进行动物实验,分别得到如下等高堆积条形图,根据图中信息,下列说法最佳的是()A.药物B的预防效果优于药物A的预防效果B.药物A的预防效果优于药物B的预防效果C.药物A,B对该疾病均有显著的预防效果D.药物A,B对该疾病均没有预防效果答案B解析根据题干中两个等高堆积条形图知,药物A实验显示不服药与服药时患病差异较药物B实验显示明显,所以药物A的预防效果优于药物B的预防效果.【通性通法】在等高堆积条形图中,aa+b与cc+d相差越大,我们认为两个分类变量之间关系越强.【巩固迁移】1.(多选)现行普通高中学生在高一时面临着选科的问题,学校抽取了部分男、女学生意愿的一份样本,制作出如下两个等高堆积条形图:根据这两幅图中的信息,下列统计结论正确的是()A.样本中的女生数量多于男生数量B.样本中有两理一文意愿的学生数量多于有两文一理意愿的学生数量C.样本中的男生偏爱两理一文D.样本中的女生偏爱两文一理答案ABC解析由等高堆积条形图知,女生数量多于男生数量,故A 正确;有两理一文意愿的学生数量多于有两文一理意愿的学生数量,故B 正确;男生偏爱两理一文,故C 正确;女生中有两理一文意愿的学生数量多于有两文一理意愿的学生数量,故D 错误.故选ABC.考向22×2列联表例2(1)下面是一个2×2列联表,则表中a ,c 处的值分别为()X Y 合计y 1y 2x 1a 2573x 221b c合计d 49A .98,28B .28,98C .48,45D .45,48答案C解析由2×2列联表知a +25=73,b +25=49,b +21=c ,解得a =48,b =24,c =45.故选C.(2)假设两个分类变量X 和Y 的2×2列联表如下:X Y 合计y 1y 2x 1a 10a +10x 2c 30c +30合计a +c40100对于同一样本,以下数据能说明X 和Y 有关系的可能性最大的一组是()A .a =40,c =20B .a =45,c =15C .a =35,c =25D .a =30,c =30答案B解析χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=根据2×2列联表和独立性检验的相关知识,知当b ,d 一定时,a ,c 相差越大,a a +10与cc +30相差就越大,χ2就越大,即X和Y有关系的可能性越大,结合选项,知B中a-c=30与其他选项相比相差最大.【通性通法】在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.【巩固迁移】2.(多选)有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀,得到列联表如下:班级数学成绩优秀非优秀合计甲班10b乙班c30合计105已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是()A.c=30,b=35B.c=15,b=50C.c=20,b=45D.由列联表可看出数学成绩与班级有关系答案CD解析依题意10+c105=27,解得c=20,由10+20+b+30=105,解得b=45.补全2×2列联表如下:班级数学成绩合计优秀非优秀甲班104555乙班203050合计3075105甲班学生数学成绩的优秀率为1055≈0.182,乙班学生数学成绩的优秀率为2050=0.4,乙班学生数学成绩的优秀率明显高于甲班学生数学成绩的优秀率,可以认为两班学生的数学成绩优秀率存在差异,所以数学成绩与班级有关.故选CD.考点二独立性检验的应用例3(2024·山西太原模拟)为进一步保护环境,加强治理空气污染,某市环保监测部门对市区空气质量进行调研,随机抽查了市区100天的空气质量等级与当天空气中SO2的浓度(单位:μg/m3),整理数据得到下表:SO2的浓度空气质量等级[0,50](50,150](150,475]1(优)28622(良)5783(轻度污染)3894(中度污染)11211若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”,根据上述数据,回答以下问题:(1)估计事件“该市一天的空气质量好,且SO2的浓度不超过150”的概率;(2)完成下面的2×2列联表;SO2的浓度空气质量[0,150](150,475]合计空气质量好空气质量不好合计(3)根据(2)中的列联表,依据小概率值α=0.01的独立性检验,能否据此推断该市一天的空气质量与当天SO2的浓度有关?解(1)由表格可知,该市一天的空气质量好,且SO2的浓度不超过150的天数为28+6+5+7=46,则“该市一天的空气质量好,且SO2的浓度不超过150”的概率P=46100=0.46.(2)由表格数据可得列联表如下,SO2的浓度空气质量[0,150](150,475]合计空气质量好461056空气质量不好242044合计7030100(3)零假设为H 0:该市一天的空气质量与当天SO 2的浓度无关.由(2)知χ2=100×(46×20-10×24)256×44×70×30≈8.936>6.635=x 0.01,根据小概率值α=0.01的独立性检验,我们推断H 0不成立,即认为该市一天的空气质量与当天SO 2的浓度有关,此推断犯错误的概率不超过0.01.【通性通法】独立性检验的一般步骤(1)根据样本数据制成2×2列联表;(2)根据公式χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算;(3)比较χ2与临界值的大小关系,作统计推断.【巩固迁移】3.(2022·全国甲卷)甲、乙两城之间的长途客车均由A 和B 两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:准点班次数未准点班次数A 24020B21030(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),α0.1000.0500.010x α2.7063.8416.635解(1)根据表中数据,A 家公司共有班次260次,其中准点班次有240次,设A 家公司长途客车准点事件为M ,则P (M )=240260=1213;B 家公司共有班次240次,其中准点班次有210次,设B 家公司长途客车准点事件为N ,则P (N )=210240=78.故A 家公司长途客车准点的概率为1213,B 家公司长途客车准点的概率为78.(2)由题可得χ2=500×(240×30-20×210)2(240+20)×(210+30)×(240+210)×(20+30)≈3.205>2.706,根据临界值表可知,有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.课时作业一、单项选择题1.如表是2×2列联表,则表中a ,b 的值分别为()y 1y 2合计x 1a 835x 2113445合计b4280A .27,38B .28,38C .27,37D .28,37答案A解析a =35-8=27,b =a +11=27+11=38.2.某课外兴趣小组通过随机调查,利用2×2列联表和χ2统计量研究数学成绩优秀是否与性别有关.计算得χ2=6.748,经查阅临界值表知P (χ2≥6.635)=0.010,则下列判断正确的是()A .每100名数学成绩优秀的人中就会有1名是女生B .若某人数学成绩优秀,那么他为男生的概率是0.010C .有99%的把握认为“数学成绩优秀与性别无关”D .在犯错误的概率不超过1%的前提下认为“数学成绩优秀与性别有关”答案D解析∵χ2=6.748>6.635,∴有99%的把握认为“数学成绩优秀与性别有关”,即在犯错误的概率不超过1%的前提下认为“数学成绩优秀与性别有关”.故选D.3.假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为y1y2合计x1101828x2m26m+26合计m+1044m+54则当整数m取________时,X与Y的关系最弱.()A.8B.9C.14D.19答案C解析在两个分类变量的列联表中,当|ad-bc|的值越小时,认为两个分类变量有关的可能性越小.令|ad-bc|=0,得10×26=18m,解得m≈14.4,又m为整数,所以当m=14时,X与Y的关系最弱.4.(2024·海南华侨中学模拟)某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下2×2列联表:偏爱蔬菜偏爱肉类合计50岁以下481250岁以上16218合计201030则可以说其亲属的饮食习惯与年龄有关的把握为()附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.α0.0500.0100.001xα 3.841 6.63510.828A.90%B.95% C.99%D.99.9%答案C解析根据列联表中数据,计算χ2=30×(4×2-8×16)212×18×20×10=10>6.635,可以说其亲属的饮食习惯与年龄有关的把握为99%.故选C.5.为了考查某种病毒疫苗的效果,现随机抽取100只小白鼠进行试验,得到如下2×2列联表:感染未感染合计服用104050未服用203050合计3070100附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.α0.100.050.0250.0100.0050.001xα 2.706 3.841 5.024 6.6357.87910.828根据以上数据,得到的结论正确的是()A.在犯错误的概率不超过2.5%的前提下,认为“小白鼠是否被感染与有没有服用疫苗有关”B.在犯错误的概率不超过1%的前提下,认为“小白鼠是否被感染与有没有服用疫苗有关”C.有95%的把握认为“小白鼠是否被感染与有没有服用疫苗有关”D.有95%的把握认为“小白鼠是否被感染与有没有服用疫苗无关”答案C解析依题意,χ2=100×(10×30-40×20)250×50×30×70=10021≈4.762,显然有3.841<4.762<5.024<6.635,所以有95%的把握认为“小白鼠是否被感染与有没有服用疫苗有关”,A,B,D不正确,C正确.6.假设有两个变量x与y的2×2列联表如下:y1y2x1a bx2c d对于以下数据,对同一样本能说明x与y有关系的可能性最大的一组为()A.a=20,b=30,c=40,d=50B.a=50,b=30,c=30,d=40C.a=30,b=60,c=20,d=50D.a=50,b=30,c=40,d=30答案B解析对于A,|ad-bc|=200;对于B,|ad-bc|=1100;对于C,|ad-bc|=300;对于D,|ad -bc|=300,显然B中|ad-bc|最大,该组数据能说明x与y有关系的可能性最大.7.为了解某社区60岁以上老年人使用手机支付和现金支付的情况,抽取了部分居民作为样本,统计其喜欢的支付方式,并制作出如下等高堆积条形图:根据图中的信息,下列结论中不正确的是()A.样本中多数男性喜欢手机支付B.样本中的女性数量少于男性数量C.样本中多数女性喜欢现金支付D.样本中喜欢现金支付的数量少于喜欢手机支付的数量答案C解析对于A,由题中右图可知,样本中多数男性喜欢手机支付,A正确;对于B,由题中左图可知,样本中的男性数量多于女性数量,B正确;对于C,由题中右图可知,样本中多数女性喜欢手机支付,C不正确;对于D,由题中右图可知,样本中喜欢现金支付的数量少于喜欢手机支付的数量,D正确.故选C.8.针对短视频热,某高校团委对学生性别和喜欢短视频是否有关联进行了一次调查,其中被调查的男生、女生人数均为5m(m∈N*),男生中喜欢短视频的人数占男生人数的45,女生中喜欢短视频的人数占女生人数的35.零假设为H0:喜欢短视频和性别相互独立.若依据α=0.05的独立性检验认为喜欢短视频和性别不独立,则m的最小值为()附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).α0.050.01x α3.8416.635A .7B .8C .9D .10答案C解析根据题意,不妨设a =4m ,b =m ,c =3m ,d =2m ,于是χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=10m ·(5m 2)25m ·5m ·7m ·3m =10m21,由于依据α=0.05的独立性检验认为喜欢短视频和性别不独立,根据表格可知10m 21≥3.841,解得m ≥8.0661,于是m 的最小值为9.二、多项选择题9.(2024·福建福州一中模拟)“一粥一饭,当思来之不易”,道理虽简单,但每年我国还是有2000多亿元的餐桌浪费,被倒掉的食物相当于2亿多人一年的口粮.为营造“节约光荣,浪费可耻”的氛围,某市发起了“光盘行动”.某机构为调研民众对“光盘行动”的认可情况,在某大型餐厅中随机调查了90位来店就餐的客人,制成如下所示的列联表,通过计算得到χ2的观测值为9.认可不认可40岁以下202040岁以上(含40岁)4010已知P (χ2≥6.635)=0.010,P (χ2≥10.828)=0.001,则下列判断正确的是()A .在该餐厅用餐的客人中大约有66.7%的客人认可“光盘行动”B .在该餐厅用餐的客人中大约有99%的客人认可“光盘行动”C .有99%的把握认为对“光盘行动”的认可情况与年龄有关D .在犯错误的概率不超过0.001的前提下,认为对“光盘行动”的认可情况与年龄有关答案AC解析∵χ2的观测值为9,且P (χ2≥6.635)=0.010,P (χ2≥10.828)=0.001,又9>6.635,但9<10.828,∴有99%的把握认为对“光盘行动”的认可情况与年龄有关,或者说,在犯错误的概率不超过0.010的前提下,认为对“光盘行动”的认可情况与年龄有关,故C正确,D错误;由表可知,认可“光盘行动”的人数为60,∴在该餐厅用餐的客人中认可“光盘行动”的比例为60×100%≈66.7%,故A正确,B错误.故选AC.9010.为了解阅读量多少与幸福感强弱之间的关系,一个调查机构根据所得到的数据,绘制了如下所示的2×2列联表(个别数据暂用字母表示):幸福感强幸福感弱合计阅读量多m1872阅读量少36n78合计9060150计算得χ2≈12.981,参照下表:α0.100.050.0250.0100.0050.001xα 2.706 3.841 5.024 6.6357.87910.828下列说法正确的是()A.根据小概率值α=0.010的独立性检验,可以认为“阅读量多少与幸福感强弱无关”B.m=54C.根据小概率值α=0.005的独立性检验,可以在犯错误的概率不超过0.5%的前提下认为“阅读量多少与幸福感强弱有关”D.n=52答案BC解析∵χ2≈12.981>7.879>6.635,∴根据小概率值α=0.010的独立性检验,可以在犯错误的概率不超过1%的前提下认为“阅读量多少与幸福感强弱有关”,根据小概率值α=0.005的独立性检验,可以在犯错误的概率不超过0.5%的前提下认为“阅读量多少与幸福感强弱有关”,∴A错误,C正确;∵m+36=90,18+n=60,∴m=54,n=42,∴B正确,D错误.故选BC.三、填空题11.某校为研究该校学生性别与体育锻炼的经常性之间的联系,随机抽取100名学生(其中男生60名,女生40名),并绘制得到如图所示的等高堆积条形图,则这100名学生中经常锻炼的人数为________.答案68解析这100名学生中经常锻炼的人数为60×0.8+40×0.5=68.12.长绒棉是世界上纤维品质最优的棉花,也是全球高端纺织品及特种纺织品的重要原料.新疆具有独特的自然资源优势,是我国最大的长绒棉生产基地,产量占全国长绒棉总产量的95%以上.新疆某农科所为了研究不同土壤环境下棉花的品质,选取甲、乙两地实验田进行种植.在棉花成熟后采摘,分别从甲、乙两地采摘的棉花中各随机抽取50份样本,测定其马克隆值,整理测量数据得到如下2×2列联表(单位:份),其中40≤a≤50且a∈N*.注:棉花的马克隆值是反映棉花纤维细度与成熟度的综合指标,是棉纤维重要的内在质量指标之一.根据现行国家标准规定,马克隆值可分为A,B,C三个级别,A级品质最好,B级为标准级,C级品质最差.A级或B级C级合计甲地a50-a50乙地80-a a-3050合计8020100当a=a0时,有99%的把握认为该品种棉花的马克隆值级别与土壤环境有关,则a0的最小值为________.附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.α0.0500.0100.001xα 3.841 6.63510.828答案46解析依题意,χ2≥6.635,即100×[a(a-30)-(50-a)(80-a)]250×50×80×20≥6.635,(10a-400)2≥2654,由于40≤a≤50且a∈N*,所以10a-400≥2654,a≥40+265410,因为45<40+265410<46,所以a0的最小值为46.四、解答题13.某城市地铁将于2024年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:月收入(单位:百元)[15,25)[25,35)[35,45)赞成定价者人数123认为价格偏高者人数4812月收入(单位:百元)[45,55)[55,65)[65,75]赞成定价者人数534认为价格偏高者人数521(1)若以区间的中点值作为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差距(结果保留两位小数);(2)由以上统计数据列出2×2列联表,依据小概率值α=0.01的独立性检验,可否认为“月收入以55百元为分界点对地铁定价的态度有差异”?附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.α0.10.050.010.005xα 2.706 3.841 6.6357.879解(1)“赞成定价者”的月平均收入为x1=20×1+30×2+40×3+50×5+60×3+70×41+2+3+5+3+4≈50.56.“认为价格偏高者”的月平均收入为x2=20×4+30×8+40×12+50×5+60×2+70×14+8+12+5+2+1=38.75,∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x1-x2≈50.56-38.75=11.81(百元).(2)根据条件可得2×2列联表如下:对地铁定价的态度月收入合计不低于55百元的人数低于55百元的人数认为价格偏高者32932赞成定价者71118合计104050零假设为H0:月收入以55百元为分界点对地铁定价的态度无差异.χ2=50×(3×11-29×7)232×18×10×40≈6.27<6.635=x0.01,∴根据小概率值α=0.01的独立性检验,没有充分证据推断H0不成立,因此可以认为“月收入以55百元为分界点对地铁定价的态度无差异”.14.(2023·全国甲卷)一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).试验结果如下:对照组的小白鼠体重的增加量从小到大排序为15.218.820.221.322.523.225.826.527.530.132.634.334.835.635.635.836.237.340.543.2试验组的小白鼠体重的增加量从小到大排序为7.89.211.412.413.215.516.518.018.819.219.820.221.622.823.623.925.128.232.336.5(1)计算试验组的样本平均数;(2)(ⅰ)求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数据的个数,完成如下列联表;<m≥m对照组试验组(ⅱ)根据(ⅰ)中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异?附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),α0.1000.0500.010xα 2.706 3.841 6.635解(1)试验组的样本平均数为120×(7.8+9.2+11.4+12.4+13.2+15.5+16.5+18.0+18.8+19.2+19.8+20.2+21.6+22.8+23.6+23.9+25.1+28.2+32.3+36.5)=39620=19.8.(2)(ⅰ)依题意,可知这40只小白鼠体重的增加量的中位数是将两组数据合在一起,从小到大排序后第20位与第21位数据的平均数,第20位数据为23.2,第21位数据为23.6,所以m=23.2+23.62=23.4,故列联表为<m≥m对照组614试验组146(ⅱ)由(ⅰ)可得,χ2=40×(6×6-14×14)220×20×20×20=6.4>3.841,所以能有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异.。
8.3.1分类变量与列联表(解析版)

8.3.1分类变量与列联表导学案【学习目标】1.了解独立性检验的基本思想、方法及其简单应用2.能利用2×2列联表进行独立性检验,提升利用图表进行数据分析的能力【自主学习】知识点一分类变量和列联表(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表①定义:列出的两个分类变量的频数表称为列联表.②2×2列联表一般地,假设两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(也称为2×2列联表)为下表.知识点二等高条形图(1)等高条形图与表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.aa+b和cc+d相差很大,就判断两个分类变量之间有关系.(2)观察等高条形图发现【合作探究】探究一等高条形图【例1】在等高条形图中,下列哪两个比值相差越大,要推断的论述成立的可能性就越大()A.aa+b与dc+dB.ca+b与ac+dC.aa+b与cc+dD.aa+b与cb+c【答案】C解析由等高条形图可知aa+b与cc+d的值相差越大,|ad-bc|就越大,相关性就越强.归纳总结:【练习1】观察下列各图,其中两个分类变量x,y之间关系最强的是()【答案】D解析观察等高条形图发现x1x1+y1与x2x2+y2相差很大,就判断两个分类变量之量关系最强.探究二22 列联表【例2】在海南省第二十四届科技创新大赛活动中,某同学为研究“网络游戏对当代青少年的影响”作了一次调查,共调查了50名同学,其中男生26人,有8人不喜欢玩电脑游戏,而调查的女生中有9人喜欢玩电脑游戏.根据以上数据建立一个2×2的列联表;解2×2列联表归纳总结:【练习2】下面是一个2×2列联表:则表中a、b处的值分别为()A.94,96B.52,50 C.52,54D.54,52【答案】C【解析】由21732aa b+=⎧⎨+=⎩得5254ab=⎧⎨=⎩探究三列联表的应用【例3】在某测试中,卷面满分为100分,60分为及格,为了调查午休对本次测试前两个月复习效果的影响,特对复习中进行午休和不进行午休的考生进行了测试成绩的统计,数据如下表所示:(1)根据上述表格完成列联表:(2)根据列联表可以得出什么样的结论?对今后的复习有什么指导意义? 解 (1)根据题表中数据可以得到列联表如下:(2)计算可知,午休的考生及格率为P 1=80180=49,不午休的考生的及格率为P 2=65200=1340,则P 1>P 2,因此,可以粗略判断午休与考生考试及格有关系,并且午休的及格率高,所以在以后的复习中考生应尽量适当午休,以保持最佳的学习状态.归纳总结:【练习3】假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其2×2列联表为对同一样本,以下数据能说明A.a=5,b=4,c=3,d=2B.a=5,b=3,c=4,d=2C.a=2,b=3,c=4,d=5D.a=3,b=2,c=4,d=5【答案】D【解析】对于同一样本,|ad-bc|越小,说明x与y相关性越弱,而|ad-bc|越大,说明x与y相关性越强,通过计算知,对于A,B,C都有|ad-bc|=|10-12|=2;对于选项D,有|ad-bc|=|15-8|=7,显然7>2.课后作业A组基础题一、选择题1.下面的等高条形图可以说明的问题是()A.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响是绝对不同的B.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响没有什么不同C.此等高条形图看不出两种手术有什么不同的地方D.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响在某种程度上是不同的,但是没有100%的把握【答案】D【解析】由等高条形图可知选项D正确.2.某市对公共场合禁烟进行网上调查,在参与调查的2500名男性市民中有1000名持支持态度,2500名女性市民中有2000人持支持态度,在运用数据说明市民对在公共场合禁烟是否支持与性别有关系时,用什么方法最有说明力A.平均数与方差B.回归直线方程C.独立性检验D.概率【答案】C【解析】独立性检验研究的是两个分类变量之间的相关关系,所以市民对在公共场合禁烟是否支持与性别有关系时,用独立性检验最有说明力.【名师点睛】本题考查对独立性检验概念的理解,属于简单题. 3.观察下列各图,其中两个分类变量x ,y 之间关系最强的是( )【答案】D【解析】在四幅图中,D 图中两个深色条的高相差最明显,说明两个分类变量之间关系最强. 4. 如图2×2列联表中a 、b 的值分别为( )A. 54,43B. 53,43C. 53,42D. 54,42【答案】:B【分析】由22⨯列联表,可列出方程(组),求出a 和b 的值. 【详解】由22⨯列联表,可得78121b +=,则43b =,又由234878d a d +=⎧⎨+=⎩解得53a =.故选:B. 二、填空题5.下面是2×2列联表:y 1 y 2 合计 x 1 a 28 35 x 2 11 34 45 合计b6280则表中a = ,b = . 【答案】7; 18【解析】由题意,a +28=35,a +11=b ,∴a =7,b =18故【答案】为:7,18 6.根据如图所示的等高条形图可知吸烟与患肺病 关系(填“有”或“没有”).【答案】有【解析】从等高条形图上可以明显地看出吸烟患肺病的频率远远大于不吸烟患肺病的频率. 7.下表是不完整的2×2列联表,其中3a c =,2b d =,则a =______.【答案】:15 【分析】根据列联表,列方程组解得即可.【详解】由题意得5512055a b c d +=⎧⎨+=-⎩, 又3a c =,2b d =,所以255365a d a d +=⎧⎨+=⎩,解得15a =.故【答案】为:15 三、解答题8.为了研究子女吸烟与父母吸烟的关系,调查了一千多名青少年及其家长,数据如下:605利用等高条形图判断父母吸烟对子女吸烟是否有影响? 【解析】等高条形图如下:由图形观察可以看出父母吸烟者中子女吸烟的比例要比父母不吸烟者中子女吸烟的比例高,因此可以在某种程度上认为“子女吸烟与父母吸烟有关系”.9.某学校对高三学生作了一项调查,发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张.作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.【解析】作列联表如下:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例.从图中可以看出考前心情紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关.B 组 能力提升一、选择题1.假设有两个变量x 与y 的2×2列联表如下表:对于以下数据,对同一样本能说明x 与y 有关系的可能性最大的一组为( ) A. 2a =,3b =,4c =,5d = B. 5a =,3b =,3c =,4d = C. 3a =,6b =,2c =,5d = D. 5a =,3b =,4c =,3d =【答案】:B 【分析】当ad 与bc 差距越大,两个变量有关的可能性就越大,检验四个选项中所给的ad 与bc 的差距,只有第二个选项差距大,得到结果.【详解】解:根据观测值求解的公式可以知道, 当ad 与bc 差距越大,两个变量有关的可能性就越大, 检验四个选项中所给的ad 与bc 的差距:A:ad bc 10122-=-=- B:ad bc 20911-=-=C:ad bc 15123-=-= D:ad bc 15123-=-=显然B 中ad bc -最大. 故【答案】为B.2.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()表1表2表3表4A. 成绩B. 视力C. 智商D. 阅读量【答案】:D 【分析】根据公式()()()()()22n ad bc K a b c d a c b d -=++++分别计算得观察值,比较大小即可得结果.【详解】根据公式()()()()()22n ad bc K a b c d a c b d -=++++分别计算得:A.2252(6221014):0.00916363220A K ⨯-⨯=≈⨯⨯⨯;2252(4201216): 1.76916363220B K ⨯-⨯=≈⨯⨯⨯;2252(824812): 1.316363220C K ⨯-⨯=≈⨯⨯⨯;2252(143062):23.4816363220D K ⨯-⨯=≈⨯⨯⨯选项D 的值最大,所以与性别有关联的可能性最大,故选D.3.(多选题)随着我国经济结构调整和方式转变,社会对高质量人才的需求越来越大,因此考研现象在我国不断升温.某大学一学院甲、乙两个本科专业,研究生的报考和录取情况如下表,则A. 甲专业比乙专业的录取率高B. 乙专业比甲专业的录取率高C. 男生比女生的录取率高D. 女生比男生的录取率高【答案】:BC 【分析】根据数据进行整合,甲专业录取了男生25人,女生90人;乙专业录取了男生180人,女生50人;结合选项可得结果.【详解】由题意可得甲专业录取了男生25人,女生90人;乙专业录取了男生180人,女生50人;甲专业的录取率为259028.75%100300+=+,乙专业的录取率为1805046%400100+=+,所以乙专业比甲专业的录取率高.男生的录取率为2518041%100400+=+,女生的录取率为905035%300100+=+,所以男生比女生的录取率高.故选:BC. 二、解答题4.针对某新型病毒,某科研机构已研发出甲、乙两种疫苗,为比较两种疫苗的效果,选取100名志愿者,将他们随机分成两组,每组50人.第一组志愿者注射甲种疫苗,第二组志愿者注射乙种疫苗,经过一段时间后,对这100名志愿者进行该新型病毒抗体检测,发现有110的志愿者未产生该新型病毒抗体,在未产生该新型病毒抗体的志愿者中,注射甲种疫苗的志愿者占15.根据题中数据,完成列联表; 【答案】:列联表【答案】见解析.【详解】由题意可得未产生该新型病毒抗体的志愿者的人数为11001010⨯=, 则注射甲种疫苗的志愿者中未产生抗体的人数为11025⨯=,产生抗体的人数为50248-=; 注射乙种疫苗的志愿者中未产生抗体的人数为1028-=,产生抗体的人数为50842-=.。
分类变量与列联表

张的学生中女生的频率比考前心情不紧张的学生中女生的频
率高,可以认为考前心情与性别有关联.
[课堂评价]
1.下列变量中,不属于分类变量的是
A.性别
B.吸烟
C.学历
(
)
D.国籍
解析:“吸烟”不是分类变量,“是否吸烟”才是分类变量.
答案:B
2.下面的 2×2 列联表中,a,b 的值分别为
38
35
73
试绘制出列联表对应的等高堆积条形图,分析铅中毒病
人组和对照组的尿棕色素为阳性数有无差别,铅中毒病人与
尿棕色素为阳性是否有关联.
解:铅中毒病人组中尿棕色素为阳性和阴性的频率分别为
29
7
≈0.805 6 和 ≈0.194 4.
36
36
9
37
对照组中尿棕色素为阳性和阴性的频率分别为 ≈0.243 2 和
X
Y
)
合计
Y=y1
Y=y2
X=x1
c
a
e
X=x2
23
d
48
合计
b
78
121
A.54,43 B.53,43
(
C.53,42
D.54,42
解析:由 2×2 列联表可知,d=48-23=25,b=121-78=43,所以
a=78-d=78-25=53.故选 B.
答案:B
3.观察下列各图,其中两个分类变量 X,Y 之间关联性最
成对
数据
的统计分析
8.3
8.3.1
[学习目标]
列联表与独立性检验
分类变量与列联表
1.理解分类变量与列联表的含义.
8.3.1分类变量与列联表8.3.2 独立性检验PPT课件(人教版)
18×0.08+20×0.02=12.16.
由前4组的频率之和为0.04+0.06+0.10+0.10=0.30,前5组的频率之和为0.30+0.30=0.
6,知样本中位数落在第5组,设样本中位数为t,则(t-11)×0.15=0.5-0.3,所以t= 37 .
3
故可以估计该市不超过40岁的市民日健步走步数的平均数为12.16,中位数为 37 .
50 50 45 55
概率不超过0.001的前提下认为使用手机与学习成绩有关.故选A. 答案 A
第八章 成对数据的统计分析
2 |独立性检验与统计、概率的综合应用
通过频率散布直方图中的统计功能完善2×2列联表,从而对事件进行独立性检 验,准确读取频率散布直方图中的数据,进行分组统计是解题的关键.解决独立性检 验的问题要注意明确两类主体,明确研究的两类问题,再就是准确列出2×2列联表, 准确计算χ2.在写出2×2列联表中a,b,c,d的值时,注意一定要按顺序.
成绩不优秀 10 45 55
合计 50 50 100
第八章 成对数据的统计分析
A.在犯错误的概率不超过0.001的前提下认为使用手机与学习成绩有关 B.在犯错误的概率不超过0.001的前提下认为使用手机与学习成绩无关 C.有99.5%的把握认为使用手机对学习成绩没有影响 D.没有99%的把握认为使用手机对学习成绩有影响 解析 由题中表格得,χ2=100 (40 45-10 5)2 ≈49.495>10.828=x0.001,所以在犯错误的
3
(ii)[μ-2σ,μ+σ]=[4.88,15.8],
而P(μ-2σ≤Z≤μ+σ)= 1P(μ-2σ≤Z≤μ+2σ)+ 1P(μ-σ≤Z≤μ+σ)≈0.818 6,
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
答案第1页,总16页 高考数学专题复习:分类变量与列联表 一、单选题 1.有下列说法:
①两个随机变量的线性相关性越强,相关系数的绝对值越接近于1; ②设有一个回归方程ˆ12yx,则变量x增加1个单位时,ˆy平均增加2个单位; ③回归直线ˆˆˆybxa必过样本点的中心(),xy; ④对分类变量x与y的随机变量2K的观测值k来说,k越小,判断“x与y有关系”的把握越
大. 其中错误的个数是( ) A.0 B.1 C.2 D.3 2.在对人们休闲方式的一次调查中,根据数据建立如下的22列联表:
休闲 性别 看电视或玩手机 运动或旅游
男 10 22 女 16 12
为了判断休闲方式是否与性别有关,根据表中数据,得到2260101222164.07732282634K
.
因为23.8416.635K,所以判定休闲方式与性别有关系,那么这种判断( )[参考数据:23.8410.05PK,26.6350.01PK]
A.出错的可能性至多为5% B.出错的可能性至多为1% C.出错的可能性至少为5% D.出错的可能性至少为1% 3.随机调查了相同数量的男、女学生,发现有80%的男生喜欢网络课程,有40%的女生不
喜欢网络课程,且有99%的把握但没有99.9%的把握认为是否喜欢网络课程与性别有关,则被调查的男、女学生总数量可能为( )
附:22nadbcKabcdacbd,其中nabcd. 答案第2页,总16页
2
0PKk
0.15 0.10 0.05 0.025 0.010 0.005 0.001
0k 2.072 2.706 3.841 5.024 6.635 7.879 10.828
A.100 B.150 C.250 D.300 4.下表是一个22列联表,则表中a,b的值分别为( )
1y 2y 总计
1x b 21
e
2x c 25 33
总计 a d 100
A.46,54 B.54,46 C.52,54 D.50,52 5.独立性检验适用于检查( )变量之间的关系. A.线性 B.非线性 C.解释与预报 D.分类 6.下列说法中正确的是( ) A.若分类变量X和Y的随机变量2K的观测值k越大,则"X与Y相关"的可信程度越小 B.对于自变量x和因变量y,当x取值一定时,y的取值具有一定的随机性,x,y间的
这种非确定关系叫做函数关系 C.相关系数2r越接近1,表明两个随机变量线性相关性越弱 D.若分类变量X与Y的随机变量2K的观测值k越小,则两个分类变量有关系的把握性越
小 7.下列说法中正确的个数是( ) ①某校共有女生2021人,用简单随机抽样的方法先剔除21人,再按简单随机抽样的方法抽
取为200人,则每个女生被抽到的概率为110; ②设有一个回归方程35yx,变量x增加1个单位时,y平均增加5个单位; ③将一组数据中的每一个数据都加上或减去同一个常数后,方差不变; 答案第3页,总16页
④具有线性相关关系的两个变量x,y的相关系数为r.则r越接近于0,x,y之间的线性
相关程度越高; ⑤在一个22列联表中,由计算得出220.21K,而210.8280.001PK,则在犯错误的概
率不超过0.001的前提下认为这两个变量之间有相关关系 A.1 B.2 C.3 D.4 8.两个分类变量X和Y,它们的取值分别为12,xx和12,yy,其样本频数列联表如下表
所示:
1y 2y
合计
1x a b ab
2x c d cd
合计 ac bd abcd
则下列四组数据中,分类变量X和Y之间关系最强的是( ) A.4a,2b,3c,6d B.2a,1b,3c,5d C.4a,5b,6c,8d D.2a,3b,4c,6d 9.在一次独立性检验中,得出列联表如下:
A A 合计
B 200 800 1 000 B 180 a 180+a 合计 380 800+a 1 180+a 且最后发现,两个分类变量A和B没有任何关系,则a的可能值是( ) A.200 B.720 C.100 D.180 10.从某学校获取了数量为400的有放回简单随机样本,将所得数学和语文期末考试成绩的
样本观测数据整理如面表格:语文成绩优秀的人中数学成绩优秀的频率为m,通过计算答案第4页,总16页
20.0014010.828x,则( )
数学 语文 合计 不优秀 优秀 不优秀 210
60 270
优秀 60 70 130
合计 270 130 400
A.713m,数学成绩与语文成绩无关联 B.613m,数学成绩与语文成绩无关联 C.713m,数学成绩与语文成绩有关联且该推断犯错误的概率不超过0.001 D.613m,数学成绩与语文成绩有关联且该推断犯错误的概率不超过0.001 11.关于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是( ) A.k的值越大,“X和Y有关系”可信程度越小 B.k的值越小,“X和Y有关系”可信程度越小 C.k的值越接近于0,“X和Y无关”程度越小 D.k的值越大,“X和Y无关”程度越大 12.某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下22列联表:
偏爱蔬菜 偏爱肉类 合计 50岁以下 4 8 12
50岁以上 16 2 18
合计 20 10 30 则可以说其亲属的饮食习惯与年龄有关的把握为( )
附:参考公式和临界值表22()()()()()nadbcKabcdacbd
答案第5页,总16页
2()PKk 0.050 0.010 0.001
k 3.841 6.635 10.828
A.90% B.95% C.99% D.99.9% 二、填空题 13.下面是一个22列联表,则表中a处的值为________.
1y 2y
合计
1x a b 73
2x 2 25 c
合计 d 46
14.对X与Y进行独立性检验时,关于随机变量2K的下列说法中,正确的有________.(填
序号). ①2K的值越大,X与Y的相关性越大; ②2K的值越小“X与Y有关系”的可信程度越小; ③若求出24K,则有95%的把握认为“X与Y有关系”,即“X与Y有关系”的推断出现错
误的概率不会超过0.05; ④在22列联表中,若每个数据变为原来的3倍,则2K的值变为原来的3倍.
附:2
2,nadbcKnabcdabcdacbd
2
0PKk 0.050 0.010 0.001
0k 3.841 6.635 10.828
15.在一个22列联表中,由计算得213.079K,则判断“这两个变量有关系”时,判断出错
的可能性是________. 附:临界值表: 答案第6页,总16页
2PKk 0.050 0.010 0.001
k 3.841 6.635 10.828
16.下面是一个22列联表:
1y 2y
总计
1x 35 a 70
2x 15 15 30
总计 50 b 100 其中,ab处填的值分别为________. 三、解答题 17.为了研究某种疾病的治愈率,某医院对100名患者中的一部分患者采用了外科疗法,另
一部分患者采用了化学疗法,并根据两种治疗方法的治愈情况绘制了等高堆积条形图,如下:
(1)根据图表完善以下关于治疗方法和治愈情况的22列联表: 疗法 疗效 合计 未治愈 治愈
外科疗法 化学疗法 18 合计 100 (2)依据小概率值0.05的独立性检验,分析此种疾病治愈率是否与治疗方法有关.