2乘2列联表练习题

合集下载

2016-2017学年高二数学北师大版选修1-2练习:第一章 统计案例 2 Word版含解析

2016-2017学年高二数学北师大版选修1-2练习:第一章 统计案例 2 Word版含解析

答案 0.01 解析 因为 χ2>6.635,我们有 99%的把握认为两个研究对象Ⅰ和Ⅱ有关,所以我们为“两 个研究对象Ⅰ和Ⅱ无关”的可信程度是 0.01.
9.下列说法正确的是________.(填序号)
①对事件 A 与 B 的检验无关,即两个事件互不影响; ②事件 A 与 B 关系越密切,χ2 就越大;
③χ2 的大小是判断事件 A 与 B 是否相关的唯一数据; ④若判定两事件 A 与 B 有关,则 A 发生 B 一定发生.
答案 ② 解析 对于①,事件 A 与 B 的检验无关,只是说两事件的相关性较小,并不一定两事件互 不影响,故①错.②是正确的.对于③,判断 A 与 B 是否相关的方式很多,可以用列联表, 也可以借助于概率运算,故③错.对于④,两事件 A 与 B 有关,说明两者同时发生的可能 性相对来说较大,但并不是 A 发生 B 一定发生,故④错.
χ2= 86 × 103 × 95 × 94 ≈38.459. ∵38.459>6.635,∴有 99%的把握说,学生学习数学的兴趣与数学成绩是有关的.
[呈重点、现规律] 1.独立性检验的思想:先假设两个事件无关,计算统计量 χ2 的值.若 χ2 值较大,则拒绝 假设,认为两个事件有关. 2.独立性检验的步骤: ①画列联表; ②计算 χ2; ③将得到的 χ2 值和临界值比较,下结论.
其中,a 表示变量 A 取 A1,且变量 B 取 B1 时的数据,b 表示变量 A 取 A1,且变量 B 取 B2 时的数据;c 表示变量 A 取 A2,且变量 B 取 B1 时的数据;d 表示变量 A 取 A2,且变量 B 取 B2 时的数据.上表在统计中称为 2×2 列联表. 2.统计量 χ2
nad-bc2 χ2=a+bc+da+cb+d. 3.独立性检验 当 χ2≤2.706 时,没有充分的证据判定变量 A,B 有关联; 当 χ2>2.706 时,有 90%的把握判定变量 A,B 有关联; 当 χ2>3.841 时,有 95%的把握判定变量 A,B 有关联; 当 χ2>6.635 时,有 99%的把握判定变量 A,B 有关联.

高中数学苏教版选择性必修第二册9.2独立性检验

高中数学苏教版选择性必修第二册9.2独立性检验
X=0 X=1 合计
Y
Y=0
Y=1
a
21
8
25
b
46
合计
73 33
则表中a,b处的值分别为
√ A.94,96 B.52,50 C.52,60
D.54,52
解析 ∵a+21=73,∴a=52,b=a+8=52+8=60.
1234
2.(多选)给出下列实际问题,其中用独立性检验可以解决的问题有
解 由题意,可得2×2列联表如下:
看营养说明
男同胞
27
女同胞
16
合计
43
不看营养说明 9 20 29
合计 36 36 72
提出假设H0:购物市民的性别与是否看营养说明之间没有关系.根据列 联表中的数据,可以求得 χ2=72×36×273×6×204-3×162×9 92≈6.986.
∵当H0成立时,χ2≥6.635的概率约为0.01, ∴有99%的把握认为购物市民的性别和是否看营养说明之间有关系.
角度2 由χ2进行独立性检验 例3 某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业 性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服, 其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎 患病(阳性是指工人患皮肤病)人数如下:
新防护服 旧防护服
合计
阳性例数 5 10 15
P(χ2≥x0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
例如: (1)若χ2>10.828,则有99.9%的把握认为“Ⅰ与Ⅱ有关系”; (2)若χ2>6.635,则有99%的把握认为“Ⅰ与Ⅱ有关系”; (3)若χ2>2.706,则有90%的把握认为“Ⅰ与Ⅱ有关系”; (4)若χ2≤2.706,则认为没有充分的证据显示“Ⅰ与Ⅱ有关系”,但也 不能作出结论“H0成立”,即Ⅰ与Ⅱ没有关系. 注意点: 独立性检验的基本思想类似于反证法,我们可以利用独立性检验来考察 两个对象是否有关,并且能较精确地给出这种判断的把握程度.

数学湘教版选修1-2自我小测:4.3 列联表独立性分析案

数学湘教版选修1-2自我小测:4.3 列联表独立性分析案

自我小测1.由下表中的数据计算χ2的值约为( ).A .9.45B .6.08C .1.78D .0.012.关于2×2列联表:说法正确的是( ).A .n =n +1+n 2+B .χ2=n (n 11n 12-n 21n 22)2n 1+n 2+n +1n +2 C .两个因素X ,Y 对应的两个水平构成的集合分别为{A ,A },{B ,B }D .以上说法都不对3.在对吸烟与患肺癌这两个因素的研究计算中,下列说法中正确的是( ).A .若统计量χ2>6.64,我们有99%的把握说吸烟与患肺癌有关,则某人吸烟,那么他有99%的可能患肺癌B .若从统计中得出,有99%的把握说吸烟与患肺癌有关,则在100个吸烟者中必有99个人患有肺病C .若从统计量中得出,有99%的把握说吸烟与患肺癌有关,是指有1%的可能性使得推断错误D .以上说法均不正确4.由下面的2×2列联表中的数据计算χ2的值约为( ).A.3.689 B.3.968C.6.389 D.9.6835.由下面的2×2列联表中的数据计算χ2的值约为().A.6.803 3 B.68.033C.8.603 3 D.3.680 36.已知表中数据:则进行了浸种处理与发生病虫害________明显关系.(填“有”或“无”)7.某次航运中,海上出现恶劣气候.随机调查男、女乘客在船上晕船的情况如下表所示:根据此资料你认为在恶劣气候航行中,________理由说晕船与性别有关.(填“有”或“没有”)8.在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算,得χ2=27.63.根据这一数据分析,我们有理由认为打鼾与患心脏病是________的.(填“有关”或“无关”) 9.某地震观测站对地下水位的变化和发生地震的情况共进行了n=1 700次观测,列联表如下:问观测结果是否说明地下水位的变化与地震的发生相关?参考答案1.C χ2=(39×167-29×157)2×39268×324×196×196≈1.78. 2.C n =n +1+n +2=n 1++n 2+=n 11+n 12+n 21+n 22,故排除选项A ;χ2=n (n 11n 22-n 21n 12)2n 1+n 2+n +1n +2,故排除选项B.3.C 要注意χ2仅是一个统计量,我们只能认为若χ2>6.64,则有99%的把握说吸烟与患肺癌有关,也就是说我们有1%的可能性犯错误.4.A 由公式得χ2=89×(24×26-31×8)255×34×32×57≈3.689. 5.B 由题意知n 11=30,n 12=224,n 21=24,n 22=1 355,n +1=54,n +2=1 579,n 1+=254,n 2+=1 379,n =1 633.χ2=n (n 11n 22-n 12n 21)2n 1+n 2+n +1n +2 =1 633×(30×1 355-224×24)2254×1 379×54×1 579≈68.033. 6.有 ∵χ2=280×(20×80-80×100)2120×160×100×180≈33.19>6.64, ∴我们有99%的把握认为进行了浸种处理与发生病虫害有关.7.没有 由题中列联表中数据得χ2=115×(32×24-51×8)283×32×40×75=1.870. 因为1.870<3.84,所以我们没有理由说晕船与性别有关.8.有关9.解:根据列联表中的数据得到χ2=1 700×(98×618-82×902)2180×1 520×1 000×700≈1.59<3.84, 所以没有充分的证据说明地下水位的变化与地震的发生相关.。

二乘二列联表解题步骤

二乘二列联表解题步骤

二乘二列联表解题步骤二乘二列联表解题步骤:第一步:明确题意,寻找题干中的两个变量。

在开始列联表解题之前,我们需要先明确题意,找到题干中的两个变量。

例如:一项调查问卷中,记录了被调查者的性别和最喜欢的球类运动。

这个例子中,两个变量分别是“性别”和“最喜欢的球类运动”。

第二步:绘制二乘二列联表。

根据题目所给的两个变量,绘制一个二乘二的列联表。

在第一列和第一行填上两个变量的取值,例如:在性别这一列填上“男”和“女”,在最喜欢的球类运动这一行填上“足球”和“篮球”。

第三步:统计频数。

根据题目的要求,统计出每个交叉分类下的频数,即每个区域内对应的样本数。

例如:在“男性喜欢足球”的区域内,有18位男性被调查者最喜欢足球。

第四步:计算比例。

以每个交叉分类下的频数为基础,计算出每个分类下的比例。

例如:在“男性喜欢足球”的区域内,男性喜欢足球的比例为36%。

第五步:绘制百分比列联表。

把第四步中计算出的比例填写到表格中,以便更好地了解两个变量之间的关系。

例如:在二乘二列联表中,“男性喜欢足球”的区域内,男性喜欢足球的比例为36%。

第六步:进行分析。

通过表格中不同分类下的比例,可以观察到两个变量之间的关系。

例如:在某项调查问卷中,男性喜欢足球的比例高于女性喜欢足球的比例。

这是一个比较明显的性别和运动喜好的关系。

以上就是二乘二列联表解题的基本步骤。

需要注意的是,在进行统计和计算时,应该准确无误地记录数据,避免出现数据误差。

同时,在分析结果时,应该把数据放在一个较大的背景中进行思考,避免单纯地从个别数据中得出结论。

北京市高中数学 统计案例课后练习 新人教A版选修23

北京市高中数学 统计案例课后练习 新人教A版选修23

专题统计案例课后练习题一:为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如下2×2列联表:理科文科合计男131023女72027合计203050根据表中数据,得到χ2=50×(13×20-10×7)223×27×20×30≈4.844,则认为选修文科与性别有关系出错的可能性约为________.题二:在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关”的结论,并且在犯错误概率不超过0.01的前提下认为这个结论是成立的,则下列说法中正确的是( ) A.100个吸烟者中至少有99人患有肺癌B.1个人吸烟,那么这人有99%的概率患有肺癌C.在100个吸烟者中一定有患肺癌的人D.在100个吸烟者中可能一个患肺癌的人也没有题三:在一次对性别与说谎是否相关的调查中,得到如下数据:说谎不说谎合计男6713女8917合计141630根据表中数据,得到如下结论中正确的一项是( )A.在此次调查中有95%的把握认为是否说谎与性别有关B.在此次调查中有99%的把握认为是否说谎与性别有关C.在此次调查中有99.5%的把握认为是否说谎与性别有关D.在此次调查中没有充分的证据显示说谎与性别有关题四:通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女合计爱好4020[来源:Z+x60x+k .Co m]不爱好 20 30 50 合计6050110由χ2=n (n 11n 22-n 12n 21)2n 1+n 2+n +1n +2算得,χ2=110×(40×30-20×20)260×50×60×50≈7.8.根据具体数据算出的χ2,得到的正确结论是( )A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关”题五:已知数组(x 1,y 1),(x 2,y 2),…,(x 10,y 10)满足线性回归方程y ^=b ^x +a ^,则“(x 0,y 0)满足线性回归方程y ^=b ^x +a ^”是“x 0=121010y y y ++…+,y 0=121010x x x ++…+”的( )A .充分不必要条件B .必要不充分条件C .充要条件D .既不充分也不必要条件题六:某考察团对全国10大城市的居民人均工资收入x (万元/年)与居民人均消费y (万元/年)进行统计调查,发现y 与x 具有相关关系,且y 对x 的回归方程为y ^=0.66x +1.562.若某城市居民人均消费为7.675(万元/年),估计该城市人均消费占人均工资收入的百分比约为________.题七:某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:该兴趣小组确定的研究方案是:先从这六组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验.(1)求选取的2组数据恰好是相邻两个月的概率;(2)若选取的是1月与6月的两组数据,请根据2至5月份的数据,求出y 关于x 的线性回归方程y ^=bx +a ;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想.参考公式:b =11222211()(),()n ni iiii i nniii i x y nx y x x y y b a y bx xnxxx ====---===---∑∑∑∑题八:已知x ,y 的一组数据如下表:x 1 3 6 7 8 y12345(1)从x ,y 中各取一个数,求x +y ≥10的概率;(2)对于表中数据,甲、乙两同学给出的拟合直线分别为y =13x +1与y =12x +12,试利用“最小平方法(也称最小二乘法)”判断哪条直线拟合程度更好.题九:已知x ,y 之间的数据如表所示,则回归直线过点________.x 1 2 3 4 5 y1.21.82.53.23.8题十:在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12D .1题十一: 有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:优秀 非优秀 总计 甲班 10b乙班 c 30总计105已知在全部105人中随机抽取1人,成绩优秀的概率为7,则下列说法正确的是( )A .列联表中c 的值为30,b 的值为35B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系” 题十二: 某网站就“民众是否支持加大修建城市地下排水设施的资金投入”进行投票.按照北京暴雨前后两个时间收集有效投票,暴雨后的投票收集了50份,暴雨前的投票也收集了50份,所得统计结果如下表:支持 不支持 总计 北京暴雨后 xy50 北京暴雨前 203050 总计A B100已知工作人员从所有投票中任取一个,取到“不支持投入”的投票的概率为25.(1)求列联表中的数据x ,y ,A ,B 的值;(2)绘制条形统计图,通过图形判断本次暴雨是否影响到民众对加大修建城市地下排水设施的投入的态度?(3)能够有多大把握认为北京暴雨对民众是否赞成加大对修建城市地下排水设施的投入有关? 附:K 2=n (ad -bc )2(a +b)(c +d )(a +c)(b +d )P (K 2≤k )0.15 0.10 0.05 0.025 0.010 0.005 0.001 k2.0722.7063.8415.0246.6357.87910.828题十三: 在研究色盲与性别的关系调查中,调查了男性480人,其中有38人患色盲,调查的520名女性中,有6人患色盲.(1)根据以上数据建立一个2×2列联表;(2)若认为“性别与患色盲有关系”,求出错的概率.题十四: 某班主任对全班50名学生进行了作业量多少的调查.数据如下表:认为作业多认为作业不多总计 喜欢玩游戏 18 9 不喜欢玩游戏8 15 总计(1)请完善上表中所缺的有关数据;(2)试通过计算说明能否认为喜欢玩游戏与作业量的多少有关系?附:χ2=n (n 11n 22-n 12n 21)2n 1+n 2+n +1n +2.题十五:某学生对其亲属30人的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主.)(1)根据茎叶图,帮助这位学生说明其亲属30人的饮食习惯; (2)根据以上数据完成下列2×2的列联表:主食蔬菜主食肉类合计 50岁以下 50岁以上 合计(3)能否有99%的把握认为其亲属的饮食习惯与年龄有关,并写出简要分析.题十六: 通过随机询问某校110名高中学生在购买食物时是否看营养说明,得到如下的列联表:男 女 总计 看营养说明503080不看营养说明10 20 30 总计6050110(1)从这50名女生中按是否看营养说明采取分层抽样的方法抽取一个容量为5的样本,则样本中看与不看营养说明的女生各有多少名?(2)从(1)中的5名女生样本中随机选取两名作深度访谈,求选到看与不看营养说明的女生各一名的概率;(3)根据以上列联表,问有多大把握认为“性别与在购买食物时是否看营养说明”有关? 参考公式:K 2=n (ad -bc )2(a +b)(c +d )(a +c)(b +d ),其中n =a +b +c +d .参考数据:P (K 2≥k 0)0.10 0.05 0.025 0.010 0.005 k 02.7063.8415.0246.6357.879题十七:某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,所得数据如下表:x 6 8 10 12 y2356则y 对x A.y ^=2.3x -0.7 B.y ^=2.3x +0.7 C.y ^=0.7x -2.3D.y ^=0.7x +2.3题十八:某种产品的广告费支出x 与销售额y (单位:万元)之间有如下对应数据:x 2 4 5 6 8 y3040605070(1)求回归直线方程;(2)试预测广告费支出为10万元时,销售额多大?(3)在已有的五组数据中任意抽取两组,求至少有一组数据其预测值与实际值之差的绝对值不超过5的概率.( 参考数据:∑i =15x 2i =145,∑i =15y 2i =13 500,∑i =15x i y i =1 380 )专题 统计案例课后练习参考答案题一: 5%详解: 因为χ2=4.844>3.841,所以有95%的把握认为选修文科与性别有关系.故认为选修文科与性别有关系出错的可能性约为5%.题二: D.详解:统计的结果只是说明事件发生可能性的大小,具体到一个个体不一定发生. 题三: D. 详解:由于K 2=30×(6×9-7×8)213×17×14×16≈0.0024,由于K 2很小,因此,在此次调查中没有充分的证据显示说谎与性别有关.故选D.题四: C.详解:根据独立性检验的定义,由χ2≈7.8>6.635可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”,故选C.题五: B.详解: x 0,y 0为这10组数据的平均值,又因为线性回归方程y ^=b ^x +a ^必过样本中心点(x ,y ),因此(x ,y )一定满足线性回归方程,但满足线性回归方程的除了(x ,y )外,可能还有其他样本点.题六: 83%.详解:因为当y ^=7.675时,x =7.675-1.5620.66≈9.262,则7.6759.262≈0.829≈83%. 题七: (1) 13. (2) y ^=187x -307. (3)该小组所得线性回归方程是理想的. 详解: (1)设抽到相邻两个月的数据为事件A .因为从6组数据中选取2组数据共有15种情况,每种情况都是等可能出现的,其中抽到相邻两个月的数据的情况有5种,所以P (A )=515=13.(2)由数据求得x =11,y =24,由公式求得b =187,再由a =y -b x =-307,得y 关于x 的线性回归方程为y ^=187x -307.(3)当x =10时,y ^=1507,|1507-22|<2;同样,当x =6时,y ^=787,|787-12|<2,所以,该小组所得线性回归方程是理想的.题八: (1)925. (2) y =12x +12的拟合程度更好. 详解:(1)从x ,y 中各取一个数组成数对(x ,y ),共有25对,其中满足x +y ≥10的有(6,4),(6,5),(7,3),(7,4),(7,5),(8,2),(8,3),(8,4),(8,5),共9对.故所求概率P =925. (2)用y =13x +1作为拟合直线时,所得y 值与y 的实际值的差的平方和为S 1=⎝ ⎛⎭⎪⎫43-12+(2-2)2+(3-3)2+⎝ ⎛⎭⎪⎫103-42+⎝ ⎛⎭⎪⎫113-52=73.用y =12x +12作为拟合直线时,所得y 值与y 的实际值的差的平方和为S 2=(1-1)2+(2-2)2+⎝ ⎛⎭⎪⎫72-32+(4-4)2+⎝ ⎛⎭⎪⎫92-52=12.∵S 2<S 1,∴直线y =12x +12的拟合程度更好.题九: (3,2.5).详解:x =3,y =2.5,∴样本点中心为(3,2.5),回归直线过样本点中心.题十: D.详解:因为所有的点都在直线上,所以它就是确定的函数关系,所以相关系数为1.题十一: C.详解: 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c =20,b =45,选项A 、B 错误.根据列联表中的数据,得到K 2=105×(10×30-20×45)255×50×30×75≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”.题十二: (1) y =10,B =40,x =40,A =60.(2)由图可以看出暴雨影响到民众对加大修建城市地下排水设施的投入的态度.(3)至少有99.9%的把握认为北京暴雨对民众是否赞成加大对修建城市地下排水设施的投入有关. 详解:(1)设“从所有投票中抽取一个,取到不支持投入的投票”为事件A ,由已知得P (A )=y +30100=25,所以y =10,B =40,x =40,A =60. (2)由(1)知北京暴雨后支持率为4050=45,不支持率为1-45=15,北京暴雨前支持率为2050=25,不支持率为1-25=35.条形统计图如图所示,由图可以看出暴雨影响到民众对加大修建城市地下排水设施的投入的态度.(3)K 2=100(30×40-20×10)250×50×40×60=1000 00050×20×60=503≈16.78>10.828.故至少有99.9%的把握认为北京暴雨对民众是否赞成加大对修建城市地下排水设施的投入有关.题十三: (1)2×2列联表如下:患色盲 不患色盲 总计男 38 442 女 6 514 520 总计449561 000(2) 0.1%.详解:(1)2×2列联表如下:患色盲 不患色盲 总计 男 38 442 480 女 6 514 520 总计449561 000(2)假设H 0:“性别与患色盲没有关系”,根据(1)中2×2列联表中数据,可求得K 2=1 000×(38×514-6×442)2480×520×44×956≈27.14,又P (K 2≥10.828)=0.001,即H 0成立的概率不超过0.001,故若认为“性别与患色盲有关系”,则出错的概率为0.1%.题十四: (1)认为作业多认为作业不多总计 喜欢玩游戏 18 9 27 不喜欢玩游戏8 15 23 总计262450(2)有95%把握认为喜欢玩游戏与作业量的多少有关系.详解:(1)认为作业多认为作业不多总计 喜欢玩游戏 18 9 27 不喜欢玩游戏8 15 23 总计262450(2)将表中的数据代入公式χ2=n (n 11n 22-n 12n 21)2n 1+n 2+n +1n +2得到χ2=50×(18×15-8×9)226×24×27×23≈5.059>3.841,所以有95%把握认为喜欢玩游戏与作业量的多少有关系.题十五: (1)30位亲属中50岁以上的人多以食蔬菜为主,50岁以下的人多以食肉为主.(2)主食蔬菜主食肉类合计 50岁以下 4 8 12 50岁以上 16 2 18 合计201030(3)有99%的把握认为亲属的饮食习惯与年龄有关.详解: (1)30位亲属中50岁以上的人多以食蔬菜为主,50岁以下的人多以食肉为主.(2)主食蔬菜主食肉类合计 50岁以下 4 8 12 50岁以上 16 2 18 合计201030(3)K 2=30(8-128)212×18×20×10=30×120×12012×18×20×10=10>6.635,有99%的把握认为亲属的饮食习惯与年龄有关.题十六: (1)看营养说明的女生有3名,样本中不看营养说明的女生2名. (2) 35.(3)有99%的把握认为“性别与在购买食物时是否看营养说明”有关.详解:(1)根据分层抽样可得:样本中看营养说明的女生有550×30=3名,样本中不看营养说明的女生有550×20=2名.(2)记样本中看营养说明的3名女生为a 1,a 2,a 3,不看营养说明的2名女生为b 1,b 2,从这5名女生中随机选取2名,共有10个等可能的基本事件:a 1,a 2;a 1,a 3;a 1,b 1;a 1,b 2;a 2,a 3;a 2,b 1;a 2,b 2;a 3,b 1;a 3,b 2;b 1,b 2.其中事件A “选到看与不看营养说明的女生各一名”包含了6个基本事件:a 1,b 1;a 1,b 2;a 2,b 1;a 2,b 2;a 3,b 1;a 3,b 2.所以所求的概率为P (A )=610=35.(3)根据题中的列联表得K 2=110×(50×20-30×10)280×30×60×50=53972≈7.486.由P (K 2≥6.635)=0.010,P (K 2≥7.879)=0.005可知,有99%的把握认为“性别与在购买食物时是否看营养说明”有关. 题十七: C.详解:∵∑i =14x i y i =6×2+8×3+10×5+12×6=158,x =6+8+10+124=9,y =2+3+5+64=4.∴b ^=158-4×9×436+64+100+144-4×81=0.7,a ^=4-0.7×9=-2.3.故线性回归直线方程为y ^=0.7x -2.3.题十八: (1)回归直线方程为y ^=6.5x +17.5. (2) 82.5万元. (3)910. 详解:(1)x =2+4+5+6+85=255=5,y =30+40+60+50+705=2505=50,又已知∑i =15x 2i =145,∑i =15x i y i =1 380,于是可得:b ^=∑i =15x i y i -5x y∑i =15x 2i -5x 2=1380-5×5×50145-5×5×5=6.5, a ^=y -b ^x =50-6.5×5=17.5,因此,所求回归直线方程为y ^=6.5x +17.5.(2)根据上面求得的回归直线方程,当广告费支出为10万元时,y ^=6.5×10+17.5=82.5(万元),即这种产品的销售收入大约为82.5万元. (3)x 2 4 5 6 8 y30 40 60 50 70 y ^30.543.55056.569.5基本事件:(30,40),(30,60),(30,50),(30,70),(40,60),(40,50),(40,70),(60,50),(60,70),(50,70)共10个.两组数据其预测值与实际值之差的绝对值都超过5有(60,50),所以至少有一组数据其预测值与实际值之差的绝对值不超过5的概率为1-110=910.。

考点22 回归方程和2×2联表(新高考地区专用)(解析版)

考点22 回归方程和2×2联表(新高考地区专用)(解析版)

考点22 回归方程和2×2联表一.线性关系 1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关;点散布在左上角到右下角的区域内,两个变量的这种相关关系为负相关. 2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程: 是两个具有线性相关关系的变量的一组数据的回归方程,其中是待定参数. 的计算公式.注意:回归方程必过样本中心,这也是做小题的依据和检验所求回归方程是否正确。

(3)相关系数:当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性. 二.独立性检验 (1)2×2列联表设X ,Y 为两个变量,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)如下:y 1 y 2 总计x 1 a b a +b x 2c d c +d 总计a +cb +da +b +c +d(2)独立性检验利用随机变量K 2(也可表示为χ2)的观测值(其中n =a +b +c +d 为样本容量)来判断“两个变量有关系”的方法称为独立性检验.1122()()()n n x y x y x y ,,,,,,知识理解考向一 一次线性关系【例1-1】(2020·山东高三专题练习)某工厂的每月各项开支与毛利润(单位:万元)之间有如下关系,与的线性回归方程,则( )A .17.5B .17C .15D .15.5【答案】A【解析】由题意,根据表中的数据,可得,3040605070505y ++++==,即样本中心为,代入与的线性回归方程为,解得.故选:A .【例1-2】(2021·全国高三专题练习)西尼罗河病毒(WNV )是一种脑炎病毒,WNV 通常是由鸟类携带,经蚊子传播给人类.1999年8-10月,美国纽约首次爆发了WNV 脑炎流行.在治疗上目前尚未有什么特效药可用,感染者需要采取输液及呼吸系统支持性疗法,有研究表明,大剂量的利巴韦林含片可抑制WNV 的复制,抑制其对细胞的致病作用.现某药企加大了利巴韦林含片的生产,为了提高生产效率,该药企负责人收集了5组实验数据,得到利巴韦林的投入量x (千克)和利巴韦林含片产量y (百盒)的统计数据如下:由相关系数可以反映两个变量相关性的强弱,||[0.75,1]r ∈,认为变量相关性很强;||[0.3,0.75]r ∈,认为变量相关性一般;||[0,0.25]r ∈,认为变量相关性较弱. (1)计算相关系数r ,并判断变量x 、y 相关性强弱;(2)根据上表中的数据,建立y 关于x 的线性回归方程;为了使某组利巴韦林含片产量达到150百盒,估计该组应投入多少利巴韦林? 参考数据:.考向分析参考公式:相关系数()()niix x y y r --=∑()()()121niii nii x x y y b x x ==--=-∑∑,.【答案】(1),x 与y 具有很强的相关性;(2)54.2千克. 【解析】(1)1(12345)35x =⨯++++=,()11620232526225y =⨯++++=, ()()51(13)(1622)(23)(2022)(33)(2322)ii i xx y y x =--=-⨯-+--+-⨯-∑,()52222221(13)(23)(33)(43)(53)10i i x x =-=-+-+-+-+-=∑,()522221(1622)(2022)(2322)i i y y =-=-+-+-∑22(2522)(2622)66+-+-=,则所以x 与y 具有很强的相关性.(2)由(1)得,()()()5152125ˆ 2.510iii i i x x y y bx x ==--===-∑∑, ,所以y 关于x 的线性回归方程为ˆ 2.514.5yx =+. 当(百盒)时,(千克)故要使某组利巴韦林含片产量达到150百盒,估计该组应投入54.2千克利巴韦林. 【举一反三】1.(2020·全国高三专题练习)某工厂某产品产量(千件)与单位成本(元)满足回归直线方程77.36 1.82y x =-,则以下说法中正确的是( )A .产量每增加件,单位成本约下降元B .产量每减少件,单位成本约下降元C .当产量为千件时,单位成本为元D .当产量为千件时,单位成本为元【答案】A【解析】令()77.36 1.82f x x =-, 因为,所以产量每增加件,单位成本约下降元.2.(2020·安徽省六安中学高三开学考试)“关注夕阳、爱老敬老”—某马拉松协会从年开始每年向敬老院捐赠物资和现金.下表记录了第年(年是第一年)与捐赠的现金(万元)的对应数据,由此表中的数据得到了关于的线性回归方程ˆ0.35ymx =+,则预测年捐赠的现金大约是( )A .万元B .万元C .万元D .万元【答案】C【解析】由已知得,3456 2.534 4.54.5, 3.544x y ++++++====,所以样本点的中心点的坐标为,代入ˆ0.35ymx =+, 得3.5 4.50.35m =+,即,所以ˆ0.70.35yx =+, 取,得ˆ0.770.35 5.25y=⨯+=, 预测2019年捐赠的现金大约是万元.3.(2020·全国高三专题练习)基于移动互联技术的共享单车被称为“新四大发明”之一,短时间内就风靡全国,带给人们新的出行体验、某共享单车运营公司的市场研究人员为了解公司的经营状况,对该公司最近六个月内的市场占有率进行了统计,结果如下表:(1)请在给出的坐标纸中作出散点图,并用相关系数说明可用线性回归模型拟合月度市场占有率与月份代码之间的关系;(2)求关于的线性回归方程,并预测该公司年月份的市场占有率;(3)根据调研数据,公司决定再采购一批单车扩大市场,现有采购成本分别为元/辆和元/辆的、两款车型报废年限各不相同,考虑到公司的经济效益,该公司决定先对两款单车各辆进行科学模拟测试,得到两款单车使用寿命频数表如下:经测算,平均每辆单车每年可以为公司带来收入元.不考虑除采购成本之外的其他成本,假设每辆单车的使用寿命都是整数年,且用频率估计每辆单车使用寿命的概率,以每辆单车产生利润的期望值为决策依据、如果你是该公司的负责人,你会选择采购哪款车型? 参考数据:,61()()35iiix x y y =--=∑36.5≈参考公式:相关系数;回归直线方程为,其中121()()ˆ()niii nii x x y y bx x ==--=-∑∑,【答案】(1)散点图见解析,可用线性回归模型拟合两变量之间的关系;(2),;(3)应选择款车型. 【解析】(1)散点图如图所示,111316152021166y +++++==,∴,∴()()350.9636.5niix x y y r --====≈∑,∴两变量之间具有较强的线性相关关系, 故可用线性回归模型拟合两变量之间的关系;(2)121()()35217.5()ˆniii ni i x x y y bx x ==--===-∑∑,又123456 3.56x +++++==, ∴,∴回归直线方程为;∴年月的月份代码,∴27923y =⨯+=, ∴估计年月的市场占有率为;(3)用频率估计概率,款单车的利润的分布列为:∴(元),款单车的利润的分布列为:∴(元),以每辆单车产生利润的期望值为决策依据,故应选择款车型.4.(2020·全国高三专题练习)近年来,“双11”网购的观念逐渐深入人心.某人统计了近年某网站“双11”当天的交易额,,统计结果如下表:(1)请根据上表提供的数据,用相关系数说明与的线性相关程度,线性相关系数保留三位小数.(统计中用相关系数来衡量两个变量之间线性关系的强弱.若相应于变量的取值,变量的观测值为(),则两个变量的相关系数的计算公式为:.统计学认为,对于变量,如果[]1,0.75r -∈-,那么负相关很强;如果[]0.751r ∈,,那么正相关很强;如果(]0.75,0.30r ∈--或[)0.30,0.75r ∈,那么相关性一般;如果[]0.25,0.25r ∈-,那么相关性较弱);(2)求出关于x 的线性回归方程,并预测年该网站“双11”当天的交易额.参考公式:121()()()ˆniii ni i x x y y bx x ==--=-∑∑,;参考数据:.【答案】(1)0.998;变量与的线性相关程度很强;(2)ˆ 4.3 4.1yx =+;百亿元. 【解析】(1)由题意,根据表格中的数据, 可得:1(12345)35x =++++=,1(912172126)175y =++++=, 则1()()(13)(917)(53)(2617)43niii x x y y =--=--++--=∑,43.1=≈,所以所以变量与的线性相关程度很强. (2)由(1)可得,,1()()43niii x x y y =--=∑,又由2221222(13)(23)(3(3)(43)(53)1)0nii x x ==-+-+-+-+-=-∑,所以,则,可得关于的线性回归方程为ˆ 4.3 4.1y x =+ 令,可得ˆ 4.36 4.129.9y=⨯+=, 即年该网站“双11”当天的交易额百亿元.考向二 独立性检验【例2】(2021·江苏泰州市·高三期末)2020年是脱贫攻坚的收官之年,国务院扶贫办确定的贫困县全部脱贫摘帽,脱贫攻坚取得重大胜利,为确保我国如期全面建成小康社会,实现第一个百年奋斗目标打下了坚实的基础在产业扶贫政策的大力支持下,西部某县新建了甲、乙两家玩具加工厂,加工同一型号的玩具质监部门随机抽检了两个厂的各100件玩具,在抽取中的200件玩具中,根据检测结果将它们分成“A ”、“B ”、“C ”三个等级,A 、B 等级都是合格品,C 等级是次品,统计结果如下表所示:(表一)(表二)在相关政策扶持下,确保每件合格品都有对口销售渠道,但从安全起见,所有的次品必须由原厂家自行销. (1)请根据所提供的数据,完成上面的2×2列联表(表二),并判断是否有95%的把握认为产品的合格率与厂家有关?(2)每件玩具的生产成本为30元,A 、B 等级产品的出厂单价分别为60元、40元.另外已知每件次品的销毁费用为4元.若甲厂抽检的玩具中有10件为A 等级,用样本的频率估计概率,试判断甲、乙两厂能否都能盈利,并说明理由. 附:,其中n a b c d =+++.【答案】(1)列联表答案见解析,没有95%的把握认为产品的合格率与厂家有关;(2)甲厂能盈利,乙不能盈利,理由见解析. 【解析】(1)2×2列联表如下()2220075352565 2.38 3.84110010014060K ⨯⨯-⨯=≈<⨯⨯⨯,没有95%的把握认为产品的合格率与厂家有关. (2)甲厂10件A 等级,65件B 等级,25件次品, 对于甲厂,单件产品利润X 的可能取值为30,10,.X 的分布列如下:()3010341010204E X ∴=⨯+⨯-⨯=>, 甲厂能盈利,对于乙厂有10件A 等级,55件B 等级,35件次品, 对于乙厂,单位产品利润Y 的可能取值为30,10,,Y 分布列如下:()30103401020205E Y ∴=⨯+⨯-⨯=-<,乙不能盈利. 【举一反三】1.(2021·山东高三专题练习)共享单车进驻城市,绿色出行引领时尚.某市有统计数据显示,2020年该市共享单车用户年龄等级分布如图1所示,一周内市民使用单车的频率分布扇形图如图2所示.若将共享单车用户按照年龄分为“年轻人”(20岁-39岁)和“非年轻人”(19岁及以下或者40岁及以上)两类,将一周内使用的次数为6次或6次以上的称为“经常使用单车用户”,使用次数为5次或不足5次的称为“不常使用单车用户”.已知在“经常使用单车用户”中有是“年轻人”.(1)现对该市市民进行“经常使用共享单车与年龄关系”的调查,采用随机抽样的方法,抽取一个容量为200的样本,请你根据图表中的数据,补全下列列联表,并根据列联表的独立性检验,判断是否有85%的把握认为经常使用共享单车与年龄有关?使用共享单车情况与年龄列联表(2)将(1)中频率视为概率,若从该市市民中随机任取3人,设其中经常使用共享单车的“非年轻人”人数为随机变量,求的分布列与期望. 参考数据:独立性检验界值表其中,,n a b c d =+++【答案】(1)列联表见解析,有的把握可以认为经常使用共享单车与年龄有关;(2)分布列见解析,数学期望为.【解析】(1)补全的列联表如下:于是,,,, ∴,即有的把握可以认为经常使用共享单车与年龄有关. (2)由(1)的列联表可知,经常使用共享单车的“非年轻人”占样本总数的频率为20100%10%200⨯=, 即在抽取的用户中出现经常使用单车的“非年轻人”的概率为0.1, ∵~(3,0.1)X B ,0,1,2,3X =∴3(0)(10.1)0.729P X ==-=,(1)0.243P X ==(2)0.027P X ==,3(3)0.10.001P X ===,∴的分布列为E X=⨯=.∴的数学期望()30.10.3【举一反三】1.(2021·全国高三专题练习)某工厂为了提高生产效率,对生产设备进行了技术改造,为了对比技术改造后的效果,采集了技术改造前后各20次连续正常运行的时间长度(单位:天)数据,整理如下:改造前:19,31,22,26,34,15,22,25,40,35,18,16,28,23,34,15,26,20,24,21改造后:32,29,41,18,26,33,42,34,37,39,33,22,42,35,43,27,41,37,38,36(1)完成下面的列联表,并判断能否有99%的把握认为技术改造前后的连续正常运行时间有差异?(2)工厂的生产设备的运行需要进行维护,工厂对生产设备的生产维护费用包括正常维护费,保障维护费两种.对生产设备设定维护周期为T天(即从开工运行到第kT天,k∈N*)进行维护.生产设备在一个生产周期内设置几个维护周期,每个维护周期相互独立.在一个维护周期内,若生产设备能连续运行,则只产生一次正常维护费,而不会产生保障维护费;若生产设备不能连续运行,则除产生一次正常维护费外,还产生保障维护费.经测算,正常维护费为0.5万元/次;保障维护费第一次为0.2万元/周期,此后每增加一次则保障维护费增加0.2万元.现制定生产设备一个生产周期(以120天计)内的维护方案:T=30,k=1,2,3,4.以生产设备在技术改造后一个维护周期内能连续正常运行的频率作为概率,求一个生产周期内生产维护费的分布列及均值.附:【答案】(1)见解析,有99%的把握认为技术改造前后的连续正常运行时间有差异.(2)见解析;均值为2.275万元.【解析】(1)列联表为:()224055151510 6.63520202020K ⨯-⨯∴==>⨯⨯⨯有99%的把握认为技术改造前后的连续正常运行时间有差异.(2)由题知,生产周期内有4个维护周期,一个维护周期为30天,一个维护周期内,生产线需保障维护的概率为.设一个生产周期内需保障维护的次数为,则;一个生产周期内的正常维护费为0.542⨯=万元,保障维护费为万元.一个生产周期内需保障维护次时的生产维护费为万元.设一个生产周期内的生产维护费为X ,则X 的所有可能取值为2,2.2,2.6,3.2,4.()4181214256P X ⎛⎫==-= ⎪⎝⎭ ()31411272.214464P X C ⎛⎫==-=⎪⎝⎭()222411272.6144128P X C ⎛⎫⎛⎫==-= ⎪ ⎪⎝⎭⎝⎭ ()3341133.214464P X C ⎛⎫⎛⎫==-= ⎪⎪⎝⎭⎝⎭()41144256P X ⎛⎫=== ⎪⎝⎭所以,的分布列为()2 2.2 2.6 3.242566412864256E X ∴=⨯+⨯+⨯+⨯+⨯ 162237.6140.438.44582.4 2.275256256++++===一个生产周期内生产维护费的均值为2.275万元.2.(2020·四川成都市·高三一模)一网络公司为某贫困山区培养了名“乡土直播员”,以帮助宣传该山区文化和销售该山区的农副产品,从而带领山区人民早日脱贫致富.该公司将这名“乡土直播员”中每天直播时间不少于小时的评为“网红乡土直播员”,其余的评为“乡土直播达人”.根据实际评选结果得到了下面列联表:(1)根据列联表判断是否有的把握认为“网红乡土直播员”与性别有关系?(2)在“网红乡土直播员”中按分层抽样的方法抽取人,在这人中选人作为“乡土直播推广大使”.设被选中的名“乡土直播推广大使”中男性人数为,求的分布列和期望. 附:,其中n a b c d =+++.【答案】(1)有的把握认为“网红乡土直播员”与性别有关系;(2)分布列见解析;期望为. 【解析】(1)由题中列联表,可得()2210010302040 4.762 3.84150503070K ⨯-⨯=≈>⨯⨯⨯.∴有的把握认为“网红乡土直播员”与性别有关系. (2)在“网红乡土直播员”中按分层抽样的方法抽取6人, 男性人数为人;女性人数为人. 由题,随机变量所有可能的取值为,,.()022*********C C P Cξ====,()1124268115C C P C ξ===,()2024261215C C P C ξ===, ∴的分布列为∴的数学期望()01251515153E ξ=⨯+⨯+⨯==.考向三非一次性回归方程【例3-1】(2021·全国高三专题练习)在一项调查中有两个变量和,下图是由这两个变量近8年来的取值数据得到的散点图,那么适宜作为关于的回归方程的函数类型是( )A.B.C.D.()【答案】B【解析】散点图呈曲线,排除A选项,且增长速度变慢,排除选项C、D,故选B.【例3-2】.(2020·全国高三专题练习)根据公安部交管局下发的通知,自2020年6月1日起,将在全国开展“一盔一带”安全守护行动,其中就要求骑行摩托车、电动车需要佩戴头盔,为的就是让大家重视交通安全.某地交警部门根据某十字路口的监测数据,从穿越该路口的骑行者中随机抽查了200人,得到如图所示的列联表:(1)是否有97.5%的把握认为自觉带头盔行为与性别有关?(2)通过一定的宣传和相关处罚措施出台后,交警在一段时间内通过对某路口不带头盔的骑行者统计,得到上面的散点图和如下数据:观察散点图,发现两个变量不具有线性相关关系,现考虑用函数对两个变量的关系进行拟合,通过分析得y与有一定的线性相关关系,并得到以下参考数据(其中):请选择合适的参考数据,求出y关于x的回归方程.参考公式:.对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为:1221ˆni i i ni i u v nuvunu β==-=-∑∑,.【答案】(1)没有;(2). 【解析】(1)由列联表计算.故没有的把握认为骑行者自觉带头盔行为与性别有关. (2)由,则可转化为,又, 得, 则.故y 关于x 的回归方程为100ˆ1010010yw x=+=+ 【举一反三】1.(2020·河南周口市·高三月考)已知变量关于变量的回归方程为,其一组数据如下表所示: 若,则( ) A .5 B .6C .7D .8【答案】B【解析】由,得n 0ˆl .5ybx =-,令,则, 由题意,,, 因为满足,所以3.5 2.50.5b =⨯-,解得, 所以 1.60.5z x =-, 所以,令 1.60.59.1x e e -=,解得. 故选:B.2.(2021·全国高三专题练习)近期,济南公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用表示活动推出的天数,表示每天使用扫码支付的人次(单位:十人次),统计数据如表所示:表:根据以上数据,绘制了散点图.(1)根据散点图判断,在推广期内与(,均为大于零的常数)哪一个适宜作为扫码支付的人次关于活动推出天数的回归方程类型?(给出判断,不必说明理由);(2)根据(1)的判断结果及表中的数据,建立关于的回归方程,并预测活动推出第8天使用扫码支付的人次;(3)推广期结束后,车队对乘客的支付方式进行统计,结果如下表:车队为缓解周边居民出行压力,以80万元的单价购进了一批新车,根据以往的经验可知,每辆车每个月的运营成本约为0.66万元.已知该线路公交车票价为2元,使用现金支付的乘客无优惠,使用乘车卡支付的乘客享受8折优惠,扫码支付的乘客随机优惠,根据统计结果得知,使用扫码支付的乘客中有的概率享受7折优惠,有的概率享受8折优惠,有的概率享受9折优惠,预计该车队每辆车每个月有1万人次乘车,根据所给数据以事件发生的频率作为相应事件发生的概率,在不考虑其它因素的条件下,按照上述收费标准,假设这批车需要年才能开始盈利,求的值. 参考数据:其中,参考公式:对于一组数据,,…,,其回归直线v a u β=+的斜率和截距的最小二乘估计公式分别为:,.【答案】(1);(2)0.253.4710x y =⨯,347;(3)7.【解析】(1)因为散点近似在指数型函数的图象上,所以适宜作为扫码支付的人数关于活动推出天数的回归方程类型:(2)∵,两边同时取常用对数得:()lg lg lg lg xy c d c x d =⋅=+;设,∴lg lg v c x d =+, ∵,,, ∴717221750.1274 1.547lg 0.25140716287i i i ii x v xv d x x ==--⨯⨯====-⨯-∑∑,把样本中心点代入lg 0.25v c x =+, 得:lg 0.54c =,∴0540.25v x =+,∴,∴关于的回归方程式:0.540.250.540.250.25101010 3.4710x x x y +==⨯=⨯; 把代入上式:∴0.2583.4710347y ⨯=⨯=; 活动推出第8天使用扫码支付的人次为347;(3)记一名乘客乘车支付的费用为,则的取值可能为:2,1.8,1.6,1.4;()20.1P Z ==;; ;所以,一名乘客一次乘车的平均费用为: (元), 由题意可知:,,所以,取7;估计这批车大概需要7年才能开始盈利.3.(2021·全国高三专题练习)某公司研发了一种帮助家长解决孩子早教问题的萌宠机器人.萌宠机器人语音功能让它就像孩子的小伙伴一样和孩子交流,记忆功能还可以记住宝宝的使用习惯,很快找到宝宝想听的内容.同时提供快乐儿歌、国学经典、启蒙英语等早期教育内容,且云端内容可以持续更新.萌宠机器人一投放市场就受到了很多家长欢迎.为了更好地服务广大家长,该公司研究部门从流水线上随机抽取100件萌宠机器人(以下简称产品),统计其性能指数并绘制频率分布直方图(如图1):产品的性能指数在的适合托班幼儿使用(简称A 类产品),在的适合小班和中班幼儿使用(简称B 类产品),在[]90,110的适合大班幼儿使用(简称C 类产品),A ,B ,C ,三类产品的销售利润分别为每件1.5,3.5,5.5(单位:元).以这100件产品的性能指数位于各区间的频率代替产品的性能指数位于该区间的概率.(1)求每件产品的平均销售利润;(2)该公司为了解年营销费用(单位:万元)对年销售量(单位:万件)的影响,对近5年的年营销费用,和年销售量()1,2,3,4,5i y i =数据做了初步处理,得到的散点图(如图2)及一些统计量的值.表中,,,.根据散点图判断,可以作为年销售量(万件)关于年营销费用(万元)的回归方程. (i )建立关于的回归方程;(ii )用所求的回归方程估计该公司应投入多少营销费,才能使得该产品一年的收益达到最大? (收益=销售利润-营销费用,取). 参考公式:对于一组数据()()()1122,,,,,,n n u u u υυυ,其回归直线的斜率和截距的最小二乘估计分别为,.【答案】(1)每件产品的平均销售利润为4元(2)(i )(ii )该厂应投入256万元营销费. 【解析】(1)设每件产品的销售利润为元,则的所有可能取值为1.5,3.5,5.5, 由直方图可得,,,三类产品的频率分别为0.15、0.45、0.4, 所以,()1.50.15P ξ==,()3.50.45P ξ==,()5.50.4P ξ==, 所以随机变量的分布列为:所以,,故每件产品的平均销售利润为4元; (2)(i )由得,()ln ln ln ln by a x a b x =⋅=+,令,,,则,由表中数据可得,()()()515210.41ˆ0.251.61ii i ii uu buuυυ==--===-∑∑, 则24.8716.30ˆˆ0.25 4.15955cbu υ=-=-⨯=, 所以,ˆ 4.1590.25u υ=+, 即14.1594ˆln 4.1590.25ln ln yx e x ⎛⎫=+=⋅ ⎪⎝⎭, 因为,所以, 故所求的回归方程为;(ii )设年收益为万元,则()14256z E y x x x ξ=⋅-=-, 设,()4256f t t t =-,则()()332564464f t t t'=-=-,当时,,在单调递增, 当()4t ,∈+∞时,,在单调递减,所以,当,即时,有最大值为768,即该厂应投入256万元营销费,能使得该产品一年的收益达到最大768万元.1.(2021·全国高三专题练习)给出下列说法: ①回归直线恒过样本点的中心,且至少过一个样本点; ②两个变量相关性越强,则相关系数就越接近1;③将一组数据的每个数据都加一个相同的常数后,方差不变;④在回归直线方程ˆ20.5yx =-中,当解释变量增加一个单位时,预报变量平均减少0.5个单位. 其中说法正确的是( ) A .①②④ B .②③④ C .①③④ D .②④【答案】B强化练习【解析】对于①中,回归直线恒过样本点的中心,但不一定过一个样本点,所以不正确;对于②中,根据相关系数的意义,可得两个变量相关性越强,则相关系数就越接近1,所以是正确的; 对于③中,根据方差的计算公式,可得将一组数据的每个数据都加一个相同的常数后,方差是不变的,所以是正确的;对于④中,根据回归系数的含义,可得在回归直线方程ˆ20.5yx =-中,当解释变量增加一个单位时,预报变量平均减少0.5个单位,所以是正确的. 故选:B.2.(2020·全国高三专题练习)对两个变量、进行线性相关检验,得线性相关系数10.7859r =,对两个变量、进行线性相关检验,得线性相关系数20.9568r =-,则下列判断正确的是( ) A .变量与正相关,变量与负相关,变量与的线性相关性较强 B .变量与负相关,变量与正相关,变量与的线性相关性较强 C .变量与正相关,变量与负相关,变量与的线性相关性较强 D .变量与负相关,变量与正相关,变量与的线性相关性较强 【答案】C【解析】由线性相关系数10.78590r =>知与正相关, 由线性相关系数20.95680r =-<知与负相关, 又,所以,变量与的线性相关性比与的线性相关性强, 故选:C.3.(2020·河南新乡市·高三一模)年的“金九银十”变成“铜九铁十”,全国各地房价“跳水”严重,但某地二手房交易却“逆市”而行.下图是该地某小区年月至年月间,当月在售二手房均价(单位:万元/平方米)的散点图.(图中月份代码分别对应年月2020年月)根据散点图选择和ln y c d x =+两个模型进行拟合,经过数据处理得到的两个回归方程分别为0.9369y =+0.95540.0306ln y x =+,并得到以下一些统计量的值:注:是样本数据中的平均数,是样本数据中的平均数,则下列说法不一定成立的是( ) A .当月在售二手房均价与月份代码呈正相关关系B .根据0.9369y =+ 1.0509万元/平方米C .曲线0.9369y =+0.95540.0306ln y x =+的图形经过点D .0.95540.0306ln y x =+回归曲线的拟合效果好于0.9369y =+ 【答案】C【解析】对于A ,散点从左下到右上分布,所以当月在售二手房均价与月份代码呈正相关关系,故A 正确;对于B ,令,由,所以可以预测年月在售二手房均价约为1.0509万元/平方米,故B 正确; 对于C ,非线性回归曲线不一定经过,故C 错误; 对于D ,越大,拟合效果越好,故D 正确. 故选:C.4.(2020·全国高三专题练习)对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是( )A .24310r r r r <<<<B .42130r r r r <<<<C .42310r r r r <<<<D .24130r r r r <<<<【答案】A【解析】由给出的四组数据的散点图可以看出,题图1和题图3是正相关,相关系数大于0, 题图2和题图4是负相关,相关系数小于0,题图1和题图2的点相对更加集中,所以相关性更强,所以接近于1,接近于, 由此可得24310r r r r <<<<. 故选:A .5.(2020·邵阳市第二中学高三其他模拟(文))某种产品的广告费支出与销售额(单位:万元)之间有如表关系,与的线性回归方程为,当广告支出5万元时,随机误差的效应(残差)为( )。

2019-2020学年高中北师大版数学选修1-2作业:第一章 统计案例 2 第2课时

2019-2020学年高中北师大版数学选修1-2作业:第一章  统计案例 2 第2课时

第一章 §2 第2课时A 级 基础巩固一、选择题1.在2×2列联表中,两个比值_________相差越大,两个分类变量之间的关系越强( A ) A .a a +b 与cc +dB .a c +d 与c a +bC .a a +d 与c b +cD .a b +d 与c a +c[解析]a a +b 与c c +d相差越大,说明ad 与bc 相差越大,两个分类变量之间的关系越强. 2.在吸烟与患肺病是否有关的研究中,下列属于两个分类变量的是( C ) A .吸烟,不吸烟 B .患病,不患病 C .是否吸烟、是否患病D .以上都不对[解析] “是否吸烟”是分类变量,它的两个不同取值;吸烟和不吸烟;“是否患病”是分类变量,它的两个不同取值:患病和不患病.可知A 、B 都是一个分类变量所取的两个不同值.故选C .3.下列是一个2×2列联表:y 1 y 2 总计 x 1 a 21 73 x 2 2 25 27 总计b46100则该表中a 、b A .94,96 B .52,50 C .52,54D .54,52 [解析] a =73-21=52,b =a +2=52+2=54.4.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( C )①若K 2的观测值满足K 2≥6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知有99%的把握认为吸烟与患病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;③从统计量中得知有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误A .①B .①③C .③D .②[解析] ①推断在100个吸烟的人中必有99人患有肺病,说法错误,排除A ,B ,③正确.排除D ,选C .5.为了研究男子的年龄与吸烟的关系,抽查了100个男人,按年龄超过和不超过40岁,吸烟量每天多于和不多于20支进行分组,如下表:A .0.1B .0.01C .0.05D .没有理由[解析] χ2=100×(50×25-10×15)265×35×60×40≈22.16>6.635.故我们在犯错误的概率不超过0.01的前提下认为吸烟量与年龄有关.6.假设有两个分类变量X 与Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其2×2列联表为:y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +d( D ) A .a =5,b =4,c =3,d =2 B .a =5,b =3,c =4,d =2 C .a =2,b =3,c =4,d =5 D .a =2,b =3,c =5,d =4 [解析] 比较|a a +b -cc +d |.选项A 中,|59-35|=245;选项B 中,|58-46|=124;选项C 中,|25-49|=245;选项D 中,|25-59|=745.故选D .二、填空题7.为了调查患慢性气管炎是否与吸烟有关,调查了339名50岁以下的人,调查结果如下表:__7.469__. [解析] k =339(43×121-162×13)256×283×205×134≈7.469.8.调查者通过随机询问72名男女中学生喜欢文科还是理科,得到如下列联表(单位:名)性别与喜欢文科还是理科列联表 喜欢文科喜欢理科 总计 男生 8 28 36 女生 20 16 36 总计284472__有__)[解析] 通过计算χ2的观测值k =72×(16×8-28×20)236×36×44×28≈8.42>7.879.故我们有99.5%的把握认为中学生的性别和喜欢文科还是理科有关系.三、解答题9.运动员参加比赛前往往做热身运动,下表是一体育运动的研究机构对160位专业运动员追踪而得的数据,试问:由此数据,你认为运动员受伤与不做热身运动有关吗?[解析] ∵a =19,b a +c =64,b +d =96,n =160.∴由计算公式得χ2=160×(19×20-76×45)295×65×64×96≈38.974.∵38.974>6.635,∴有99%的把握认为运动员受伤与不做热身运动有关.B 级 素养提升一、选择题1.某研究中心为研究运动与性别的关系得到2×2列联表如下:则随机变量χ2A .4.762 B .9.524 C .0.011 9D .0.023 8[解析] χ2=100(60×10-20×10)270×30×80×20≈4.762.2.某研究机构为了研究中年人秃发与心脏病是否有关,随机调查了一些中年人的情况,具体数据如下表:心脏病 无心脏病 秃发 20 300 不秃发5450根据表中数据得到χ2=775×(20×450-5×300)225×750×320×455≈15.968>6.635,所以断定秃发与心脏病有关系,那么这种判断出错的可能性为( D )A .0.1B .0.05C .0.025D .0.01[解析] ∵χ2>6.635,∴有99%的把握说秃发与患心脏病有关,故这种判断出错的可能性有1-0.99=0.01.3.某班主任对全班50名学生进行了作业量多少的调查,数据如下表:A .99%B .95%C .90%D .无充分依据[解析] 由表中数据得k =50×(18×15-8×9)226×24×27×23≈5.059>3.841.所以约有95%的把握认为两变量之间有关系.4.某卫生机构对366人进行健康体检,其中某项检测指标阳性家族史者糖尿病发病的有16人,不发病的有93人;阴性家族史者糖尿病发病的有17人,不发病的有240人,有_____的把握认为糖尿病患者与遗传有关系.( D )A .99.9%B .99.5%C .99%D .97.5%[解析] 可以先作出如下列联表(单位:人): 糖尿病患者与遗传列联表k =366×(16×240-17×93)2109×257×33×333≈6.067>5.024.故我们有97.5%的把握认为糖尿病患者与遗传有关系. 5.有两个分类变量X ,Y ,其一组的2×2列联表如下所示,Y 1 Y 2 X 1 a 20-a X 215-a30+a其中a,15-a 均为大于50.05的前提下认为X ,Y 有关,则a 的值为( C )A .8B .9C .8,9D .6,8[解析] 根据公式,得χ2的观测值k =65×[a (30+a )-(15-a )(20-a )]220×45×15×50=13×(13a -60)220×45×3×2>3.841,数据a >5且15-a >5,a ∈Z ,求得a =8,9满足题意.二、填空题6.某研究小组为了研究中学生的身体发育情况,在某中学随机抽出20名15至16周岁的男生将他们的身高和体重制成2×2列联表,根据列联表中的数据,可以在犯错误的概率不超过__0.025__的前提下认为该学校15至16周岁的男生的身高和体重之间有关系.[解析] 根据公式χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )得,χ2的观测值k =20×(4×12-1×3)25×15×7×13≈5.934,因为k >5.024,因此在犯错误的概率不超过0.025的前提下认为该学校15至16周岁的男生的身高和体重之间有关系.7.两个分类变量X 、Y ,它们的取值分别为x 1、x 2和y 1、y 2,其列联表为:若两个分类变量X ①ad ≈bc ;②a a +b ≈cc +d ;③c +d a +b +c +d ≈b +d a +b +c +d ;④c +a a +b +c +d ≈b +d a +b +c +d ;⑤(a +b +c +d )(ad -bc )(a +b )(b +d )(a +c )(c +d )≈0.其中正确的序号是__①②⑤__. [解析] ∵分类变量X 、Y 独立, ∴aa +b +c +d ≈a +c a +b +c +d ×a +b a +b +c +d,化简得ad ≈bc ,故①⑤正确; ②式化简得ad ≈bc ,故②正确. 三、解答题8.2016年夏季奥运会在巴西里约热内卢举行.体育频道为了解某地区关于奥运会直播的收视情况.随机抽取了100名观众进行调查.其中40岁以上的观众有55名.下面奥运会直播时间的频率分布表(时间:min):有10名40岁以上的观众.(1)根据已知条件完成下面的2×2列联表;(2)附:χ2=n (ad -bc )2(a +b )(b +d )(a +c )(b +d )[解析] (1)由题意得×100=25名,其中40岁以上的“奥运迷”有10名,∴40岁以下的“奥运迷”有15名,∴2×2列联表如下:(2)χ2=100(30×10-45×15)75×25×45×55≈4.862>3.841,∴有95%以上的把握认为“奥运迷”与年龄有关.C 级 能力提高1.某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:专业 性别非统计专业统计专业 男 13 10 女720χ2=50×(13×20-10×7)223×27×20×30≈4.844,因为χ2≥3.841,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为__5% .[解析] ∵k >3.841,所以有95%的把握认为主修统计专业与性别有关,出错的可能性为5%.2.下表是某地区的一种传染病与饮用水的调查表:(1)(2)若饮用干净水得病5人,不得病50人;饮用不干净水得病9人,不得病22人.按此样本数据分析这种传染病是否与饮用水的卫生程度有关,并比较两种样本在反映总体时的差异.[解析](1)提出假设H0:传染病与饮用水的卫生程度无关.由公式得χ21=830×(52×218-466×94)2518×312×146×684≈54.21.因为54.21>10.828,因此我们有99.9%的把握认为该地区这种传染病与饮用水的卫生程度有关.(2)依题意得2×2列联表:由公式得χ22=86×(5×22-50×9)55×31×14×72≈5.785.由5.785>5.024,所以我们有97.5%的把握认为该种传染病与饮用水的卫生程度有关.两个样本都能统计得到传染病与饮用水的卫生程度有关这一相同结论,但(1)问中我们有99.9%的把握肯定结论的正确性,(2)问中我们只有97.5%的把握肯定结论的正确性.。

2019年数学新同步湘教版选修2-3讲义+精练:第8章 8.4 列联表独立性分析案例 Word版含解析

2019年数学新同步湘教版选修2-3讲义+精练:第8章 8.4 列联表独立性分析案例 Word版含解析

8.4列联表独立性分析案例[读教材·填要点]1.列联表一般地,对于两个因素X和Y,X的两个水平取值:A和A(如吸烟和不吸烟),Y也有两个水平取值:B和B(如患肺癌和不患肺癌),我们得到下表中的抽样数据,这个表格称为2×2列联表.2.χ2的求法公式χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).3.独立性检验的概念用随机变量χ2研究两变量是否有关的方法称为独立性检验.4.独立性检验的步骤要判断“X与Y有关系”,可按下面的步骤进行:(1)提出假设H0:X与Y无关;(2)根据2×2列联表及χ2公式,计算χ2的值;(3)查对临界值,作出判断.其中临界值如表所示:表示在H0成立的情况下,事件“χ2≥x0”发生的概率.5.变量独立性判断的依据(1)如果χ2>10.828时,就有99.9%的把握认为“X与Y有关系”;(2)如果χ2>6.635时,就有99%的把握认为“X 与Y 有关系”; (3)如果χ2>2.706时,就有90%的把握认为“X 与Y 有关系”;(4)如果χ2≤2.706时,就认为没有充分的证据显示“X 与Y 有关系”,但也不能作出结论“H 0成立”,即X 与Y 没有关系.[小问题·大思维]1.利用χ2进行独立性分析,估计值的准确度与样本容量有关吗?提示:利用χ2进行独立性分析,可以对推断的正确性的概率作出估计,样本容量n 越大,这个估计值越准确.如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.2.在χ2运算后,得到χ2的值为29.78,在判断因素相关时,P (χ2≥6.64)≈0.01和P (χ2≥7.88)≈0.005,哪种说法是正确的?提示:两种说法均正确.P (χ2≥6.64)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两因素相关;而P (χ2≥7.88)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两因素相关.[例1] 数据:[解] 由列联表中的数据,得χ2的值为χ2=1 633×(30×1 355-224×24)2254×1 379×54×1 579≈68.033>6.635.因此,有99%的把握认为每一晚打鼾与患心脏病有关系.解决一般的独立性分析问题,首先由所给2×2列联表确定a ,b ,c ,d ,a +b +c +d 的值,然后代入随机变量的计算公式求出观测值χ2,将χ2与临界值x 0进行对比,确定有多大的把握认为两个分类变量有关系.1.某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,经过调查得到如下列联表:系?解:由列联表中的数据,得χ2=189×(54×63-40×32)294×95×86×103≈10.759>6.635,∴有99%的把握认为工作态度与支持企业改革之间有关系.[例2] (1)(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.[解] (1)假设H 0:传染病与饮用水无关.把表中数据代入公式,得χ2=830×(52×218-466×94)2146×684×518×312≈54.21,因为当H 0成立时,χ2≥10.828的概率约为0.001,所以我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关. (2)依题意得2×2列联表:此时,χ2=86×(5×22-50×9)214×72×55×31≈5.785.由于5.785>2.706,所以我们有90%的把握认为该种疾病与饮用不干净水有关. 两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有90%的把握肯定.独立性分析的步骤:要推断“X 与Y 是否有关”可按下面的步骤进行: ①提出统计假设H 0:X 与Y 无关;②根据2×2列联表与χ2计算公式计算出χ2的值; ③根据两个临界值,作出判断.2.为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.是否有90%的把握认为“学生选报文、理科与对外语的兴趣有关”?解:根据题目所给的数据得到如下列联表:χ2=361×(138×52-73×98)2211×150×236×125≈1.871×10-4.因为1.871×10-4<2.706,所以没有90%的把握认为“学生选报文、理科与对外语的兴趣有关”.[例3] 为了比较注射A ,B 两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A ,另一组注射药物B .下表1和表2分别是注射药物A 和药物B 后的试验结果.(疱疹面积单位:mm 2)表1:注射药物A 后皮肤疱疹面积的频数分布表表2:注射药物B 后皮肤疱疹面积的频数分布表完成下面2×2列联表,并回答是否有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.表3:[解]χ2=200×(70×65-35×30)2100×100×105×95≈24.56>6.635.因此,有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.在绘制列联表时,应对问题中的不同数据分成不同的类别,然后列表.要注意列联表中各行、各列中数据的意义及书写格式.3.已知某班n 名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a ,b ,c 成等差数列,且成绩在[90,100]内的有6人.(1)求n 的值;(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析是否有90%的把握认为“本次测试的及格情况与性别有关”?附:χ2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )解:(1)依题意得⎩⎪⎨⎪⎧10(0.035+0.025+c +2b +a )=1,2b =a +c ,解得b =0.01. 因为成绩在[90,100]内的有6人, 所以n =60.01×10=60.(2)由于2b =a +c ,而b =0.01,可得a +c =0.02,则不及格的人数为0.02×10×60=12,及格的人数为60-12=48,设及格的人中,女生有x 人,则男生有x -4人, 于是x +x -4=48,解得x =26,故及格的人中,女生有26人,男生有22人. 于是本次测试的及格情况与性别的2×2列联表如下:结合列联表计算可得χ2=60×(22×4-8×26)30×30×48×12=1.667<2.706,故没有90%的把握认为“本次测试的及格情况与性别有关”.性别与患色盲是否有关?你所得到的结论在什么范围内有效?[解] 由题意作2×2列联表如下:法一:由列联表中数据可知,在调查的男人中,患色盲的比例是38480≈7.917%,女人中患色盲的比例为6520≈1.154%,由于两者差距较大,因而我们可以认为性别与患色盲是有关系的.法二:由列联表中所给的数据可知, a =38,b =442,c =6,d =514,a +b =480,c +d =520,a +c =44,b +d =956,n =1 000, 代入公式得χ2=1 000×(38×514-6×442)2480×520×44×956≈27.1.由于χ2≈27.1>6.635,所以我们有99%的把握即在犯错误不超过0.01的前提下认为性别与患色盲有关系. 这个结论只对所调查的480名男人和520名女人有效.1.下面是2×2列联表:则表中a ,b 的值分别为A .94,96 B .52,50 C .52,54D .54,52 解析:选C ∵a +21=73,∴a =52. 又∵a +2=b ,∴b =54.2.下列关于χ2的说法中正确的是( )A .χ2在任何相互独立问题中都可以用于检验是否相关B .χ2的值越大,两个事件的相关性越大C .χ2是用来判断两个相互独立事件相关与否的一个统计量,它可以用来判断两个事件是否相关这一类问题D.χ2=n(ad-bc)(a+b)(c+d)(a+c)(b+d)答案:C3.对于因素X与Y的随机变量χ2的值,下列说法正确的是()A.χ2越大,“X与Y有关系”的可信程度越小B.χ2越小,“X与Y有关系”的可信程度越小C.χ2越接近于0,“X与Y没有关系”的可信程度越小D.χ2越大,“X与Y没有关系”的可信程度越大解析:选Bχ2越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大.即χ2越小,“X与Y有关系”的可信程度越小.4.若由一个2×2列联表中的数据计算得χ2的观测值为4.013,那么在犯错误的概率不超过________的前提下,认为两个变量之间有关系.解析:因为4.013>3.841,所以在犯错误的概率不超过0.05的前提下,认为两个变量之间有关系.答案:0.055.某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数如下:解析:χ2=103×(5×18-70×10)275×28×15×88≈13.826>6.635.故有99%的把握说,新防护服比旧防护服对预防工人职业性皮炎有效.答案:99%6.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表:已知在全部50人中随机抽取1人抽到爱打篮球的学生的概率为35.(1)请将上面的列联表补充完整;(2)是否有99%的把握认为喜爱打篮球与性别有关;请说明理由. 附参考公式:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解:(1)列联表补充如下:(2)∵χ2=50×(20×15-10×5)230×20×25×25≈8.333>6.635,∴有99%的把握认为喜爱打篮球与性别有关.一、选择题1.有两个因素X 与Y 的一组数据,由其列联表计算得χ2≈4.523,则认为X 与Y 有关系是错误的可信度为( )A .95%B .90%C .5%D .10%解析:选C ∵χ2≥3.841.∴X 与Y 有关系的概率为95%,∴X 与Y 有关系错误的可信度为5%.2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:计算得,χ2=110×(40×30-20×20)260×50×60×50≈7.8.附表:A .在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关” 解析:选C 根据独立性分析的思想方法,正确选项为C.3.某高校“统计初步”课程的老师随机调查了选该课的一些学生情况,具体数据如下表:为了分析主修统中的数据,得到χ2=50(13×20-10×7)223×27×20×30≈4.84,所以断定主修统计专业与性别有关系,这种判断出错的可能性为( )A .0.025B .0.05C .0.975D .0.95解析:选B ∵χ2≈4.84>3.841,所以我们有95%的把握认为主修统计专业与性别无关,即判断出错的可能性为0.05.4.已知P (x 2≥2.706)=0.10,两个因素X 和Y ,取值分别为{x 1,x 2}和{y 1,y 2},其样本频数分别是a =10,b =21,c +d =35.若在犯错误的概率不超过0.1的前提下,认为X 与Y 有关系,则c 等于( )A .5B .6C .7D .8解析:选A 经分析,c =5. 二、填空题5.班级与成绩2×2列联表:表中数据m,n,p,解析:m=10+7=17,n=35+38=73,p=7+38=45,q=m+n=90.答案:17,73,45,906.在吸烟与患肺病是否相关的判断中,有下面的说法:①若χ2>6.64,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性分析可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;③从独立性分析可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是________.解析:χ2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说明③正确.答案:③7.统计推断,当________时,在犯错误的概率不超过0.05的前提下认为事件A与B 有关;当________时,认为没有充分的证据显示事件A与B是有关的.解析:当k>3.841时,就有在犯错误的概率不超过0.05的前提下认为事件A与B有关,当k<2.706时认为没有充分的证据显示事件A与B是有关的.答案:k>3.841k<2.7068.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:由表中数据直观分析,收看新闻节目的观众是否与年龄有关:________(填“是”或“否”).解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即b a +b =1858,d c +d =2742,两者相差较大,所以,经直观分析,收看新闻节目的观众与年龄是有关的.答案:是 三、解答题9.某市对该市一重点中学2018年高考上线情况进行统计,随机抽查得到表格:解:对于上述四个科目,分别构造四个随机变量χ21,χ22,χ23,χ24.由表中数据可以得到:语文:χ21=244×(174×13-27×30)2201×43×204×40=7.294>6.64,数学:χ22=244×(178×20-23×23)2201×43×201×43=30.008>6.64,英语:χ23=244×(176×19-25×24)2201×43×200×44=24.155>6.64,综合科目:χ24=244×(175×17-26×26)2201×43×201×43=17.264>6.64.所以有99%的把握认为语文、数学、英语、综合科目上线与总分上线有关系,数学上线与总分上线关系最大.10.一次对人们休闲方式的调查中共调查了124人,其中女性70人,男性54人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.(1)根据以上数据建立一个2×2列联表;(2)能否在犯错误的概率不超过0.05的前提下认为性别与休闲方式有关系? 解:(1)2×2列联表如下:(2)χ2=124×(43×33-27×21)270×54×64×60≈6.201.因为6.201>3.841,所以有理由认为假设休闲方式与性别无关是不合理的,即在犯错误的概率不超过0.05的前提下认为休闲方式与性别有关.。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1.近几年出现各种食品问题,食品添加剂会引起血脂增高、血
压增高、血糖增高等疾病.为了解三高疾病是否与性别有关,医
院随机对入院的60人进行了问卷调查,得到了如下的列联表:

患三高疾病 不患三高疾病 合计
男 6 30

合计 36

(1)请将如图的列联表补充完整;若用分层抽样的方法在患三
高疾病的人群中抽9人,其中女性抽多少人

(2)为了研究三高疾病是否与性别有关,请计算出统计量2K,
并说明你有多大的把握认为三高疾病与性别有关

2.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进
行了问卷调查得到了如下列表:
喜爱打篮球 不喜爱打篮球 合计
男生
5
女生
10
合计
50

已知在全班50人中随机抽取1人,抽到喜爱打篮球的学生的概
率为35.
(1)请将上表补充完整(不用写计算过程);
(2)能否有99.5﹪的把握认为喜爱打篮球与性别有关说明你
的理由.

3.某班主任对班级22名学生进行了作业量多少的调查,数据
如下表:在喜欢玩电脑游戏的12中,有10人认为作业多,2
人认为作业不多;在不喜欢玩电脑游戏的10人中,有3人认为
作业多,7人认为作业不多。
求:(1)根据以上数据建立一个22列联表;
(2)试问喜欢电脑游戏与认为作业多少是否有关系
4.有甲、乙两个工厂生产同一种产品,产品分为一等品和二等
品.为了考察这两个工厂的产品质量的水平是否一致,从甲、
乙两个工厂中分别随机地抽出产品109件,191件,其中甲工
厂一等品58件,二等品51件,乙工厂一等品70件,二等品
121件.
(1)根据以上数据,建立2×2列联表;
(2)试分析甲、乙两个工厂的产品质量有无显著差别(可靠性不
低于99%).

5.某高中课外活动小组调查了100名男生与100名女生报考文、
理科的情况,下图为其等高条形图:
(1)绘出2×2列联表;

(2)利用独立性检验方法判断性别与报考文、理科是否有关系
若有关系,所得结论的把握有多大

文科
理科
0
0.2
0.4
0.6
0.8

1

男 女
参考答案
1.(1)3人;(2)有99.5%的把握认为是否患三高疾病与性别有关系.
【解析】
试题分析:(1)根据题中所给数据,通过2×2连列表,直接将如图的列联表补充完整;通
过分层抽样求出在患三高疾病的人群中抽9人的比例,即可求出女性抽的人数.(2)通过题

中所给共识计算出2K,结合临界值表,即可说明有多大的把握认为三高疾病与性别有关.
试题解析:解(1):
患三高疾病 不患三高疾病 合计
男 24 6 30
女 12 18 30
合计 36 24 60

在患三高疾病人群中抽9人,则抽取比例为41369
∴女性应该抽取34112人. 6分

(2)∵24363030)1261824(6022K 8分
879.710
, 10分

那么,我们有99.5%的把握认为是否患三高疾病与性别有关系. 12分.
考点:1.分成抽样;2.独立性检验.
2.(1)详见解析;(2)有99.5﹪的把握认为喜爱打篮球与性别有关.
【解析】

试题分析:(1)首先通过全班50人中随机抽取1人,抽到喜爱打篮球的学生的概率为35,

得出喜爱打篮球的共有30人,进而完善此表;(2)通过列联表代入计算公式,得到2K的值,
再查对临界值表,据此回答能否有99.5﹪的把握认为喜爱打篮球与性别有关.
试题解析:(1)列联表补充如下:
喜爱打篮球 不喜爱打篮球 合计
男生
20 5 25
女生
10 15 25
合计
30 20 50

(2)Q22()()()()()nadbcKabcdacbd50(2015105)7.87930202525

有99.5﹪的把握认为喜爱打篮球与性别有关.

考点:独立性检验.
3.(1)
认为作业多 认为作业不多 总 计
喜欢玩电脑游戏 10 2 12
不喜欢玩电脑游戏 3 7 10
总 计 13 9 22

(2) 有%的把握认为喜欢玩电脑游戏与认为作业多少有
【解析】
试题分析:(1) 根据给出的数据建立22列联;(2) 计算卡方变量

2
2
22(10732)6.4181210139k




,<<,所以有%的把握认为喜欢玩电脑游戏与认为作业多

少有关.
试题解析:(1)根据题中所给数据,得到如下列联表:
认为作业多 认为作业不多 总 计
喜欢玩电脑游戏 10 2 12
不喜欢玩电脑游戏 3 7 10
总 计 13 9 22

(2)2222(10732)6.4181210139k,<<
∴有%的把握认为喜欢玩电脑游戏与认为作业多少有关.
在犯错误的概率不超过的前提下不能认为成绩与班级有关系。
考点:×2列联表;2.独立性检验
4.(1)
甲工厂 乙工厂 合计
一等品 58 70 128
二等品 51 121 172
合计 109 191 300
(2)见解析
【解析】
解:(1)
甲工厂 乙工厂 合计
一等品 58 70 128
二等品 51 121 172
合计 109 191 300
(2)提出假设H0:甲、乙两个工厂的产品质量无显著差别.
根据列联表中的数据可以求得

χ2=2300581217051109191128172≈ 4>.
因为当H0成立时,P(χ2>≈,所以我们有99%以上的把握认为甲、乙两个工厂的产品质量
有显著差别.
5.解:(1)由男女生各100人及等高条形图可知报考文科的男生有100×=40人,报考文科
的女生有100×=60人 ……2分
∴报考理科的男生有100-40=60人,报考理科的女生有100-60=40人 ……4分
所以2×2列联表如下: ……6分
文科 理科 总计
男 40 60 100
女 60 40 100
总计 100 100 200
(2)由公式计算的观测值:
……10分
又由临界值表知
所以我们有%的把握认为报考文理科与性别有关系 ……12分

【解析】略

相关文档
最新文档