高考数学复习题测试题精练(69) 变量间的相关关系 统计案例
2020届高考数学理一轮考点测试变量间的相关关系与统计案例

z= ln c+ kx.因为 z= 0. 3x+4,所以 ln c= 4,所以 c= e4.
二、高考小题
7.(2017 ·山东高考 ) 为了研究某班学生的脚长 x( 单位:厘米 ) 和身高 y( 单位:厘米 ) 的关系,从该班随机抽
取 10 名学生,根据测量数据的散点图可以看出
y 与 x 之间有线性相关关系.设其回归直线方程为
i=1
10i =1
10
1 10
∵ yi = 1600,∴
i=1
y
=
10
i
=
yi
1
=
160
.
又b^= 4,∴ a^= y - b^ x = 160-4×22. 5= 70.
∴回归直线方程为 y^= 4x+ 70. 将 x= 24 代入上式得 y^=4×24+ 70= 166. 故选 C. 8.(2017 ·全国卷Ⅲ ) 某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了 2016 年 12 月期间月接待游客量 ( 单位:万人 ) 的数据,绘制了下面的折线图.
2014 年 1 月至
根据该折线图,下列结论错误的是 (
)
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在 7, 8 月
D.各年 1 月至 6 月的月接待游客量相对于 7 月至 12 月,波动性更小,变化比较平稳
答案 A
解析 对于选项 A,由图易知月接待游客量每年 7, 8 月份明显高于 12 月份,故 A 错;对于选项 B,观察折线
A, B 两变量有更强的线性相关性.故选 D.
4.在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关”的结论,并且有
2020版高考数学一轮复习五十九11.3变量间的相关关系与统计案例理解析版新人教A版

核心素养提升练五十九变量间的相关关系与统计案例(30分钟60分)一、选择题(每小题5分,共25分)1.对于变量x,y有以下四个散点图,由这四个散点图可以判断变量x与y成负相关的是( )【解析】选B.对于A,散点图呈片状分布,不具相关性;对于B,散点图呈带状分布,且y随x的增大而减小,是负相关;对于C,散点图中y随x的增大先增大再减小,不是负相关;对于D,散点图呈带状分布,且y随x的增大而增大,是正相关.2.某考察团对全国10大城市居民人均工资水平x(千元)与居民人均消费水平y(千元)进行统计调查,y与x具有相关关系,回归方程为=0.66x+1.562,若某城市居民人均消费水平为7.675(千元),估计该城市人均消费额占人均工资收入的百分比约为( )A.83%B.72%C.67%D.66%【解析】选A.由7.675=0.66x+1.562,得x≈9.262,所以×100%≈83%.3.(2018·衡水模拟)如图,5个(x,y)数据,去掉D(3,10)后,下列说法错误的是( )A.相关系数r变大B.残差平方和变大C.相关指数R2变大D.解释变量x与预报变量y的相关性变强【解析】选B.去掉D点后,相关性变强,模型拟合效果越好,故残差平方和变小.4.根据如下样本数据得到的回归方程为=x+,若=5.4,则x每增加1个单位,y就( )A.C.增加1个单位D.减少1个单位【解析】选B.由题意可得=×(3+4+5+6+7)=5,=×(4+2.5-0.5+0.5-2)=0.9,因为回归方程为=x+,=5.4,且回归直线过点(5,0.9),所以0.9=5+5.4,解得=-0.9,所以x每增加1个单位,y就减少0.9个单位.5.观察两个变量(存在线性相关关系)得如下数据:A. = x+1B. =xC. =2x+D. =x+1【解析】选B.根据表中数据,得= (-10-6.99-5.01-2.98+3.98+5+7.99+8.01)=0,= (-9-7-5-3+4.01+4.99+7+8)=0.所以两变量x,y间的线性回归方程过样本中心点(0,0),只有B选项符合.【变式备选】已知变量x与y正相关,且由观测数据算得样本平均数=3, =3.5,则由该观测数据算得的线性回归方程可能是( )A. =0.4x+2.3B. =2x-2.4C. =-2x+9.5D. =-0.3x+4.4【解析】选A.依题意知,相应的回归直线的斜率应为正,排除C,D.且直线必过点(3,3.5),代入A,B得A正确.二、填空题(每小题5分,共15分)6.(2018·阜阳模拟)某班主任对全班30名男生进行了作业量多少的调查,数据如表:过________.【解析】计算得K2的观测值k=≈4.286>3.841,则推断犯错误的概率不超过0.05.答案:0.057.某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:【解析】根据题意知==10,==40,因为回归直线过样本点的中心,所以=40-(-2)×10=60,所以=-2x+60,当x=-4时, =(-2)×(-4)+60=68,所以当气温为-4 ℃时,用电量约为68度.答案:68度8.某炼钢厂废品率x(%)与成本y(元/吨)的线性回归方程为y=105.492+42.569x.当成本控制在176.5元/吨时,可以预计生产的 1 000吨钢中,约有________吨钢是废品(结果保留两位小数).【解析】因为176.5=105.492+42.569x,解得x≈1.668,即当成本控制在176.5元/吨时,废品率约为1.668%,所以生产的1 000吨钢中,约有1 000×1.668%=16.68吨是废品.答案:16.68【变式备选】经调查某地若干户家庭的年收入x(万元)和年饮食支出y(万元)具有线性相关关系,并得到y关于x的回归直线方程: =0.245x+0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.【解析】x变为x+1, =0.245(x+1)+0.321=0.245x+0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.答案:0.245三、解答题(每小题10分,共20分)9.已知某班n名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a,b,c成等差数列,且成绩在(90,100]内的有6人.(1)求n的值.(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析在犯错误的概率不超过0.1的前提下是否可以认为“本次测试的及格情况与性别有关”?【解析】(1)依题意得b=0.01,因为成绩在(90,100]内的有6人,所以n=60.(2)由于2b=a+c,而b=0.01,可得a+c=0.02,则不及格的人数为0.02×10×60=12,及格的人数为60-12=48,于是本次测试的及格情况与性别的2×2列联表如下:故在犯错误的概率不超过0.1的前提下不能认为“本次测试的及格情况与性别有关”.【变式备选】某养鸡场为检验某种药物预防某种疾病的效果,取100只鸡进行对比试验,得到如下列联表(表中部分数据丢失,a,b,d,e,f,g表示丢失的数据):(1)求出列联表中数据a,b,d,e,f,g的值.(2)能否在犯错误的概率不超过0.005的前提下认为药物有效?【解析】(1)因为a+b=50,2a=3b.所以a=30,b=20.由50+g=100,15+d=g,得g=50,d=35.所以,e=a+15=45,f=b+d=55.(2)由(1)可得K2的观测值k=≈9.091>7.879.因此,在犯错误的概率不超过0.005的前提下认为药物有效.10.(2018·重庆模拟)第96届(春季)全国糖酒商品交易会于2017年3月23日至25日在四川举办,展馆附近一家四川特色小吃店为了研究参会人数与本店所需原材料数量的关系,在交易会前查阅了最近5次交易会的参会人数x(万人)与店铺所用原材料数量y(袋),得到如下数据:(1)(2)若该店现有原材料12袋,据悉本次交易会大约有13万人参加,为了保证原材料能够满足需要,则该店应至少再补充原材料多少袋?(参考公式: = =,=-)【解析】(1)由数据,求得==10,==25,(x i-)(y i-)=1×3+(-1)×(-2)+(-2)×(-5)+0+2×4=23,(x i-)2=12+(-1)2+(-2)2+02+22=10,由公式,求得=2.3, = -·=2,y关于x的线性回归方程为=2.3x+2.(2)由x=13,得=31.9,而31.9-12=19.9≈20,所以,该店应至少再补充原材料20袋.【变式备选】为了研究男羽毛球运动员的身高x(单位:cm)与体重y(单位:kg)的关系,通过随机抽样的方法,抽取5名运动员测得他们的身高与体重关系如下表:(1).(2)求回归直线方程=x+.【解析】(1)从这5个人中随机地抽取2个人的体重的基本事件有(74,73),(74,76),(74,75),(74,77),(73,76),(73,75),(73,77),(76,75),(76,77),(75,77). 满足条件的有(74,76),(74,77),(73,76),(73,75),(73,77),(75,77)6种情况,故2个人体重之差的绝对值不小于2 kg的概率为=.(2) =176, =75,===0.4,=-=4.6,所以=0.4x+4.6.(20分钟40分)1.(5分)已知x与y之间的几组数据如下表:(1,0)和(2,2)求得的直线方程为y′=b′x+a′,则以下结论正确的是( )A. >b′,>a′B. >b′,<a′C. < b′,>a′D. <b′,<a′【解析】选C.过(1,0)和(2,2)的直线方程为y=2x-2,画出六点的散点图,回归直线的大概位置如图所示,显然<b′,>a′.2.(5分)(2018·汕头模拟)某厂家为了解销售轿车台数与广告宣传费之间的关系,得到如表统计数据表:根据数据表可得回归直线方程=x+,其中=2.4, = -,据此模型预测广告费用为9万元时,销售轿车台数为( )A.17【解析】选C.根据表中数据,计算=×(2+3+4+5+6)=4,=×(3+4+6+10+12)=7,且回归直线方程为=2.4x+,所以=-=7-2.4×4=-2.6,所以回归方程为=2.4x-2.6;当x=9时, =2.4×9-2.6=19,即据此模型预测广告费用为9万元时,销售轿车台数为19.3.(5分)已知回归直线斜率的估计值为 1.23,样本点的中心为点(4,5),则回归直线的方程为________.【解析】回归直线必过点(4,5),所以y-5=1.23(x-4),所以=1.23x+0.08.答案: =1.23x+0.08【变式备选】已知回归直线方程为=4.4x+838.19,则可估计x与y增长速度之比约为________.【解析】x与y增长速度之比为=.答案:4.(12分)某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率.(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断在犯错误的概率不超过0.1的前提下能否认为“生产能手与工人所在的年龄组有关”. 【解析】(1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名.所以,在样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),记为A1,A2,A3;25周岁以下组工人有40×0.05=2(人),记为B1,B2.从中随机抽取2名工人,所有的可能结果共有10种,它们是(A1,A2), (A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).其中,至少有1名“25周岁以下组”工人的可能结果共有7种,它们是(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2),故所求的概率P=.(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有60×0.25=15(人),“25周岁以下组”中的生产能手有40×0.375=15(人),据此可得2×2列联表如下:所以=≈1.79,因为1.79<2.706,所以在犯错误的概率不超过0.1的前提下不能认为“生产能手与工人所在的年龄组有关”.5.(13分)某测试团队为了研究“饮酒”对“驾车安全”的影响,随机选取100名驾驶员先后在无酒状态、酒后状态下进行“停车距离”测试.测试的方案:电脑模拟驾驶,以某速度匀速行驶,记录下驾驶员的“停车距离”(驾驶员从看到意外情况到车子完全停下所需要的距离).无酒状态与酒后状态下的试验数据分别列于表1和表2.表1:无酒状态表2:(1)求m,n的值,并估计驾驶员无酒状态下停车距离的平均数.(2)根据最小二乘法,由表2的数据计算y关于x的回归方程=x+.(3)该测试团队认为:驾驶员酒后驾车的平均“停车距离”y大于(1)中无酒状态下的停车距离平均数的3倍,则认定驾驶员是“醉驾”.请根据(2)中的回归方程,预测当每毫升血液酒精含量大于多少毫克时为“醉驾”?【解析】(1)依题意,得m=50-26,解得m=40,又m+n+36=100,解得n=24.故停车距离的平均数为15×+25×+35×+45×+55×=27.(2)依题意,可知=50, =60,x i y i=10×30+30×50+50×60+70×70+90×90=17 800,=102+302+502+702+902=16 500,所以==0.7,=60-0.7×50=25,所以回归直线方程为=0.7x+25.(3)由(1)知当y>81时认定驾驶员是“醉驾”.令>81,得0.7x+25>81,解得x>80,当每毫升血液酒精含量大于80毫克时认定为“醉驾”.【变式备选】为了分析某个高三学生的学习状态,对其下一阶段的学习提供指导性建议.现对他前7次考试的数学成绩x、物理成绩y进行分析.下面是该生7次考试的成绩.(1)(2)已知该生的物理成绩y与数学成绩x是线性相关的,若该生的物理成绩达到115分,请你估计他的数学成绩大约是多少?请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理建议.【解析】(1) =100+=100;=100+=100;因为==142, =,所以>,所以物理成绩更稳定.(2)由于x与y之间具有线性相关关系,所以==0.5, =100-0.5×100=50,所以线性回归方程为=0.5x+50.当=115时,x=130.建议:进一步加强对数学的学习,提高数学成绩的稳定性,将有助于物理成绩的进一步提高.。
高中数学 变量间的相关关系 练习题(含答案)

型号二手车时车辆的使用年数不得超过多少年?
参考公式:回归方程
中斜率和截距的最小二乘估计公式分别为:
,
,
. 【答案】(1) 万元;(2)11. 【解析】
(1)由题意,计算
,
, 12.某地级市共有 200000 中小学生,其中有 7%学生在 2017 年享受了“国家精准扶贫”政策,在享受“国家精 准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为 5:3:2,为进一
,后因某未知原因使第 5 组数据的 值模糊不清,此位置数据记为 (如下表所示),则利用回 归方程可求得实数 的值为( )
196
197
200
203
204
1
3
6
7
A. 8.3 B. 8.2 【答案】D 【解析】 由题意可得:
C. 8.1
D. 8
,
,
回归方程过样本中心点,则:
,解得: . 本题选择 D 选项. 学.科.网
(Ⅱ)(1)
(2)
(2)由(1)得:
令
当
时 取最大
时,收益 预报值最大.
16.一台机器使用的时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,
每小时生产有缺点零件的多少,随机器运转速度而变化,下表为抽样试验的结果:
转速 x(转/秒)
16
14
12
8
每小时生产有缺点的零件数 y(件)
严重污染(六级),指数大于 300 .某气象站观测点记录了某市五月 1 号—4 号连续 4 天里,AQI 指数 M 与
当天的空气水平可见度 (单位 cm)的情况如下表 1:
M
900
700
2021年高考数学总复习第64讲:变量间的相关关系与统计案例练习题及答案解析

2021年高考数学总复习第64讲:变量间的相关关系与统计案例1.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图如图①,对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图如图②.由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关C [由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量x 与y 负相关,u 与v 正相关.]2.两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数R 2如下,其中拟合效果最好的模型是( )A .模型1的相关指数R 2为0.98B .模型2的相关指数R 2为0.80C .模型3的相关指数R 2为0.50D .模型4的相关指数R 2为0.25A [相关指数R 2越大,拟合效果越好,因此模型1拟合效果最好.]3.为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系.设其回归直线方程为y ^=b ^x +a ^.已知∑i =110x i =225,∑i =110y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( )A .160B .163C .166D .170C [∵∑i =110x i =225,∴x -=110∑i =1 10x i =22.5.∵∑i =110y i =1 600,∴y -=110∑i =110y i =160.又b ^=4,∴a^= y --b ^x - =160-4×22.5=70.∴回归直线方程为y ^=4x +70.将x =24代入上式得y ^=4×24+70=166.]4.随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.由K 2=n (ad (a +b )(c +d )(a +c )(b +d ),得K 2=13)265×35×58×42≈9.616.参照下表:正确的结论是( A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关” B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关” C .有99%以上的把握认为“生育意愿与城市级别有关” D .有99%以上的把握认为“生育意愿与城市级别无关”C [∵K 2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”.] 5.千年潮未落,风起再扬帆,为实现“两个一百年”奋斗目标、实现中华民族伟大复兴的中国梦奠定坚实基础,某校积极响应国家号召,不断加大拔尖人才的培养力度,据不完全统计:根据上表可得回归方程y =b x +a 中的b 为1.35,该校2020届同学在学科竞赛中获省级一等奖及以上的学生人数为63,据此模型预测该校今年被清华、北大等世界名校录取的学生人数为( )A .111B .117C .118D .123B [因为x -=53,y -=103.5,所以a ^=y --b ^x -=103.5-1.35×53=31.95,所以回归直线方程为y ^=1.35x +31.95.当x =63时,代入解得y ^=117.]6.某公司为确定明年投入某产品的广告支出,对近5年的年广告支出m 与年销售额t (单位:百万元)进行了初步统计,得到下列表格中的数据:。
习题-变量间的相关关系、统计案例

10.3 变量间的相关关系、统计案例基础篇 固本夯基考点一 变量间的相关关系1.(2022届陕西宝鸡期末,4)下列两个变量具有相关关系的是( ) A.正方体的体积与棱长 B.汽车匀速行驶时的路程与时间 C.人的体重与饭量 D.人的身高与视力 答案 C2.(2021西南名校联盟联考,3)已知甲、乙、丙、丁四组数据变量间对应的线性相关系数分别为0.46,0.79, -0.92,0.85,则( )A.甲组数据变量间的线性相关程度最强B.乙组数据变量间的线性相关程度最弱C.丙组数据变量间的线性相关程度最强D.丁组数据变量间的线性相关程度最强 答案 C3.(2020陕西铜川二模,5)四名同学根据各自的样本数据研究变量x,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x-6.423; ②y 与x 负相关且y ^=-3.476x+5.648; ③y 与x 正相关且y ^=5.437x+8.493; ④y 与x 正相关且y ^=-4.326x-4.578. 其中不正确的结论的序号是( ) A.①② B.②③ C.③④ D.①④ 答案 D4.(2020陕西榆林三模,3)如图所示,给出了样本容量均为7的A,B 两组样本数据的散点图,已知A 组样本数据的相关系数为r 1,B 组样本数据的相关系数为r 2,则( )A.r 1=r 2B.r 1<r 2C.r 1>r 2D.无法判定 答案 C5.(2022届四川资阳一诊,4)我国在2020年如期完成了新时代脱贫攻坚目标任务,脱贫攻坚战取得全面胜利,历史性地解决了绝对贫困问题,并全面建成了小康社会.现就2013—2019 年年末全国农村贫困人口数进行了统计,制成如下散点图:据此散点图,下面 4个回归方程类型中最适宜作为年末贫困人口数y 和年份代码x 的回归方程类型的是( )A.y=a+bxB.y=a+bx C.y=a+be x D.y=a+bln x 答案 A6.(2022届四川绵阳阶段测试,3)某市物价部门对5家商场的某商品一天的销售量及其价格进行了调查,5家商场的价格x(元)和销售量y(件)之间的一组数据如表所示:价格x(元) 9 9.5 10 10.5 11 销售量y(件)1110865按公式计算,y 与x 的回归直线方程是y ^=-3.2x+a ^,相关系数|r|=0.992,则下列说法错误的是( ) A.变量x,y 线性负相关且相关性较强 B.a ^=40C.当x=8.5时,y 的估计值为12.8D.相应于点(10.5,6)的残差为0.4 答案 D7.(2020兰州一诊,7)近五年来某草场羊只数与草场植被指数两变量间的关系如表所示,绘制相应的散点图,如图所示.年份 1 2 3 4 5 羊只数(万只) 1.4 0.9 0.750.60.3 草场植被指数1.14.315.6 31.349.7根据表及图得到以下判断:①羊只数与草场植被指数成减函数关系;②若利用这五组数据得到的两变量间的相关系数为r 1,去掉第一年数据后得到的相关系数为r 2,则|r 1|<|r 2|; ③可以利用回归直线方程,准确地得到当羊只数为2万只时的草场植被指数. 以上判断中正确的个数是( )A.0B.1C.2D.3 答案 B8.(2020课标Ⅱ,18,12分)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i=1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑i=120x i =60,∑i=120y i =1 200,∑i=120(x i -x )2=80,∑i=120(y i -y )2=9 000,∑i=120(x i -x)(y i -y)=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘地块数);(2)求样本(x i ,y i )(i=1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由. 附:相关系数 r=∑i=1n(x i -x)(y -y)√∑i=1(x i -x)2∑i=1(y i -y)2,√2≈1.414.解析(1)由已知得样本平均数y =120∑i=120y i =60,从而该地区这种野生动物数量的估计值为60×200=12 000.(2)样本(x i ,y i )(i=1,2,…,20)的相关系数 r=∑i=120(x i -x)(y -y)√∑i=1(x i -x)2∑i=1(y i-y)2=√80×9 000=2√23≈0.94.(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.考点二 独立性检验1.(2022届黑龙江月考,8)某学校食堂对高三学生偏爱蔬菜还是肉类与性别的关系进行了一次调查,根据独立性检验原理,处理所得数据之后发现,有99%的把握但没有99.9%的把握认为偏爱蔬菜还是肉类与性别有关,则K 2的观测值可能为( )P(K 2≥k 0) 0.10 0.05 0.025 0.010 0.0050.001k0 2.706 3.841 5.024 6.6357.87910.828A.K2=3.206B.K2=6.625C.K2=7.869D.K2=11.208答案C2.(2022届山西运城期中,7)为考察某种药物对预防禽流感的效果,在四个不同的实验室取相同的个体进行动物试验.根据四个实验室得到的列联表画出如下四个等高堆积条形图,最能体现该药物对预防禽流感有显著效果的图形是()答案D3.(2020宁夏石嘴山二模,4)通过随机询问200名性别不同的大学生是否爱好踢毽子运动,计算得到K2的观测值k≈4.892,参照下表,得到的正确结论是()P(K2≥k0)0.100.050.025k0 2.706 3.841 5.024A.有97.5%以上的把握认为“爱好该项运动与性别有关”B.有97.5%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别无关”答案C4.(2021四川南充阆中中学4月质检,6)若由一个2×2列联表中的数据计算得K2=4.013,那么有的把握认为两个变量有关系.()P(K2≥k0)0.150.100.050.0250.0100.0050.001k0 2.0722.7063.8415.0246.6357.87910.828A.95%B.97.5%C.99%D.99.9%答案A5.(2021安徽黄山二模,7)给出下列命题:①在线性回归模型中,相关指数R2表示解释变量x对于预报变量y的贡献率,R2越接近于0,表示回归效果越好;②两个变量相关性越强,则相关系数的绝对值就越接近于1; ③两个模型中残差平方和越小的模型拟合的效果越好;④对分类变量X 与Y 的随机变量K 2的观测值k 来说,k 越大,“X 与Y 有关系”的把握程度越大. 其中正确命题的个数是( )A.1B.2C.3D.4 答案 C6.(2022届河南焦作模拟,17)第32届夏季奥运会于2021年7月23日至8月8日在日本举行,为了解某校学生对奥运会是否关注,随机调查了该校200名学生,统计结果如表:关注 不关注 合计 女生 34 51 85 男生 66 49 115 合计100100200(1)分别估计该校女生和男生关注奥运会的概率;(2)能否有99%的把握认为该校女生和男生对奥运会的关注度有差异? 参考公式及数据: K2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.P(K 2≥k) 0.050 0.010 0.001k3.8416.635 10.828解析 (1)估计该校女生关注奥运会的概率约为3485=25;男生关注奥运会的概率约为66115. (2)由题表中数据可知K2=200×(34×49-66×51)2100×100×85×115=13623≈5.913. 因为5.913<6.635,故没有99%的把握认为该校女生和男生对奥运会的关注度有差异.7.(2022届昆明质检,17)“微信运动”是手机APP 推出的多款健康运动软件中的一款,某学校140名教师均在微信好友群中参与了“微信运动”,对运动10 000步或以上的教师授予“运动达人”称号,低于10 000步称为“参与者”.为了解教师们的运动情况,选取了教师们在某日的运动数据进行分析,统计结果如下:运动达人 参与者 合计 男教师 60 20 80 女教师 40 20 60 合计10040140(1)根据上表说明,能否在犯错误概率不超过0.05的前提下认为获得“运动达人”称号与性别有关; (2)从获得“运动达人”称号的教师中采用按性别分层抽样的方法选取5人参加全国第四届“万步有约”全国健走激励大赛某赛区的活动,若从选取的5人中随机抽取2人作为代表参加开幕式,求抽取的2人都为女教师的概率. 参考公式:K 2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.参考数据:P(K 2≥k 0) 0.050 0.0100.001k 03.8416.635 10.828解析 (1)∵K2=140×(60×20-40×20)280×60×100×40≈1.167<3.841,∴不能在犯错误的概率不超过0.05的前提下认为获得“运动达人”称号与性别有关.(2)根据分层抽样方法得:参赛的男教师有60100×5=3人,参赛的女教师有40100×5=2人,抽取的男教师记为A,B,C;女教师记为a,b.从抽取的这五名教师中随机选取2名,有AB,AC,Aa,Ab,BC,Ba,Bb,Ca,Cb,ab 共10种选法,其中2人都是女教师的选法有ab 一种,故抽取的2人都为女教师的概率P=110.8.(2019课标Ⅰ,17,12分)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到列联表:满意 不满意 男顾客 40 10 女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异? 附:K2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d).P(K 2≥k)0.050 0.010 0.001 k3.8416.63510.828.解析 (1)由调查数据,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6. (2)K2=100×(40×20-10×30)250×50×70×30≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.综合篇 知能转换考法一 线性回归方程的求解与应用1.(2022届四川模拟,8)已知回归直线的斜率的估计值为1.23,样本点的中心为(5,6),则回归直线方程为( ) A.y ^=-0.15x+1.23 B.y ^=-2.38x+1.23C.y ^=1.23x-2.38 D.y ^=1.23x-0.15 答案 D2.(2022届哈尔滨模拟,10)已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间具有线性相关关系,利用下表中的五组数据求得回归直线方程为y ^=b ^x+a ^,根据该回归方程,预测当x=8时,y ^=84.8,则b ^=( )x23456y 25 37 50 56 64A.9.4B.9.5C.9.6D.9.8 答案 C3.(2021甘肃二模,7)某地以“绿水青山就是金山银山”理念为引导,推进绿色发展,现要订购一批苗木,苗木长度与售价如下表:苗木长度x(厘米) 38 485868 7888 售价y(元)16.8 18.8 20.8 22.8 2425.8由表可知,苗木长度x(厘米)与售价y(元)之间存在线性相关关系,回归方程为y ^=0.2x+a ^,则当苗木长度为150厘米时,售价大约为( ) A.33.3元 B.35.5元 C.38.9元 D.41.5元 答案 C4.(2021西安中学二模,4)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i=1,2,…,n),用最小二乘法建立的回归方程为y ^=0.85x-85.71. ①y 与x 具有正的线性相关关系; ②回归直线过样本点的中心(x ,y );③若该大学某女生身高增加1 cm,则其体重约增加0.85 kg; ④若该大学某女生身高为170 cm,则其体重必为58.79 kg. 则上述判断不正确的个数是( ) A.1 B.2 C.3 D.4 答案 A5.(2020中原名校质量考评,7)根据最小二乘法,由一组样本数据(x i ,y i )(其中i=1,2,…,300)求得的回归方程是y ^=b ^x+a ^,则下列说法正确的是( )A.至少有一个样本点落在回归直线y ^=b ^x+a ^上B.若所有样本点都在回归直线y ^=b ^x+a ^上,则变量间的相关系数为1 C.对所有的解释变量x i (i=1,2,…,300),b ^x i +a ^的值一定与y i 有误差 D.若回归直线y ^=b ^x+a ^的斜率b ^>0,则变量x 与y 正相关 答案 D6.(2021江西八校4月联考,14)如图,根据已知的散点图得到y 关于x 的线性回归方程为y ^=b ^x+0.2,则b ^= .答案 1.67.(2022届江西顶级名校调研,18)根据国际疫情形势以及传染病防控的经验,加快新冠病毒疫苗接种是当前有力的防控手段,我国正在安全、有序加快推进疫苗接种工作.某乡村采取通知公告、微信推送、广播播放、条幅宣传等形式,积极开展疫苗接种社会宣传工作,消除群众疑虑,提高新冠疫苗接种率,让群众充分地认识到了疫苗接种的重要作用.自宣传开始后村干部统计了本村200名居民(未接种)5天内每天新接种新冠疫苗的情况如下表:第x 天 1 2 3 4 5 新接种人数y1015192328(1)建立y 关于x 的线性回归方程;(2)假设全村共计2 000名居民(均未接种过新冠疫苗),用样本估计总体来预测该村80%居民接种新冠疫苗需要几天.参考公式:回归方程y ^=b ^x+a ^中斜率和截距的最小二乘估计公式分别为b ^=∑i=1nx i y i -nxy ∑i=1nx i 2-nx2,a ^=y -b ^x .解析 (1)x =1+2+3+4+55=3,y =10+15+19+23+285=19,则b ^=10+30+57+92+140-5×3×1912+22+32+42+52-5×32=225,a ^=19-225×3=295,故y 关于x 的线性回归方程为y ^=225x+295.(2)设a n =225n+295,数列{a n }的前n 项和为S n ,易知数列{a n }是等差数列, 则S n =n(a 1+a n )2=n (225+295+225n+295)2=115n 2+8n,因为S 6=127.2,S 7=163.8,所以10S 6=1 272,10S 7=1 638,又2 000×80%=1 600(人),所以预测该村80%居民接种新冠疫苗需要7天.8.(2021广西贵港港北模拟,17)某个体服装店经营各种服装,在某周内获纯利润y(元)与该周每天销售这种服装件数x 之间的一组数据关系如下表:x 3456789y66 69 73 81 89 90 91(1)求x ,y ;(2)若y 与x 线性相关,请求纯利润y(元)与每天销售件数x 的回归直线方程. 参考数据及公式:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2=∑i=1nx i y i -nx y ∑i=1nx i2-nx 2,a ^=y -b ^x ,∑i=17x i 2=280,∑i=17x i y i =3 487. 解析 (1)x =17×(3+4+5+6+7+8+9)=6,y =17×(66+69+73+81+89+90+91)=5597. (2)设回归直线方程为y ^=b ^x+a ^.∵∑i=17x i 2=280,∑i=17x i y i =3 487,∴b ^=3 487-7×6×5597280-7×36=13328=4.75,a ^=5597-6×4.75≈51.36.∴回归直线方程为y ^=4.75x+51.36.9.(2021成都郫都模拟,18)某人统计了近5年某网站“双11”当天的交易额,统计结果如下表:年份 2015 2016 2017 2018 2019 年份代码x 1 2 3 4 5 交易额y/百亿元912172126(1)请根据上表提供的数据,用相关系数r 说明y 与x 的线性关系的强弱(线性相关系数保留三位小数);(统计中用相关系数r 来衡量两个变量之间线性关系的强弱.若相应于变量x 的取值x i ,变量y 的观测值为y i (1≤i ≤n),则两个变量的相关系数的计算公式为r=∑i=1n(x i -x)(y -y)√∑i=1(x i -x)2∑i=1(y i -y)2.统计学认为,对于变量x,y,如果r ∈[-1,-0.75],那么负相关很强;如果r ∈[0.75,1],那么正相关很强;如果r ∈(-0.75,-0.30]或r ∈[0.30,0.75),那么相关性一般;如果r ∈[-0.25,0.25],那么相关性较弱)(2)求出y 关于x 的线性回归方程,并预测2020年该网站“双11”当天的交易额. 参考公式:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2,a ^=y -b ^x ,参考数据:√1 860≈43.1.解析 (1)根据题表中的数据,可得x =15×(1+2+3+4+5)=3,y =15×(9+12+17+21+26)=17, 则∑i=15(x i -x )(y i -y )=(1-3)×(9-17)+…+(5-3)×(26-17)=43;√∑i=15(x i -x)2∑i=15(y i -y)2=√10×186≈43.1,所以r=∑i=15(x i -x)(y -y)√∑i=15(x i -x)2∑i=15(y i-y)2=4343.1≈0.998,所以变量y 与x 的线性相关性很强. (2)由(1)可得x =3,y =17,∑i=15(x i -x )(y i -y )=43,∑i=15(x i -x )2=(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2=10,所以b ^=∑i=15(x i -x)(y i -y)∑i=15(x i -x)2=4310=4.3,则a ^=y -b ^x =17-4.3×3=4.1.所以y 关于x 的线性回归方程为y ^=4.3x+4.1.令x=6,可得y ^=4.3×6+4.1=29.9,故预测2020年该网站“双11”当天的交易额为29.9百亿元.思路分析 (1)利用已知条件求解相关系数,判断即可;(2)根据公式求出回归直线方程的系数,得回归直线方程,然后把x=6代入,求出结果进行预测即可.考法二 独立性检验的应用1.(2022届河南月考,9)某外语学校要学生从德语和日语中选择一种作为“第二外语”进行学习,为了解选择第二外语的倾向与性别的关系,随机抽取100名学生,得到下面的数据表:选择德语 选择日语 男生 15 35 女生3020根据表中提供的数据可知( ) 附:K2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.P(K 2≥k) 0.100 0.050 0.010 0.005 0.001 k2.7063.841 6.635 7.87910.828A.在犯错误的概率不超过0.1%的前提下,认为选择第二外语的倾向与性别无关B.在犯错误的概率不超过0.1%的前提下,认为选择第二外语的倾向与性别有关C.有99.5%的把握认为选择第二外语的倾向与性别无关D.有99.5%的把握认为选择第二外语的倾向与性别有关答案D2.(2020江西吉安、抚州、赣州一模,5)千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,观察了所在地区A 的100天日落和夜晚天气,得到如下2×2列联表:夜晚天气下雨未下雨日落云里走出现255未出现2545临界值表P(K2≥k0)0.100.050.0100.001k0 2.706 3.841 6.63510.828并计算得到K2≈19.05,下列小波对地区A天气的判断不正确的是()A.夜晚下雨的概率约为12B.未出现“日落云里走”,夜晚下雨的概率约为514C.有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关D.出现“日落云里走”,有99.9%的把握认为夜晚会下雨答案D3.(2020湖南衡阳八中月考,5)某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修课程的55名学生,得到数据如下表:喜欢应用统计课程不喜欢应用统计课程男生205女生1020附表:P(K2≥k)0.100.050.0250.0100.0050.001k 2.706 3.841 5.024 6.6357.87910.828参考公式:K2=n(ad-bc)2,其中n=a+b+c+d.(a+b)(c+d)(a+c)(b+d)参照附表,得到的正确结论是()A.在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别有关B.在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别无关C.有99.99%以上的把握认为喜欢“应用统计”课程与性别有关D.有99.99%以上的把握认为喜欢“应用统计”课程与性别无关答案A4.(2020安徽蚌埠三模,15)某企业为了调查其产品在国内和国际市场的发展情况,随机抽取国内、国外各100名客户代表,了解他们对该企业产品的发展前景所持的态度,得到如图所示的等高条形图,则有99%以上的把握认为是否持乐观态度与国内外差异有关(填“能”或“不能”).P(K2≥k)0.0500.0100.0050.001k 3.841 6.6357.87910.828附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).答案能5.(2021山东青岛一模,15)某驾驶员培训学校为对比了解“科目二”的培训过程采用大密度集中培训与周末分散培训两种方式的效果,调查了105名学员,统计结果为接受大密度集中培训的55名学员中有45名学员一次考试通过,接受周末分散培训的学员一次考试通过的有30名.根据统计结果,认为“能否一次考试通过与是否集中培训有关”犯错误的概率不超过.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).P(K2≥k)0.050.0250.0100.001k 3.841 5.024 6.63510.828答案0.0256.(2022届吉林重点高中月考,19)新能源汽车是指除汽油、柴油发动机之外所有的其他能源汽车,被认为能减少空气污染和缓解能源短缺.在当今提倡全球环保的前提下,新能源汽车产业必将成为未来汽车产业发展的导向与目标.新能源汽车也越来越受到消费者的青睐.某机构调查了某地区近期购车的200位车主的性别与购车种类情况,得到数据如下:购置新能源汽车购置传统燃油汽车合计男性10020120女性503080合计15050200 (1)根据表中数据,判断是否有99.9%的把握认为购置新能源汽车与性别有关;(2)用分层抽样的方法按性别从被调查的购置新能源汽车的车主中选出6位,参加关于“新能源汽车驾驶体验”的问卷调查,并从这6位车主中随机抽取2位车主赠送一份小礼物,求这2位获赠礼品的车主中至少有1位女性车主的概率. 参考公式:K 2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.参考数据:P(K 2≥k 0) 0.10 0.05 0.010 0.001 k 02.7063.8416.63510.828解析 (1)由题表得K2=200×(100×30-20×50)2120×80×150×50=1009≈11.111>10.828.所以有99.9%的把握认为购置新能源汽车与性别有关.(2)用分层抽样的方法按性别从被调查的购置新能源汽车的车主中选出6位,其中男性车主有100150×6=4人,记为a,b,c,d;女性车主有50150×6=2人,记为E,F.从这6位车主中随机抽取2位车主包含的基本事件有:ab,ac,ad,aE,aF,bc,bd,bE,bF,cd,cE,cF,dE,dF,EF,共15种. 至少有1位女性车主包含的基本事件有:aE,aF,bE,bF,cE,cF,dE,dF,EF,共9种.故所求概率P=915=35. 7.(2022届山西长治质检,17)为了了解某种新型药物对治疗某种疾病的疗效,某机构日前联合医院进行了小规模的调查.结果显示,相当多的受访者担心使用新药后会有副作用.为了了解使用该种新型药品后是否会引起疲乏症状,该机构随机抽取了某地患有这种疾病的275人进行调查,得到统计数据如下表:无疲乏症状有疲乏症状总计 未使用新药 150 25 t 使用新药 x y 100 总计225m275(1)求2×2列联表中的数据x,y,m,t 的值,并确定能否有95%的把握认为有疲乏症状与使用该新药有关; (2)从使用该新药的100人中按是否有疲乏症状,采用分层抽样的方法抽出4人,再从这4人中随机抽取2人作进一步调查,求这2人中恰有1人有疲乏症状的概率. 附:K2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.P(K 2≥k) 0.150 0.100 0.050 0.025 0.010 k2.072 2.7063.841 5.0246.635解析 (1)t=150+25=175,x=225-150=75,y=100-75=25,m=25+25=50,所以K 2的观测值k=275×(150×25-75×25)2225×50×100×175≈4.910 7>3.841,故有95%的把握认为有疲乏症状与使用新药有关.(2)从使用该新药的100人中按是否有疲乏症状,采用分层抽样的方法抽出4人,其中无疲乏症状的有75100×4=3人,记为a,b,c;有疲乏症状的有25100×4=1人,记为D,则从这4人中随机抽取2人的情况有ab,ac,aD,bc,bD,cD,共6种,这2人中恰有1人有疲乏症状的情况有aD,bD,cD,共3种.故所求概率P=36=12. 8.(2021安徽五校联盟联考(二),18)网购是当前人们购物的新方式,某公司为了改进营销方式,随机调查了100名市民,统计了不同年龄的人群网购的人数如下表:年龄段(岁) (0,20) [20,40) [40,60) [60,100) 网购人数 26 32 34 8 男性人数1510105(1)若把年龄在[20,60)的人称为“网购迷”,否则称为“非网购迷”,请完成下面的2×2列联表,并判断能否有99%的把握认为网购与性别有关;网购迷非网购迷总计男性 女性 总计(2)若从年龄小于40岁的网购男性中用分层抽样的方法抽取5人,再从中抽取两人,求两人年龄都小于20岁的概率. 附:K2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.P(K 2≥k) 0.10 0.05 0.01 0.001k2.7063.841 6.635 10.828解析 (1)由题中信息完善2×2列联表如下表所示:网购迷 非网购迷 总计 男性 20 20 40 女性 46 14 60 总计6634100∴K2=100×(20×14-46×20)266×34×40×60≈7.605>6.635,故有99%的把握认为网购与性别有关.(2)年龄在(0,20)、[20,40)的网购男性分别有15人、10人.按分层抽样的方法随机抽取5人,从年龄段(0,20)内抽取3人,分别记为1、2、3;从年龄段[20,40)内抽取2人,分别记为a 、b,从中随机抽取2人的可能结果有(1,2)、(1,3)、(1,a)、(1,b)、(2,3)、(2,a)、(2,b)、(3,a)、(3,b)、(a,b),共10个.用A表示“两人年龄都小于20岁”这一事件,则事件A包含的结果为(1,2)、(1,3)、(2,3),共3个.故事件A发生的概率P(A)=310.9.(2021安徽黄山二模,17)2021年3月5日,人社部和全国两会政府工作报告中针对延迟退休给出了最新消息,人社部表示正在研究延迟退休改革方案,两会上指出十四五期间要逐步延迟法定退休年龄.现对某市工薪阶层关于延迟退休政策的态度进行调查,随机调查了50人,他们月收入的频数分布及对延迟退休政策赞成的人数如下表.月收入(单位:百元)[15,25)[25,35)[35,45)[45,55)[55,65)[65,75]频数510151055赞成人数123534(1)根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有99%的把握认为“月收入以55百元为分界点”对延迟退休政策的态度有差异;月收入不低于55百元月收入低于55百元合计赞成不赞成合计(2)若采用分层抽样法从月收入在[25,35)和[65,75]的被调查人中选取6人进行跟踪调查,并随机给其中3人发放奖励,求获得奖励的3人中至少有1人月收入在[65,75]的概率.参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.P(K2≥k)0.0500.0100.001k 3.841 6.63510.828解析(1)2×2列联表如下:月收入不低于55百元月收入低于55百元合计赞成71118不赞成32932合计104050则K2=50×(7×29-3×11)210×40×32×18≈6.27<6.635,所以没有99%的把握认为“月收入以55百元为分界点”对延迟退休政策的态度有差异.(2)按照分层抽样的方法可知,月收入在[25,35)的抽取4人,记为a,b,c,d,月收入在[65,75]的抽取2人,记为A,B,则从6人中任取3人的所有情况为{A,B,a}、{A,B,b}、{A,B,c}、{A,B,d}、{A,a,b}、{A,a,c}、{A,a,d}、{A,b,c}、{A,b,d}、{A,c,d}、{B,a,b}、{B,a,c}、{B,a,d}、{B,b,c}、{B,b,d}、{B,c,d}、{a,b,c}、{a,b,d}、{a,c,d}、{b,c,d},共20种, 其中至少有1人月收入在[65,75]的情况有16种, 所以3人中至少有1人月收入在[65,75]的概率为1620=45.应用篇 知行合一应用 回归模型的应用1.(2020课标Ⅰ,5,5分探索创新情境)某校一个课外学习小组为研究某作物种子的发芽率y 和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i ,y i )(i=1,2,…,20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y 和温度x 的回归方程类型的是( )A.y=a+bxB.y=a+bx 2C.y=a+be xD.y=a+bln x 答案 D2.(2022届宁夏顶级名校月考,20实际生活)“金山银山不如绿水青山;绿水青山就是金山银山.”复兴村借力“乡村振兴”国策,依托得天独厚的自然资源开展乡村旅游,乡村旅游事业蓬勃发展.复兴村旅游协会记录了近八年的游客人数,见下表.年份2013 年 2014 年 2015 年 2016 年 2017 年 2018 年 2019 年2020 年 年份代码x 1 2 345678 游客人数y (百人)4816 32 51 71 97122为了分析复兴村未来的游客人数变化趋势,公司总监分别用两种模型对变量y 和x 进行拟合,得到了相应的回归方程,绘制了残差图.残差图如下(注:残差e ^i =y i -y ^i ):模型①y ^=bx 2+a;模型②y ^=dx+c.(1)根据残差图,比较模型①,②的拟合效果,应该选择哪个模型?并简要说明理由; (2)根据(1)中选定的模型求出相应的回归方程(系数均保留两位小数); (3)根据(2)中求出的回归方程来预测2021年的游客人数(结果保留整数). 其中,z=x2,z =18∑i=18z i .参考数据:∑i=18(x i -x )·(y i -y )=728∑i=18(x i -x )2=42∑i=18(z i -z )·(y i -y )=6 868∑i=18(z i -z )2=3 570∑i=18z i =204∑i=18y i =400附:回归直线的斜率和截距的最小二乘估计公式分别为b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2,a ^=y -b ^x .解析 (1)选择模型①.理由:根据残差图可以看出, 模型①的估计值和真实值相对比较接近;模型②的残差相对比较大,所以模型①的拟合效果相对较好.(2)由(1)可知y 关于x 的回归方程为y ^=bx 2+a.令z=x 2,则y ^=bz+a,由题中所给数据得b ^=6 8683 570≈1.92,又z =18∑i=18z i =2048=25.5,y =4008=50,所以a ^=50-1.92×25.5=1.04,所以y 关于x 的回归方程为y ^=1.92x 2+1.04. (3)将x=9代入回归方程,可得y ^=1.92×92+1.04≈157, 则2021年游客人数大约为157百人. 3.(2021哈尔滨三中一模,19实际生活)宁夏西海固地区,在1972年被联合国粮食开发署确定为最不适宜人类生存的地区之一.为改善这一地区人民生活的贫困状态,20世纪90年代,党中央和自治区政府决定开始吊庄移民,将西海固地区的人口成批地迁移到更加适合生活的地区.为了帮助移民人口尽快脱贫,党中央作出推进东西部对口协作的战略部署,其中确定福建对口帮扶宁夏,在福建人民的帮助下,原西海固人民实现了快速脱贫,下表是对2016年以来近5年某移民村庄100位移民的年人均收入的统计:年份 2016 2017 2018 2019 2020 年份代码x12 3 4 5 人均年收入y(千元) 1.32.85.78.913.8现要建立y 关于x 的回归方程,有两个不同回归模型可供选择,模型一y^(1)=b ^x+a ^;模型二y ^(2)=c ^x 2+d ^,即使画出y 关于x 的散点图,也无法确定哪个模型拟合效果更好,现用最小二乘法原理,已经求得模型一的方程为y ^=3.1x-2.8.(1)请你用最小二乘法原理,结合下面的参考数据及参考公式求出模型二的方程(计算结果保留到小数点后一位);(2)用计算残差平方和的方法比较哪个模型拟合效果更好(已经计算出模型一的残差平方和为∑i=15(y i -y ^i )2=3.7).参考数据:∑i=15t i y i -5ty ∑i=15t i2-5t 2≈0.52,其中t i =x i 2,i=1,2,3,4,5.参考公式:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=α^+β^u 的斜率和截距的最小二乘估计公式分别为β^=∑i=1nu i v i -nuv ∑i=1nu i 2-nu 2,α^=v -β^u .解析 (1)令t=x 2,则模型二可化为y 关于t 的线性回归问题, t =1+4+9+16+255=11,y =1.3+2.8+5.7+8.9+13.85=6.5, 则由参考数据可得c ^=∑i=15t i y i -5ty ∑i=15t i2-5t 2≈0.52≈0.5,d ^=y -c ^t =6.5-0.52×11≈0.8, 则模型二的方程为y ^(2)=0.5x 2+0.8. (2)由模型二的回归方程可得,y ^1(2)=0.5×1+0.8=1.3,y ^2(2)=0.5×4+0.8=2.8,y ^3(2)=0.5×9+0.8=5.3,y ^4(2)=0.5×16+0.8=8.8,y ^5(2)=0.5×25+0.8=13.3,∴∑i=15(y i -y ^i (2))2=02+02+0.42+0.12+0.52=0.42<3.7,故模型二的拟合效果更好.创新篇 守正出奇创新 统计与统计案例的综合应用。
2021年新高考数学总复习:变量间的相关关系与统计案例(附答案解析)

2021年新高考数学总复习:变量间的相关关系与统计案例1.观察下列图形,其中两个变量x,y具有相关关系的图是()A.①②B.①④C.③④D.②③解析:由散点图知③中的点都分布在一条直线附近.④中的点都分布在一条曲线附近,所以③④中的两个变量具有相关关系.答案:C2.根据下面给出的2004年至2013年我国二氧化硫排放量(单位:万吨)的柱形图.以下结论不正确的是()A.逐年比较,2008年减少二氧化碳排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关解析:从2006年,将每年的二氧化硫排放量与前一年作差比较,得到2008年二氧化硫排放量与2007年排放量的差最大,A选项正确;2007年二氧化硫排放量较2006年降低了很多,B选项正确;虽然2011年二氧化硫排放量较2010年多一些,但自2006年以来,整体呈递减趋势,C选项正确;自2006年以来我国二氧化硫年排放量与年份负相关,D选项错误.答案:D3.(2020·安徽皖江名校联考)某单位为了解用电量y(千瓦时)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得线性回归方程y=b x+a中b=-2,预测当温度为-5 ℃时,用电量约为()A.64千瓦时B.66千瓦时C.68千瓦时D.70千瓦时解析:由已知得x-=10,y-=40,将其代入回归方程得40=-2×10+a^,解得a^=60,故回归方程为y^=-2x+60,当x=-5时,y^=70.答案:D4.(多选题)(2020·青岛教学质量检测)下列说法中正确的是() A.相关系数r用来衡量两个变量之间线性关系的强弱,|r|越接近于1,相关性越强B.回归直线y^=b^x+a^过样本点的中心(x-,y-)C.在回归直线方程y^=0.2x+0.8中,当解释变量x每增加1个单位时,预报变量y^平均增加0.2个单位D.对分类变量X与Y,随机变量K2的观测值k越大,则判断“X 与Y有关系”的把握程度越小解析:由相关定义分析知A,B,C均正确.对分类变量X与Y 的随机变量K2的观测值k来说,k越大,则“X与Y有关系”的把握程度越大,因此D不正确.答案:ABC5.通过随机询问110名性别不同的学生是否爱好某项运动,得到如下的列联表:由K2=(a+b)(c+d)(a+c)(b+d)算得,K2=110×(40×30-20×20)260×50×60×50≈7.8.附表:A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”解析:根据独立性检验的定义,由K2≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关.”答案:A6.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y^=0.67x+54.9.零件数x/个1020304050加工时间y/min62758189_____.解析:由x-=30,得y-=0.67×30+54.9=75.设表中的“模糊数字”为a,则62+a+75+81+89=75×5,所以a=68.答案:687.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K2≈3.918,经查临界值表知P(K2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.①有95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%.解析:K2≈3.918>3.841,而P(K2≥3.814)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.答案:①8.(2019·广东深中、华附、省实、广雅四校联考)下图是一组数据(x,y)的散点图,经最小二乘估计公式计算,y与x之间的线性回归方程为y ^=b ^x +1,则b ^=________.解析:由题图知x -=0+1+3+44=2,y -=0.9+1.9+3.2+4.44=2.6,将(2,2.6)代入y ^=b ^x +1中,解得b ^=0.8. 答案:0.89.某市春节期间7家超市广告费支出x i (万元)和销售额y i (万元),数据如下表:超 市 A B C D EFG广告费支出x i /万元 124611 13 19销售额y i /万元19 32 40 44 52 53 54(1)程;(2)若用二次函数回归模型拟合y 与x 的关系,可得回归方程:y ^=-0.17x 2+5x +20,经计算,二次函数回归模型和线性回归模型的R 2分别约为0.93和0.75,请用R 2说明选择哪个回归模型更合适,并用此模型预测A 超市广告费支出3 万元时的销售额.参考数据:x -=8,y -=42,∑i =07x i y i =2 794,∑i =07x 2i =708.解:(1)b^==2 794-7×8×42708-7×82=1.7,所以a^=y--b^x-=28.4,故y关于x的线性回归方程是y^=1.7x+28.4.(2)因为0.75<0.93,所以二次函数回归模型更合适.当x=3时,y^=33.47.故选择二次函数回归模型更合适,并且用此模型预测A超市广告费支出3 万元时的销售额为33.47 万元.10.(2020·衡水调研)为了丰富学生的课外文化生活,某中学积极探索开展课外文体活动的新途径及新形式,取得了良好的效果.为了调查学生的学习积极性与参加文体活动是否有关,学校对300名学生做了问卷调查,列联表如下:分类参加文体活动不参加文体活动总计学习积极性高180学习积极性不高60总计300的概率为415.(1)请将上面的列联表补充完整.(2)是否有99.5%的把握认为学生积极性高与参加文体活动有关?请说明你的理由.(3)若从不参加文体活动的同学中按照分层抽样的方法选取5人,再从所选出的5人中随机选取2人,求至少有1人学习积极性不高的概率.附:K 2=(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解:(1)设学习积极性不高的学生有x 名,则x300=415,解之得x =80. 列联表如下:(2)K 2=300×(180×60-20×40)2200×100×220×80≈85>7.879,因此有99.5%的把握认为学习积极性高与参加文体活动有关. (3)根据题意,知从学习积极性高的学生中抽取2人,从学习积极性不高的学生中抽取3人.可设抽出的学习积极性高的学生为A 、B ,学习积极性不高的学生为C 、D 、E ,则选取的2人可以是(A ,B),(A ,C),(A ,D),(A ,E),(B ,C),(B ,D),(B ,E),(C ,D),(C ,E),(D,E),共10种,其中至少有1人学习积极性不高的有(A,C),(A,D),(A,E),(B,C),(B,D),(B,E),(C,D),(C,E),(D,E),共9种,所以至少有1人学习积极性不高的概率为910.[B级能力提升]11.(2020·河南名校联考)为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,得到5组数据:(x1,y1),(x2,y2),(x3,y3),(x4,y4),(x5,y5),根据收集到的数据可知x1+x2+x3+x4+x5=100,由最小二乘法求得回归直线方程为y^=0.67x+54.8,则y1+y2+y3+y4+y5的值为()A.68.2 B.341C.355 D.366.2解析:依题意可得x-=1005=20,由样本点的中心(x-,y-)在回归直线y^=0.67x+54.8上可得y-=0.67×20+54.8=68.2,故y1+y2+y3+y4+y5=5y-=5×68.2=341.答案:B12.针对时下的“韩剧热”,某校团委对“学生性别和喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的12,男生喜欢韩剧的人数占男生人数的16,女生喜欢韩剧的人数占女生人数的23.若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有________人.解析:分类喜欢韩剧不喜欢韩剧总计男生x65x6x女生x3x6x2总计x2x3x2若有则k>3.841,即k=3x2⎝⎛⎭⎪⎫x6·x6-5x6·x32x·x2·x2·x=3x8>3.841.解得x>10.243.因为x6,x2为整数,所以若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有12人.答案:1213.(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;分类箱产量<50 kg箱产量≥50 kg旧养殖法新养殖法(3)估计值(精确到0.01).附:P(K2≥k)0.0500.0100.001k 3.841 6.63510.828.K2=(a+b)(c+d)(a+c)(b+d)解:(1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.由题意知P(A)=P(BC)=P(B)P(C).旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,故P(B)的估计值为0.62.新养殖法的箱产量不低于50 kg的频率为(0.068+0.046+0.010+0.008)×5=0.66,故P(C)的估计值为0.66.因此,事件A的概率估计值为0.62×0.66=0.409 2.(2)根据箱产量的频率分布直方图得列联表K2=100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,箱产量低于55 kg的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5,故新养殖法箱产量的中位数的估计值为50+0.5-0.340.068≈52.35(kg).[C级素养升华]14.在2019年3月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x(元)和销售量y(件)之间的一组数据如下表所示:据表可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x +40,且m +n =20,则其中的n =________,样本中心为________.解析:x -=9+9.5+m +10.5+115=8+m 5, y -=11+n +8+6+55=6+n 5. 回归直线一定经过样本点中心(x -,y -),即6+n 5=-3.2⎝ ⎛⎭⎪⎫8+m 5+40,即3.2m +n =42.又因为m +n =20,即⎩⎪⎨⎪⎧3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10. 所以x -=10,y -=8,则样本中心为(10,8).答案:10 (10,8)。
2022届高考数学复习题:变量间的相关关系与统计案例
2022届高考数学复习题:变量间的相关关系与统计案例1.下列四个选项中,关于两个变量所具有的相关关系描述正确的是( ) A .圆的面积与半径具有相关性 B .纯净度与净化次数不具有相关性 C .作物的产量与人的耕耘是负相关 D .学习成绩与学习效率是正相关解析:对于A ,圆的面积与半径是确定的关系,是函数关系,不是相关关系,A 错误;对于B ,一般地,净化次数越多,纯净度就越高,所以纯净度与净化次数是正相关关系,B 错误;对于C ,一般地,作物的产量与人的耕耘是一种正相关关系,所以C 错误; 对于D ,学习成绩与学习效率是一种正相关关系,所以D 正确. 答案:D2.为考察某种药物对预防禽流感的效果,在四个不同的实验室取相同的个体进行动物试验,根据四个实验室得到的列联表画出如下四个等高条形图,最能体现该药物对预防禽流感有效果的图形是( )解析:选项D 中不服药样本中患病的频率与服药样本中患病的频率差距最大. 答案:D3.已知变量x ,y 之间具有线性相关关系,其回归方程为y ^=-3+b ^x ,若∑10i =1x i=17,∑10i =1y i =4,则b ^的值为( ) A .2 B .1 C .-2D .-1解析:依题意知,x =1710=1.7,y =410=0.4,而直线y ^=-3+b ^x 一定经过点(x ,y ),则-3+b ^×1.7=0.4,解得b ^=2.答案:A4.已知x ,y 的取值如表所示:x 2 3 4 y645如果y 与x 线性相关,且线性回归方程为y ^=b^x +132,则b ^的值为( )A .-12 B.12 C .-110D.110解析:计算得x =3,y =5,代入到y ^=b^x +132中,得b ^=-12.故选A.答案:A5.(2021·模拟)某青少年成长关爱机构为了调研所在地区青少年的年龄与身高状况,随机抽取6岁,9岁,12岁,15岁,18岁的青少年身高数据各1 000个,根据各年龄段平均身高作出如图所示的散点图和回归直线L .根据图中数据,下列对该样本描述错误的是 ( )A .据样本数据估计,该地区青少年身高与年龄成正相关B .所抽取数据中,5 000名青少年平均身高约为145 cmC .直线L 的斜率的值近似等于样本中青少年平均身高每年的增量D .从这5种年龄的青少年中各取一人的身高数据,由这5人的平均年龄和平均身高数据作出的点一定在直线L 上解析:由图知该地区青少年身高与年龄成正相关,A 选项描述正确;由图中数据得5 000名青少年平均身高为1 000×(108+128.5+147.6+164.5+176.4)5 000=145 cm,B选项描述正确;由回归直线L的斜率定义知C选项描述正确;对于D选项中5种年龄段各取一人的身高数据不一定能代表所有的平均身高,所以D选项描述不正确.答案:D6.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:^=2.347x-6.423;②y与x负相关且y^=-3.476x+5.648;①y与x负相关且y^=5.437x+8.493;④y与x正相关且y^=-4.326x-4.578.③y与x正相关且y其中一定不正确的结论的序号是()A.①②B.②③C.③④D.①④^=b^x+a^,当b>0时,为正相关,b<0为负相关,故①④错误.解析:y答案:D7.经调查某地若干户家庭的年收入x(万元)和年饮食支出y(万元)具有线性相关^=0.245x+0.321,由回归直线方程关系,并得到y关于x的回归直线方程:y可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.^=0.245(x+1)+0.321=0.245x+0.321+0.245,因此家庭解析:x变为x+1,y年收入每增加1万元,年饮食支出平均增加0.245万元.答案:0.2458.某工厂为了调查工人文化程度与月收入之间的关系,随机调查了部分工人,得到如下表所示的2×2列联表(单位:人):总计3075105由2×2列联表计算可知,我们有________以上的把握认为“文化程度与月收入有关系”.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)P(K2>k0)0.150.100.050.0250.010.001 k0 2.072 2.706 3.841 5.024 6.63510.828解析:由表中的数据可得K2=105×(10×30-45×20)255×50×30×75≈6.109,由于6.109>5.024,所以我们有97.5%以上的把握认为“文化程度与月收入有关系”.答案:97.5%9.某品牌手机厂商推出新款的旗舰机型,并在某地区跟踪调查得到这款手机上市时间(x个月)和市场占有率(y%)的几组相关对应数据:x 1234 5y 0.020.050.10.150.18(1)根据上表中的数据,用最小二乘法求出y关于x的线性回归方程;(2)根据上述回归方程,分析该款旗舰机型市场占有率的变化趋势,并预测自上市起经过多少个月,该款旗舰机型市场占有率能超过0.5%(精确到月).解析:a^=y-b^x=0.1-0.042×3=-0.026,所以线性回归方程为y^=0.042x-0.026.(2)由(1)中的回归方程可知,上市时间与市场占有率正相关,即上市时间每增加1个月,市场占有率约增加0.042个百分点.由y^=0.042x-0.026>0.5,解得x≥13,故预计上市13个月时,该款旗舰机型市场占有率能超过0.5%.10.已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能是()A.y^=0.4x+2.3B.y^=2x-2.4C.y^=-2x+9.5D.y^=-0.3x+4.4解析:依题意知,相应的回归直线的斜率应为正,排除C、D.且直线必过点(3,3.5),代入A、B得A正确.答案:A11.根据如下样本数据:得到的回归方程为y^=b^x+a^.若样本点的中心为(5,0.9),则当x每增加1个单位时,y()A.增加1.4个单位B.减少1.4个单位C.增加7.9个单位D.减少7.9个单位解析:依题意得,y=a+b-25=0.9,故a+b=6.5①;又样本点的中心为(5,0.9),故0.9=5b+a②,联立①②,解得b=-1.4,a=7.9,即y^=-1.4x+7.9,可知当x每增加1个单位时,y减少1.4个单位,故选B.答案:B12.某炼钢厂废品率x(%)与成本y(元/吨)的线性回归方程为y^=105.492+42.569x.当成本控制在176.5元/吨时,可以预计生产的1 000吨钢中,约有________吨钢是废品(结果保留两位小数).解析:因为176.5=105.492+42.569x,解得x≈1.668,即当成本控制在176.5元/吨时,废品率约为1.668%,所以生产的1 000吨钢中,约有1 000×1.668%=16.68吨是废品. 答案:16.6813.某考察团对全国10个城市进行职工人均工资水平x (千元)与居民人均消费水平y (千元)统计调查,y 与x 具有相关关系,回归方程y ^=0.66x +1.562.若某城市居民人均消费水平为7.675(千元),估计该城市人均消费占人均工资收入的百分比约为________.解析:由y ^=0.66x +1.562知,当y =7.675时,x =6 113660,故所求百分比为7.675x =7.675×6606 113≈83%. 答案:83%14.为了打好脱贫攻坚战,某贫困县农科院针对玉米种植情况进行调研,力争有效地改良玉米品种,为农民提供技术支援.现对已选出的一组玉米的茎高进行统计,获得茎叶图如图(单位:厘米),设茎高大于或等于180厘米的玉米为高茎玉米,否则为矮茎玉米.(1)完成2×2列联表,并判断是否可以在犯错误概率不超过0.01的前提下,认为抗倒伏与玉米矮茎有关? P (K 2≥k 0)0.150.100.050.0250.0100.0050.001⎝ ⎛⎭⎪⎫K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d (2)为了改良玉米品种,现采用分层抽样的方法从抗倒伏的玉米中抽出5株,再从这5株玉米中选取2株进行杂交试验,选取的植株均为矮茎的概率是多少?解析:(1)根据统计数据作出2×2列联表如下:K 2=45×(15×16-4×10)219×26×25×20≈7.287>6.635,因此可以在犯错误的概率不超过0.01的前提下,认为抗倒伏与玉米矮茎有关.(2)分层抽样后,高茎玉米有2株,设为A ,B ,矮茎玉米有3株,设为a ,b ,c ,从中取出2株的取法有AB ,Aa ,Ab ,Ac ,Ba ,Bb ,Bc ,ab ,ac ,bc ,共10种,其中均为矮茎的选取方式有ab ,ac ,bc 共3种,因此选取的植株均为矮茎的概率是310.15.2016年1月21日《人民日报》刊登的文章《阅读微信谨防病态》中说我国公民读书时间不多,可读微信的时间,恐怕在世界上都数一数二.为此某团体在某市随机抽取了a 名公民,调查这些公民一天的微信阅读时间(单位:分钟)得到如图的频率分布表和频率分布直方图:(1)根据所给频率分布表和频率分布直方图中的信息求出a,b的值,并将频率分布直方图补充完整;(2)根据(1)中的频率分布直方图算出样本数据的中位数;(3)在[0,50]和(150,200]这两组中采用分层抽样的方法抽取5人,再从5人中随机抽取2人,求抽取的2人来自不同组的概率.解析:(1)根据频率分布直方图,得0.003×50=15 a.∴a=100.又∵15+40+b+10=100,∴b=35;∴频率分布直方图中(50,100]对应矩形的高为40100×50=0.008,(100,150]对应矩形的高为35100×50=0.007.(150,200]对应矩形的高为10100×50=0.002;补全频率分布直方图,如图所示:(2)∵0.003×50=0.15,0.008×(100-50)=0.4,0.15+0.4>0.5,∴样本数据的中位数为50+0.5-0.150.008=93.75.(3)∵微信阅读时间在[0,50]和(150,200]的人数的比值为15∶10=3∶2,∴采用分层抽样抽取5人,其中微信阅读时间在[0,50]中的人数为3.分别记为a,b,c,微信阅读时间在(150,200]中的人数为2,分别记为A,B,则从5人中随机抽取2人所包含的基本事件有ab,ac,aA,aB,bc,bA,bB,cA,cB,AB共10种,其中2人来自不同组的基本事件有aA,aB,bA,bB,cA,cB共6种,故所求概率为P=610=35.。
高考数学一轮复习课时检测 第九章 第三节 变量间的相关关系与统计案例 理
一、选择题1.(2011·陕西高考)设(x 1,y 1),(x 2,y 2),…,(x n ,y n )是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论正确的是( )A .x 和y 的相关系数为直线l 的斜率B .x 和y 的相关系数在0到1之间C .当n 为偶数时,分布在l 两侧的样本点的个数一定相同D .直线l 过点(x ,y )解析:回归直线过样本中心(x ,y ). 答案:D2.(2011·湖南高考)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男 女 总计 爱好 40 20 60 不爱好 20 30 50 总计6050110由K 2=n ad -bc 2a +bc +d a +cb +d算得,K 2=110×40×30-20×20260×50×60×50≈7.8.附表:P (K 2≥k )0.050 0.010 0.001 k3.8416.63510.828参照附表,得到的正确结论是( )A .有99%以上的把握认为“爱好该项运动与性别有关”B .有99%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” 解析:根据独立性检验的思想方法,正确选项为A. 答案:A3.一位母亲记录了自己儿子3~9岁的身高数据(略),由此建立的身高与年龄的回归模型为y ︿=7.19x +73.93,用这个模型预测这个孩子10岁时的身高,则正确的叙述是( )A .身高一定是145.83 cmB .身高在145.83 cm 以上C .身高在145.83 cm 左右D .身高在145.83 cm 以下解析:用回归模型y ︿=7.19x +73.93,只能作预测,其结果不一定是一个确定值. 答案: C4.如图5个(x ,y )数据,去掉D (3,10)后,下列说法错误的是( )A .相关系数r 变大B .残差平方和变大C .相关指数R 2变大D .解释变量x 与预报变量y 的相关性变强解析:相关系数r 越接近1,R 2越大,残差平方和越小,拟合效果越好. 答案:B5.某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是( ) A.y ︿=-10x +200 B.y ︿=10x +200 C.y ︿=-10x -200D.y ︿=10x -200解析:由图象可知,选项B 、D 为正相关,选项C 不符合实际意义,只有A 项符合要求. 答案:A6.下列四个命题正确的是( )①线性相关系数r 越大,两个变量的线性相关性越强;反之,线性相关性越弱; ②残差平方和越小的模型,拟合的效果越好;③用相关指数R 2来刻画回归效果,R 2越小,说明模型的拟合效果越好; ④随机误差e 是衡量预报精确度的一个量,它满足E (e )=0. A .①③B .②④C .①④D .②③解析:线性相关系数r 满足|r |≤1,并且|r |越接近1,线性相关程度越强;|r |越接近0,线性相关程度越弱,故①错误;③相关指数是度量模型拟合效果的一种指标.相关指数越大,模型拟合效果越好.故②④正确答案:B 二、填空题7.(2011·辽宁高考)调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y ︿=0.254x +0.321.由回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析:以x +1代x ,得y ︿=0.254(x +1)+0.321,与y ︿=0.254x +0.321相减可得,年饮食支出平均增加0.254万元.答案:0.2548.某数学老师身高176 cm ,他爷爷、父亲和儿子的身高分别是173 cm 、170 cm 和 182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________cm.解析:设父亲身高为x cm ,儿子身高为y cm ,则x 173 170 176 y170176182x -=173,y -=176,b ︿=02+9+9=1, a ︿=y --b ︿x -=176-1×173=3,∴y ︿=x +3,当x =182时,y ︿=185. 答案:1859.(2012·安庆模拟)第二十届世界石油大会将于2011年12月4日~8日在卡塔尔首都多哈举行,能源问题已经成为全球关注的焦点.某工厂经过技术改造后,降低了能源消耗,经统计该厂某种产品的产量x (单位:吨)与相应的生产能耗y (单位:吨)有如下几组样本数据:x 3 4 5 6 y2.5344.5根据相关性检验,这组样本数据具有线性相关关系,通过线性回归分析,求得回归直线的斜率为0.7.已知该产品的年产量为10吨,则该工厂每年大约消耗的汽油为________吨.解析:由题知,x -=3+4+5+64=4.5,y -=2.5+3+4+4.54=3.5,故样本数据的中心点为A (4.5,3.5).设回归方程为y =0.7x +b ,将中心点坐标代入得:3.5=0.7×4.5+b ,解得b =0.35,故回归方程为y =0.7x +0.35,所以当x =10时,y =0.7×10+0.35=7.35,即该工厂每年大约消耗的汽油为7.35吨.答案:7.35 三、解答题10.已知x ,y 的一组数据如下表:x 1 3 6 7 8 y12345(1)从x ,y (2)对于表中数据,甲、乙两同学给出的拟合直线分别为y =13x +1与y =12x +12,试利用“最小平方法(也称最小二乘法)”判断哪条直线拟合程度更好.解:(1)从x ,y 中各取一个数组成数对(x ,y ),共有25对,其中满足x +y ≥10的有(6,4),(6,5),(7,3),(7,4),(7,5),(8,2),(8,3),(8,4),(8,5),共9对.故所求概率P =925.(2)用y =13x +1作为拟合直线时,所得y 值与y 的实际值的差的平方和为S 1=(43-1)2+(2-2)2+(3-3)2+(103-4)2+(113-5)2=73.用y =12x +12作为拟合直线时,所得y 值与y 的实际值的差的平方和为S 2=(1-1)2+(2-2)2+(72-3)2+(4-4)2+(92-5)2=12.∵S 2<S 1,∴直线y =12x +12的拟合程度更好.11.为了分析某个高三学生的学习状态,对其下一阶段的学习提供指导性建议.现对他前7次考试的数学成绩x 、物理成绩y 进行分析.下面是该生7次考试的成绩.数学 88 83 117 92 108 100 112 物理949110896104101106(1)(2)已知该生的物理成绩y 与数学成绩x 是线性相关的,若该生的物理成绩达到115分,请你估计他的数学成绩大约是多少?并请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理建议.(其中,数据(x i ,y i )(i =1,2,…,n )的线性回归方程为y ︿=b ︿x +a ︿,b ︿=∑i =1nx i -x-y i -y-∑i =1nx i -x-2,a ︿=y --b ︿x -)解:(1)∵x -=100+-12-17+17-8+8+127=100,y -=100+-6-9+8-4+4+1+67=100,∴s 2数学=9947=142,∴s 2物理=2507,从而s 2数学>s 2物理,∴该生的物理成绩更稳定. (2)由于x 与y 之间具有线性相关关系,∴b ︿=i =17x i y i -7x - y-i =17x 22-7x -2=497994=0.5,a ︿=y --b ︿x -=100-0.5×100=50, ∴线性回归方程为y ︿=0.5x +50.当y =115时,x =130. 建议:进一步加强对数学的学习,提高数学成绩的稳定性,这将有助于物理成绩的进一步提高. 12.某学生对其亲属30人的饮食习惯进行了一次调查,并用如图所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主.)(1)(2)根据以上数据完成下列2×2的列联表:(3)能否有99%的把握认为其亲属的饮食习惯与年龄有关,并写出简要分析.附:K2=n ad-bc2a+b c+d a+c b+d.P(K2≥k0)0.250.150.100.050.0250.0100.0050.001k01.3232.0722.7063.841 5.024 6.6357.87910.828(2)2×2的列联表如下:主食蔬菜主食肉类合计50岁以下481250岁以上16218合计201030(3)因为K2=212×18×20×10=12×18×20×10=10>6.635,所以有99%的把握认为其亲属的饮食习惯与年龄有关。
2020高三数学一轮复习(人教版文):变量间的相关关系、统计案例
第四节变量间的相关关系、统计案例2019考纲考题考情1.两个变量的线性相关(1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关。
(2)负相关在散点图中,点散布在从左上角到右下角的区域,对于两个变量的这种相关关系,我们将它称为负相关。
(3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线。
2.回归方程(1)最小二乘法使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法。
(2)回归方程方程=x+是两个具有线性相关关系的变量的一组数据(x,1y 1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定参数。
⎧^∑(x-x)(y-y)∑x y-nx y⎪b==。
∑(x-x)∑x-n x⎨⎪^^⎩a=y-b x。
i=1i ini=1ni i2ii=1i22i=1n n——3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法。
(2)样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn ,yn)中(x,y)称为样本点的中心。
(3)相关系数当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关。
r的绝对值越接近于1,表明两个变量的线性相关性越强。
r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系。
通常|r|大于0.75时,认为两个变量有很强的线性相关性。
4.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量。
(2)列联表:列出两个分类变量的频数表,称为列联表。
假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表x 1y1ay2b总计a+bx2总计ca+cdb+dc+da+b+c+d2n(ad-bc)构造一个随机变量K2=,其中n=(a+b)(c+d)(a+c)(b+d)a+b+c+d为样本容量。
2021年高考数学备考试题库 第十章 第4节 变量间的相关关系、统计案例 文(含解析)
2021年高考数学备考试题库 第十章 第4节 变量间的相关关系、统计案例 文(含解析)1.(xx 辽宁,12分)某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:喜欢甜品 不喜欢甜品 合计南方学生 60 20 80 北方学生 10 10 20 合计7030100(1)根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”;(2)已知在被调查的北方学生中有5名数学系的学生,其中2名喜欢甜品.现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.附:χ2=n n 11n 22-n 12n 212n 1+n 2+n +1n +2.P (χ2≥k )0.100 0.050 0.010 k2.7063.8416.635解:(1)将2×2χ2=100×60×10-20×10270×30×80×20=10021≈4.762. 由于4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.(2)从5名数学系学生中任取3人的一切可能结果所组成的基本事件空间Ω={(a 1,a 2,b 1),(a 1,a 2,b 2),(a 1,a 2,b 3),(a 1,b 1,b 2),(a 1,b 2,b 3),(a 1,b 1,b 3),(a 2,b 1,b 2),(a 2,b 2,b 3),(a 2,b 1,b 3),(b 1,b 2,b 3)}.其中a i 表示喜欢甜品的学生,i =1,2.b j 表示不喜欢甜品的学生,j =1,2,3.Ω由10个基本事件组成,且这些基本事件的出现是等可能的.用A 表示“3人中至多有1人喜欢甜品”这一事件,则A ={(a 1,b 1,b 2),(a 1,b 2,b 3),(a 1,b 1,b 3),(a 2,b 1,b 2),(a 2,b 2,b 3),(a 2,b 1,b 3),(b 1,b 2,b 3)}.事件A 是由7个基本事件组成,因而P (A )=710.2.(xx 福建,5分)已知x 与y 之间的几组数据如下表:x1 2 3 4 5 6 y21334假设根据上表数据所得线性回归直线方程为y ^=b ^x +a ^,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′ B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′D.b ^<b ′,a ^<a ′解析:本题主要考查线性回归直线方程,意在考查考生的数形结合能力、转化和化归能力、运算求解能力.由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,b ′=2,a ′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得b ^=6i =1x i y i -6x -·y -6i =1x 2i -6x -2=58-6×72×13691-6×⎝ ⎛⎭⎪⎫722=57,a ^=y --b ^x -=136-57×72=-13,所以b ^<b ′,a ^>a ′.答案:C3.(xx 重庆,13分)从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得10i =1x i =80,10i =1y i =20,10i =1x i y i =184,10i =1x 2i =720.(1)求家庭的月储蓄y 对月收入x 的线性回归方程y =bx +a ; (2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.附:线性回归方程y =bx +a 中,b =ni =1x i y i -n x - y -ni =1x 2i -n x -2,a =y --b x -,其中x -,y -为样本平均值,线性回归方程也可写为y ^=b ^x +a ^.解:本题主要考查两个变量的相关性、线性回归方程的求法及预报作用,考查考生的运算求解能力与逻辑思维能力.(1)由题意知n =10,x =1n ni =1x i =8010=8,y -=1n ni =1y i =2010=2.又ni =1x 2i -n x -2=720-10×82=80,ni =1x i y i -n x - y -=184-10×8×2=24,由此可得b =ni =1x i y i -n x - y -ni =1x 2i -n x -2=2480=0.3,a =y --b x -=2-0.3×8=-0.4, 故所求回归方程为y =0.3x -0.4.(2)由于变量y 的值随x 的值增加而增加(b =0.3>0),故x 与y 之间是正相关. (3)将x =7代入回归方程可以预测该家庭的月储蓄为y =0.3×7-0.4=1.7(千元). 4.(xx 福建,12分)某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?P (χ2≥k )0.100 0.050 0.010 0.001 k2.7063.8416.63510.828附:χ2=n n 11n 22-n 12n 212n 1+n 2+n +1n +2⎝⎛⎭⎪⎫注:此公式也可以写成K 2=n ad -bc 2a +bc +d a +cb +d解:本题主要考查古典概型、抽样方法、独立性检验等基础知识,考查运算求解能力、应用意识,考查必然与或然思想、化归与转化思想等.(1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名. 所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),记为A 1,A 2,A 3;25周岁以下组工人有40×0.05=2(人),记为B 1,B 2.从中随机抽取2名工人,所有的可能结果共有10种,它们是:(A 1,A 2),(A 1,A 3),(A 2,A 3),(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(B 1,B 2).其中,至少1名“25周岁以下组”工人的可能结果共有7种,它们是(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(B 1,B 2).故所求的概率P =710.(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有60×0.25=15(人),“25周岁以下组”中的生产能手有40×0.375=15(人),据此可得2×2列联表如下:生产能手 非生产能手合计 25周岁以上组 15 45 60 25周岁以下组15 25 40 合计3070100所以得χ2=n ad -bc 2a +bc +d a +cb +d=100×15×25-15×45260×40×30×70=2514≈1.79.因为1.79<2.706,所以没有90%的把握认为“生产能手与工人所在的年龄组有关”.5.(xx 湖南,5分)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg解析:由于回归直线的斜率为正值,故y 与x 具有正的线性相关关系,选项A 中的结论正确;回归直线过样本点的中心,选项B 中的结论正确;根据回归直线斜率的意义易知选项C 中的结论正确;由于回归分析得出的是估计值,故选项D 中的结论不正确.答案:D6.(xx 福建,12分)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x (元) 8 8.2 8.4 8.6 8.8 9 销量y (件)908483807568(1)求回归直线方程y =bx +a ,其中b =-20,a =y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)解:(1)由于x =16(x 1+x 2+x 3+x 4+x 5+x 6)=8.5,y =16(y 1+y 2+y 3+y 4+y 5+y 6)=80.所以a =y -b x =80+20×8.5=250,从而回归直线方程为y ^=-20x +250. (2)设工厂获得的利润为L 元,依题意得L =x (-20x +250)-4(-20x +250)=-20x 2+330x -1 000 =-20(x -334)2+361.25.当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润.7.(2011山东,5分)某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元解析:样本中心点是(3.5,42),则a ^=y --b ^x -=42-9.4×3.5=9.1,所以回归直线方程是y ^=9.4x +9.1,把x =6代入得y ^=65.5.答案:B8.(2011陕西,5分)设(x 1,y 1),(x 2,y 2),…,(x n ,y n )是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是( )A .x 和y 的相关系数为直线l 的斜率B .x 和y 的相关系数在0到1之间C .当n 为偶数时,分布在l 两侧的样本点的个数一定相同D .直线l 过点(x -,y -)解析:回归直线过样本中心点(x -,y -). 答案:D9.(2011辽宁,5分)调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y ^=0.254x +0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析:以x +1代x ,得y ^=0.254(x +1)+0.321,与y ^=0.254x +0.321相减可得,年饮食支出平均增加0.254万元.答案:0.25410.(xx 新课标全国,12分)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:性别是否需要志愿者男 女 需要 40 30 不需要160270(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关? (3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.附:P (K 2≥k )0.050 0.010 0.001 k3.8416.63510.828K 2=n ad -bc 2a +bc +d a +cb +d解:(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估计值为70500=14%.(2)K 2=500×40×270-30×1602200×300×70×430≈9.967.由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关. (3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法,比采用简单随机抽样方法更好.0 g36724 8F74 轴37340 91DC 釜39934 9BFE 鯾25731 6483 撃28856 70B8 炸20735 50FF 僿24391 5F47 彇 b 29749 7435 琵P。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
高考数学(理)一轮:一课双测A+B 精练(六十九) 变量间的相关关系 统计案例1.(2012·佛山模拟)已知某车间加工零件的个数x 与所花费时间y (h)之间的线性回归方程为y ^=0.01x +0.5,则加工600个零件大约需要的时间为( )A .6.5 hB .5.5 hC .3.5 hD .0.3 h 2.(2013·衡阳联考)已知x 与y 之间的一组数据:已求得关于y 与x 的线性回归方程y =2.1x +0.85,则m 的值为( ) A .1 B .0.85 C .0.7 D .0.53.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是( )A .列联表中c 的值为30,b 的值为35B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系” 4.已知x 、y 的取值如下表:从所得的散点图分析,y 与x 线性相关,且y ^=0.95x +a ^,则a ^=( ) A .2.5 B .2.6 C .2.7 D .2.85.(2012·湖南高考)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不.正确的是( ) A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg6.(2013·合肥检测)由数据(x 1,y 1),(x 2,y 2),…,(x 10,y 10)求得线性回归方程y ^=b ^x +a ^,则“(x 0,y 0)满足线性回归方程y ^=b ^x +a ^”是“x 0=x 1+x 2+…+x 1010,y 0=y 1+y 2+…+y 1010”的( )A .充分不必要条件B .必要不充分条件C .充要条件D .既不充分也不必要条件7.(2012·唐山模拟)考古学家通过始祖鸟化石标本发现:其股骨长度x (cm)与肱骨长度y (cm)的线性回归方程为y ^=1.197x -3.660,由此估计,当股骨长度为50 cm 时,肱骨长度的估计值为________ cm.8.在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算K 2的观测值k =27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的.(有关,无关)9.(2012·宁夏模拟)某单位为了了解用电量4天的用电量与当天气温,并制作了对照表:由表中数据得线性回归方程y ^=bx +a 中b =-2,预测当气温为-4℃时,用电量的度数约为________. 10.已知x ,y 的一组数据如下表:(1)从x ,y 中各取一个数,求(2)对于表中数据,甲、乙两同学给出的拟合直线分别为y =13x +1与y =12x +12,试利用“最小平方法(也称最小二乘法)”判断哪条直线拟合程度更好.11.(2012·东北三省联考)某学生对其亲属30人的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主.)(1)根据茎叶图,帮助这位学生说明其亲属30人的饮食习惯; (2)根据以上数据完成下列2×2的列联表:(3)能否有99%的把握认为其亲属的饮食习惯与年龄有关,并写出简要分析. 12.某电脑公司有6名产品推销员,其工作年限与年推销金额的数据如下表:(1)以工作年限为自变量(2)求年推销金额y 关于工作年限x 的线性回归方程;(3)若第6名推销员的工作年限为11年,试估计他的年推销金额.1.某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,所得数据如下表:则y 对x 的线性回归直线方程为( ) A.y ^=2.3x -0.7 B.y ^=2.3x +0.7 C.y ^=0.7x -2.3D.y ^=0.7x +2.32.(2012·东北三校联考)某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K 2=7.069,则有________的把握认为“学生性别与是否支持该活动有关系”.附:3某村2003到2012年十年间每年考入大学的人数.为方便计算,2003年编号为1,2004年编号为2,…,2012年编号为10.数据如下:(1)从这10年中随机抽取两年,求考入大学的人数至少有1年多于15人的概率;(2)根据前5年的数据,利用最小二乘法求出y 关于x 的回归方程y =b ^x +a ^,并计算第8年的估计值和实际值之间的差的绝对值.⎩⎪⎨⎪⎧b ^=∑i =1nx i-x y i-y ∑i =1nx i-x 2=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^[答 案高考数学(理)一轮:一课双测A+B 精练(六十九)A 级1.选A 将600代入线性回归方程y ^=0.01x +0.5中得需要的时间为6.5 h.2.选D 回归直线必过样本中心点(1.5,y ),故y =4,m +3+5.5+7=16,得m =0.5. 3.选C 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c =20,b =45,选项A 、B 错误.根据列联表中的数据,得到K 2=-255×50×30×75≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”.4.选B 因为回归方程必过样本点的中心(x ,y ),又x =2,y =4.5,则将(2,4.5)代入y ^=0.95x +a ^可得a ^=2.6.5.选D 由于回归直线的斜率为正值,故y 与x 具有正的线性相关关系,选项A 中的结论正确;回归直线过样本点的中心,选项B 中的结论正确;根据回归直线斜率的意义易知选项C 中的结论正确;由于回归分析得出的是估计值,故选项D 中的结论不正确.6.选B x 0,y 0为这10组数据的平均值,又因为回归直线y ^=b ^x +a ^必过样本中心点(x ,y ),因此(x 0,y 0)一定满足线性回归方程,但坐标满足线性回归方程的点不一定是(x ,y ).7.解析:根据回归方程y ^=1.197x -3.660,将x =50代入,得y =56.19,则肱骨长度的估计值为56.19 cm.答案:56.198.解析:由观测值k =27.63与临界值比较,我们有99%的把握说打鼾与患心脏病有关. 答案:有关9.解析:x =10,y =40,回归方程过点(x ,y ), ∴40=-2×10+a . ∴a =60.∴y ^=-2x +60.令x =-4,∴y ^=(-2)×(-4)+60=68. 答案:6810.解:(1)从x ,y 中各取一个数组成数对(x ,y ),共有25对,其中满足x +y ≥10的有(6,4),(6,5),(7,3),(7,4),(7,5),(8,2),(8,3),(8,4),(8,5),共9对.故所求概率P =925.(2)用y =13x +1作为拟合直线时,所得y 值与y 的实际值的差的平方和为S 1=⎝ ⎛⎭⎪⎫43-12+(2-2)2+(3-3)2+⎝ ⎛⎭⎪⎫103-42+⎝ ⎛⎭⎪⎫113-52=73.用y =12x +12作为拟合直线时,所得y 值与y 的实际值的差的平方和为S 2=(1-1)2+(2-2)2+⎝ ⎛⎭⎪⎫72-32+(4-4)2+⎝ ⎛⎭⎪⎫92-52=12.∵S 2<S 1,∴直线y =12x +12的拟合程度更好.11.解:(1)30位亲属中50岁以上的人多以食蔬菜为主,50岁以下的人多以食肉为主. (2)(3)K 2=-212×18×20×10=30×120×12012×18×20×10=10>6.635,有99%的把握认为亲属的饮食习惯与年龄有关.12.解:(1)依题意,画出散点图如图所示,(2)从散点图可以看出,这些点大致在一条直线附近,设所求的线性回归方程为y ^=b ^x +a ^.则b ^=5x i -xy i -y-x i -2=1020=0.5,x -=0.4, ∴年推销金额y 关于工作年限x 的线性回归方程为 y ^=0.5x +0.4.(3)由(2)可知,当x =11时, y ^=0.5x +0.4=0.5×11+0.4=5.9(万元).∴可以估计第6名推销员的年推销金额为5.9万元.B 级1.选C ∵∑i =14x i y i =6×2+8×3+10×5+12×6=158,x =6+8+10+124=9,y =2+3+5+64=4.∴b ^=158-4×9×436+64+100+144-4×81=0.7,a ^=4-0.7×9=-2.3.故线性回归直线方程为y ^=0.7x -2.3.2.解析:因为7.069与附表中的6.635最接近(且大于6.635),所以得到的统计学结论是:有99%的把握认为“学生性别与是否支持该活动有关系”.答案:99%3.解:(1)设考入大学人数至少有1年多于15人的事件为A ,则P (A )=1-C 26C 210=23.(2)由已知数据得x =3,y =8,∑i =15x i y i =3+10+24+44+65=146,∑i =15x 2i =1+4+9+16+25=55. 则b ^=146-5×3×855-5×9=2.6,a ^=8-2.6×3=0.2.则回归直线方程为y =2.6x +0.2.则第8年的估计值和实际值之间的差的绝对值为 |2.6×8+0.2-22|=1.。