专题突破练20 统计与统计案例
专题突破练20 统计与统计案例
1.
(2020吉林辽源高三检测,18)某城市在进行创建文明城市的活动中,为了解居民对“创建文明城市”的满意程度,组织居民给活动打分(分数为整数.满分为100分).从中随机抽取一个容量为120的样本.发现所有数据均在[40,100]内.现将这些分数分成以下6组并画出了样本的频率分布直方图,但不小心污损了部分图形,如图所示.观察图形,回答下列问题: (1)算出第三组[60,70)的频数,并补全频率分布直方图;
(2)请根据频率分布直方图,估计样本的众数、中位数和平均数.(每组数据以区间的中点值为代表)
2.下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①;y ^
=-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^
=99+17.5t. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.
3.(2020河南郑州高三检测,19)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m 的工人数填入下面的列联表:
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
,其中n=a+b+c+d.
4.(2020贵州贵阳高三6月适应性测试,18)2020年2月以来,由于受新型冠状病毒肺炎疫情的影响,贵州省中小学陆续开展“停课不停学”的网络学习.为了解贵阳市高三学生返校前的网络学习情况,对甲、乙两所高中分别随机抽取了25名高三学生进行调查,根据学生的日均网络学习时长(单位:h)分别绘制了部分茎叶图(如图1)和乙校学生日均网络学习时长的部分频率分布直方图(如图2),其中茎叶图缺少乙校茎“5”和“6”叶的数据.
注:茎叶图中的茎表示整数位数据,叶表示小数位数据,如乙校收集到的最小数据为3.1.
(1)补全图2的频率分布直方图,并估计乙校学生日均网络学习时长的平均数(同一组中的数据用该组区间的中点值作代表);
(2)求50名学生日均网络学习时长的中位数m,并将日均网络学习时长超过m和不超过m的学生人数填入下面的列联表:
(3)根据(2)中的列联表,能否有95%的把握认为甲、乙两校高三学生的网络学习时长有差异?
附:K2=n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
,其中n=a+b+c+d
P(K2≥k0)0.100.050.0250.0100.005
k 0 2.706 3.841 5.024 6.635 7.879
5.(2020海南海口高三模拟演练,20)某病毒研究所为了研究温度对某种病毒的影响,在温度t (℃)逐渐升高时,连续测20次病毒的活性指标值y ,实验数据处理后得到下面的散点图,将第1~14组数据定为A 组,第15~20组数据定为B 组.
(1)某研究员准备直接根据全部20组数据用线性回归模型拟合y 与t 的关系,你认为是否合理?请从统计学的角度简要说明理由.
(2)若根据A 组数据得到回归模型y ^=2.1+0.8t ,根据B 组数据得到回归模型y ^
=90.6-1.3t ,以活性指标值大于5为标准,估计这种病毒适宜生存的温度范围(结果精确到0.1). (3)根据实验数据计算可得:A 组中活性指标值的平均数y A =
114∑i=1
14y i =18,方差s A 2
=
114∑i=1
14
(y i -y A )2=1
14(∑i=114
y i 2-14y A 2
)=85;B 组中活性指标值的平均数y B =16∑i=1520y i =23,方差s B 2
=16∑i=15
20
(y i -y B )2=16(
∑i=15
20
y i 2-6y B 2
)=45.请根据以上数据计算全部20组活性指标值的平均数y 和方差s 2.
6.随着食品安全问题逐渐引起人们的重视,有机、健康的高端绿色蔬菜越来越受到消费者的欢迎,同时生产—运输—销售一体化的直销供应模式,不仅减少了成本,而且减去了蔬菜的二次污染等问题.
(1)在有机蔬菜的种植过程中,有机肥料使用是必不可少的.根据统计某种有机蔬菜的产量与有机肥料的用量有关系,每个有机蔬菜大棚产量的增加量y (百斤)与使用堆沤肥料x (千克)之间对应数据如下表:
依据表中的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x+a ^
;并根据所求线性回归方程,估计如果每个有机蔬菜大棚使用堆沤肥料10千克,则每个有机蔬菜大棚产量增加量y 是多少百斤? (2)某大棚蔬菜种植基地将采摘的有机蔬菜以每份三斤称重并保鲜分装,以每份10元的价格销售到生鲜超市.“乐购”生鲜超市以每份15元的价格卖给顾客,如果当天前8小时卖不完,则超市通过促销以每份5元的价格卖给顾客(根据经验,当天能够把剩余的有机蔬菜都低价处理完毕,且处理完毕后,当天不再进货).该生鲜超市统计了100天有机蔬菜在每天的前8小时内的销售量(单位:份),制成如下表格(注:x ,y ∈N *,且x+y=30):
若以100天记录的频率作为每日前8小时销售量发生的概率,该生鲜超市当天销售有机蔬菜利润的期望值为决策依据,当购进17份比购进18份的利润的期望值大时,求x 的取值范围. 附:b ^
=∑i=1
n
(x i -x )(y i -y )
∑i=1
n
(x i -x )
2
=
∑i=1
n
x i y i -nx y
∑i=1n
x i 2-nx 2
,a ^
=y ?b ^
x .
7.(2019陕西第二次质检,理18)某市场研究人员为了了解产业园引进的甲公司前期的经营状况,对该公司2018年连续6个月的利润进行了统计,并根据得到的数据绘制了相应的折线图,如图所示. (1)由折线图可以看出,可用线性回归模型拟合月利润y (单位:百万元)与月份代码x 之间的关系,求y 关于x 的线性回归方程,并预测该公司2019年3月份的利润;
(2)甲公司新研制了一款产品,需要采购一批新型材料,现有采购成本分别为10万元/包和12万元/包的A ,B 两种型号的新型材料可供选择,按规定每种新型材料最多可使用4个月,但新材料的不稳定性会导致材料损坏的年限不相同,现对A ,B 两种新型材料对应的产品各100件进行科学模拟测试,得到两种新型材料使用寿命的频数统计如下表:
经甲公司测算,平均每包新型材料每月可以带来5万元收入,不考虑除采购成本之外的其他成本,假设每包新型材料的使用寿命都是整数月,且以频率作为每包新型材料使用寿命的概率,如果你是甲公司的负责人,以每包新型材料产生利润的期望值为决策依据,你会选择采购哪款新型材料? 参考数据:∑i=1
6
y i =96,∑i=1
6
x i y i =371.
附:b ^
=∑i=1n
(x i -x )(y i -y )
∑i=1
n (x i -x )
2
=∑i=1n
x i y i -nx y
∑i=1n
x i 2-nx
2
,a ^
=y ?b ^
x .
8.(2020山东德州二模,22)新能源汽车已经走进我们的生活,逐渐为大家所青睐.现在有某品牌的新能源汽车在甲市进行预售,预售场面异常火爆,故该经销商采用竞价策略,基本规则是:①竞价者都是网络报价,每个人并不知晓其他人的报价,也不知道参与竞价的总人数;②竞价采用“一月一期制”,当月竞价时间截止后,系统根据当期汽车配额,按照竞价人的出价从高到低分配名额.某人拟参加2020年6月份的汽车竞价,他为了预测最低成交价,根据网站的公告,统计了最近5个月参与竞价的人数(如下表).
(1)由收集数据的散点图发现,可用线性回归模型拟合竞价人数y (万人)与月份编号t 之间的相关关系.请用最小二乘法求y 关于t 的线性回归方程:y ^=b ^t+a ^
,并预测2020年6月份(月份编号为6)参与竞价的人数;
(2)某市场调研机构对200位拟参加2020年6月份汽车竞价人员的报价进行了一个抽样调查,得到如表所示的频数表:
(ⅰ)求这200位竞价人员报价的平均值x 和样本方差s 2(同一区间的报价用该价格区间的中点值代替).
(ⅱ)假设所有参与竞价人员的报价X 可视为服从正态分布N (μ,σ2),且μ与σ2可分别由(ⅰ)中所示的样本平均数x 及s 2估计.若2020年6月份计划提供的新能源车辆数为3 174,根据市场调研,最低成交价高于样本平均数x ,请你预测(需说明理由)最低成交价. 参考公式及数据:
①回归方程y ^=b ^x+a ^
,其中b ^
=
∑i=1
n
x i y i -nx ·y ∑i=1n
x i 2-nx 2
,a ^
=y ?
b ^
x ,②∑i=15
t i 2
=55,∑i=1
5
t i y i =18.8,√6.8≈2.6;
③若随机变量X 服从正态分布N (μ,σ2),则P (
μ-σ 专题突破练20 统计与统计案例 1.解 (1)因为各组的频率之和等于1,所以分数在[60,70)内的频率为 1-10×(0.005+0.015+0.030+0.025+0.010)=0.15, 所以第三组[60,70)的频数为120×0.15=18.完整的频率分布直方图如图. (2)因为众数的估计值是频率分布直方图中最高矩形的中点,从图中可看出众数的估计值为75分. 由题得左边第一个矩形的面积为0.05,第二个矩形的面积为0.15,第三个矩形的面积为0.15,第四个矩形的面积为0.3,所以中位数在第四个矩形里面,设中位数为x ,则 0.05+0.15+0.15+(x-70)×0.03=0.5,解得x=75.所以中位数为75.又根据频率分布直方图,样本的平均数的估计值为 45×(10×0.005)+55×(10×0.015)+65×(10×0.015)+75×(10×0.03)+85×(10×0.025)+95×(10×0.01)=73.5(分). 所以样本的众数为75分,中位数为75分,平均数为73.5分. 2.解 (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y ^ =-30.4+13.5×19=226.1(亿元). 利用模型②,该地区2018年的环境基础设施投资额的预测值为 y ^=99+17.5×9=256.5(亿元). (2)利用模型②得到的预测值更可靠. 理由如下: (i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^ =99+17.5t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠. (ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠. (以上给出了2种理由,答出其中任意一种或其他合理理由均可) 3.解 (1)第二种生产方式的效率更高. 理由如下: (ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少82分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多78分钟.因此第二种生产方式的效率更高. (ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高. (ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高. (ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高. (以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.) (2)由茎叶图知m=79+81=80.列联表如下: (3)由于K2的观测值k=40(15×15-5×5)2 20×20×20×20 =10>6.635,所以有99%的把握认为两种生产方式的效率有差异. 4.解(1)乙校学生日均网络学习时长在3~4 h之间的有5人,占乙校抽取人数的5 25=1 5 ,频 率分布直方图中3~4 h之间的纵坐标为1 5 1 =0.2,乙校学生日均网络学习时长在4~5 h之间 的有10人,占乙校抽取人数的10 25 =2 5 ,频率分布直方图中4~5 h之间的纵坐标为 2 5 1 =0.4,由 频率分布直方图可知,乙校学生日均网络学习时长在5~6 h之间的占1-0.2-0.4-0.16=0.24,所以题目中图2的频率分布直方图补全后如图所示: 由此估计乙校学生日均网络学习时长的平均数为3.5×0.2+4.5×0.4+5.5×0.24+6.5×0.16=4.86. (2)由茎叶图知,m= 4.9+ 5.0 2 =4.95,列联表如下: (3)由(2)中的列联表可知:K 2 =50×(15×15-10×10)2 25×25×25×25 =2<3.841, 所以没有95%的把握认为甲、乙两所高中高三学生的网络学习时长有差异. 5.解 (1)不合理. 从散点图上看:①A 组数据呈正相关,B 组数据呈负相关,两部分数据的变化趋势明显不同,不适合用同一个线性模型来拟合. ②20个样本点的分布比较分散,没有明显的沿直线分布的趋势,故不适合用线性回归模型来拟合. (2)令2.1+0.8t=5,得t ≈3.6(℃);令90.6-1.3t=5,得t ≈65.8(℃). 由散点图可知,这种病毒的活性指标值先随温度升高而升高,到达一定温度后,开始随温度升高而降低, 所以这种病毒适宜生存的温度范围是(3.6,65.8). (3)全部20组活性指标值的平均数为y = 120∑i=120y i =120 ×(14×18+6×23)=19.5. 因为∑i=114 y i 2=85×14+14×182 =5 726,∑i=15 20 y i 2=45×6+6×232=3 444, 所以全部20组活性指标值的方差为 s 2 =120∑i=1 20y i 2-20y 2=1 20(5 726+3 444)-19.52=78.25. 6.解 (1)x = 2+4+5+6+8 5 =5, y = 3+4+4+4+5 5 =4. ∑i=15 x i y i =2×3+4×4+5×4+6×4+8×5=106, ∑i=1 5 x i 2=22+42+52+62+82=145, b ^ = 106-5×5×4145-5×5 2 =0.3,a ^=y ?b ^ x =4-0.3×5=2.5, 所以y 关于x 的线性回归方程为y ^ =0.3x+2.5. 当x=10时,y ^ =0.3×10+2.5=5.5百斤,所以如果每个有机蔬菜大棚使用堆沤肥料10千克,估计每个有机蔬菜大棚产量的增加量y 是5.5百斤. (2)若该超市一天购进17份这种有机蔬菜,Y 1表示当天的利润(单位:元),那么Y 1的分布列为 Y 1的数学期望是E (Y 1)=65×10 100+75×x 100+85×90-x 100= 8 300-10x 100 ; 若该超市一天购进18份这种有机蔬菜,Y 2表示当天的利润(单位:元),那么Y 2的分布列为 Y 2的数学期望是E (Y 2)=60×10 100+70×x 100+80×16 100+90×74-x 100=8 540-20x 100 ; 又购进17份比购进18份的利润的期望值大,故 8 300-10x 100 > 8 540-20x 100 ,求得x>24,故x 的取值范围是(24,30),x ∈N *. 7.解 (1)由折线图可知统计数据(x i ,y i )共6组,即(1,11),(2,13),(3,16),(4,15),(5,20),(6,21), 计算可得x = 1 6 (1+2+3+4+5+6)=3.5,y = 16∑i=16y i =16 ×96=16, ∑i=1 n x i 2-n x 2 =12+22+32+42+52+62-6×3.52=17.5. 故b ^ = 371-6×3.5×16 17.5 =2, 故a ^=y ?b ^ x =16-2×3.5=9, ∴x 关于y 的线性回归方程为y ^=2x+9,故x=11时,则y ^ =2×11+9=31, 即预测公司2019年3月份(即x=11时)的利润为31百万元. (2)由频率估计概率,A 型材料可使用1个月,2个月,3个月、4个月的概率分别为0.2,0.35,0.35,0.1, ∴A 型材料利润的数学期望为(5-10)×0.2+(10-10)×0.35+(15-10)×0.35+(20-10)×0.1=1.75万元; B 型材料可使用1个月,2个月,3个月、4个月的概率分别为0.1,0.3,0.4,0.2, ∴B 型材料利润的数学期望为(5-12)×0.1+(10-12)×0.3+(15-12)×0.4+(20-12)×0.2=1.50万元; ∵1.75>1.50,∴应该采购A 型材料. 8.解 (1)根据题意,得t =3,y =1.04, ∵ ∑i=15 t i 2 =55,∑i=15 t i y i =18.8, ∴b ^ = ∑i=1 5 t i y i -5t ·y ∑i=1 5 t i 2-5t 2 = 18.8-5×3×1.0455-5×32 =0.32,则a ^=y ?b ^t =1.04-0.32×3=0.08,从而得到 线性回归方程为y ^ =0.32t+0.08,当t=6时,y=2. 所以预测2020年6月份(月份编号为6)参与竞价的人数为2万人. (2)(ⅰ)根据表中给的数据求得平均值和方差为 x =20 200×7+60 200×9+60 200×11+30 200×13+20 200×15+10 200×17=11(万元). s 2=20 200×(-4)2+60 200×(-2)2+0+30 200×22+20 200×42+10 200×62=6.8. (ⅱ)竞拍成功的概率为P=3 174 20 000=0.1587, 由题意知X~N (11,6.8),且P (μ-σ 2 =0.158 7,所以2020年6月份的预测的最低成交价 μ+σ=13.6(万元).