高中数学:统计与统计案例练习

合集下载

2020新课标高考数学典型习题专项训练:统计与统计案例

2020新课标高考数学典型习题专项训练:统计与统计案例

统计与统计案例[A 组 夯基保分专练]一、选择题1.某电视台在因特网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有20 000人,其中各种态度对应的人数如下表所示:最喜爱 喜爱 一般 不喜欢 4 8007 2006 4001 600为此要进行分层抽样,那么在分层抽样时,每类人中应抽选出的人数分别为( )A .25,25,25,25B .48,72,64,16C .20,40,30,10D .24,36,32,8解析:选D.法一:因为抽样比为10020 000=1200,所以每类人中应抽选出的人数分别为4 800×1200=24,7 200×1200=36,6 400×1200=32,1 600×1200=8.故选D.法二:最喜爱、喜爱、一般、不喜欢的比例为4 800∶7 200∶6 400∶1 600=6∶9∶8∶2, 所以每类人中应抽选出的人数分别为66+9+8+2×100=24,96+9+8+2×100=36,86+9+8+2×100=32,26+9+8+2×100=8,故选D.2.(2019·湖南省五市十校联考)在某次赛车中,50名参赛选手的成绩(单位:min)全部介于13到18之间(包括13和18),将比赛成绩分为五组:第一组[13,14),第二组[14,15),…,第五组[17,18],其频率分布直方图如图所示,若成绩在[13,15)内的选手可获奖,则这50名选手中获奖的人数为( )A .39B .35C .15D .11解析:选D.由频率分布直方图知成绩在[15,18]内的频率为(0.38+0.32+0.08)×1=0.78,所以成绩在[13,15)内的频率为1-0.78=0.22,则成绩在[13,15)内的选手有50×0.22=11(人),即这50名选手中获奖的人数为11,故选D.3.(2019·武汉市调研测试)某学校为了了解本校学生的上学方式,在全校范围内随机抽查部分学生,了解到上学方式主要有:A —结伴步行,B —自行乘车,C —家人接送,D —其他方式.并将收集的数据整理绘制成如下两幅不完整的统计图.请根据图中信息,求本次抽查的学生中A 类人数是( )A .30B .40C .42D .48解析:选A.由条形统计图知,B —自行乘车上学的有42人,C —家人接送上学的有30人,D —其他方式上学的有18人,采用B ,C ,D 三种方式上学的共90人,设A —结伴步行上学的有x 人,由扇形统计图知,A —结伴步行上学与B —自行乘车上学的学生占60%,所以x +42x +90=60100,解得x =30,故选A. 4.(2019·广东六校第一次联考)某单位为了落实“绿水青山就是金山银山”理念,制定节能减排的目标,先调查了用电量y (单位:kW ·h)与气温x (单位:℃)之间的关系,随机选取了4天的用电量与当天气温,并制作了如下对照表:x (单位:℃) 17 14 10 -1 y (单位:kW ·h)243438a由表中数据得线性回归方程y =-2x +60,则a 的值为( ) A .48 B .62 C .64D .68解析:选C.由题意,得x =17+14+10-14=10,y =24+34+38+a 4=96+a4.样本点的中心(x ,y )在回归直线y ^=-2x +60上,代入线性回归方程可得96+a 4=-20+60,解得a =64,故选C.5.(2019·郑州市第二次质量预测)将甲、乙两个篮球队各5场比赛的得分数据整理成如图所示的茎叶图,由图可知以下结论正确的是( )A .甲队平均得分高于乙队的平均得分B .甲队得分的中位数大于乙队得分的中位数C .甲队得分的方差大于乙队得分的方差D .甲、乙两队得分的极差相等解析:选C.由题中茎叶图得,甲队的平均得分x 甲=26+28+29+31+315=29,乙队的平均得分x 乙=28+29+30+31+325=30,x 甲<x 乙,选项A 不正确;甲队得分的中位数为29,乙队得分的中位数为30,甲队得分的中位数小于乙队得分的中位数,选项B 不正确;甲队得分的方差s 2甲=15×[(26-29)2+(28-29)2+(29-29)2+(31-29)2+(31-29)2]=185,乙队得分的方差s 2乙=15×[(28-30)2+(29-30)2+(30-30)2+(31-30)2+(32-30)2]=2,s 2甲>s 2乙,选项C 正确;甲队得分的极差为31-26=5,乙队得分的极差为32-28=4,两者不相等,选项D 不正确.故选C.6.(多选)CPI 是居民消费价格指数(consumer price index)的简称.居民消费价格指数是一个反映居民家庭一般所购买的消费品和服务项目价格水平变动情况的宏观经济指标.如图是根据国家统计局发布的2017年6月—2018年6月我国CPI 涨跌幅数据绘制的折线图(注:2018年6月与2017年6月相比较,叫同比;2018年6月与2018年5月相比较,叫环比),根据该折线图,则下列结论错误的是 ( )A .2018年1月至6月各月与去年同期比较,CPI 有涨有跌B .2018年2月至6月CPI 只跌不涨C .2018年3月以来,CPI 在缓慢增长D .2017年8月与同年12月相比较,8月环比更大解析:选ABC.A 选项,2018年1月至6月各月与去年同期比较,CPI 均是上涨的,故A 错误;B 选项,2018年2月CPI 是增长的,故B 错误;C 选项,2018年3月以来,CPI 是下跌的,故C 错误;D 选项,2017年8月CPI 环比增长0.4%,12月环比增长0.3%,故D 正确.故选ABC.二、填空题7.如图是某学校一名篮球运动员在10场比赛中所得分数的茎叶图,则该运动员在这10场比赛中得分的中位数为________,平均数为________.解析:把10场比赛的所得分数按顺序排列为5,8,9,12,14,16,16,19,21,24,中间两个为14与16,故中位数为14+162=15,平均数为110(5+8+9+12+14+16+16+19+21+24)=14.4.答案:15 14.48.已知一组数据x 1,x 2,…,x n 的方差为2,若数据ax 1+b ,ax 2+b ,…,ax n +b (a >0)的方差为8,则a 的值为________.解析:根据方差的性质可知,a 2×2=8,故a =2. 答案:29.给出下列四个命题:①某班级一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4的样本,如果7号、33号、46号同学在样本中,那么样本中另一位同学的编号为23;②一组数据1,2,3,3,4,5的平均数、众数、中位数都相同; ③若一组数据a ,0,1,2,3的平均数为1,则其标准差为2;④根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为y ^=a ^+b ^x ,其中a ^=2,x =1,y =3,则b ^=1.其中真命题有________(填序号).解析:在①中,由系统抽样知抽样的分段间隔为52÷4=13,故抽取的样本的编号分别为7号、20号、33号、46号,故①是假命题;在②中,数据1,2,3,3,4,5的平均数为16(1+2+3+3+4+5)=3,中位数为3,众数为3,都相同,故②是真命题;在③中,因为样本的平均数为1,所以a +0+1+2+3=5,解得a =-1,故样本的方差为15[(-1-1)2+(0-1)2+(1-1)2+(2-1)2+(3-1)2]=2,标准差为2,故③是假命题;在④中,回归直线方程为y ^=b ^x +2,又回归直线过点(x ,y ),把(1,3)代入回归直线方程y ^=b ^x +2,得b ^=1,故④是真命题.答案:②④ 三、解答题10.(2019·兰州市诊断考试)“一本书,一碗面,一条河,一座桥”曾是兰州的城市名片,而现在“兰州马拉松”又成为了兰州的另一张名片,随着全民运动健康意识的提高,马拉松运动不仅在兰州,而且在全国各大城市逐渐兴起,参与马拉松训练与比赛的人数逐年增加.为此,某市对人们参加马拉松运动的情况进行了统计调查.其中一项调查是调查人员从参与马拉松运动的人中随机抽取200人,对其每周参与马拉松长跑训练的天数进行统计,得到以下统计表:烈参与者”.(1)经调查,该市约有2万人参与马拉松运动,试估计其中“热烈参与者”的人数; (2)根据上表的数据,填写下列2×2列联表,并通过计算判断是否能在犯错误的概率不超过0.01的前提下认为“热烈参与马拉松”与性别有关?附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )(n 为样本容量)20 000×40200=4 000.(2)2×2列联表为K 2=200×(3540×160×140×60≈7.292>6.635,故能在犯错误的概率不超过0.01的前提下认为“热烈参与马拉松”与性别有关.11.(2019·武汉市调研测试)中共十九大以来,某贫困地区扶贫办积极贯彻落实国家精准扶贫的要求,带领广大农村地区人民群众脱贫奔小康.经过不懈的奋力拼搏,新农村建设取得巨大进步,农民年收入也逐年增加.为了更好地制定2019年关于加快提升农民年收入,力争早日脱贫的工作计划,该地扶贫办统计了2018年50位农民的年收入(单位:千元)并制成如下频率分布直方图:(1)根据频率分布直方图,估计50位农民的年平均收入x (单位:千元)(同一组数据用该组数据区间的中点值表示).(2)由频率分布直方图,可以认为该贫困地区农民年收入X 服从正态分布N (μ,σ2),其中μ近似为年平均收入x ,σ2近似为样本方差s 2,经计算得s 2=6.92.利用该正态分布,解决下列问题:(i)在2019年脱贫攻坚工作中,若使该地区约有占总农民人数的84.14%的农民的年收入高于扶贫办制定的最低年收入标准,则最低年收入大约为多少千元?(ii)为了调研“精准扶贫,不落一人”的落实情况,扶贫办随机走访了1 000位农民.若每个农民的年收入相互独立,问:这1 000位农民中年收入不少于12.14千元的人数最有可能是多少?附:参考数据与公式6.92≈2.63,若X ~N (μ,σ2),则 ①P (μ-σ<X ≤μ+σ)≈0.682 7; ②P (μ-2σ<X ≤μ+2σ)≈0.954 5; ③P (μ-3σ<X ≤μ+3σ)≈0.997 3.解:(1)x =12×0.04+14×0.12+16×0.28+18×0.36+20×0.10+22×0.06+24×0.04=17.40(千元).(2)由题意,X ~N (17.40,6.92). (i)P (X >μ-σ)≈12+0.682 72≈0.841 4,μ-σ≈17.40-2.63=14.77, 即最低年收入大约为14.77千元.(ii)由P (X ≥12.14)=P (X ≥μ-2σ)≈0.5+0.954 52≈0.977 3,得每个农民的年收入不少于12.14千元的事件的概率为0.977 3,记这1 000位农民中年收入不少于12.14千元的人数为ξ,则ξ~B (103,p ),其中p =0.977 3,于是恰好有k 位农民的年收入不少于12.14千元的事件的概率是P (ξ=k )=C k 103p k (1-p )103-k ,从而由P (ξ=k )P (ξ=k -1)=(1 001-k )×pk ×(1-p )>1,得k <1 001p ,由P (ξ=k )P (ξ=k +1)=(k +1)(1-p )(1 000-k )p>1,得k >1 001p -1,而1 001p =978.277 3, 所以,977.277 3<k <978.277 3,由此可知,在所走访的1 000位农民中,年收入不少于12.14千元的人数最有可能是978. 12.(2019·洛阳市统考)某学校高三年级共有4个班,其中实验班和普通班各2个,且各班学生人数大致相当.在高三第一次数学统一测试(满分100分)成绩揭晓后,教师对这4个班的数学成绩进行了统计分析,其中涉及试题“难度”和“区分度”等指标.根据该校的实际情况,规定其具体含义如下:难度=4个班平均分100,区分度=实验班平均分-普通班平均分100.(1)现从这4个班中各随机抽取5名学生,根据这20名学生的数学成绩,绘制茎叶图如下:请根据以上样本数据,估计该次考试试题的难度和区分度;(2)为了研究试题的区分度与难度的关系,调取了该校上一届高三6次考试的成绩分析数据,得到下表:考试序号 1 2 3 4 5 6 难度x 0.65 0.71 0.73 0.76 0.77 0.82 区分度y0.120.160.160.190.200.13①用公式r =∑i =1 (x i -x )(y i -y )∑ni =1(x i -x )2∑ni =1(y i -y )2计算区分度y 与难度x 之间的相关系数r (精确到0.001);②判断y 与x 之间相关关系的强与弱,并说明是否适宜用线性回归模型拟合y 与x 之间的关系.参考数据:∑6i =1x i y i =0.713 4, ∑6i =1 (x i -x )2∑6i =1 (y i -y )2≈0.009 2.解:(1)由茎叶图知,实验班这10人的数学总成绩为860分,普通班这10人的数学总成绩为700分,故这20人的数学平均成绩为860+70020=78(分),由此估计这4个班的平均分为78分, 所以难度=78100=0.78.由86010=86估计实验班的平均分为86分,由70010=70估计普通班的平均分为70分, 所以区分度=86-70100=0.16.(2)①由于∑ni =1 (x i -x )(y i -y ) =∑ni =1 (x i y i -yx i -xy i +xy ) =∑ni =1x i y i -y ∑ni =1x i -x ∑ni =1y i +nx y =∑n i =1x i y i -nx y -nx y +nx y =∑n i =1x i y i -nx y , 且∑6i =1x i y i =0.713 4, ∑6i =1(x i -x )2∑6i =1 (y i -y )2 ≈0.009 2,6x y =6×0.74×0.16=0.710 4, 所以r =∑6i =1 (x i -x )(y i -y )∑6i =1(x i -x )2∑6i =1 (y i -y )2=∑6i =1x i y i -6x y∑6i =1(x i -x )2∑6i =1 (y i -y )2≈0.713 4-0.710 40.009 2≈0.326.②由于r ≈0.326∈[0.30,0.75),故两者之间相关性非常一般,不适宜用线性回归模型拟合y 与x 之间的关系,即使用线性回归模型来拟合,效果也不理想.[B 组 大题增分专练]1.(2019·济南市七校联合考试)“黄梅时节家家雨”“梅雨如烟暝村树”“梅雨暂收斜照明”……江南梅雨的点点滴滴都流润着浓烈的诗情.每年六、七月份,我国长江中下游地区进入持续25天左右的梅雨季节,如图是江南Q 镇2009~2018年梅雨季节的降雨量(单位:mm)的频率分布直方图,试用样本频率估计总体概率,解答下列问题:(1)“梅实初黄暮雨深”,请用样本平均数估计Q 镇明年梅雨季节的降雨量;(2)“江南梅雨无限愁”,Q 镇的杨梅种植户老李也在犯愁,他过去种植的甲品种杨梅,亩产量受降雨量的影响较大(把握超过八成),而乙品种杨梅2009~2018年的亩产量(单位:kg)与降雨量的发生频数(年)如2×2列联表所示(部分数据缺失),请你帮助老李排解忧愁,他来年应该种植哪个品种的杨梅受降雨量影响更小?(完善列联表,并说明理由)降雨量亩产量[200,400)[100,200)∪[400,500]总计 <600 2 ≥600 1 总计10附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .P (K 2≥k 0)0.50 0.40 0.25 0.15 0.10 k 00.4550.7081.3232.0722.706解:(1)0.1. 所以用样本平均数估计Q 镇明年梅雨季节的降雨量为150×0.2+250×0.4+350×0.3+450×0.1=30+100+105+45=280(mm).(2)根据频率分布直方图可知,降雨量在[200,400)内的频数为10×100×(0.003+0.004)=7.进而完善列联表如下.降雨量亩产量[200,400)[100,200)∪[400,500]总计 <600 2 2 4 ≥600 5 1 6 总计7310K 2=10×(2×1-5×2)7×3×4×6=8063≈1.270<1.323. 故认为乙品种杨梅的亩产量与降雨量有关的把握不足75%.而甲品种杨梅受降雨量影响的把握超过八成,故老李来年应该种植乙品种杨梅受降雨量影响更小.2.(2019·佛山模拟)表中的数据是一次阶段性考试某班的数学、物理原始成绩: 学号 1 2 34 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 数学117128 96 113 136 139 124 124 121 115 115 123 125 117 123 122 132 129 96 105 106 120 物理 8084838589819178859172 7687827982848963737745学号 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 数学108137 87 95 108 117 104 128 125 74 81 135 101 97 116 102 76 100 62 86 120 101 物理 768071577265697955567763707563596442627765学号为22号的A 同学由于严重感冒导致物理考试发挥失常,学号为31号的B 同学因故未能参加物理学科的考试,为了使分析结果更客观准确,老师将A ,B 两同学的成绩(对应于图中A ,B 两点)剔除后,用剩下的42个同学的数据作分析,计算得到下列统计指标:数学学科平均分为110.5,标准差为18.36,物理学科的平均分为74,标准差为11.18,数学成绩x 与物理成绩y 的相关系数r =0.822 2,回归直线l (如图所示)的方程为y ^=0.500 6x +18.68.(1)若不剔除A ,B 两同学的数据,用全部44人的成绩作回归分析,设数学成绩x 与物理成绩y 的相关系数为r 0,回归直线为l 0,试分析r 0与r 的大小关系,并在图中画出回归直线l 0的大致位置.(2)如果B 同学参加了这次物理考试,估计B 同学的物理分数(精确到个位).(3)就这次考试而言,学号为16号的C 同学数学与物理哪个学科成绩要好一些?(通常为了比较某个学生不同学科的成绩水平,可按公式Z i =x i -xs统一化成标准分再进行比较,其中x i 为学科原始成绩,x 为学科平均分,s 为学科标准差)解:(1)r 0<r ,说明理由可以是①离群点A ,B 会降低变量间的线性关联程度;②44个数据点与回归直线l 0的总偏差更大,回归效果更差,所以相关系数更小; ③42个数据点与回归直线l 的总偏差更小,回归效果更好,所以相关系数更大; ④42个数据点更加贴近回归直线l ; ⑤44个数据点与回归直线l 0更离散. 其他言之有理的理由均可.(直线l 0的斜率须大于0且小于l 的斜率,具体位置稍有出入没关系,无需说明理由) (2)将x =125代入y ^=0.500 6x +18.68中, 得y =62.575+18.68≈81,所以估计B 同学的物理分数大约为81分.(3)由表中数据知C 同学的数学原始成绩为122分,物理原始成绩为82分, 则数学标准分Z 16=x 16-x s 1=122-110.518.36=11.518.36≈0.63,物理标准分Z ′16=y 16-y s 2=82-7411.18=811.18≈0.72, 因为0.72>0.63,所以C 同学物理成绩比数学成绩要好一些.3.(2019·济南市模拟考试)某客户准备在家中安装一套净水系统,该系统为三级过滤,使用寿命为十年.如图所示,两个一级过滤器采用并联安装,二级过滤器与三级过滤器为串联安装.其中每一级过滤都由核心部件滤芯来实现.在使用过程中,一级滤芯和二级滤芯都需要不定期更换(每个滤芯是否需要更换相互独立),三级滤芯无需更换.若客户在安装净水系统的同时购买滤芯,则一级滤芯每个80元.二级滤芯每个160元.若客户在使用过程中单独购买滤芯,则一级滤芯每个200元,二级滤芯每个400元.现需决策安装净水系统的同时购买滤芯的数量,为此参考了根据100套该款净水系统在十年使用期内更换滤芯的相关数据制成的图表,其中图1是根据200个一级过滤器更换的滤芯个数制成的柱状图,表1是根据100个二级过滤器更换的滤芯个数制成的频数分布表.二级滤芯更换的个数5 6频数6040以200个一级过滤器更换滤芯的频率代替1个一级过滤器更换滤芯发生的概率,以100个二级过滤器更换滤芯的频率代替1个二级过滤器更换滤芯发生的概率.(1)求一套净水系统在使用期内需要更换的各级滤芯总个数恰好为30的概率;(2)记X表示该客户的净水系统在使用期内需要更换的一级滤芯总数,求X的分布列及数学期望;(3)记m,n分别表示该客户在安装净水系统的同时购买的一级滤芯和二级滤芯的个数,若m+n=28,且n∈{5,6},以该客户的净水系统在使用期内购买各级滤芯所需总费用的期望值为决策依据,试确定m,n的值.解:(1)由题意可知,若一套净水系统在使用期内需要更换的各级滤芯总个数恰好为30,则该套净水系统中的两个一级过滤器均需更换12个滤芯,二级过滤器需要更换6个滤芯.设“一套净水系统在使用期内需要更换的各级滤芯总个数恰好为30”为事件A,因为一个一级过滤器需要更换12个滤芯的概率为0.4,二级过滤器需要更换6个滤芯的概率为0.4,所以P(A)=0.4×0.4×0.4=0.064.(2)由柱状图可知,一个一级过滤器需要更换的滤芯个数为10,11,12,对应的概率分别为0.2,0.4,0.4,由题意,X可能的取值为20,21,22,23,24,并且P(X=20)=0.2×0.2=0.04,P(X=21)=0.2×0.4×2=0.16,P(X=22)=0.4×0.4+0.2×0.4×2=0.32,P(X=23)=0.4×0.4×2=0.32,P(X=24)=0.4×0.4=0.16.所以X的分布列为X 2021222324P 0.040.160.320.320.16E(X)=20×0.04(3)因为m+n=28,n∈{5,6},所以若m=22,n=6,则该客户在十年使用期内购买各级滤芯所需总费用的期望值为22×80+200×0.32+400×0.16+6×160=2 848.若m=23,n=5,则该客户在十年使用期内购买各级滤芯所需总费用的期望值为23×80+200×0.16+5×160+400×0.4=2 832.故m,n的值分别为23,5.4.某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.根据过去50周的资料显示,该地周光照量X(单位:小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,该基地的西红柿增加量y(千克)与使用某种液体肥料的质量x(千克)之间的关系为如图所示的折线图.(1)依据折线图,是否可用线性回归模型拟合y与x的关系?请计算相关系数r并加以说明(精确到0.01);(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合)(2)蔬菜大棚对光照要求较大,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X限制,并有如下关系:周光照量X(单位:小时)30<X<5050≤X≤70X>70光照控制仪运行台数32 1则该台光照控制仪周亏损1 000元.以频率作为概率,商家欲使周总利润的均值达到最大,应安装光照控制仪多少台?附相关系数公式:r=∑i=1n(x i-x)(y i-y)∑i=1n(x i-x)2∑i=1n(y i-y)2,参考数据:0.3≈0.55,0.9≈0.95.解:(1)由已知数据可得x=2+4+5+6+85=5,y=3+4+4+4+55=4.因为∑i=15(x i-x)(y i-y)=(-3)×(-1)+0+0+0+3×1=6,∑i =15(x i -x )2=(-3)2+(-1)2+02+12+32=25,∑i =15(y i -y )2=(-1)2+02+02+02+12=2,所以相关系数r =∑i =15(x i -x )(y i -y )∑i =15(x i -x )2∑i =15(y i -y )2=625×2=910≈0.95. 因为|r |>0.75,所以可用线性回归模型拟合y 与x 的关系.(2)记商家周总利润为Y 元,由条件可知至少需安装1台,最多安装3台光照控制仪. ①安装1台光照控制仪可获得周总利润3 000元. ②安装2台光照控制仪的情形:当X >70时,只有1台光照控制仪运行,此时周总利润Y =3 000-1 000=2 000(元),P (Y =2 000)=1050=0.2,当30<X ≤70时,2台光照控制仪都运行,此时周总利润Y =2×3 000=6 000(元),P (Y =6 000)=4050=0.8,故Y 的分布列为③安装3台光照控制仪的情形:当X >70时,只有1台光照控制仪运行,此时周总利润 Y =1×3 000-2×1 000=1 000(元). P (Y =1 000)=1050=0.2.当50≤X ≤70时,有2台光照控制仪运行,此时周总利润 Y =2×3 000-1×1 000=5 000(元), P (Y =5 000)=3550=0.7,当30<X <50时,3台光照控制仪都运行,周总利润Y =3×3 000=9 000(元),P (Y =9 000)=550=0.1, 故Y 的分布列为综上可知,为使商家周总利润的均值达到最大,应该安装2台光照控制仪.。

高中数学:统计与统计案例练习

高中数学:统计与统计案例练习

高中数学:统计与统计案例练习一、选择题1.某校为了解学生平均每周的上网时间(单位:h),从高一年级1 000名学生中随机抽取100 名进行了调查,将所得数据整理后,画出频率分布直方图(如图),其中频率分布直方图从左到右前3个小矩形的面积之比为1 : 3 : 5,据此估计该校高一年级学生中平均每周上网时间少于4 h的学生人数为()领率组距A. 200 C. 400 0.0350.015B. 240D. 48010平均每周上网时间(h)解析:选C 设频率分布直方图中从左到右前3个小矩形的面积分别为A3K5P.由频率分布直方图可知,最后2个小矩形的面积之和为(0.015+0.035)X2 = 0.1.由于频率分布直方图中各个小矩形的面积之和为1,所以P+3P+5P=0.9,即尸=0.1.所以平均每周上网时间少于4h的学生所占比例为尸+3P=0.4,由此估计学生人数为0.4X1 000 =400.2. AQI(Air Quality Index,空气质量指数)是报告每日空气质量的参数,描述了空气清洁或污染的程度.AQI共分六级,一级优(0〜50),二级良(51〜100),三级轻度污染(101〜150),四级中度污染(151〜200),五级重度污染(201〜300),六级严重污染(大于300).如图是昆明市2021年4月份随机抽取的10天的AQI茎叶图,利用该样本估计昆明市2021年4月份空气质量优的天数为 ()A. 3B. 4C. 12D. 2142解析:选c 从茎叶图知,10天中有4天空气质量为优,所以空气质量为优的频率为 1 V.Z 22所以估计昆明市2021年4月份空气质量为优的天数为30X5=12,应选C.3.〔成都模拟〕某城市收集并整理了该市2021年1月份至10月份各月最低气温与最高气 温〔单位:C 〕的数据,绘制了下面的折线图.该城市各月的最低气温与最高气温具有较好的线性关系,那么根据折线图,以下结论错误 的是〔〕A.最低气温与最高气温为正相关B. 10月的最高气温不低于5月的最高气温C.月温差〔最高气温减最低气温〕的最大值出现在1月D.最低气温低于0C 的月份有4个解析:选D 在A 中,最低气温与最高气温为正相关,故A 正确;在B 中,10月的最高气温 不低于5月的最高气温,故B 正确;在C 中,月温差〔最高气温减最低气温〕的最大值出现在1月, 故C 正确:在D 中,最低气温低于0℃的月份有3个,故D 错误.应选D.4 .〔承德模拟〕为了解户籍、性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取 了容量为100的样本,其中城镇户籍与农村户籍各50人;男性60人,女性40人,绘制不同群体 中倾向选择生育二胎与倾向选择不生育二胎的人数比例图〔如下图〕,其中阴影局部表示倾向 选择生育二胎的对应比例,那么以下表达中错误的选项是〔〕A.是否倾向选择生育二胎与户籍有关B.是否倾向选择生育二胎与性别无关♦最高气温 ♦最低气温C.倾向选择生育二胎的人员中,男性人数与女性人数相同D.倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数解析:选C 由题图,可得是否倾向选择生育二胎与户籍有关、与性别无关;倾向选择不 生育二胎的人员中,农村户籍人数少于城镇户籍人数;倾向选择生育二胎的人员中,男性人数为 60X60% =36,女性人数为40X60%=24,不相同.应选C.5 .(石家庄模拟)某学校48两个班的兴趣小组在一次对抗赛中的成绩如茎叶图所示,通过 茎叶图比拟两个班兴趣小组成绩的平均值及标准差.3 4 28 8 4 6 8 65152①A 班兴趣小组的平均成绩高于B 班兴趣小组的平均成绩; ②B 班兴趣小组的平均成绩高于A 班兴趣小组的平均成绩; ③A 班兴趣小组成绩的标准差大于B 班兴趣小组成绩的标准差;@B 班兴趣小组成绩的标准差大于A 班兴趣小组成绩的标准差. 其中正确结论的编号为()A.①④C. ®®其方差为白义[(53—78尸+(62—78/ +…+ (95—78)2]=121.6, 那么其标准差为'121.6%11.03;45+48+5H -------- F91B 班兴趣小组的平均成成为'」=66,其方差为表义[(45—66)2+(48 - 66)2 + ... + (91-66)2] =169.2, 那么其标准差为1169.2%13.01.应选A.6 .某商场对某一商品搞活动,该商品每一个的进价为3元,销售价为8元,每天售出的 第20个及之后的半价出售.该商场统计了近10天这种商品的销量,如下图,设M 个)为每天商 品的销量,M 元)为该商场每天箱售这种商品的利润.从日利润不少于96元的几天里任选2天, 那么选出的这2天日利润都是97元的概率为()4 5 5 1 6 2 7 38班8 3 6 4 5 3 4 02B.②③D.①③解析:选A A 班兴趣小组的平均成绩为 53+62+64+…+92+95--------------- ---------------- =785x, x=18, 19, y =<l95+(x-19)(4-3), x=20, 21, J5x, x=18, 19, 即 L176+x, x=20, 21.当日销量不少于20个时,日利泗不少于96元, 当日销量为20个时,日利润为96元, 当日销量为21个时,日利润为97元,日利泗为96元的有3天,记为日利泗为97元的有2天,记为人丛从中任选2天有 (.4),(〃石),(.力),(.1),3/),(48),3«),(c4),(.,8),(48),共 10 种情况.其中选出的这2天日利泗都是97元的有(A,8)1种情况. 故所求概率为关.应选B. 二、填空题7 .某小卖部销售某品牌饮料的零售价与销量间的关系统计如下:单价x/元 3.0 3.2 3.4 3.6 3.8 4.0 销量w 瓶504443403528x,y 的关系符合回归方程£=£+2其中分=-20.假设该品牌饮料的进价为2元,为使利润 最大,零售价应定为 元.解析:依题意得:x =3.5, y =40,A所以.=40—(- 20)X3.5=110,所以回归直线方程为f=-20x+110,利润 L = (A —2)(-20A + 110)= -201+ 150x-220,B 选• •1 - 9 1 - 5 A.C 解BioD.g由题意知频数(天)0 18 19 20 2 俏量〔个〕所以x=* = 3.75元时,利润最大.答案:3.758.某高校调查了200名学生每周的自习时间(单位:小时),制成了如下图的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是.解析:设所求的人数为〃,由频率分布直方图,自习时间不少于22.5小时的频率为(0.04+0.08 +0.16) X 2.5=0.7, n=0.7 X 200=140.答案:1409.为比拟甲乙两地某月11时的气温情况,随机选取该月5天11时的气温数据(单位:C) 制成如下图的茎叶图,甲地该月11时的平均气温比乙地该月11时的平均气温高1 ℃,那么甲地该月11时的平均气温的标准差为.甲9 8 2 62 m 03 I解析:甲地该月11时的气温数据(单位:℃)为28,29,30,30+〃?,32;乙地该月11时的气温数据(单位:℃)为26,28,29,31,31,那么乙地该月11时的平均气温为(26+28+29+31+31计5 = 29(℃),所以甲地该月11时的平均气温为30 ℃,故(28+29+30+30+m + 32)+5 = 30,解得〃?=1,那么甲地该月11时的平均气温的标准差为嗝义[(28 - 30产+(29 - 30)2+(30 - 30/+(31 - 30/+(32 - 30户]=\(2.答案:^2三、解做题10.某篮球运发动的投篮命中率为50%,他想提升自己的投篮水平,制定了一个夏季练习计划,为了了解练习效果,执行练习前他统计了10场比赛的得分,计算出得分的中位数为15,平均得分为15,得分的方差为463执行练习后也统计了10场比赛的得分,茎叶图如下图:0 8 91 2 4 4 5 6 82 1 3(1)请计算该篮球运发动执行练习后统计的10场比赛得分的中位数、平均得分与方差;⑵如果仅从执行练习前后统计的各10场比赛得分数据分析,你认为练习方案对该运发动的投篮水平的提升是否有帮助?为什么?解:(1)练习后得分的中位数为上芋=14.5;平均得分为8+9+12+14+14+15+16+18 + 21+23= 15:10方差为击义[(8—15)2 + (9 — 15>+(12 —15>+(14 — 15)2+(14 — 15> + (15 —15>+(16 — 15产+(18-15)2+(21-15)2+(23 —15)2]=20.6.(2)尽管中位数练习后比练习前稍小,但平均得分一样,练习前方差20.6小于练习前方差46.3, 说明练习后得分稳定性提升了(阐述观点合理即可),这是投篮水平提升的表现.故此练习方案对该篮球运发动的投篮水平的提升有帮助.11.(西安八校联考)在2021年俄罗斯世界杯期间,莫斯科的局部餐厅销售了来自中国的小龙虾,这些小龙虾均标有等级代码.为得到小龙虾等级代码数值x与销售单价y(单位:元)之间的关系,经统计得到如下数据:⑴销售单价),与等级代码数值x之间存在线性相关关系,求),关于x的线性回归方程(系数精确到0.1);(2)假设莫斯科某餐厅销售的中国小龙虾的等级代码数值为98,请估计该等级的中国小龙虾销售单价为多少元?参考公式:对于一组数据(xi1 ),3,光),…其回归直线f=源+2的斜率和截距的最小2Xyi一〃x y八 '। A — A——二乘估计分别为Z? = ----------------- a= y —b x .n _Xxr-n x 26 6参考数据:2>»=8 440, 2e = 25 564.—38+48 + 58 + 68 + 78 + 88解:(1)由题意,得x -■= 63,- 16.8+18.8+20.8 + 22.8 + 24+25.8 _y = 6 =21.5,yA_8 440 - 6X63X21.5〜h = ~~6Z—=25 564—6X63X63「026 A 2A — A 一a= y -bx =21.5-0.2X63 = 8.9.故所求线性回归方程为f=0.2x+8.9.⑵由(1)知,当%=98 时,>=0.2X98+8.9=28.5.・•・估计该等级的中国小龙虾销售单价为28.5元.12.(长沙模拟)某职称晋级评定机构对参加某次专业技术测试的100人的成绩进行了统计, 绘制的频率分布直方图如下图.规定80分以上者晋级成功,否那么晋级失败(总分值为100分).(1)求图中.的值;(2)估计该次测试的平均分不(同一组中的数据用该组的区间中点值代表);(3)根据条件完成下面2X2列联表,并判断能否有85%的把握认为“晋级成功〞与性别有关.P(K?2k)0.40 0.25 0.15 0.1()0.050.025k0.708 1.323 2.072 2.706 3.841 5.024解:(1)由频率分布直方图中各小长方形面积总和为1,得(2.+ 0.020+0.03.+0.040)义10=1,解得〃=0...5.⑵由频率分布直方图知洛小组的中点值依次是55,65,75,85,95, 对应的频率分别为0.05.30,0.40,0.20.05,那么估计该次测试的平均分为 x = 55X0.05 + 65X0.30 + 75X0.40 + 85X0.20 + 95X0.05 = 74(分). ⑶由频率分布直方图知,晋级成功的频率为0.20+0.05=0.25, 故晋级成功的人数为100X0.25 = 25,填写2X2列联表如下:晋级成功 晋级失败合计男 16 34 50 女 9 41 50 合计2575100100X(16X41 ——25X75X50X50^2,613>2.072,所以有85%的把握认为“晋级成功〞与性别有关.1 .为检查某工厂所生产的8万台电风扇的质量,抽查了其中20台的无故障连续使用时限(单 位:小时)如下:248 256 232 243 188 268 278 266 289 312 274296 288 302 295 228 287 217 329 283K 2=n(acl-bc)2(1)完成下面的频率分布表,并作出频率分布直方图;(2)估计8万台电风扇中有多少台无故障连续使用时限不低于280小时;(3)用组中值(同一组中的数据在该组区间的中点值)估计样本的平均无故障连续使用时限.解:(1)频率分布表及频率分布直方图如下所示:0.0100 ——⑵由题意可得8乂(0.30+0.10+0.05) = 3.6,所以估计8万台电风扇中有3.6万台无故障连续使用时限不低于280小时.(3)由频率分布直方图可知x =190X0.05 + 210X0.05 + 230X0.10 + 250X0.15 + 270X0.20 + 290X0.30 + 310X0.10 + 330X0.05 = 269(小时),所以样本的平均无故障连续使用时限为269小时.2 .海水养殖场进行某水产品的新、旧网箱养殖方法的产量比照,收获时各随机抽取了 100 个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A 表示事件“旧养殖法的箱产量低于50kg 〞,估计A 的概率;⑵填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量V50 kg箱产量250 kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比拟. 附:P (心2)0.050 0.010 0.001 k3.841 6.635 10.8280.01500.0125频率 仇距0.0075 0.0050 0.0025.厂工丁丁丁丁厂!无故障连续使用时用/小时新养殖法、n(ad-bc)1 _ .K-= . , , ,,其中〃=a+/?+c+d.(a+Z?)(c 十d)(a十c)(Z?+d)解:⑴旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)X5=0.62.因此,事件A的概率估计值为0.62.⑵根据箱产量的频率分布直方图得到联表:K2=---------- -------------------- 15 705100X100 X 96X104由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图说明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg 之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.3.为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:经计算得x =+£即=9.97,5=、*ZG L x )21 /=1 \ / 1O/=1/ 1 16 _ / 16 16 _=、/讳16 X 2比0.212, / L G-8.5)2^ 18.439,Z (x,- x )(L8.5)=—2.78,其中为为抽取的第i个零件的尺寸,i= 1,2, (16)(1)求⑶,i)(i= 12…,16)的相关系数二并答复是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(假设加V0.25,那么可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在(刀-35,7 +3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.①从这一天抽检的结果看,是否需对当天的生产过程进行检查?②在(7 -35,7 +3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(H,v)(i = 12…4的相关系数£(X,-7)(57-7)r=I ______/ / ・、/(),008公丫0・09・、/ £ d )2、/ £ 8 - 5 )216 _Z (XL x )(/—8.5)尸1解:(1)由样本数据得8,i)(i= 1,2,…,16)的相关系数为r= --------- /--- 1/16 _ / 16、/ Z (即- X C-8.5)2 -2.78剔除第13个数据,剩下数据的样本方差为aX 〔1 591.134 —9.22?—15X 10.022〕=0.008,A Q 这条生产线当天生产的零件尺寸的标准差的估计值为廊而比0.09.4.〔昆明模拟〕〞工资条里显红利,个税新政入民心〞.随着2021年新年钟声的敲响,我国 自1980年以来,力度最大的一次个人所得税〔简称个税〕改革迎来了全面实施的阶段.某IT 从业 者为了解自己在个税新政下能享受多少税收红利,绘制了他在26〜35岁〔2021〜2021年〕之间各 年的月平均收入〕,〔单位:千元〕的散点图:20・・・・ 16- ・ , 12- ., 8 ■ •4°123456789 io"年龄代码工注:年龄代码1~10分别对应年的26〜35岁⑴由散点图知,可用回归模型y=h\n x+a 拟合〕,与x 的关系,试根据有关数据建立〕,关于x 的回归方程;〔2〕如果该IT 从业者在个税新政下的专项附加扣除为3 000元/月,试利用〔1〕的结果,将月平 均收入视为月收入,根据新旧个税政策,估计他36岁时每个月少缴纳的个人所得税.1010 10 _10_ _ 10附注:参考数据:= 55,2〕〉= 155.5,N 〔即一x 〕2 =82.5,2 — x〕〔F — y 〕 = 94.9,26= i=li=li=lJ =1io _ io _ _15.1,2 缶- 1〕2=4.84,£〔力一 t 〕〔yi- y 〕 =242其中"=ln 为;取 In 11 =24,In 36=361=1 /=1参考公式:回归方程.=筋+味中斜率和截距的最小二乘估计分别为公= n ______ _X 〔出一〃〕〔.- V 〕 曰 A - A — -------------------------- \a= v —b u .Z 〔3一 〃 〕2月平均收入y千元解:(1)令 f=lnx,那么 y=bf+a10__Z & -,)()L y)24.2, b ~ ~__Z _痴_5ze —)2r=l10Zu-_2__155.5-_2_=而=-^-=15.55, t =苗A — A —a= y —b t = 15.55 —5X 1.51=8,所以〕,关于/的回归方程为〕,=5/+8.1015.1 lo"=L51由于/=lnx,所以y关于x的回归方程为y=51nx+8.⑵由⑴得,该IT从业者36岁时月平均收入为y=51n 11+8 = 5X2.4+8 = 20〔千元〕.旧个税政策下每个月应缴纳的个人所得税为1 500X3%+3 000X10%+4 500X20%+〔20 000-3 500-9 000〕X25% = 3 120〔元〕.新个税政策下每个月应缴纳的个人所得税为3 000X3%+〔20 000-5 OOO-3OOO-3 000〕X 10%=990〔元〕.故根据新旧个税政策,该IT从业者36岁时每个月少缴纳的个人所得税为3 120-990=2 130(70).I— 0 180.212X716X18.439 ',由于lrlV0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)①由于7 =9.97,产0.212,由样本数据可以看出抽取的第13个零件的尺寸在(T—3s,7 + 3s)以外,因此需对当天的生产过程进行检查.②剔除离群值,即第13个数据,剩下数据的平均数为右义(16义9.97—9.22)=10.02,这条生产线当天生产的零件尺寸的均值的估计值为10.02.162X?=16X0.212I2+16X9.972^1 591.134,。

高中数学重点强化训练5统计与统计案例

高中数学重点强化训练5统计与统计案例

重点强化训练(五)统计与统计案例A组基础达标(建议用时:30分钟)一、选择题1.(2017·石家庄模拟)交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社区做分层抽样调查.假设四个社区驾驶员的总人数为N,其中甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数N为()A.101B.808C.1 212D.2 012B[由题意知抽样比为1296,而四个社区一共抽取的驾驶员人数为12+21+25+43=101,故有1296=101N,解得N=808.]2.设某大学的女生体重y(单位:kg)写身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i,y i)(i=1,2,…,n),用最小二乘法建立的回归方程为y=0.85x-85.71,则下列结论中不正确的是()A.y与x具有正的线性相关关系B.回归直线过样本点的中心(x,y)C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kgD.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kgD[∵0.85>0,∴y与x正相关,∴A正确;∵回归直线经过样本点的中心(x,y),∴B正确;∵y=0.85(x+1)-85.71-(0.85x-85.71)=0.85,∴C正确.]3.亚冠联赛前某参赛队准备在甲、乙两名球员中选一人参加比赛.如图8所示的茎叶图记录了一段时间内甲、乙两人训练过程中的成绩,若甲、乙两名球员的平均成绩分别是x1,x2,则下列结论正确的是()A.x1>x2,选甲参加更合适B.x1>x2,选乙参加更合适C.x1=x2,选甲参加更合适D.x1=x2,选乙参加更合适A[根据茎叶图可得甲、乙两人的平均成绩分别为x1≈31.67,x2≈24.17,从茎叶图来看,甲的成绩比较集中,而乙的成绩比较分散,因此甲发挥得更稳定,选甲参加比赛更合适.]4.(2017·安徽皖南八校联考)某同学在研究性学习中,收集到某制药今年前5个月甲胶囊生产产量(单位:万盒)的数据如下表所示:x(月份)1234 5y(万盒)55668若x,y6月份生产甲胶囊产量为()A.8.1万盒B.8.2万盒C.8.9万盒D.8.6万盒A[由题意知x=3,y=6,则a=y-0.7x=3.9,∴x=6时,y=8.1.] 5.(2017·郑州质量预测)利用如图9所示算法在平面直角坐标系上一系列点,则的点在圆x2+y2=10内的个数为()导学号:66482445图9A.2 B.3C.4 D.5B[执行题中的算法框图,的点的坐标依次为(-3,6),(-2,5),(-1,4),(0,3),(1,2),(2,1),其中点(0,3),(1,2),(2,1)位于圆x2+y2=10内,因此的点位于圆x2+y2=10内的共有3个.]二、填空题6.在某市“创建文明城市”活动中,对800名志愿者的年龄抽样调查统计后得到频率分布直方图(如图10),但是年龄组为[25,30)的数据不慎丢失,据此估计这800名志愿者年龄在[25,30)内的人数为________.图10160[设年龄在[25,30)内的志愿者的频率是P,则有5×0.01+P+5×0.07+5×0.06+5×0.02=1,解得P=0.2.故估计这800名志愿者年龄在[25,30)内的人数是800×0.2=160.]7.某新闻媒体为了了解观众对央视《开门大吉》节目的喜爱与性别是否有关系,随机调查了观看该节目的观众110名,得到如下的列联表:女男总计喜爱402060不喜爱203050总计6050110与否和性别有关”.参考附表:P(χ2≥x0)0.0500.0100.001x0 3.841 6.63510.82899%[假设喜爱该节目和性别无关,分析列联表中数据,可得χ2=110×(40×30-20×20)2≈7.8>6.635,60×50×60×50所以有99%的把握认为“喜爱《开门大吉》节目与否和性别有关”.]8.(2017·太原模拟)数列{a n}满足a n=n,阅读如图11所示的算法框图,运行相应的程序,若输入n=5,a n=n,x=2的值,则输出的结果v=________.图11129[该算法框图循环4次,各次v的值分别是14,31,64,129,故输出结果v=129.]三、解答题9. (2017·桂林联考)如图12所示,茎叶图记录了甲、乙两组各四名同学完成某道数学题(满分12分)的得分情况.乙组某个数据的个位数模糊,记为x ,已知甲、乙两组的平均成绩相同.图12(1)求x 的值,并判断哪组学生成绩更稳定;(2)在甲、乙两组中各抽出一名同学,求这两名同学的得分之和低于20分的概率.[解] (1)x 甲=9+9+11+114=10,x 乙=8+9+12+10+x 4=10,∴x =1,2分又s 2甲=14[(10-9)2+(10-9)2+(11-10)2+(11-10)2]=1, s 2乙=14[(10-8)2+(10-9)2+(11-10)2+(12-10)2]=52, ∴s 2甲<s 2乙,∴甲组成绩比乙组稳定. 5分(2)记甲组4名同学为:A 1,A 2,A 3,A 4;乙组4名同学为:B 1,B 2,B 3,B 4.分别从甲、乙两组中各抽取一名同学所有可能的结果为:(A 1,B 1),(A 1,B 2),(A 1,B 3),(A 1,B 4),(A 2,B 1),(A 2,B 2),(A 2,B 3),(A 2,B 4),(A 3,B 1),(A 3,B 2),(A 3,B 3),(A 3,B 4),(A 4,B 1),(A 4,B 2),(A 4,B 3),(A 4,B 4),共16种. 10分其中得分之和低于20分的共6种,∴得分之和低于20分的概率P =616=38. 12分10.(2015·重庆高考)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:年份 2010 20112012 2013 2014 时间代号t 1 2 3 4 5 储蓄存款y (千亿元) 567810(1)求y 关于t 的回归方程y =bt +a ;(2)用所求回归方程预测该地区2015年(t =6)的人民币储蓄存款. 附:回归方程y =bt +a 中,b =∑i =1nt i y i -n t y∑i =1nt 2i -n t 2,a =y -b t .[解] (1)列表计算如下:这里n =5,t =1n ∑i =1n t i =155=3,y =1n ∑i =1n y i =365=7.2. 2分又l tt =∑i =1nt 2i -n t 2=55-5×32=10,l ty =∑i =1n t i y i -n t -y -=120-5×3×7.2=12,从而b =l ty l tt=1210=1.2,a =y -b t =7.2-1.2×3=3.6,故所求回归方程为y=1.2t+3.6. 7分(2)将t=6代入回归方程可预测该地区2015年的人民币储蓄存款为y=1.2×6+3.6=10.8(千亿元). 12分B组能力提升(建议用时:15分钟)1.如图13所示的算法框图,若输出k的值为6,则判断框内可填入的条件是()图13A.s>12B.s>35C.s>710D.s>45C[第一次执行循环:s=1×910=910,k=8,s=910应满足条件;第二次执行循环:s=910×89=810,k=7,s=810应满足条件,排除选项D;第三次执行循环:s=810×78=710,k=6,不再满足条件,结束循环.因此判断框中的条件为s>710.]2.(2017·西安调研)已知某产品连续4个月的广告费用x1(千元)与销售额y1(万元),经过对这些数据的处理,得到如下数据信息:①∑i=14x i=18,∑i=14y i=14;②广告费用x和销售额y之间具有较强的线性相关关系;③回归直线方程y =bx +a 中的b =0.8(用最小二乘法求得).那么,广告费用为6千元时,可预测销售额约为________万元.导学号:664824464.7 [因为∑i =14x i =18,∑i =14y i =14,所以x =4.5,y =3.5,因为回归直线方程y =bx +a 中的b =0.8, 所以3.5=0.8×4.5+a ,所以a =-0.1,所以y =0.8x -0.1. x =6时,可预测销售额约为4.7万元.] 3.(2015·高考)某36名工人的年龄数据如下表.机抽样法抽到的年龄数据为44,列出样本的年龄数据;(2)计算(1)中样本的均值x 和方差s 2;(3)36名工人中年龄在x -s 与x +s 之间有多少人?所占的百分比是多少(精确到0.01%)?[解] (1)36人分成9组,每组4人,其中第一组的工人年龄为44,所以它在组中的编号为2,所以所有样本数据的编号为4n-2(n=1,2,…,9),其年龄数据为:44,40,36,43,36,37,44,43,37. 5分(2)由均值公式知:x=44+40+…+379=40,由方差公式知:s2=19[(44-40)2+(40-40)2+…+(37-40)2]=1009. 8分(3)因为s2=1009,s=103,所以36名工人中年龄在x-s和x+s之间的人数等于年龄在区间[37,43]上的人数,即40,40,41,…,39,共23人.所以36名工人中年龄在x-s和x+s之间的人数所占的百分比为23 36×100%≈63.89%. 12分。

统计案例练习

统计案例练习

第一章:统计案例一.选择题1. 炼钢时钢水的含碳量与冶炼时间有( )A.确定性关系B.相关关系C.函数关系D.无任何关系 2.下列说法正确的有( )①回归方程适用于一切样本和总体。

②回归方程一般都有时间性。

③样本取值的范围会影响回归方程的适用范围。

④回归方程得到的预报值是预报变量的精确值。

A. ①② B. ②③ C. ③④ D. ①③ 3.下列结论正确的是( )①函数关系是一种确定性关系; ②相关关系是一种非确定性关系 ③回归分析是对具有函数关系的两个变量进行统计分析的一种方法 ④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法。

A. ①② B. ①②③ C. ①②④ D. ①②③④ 4. 设有一个回归方程为y=2-2.5x,则变量x 增加一个单位时( ) A.y 平均增加2.5个单位 B.y 平均增加2个单位 C.y 平均减少2.5个单位 D.y 平均减少2个单位5.已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则回归直线的方程是( ) A. y ∧=1.23x +4 B. y ∧=1.23x+5 C. y ∧=1.23x+0.08 D. y ∧=0.08x+1.23 6. 已知x 与y 之间的一组数据:则y 与x 的线性回归方程为y=bx+a 必过( )A.(2,2)点B.(1.5,0)点C.(1,2)点D.(1.5,4)点7. 在三维柱形图中,主对角线上两个柱形高度的乘积与副对角线上的两个柱形的高度的乘积相差越大两个变量有关系的可能性就( )A. 越大B.越小C.无法判断D. 以上都不对 8.身高与体重有关系可以用( )分析来分析A.殘差B.回归C.二维条形图D.独立检验9. 设两个变量x 和y 之间具有线性相关关系,它们的相关系数是r ,y 关于x 的回归直线的斜率是b ,纵截距是a ,那么必有( )A. b 与r 的符号相同B. a 与r 的符号相同C. b 与r 的相反D. a 与r 的符号相反10. 为研究变量x 和y 的线性相关性,甲、乙二人分别作了研究,利用线性回归方法得到回归直线方程1l 和2l ,两人计算知x 相同,y 也相同,下列正确的是( )A. 1l 与2l 重合B. 1l 与2l 一定平行C. 1l 与2l 相交于点),(y xD. 无法判断1l 和2l 是否相交 11. 考察棉花种子经过处理跟生病之间的关系得到如下表数据:A.种子经过处理跟是否生病有关B. 种子经过处理跟是否生病无关C.种子是否经过处理决定是否生病D. 以上都是错误的12.变量x 与y 具有线性相关关系,当x 取值16,14,12,8时,通过观测得到y 的值分别为11,9,8,5,若在实际问题中,y 的预报最大取值是10,则x 的最大取值不能超过( ) A.16 B.17 C.15 D.12 二.填空题13 .有下列关系:(1)人的年龄与他(她)拥有的财富之间的关系; (2)曲线上的点与该点的坐标之间的关系; (3)苹果的产量与气候之间的关系;(4)森林中的同一种树木,其断面直径与高度之间的关系;(5)学生与他(她)的学号之间的关系,其中有相关关系的是 14. 归直线方程为y=0.5x-0.81,则x=25时,y 的估计值为15. 在两个变量的回归分析中,作散点图的目的是______________________________16. 许多因素都会影响贫穷,教育也许是其中之一,在研究这两个因素的关系时收集了美国50个州的成年人受过9年或更少教育的百分比(x )和收入低于官方规定的贫困线的人数占本州人数的百分比(y )的数据,建立的回归直线方程如下ˆ0.8 4.6yx =+,斜率的估计等于0.8说明 ,成年人受过9年或更少教育的百分比(x )和收入低于官方的贫困线的人数占本州人数的百分比(y )之间的相关系数 (填充“大于0”或“小于0”) 三.解答题17. 在回归分析中,通过模型由解释变量计算预报变量时,应注意什么问题?18.若)101(,1531≤≤=+=i iy y i x i i ,求.,y x19.某企业为考察生产同一种产品的甲、乙两条生产线的产品合格率,同时各抽取100件产品,检验后得到如下联表:生产线与产品合格率列联表请问甲、乙两线生产的产品合格率在多大程度上有关系?20.为了研究某种细菌随时间x 变化,繁殖的个数,收集数据如下:(1) 用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图 (2) 描述解释变量与预报变量之间的关系 (3) 计算残差、相关指数R 2.1.1 回归分析的基本思想及其初步应用例题:1. 在画两个变量的散点图时,下面哪个叙述是正确的( )(A)预报变量在x 轴上,解释变量在y 轴上 (B)解释变量在x 轴上,预报变量在y 轴上(C)可以选择两个变量中任意一个变量在x 轴上 (D)可以选择两个变量中任意一个变量在y 轴上 2. 若一组观测值(x 1,y 1)(x 2,y 2)…(x n ,y n )之间满足y i =bx i +a+e i (i=1、2. …n)若e i 恒为0,则R 2为3. 假设关于某设备的使用年限x 和所支出的维修费用y (万元),有如下的统计资料:若由资料可知y 对x 呈线性相关关系试求:(1)线性回归方程;(2)估计使用年限为10年时,维修费用是多少?课后练习:1. 一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归模型为y=7.19x+73.93 用这个模型预测这个孩子10岁时的身高,则正确的叙述是( ) A.身高一定是145.83cm; B.身高在145.83cm 以上; C.身高在145.83cm 以下; D.身高在145.83cm 左右.2. 两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数2R 如下 ,其中拟合效果最好的模型是( )A.模型1的相关指数2R 为0.98B.模型2的相关指数2R 为0.80C.模型3的相关指数2R 为0.50D.模型4的相关指数2R 为0.253.在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是( ) A.总偏差平方和 B.残差平方和 C.回归平方和 D.相关指数R 24.工人月工资(元)依劳动生产率(千元)变化的回归直线方程为ˆ6090y x =+,下列判断正确的是( ) A.劳动生产率为1000元时,工资为50元 B.劳动生产率提高1000元时,工资提高150元 C.劳动生产率提高1000元时,工资提高90元 D.劳动生产率为1000元时,工资为90元5.线性回归模型y=bx+a+e中,b=_______,a=_________e称为_________6. 若有一组数据的总偏差平方和为100,相关指数为0.5,则期残差平方和为_______ 回归平方和为____________7. 一台机器使用的时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器的运转的速度而变化,下表为抽样试验的结果:(1)变量y对x进行相关性检验;(2)如果y对x有线性相关关系,求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么机器的运转速度应控制在什么范围内?1.2 独立性检验的基本思想及其初步应用例题:1.三维柱形图中柱的高度表示的是( )A.各分类变量的频数B.分类变量的百分比C.分类变量的样本数D.分类变量的具体值2. 统计推断,当______时,有95 %的把握说事件A 与B 有关;当______时,认为没有充分的证据显示事件A 与B 是有关的.3.为了探究患慢性气管炎与吸烟有无关系,调查了却339名50岁以上的人,结果如下表所示,据此数据请问:50岁以上的人患慢性气管炎与吸烟习惯有关系吗?课后练习:1. 在三维柱形图中,主对角线上两个柱形高度的乘积与副对角线上的两个柱形的高度的乘积相差越大两个变量有关系的可能性就()A.越大B.越小C.无法判断D.以上都不对2.下列关于三维柱形图和二维条形图的叙述正确的是: ( )A .从三维柱形图可以精确地看出两个分类变量是否有关系B .从二维条形图中可以看出两个变量频数的相对大小,从三维柱形图中无法看出相对频数的大小C .从三维柱形图和二维条形图可以粗略地看出两个分类变量是否有关系D .以上说法都不对K的观测值K ,说法正确的是()3.对分类变量X 与Y 的随机变量2A . k 越大," X 与Y 有关系”可信程度越小;B . k 越小," X 与Y 有关系”可信程度越小;C . k 越接近于0," X 与Y 无关”程度越小D . k 越大," X 与Y 无关”程度越大4. 在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是()A.若K2的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;B.从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;C.若从统计量中求出有95% 的把握认为吸烟与患肺病有关系,是指有5% 的可能性使得推判出现错误;D.以上三种说法都不正确.5.若由一个2*2列联表中的数据计算得k2=4.013,那么有把握认为两个变量有关系6.某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:性别 专业非统计专业统计专业 男 13 10 女720为了判断主修统计专业是否与性别有关系,根据表中的数据,得到250(1320107) 4.84423272030k ⨯⨯-⨯=≈⨯⨯⨯因为2 3.841K ≥,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为 ____;7.在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人。

高三数学统计案例试题

高三数学统计案例试题

高三数学统计案例试题1.一台机器由于使用时间较长,但还可以使用,它按不同的转速生产出来的某机器零件有一些会有缺点,每小时生产有缺点零件的多少随机器运转的速度而变化,下表是抽样试验结果:若实际生产中,允许每小时的产品中有缺点的零件数最多为10个,那么机器的转速应该控制所在的范围是()A.10转/s以下B.15转/s以下C.20转/s以下D.25转/s以下【答案】B【解析】则a=-b=-0.857 5.∴回归直线方程为=0.728 6x-0.857 5.要使y≤10,则0.728 6x-0.857 5≤10,∴x≤14.901 9.因此,机器的转速应该控制在15转/s以下.故选B.2.登山族为了了解某山高y(km)与气温x(°C)之间的关系,随机统计了4次山高与相应的气温,并制作了对照表:气温x(°C)181310-1由表中数据,得到线性回归方程,由此请估计出山高为72(km)处气温的度数为()A.-10B.-8C.-6D.-6【答案】C【解析】由题意可得=10,=40.5,所以=+2=40.5+2×10=60.5,所以,当=72时,,解得x≈-6,故选C.【考点】回归分析3.为了调查某大学学生在周日上网的时间,随机对名男生和名女生进行了不记名的问卷调查,得到了如下的统计结果:表1:男生上网时间与频数分布表上网时间(分5253025151020402010(Ⅰ)若该大学共有女生750人,试估计其中上网时间不少于60分钟的人数;(Ⅱ)完成表3的列联表,并回答能否有90%的把握认为“学生周日上网时间与性别有关”?(Ⅲ)从表3的男生中“上网时间少于60分钟”和“上网时间不少于60分钟”的人数中用分层抽样的方法抽取一个容量为5的样本,再从中任取两人,求至少有一人上网时间超过60分钟的概率.表3 :上网时间少于60分钟上网时间不少于60分钟合计附:,其中【答案】(I)225;(II)否;(III).【解析】(I)统计得到女生样本中的上网时间不少于60分钟的频数,根据频数与容量之比等于频率,易得到全校上网时间不少于60分钟的人数;(II)由以上列联表1、2的数据,可统计得到表3的数据,根据独立性检验原理可知:没有90%的把握认为“学生周日上网时间与性别有关”;(III)五名男生中任取两人的基本事件数10个,根据表3可知男生上网超过60分钟与不超过60分钟的人数比为3:2,再写出至少一人超过60分钟的事件数7个,易求得概率为.试题解析:(1)设估计上网时间不少于60分钟的人数,依据题意有,解得:,所以估计其中上网时间不少于60分钟的人数是225人.(2)根据题目所给数据得到如下列联表:上网时间少于60分钟上网时间不少于60分钟合计其中 ,因此,没有90%的把握认为“学生周日上网时间与性别有关”.(3)因为上网时间少于60分钟与上网时间不少于60分钟的人数之比为,所以5人中上网时间少于60分钟的有3人,记为上网时间不少于60分钟的有2人,记为从中任取两人的所有基本事件为:(),(),(),(),(),(),(),(),(),(),共10种,其中“至少有一人上网时间超过60分钟”包含了7种, .【考点】1、用样本估计总体; 2、独立性检验;3、古典概型的概率求法.4.为了研究玉米品种对产量的影响,某农科院对一块试验田种植的一批玉米共10000 株的生长情况进行研究,现采用分层抽样方法抽取50株作为样本,统计结果如下:高茎矮茎合计10株玉米,再从这10株玉米中随机选出3株,求选到的3株之中既有圆粒玉米又有皱粒玉米的概率;(2) 根据对玉米生长情况作出的统计,是否能在犯错误的概率不超过0.050的前提下认为玉米的圆粒与玉米的高茎有关?(下面的临界值表和公式可供参考:,其中)【答案】(1);(2) 能在犯错误的概率不超过0.050的前提下认为玉米的圆粒与玉米的高茎有关.【解析】本小题通过统计与概率的相关知识,具体涉及到随机变量的分布列、数学期望的求法和统计案例中独立性检验等知识内容,考查学生对数据处理的能力,对考生的运算求解能力、推理论证能力都有较高要求. 本题属于统计概率部分综合题,对考生的统计学的知识考查比较全面,是一道的统计学知识应用的基础试题. .(1)采用分层抽样的比例关系确定个数,然后利用排列组合的知识,借助随机事件的概率求解;(2)根据已知的公式,经过仔细的计算出的值,然后借助表格进行数据对比,得到相关性的结论.试题解析:(1) 现采用分层抽样的方法,从样本中取出的10株玉米中圆粒的有6株,皱粒的有4株,所以从中再次选出3株时,既有圆粒又有皱粒的概率为. (6分) (2) 根据已知列联表:所以.又,因此能在犯错误的概率不超过0.050的前提下认为玉米的圆粒与玉米的高茎有关. (12分)【考点】(1)随机变量的分布列;(2)统计案例中独立性检验5.(本小题共12分)现对某市工薪阶层关于“楼市限购令”的态度进行调查,随机抽调了50人,他们月收入的频数分布及对“楼市限购令”赞成人数如下表.月收入(单[15,25[25,35[35,45[45,55[55,65[65,75510151055(1)由以上统计数据填下面2乘2列联表并问是否有99%的把握认为“月收入以5500为分界点对“楼市限购令” 的态度有差异;(2)若对在[15,25),[25,35)的被调查中各随机选取两人进行追踪调查,记选中的4人中不赞成“楼市限购令”人数为,求随机变量的分布列。

高中数学【统计与统计案例】专题练习

高中数学【统计与统计案例】专题练习

高中数学【统计与统计案例】专题练习1.(多选)下列统计量中,能度量样本x 1,x 2,…,x n 的离散程度的是( ) A.样本x 1,x 2,…,x n 的标准差 B.样本x 1,x 2,…,x n 的中位数 C.样本x 1,x 2,…,x n 的极差 D.样本x 1,x 2,…,x n 的平均数 答案 AC解析 由标准差的定义可知,标准差考查的是数据的离散程度;由中位数的定义可知,中位数考查的是数据的集中趋势;由极差的定义可知,极差考查的是数据的离散程度;由平均数的定义可知,平均数考查的是数据的集中趋势;故选AC.2.某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下: 旧设备 9.8 10.3 10.0 10.2 9.9 9.8 10.0 10.1 10.2 9.7 新设备10.110.410.110.010.110.310.610.510.410.5旧设备和新设备生产产品的该项指标的样本平均数分别记为x -和y -,样本方差分别记为s 21和s 22. (1)求x -,y -,s 21,s 22;(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果y --x -≥2s 21+s 2210,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).解 (1)x -=9.8+10.3+10.0+10.2+9.9+9.8+10.0+10.1+10.2+9.710=10,y -=10.1+10.4+10.1+10.0+10.1+10.3+10.6+10.5+10.4+10.510=10.3,s 21=0.22+0.32+0+0.22+0.12+0.22+0+0.12+0.22+0.3210=0.036,s 22=0.22+0.12+0.22+0.32+0.22+0+0.32+0.22+0.12+0.2210=0.04. (2)由(1)知,y --x -=0.3; 2s 21+s 2210=20.036+0.0410=20.007 6.又(y --x -)2=0.09>(20.007 6)2=0.030 4,则y --x ->2s 21+s 2210,所以新设备生产产品的该项指标的均值较旧设备有显著提高.3.某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑20i =1x i =60,∑20i =1y i =1 200,∑20i =1(x i -x -)2=80,∑20i =1(y i-y -)2=9 000,∑20i =1(x i -x -)(y i -y -)=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r =∑ni =1 (x i -x -)(y i -y -)∑n i =1(x i -x -)2∑n i =1 (y i -y -)2,2≈1.414.解 (1)由已知得样本平均数y -=120∑20i =1y i =60,从而该地区这种野生动物数量的估计值为60×200=12 000.(2)样本(x i ,y i )(i =1,2,…,20)的相关系数r =∑20i =1 (x i -x -)(y i -y -)∑20i =1(x i -x -)2∑20i =1(y i -y -)2=80080×9 000=223≈0.94.(3)分层随机抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层随机抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关性.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层随机抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.1.抽样方法抽样方法包括简单随机抽样、分层随机抽样,两种抽样方法都是等概率抽样,体现了抽样的公平性,但又各有其特点和适用范围. 2.统计中的五个数据特征(1)众数:在样本数据中,出现次数最多的那个数据.(2)中位数:在样本数据中,将数据按大小顺序排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数. (3)平均数:样本数据的算术平均数,即x -=1n (x 1+x 2+…+x n ).(4)第p 百分位数:将一组数据(共n 个)按从小到大排列,计算i =n ×p %,若i 不是整数,而大于i 的比邻整数为j ,则第p 百分位数为第j 项数据;若i 是整数,则第p 百分位数为第i 项与第(i +1)项数据的平均数.(5)方差与标准差.s 2=1n [(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2],s =1n [(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2].3.频率分布直方图的两个结论 (1)小长方形的面积=组距×频率组距=频率. (2)各小长方形的面积之和等于1. 4.回归分析与独立性检验(1)回归直线y ^=b ^x +a ^经过样本点的中心(x -,y -),若x 取某一个值代入回归直线方程y ^=b ^x +a ^中,可求出y 的估计值. (2)独立性检验对于取值分别是{x 1,x 2}和{y 1,y 2}的分类变量X 和Y ,其样本频数列联表是:X Y 合计 y 1 y 2 x 1 a b a +b x 2 c d c +d 合计a +cb +dn则χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量).热点一 用样本估计总体考向1 数字特征与统计图表的应用【例1】 (1)空气质量指数分为六级,指数越大说明污染的情况越严重,对人体危害越大,其中指数范围[0,50],[51,100],[101,150],[151,200],[201,300]分别对应“优”“良”“轻度污染”“中度污染”“重度污染”五个等级.如图是某市连续14天的空气质量指数趋势图,下列说法不正确的是( )A.这14天中有4天空气质量为“良”B.这14天中空气质量指数的中位数是103C.从2日到5日空气质量越来越差D.连续三天中空气质量指数方差最小的是9日到11日(2)2020年我国突发新冠肺炎疫情,疫情期间中小学生“停课不停学”.已知某地区中小学生人数情况如甲图所示,各学段学生在疫情期间“家务劳动”的参与率如乙图所示.为了进一步了解该地区中小学生参与“家务劳动”的情况,现用分层随机抽样的方法抽取4%的学生进行调查,则抽取的样本容量、抽取的高中生中参与“家务劳动”的人数分别为()A.2 750,200B.2 750,110C.1 120,110D.1 120,200答案(1)B(2)C解析(1)在这14天中,1日、3日、12日、13日的空气质量为良,共4天,故A正确.14天中空气质量指数的中位数为86+1212=103.5,故B错误.从2日到5日,空气质量指数越来越高,故空气质量越来越差,C正确.观察题图可得,9日至11日空气质量指数偏差最小,因此方差最小,D正确.综上知,说法不正确的是B.(2)学生总数为15 500+5 000+7 500=28 000(人),由于抽取4%的学生进行调查,则抽取的样本容量为28 000×4%=1 120.故高中生应抽取的人数为5 000×4%=200,而抽取的高中生中参与“家务劳动”的比率为0.55,故抽取的高中生中参与“家务劳动”的人数为200×0.55=110.探究提高 1.解题的关键是理解统计图表的含义,从中提取数字信息,平均数、众数、中位数描述数据的集中趋势,方差与标准差描述数据的波动大小,标准差、方差越小,数据的离散程度越小,越稳定.2.进行分层随机抽样的相关计算时,常用到的两个关系:(1)样本容量n总体的个数N=该层抽取的个体数该层的个体数;(2)总体中某两层的个体数之比等于样本中这两层抽取的个体数之比.【训练1】(1)以下数据为参加数学竞赛决赛的15人的成绩:(单位:分)78,70,72,86,88,79,80,81,94,84,56,98,83,90,91,则这15人成绩的第80百分位数是()A.90B.90.5C.91D.91.5(2)(多选) 2020年上半年,中国养猪企业受猪价高位的利好影响,大多收获史上最佳半年报业绩,部分企业半年报营业收入同比增长超过1倍.某养猪场抓住机遇,加大了生猪养殖规模,为了检测生猪的养殖情况,该养猪场对2 000头生猪的体重(单位:kg)进行了统计,得到如图所示的频率分布直方图,则下列说法正确的是()A.这2 000头生猪体重的众数为160 kgB.这2 000头生猪中体重不低于200 kg的有80头C.这2 000头生猪体重的中位数落在区间[140,160)内D.这2 000头生猪体重的平均数为152.8 kg答案(1)B(2)BCD解析(1)把成绩按从小到大的顺序排列为:56,70,72,78,79,80,81,83,84,86,88,90,91,94,98,因为15×80%=12,所以这15人成绩的第80百分位数是90+912=90.5.(2)由频率分布直方图可知,[140,160)这一组的数据对应的小长方形最高,所以这2 000头生猪的体重的众数为150 kg,A错误;这2 000头生猪中体重不低于200 kg的有0.002×20×2 000=80(头),B正确;因为生猪的体重在[80,140)内的频率为(0.001+0.004+0.01)×20=0.3,在[140,160)内的频率为0.016×20=0.32,且0.3+0.32=0.62>0.5,所以这2 000头生猪体重的中位数落在区间[140,160)内,C正确;这2 000头生猪体重的平均数为(0.001×90+0.004×110+0.01×130+0.016×150+0.012×170+0.005×190+0.002×210)×20=152.8(kg),D正确.考向2用样本的频率分布估计总体分布【例2】为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.(1)求乙离子残留百分比直方图中a,b的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).解(1)由已知得0.70=a+0.20+0.15,故a=0.35,b=1-0.05-0.15-0.70=0.10.(2)甲离子残留百分比的平均值的估计值为2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.乙离子残留百分比的平均值的估计值为3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.探究提高 1.平均数与方差都是重要的数字特征,是对数据的一种简明描述,它们所反映的情况有着重要的实际意义.2.在例2中,抓住频率分布直方图各小长方形的面积之和为1,这是求解的关键;本题易混淆频率分布条形图和频率分布直方图,误把频率分布直方图纵轴的几何意义当成频率,导致样本数据的频率求错.【训练2】(多选)为了更好地支持中小型企业的发展,某市决定对部分企业的税收进行适当的减免,现调查了当地100家中小型企业年收入(单位:万元)情况,并根据所得数据画出了如图所示的频率分布直方图,则下列结论正确的是()A.样本在区间[500,700]内的频数为18B.如果规定年收入在300万元以内的企业才能享受减免税收政策,估计有30%的当地中小型企业能享受到减免税收政策C.样本的中位数大于350万元D.可估计当地中小型企业年收入的平均数超过400万元(同一组中的数据用该组区间的中点值作代表)答案ABC解析依题意,(0.001+0.002+0.002 6×2+a+0.000 4)×100=1,所以a=0.001 4.对于A,样本在[500,700]内的频率为(0.001 4+0.000 4)×100=0.18,故频数为0.18×100=18,故A正确.对于B,年收入在300万元以内的频率为(0.001+0.002)×100=0.3,故B正确. 对于C,设样本的中位数为x,易知中位数位于[300,400]内,则0.3+(x-300)×0.002 6=0.5,解得x≈376.9,376.9>350,故C正确.因为样本的平均数为150×0.1+250×0.2+350×0.26+450×0.26+550×0.14+650×0.04=376<400,所以估计当地中小型企业年收入的平均数小于400万元,故D 错误. 热点二 回归分析【例3】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据进行了初步处理,得到如图所示散点图及一些统计量的值.x -y -w -∑8i =1(x i -x -)2∑8i =1(w i -w -)2∑8i =1(x i -x -)·(y i -y -) ∑8i =1(w i -w -)·(y i -y -) 46.65636.8289.8 1.61 469108.8表中w i =x i ,w -=18∑8i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个更适宜作为年销售量y 关于年宣传费x 的回归方程?(给出判断即可,不必说明理由) (2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程.(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为:β^=∑ni =1(u i -u -)(v i -v -)∑n i =1(u i -u -)2,α^=v --β^u -.解 (1)由散点图可以判断,y =c +d x 更适宜作为年销售量y 关于年宣传费x 的回归方程.(2)易知w =x ,则y ^=d ^w +c ^.由题意得d ^=∑8i =1(w i -w -)(y i -y -)∑8i =1(w i -w -)2=108.81.6=68,所以c ^=y --d ^w -=563-68×6.8=100.6.所以y 关于w 的线性回归方程为y ^=100.6+68w , 所以y 关于x 的回归方程为y ^=100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值为y ^=100.6+6849=576.6,年利润z 的预报值为z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12,所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大. 探究提高 1.求回归直线方程的关键及实际应用 (1)关键:正确理解b ^,a ^的计算公式并准确地计算.(2)实际应用:在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值. 2.相关系数(1)当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关. (2)当|r |>0.75时,认为两个变量具有较强的线性相关关系.【训练3】 (多选)我国5G 技术研发试验在2016~2018年进行,分为5G 关键技术试验、5G 技术方案验证和5G 系统验证三个阶段.2020年初以来,5G 技术在我国已经进入高速发展的阶段,5G 手机的销量也逐渐上升.某手机商城统计了2021年5个月5G 手机的实际销量,如下表所示:若y 与x 线性相关,且求得线性回归方程为y ^=45x +5,则下列说法正确的是( ) A.a =142 B.y 与x 正相关C.y 与x 的相关系数为负数D.2021年7月该手机商城的5G 手机销量约为365部 答案 AB解析 x -=1+2+3+4+55=3,y -=50+96+a +185+2275=558+a 5,因为点(x -,y -)在回归直线上,所以558+a5=45×3+5,解得a =142,所以选项A 正确;从表格数据看,y 随x 的增大而增大,所以y 与x 正相关,所以选项B 正确;因为y 与x 正相关,所以y 与x 的相关系数为正数,所以选项C 错误;2021年7月对应的月份编号x =7,当x =7时,y ^=45×7+5=320,所以2021年7月该手机商城的5G 手机销量约为320部,所以选项D 错误.故选AB.热点三 独立性检验【例4】 为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO 2浓度(单位:μg/m 3),得下表:(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO 2浓度不超过150”的概率;(2)根据所给数据,完成下面的2×2列联表:(3)根据(2)中的列联表,依据小概率值α=0.01的χ2独立性检验,能否认为该市一天空气中PM2.5浓度与SO 2浓度有关? 附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),解 (1)根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且SO 2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO 2浓度不超过150的概率的估计值为64100=0.64. (2)根据抽查数据,可得2×2列联表:(3)零假设为H 0:该市一天空气中PM2.5浓度与SO 2浓度无关.根据(2)的列联表得χ2=100×(64×10-16×10)280×20×74×26≈7.484>6.635=x 0.01.根据小概率值α=0.01的χ2独立性检验,我们推断H 0不成立,即认为该市一天空气中PM2.5浓度与SO 2浓度有关,此推断犯错误的概率不超过0.01. 探究提高 1.独立性检验的一般步骤 (1)根据样本数据列成2×2列联表; (2)根据公式χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),计算χ2的值;(3)查表比较χ2与临界值的大小关系,作统计判断.2.χ2的值越大,对应假设事件H 0成立(两类变量相互独立)的概率越小,H 0不成立的概率越大.【训练4】 甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)依据小概率值α=0.01的χ2独立性检验,能否认为甲机床的产品质量与乙机床的产品质量有差异?附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),α 0.050 0.010 0.001 x α3.8416.63510.828解 (1)根据2×2列联表知:甲机床生产的产品中一级品的频率为150200=75%, 乙机床生产的产品中一级品的频率为120200=60%.(2)零假设为H 0:甲机床的产品质量与乙机床的产品质量没有差异.由2×2列联表,得χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=400×(150×80-120×50)2270×130×200×200=40039≈10.256>6.635=x 0.01.根据小概率值α=0.01的χ2独立性检验,我们推断H 0不成立,即认为甲机床的产品质量与乙机床的产品质量有差异,此推断犯错误的概率不超过0.01.一、选择题1.设一组样本数据x 1,x 2,…,x n 的方差为0.01,则数据10x 1,10x 2,…,10x n 的方差为( ) A.0.01 B.0.1 C.1 D.10答案 C解析 10x 1,10x 2,…,10x n 的方差为102×0.01=1.2.为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( ) A.160 B.163 C.166 D.170答案 C解析 ∵x -=110∑10i =1x i =110×225=22.5,y -=110∑10i =1y i=160, ∴a ^=y --b ^x -=160-4×22.5=70, ∴回归直线方程为y ^=4x +70. 因此估计其身高y ^=4×24+70=166.3.从一批零件中抽取80个,测量其直径(单位:mm),将所得数据分为9组:[5.31,5.33),[5.33,5.35),…,[5.45,5.47),[5.47,5.49],并整理得到如下频率分布直方图,则在被抽取的零件中,直径落在区间[5.43,5.47)内的个数为( )A.10B.18C.20D.36答案 B解析 因为直径落在区间[5.43,5.47)内的频率为0.02×(6.25+5.00)=0.225,所以零件的个数为0.225×80=18.4.某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A 点表示十月的平均最高气温约为15 ℃,B 点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是()A.各月的平均最低气温都在0 ℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20 ℃的月份有5个答案 D解析由雷达图易知A,C正确;七月的平均最高气温超过20 ℃,平均最低气温约为12 ℃,一月的平均最高气温约为6 ℃,平均最低气温约为2 ℃,所以七月的平均温差比一月的平均温差大,B正确;由雷达图知平均最高气温超过20 ℃的月份有3个月,D错误.5.(多选) 5G时代已经到来,5G的发展将直接带动包括运营、制造、服务在内的通信行业整体的快速发展,进而对GDP增长产生直接贡献,并通过产业间的关联效应,间接带动国民经济各行业的发展,创造出更多的经济增加值.如图,某单位结合近年数据,对今后几年的5G经济产出作出预测.由上图提供的信息可知()A.运营商的经济产出逐年增加B.设备制造商的经济产出前期增长较快,后期放缓C.设备制造商在各年的总经济产出中一直处于领先地位D.信息服务商与运营商的经济产出的差距有逐步拉大的趋势 答案 ABD解析 对于A ,由图知,运营商的经济产出逐年增加,故A 正确;对于B ,由图知,设备制造商的经济产出在2020~2023年间增长较快,后几年增长逐渐趋于平缓,故B 正确;对于C ,由图可知,设备制造商在各年的总经济产出中在前期处于领先地位,而后期是信息服务商处于领先地位,故C 错误;对于D ,由图知,在2020~2025年间信息服务商与运营商的经济产出的差距不大,后几年中信息服务商的经济产出增长速度明显高于运营商的经济产出增长速度,两者间的差距有逐步拉大的趋势,故D 正确.综上所述,选ABD.6.已知某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为x -,方差为s 2,则( )A.x -=4,s 2<2B.x -=4,s 2>2 C.x ->4,s 2<2 D.x ->4,s 2>2答案 A解析 ∵某7个数的平均数为4,∴这7个数的和为4×7=28.∵加入一个新数据4,∴x -=28+48=4.又∵这7个数的方差为2,且加入一个新数据4,∴这8个数的方差s 2=7×2+(4-4)28=74<2,故选A.二、填空题 7.给出如下列联表非 30 50 80 合计5060110根据独立性检验,__________在犯错误的概率不超过0.01的前提下认为“高血压与患心脏病有关”(填“能”或“不能”). 答案 能解析 零假设为H 0:高血压与患心脏病无关. 由列联表中的数据可得 χ2=110×(20×50-10×30)230×80×50×60≈7.486>6.635=x 0.01,根据小概率值α=0.01的χ2独立性检验,我们推断H 0不成立,即认为高血压与患心脏病有关,此推断犯错误的概率不超过0.01,即能在犯错误的概率不超过0.01的前提下,认为高血压与患心脏病有关.8.为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,测试成绩(单位:分)如图所示,假设得分值的中位数为m e ,众数为m 0,平均值为x -,则m e ,m 0与x -的大小关系是________.答案 m 0<m e <x -解析 由图可知,30名学生的得分情况依次为得3分的有2人,得4分的有3人,得5分的有10人,得6分的有6人,得7分的有3人,得8分的有2人,得9分的有2人,得10分的有2人.中位数为第15、16个数(分别为5、6)的平均数,即m e =5.5.5出现的次数最多,故m 0=5,x -=2×3+3×4+10×5+6×6+3×7+2×8+2×9+2×1030≈5.97.于是得m 0<m e <x -.9.下面的折线图给出的是甲、乙两只股票在某年中每月的收盘价格,已知股票甲的极差是6.88元,标准差为2.04元;股票乙的极差为27.47元,标准差为9.63元,根据这两只股票在这一年中的波动程度,给出下列结论:①股票甲在这一年中波动相对较小,表现的更加稳定;②购买股票乙风险高但可能获得高回报;③股票甲的走势相对平稳,股票乙的收盘价格波动较大;④两只股票在全年都处于上升趋势.其中正确的结论是________(填序号).答案 ①②③解析 由题意可知,甲的标准差为2.04元,乙的标准差为9.63元,可知股票甲在这一年中波动相对较小,表现的更加稳定,故①正确;甲的极差是6.88元,乙的极差为27.47元,可知购买股票乙风险高但可能获得高回报,故②正确;通过折线图可知股票甲的走势相对平稳,股票乙的收盘价格波动较大,故③正确;通过折线图可得乙在6月到8月明显是下降趋势,故④错误. 三、解答题10.某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:性别对该商场的服务 合计满意不满意(1)分别估计男、女顾客对该商场服务满意的概率;(2)依据小概率值α=0.05的χ2独立性检验,能否认为男、女顾客对该商场服务的评价有差异?附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)由调查数据,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6. (2)零假设为H 0:男、女顾客对该商场服务的评价没有差异. 由列联表中的数据,得 χ2=100×(40×20-30×10)250×50×70×30≈4.762>3.841=x 0.05.根据小概率值α=0.05的χ2独立性检验,我们推 断H 0不成立,即认为男、女顾客对商场服务的评价有差异,此推断犯错误的概率不大于0.05.11.某互联网公司为了确定下季度的前期广告投入计划,收集了近6个月广告投入量x (单位:万元)和收益y (单位:万元)的数据如表:他们分别用两种模型①y =bx +a ,②y =a e bx 进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值.x -y -∑6i =1x i y i∑6i =1x 2i7301 464.24 364(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由; (2)残差绝对值大于2的数据被认为是异常数据,需要剔除. (ⅰ)剔除异常数据后,求出(1)中所选模型的回归方程; (ⅱ)若广告投入量x =18,则该模型收益的预报值是多少?附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为:b ^=∑n i =1(x i -x -)(y i -y -)∑n i =1(x i -x -)2=∑ni =1x i y i -nx -·y -∑n i =1x 2i -n ·x -2,a ^=y --b ^x -. 解 (1)由于模型①残差波动小,应该选择模型①. (2)(ⅰ)剔除异常数据,即3月份的数据, 剩下数据的平均数为x -=15×(7×6-6)=7.2,y -=15×(30×6-31.8)=29.64,∑5i =1x i y i -5x -·y -=206.4,∑5i =1x 2i -5·x -2=68.8. ∴b ^=206.468.8=3,a ^=y --b ^x -=29.64-3×7.2=8.04.∴所选模型的回归方程为y ^=3x +8.04. (ⅱ)若广告投入量x =18,则该模型收益的预报值是3×18+8.04=62.04(万元).12.(多选)2020年7月国家统计局发布了我国2020年上半年国内经济数据,图1为国内三大产业生产总值的比重,图2为第三产业中各行业生产总值的比重.以下关于我国2020年上半年经济数据的说法正确的是()A.在第三产业中,“批发和零售业”与“金融业”的生产总值之和同“其他服务业”的生产总值基本持平B.若“租赁和商务服务业”生产总值为15 000亿元,则“房地产业”生产总值为32 500亿元C.若“金融业”的生产总值为42 000亿元,则第三产业生产总值为262 500亿元D.若“金融业”的生产总值为42 000亿元,则第一产业生产总值为45 000亿元答案ABC解析对于选项A,在第三产业中,“批发和零售业”与“金融业”的生产总值之和占比为16%+16%=32%,“其他服务业”的生产总值占比为32%,所以“批发和零售业”与“金融业”的生产总值之和同“其他服务业”的生产总值基本持平,故选项A正确.对于选项B,若“租赁和商务服务业”生产总值为15 000亿元,在第三产业中,因为“租赁和商务服务业”生产总值占比为6%,所以第三产业生产总值为15 000=250 000(亿元),又“房地产业”生产总值占比为13%,所以“房地产6%业”生产总值为13%×250 000=32 500(亿元),故选项B正确.对于选项C ,在第三产业中,若“金融业”的生产总值为42 000亿元,因为“金融业”生产总值占比为16%,所以第三产业生产总值为42 00016%=262 500(亿元),故选项C 正确.对于选项D ,第三产业生产总值在三大产业中占比为57%,第一产业生产总值在三大产业中占比为6%,由C 选项知第三产业生产总值为262 500亿元,所以第一产业生产总值为262 50057%×6%≈27 632(亿元),所以选项D 错误.13.由于受到网络电商的冲击,某品牌的洗衣机在线下的销售受到影响,承受了一定的经济损失,现将A 地区200家实体店该品牌洗衣机的月经济损失统计如图所示,估算月经济损失的平均数为m ,中位数为n ,则m -n =________.答案 360解析 第一块小矩形的面积S 1=0.3,第二块小矩形的面积S 2=0.4,故n =2 000+0.5-0.30.000 2=3 000;又第四、五块小矩形的面积均为S =0.06,故a =12 000[1-(0.3+0.4+0.06×2)]=0.000 09,所以m =1 000×0.3+3 000×0.4+5 000×0.18+(7 000+9 000)×0.06=3 360,故m -n =360.14.某公司为了预测下月产品销售情况,找出了近7个月的产品销售量y (单位:万件)的统计表:月份代码t 1 2 3 4 5 6 7 销售量y (万件)y 1y 2y 3y 4y 5y 6y 7但其中数据污损不清,经查证∑7i =1y i =9.32,∑7i =1t i y i =40.17,∑7i =1(y i -y -)2=0.55.。

(压轴题)高中数学高中数学选修2-3第三章《统计案例》测试题(含答案解析)(1)

(压轴题)高中数学高中数学选修2-3第三章《统计案例》测试题(含答案解析)(1)

一、选择题1.假设有两个分类变量X 和Y 的22⨯列联表为:对同一样本,以下数据能说明X 与Y 有关系的可能性最大的一组为参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.A .5,35b d ==B .15,25b d ==C .20,20b d ==D .30,10b d ==2.已知x 与y 之间的几组数据如下表: x 1 2 4 5 y 0 2 3 5假设根据上表数据所得线性回归直线方程y=bx+a,若某同学根据上表中的前两组数据(1,0)和(2,2),求得的直线方程为y=b'x+a',则以下结论正确的是( ) A .b>b',a>a' B .b<b',a<a' C .b>b',a<a' D .b<b',a>a'3.经过对K 2的统计量的研究,得到了若干个观测值,当K 2≈6.706时,我们认为两分类变量A 、B ( )A .有67.06%的把握认为A 与B 有关系 B .有99%的把握认为A 与B 有关系C .有0.010的把握认为A 与B 有关系D .没有充分理由说明A 与B 有关系 4.有如下几个结论: ①相关指数R 2越大,说明残差平方和越小,模型的拟合效果越好; ②回归直线方程:y bx a =+,一定过样本点的中心:(,)x y ③残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适; ④在独立性检验中,若公式()()()()()22n ad bc K a b c d a c b d -=++++,中的|ad-bc|的值越大,说明“两个分类变量有关系”的可能性越强.其中正确结论的个数有( )个. A .1B .2C .3D .45.下列判断错误的是A .若随机变量ξ服从正态分布()()21,,30.72N P σξ≤=,则()10.28P ξ≤-=;B .若n 组数据()()()1122,,,,...,,n n x y x y x y 的散点都在1y x =-+上,则相关系数1r =-;C .若随机变量ξ服从二项分布: 15,5B ξ⎛⎫~ ⎪⎝⎭, 则()1E ξ=; D .am bm >是a b >的充分不必要条件;6.已知某种商品的广告费支出x (单位:万元)与销售额y (单位:万元)之间有如下对应数据:x 2 4 5 6 8 y3040506070根据上表可得回归方程y bx a =+,计算得7b =,则当投入10万元广告费时,销售额的预报值为 A .75万元 B .85万元 C .99万元D .105万元7.下列说法中,不正确的是A .两个变量的任何一组观测值都能得到线性回归方程B .在平面直角坐标系中,用描点的方法得到表示两个变量的关系的图象叫做散点图C .线性回归方程反映了两个变量所具备的线性相关关系D .线性相关关系可分为正相关和负相关8.为考察数学成绩与物理成绩的关系,在高二随机抽取了300名学生,得到下面的列联表:数学85~100分 数学85分以下 总计 物理85~100分 37 85 122 物理85分以下 35 143 178 总计72228300现判断数学成绩与物理成绩有关系,则犯错误的概率不超过 ( ) A .0.005 B .0.01C .0.02D .0.059.在调查中发现480名男人中有38名患有色盲,520名女人中有6名患有色盲.下列说法正确的是( )A .男、女人患色盲的频率分别为0.038,0.006B .男、女人患色盲的概率分别为,C .男人中患色盲的比例比女人中患色盲的比例大,患色盲与性别是有关的D .调查人数太少,不能说明色盲与性别有关10.已知,x y 的取值如下表:( )x0 1, 2 3 4 y11.33.25.68.9若依据表中数据所画的散点图中,所有样本点()(,)1,2,3,4,5i i x y i =都在曲线212y x a =+附近波动,则a =( ) A .1B .12C .13D .12-11.已知变量x ,y 的一组观测数据如表所示: x 3 4 5 6 7 y4.02.5-0.50.5-2.0据此得到的回归方程为y bx a =+,若a =7.9,则x 每增加1个单位,y 的预测值就( ) A .增加1.4个单位 B .减少1.2个单位C .增加1.2个单位D .减少1.4个单位12.下列说法:①分类变量A 与B 的随机变量2K 越大,说明“A 与B 有关系”的可信度越大.②以模型kx y ce =去拟合一组数据时,为了求出回归方程,设ln z y =,将其变换后得到线性方程0.34z x =+,则,c k 的值分别是4e 和0.3.③根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为y a bx =+中,2,1,3b x y ===,则1a =.④如果两个变量x 与y 之间不存在着线性关系,那么根据它们的一组数据()(,1,2,,)i i x y i n =不能写出一个线性方程正确的个数是( )A .1B .2C .3D .4二、填空题13.x ,y 的取值如下表: x-2-1.5-1-0.50.51y 0.26 0.35 0.51 0.71 1.1 1.41 2.05则x ,y 之间的关系可选用函数___进行拟合.14.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程=3-5x ,变量x 增加一个单位时,y 平均增加5个单位;③线性回归方程=x +必过(,);④曲线上的点与该点的坐标之间具有相关关系;⑤在一个2×2列联表中,由计算得K 2=13.079,则其两个变量之间有关系的可能性是90%.其中错误的个数是________. 15.教材上一例问题如下:一只红铃虫的产卵数y 和温度x 有关,现收集了7组观测数据如下表,试建立y 与x 之间的回归方程. 温度 x /℃ 21 23 25 27 29 32 35 产卵数y /个711212466115325某同学利用图形计算器研究它时,先作出散点图(如图所示),发现两个变量不呈线性相关关系. 根据已有的函数知识,发现样本点分布在某一条指数型曲线21c xy c e =的附近(1c 和2c 是待定的参数),于是进行了如下的计算:根据以上计算结果,可以得到红铃虫的产卵数y 对温度x 的回归方程为__________.(精确到0.0001) (提示:21c xy c e =利用代换可转化为线性关系) 16.给出下列命题:①线性相关系数r 越大,两个变量的线性相关性越强;反之,线性相关性越弱;②由变量x 和y 的数据得到其回归直线方程:l ˆybx a =+,则l 一定经过点(),x y P ; ③从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;④在回归分析模型中,残差平方和越小,说明模型的拟合效果越好;⑤在回归直线方程0.110ˆyx =+中,当解释变量x 每增加一个单位时,预报变量ˆy 增加0.1个单位,其中真命题的序号是___________.17.以下四个命题中:①从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量的线性相关性越强,相关系数的绝对值越接近于1; ③某项测量结果服从正太态布,则; ④对于两个分类变量和的随机变量的观测值来说,越小,判断“与有关系”的把握程度越大.以上命题中其中真命题的个数为___________.18.在吸烟与患肺病这两个分类变量的计算中,“若2x 的观测值为6.635,我们有99%的把握认为吸烟与患肺病有关系”这句话的意思: ①是指“在100个吸烟的人中,必有99个人患肺病 ②是指“有1%的可能性认为推理出现错误”; ③是指“某人吸烟,那么他有99%的可能性患有肺病”; ④是指“某人吸烟,如果他患有肺病,那么99%是因为吸烟”. 其中正确的解释是______.19.一个三位自然数百位,十位,个位上的数字依次为a ,b ,c ,当且仅当有两个数字的和等于第三个数字时称为“有缘数”(如213,134等),若{},,1234a b c ∈,,,,且a ,b ,c 互不相同,则这个三位数为”有缘数”的概率是__________. 20.下列说法:①线性回归方程y bx a =+必过(),x y ;②命题“21,34x x ∀≥+≥”的否定是“21,34x x ∃<+<” ③相关系数r 越小,表明两个变量相关性越弱;④在一个22⨯列联表中,由计算得28.079K =,则有99%的把握认为这两个变量间有关系;其中正确..的说法是__________.(把你认为正确的结论都写在横线上) 本题可参考独立性检验临界值表:三、解答题21.今年疫情期间,许多老师进行抖音直播上课某校团委为了解学生喜欢抖音上课是否与性别有关,从高三年级中随机抽取30名学生进行了问卷调查,得到如下列联表:男生 女生 合计 喜欢抖音上课 10不喜欢抖音上课8合计 30已知在这30人中随机抽取1人抽到喜欢抖音上课的学生的概率是815. (1)请将上面的列联表补充完整,并据此资料分析能否有95%的把握认为喜欢抖音上课与性别有关?(2)若从这30人中的女生中随机抽取2人,记喜欢抖音上课的人数为X ,求X 的分布列、数学期望. 附临界值表:()20P K k ≥0.10 0.05 0.010 0.005 0k2.7063.8416.637.879参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.22.某校从高三年级的男女生中各随机抽取了100人的体育测试成绩(以下称体测成绩,单位:分),数据都落在[)60100,内,其统计数据如表所示(其中不低于80分的学生为优秀).(1)请根据如表数据完成22⨯列联表,并通过计算判断,是否有95%的把握认为体测成绩与性别有关?(2)视频率为概率,在全校的高三学生中任取3人,记取出的3人中优秀的人数为X ,求X 的分布列和数学期望.附:()()()()()22n ad bc K a b c d a c b d -=++++,n a b c d =+++23.支付宝和微信支付是目前市场占有率较高的支付方式,某第三方调研机构对使用这两种支付方式的人数作了对比,从全国随机抽取了100个地区作为研究样本,计算了各个地区样本的使用人数,其频率分布直方图如下,(1)记A表示事件“微信支付人数低于50千人”,估计A的概率;(2)填写下面2╳2列联表,并根据2╳2列联表判断是否有99%的把握认为支付人数与支付方式有关;支付人数<50千支付人数≥50千人总计人微信支付 支付宝支付 总计附:2()P K k ≥0.050 0.010 0.001 k3.8416.63510.828()()()()()22n ad bc K a b c d a c b d -=++++.24.2020突如其来的疫情让我们经历了最漫长、最特殊的一个假期,教育行政部门部署了“停课不停学”的行动,全力帮助学生在线学习.复课后某校进行了摸底考试,某数学教师为了调查高二学生这次摸底考试的数学成绩与每天在线学习数学的时长之间的相关关系,对在校高二学生随机抽取45名进行调查,了解到其中有25人每天在线学习数学的时长不超过1小时,并得到如下的等高条形图:(1)根据等高条形图填写下面22⨯列联表,并根据列联表判断能否在犯错误的概率不超过0.05的前提下认为“高二学生的这次摸底考试数学成绩与其每天在线学习数学的时长有关”;数学成绩不超过120分 数学成绩超过120分 总计 每天在线学习数学不超过1小时 25每天在线学习数学超过1小时总计45(2)从被抽查的,且这次数学成绩超过120分的学生中,再随机抽取3人,求抽取的3人中每天在线学习数学的时长超过1小时的人数ξ的分布列与数学期望. 附临界值表()20P K k ≥0.050 0.010 0.001 0k3.8416.63510.828参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.25.某单位组织开展“学习强国”的学习活动,活动第一周甲、乙两个部门员工的学习情况统计如下:学习活跃的员工人数 学习不活跃的员工人数甲 18 12 乙328(1)根据表中数据判断能否有95%的把握认为员工学习是否活跃与部门有关; (2)活动第二周,单位为检查学习情况,从乙部门随机抽取2人,发现这两人学习都不活跃,能否认为乙部门第二周学习的活跃率比第一周降低了?说明理由.参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:2(0.1) 2.706P K ≥=,2(0.05) 3.841P K ≥=,2(0.01) 6.635P K ≥=. 26.根据国家统计局数据,1999年至2019年我国进出口贸易总额从3万亿元跃升至31.6万亿元,中国在国际市场上的贸易份额越来越大对外贸易在国民经济中的作用日益突出.将年份1999,2004,2009,2014,2019分别用1,2,3,4,5代替,并表示为t ,y 表示全国进出口贸易总额.(1)根据以上统计数据及图表,给出了下列两个方案,请解决方案1中的问题. 方案1:用y bt a =+作为全国进出口贸易总额y 关于t 的回归方程,根据以下参考数据,求出y 关于t 的回归方程,并求相关指数21R .方案2:用dt y ce =作为全国进出口贸易总额y 关于t 的回归方程,求得回归方程0.57212.3259x y e =,相关指数22R .(2)通过对比(1)中两个方案的相关指数,你认为哪个方案中的回归方程更合适,并利用此回归方程预测2020年全国进出口贸易总额. 参考数据:①0.140.340.66 1.86 2.048.192++++=②222220.140.34 1.86 2.04 2.1412.336++++=③8.1920.0147555.792≈④12.3360.0222555.792≈参考公式:线性回归方程中的斜率和截距的最小二乘法估计公式分别为:()()()121nii i nii xx y yb xx==--=-∑∑,a y bx =-,相关指数()()221211ni ii n ii y y R yy==-=--∑∑.【参考答案】***试卷处理标记,请不要删除一、选择题 1.D 解析:D 【解析】 【分析】 根据公式()()()()()22n ad bc K a b c d a c b d -=++++,分别利用4个选项中所给数据求出2K 的值,比较所求值的大小即可得结果. 【详解】选项A :22160(535155)3204010502K ⨯⨯-⨯==⨯⨯⨯,选项B :22260(5251515)152040204016K ⨯⨯-⨯==⨯⨯⨯,选项C :22360(5201520)24204025357K ⨯⨯-⨯==⨯⨯⨯,选项D :22460(5101530)96204035257K ⨯⨯-⨯==⨯⨯⨯,可得222431K K K >>22K >,所以由选项D 中的数据得到的2K 值最大,说明X 与Y 有关系的可能性最大,故选D . 【点睛】本题主考查独立性检验的基本性质,意在考查对基本概念的理解与应用,属于基础题.解答独立性检验问题时,要注意应用2 K 越大两个变量有关的可能性越大这一性质.2.D解析:D 【解析】 【分析】先根据()()1,0,2,2求得直线y b x a ='+'的方程.然后计算出回归直线方程y bx a =+,由此比较大小,得出正确的结论. 【详解】由于直线y b x a ='+'过()()1,0,2,2,将两点坐标代入直线方程得022b a b a +=⎧⎨+=''''⎩,解得2,2b a ''==-.124534x +++==,02352.54y +++==,1122334414122542x y x y x y x y +++=+++=.2222123414162546x x x x +++=+++=,故24243 2.54230121.24643463610b -⨯⨯-====-⨯-, 2.5 1.23 2.5 3.6 1.1a =-⨯=-=-.所以,a a b b >'<',故选D.【点睛】本小题主要考查利用直线上的两点坐标求直线方程的方法,考查回归直线方程的计算,属于中档题.3.B解析:B 【分析】根据所给的观测值,同临界值表中的临界值进行比较,根据P (K 2>3.841)=0.05,得到我们有1-0.05=95%的把握认为A 与B 有关系. 【详解】 依据下表:2 6.635K > , 2 6.6350.01P K =(>)∴我们在错误的概率不超过0.01的前提下有99%的把握认为A 与B 有关系, 故选B . 【点睛】本题考查独立性检验的应用,本题解题的关键是正确理解临界值对应的概率的意义,本题不用运算只要理解概率的意义即可.4.D解析:D 【分析】根据相关指数定义、残差平方和含义可得①为真,根据回归直线方程特征可得②为真,根据残差点含义可得③为真,根据卡方含义可得④为真. 【详解】相关指数R 2越大,则残差平方和越小,模型的拟合效果越好;回归直线方程:ˆy bx a =+,一定过点() ,x y ;若残差点比较均匀地落在水平的带状区域中,则选用的模型比较合适; 在独立性检验中,若公式()()()()()22n ad bc K a b c d a c b d -=++++,中的|ad-bc|的值越大,则2K 越大, “两个分类变量有关系”的可能性越强.选D. 【点睛】相关指数R 2越大,残差平方和越小,残差点比较均匀地落在水平的带状区域,则模型的拟合效果越好;在独立性检验中,若2 K 越大,则两个变量有关系越强;回归直线方程:ˆy bx a =+,一定过点() ,x y .5.D解析:D 【解析】分析:根据正态分布的对称性求出()1P ξ≤-的值,判断A 正确; 根据线性相关关系与相关系数的定义,判断B 正确; 根据二项分布的均值计算公式求出()E ξ的值,判断C 正确; 判断充分性和必要性是否成立,得出D 错误.详解:对于A ,随机变量ξ服从正态分布()21,N σ,∴曲线关于1ξ=对称,131310.720.28PP P ξξξ∴≤-=≥=-≤=-=()()(),A 正确;对于B ,若n 组数据()()()1122,,,,...,,n n x y x y x y 的散点都在1y x =-+上, 则x y ,成负相关,且相关关系最强,此时相关系数1r =-,B 正确;对于C ,若随机变量ξ服从二项分布: 15,5B ξ⎛⎫~ ⎪⎝⎭,则1515E(),ξ=⨯= C 正确;对于D ,am >bm 时,a >b 不一定成立,即充分性不成立,a b am bm >时,> 不一定成立,即必要性不成立,是既不充分也不必要条件,D 错误. 故选:D .点睛:本题考查了命题真假的判断问题,是综合题.6.B解析:B 【解析】分析:根据表中数据求得样本中心(,)x y ,代入回归方程ˆ7ˆyx a =+后求得ˆa ,然后再求当10x =的函数值即可. 详解:由题意得11(24568)5,(3040506070)5055x y =++++==++++=, ∴样本中心为(5,50).∵回归直线ˆ7ˆyx a =+过样本中心(5,50), ∴ˆ5075a=⨯+,解得ˆ15a =, ∴回归直线方程为ˆ715yx =+. 当10x =时,710158ˆ5y=⨯+=, 故当投入10万元广告费时,销售额的预报值为85万元. 故选B .点睛:本题考查回归直线过样本中心这一结论和平均数的计算,考查学生的运算能力,属容易题.7.A解析:A 【解析】要得到线性回归方程应至少有两个变量的两组观测值,因此A 不正确.根据散点图、线性回归方程、线性相关关系的概念可得B ,C ,D 都正确.故选A .8.D解析:D 【解析】因为K 2的观测值k=2300(371433585)12217872228⨯-⨯⨯⨯⨯≈4.514>3.841, 所以在犯错误的概率不超过0.05的前提下认为数学成绩与物理成绩有关系. 选D.9.C解析:C 【解析】男人中患色盲的比例为,要比女人中患色盲的比例大,其差值为,差值较大,所以认为患色盲与性别是有关的.考点:独立性检验.10.A解析:A 【解析】 设2t x = ,则11(014916)6,(1 1.3 3.2 5.68.9)455t y =++++==++++=,所以点(6,4)在直线12y t a =+上,求出1a =,选A. 点睛:本题主要考查了散点图,属于基础题.样本点的中心(),x y 一定在直线回归直线上,本题关键是将原曲线变形为12y t a =+,将点(6,4)代入,求出值. 11.D解析:D 【解析】由表格得 5x =, 0.9y =,∵回归直线方程为7ˆ9ˆ.y bx=+,过样本中心, ∴57.90.9b +=,即75b =-,则方程为77.95ˆyx =-+,则x 每增加1个单位,y 的预测值就减少1.4个单位,故选D.12.C解析:C 【解析】①分类变量A 与B 的随机变量2K 越大,说明“A 与B 有关系”的可信度越大,正确; ②∵kx y ce =,∴两边取对数,可得lny ln =(kx ce )kx lnc lnce lnc kx =+=+, 令z lny =,可得z lnc kx =+, ∵0.34z x =+, ∴40.3lnc k ==, ∴4c e =.即②正确;③根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为y =a +bx 中,2,1,3b x y ===,则a =1,正确。

高中数学第九章统计经典大题例题(带答案)

高中数学第九章统计经典大题例题(带答案)

高中数学第九章统计经典大题例题单选题1、为保障食品安全,某监管部门对辖区内一家食品企业进行检查,现从其生产的某种产品中随机抽取100件作为样本,并以产品的一项关键质量指标值为检测依据,整理得到如下的样本频率分布直方图.若质量指标值在[25,35)内的产品为一等品,则该企业生产的产品为一等品的概率约为()A.0.38B.0.61C.0.122D.0.75答案:B×组距,即可得解.分析:利用频率=频率组距根据频率分布直方图可知,质量指标值在[25,35)内的概率P=(0.080+0.042)×5=0.122×5=0.61故选:B2、为了更好地支持“中小型企业”的发展,某市决定对部分企业的税收进行适当的减免,某机构调查了当地的中小型企业年收入情况,并根据所得数据画出了样本的频率分布直方图,下面三个结论:①样本数据落在区间[300,500)的频率为0.45;②如果规定年收入在500万元以内的企业才能享受减免税政策,估计有55%的当地中小型企业能享受到减免③样本的中位数为480万元.其中正确结论的个数为A.0B.1C.2D.3答案:D解析:根据直方图求出a=0.0025,求出[300,500)的频率,可判断①;求出[200,500)的频率,可判断②;根据中位数是从左到右频率为0.5的分界点,先确定在哪个区间,再求出占该区间的比例,求出中位数,判断③.由(0.001+0.0015+0,002+0.0005+2a)×100=1,a=0.0025,[300,500)的频率为(0.002+0.0025)×100=0.45,①正确;[200,500)的频率为(0.0015+0.002+0.0025)×100=0.55,②正确;[200,400)的频率为0.3,[200,500)的频率为0.55,,中位数在[400,500)且占该组的45×100=480,③正确.故中位数为400+0.5−0.30.25故选:D.小提示:本题考查补全直方图,由直方图求频率和平均数,属于基础题3、某地区对当地3000户家庭的当年所得年收入情况调查统计,年收入(单位:万元)的频率分布直方图如图所示,数据的分组依次为[2,4),[4,6),[6,8),[8,10],则年收入不超过6万元的家庭有( )A.900户B.600户C.300户D.150户分析:根据频率分布直方图求出[2,4)和[4,6)这两组的频率之和,用这个频率之和乘以样本总量3000即可的答案.由图可知,[2,4)和[4,6)这两组的频率之和为(0.05+0.1)×2=0.3,年收入不超过6万元的家庭有3000×0.3=900户.故选:A.4、新莽铜嘉量是由王莽国师刘歆等人设计制造的标准量器,它包括了龠(yuè)、合、升、斗、斛这五个容量单位.每一个量又有详细的分铭,记录了各器的径、深、底面积和容积.现根据铭文计算,当时制造容器时所用的圆周率分别为3.1547,3.1992,3.1498,3.2031,比《周髀算经》的“径一而周三”前进了一大步,则上面4个数据与祖冲之给出的约率(227≈3.1429)、密率(355113≈3.1416)这6个数据的中位数与极差分别为()A.3.1429,0.0615B.3.1523,0.0615C.3.1498,0.0484D.3.1547,0.0484答案:B分析:先对这6个数由小到大(或由大到小)排列,然后利用中位数和极差的定义求解即可所给6个数据由小到大排列依次为3.1416,3.1429,3.1498,3.1547,3.1992,3.2031,所以这6个数据的中位数为(3.1498+3.1547)÷2≈3.1523,极差为3.2031−3.1416=0.0615,故选:B.5、下表是某校校级联欢晚会比赛中12个班级的得分情况,则得分的30百分位数是()答案:D分析:根据百分位数的定义求解即可.12×30%=3.6,把12个班级的得分按照从小到大排序为7,7,8,9,9,10,10,10,11,13,13,14,可得30百分位数是第4个得分数,即9.故选:D6、某调查机构对全国互联网行业进行调查统计,得到整个互联网行业从业者年龄分布饼状图,90后从事互联网行业岗位分布条形图,则下列结论错误的是()注:90后指1990年及以后出生,80后指1980−1989年之间出生,80前指1979年及以前出生.A.互联网行业从业人员中从事技术和运营岗位的人数占总人数的三成以上B.互联网行业中从事技术岗位的人数超过总人数的20%C.互联网行业中从事运营岗位的人数90后一定比80前多D.互联网行业中从事技术岗位的人数90后一定比80后多答案:D解析:根据整个互联网行业从业者年龄分布饼状图、90后从事互联网行业岗位分布条形图,对四个选项逐一分析,即可得出正确选项.对于选项A,因为互联网行业从业人员中,“90后”占比为56%,其中从事技术和运营岗位的人数占的比分别为39.6%和17%,则“90后”从事技术和运营岗位的人数占总人数的56%×(39.6%+17%)≈31.7%.“80前”和“80后”中必然也有从事技术和运营岗位的人,则总的占比一定超过三成,故选项A正确;对于选项B,因为互联网行业从业人员中,“90后”占比为56%,其中从事技术岗位的人数占的比为39.6%,则“90后”从事技术岗位的人数占总人数的56%×39.6%≈22.2%.“80前”和“80后”中必然也有从事技术岗位的人,则总的占比一定超过20%,故选项B正确;对于选项C,“90后”从事运营岗位的人数占总人数的比为56%×17%≈9.5%,大于“80前”的总人数所占比3%,故选项C正确;选项D,“90后”从事技术岗位的人数占总人数的56%×39.6%≈22.2%,“80后”的总人数所占比为41%,条件中未给出从事技术岗位的占比,故不能判断,所以选项D错误.故选:D.小提示:关键点点睛:本题考查利用扇形统计图和条形统计图解决实际问题,解本题的关键就是利用条形统计图中“90后”事互联网行业岗位的占比乘以“90后”所占总人数的占比,再对各选项逐一分析即可.7、总体由编号01,02,…,29,30的30个个体组成.利用下面的随机数表选取6个个体,选取方法是从如下随机数表的第1行的第6列和第7列数字开始由左到右依次选取两个数字,则选出来的第6个个体的编号为()第1行78 16 62 32 08 02 62 42 62 52 53 69 97 28 01 98第2行32 04 92 34 49 35 82 00 36 23 48 69 69 38 74 81A.27B.26C.25D.19答案:D分析:根据随机数表法的步骤即可求得答案.由题意,取出的数有23,20,80(超出范围,故舍去),26,24,26(重复,故舍去),25,25(重复,故舍去),36(超出范围,故舍去),99(超出范围,故舍去),72(超出范围,故舍去),80(超出范围,故舍去),19.故选:D.8、某学校在校学生有2000人,为了增强学生的体质,学校举行了跑步和登山比赛,每人都参加且只参加其中一项比赛,高一、高二、高三年级参加跑步的人数分别为a,b,c,且a:b:c=2:5:3,全校参加登山的人数占总人数的1.为了了解学生对本次比赛的满意程度,按分层抽样的方法从中抽取一个容量为200的样本进4行调查,则应从高三年级参加跑步的学生中抽取()A.15人B.30人C.40人D.45人答案:D分析:由题知全校参加跑步的人数为2000×3=1500,再根据分层抽样的方法求解即可得答案.4=1500,解:由题意,可知全校参加跑步的人数为2000×34=450.所以a+b+c=1500.因为a:b:c=2:5:3,所以c=1500×32+5+3因为按分层抽样的方法从中抽取一个容量为200的样本,所以应从高三年级参加跑步的学生中抽取的人数为450×200=45.2000故选:D多选题9、最近几个月,新冠肺炎疫情又出现反复,各学校均加强了疫情防控要求,学生在进校时必须走测温通道,每天早中晚都要进行体温检测并将结果上报主管部门.某班级体温检测员对一周内甲乙两名同学的体温进行了统计,其结果如图所示,则下列结论正确的是()A.甲同学体温的极差为0.4℃B.乙同学体温的众数为36.4℃,中位数与平均数相等C.乙同学的体温比甲同学的体温稳定D.甲同学体温的第60百分位数为36.4℃答案:ABC分析:根据给定的折线图,逐一分析判断各个选项即可作答.观察折线图知,甲同学体温的极差为36.6−36.2=0.4℃,A正确;乙同学体温从小到大排成一列:36.3℃,36.3℃,36.4℃,36.4℃,36.4℃,36.5℃,36.5℃,(36.3×2+36.4×3+36.5×2)=46.4℃,B正乙同学体温的众数为36.4℃,中位数为36.4℃,平均数x=17确;乙同学的体温波动较甲同学的小,极差为0.2℃,也比甲同学的小,因此乙同学的体温比甲同学的体温稳定,C正确;将甲同学的体温从小到大排成一列:36.2℃,36.2℃,36.4℃,36.4℃,36.5℃,36.5℃,36.6℃,因7×60%=4.2,则甲同学体温的第60百分位数为36.5℃,D不正确.故选:ABC10、下表记录了某地区一年之内的月降水量是53mm和56mmC.该年份月降水量的25%分位数是52mmD.该年份月降水量的中位数是56mm答案:ACD分析:A. 利用极差的定义判断;B.利用众数的定义判断;C.利用百分位数的定义判断;D.利用中位数的定义判断.A. 该年份月降水量的极差是71-46=25mm,故正确;B.该年份月降水量的众数是56mm,故错误;C.该年份月降水量从小到大为46,48,51,53,53,56,56,56,56,58,64,66,71,12×25%=3,=52mm,故正确;所以年份月降水量的25%分位数是51+532D. 该年份月降水量从小到大为46,48,51,53,53,56,56,56,56,58,64,66,71,所以该年份月降水量的中位数是56+56=56mm,故正确;2故选:ACD11、某教育局对全区高一年级的学生身高进行抽样调查,随机抽取了200名学生,他们的身高都处在A,B,C,D,E五个层次内,根据抽样结果得到统计图表如下,则下列结论正确的是().A.男生人数为80人B.B层次男女生人数差值最大C.D层次男生人数多于女生人数D.E层次女生人数最少答案:ABD分析:根据条形图求出抽取女生人,得出抽取男生人,再对照图表判断选项中的命题是否正确即可.解:由条形图知,抽取女生学生有18+48+30+18+6=120(人),所以抽取男生有200−120=80(人),选项A正确;B层次的男生有80×(1−10%−15%−20%−25%)=24(人),A,B,C,D,E五个层次男生人数分别:8,24,20,16,12(人),与女生各层次差值分别为:10,24,10,2,6,选项B正确;D层次的男生有12(人),女生有18人,男生人数少于女生,选项C错误;E层次的女生人数最少,选项D正确.故选:ABD.12、某保险公司为客户定制了5个险种:甲,一年期短险;乙,两全保险;丙,理财类保险;丁,定期寿险:戊,重大疾病保险,各种保险按相关约定进行参保与理赔.该保险公司对5个险种参保客户进行抽样调查,得出如下的统计图例:用该样本估计总体,以下四个选项正确的是()A.54周岁以上参保人数最少B.18~29周岁人群参保总费用最少C.丁险种更受参保人青睐D.30周岁以上的人群约占参保人群20%答案:AC分析:根据选项逐一对相应的统计图进行分析判断即可.解:对A:由扇形图可知,54周岁以上参保人数最少,故选项A正确;对B:由折线图可知,18~29周岁人群人均参保费用最少,但是由扇形图知参保人数并不是最少的,所以参保总费用不是最少,故选项B错误;对C:由柱状图可知,丁险种参保比例最高,故选项C正确;对D:由扇形图可知,30周岁以上的人群约占参保人群80%,故选项D错误.故选:AC.13、睡眠很重要,教育部《关于进一步加强中小学生睡眠管理工作的通知》中强调“小学生每天睡眠时间应达到10小时,初中生应达到9小时,高中生应达到8小时”.某机构调查了1万个学生时间利用信息得出下图,则以下判断正确的有()A .高三年级学生平均学习时间最长B .中小学生的平均睡眠时间都没有达到《通知》中的标准,其中高中生平均睡眠时间最接近标准C .大多数年龄段学生平均睡眠时间长于学习时间D .与高中生相比,大学生平均学习时间大幅下降,释放出的时间基本是在睡眠答案:BC分析:根据图象提供数据对选项进行分析,从而确定正确答案.根据图象可知,高三年级学生平均学习时间没有高二年级学生平均学习时间长,A 选项错误.根据图象可知,中小学生平均睡眠时间都没有达到《通知》中的标准,高中生平均睡眠时间最接近标准,B 选项正确.学习时间大于睡眠时间的有:初二、初三、高一、高二、高三,占比516.睡眠时间长于学习时间的占比1116,C 选项正确.从高三到大学一年级,学习时间减少9.65−5.71=3.94,睡眠时间增加8.52−7.9=0.62,所以D 选项错误. 故选:BC填空题14、已知一组样本数据5、2、3、6,则该组数据的第70百分位数为__________.答案:5分析:首先计算指数,再由百分位数的定义可得答案.解:这组样本数据5、2、3、6,从小到大排列为2、3、5、6,又4×70%=2.8,则该组数据的第70百分位数为第3个数5,所以答案是:5.15、若样本数据x1,x2,⋅⋅⋅,x8的标准差为1,则数据2x1−1,2x2−1,⋅⋅⋅,2x8−1的标准差为_______.答案:2解析:若一组数据x1,x2,x3,⋯,x n的方差为s2,则数据ax1+b,ax2+b,ax3+b,⋯,ax n+b的方差为a2s2.若样本数据x1,x2,⋅⋅⋅,x8的标准差为1,则其方差也为1,所以数据2x1−1,2x2−1,⋅⋅⋅,2x8−1的方差为4,标准差为2.所以答案是:2.16、某车间生产A,B,C三种不同型号的产品,产量之比分别为5:k:3,为检验产品的质量,现用分层抽样的方法抽取一个容量为120的样本进行检验,已知B种型号的产品共抽取了24件,则C种型号的产品抽取的件数为_________.答案:36分析:根据题意可得24120=k5+k+3,解方程求出k的值,再根据C种型号的产品所占的比例,求出C种型号的产品应抽取的数量.由题意,得24120=k5+k+3,所以k=2,所以C种型号的产品抽取的件数为120×35+2+3=36.所以答案是:36.解答题17、在①55%分位数,②众数这两个条件中任选一个,补充在下面问题中的横线上,并解答问题.维生素C又叫L-抗坏血酸,是一种水溶性维生素,是高等灵长类动物与其他少数生物的必需营养素.现从猕猴桃、柚子两种食物中测得每100克维生素C的含量(单位:mg)各10个数据如下,其中猕猴桃的一个数据x被污损.猕猴桃:104,119,106,102,132,107,113,134,116,x;柚子:121,113,109,122,114,116,132,121,131,117.已知x等于柚子的10个数据中的___________.(1)求x的值与猕猴桃的数据的中位数;(2)分别计算上述猕猴桃、柚子两种食物中测得每100克维生素C含量的平均数.答案:(1)121,中位数为114.5(2)115.4mg,119.6mg分析:(1)先将柚子从小到大排序,若选①,利用55%分位数的定义得到x=121,若选②,利用众数的定义进行也得到x=121,接着代入猕猴桃里面,从小到大排序算出中位数;(2)利用平均数的定义进行计算(1)柚子的10个数据按照从小到大的顺序排列为:109,113,114,116,117,121,121,122,131,132.选①,因为10×55%=5.5,所以柚子10个数据的55%分位数为第6个数,即121,所以x=121.猕猴桃的10个数据按照从小到大的顺序排列为:102,104,106,107,113,116,119,121,132,134,则(113+116)=114.5.中位数为12选②,因为柚子的10个数据的众数为121,所以x=121.猕猴桃的10个数据按照从小到大的顺序排列为:102,104,106,107,113,116,119,121,132,134,则(113+116)=114.5.中位数为12(2)×(102+104+106+107+113+116+119+121+由(1)得每100克猕猴桃维生素C含量的平均数为110132+134)=115.4mg×(109+113+114+116+117+121+121+122+131+每100克柚子维生素C含量的平均数为110132)=119.6mg18、从某校高一年级新生中随机抽取一个容量为20的身高样本,数据如下(单位:cm,数据间无大小顺序要求):152,155,158,164,164,165,165,165,166,167,168,168,169,170,170,170,171,x,174,175.(1)若x为这组数据的一个众数,求x的取值集合;(2)若样本数据的第90百分位数是173,求x的值;(3)若x=174,试估计该校高一年级新生的平均身高.答案:(1){164,165,168,170}(2)172(3)166.5(cm)分析:(1)首先排列19个数据,根据众数的定义,即可确定x的取值集合;(2)首先确定第90百分位数是第18项和第19项数据的平均数,再讨论x的取值,根据百分位数,列式求值;(3)根据平均数公式,列式求值.(1)其余十九个数据152,155,158,164,164,165,165,165,166,167,168,168,169,170,170,170,171,174,175中,数据出现的频数为3的数有165,170,出现频数为2的数据有164,168.因为x为这组数据的一个众数,所以x的取值集合为{164,165,168,170}.(2)因为20×90%=18,所以90百分位数是第18项和第19项数据的平均数,若x⩽171,则90百分位数为1(171+174)=17,矛盾.2(x+174)=173,所以x=172.若171<x<175,即12(174+175)=174.5,矛盾.若x⩾175,则90百分位数为12综上,x的值为172.(3)依题意可得152+155+158+164+164+165+165+165+166+167+168+168+169+170+170+170+171+174+174+175=3330所以平均数为3330÷20=166.5(cm),估计该校高一年级学生的平均身高.。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

高中数学:统计与统计案例练习A组一、选择题1.某校为了解学生平均每周的上网时间(单位:h),从高一年级1 000名学生中随机抽取100名进行了调查,将所得数据整理后,画出频率分布直方图(如图),其中频率分布直方图从左到右前3个小矩形的面积之比为1∶3∶5,据此估计该校高一年级学生中平均每周上网时间少于4 h的学生人数为()A.200 B.240C.400 D.480解析:选C设频率分布直方图中从左到右前3个小矩形的面积分别为P,3P,5P.由频率分布直方图可知,最后2个小矩形的面积之和为(0.015+0.035)×2=0.1.因为频率分布直方图中各个小矩形的面积之和为1,所以P+3P+5P=0.9,即P=0.1.所以平均每周上网时间少于4 h的学生所占比例为P+3P=0.4,由此估计学生人数为0.4×1 000=400.2.AQI(Air Quality Index,空气质量指数)是报告每日空气质量的参数,描述了空气清洁或污染的程度.AQI共分六级,一级优(0~50),二级良(51~100),三级轻度污染(101~150),四级中度污染(151~200),五级重度污染(201~300),六级严重污染(大于300).如图是昆明市2019年4月份随机抽取的10天的AQI茎叶图,利用该样本估计昆明市2020年4月份空气质量优的天数为()A.3 B.4C.12 D.21解析:选C从茎叶图知,10天中有4天空气质量为优,所以空气质量为优的频率为410=25,所以估计昆明市2020年4月份空气质量为优的天数为30×25=12,故选C.3.(成都模拟)某城市收集并整理了该市2018年1月份至10月份各月最低气温与最高气温(单位:℃)的数据,绘制了下面的折线图.已知该城市各月的最低气温与最高气温具有较好的线性关系,则根据折线图,下列结论错误的是()A.最低气温与最高气温为正相关B.10月的最高气温不低于5月的最高气温C.月温差(最高气温减最低气温)的最大值出现在1月D.最低气温低于0 ℃的月份有4个解析:选D在A中,最低气温与最高气温为正相关,故A正确;在B中,10月的最高气温不低于5月的最高气温,故B正确;在C中,月温差(最高气温减最低气温)的最大值出现在1月,故C正确;在D中,最低气温低于0 ℃的月份有3个,故D错误.故选D.4.(承德模拟)为了解户籍、性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取了容量为100的样本,其中城镇户籍与农村户籍各50人;男性60人,女性40人,绘制不同群体中倾向选择生育二胎与倾向选择不生育二胎的人数比例图(如图所示),其中阴影部分表示倾向选择生育二胎的对应比例,则下列叙述中错误的是()A.是否倾向选择生育二胎与户籍有关B.是否倾向选择生育二胎与性别无关C.倾向选择生育二胎的人员中,男性人数与女性人数相同D.倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数解析:选C由题图,可得是否倾向选择生育二胎与户籍有关、与性别无关;倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数;倾向选择生育二胎的人员中,男性人数为60×60%=36,女性人数为40×60%=24,不相同.故选C.5.(石家庄模拟)某学校A,B两个班的兴趣小组在一次对抗赛中的成绩如茎叶图所示,通过茎叶图比较两个班兴趣小组成绩的平均值及标准差.①A班兴趣小组的平均成绩高于B班兴趣小组的平均成绩;②B班兴趣小组的平均成绩高于A班兴趣小组的平均成绩;③A班兴趣小组成绩的标准差大于B班兴趣小组成绩的标准差;④B班兴趣小组成绩的标准差大于A班兴趣小组成绩的标准差.其中正确结论的编号为()A.①④B.②③C.②④D.①③解析:选A A班兴趣小组的平均成绩为53+62+64+…+92+9515=78,其方差为115×[(53-78)2+(62-78)2+…+(95-78)2]=121.6, 则其标准差为121.6≈11.03;B班兴趣小组的平均成绩为45+48+51+…+9115=66,其方差为115×[(45-66)2+(48-66)2+…+(91-66)2]=169.2,则其标准差为169.2≈13.01.故选A.6.某商场对某一商品搞活动,已知该商品每一个的进价为3元,销售价为8元,每天售出的第20个及之后的半价出售.该商场统计了近10天这种商品的销量,如图所示,设x(个)为每天商品的销量,y(元)为该商场每天销售这种商品的利润.从日利润不少于96元的几天里任选2天,则选出的这2天日利润都是97元的概率为()A.19B.110C.15D.18解析:选B 由题意知y =⎩⎨⎧5x ,x =18,19,95+(x -19)(4-3),x =20,21, 即y =⎩⎨⎧5x ,x =18,19,76+x ,x =20,21.当日销量不少于20个时,日利润不少于96元, 当日销量为20个时,日利润为96元, 当日销量为21个时,日利润为97元,日利润为96元的有3天,记为a ,b ,c ,日利润为97元的有2天,记为A ,B ,从中任选2天有(a ,A ),(a ,B ),(a ,b ),(a ,c ),(b ,A ),(b ,B ),(b ,c ),(c ,A ),(c ,B ),(A ,B ),共10种情况.其中选出的这2天日利润都是97元的有(A ,B )1种情况. 故所求概率为110.故选B. 二、填空题7.某小卖部销售某品牌饮料的零售价与销量间的关系统计如下:单价x /元 3.0 3.2 3.4 3.6 3.8 4.0 销量y /瓶504443403528已知x ,y 的关系符合回归方程y =b x +a ,其中b =-20.若该品牌饮料的进价为2元,为使利润最大,零售价应定为________元.解析:依题意得:x =3.5,y =40, 所以a^=40-(-20)×3.5=110, 所以回归直线方程为y ^=-20x +110,利润L=(x-2)(-20x+110)=-20x2+150x-220,所以x=15040=3.75元时,利润最大.答案:3.758.某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是________.解析:设所求的人数为n,由频率分布直方图,自习时间不少于22.5小时的频率为(0.04+0.08+0.16)×2.5=0.7,∴n=0.7×200=140.答案:1409.为比较甲乙两地某月11时的气温情况,随机选取该月5天11时的气温数据(单位:℃)制成如图所示的茎叶图,已知甲地该月11时的平均气温比乙地该月11时的平均气温高1 ℃,则甲地该月11时的平均气温的标准差为________.解析:甲地该月11时的气温数据(单位:℃)为28,29,30,30+m,32;乙地该月11时的气温数据(单位:℃)为26,28,29,31,31,则乙地该月11时的平均气温为(26+28+29+31+31)÷5=29(℃),所以甲地该月11时的平均气温为30 ℃,故(28+29+30+30+m+32)÷5=30,解得m=1,则甲地该月11时的平均气温的标准差为15×[(28-30)2+(29-30)2+(30-30)2+(31-30)2+(32-30)2]= 2.答案: 2三、解答题10.某篮球运动员的投篮命中率为50%,他想提高自己的投篮水平,制定了一个夏季训练计划,为了了解训练效果,执行训练前,他统计了10场比赛的得分,计算出得分的中位数为15,平均得分为15,得分的方差为46.3.执行训练后也统计了10场比赛的得分,茎叶图如图所示:(1)请计算该篮球运动员执行训练后统计的10场比赛得分的中位数、平均得分与方差;(2)如果仅从执行训练前后统计的各10场比赛得分数据分析,你认为训练计划对该运动员的投篮水平的提高是否有帮助?为什么?解:(1)训练后得分的中位数为14+152=14.5;平均得分为8+9+12+14+14+15+16+18+21+2310=15;方差为110×[(8-15)2+(9-15)2+(12-15)2+(14-15)2+(14-15)2+(15-15)2+(16-15)2+(18-15)2+(21-15)2+(23-15)2]=20.6.(2)尽管中位数训练后比训练前稍小,但平均得分一样,训练后方差20.6小于训练前方差46.3,说明训练后得分稳定性提高了(阐述观点合理即可),这是投篮水平提高的表现.故此训练计划对该篮球运动员的投篮水平的提高有帮助.11.(西安八校联考)在2018年俄罗斯世界杯期间,莫斯科的部分餐厅销售了来自中国的小龙虾,这些小龙虾均标有等级代码.为得到小龙虾等级代码数值x与销售单价y(单位:元)之间的关系,经统计得到如下数据:等级代码数值x384858687888销售单价y/元16.818.820.822.82425.8(1)(系数精确到0.1);(2)若莫斯科某餐厅销售的中国小龙虾的等级代码数值为98,请估计该等级的中国小龙虾销售单价为多少元?参考公式:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b^x +a ^的斜率和截距的最小二乘估计分别为b^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a^=y -b ^x . 参考数据:∑i =16x i y i =8 440,∑i =16x 2i =25 564.解:(1)由题意,得x =38+48+58+68+78+886=63,y =16.8+18.8+20.8+22.8+24+25.86=21.5,b ^=∑i =16x i y i -6x y∑i =16x 2i -6x 2=8 440-6×63×21.525 564-6×63×63≈0.2,a^=y -b ^x =21.5-0.2×63=8.9. 故所求线性回归方程为y ^=0.2x +8.9.(2)由(1)知,当x =98时,y =0.2×98+8.9=28.5. ∴估计该等级的中国小龙虾销售单价为28.5元.12.(长沙模拟)某职称晋级评定机构对参加某次专业技术考试的100人的成绩进行了统计,绘制的频率分布直方图如图所示.规定80分以上者晋级成功,否则晋级失败(满分为100分).(1)求图中a 的值;(2)估计该次考试的平均分x (同一组中的数据用该组的区间中点值代表);(3)根据已知条件完成下面2×2列联表,并判断能否有85%的把握认为“晋级成功”与性别有关.晋级成功晋级失败合计男16女50 合计参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+dP(K2≥k)0.400.250.150.100.050.025k 0.708 1.323 2.072 2.706 3.841 5.024 解:(1)0.040)×10=1,解得a=0.005.(2)由频率分布直方图知,各小组的中点值依次是55,65,75,85,95,对应的频率分别为0.05,0.30,0.40,0.20,0.05,则估计该次考试的平均分为x=55×0.05+65×0.30+75×0.40+85×0.20+95×0.05=74(分).(3)由频率分布直方图知,晋级成功的频率为0.20+0.05=0.25,故晋级成功的人数为100×0.25=25,填写2×2列联表如下:晋级成功晋级失败合计男163450女94150合计2575100K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=100×(16×41-34×9)225×75×50×50≈2.613>2.072,所以有85%的把握认为“晋级成功”与性别有关.B组1.为检查某工厂所生产的8万台电风扇的质量,抽查了其中20台的无故障连续使用时限(单位:小时)如下:248256232243188268278266289312274296288302295228287217329283(1)完成下面的频率分布表,并作出频率分布直方图;(2)估计8万台电风扇中有多少台无故障连续使用时限不低于280小时;(3)用组中值(同一组中的数据在该组区间的中点值)估计样本的平均无故障连续使用时限.解:(1)(2)由题意可得8×(0.30+0.10+0.05)=3.6,所以估计8万台电风扇中有3.6万台无故障连续使用时限不低于280小时.(3)由频率分布直方图可知x=190×0.05+210×0.05+230×0.10+250×0.15+270×0.20+290×0.30+310×0.10+330×0.05=269(小时),所以样本的平均无故障连续使用时限为269小时.2.海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50 kg箱产量≥50 kg旧养殖法新养殖法(3)附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解:(1)旧养殖法的箱产量低于50 kg 的频率为 (0.012+0.014+0.024+0.034+0.040)×5=0.62. 因此,事件A 的概率估计值为0.62.(2)根据箱产量的频率分布直方图得到联表:K 2=200×(62×66100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg 到55 kg 之间,旧养殖法的箱产量平均值(或中位数)在45 kg 到50 kg 之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.3.为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:=116∑i =116x 2i -16x 2≈0.212, ∑i =116(i -8.5)2≈18.439,∑i =116(x i -x )(i -8.5)=-2.78,其中x i 为抽取的第i 个零件的尺寸,i =1,2, (16)(1)求(x i ,i )(i =1,2,…,16)的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r |<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在(x -3s ,x +3s )之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.①从这一天抽检的结果看,是否需对当天的生产过程进行检查?②在(x -3s ,x +3s )之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(x i ,y i )(i =1,2,…,n )的相关系数r =∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2∑i =1n(y i -y )2.0.008≈0.09.解:(1)由样本数据得(x i ,i )(i =1,2,…,16)的相关系数为r =∑i =116(x i -x )(i -8.5)∑i =116(x i -x )2∑i =116(i -8.5)2=-2.780.212×16×18.439≈-0.18.由于|r |<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)①由于x =9.97,s ≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(x -3s ,x +3s )以外,因此需对当天的生产过程进行检查.②剔除离群值,即第13个数据,剩下数据的平均数为115×(16×9.97-9.22)=10.02, 这条生产线当天生产的零件尺寸的均值的估计值为10.02.∑i =116x 2i =16×0.2122+16×9.972≈1 591.134,剔除第13个数据,剩下数据的样本方差为115×(1 591.134-9.222-15×10.022)≈0.008, 这条生产线当天生产的零件尺寸的标准差的估计值为0.008≈0.09.4.(昆明模拟)“工资条里显红利,个税新政入民心”.随着2019年新年钟声的敲响,我国自1980年以来,力度最大的一次个人所得税(简称个税)改革迎来了全面实施的阶段.某IT 从业者为了解自己在个税新政下能享受多少税收红利,绘制了他在26~35岁(2009~2018年)之间各年的月平均收入y (单位:千元)的散点图:(1)由散点图知,可用回归模型y =b ln x +a 拟合y 与x 的关系,试根据有关数据建立y 关于x 的回归方程;(2)如果该IT 从业者在个税新政下的专项附加扣除为3 000元/月,试利用(1)的结果,将月平均收入视为月收入,根据新旧个税政策,估计他36岁时每个月少缴纳的个人所得税.附注:参考数据:∑i =110x i =55,∑i =110y i =155.5,∑i =110(x i -x )2=82.5,∑i =110(x i -x )(y i -y )=94.9,∑i =110t i =15.1,∑i =110(t i -t )2=4.84,∑i =110(t i -t )(y i -y )=24.2,其中t i =ln x i ;取ln 11=2.4,ln 36=3.6.参考公式:回归方程v =b^u +a ^中斜率和截距的最小二乘估计分别为b ^=∑i =1n(u i -u )(v i -v )∑i =1n(u i -u )2,a^=v -b ^u .新旧个税政策下每月应纳税所得额(含税)计算方法及税率表如下:b^=∑i=110(t i-t)(y i-y)∑i=110(t i-t)2=24.24.84=5,y=∑i=110y i10=155.510=15.55,t=∑i=110t i10=15.110=1.51,a^=y-b^t=15.55-5×1.51=8,所以y关于t的回归方程为y=5t+8.因为t=ln x,所以y关于x的回归方程为y=5ln x+8.(2)由(1)得,该IT从业者36岁时月平均收入为y=5ln 11+8=5×2.4+8=20(千元).旧个税政策下每个月应缴纳的个人所得税为1 500×3%+3 000×10%+4 500×20%+(20 000-3 500-9 000)×25%=3 120(元).新个税政策下每个月应缴纳的个人所得税为3 000×3%+(20 000-5 000-3 000-3 000)×10%=990(元).故根据新旧个税政策,该IT从业者36岁时每个月少缴纳的个人所得税为3 120-990=2 130(元).。

相关文档
最新文档