高考数学(理)专题突破限时集训:6统计与统计案例理(含解析)

合集下载

高考数学二轮复习专项二 专题六 2 第2讲 统计与统计案例 学案 Word版含解析

高考数学二轮复习专项二 专题六 2 第2讲 统计与统计案例 学案 Word版含解析

第2讲 统计与统计案例抽样方法(基础型)]系统抽样总体容量为N ,样本容量为n ,则要将总体均分成n 组,每组N n个(有零头时要先去掉).若第一组抽到编号为k 的个体,则以后各组中抽取的个体编号依次为k +N n,…,k +(n-1)n.分层抽样按比例抽样,计算的主要依据是:各层抽取的数量之比=总体中各层的数量之比.[考法全练]1.福利彩票“双色球”中红色球的号码可以从01,02,03,…,32,33这33个两位号码中选取,小明利用如下所示的随机数表选取红色球的6个号码,选取方法是从第1行第9列的数字开始,从左到右依次读取数据,则第四个被选中的红色球号码为( )C .06D .16解析:选C.被选中的红色球号码依次为17,12,33,06,32,22.所以第四个被选中的红色球号码为06,故选C.2.利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽出一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为( )A .73B .78C .77D .76解析:选B.样本的分段间隔为8016=5,所以13号在第三组,则最大的编号为13+(16-3)×5=78.故选B.3.某电视台在因特网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有20 000人,其中各种态度对应的人数如下表所示:为此要进行分层抽样,那么在分层抽样时,每类人中应抽选出的人数分别为( )A .25,25,25,25B .48,72,64,16C .20,40,30,10D .24,36,32,8解析:选D.法一:因为抽样比为10020 000=1200,所以每类人中应抽选出的人数分别为4 800×1200=24,7 200×1200=36,6 400×1200=32,1 600×1200=8.故选D.法二:最喜爱、喜爱、一般、不喜欢的比例为4 800∶7 200∶6 400∶1 600=6∶9∶8∶2,所以每类人中应抽选出的人数分别为66+9+8+2×100=24,96+9+8+2×100=36,86+9+8+2×100=32,26+9+8+2×100=8,故选D.“双图”“五数”估计总体(基础型)统计中的5个数据特征(1)众数:在样本数据中,出现次数最多的那个数据.(2)中位数:样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数.(3)平均数:样本数据的算术平均数,即x -=1n(x 1+x 2+…+x n ). (4)方差与标准差:s2=1n[(x1-x-)2+(x2-x-)2+…+(x n-x-x)2];s=1n[(x1-x-)2+(x2-x-)2+…+(x n-x-)2].从频率分布直方图中得出有关数据的技巧(1)频率:频率分布直方图中横轴表示组数,纵轴表示频率组距,频率=组距×频率组距.(2)频率比:频率分布直方图中各小长方形的面积之和为1,因为在频率分布直方图中组距是一个固定值,所以各小长方形高的比也就是频率比,从而根据已知的几组数据个数比求有关值.(3)众数:最高小长方形底边中点的横坐标.(4)中位数:平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标.(5)平均数:频率分布直方图中每个小长方形的面积乘小长方形底边中点的横坐标之和.(6)性质应用:若纵轴上存在参数值,则根据所有小长方形的高之和×组距=1,列方程即可求得参数值.[考法全练]1.某课外小组的同学们在社会实践活动中调查了20户家庭某月的用电量,如下表所示:则这20A.180,170 B.160,180C.160,170 D.180,160解析:选A.用电量为180度的家庭最多,有8户,故这20户家庭该月用电量的众数是180,排除B,C;将用电量按从小到大的顺序排列后,处于最中间位置的两个数是160,180,故这20户家庭该月用电量的中位数是170.故选A.2.(2018·贵阳模拟)在某中学举行的环保知识竞赛中,将三个年级参赛学生的成绩进行整理后分为5组,绘制如图所示的频率分布直方图,图中从左到右依次为第一、第二、第三、第四、第五小组,已知第二小组的频数是40,则成绩在80~100分的学生人数是( )A .15B .18C .20D .25解析:选A.根据频率分布直方图,得第二小组的频率是0.04×10=0.4,因为频数是40,所以样本容量是400.4=100,又成绩在80~100分的频率是(0.01+0.005)×10=0.15,所以成绩在80~100分的学生人数是100×0.15=15.故选A.3.(2018·武汉调研)某选手的7个得分去掉1个最高分,去掉1个最低分,剩余5个得分的平均数为91,如图,该选手的7个得分的茎叶图有一个数据模糊,无法辨认,在图中用x 表示,则剩余5个得分的方差为( )A.1169B.367 C .6D .30解析:选C.由茎叶图知,最低分为87分,最高分为99分.依题意得,15×(87+93+90+9×10+x +91)=91,解得x =4.则剩余5个得分的方差s 2=15×[(87-91)2+(93-91)2+(90-91)2+(94-91)2+(91-91)2]=15×(16+4+1+9)=6.故选C.4.“中国人均读书4.3本(包括网络文学和教科书),比韩国的11本、法国的20本、日本的40本、犹太人的64本少得多,是世界上人均读书最少的国家.”这个论断被各种媒体反复引用.出现这样的统计结果无疑是令人尴尬的.某小区为了提高小区内人员的读书兴趣,准备举办读书活动,并进一定量的书籍丰富小区图书站.由于不同年龄段的人看不同类型的书籍,为了合理配备资源,现对小区内看书人员进行年龄调查,随机抽取了40名读书者进行调查,将他们的年龄(单位:岁)分成6段:[20,30),[30,40),[40,50),[50,60),[60,70),[70,80]后得到如图所示的频率分布直方图.(1)求在这40名读书者中年龄分布在[40,70)的人数;(2)求这40名读书者的年龄的平均数和中位数.解:(1)由频率分布直方图知年龄在[40,70)的频率为(0.020+0.030+0.025)×10=0.75,故这40名读书者中年龄分布在[40,70)的人数为40×0.75=30.(2)这40名读书者年龄的平均数为25×0.05+35×0.10+45×0.20+55×0.30+65×0.25+75×0.10=54.设中位数为x,则0.005×10+0.010×10+0.020×10+0.030×(x-50)=0.5,解得x=55,故这40名读书者年龄的中位数为55.回归分析(综合型)[典型例题]命题角度一线性回归分析(2018·广州模拟)某地1~10岁男童年龄xi(单位:岁)与身高的中位数y i(单位:cm)(i=1,2,…,10)如下表:(2)某同学认为y =px 2+qx +r 更适宜作为y 关于x 的回归方程类型,他求得的回归方程是y ^=-0.30x 2+10.17x +68.07.经调查,该地11岁男童身高的中位数为145.3 cm .与(1)中的线性回归方程比较,哪个回归方程的拟合效果更好?附:回归方程y ^=a ^+b ^x 中的斜率和截距的最小二乘估计公式分别为:b ^=∑ni =1(x i -x -)(y i -y -)∑n i =1(x i -x -)2,a ^=y --b ^x -.【解】 (1)b ^=∑10i =1(x i -x -)(y i -y -)∑10i =1 (x i -x -)2=566.8582.50≈6.871≈6.87, a ^=y --b ^x -=112.45-6.871×5.5≈74.66, 所以y 关于x 的线性回归方程为y ^=6.87x +74.66.(2)若回归方程为y^=6.87x+74.66,当x=11时,y^=150.23.若回归方程为y^=-0.30x2+10.17x+68.07,当x=11时,y=143.64.|143.64-145.3|=1.66<|150.23-145.3|=4.93,所以回归方程y^=-0.30x2+10.17x+68.07对该地11岁男童身高中位数的拟合效果更好.求回归直线方程的关键及实际应用(1)关键:正确理解计算b^,a^的公式和准确地计算.(2)实际应用:在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.命题角度二非线性回归分析(2018·潍坊模拟)某机构为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.表中u i =1x i ,u -=18∑8i =1u i .(1)根据散点图判断:y =a +bx 与y =c +d x哪一个模型更适合作为该图书每册的成本费y (单位:元)与印刷数量x (单位:千册)的回归方程?(只要求给出判断,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程(回归系数的结果精确到0.01);(3)若该图书每册的定价为10元,则至少应该印刷多少册才能使销售利润不低于78 840元?(假设能够全部售出.结果精确到1)附:对于一组数据(w 1,v 1),(w 2,v 2),…,(w n ,v n ),其回归直线v ^=α^+β^w 的斜率和截距的最小二乘估计分别为β^=∑n i =1(w i -w -)(v i -v -)∑n i =1(w i -w -)2,α^=v -β^w -.【解】 (1)由散点图判断,y =c +d x更适合作为该图书每册的成本费y (单位:元)与印刷数量x (单位:千册)的回归方程.(2)令u =1x,先建立y 关于u 的线性回归方程,由于d ^=∑8i =1(u i -u -)(y i -y -)∑8i =1(u i -u -)2=7.0490.787≈8.957≈8.96, 所以c ^=y --d ^·u -=3.63-8.957×0.269≈1.22, 所以y 关于u 的线性回归方程为y ^=1.22+8.96u , 所以y 关于x 的回归方程为y ^=1.22+8.96x.(3)假设印刷x 千册,依题意得10x -⎝ ⎛⎭⎪⎫1.22+8.96x x ≥78.840,所以x ≥10,所以至少印刷10 000册才能使销售利润不低于78 840元.求非线性回归方程的步骤(1)确定变量,作出散点图.(2)根据散点图,选择恰当的拟合函数.(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.(4)分析拟合效果:通过计算相关指数或画残差图来判断拟合效果. (5)根据相应的变换,写出非线性回归方程.命题角度三 回归分析与正态分布的综合问题(2018·兰州模拟)某地一商场记录了12月份某5天当中某商品的销售量y (单位:kg )与该地当日最高气温x (单位:℃)的相关数据,如下表:(1)试求y 与x 的回归方程y =b x +a ;(2)判断y 与x 之间是正相关还是负相关;若该地12月某日的最高气温是6 ℃,试用所求回归方程预测这天该商品的销售量;(3)假定该地12月份的日最高气温X ~N (μ,σ2),其中μ近似取样本平均数x -,σ2近似取样本方差s 2,试求P (3.8<X <13.4).附:参考公式和有关数据⎩⎪⎨⎪⎧b ^=∑ni =1x i y i -n x -y -∑n i =1x 2i -n x -2=∑ni =1 (x i -x -)(y i -y -)∑n i =1(x i -x -)2a ^=y --b ^x-,10≈3.2,3.2≈1.8,若X ~N (μ,σ2),则P (μ-σ<X <μ+σ)=0.682 7,且P (μ-2σ<X <μ+2σ)=0.954 5.【解】 (1)由题意,x -=7,y -=9,∑n i =1x i y i -n x -y -=287-5×7×9=-28, ∑ni =1x 2i-n x -2=295-5×72=50,b ^=-2850=-0.56,a ^=y --b ^x -=9-(-0.56)×7=12.92.所以所求回归直线方程为y ^=-0.56x +12.92.(2)由b ^=-0.56<0知,y 与x 负相关.将x =6代入回归方程可得, y ^=-0.56×6+12.92=9.56,即可预测当日该商品的销售量为9.56 kg . (3)由(1)知μ≈x -=7,σ≈s 2≈3.2,所以P (3.8<X <13.4)=P (μ-σ<X <μ+2σ)=12P (μ-σ<X <μ+σ)+12P (μ-2σ<X <μ+2σ)=0.818 6.解决与正态分布有关的问题,在理解μ,σ2的意义情况下,记清正态分布的密度曲线是一条关于μ对称的钟形曲线,很多问题都是利用图象的对称性解决的.[对点训练](2018·高考全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,...,17)建立模型①:y^=-30.4+13.5 t;根据2010年至2016年的数据(时间变量t的值依次为1,2, (7)建立模型②:y^=99+17.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.解:(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y^=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为y^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(以下2种理由,任选其一)(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y^=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.统计案例(综合型)[典型例题](2018·福州模拟)某学校八年级共有学生400人,现对该校八年级学生随机抽取50名进行实践操作能力测试,实践操作能力测试结果分为四个等级水平,一、二等级水平的学生实践操作能力较弱,三、四等级水平的学生实践操作能力较强,测试结果统计如下表:(1)践操作能力强弱与性别有关?(2)生的人数为ξ,求ξ的分布列和数学期望.下面的临界值表供参考:参考公式:K2=2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.【解】(1)2×2列联表如下:所以K2=230×20×26×24=52≈4.327>3.841.所以有95%的把握认为学生实践操作能力强弱与性别有关.(2)ξ的取值为0,1,2,3,4.P(ξ=0)=C46C410=114,P(ξ=1)=C14C36C410=821,P(ξ=2)=C24C26C410=37,P(ξ=3)=C34C16C410=435,P(ξ=4)=C44C410=1 210.所以ξ的分布列为所以E(ξ)=0×14+1×21+2×7+3×35+4×210=5=1.6.独立性检验的关键(1)根据2×2列联表准确计算K2,若2×2列联表没有列出来,要先列出此表.(2)K2的观测值k越大,对应假设事件H0成立的概率越小,H0不成立的概率越大.[对点训练](2018·高考全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:(3)根据(2)附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),解:(1)理由如下:(以下4种理由,任选其一)(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.(2)由茎叶图知m =79+812=80.列联表如下:(3)由于K 2=40220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.一、选择题1.某班对八校联考成绩进行分析,利用随机数法抽取样本时,先将60个同学按01,02,03,…,60进行编号,然后从随机数表第9行第5列的数开始向右读,则选出的第6个个体是( )(注:下表为随机数表的第8行和第9行)6301 6378 5916 9555 6719 9810 5071 7512 8673 5807 4439 5238 79 3321 1234 2978 6456 0782 5242 0744 3815 5100 1342 9966 0279 54 A .07 B .25 C .42D .52解析:选D.依题意得,依次选出的个体分别是12,34,29,56,07,52,…因此选出的第6个个体是52.2.(2018·高考全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如图所示的饼图:则下面结论中不正确的是( )A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半解析:选A.法一:设建设前经济收入为a,则建设后经济收入为2a,则由饼图可得建设前种植收入为0.6a,其他收入为0.04a,养殖收入为0.3a.建设后种植收入为0.74a,其他收入为0.1a,养殖收入为0.6a,养殖收入与第三产业收入的总和为1.16a,所以新农村建设后,种植收入减少是错误的.故选A.法二:因为0.6<0.37×2,所以新农村建设后,种植收入增加,而不是减少,所以A 是错误的.故选A.3.(2018·昆明模拟)AQI(Air Quality Index,空气质量指数)是报告每日空气质量的参数,描述了空气清洁或污染的程度.AQI共分六级,从一级优(0~50);二级良(51~100);三级轻度污染(101~150);四级中度污染(151~200);直至五级重度污染(201~300);六级严重污染(大于300).如图是昆明市2017年4月份随机抽取10天的AQI茎叶图,利用该样本估计昆明市2018年4月份空气质量优的天数为( )A .3B .4C .12D .21解析:选C.从茎叶图知10天中有4天空气质量为优,所以空气质量为优的频率为410=25,所以估计昆明市2018年4月份空气质量为优的天数为30×25=12,故选C. 4.对一批产品的长度(单位:毫米)进行抽样检测,样本容量为200,如图为检测结果的频率分布直方图,根据产品标准,单件产品长度在区间[25,30)的为一等品,在区间[20,25)和[30,35)的为二等品,其余均为三等品,则该样本中三等品的件数为( )A .5B .7C .10D .50解析:选D.根据题中的频率分布直方图可知,三等品的频率为1-(0.050 0+0.062 5+0.037 5)×5=0.25,因此该样本中三等品的件数为200×0.25=50.5.(2018·桂林、白色、梧州、崇左、北海五市联考)如图是2017年第一季度五省GDP 情况图,则下列陈述正确的是( )①2017年第一季度GDP总量和增速均居同一位的省只有1个;②与去年同期相比,2017年第一季度五个省的GDP总量均实现了增长;③去年同期的GDP总量前三位是D省、B省、A省;④2016年同期A省的GDP总量也是第三位.A.①②B.②③④C.②④D.①③④解析:选B.①2017年第一季度GDP总量和增速均居同一位的省有2个,B省和C省的GDP总量和增速分别居第一位和第四位,故①错误;由图知②正确;由图计算2016年同期五省的GDP总量,可知前三位为D省、B省、A省,故③正确;由③知2016年同期A省的GDP总量是第三位,故④正确.故选B.6.(一题多解)(2018·石家庄质量检测(二))某学校A、B两个班的数学兴趣小组在一次数学对抗赛中的成绩绘制茎叶图如下,通过茎叶图比较两个班数学兴趣小组成绩的平均值及标准差.①A班数学兴趣小组的平均成绩高于B班的平均成绩;②B班数学兴趣小组的平均成绩高于A班的平均成绩;③A班数学兴趣小组成绩的标准差大于B班成绩的标准差;④B班数学兴趣小组成绩的标准差大于A班成绩的标准差.其中正确结论的编号为( )A.①③B.①④C.②③D.②④解析:选B.法一:由于x-A=115(53+62+64+76+74+78+78+76+81+85+86+88+82+92+95)=78,x-B=115(45+48+51+53+56+62+64+65+73+73+74+70+83+82+91)=66,所以x-A>x-B,所以①正确.s2A=115[(53-78)2+(62-78)2+(64-78)2+(76-78)2+(74-78)2+(78-78)2+(78-78)2+(76-78)2+(81-78)2+(85-78)2+(86-78)2+(88-78)2+(82-78)2+(92-78)2+(95-78)2]=121.6,s2B=115[(45-66)2+(48-66)2+(51-66)2+(53-66)2+(56-66)2+(62-66)2+(64-66)2+(65-66)2+(73-66)2+(73-66)2+(74-66)2+(70-66)2+(83-66)2+(82-66)2+(91-66)2]=175.2.故s2B>s2A,B班的方差大,则B班的标准差也大,④正确,故选B.法二:由茎叶图可知,A班数学兴趣小组的平均成绩明显高于B班;A班的数学成绩较稳定,大多在70~90分,B班的数学成绩较分散,显然B班的方差、标准差较大,故选B.二、填空题7.给出下列四个命题:①某班级一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4的样本,已知7号、33号、46号同学在样本中,那么样本中另一位同学的编号为23;②一组数据1,2,3,3,4,5的平均数、众数、中位数都相同;③若一组数据a ,0,1,2,3的平均数为1,则其标准差为2;④根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为y ^=a ^+b ^x ,其中a ^=2,x -=1,y -=3,则b ^=1.其中真命题有________(填序号).解析:在①中,由系统抽样知抽样的分段间隔为52÷4=13,故抽取的样本的编号分别为7号、20号、33号、46号,故①是假命题;在②中,数据1,2,3,3,4,5的平均数为16(1+2+3+3+4+5)=3,中位数为3,众数为3,都相同,故②是真命题;在③中,因为样本的平均数为1,所以a +0+1+2+3=5,解得a =-1,故样本的方差为15[(-1-1)2+(0-1)2+(1-1)2+(2-1)2+(3-1)2]=2,标准差为2,故③是假命题;在④中,回归直线方程为y ^=b ^x +2,又回归直线过点(x -,y -),把(1,3)代入回归直线方程y ^=b ^x -+2,得b ^=1,故④是真命题.答案:②④8.(2018·长沙模拟)为了解某社区居民购买水果和牛奶的年支出费用与购买食品的年支出费用的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y =b x +a ,其中b =0.59,a =y -b x ,据此估计,该社区一户购买食品的年支出费用为3.00万元的家庭购买水果和牛奶的年支出费用约为________万元.解析:x -=2.09+2.15+2.50+2.84+2.925=2.50(万元),y -=1.25+1.30+1.50+1.70+1.755=1.50(万元),其中b ^=0.59,a ^=y --b ^x -=0.025,y ^=0.59x +0.025,故年支出费用为3.00万元的家庭购买水果和牛奶的年支出费用约为y ^=0.59×3.00+0.025=1.795万元.答案:1.7959.某同学在高三学年的五次阶段性考试中,数学成绩依次为110,114,121,119,126,则这组数据的方差是________.解析:因为对一组数据同时加上或减去同一个常数,方差不变,所以本题中可先对这5个数据同时减去110,得到新的数据分别为0,4,11,9,16,其平均数为8,根据方差公式可得s 2=15[(0-8)2+(4-8)2+(11-8)2+(9-8)2+(16-8)2]=30.8. 答案:30.8 三、解答题10.某校为了解高一学生周末的“阅读时间”,从高一年级中随机抽取了100名学生进行调查,获得了每人的周末“阅读时间”(单位:小时),按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成样本的频率分布直方图如图所示:(1)求图中a 的值;(2)估计该校高一学生周末“阅读时间”的中位数;(3)用样本频率代替概率.现从全校高一年级随机抽取20名学生,其中有k 名学生“阅读时间”在[1,2.5)内的概率为P(X=k),其中k=0,1,2,…,20.当P(X=k)最大时,求k的值.解:(1)由频率分布直方图可知,周末“阅读时间”在[0,0.5)内的频率为0.08×0.5=0.04.同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]内的频率分别为0.08,0.20,0.25,0.07,0.04,0.02,所以1-(0.04+0.08+0.20+0.25+0.07+0.04+0.02)=0.5a+0.5a,解得a=0.30.(2)设该校高一学生周末“阅读时间”的中位数为m小时.因为前5组的频率之和为0.04+0.08+0.15+0.20+0.25=0.72>0.5,而前4组的频率之和为0.04+0.08+0.15+0.20=0.47<0.5,所以2≤m<2.5.由0.5×(m-2)=0.5-0.47,解得m=2.06.故可估计该校高一学生周末“阅读时间”的中位数为2.06小时.(3)设在取出的20名学生中,周末“阅读时间”在[1,2.5)内的有X人,则X服从二项分布,即X~B(20,0.6),所以恰好有k名学生周末“阅读时间”在[1,2.5)内的概率为P(X =k)=C k20(0.6)k(0.4)20-k,其中k=0,1,2, (20)设t=P(X=k)P(X=k-1)=C k20(0.6)k(0.4)20-kC k-120(0.6)k-1(0.4)21-k=3(21-k)2k,k=1,2, (20)若t>1,则k<12.6,P(X=k-1)<P(X=k);若t<1,则k>12.6,P(X=k-1)>P(X=k).又P(X=13)P(X=12)=3×(21-13)2×13=1213<1,所以当k=12时,P(X=k)最大.所以k的值为12.11.(2018·石家庄质量检测(二))随着网络的发展,网上购物越来越受到人们的喜爱,各大购物网站为增加收入,促销策略越来越多样化,促销费用也不断增加.下表是某购物网站2017年1~8月促销费用(单位:万元)和产品销量(单位:万件)的具体数据.(1)根据数据可知y与x具有线性相关关系,请建立y关于x的回归方程y=b^x+a^(系数精确到0.01);(2)已知6月份该购物网站为庆祝成立1周年,特制定奖励制度:以z(单位:件)表示日销量,z∈[1 800,2 000),则每位员工每日奖励100元;z∈[2 000,2 100),则每位员工每日奖励150元;z∈[2 100,+∞),则每位员工每日奖励200元.现已知该网站6月份日销量z服从正态分布N(0.2,0.000 1),请你计算某位员工当月奖励金额总数大约多少元.(当月奖励金额总数精确到百分位).参考数据:∑8 i=1x i y i=338.5,∑8i=1x2i=1 308,其中x i,y i分别为第i个月的促销费用和产品销量,i=1,2,3,…,8.若随机变量z服从正态分布N(μ,σ2),则P(μ-σ<z<μ+σ)=0.682 7,P(μ-2σ<z<μ+2σ)=0.954 5.解:(1)由题可知x-=11,y-=3,将数据代入b^=∑ni=1x i y i-n x-y-∑n i=1x2i-n y-2得b^=338.5-8×11×31 308-8×121=74.5340≈0.219≈0.22.a^=y--b^x-=3-0.219×11≈0.59,所以y关于x的回归方程为y^=0.22x+0.59.(2)由6月份日销量z服从正态分布N(0.2,0.000 1),得日销量在[1 800,2 000)的概率为0.954 52=0.477 25,日销量在[2 000,2 100)的概率为0.682 72=0.341 35,日销量在[2 100,+∞)的概率为1-0.682 72=0.158 65,所以每位员工当月的奖励金额大约为(100×0.477 25+150×0.341 35+200×0.158 65)×30=3 919.725≈3 919.73(元).12.(2018·南京模拟)某校为了推动数学教学方法的改革,学校将高一年级部分生源情况基本相同的学生分成甲、乙两个班,每班各40人,甲班按原有模式教学,乙班实施教学方法改革.经过一年的教学实验,将甲、乙两个班学生一年来的数学成绩取平均数,两个班学生的平均成绩均在[50,100],按照区间[50,60),[60,70),[70,80),[80,90),[90,100]进行分组,绘制成如下频率分布直方图,规定不低于80分(百分制)为优秀.(1)完成表格,并判断是否有90%以上的把握认为“数学成绩优秀与教学改革有关”;(2)从乙班[707名学生座谈,从中选3名学生发言,记来自[80,90)发言的人数为随机变量X ,求X 的分布列和数学期望.参数数据和公式:K 2=2(a +b )(c +d )(a +c )(b +d )解:(1)补全表格如下:依题意得K 2=240×40×32×48≈3.333>2.706,故有90%以上的把握认为“数学成绩优秀与教学改革有关”.(2)从乙班[70,80),[80,90),[90,100]分数段中抽取的人数分别为2,3,2, 依题意随机变量X 的所有可能取值为0,1,2,3,P (X =0)=C 34C 37=435,P (X =1)=C 24C 13C 37=1835,P (X =2)=C 14C 23C 37=1235,P (X =3)=C 33C 37=135,其分布列如下表:所以E (X )=0×35+1×35+2×35+3×35=35=7.。

高考数学专题突破学生版-统计案例(考点讲析)

高考数学专题突破学生版-统计案例(考点讲析)
其编号为 m ,然后抽取编号为 m 50 , m 100 , m 150 ……的学生,这样的抽样方法是系统抽样法 B.正态总体 N (1, 9) 在区间 (1, 0) 和 (2, 3) 上取值的概率相等
C.若两个随机变量的线性相关性越强,则相关系数 r 的值越接近于 1 D.若一组数据 1、 a 、2、3 的平均数是 2,则该组数据的众数和中位数均是 2
C.r1>r2
2.(2019·福建高二期末(文))给出下列四个命题:
D.无法判定
①回归直线 $y $bx $a 过样本点中心( x , y )
②将一组数据中的每个数据都加上或减去同一个常数后,平均值不变
③将一组数据中的每个数据都加上或减去同一个常数后,方差不变
7
④在回归方程 y =4x+4 中,变量 x 每增加一个单位时,y 平均增加 4 个单位
2
2
说, k2 越小,判断“x 与 y 有关系”的把握程度越大.其中真命题的个数为__________.
7.(2019·湖北高二期末(文))已知如下四个命题:①在线性回归模型中,相关指数 R2 表示解释变量 x 对 于预报变量 y 的贡献率, R2 越接近于 0 ,表示回归效果越好;②在回归直线方程 yˆ 0.8x 12 中,当解释 变量 x 每增加一个单位时,预报变量 yˆ 平均增加 0.8 个单位;③两个变量相关性越强,则相关系数的绝对值
(Ⅰ)由折线图看出,可用线性回归模型拟合 y 与 t 的关系,请用相关系数加以说明; (Ⅱ)建立 y 关于 t 的回归方程(系数精确到 0.01),预测 2016 年我国生活垃圾无害化处理量. 附注:
参考数据:


, ≈2.646.
2
参考公式:相关系数

2019-2020学年度高三理科数学二轮复习:专题六第三讲 正态分布、统计与统计案例-含解析

2019-2020学年度高三理科数学二轮复习:专题六第三讲 正态分布、统计与统计案例-含解析

——教学资料参考参考范本——2019-2020学年度高三理科数学二轮复习:专题六第三讲正态分布、统计与统计案例-含解析______年______月______日____________________部门20xx最新高三理科数学二轮复习:专题六第三讲正态分布、统计与统计案例-含解析第三讲正态分布、统计与统计案例高考导航1.考查正态曲线的性质及正态分布的概率计算.2.考查系统抽样和分层抽样、样本的频率分布与数字特征、线性回归分析、独立性检验.3.与概率知识交汇进行综合考查.1.(20xx·全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了20xx年1月至20xx年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图:根据该折线图,下列结论错误的是( )A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳[解析] 折线图呈现出的是一个逐渐上升的趋势,但是并不是每个月都在增加,故A说法错误;折线图中按照年份进行划分,可以看出每年的游客量都在逐年增加,故B说法正确;折线图中每年的高峰出现在每年的7,8月,故C说法正确;每年的1月至6月相对于7月至12月的波动性更小,变化的幅度较小,说明变化比较平稳,故D说法正确.[答案] A2.(20xx·山东卷)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为=x+,已知i=225,i=1600,=4.该班某学生的脚长为24,据此估计其身高为( )A.160 B.163C.166 D.170[解析] 由题意可得=22.5,=160,∴=160-4×22.5=70,即=4x+70.当x=24时,=4×24+70=166,故选C.[答案] C3.(20xx·江苏卷)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件.为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.[解析] 从丙种型号的产品中抽取的件数为60×=18.[答案] 184.(20xx·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50 kg 箱产量≥50kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).附:P(K2≥k) 0.050 0.010 0.001k 3.841 6.635 10.828K2=.[解] (1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.由题意知P(A)=P(BC)=P(B)P(C).旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,故P(B)的估计值为0.62.新养殖法的箱产量不低于50 kg的频率为(0.068+0.046+0.010+0.008)×5=0.66,故P(C)的估计值为0.66.因此,事件A的概率估计值为0.62×0.66=0.4092.(2)根据箱产量的频率分布直方图得列联表箱产量<50 kg 箱产量≥50 kg旧养殖法62 38新养殖法34 66K2=≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,箱产量低于55 kg的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5,故新养殖法箱产量的中位数的估计值为50+≈52.35(kg).考点一正态分布1.正态曲线的性质(1)曲线位于x轴上方,与x轴不相交;曲线关于直线x=μ对称,且在x=μ处达到峰值.(2)曲线与x轴之间的面积为1.(3)当μ一定时,曲线的形状由σ确定,σ越小,曲线越“瘦高”,表示总体的分布越集中;σ越大,曲线越“矮胖”,表示总体的分布越分散.2.正态分布X~N(μ,σ2)的三个常用数据(1)P(μ-σ<X≤μ+σ)=0.6826;(2)P(μ-2σ<X≤μ+2σ)=0.9544;(2)P(μ-3σ<X≤μ+3σ)=0.9974.[思维流程][解] (1)抽取的一个零件的尺寸在(μ-3σ,μ+3σ)之内的概率为0.9974,从而零件的尺寸在(μ-3σ,μ+3σ)之外的概率为0.0026,故X ~B(16,0.0026).因此P(X≥1)=1-P(X =0)=1-0.997416≈0.0408.X 的数学期望为E(X)=16×0.0026=0.0416.(2)(ⅰ)如果生产状态正常,一个零件尺寸在(μ-3σ,μ+3σ)之外的概率只有0.0026,一天内抽取的16个零件中,出现尺寸在(μ-3σ,μ+3σ)之外的零件的概率只有0.0408,发生的概率很小.因此一旦发生这种情况,就有理由认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查,可见上述监控生产过程的方法是合理的.(ⅱ)由=9.97,s≈0.212,得μ的估计值为=9.97,σ的估计值为=0.212,由样本数据可以看出有一个零件的尺寸在(-3,+3)之外,因此需对当天的生产过程进行检查.剔除(-3,+3)之外的数据9.22,剩下数据的平均数为 115×(16×9.97-9.22)=10.02, 因此μ的估计值为10.02.i =116x2i =16×0.2122+16×9.972≈1591.134, 剔除(-3,+3)之外的数据9.22,剩下数据的样本方差为 115×(1591.134-9.222-15×10.022)≈0.008,因此σ的估计值为≈0.09.正态分布应关注的两点(1)利用P(μ-σ<X≤μ+σ),P(μ-2σ<X≤μ+2σ),P(μ-3σ<X≤μ+3σ)的值直接求解.(2)充分利用正态曲线的对称性和曲线与x轴之间的面积为1来求解.[对点训练]1.(20xx·兰州检测)设X~N(μ1,σ),Y~N(μ2,σ),这两个正态分布密度曲线如图所示,下列结论中正确的是( )A.P(Y≥μ2)≥P(Y≥μ1)B.P(X≤σ2)≤P(X≤σ1)C.对任意正数t,P(X≥t)≥P(Y≥t)D.对任意正数t,P(X≤t)≥P(Y≤t)[解析] 由题图可知μ1<0<μ2,σ1<σ2,∴P(Y≥μ2)<P(Y≥μ1),故A错;P(X≤σ2)>P(X≤σ1),故B错;当t为任意正数时,由题图可知P(X≤t)≥P(Y≤t),而P(X≤t)=1-P(X≥t),P(Y≤t)=1-P(Y≥t),∴P(X≥t)≤P(Y≥t),故C正确,D错.[答案] C 2.某校组织了“20xx年第15届希望杯数学竞赛(第一试)”,已知此次选拔赛的数学成绩X服从正态分布N(72,121)(单位:分),此次考生共有500人,估计数学成绩在72分到83分之间的人数约为(参数数据:P(μ-σ<X<μ+σ)=0.6826,P(μ-2σ<X<μ+2σ)=0.9544.)( )B.170A.238D.477C.340 [解析] 因为X~N(72,121),所以μ=72,σ=11,又P(μ-σ<X<μ+σ)=0.6826,所以P(61<X<83)=0.6826,因为该正态曲线关于直线x=72对称,所以P(72<X<83)=P(61<X<83)=×0.6826=0.3413,所以0.3413×500=170.65,从而可得在72分到83分之间的人数约为170,故选B.[答案] B考点二抽样方法、用样本估计总体1.抽样方法抽样方法包括简单随机抽样、系统抽样、分层抽样,三种抽样方法都是等概率抽样.2.频率分布直方图(1)频率分布直方图中横坐标表示组距,纵坐标表示,频率=组距×.(2)频率分布直方图中各小长方形的面积之和为1.3.方差公式s2=[(x1-)2+(x2-)2+…+(xn-)2][对点训练]1.(20xx·怀化二模)某校高三(1)班共有48人,学号依次为1,2,3,…,48,现用系统抽样的方法抽取一个容量为6的样本,已知学号为3,11,19,35,43的同学在样本中,则还有一个同学的学号应为( )B.26A.27D.24C.25 [解析] 根据系统抽样的规则——“等距离”抽取,则抽取的号码差相等,易知相邻两个学号之间的差为11-3=8,所以在19与35之间还有27,故选A.[答案] A 2.(20xx·山东卷)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )B.60A.56D.140C.120 [解析] 由频率分布直方图可知,这200名学生每周的自习时间不少于22.5小时的频率为(0.16+0.08+0.04)×2.5=0.7,故这200名学生中每周的自习时间不少于22.5小时的人数为200×0.7=140.故选D.[答案] D 3.(20xx·山东临沂一模)传承传统文化再掀热潮,在刚刚过去的新春假期中,央视科教频道以诗词知识竞赛为主的《中国诗词大会》火爆荧屏,如图的茎叶图是两位选手在个人追逐赛中的比赛得分,则下列说法正确的是( )A .甲的平均数大于乙的平均数B .甲的中位数大于乙的中位数C .甲的方差大于乙的方差D .甲的平均数等于乙的中位数[解析] 由茎叶图,知:甲=(59+45+32+38+24+26+11+12+14)=29,x -乙=(51+43+30+34+20+25+27+28+12)=30,s =[302+162+32+92+(-5)2+(-3)2+(-18)2+(-17)2+(-15)2]≈235.3,s =[212+132+02+42+(-10)2+(-5)2+(-3)2+(-2)2+(-18)2]≈120.9,甲的中位数为:26,乙的中位数为:28,∴甲的方差大于乙的方差.故选C.[答案] C4.(20xx·正定中学抽测)从某中学高一年级中随机抽取100名同学,将他们的成绩(单位:分)数据绘制成频率分布直方图(如图),则这100名学生成绩的平均数为________,中位数为________.[解析] 由图可知,平均数=105×0.1+115×0.3+125×0.25+135×0.2+145×0.15=125.中位数在120~130之间,设为x ,则0.01×10+0.03×10+0.025×(x-120)=0.5,解得x =124.[答案] 125 124统计问题应关注的3点(1)分层抽样的关键是确定抽样比例,系统抽样主要是确定分段间隔,应用等差数列计算个体号码数.(2)在频率分布直方图中,众数为最高矩形的底边中点的横坐标,中位数为垂直横轴且平分直方图面积的直线与横轴交点的横坐标,平均数为每个小矩形的面积乘以相应小矩形底边中点的横坐标之积的和.(3)计算方差首先要计算平均数,然后再按照方差的计算公式进行计算.方差是描述一个样本和总体的波动大小的特征数,方差大说明波动大.考点三 线性回归分析、独立性检验1.线性回归方程方程=x +称为线性回归方程,其中=,=-;(,)称为样本中心点.2.独立性检验K2=(其中n =a +b +c +d 为样本容量).角度1:线性回归方程的求解及应用【例2-1】 (20xx·全国卷Ⅲ)下图是我国20xx 年至20xx 年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份20xx ~20xx. [解] (1)由折线图中数据和附注中参考数据得t =4,(ti -)2=28,=0.55,i =17 (ti -)(yi -)=iyi -i =40.17-4×9.32=2.89,r≈≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由=≈1.331及(1)得==≈0.103,a ^=-≈1.331-0.103×4≈0.92.所以,y 关于t 的回归方程为=0.92+0.10t.将20xx 年对应的t =9代入回归方程得=0.92+0.10×9=1.82. 所以预测20xx 年我国生活垃圾无害化处理量约为1.82亿吨.角度2:独立性检验的应用[解] (1)优秀 非优秀 合计 甲班 10 50 60 乙班 20 30 50 合计3080110(2)根据列联表中的数据,得到K2=≈7.486<10.828.因此按99.9%的可靠性要求,不能认为“成绩是否优秀与班级有关系”.(1)求回归直线方程的关键①正确理解计算,的公式和准确的计算,其中线性回归方程必过样本中心点(,).②在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.(2)独立性检验的关键根据2×2列联表准确计算K2,若2×2列联表没有列出来,要先列出此表.K2的观测值k越大,对应假设事件H0成立的概率越小,H0不成立的概率越大.[对点训练]1.[角度1]某地随着经济的发展,居民收入逐年增长,该地一建设银行连续五年的储蓄存款(年底余额)如下表:年份x20xx20xx20xx20xx20xx储蓄存款y/千亿元567810为了研究计算的方便,工作人员将上表的数据进行了处理,令t=x-20xx,z=y-5得到下表:时间代号t12345z01235(1)求z关于t的线性回归方程;(2)通过(1)中的方程,求出y关于x的回归方程;(3)用所求回归方程预测到2020年年底,该地储蓄存款额可达多少?(附:对于线性回归方程=x +,其中=,=-) [解] (1)令z 关于t 的线性回归方程为=t +,∵=3,=2.2,izi =45,=55,b ^==1.2,=-=2.2-3×1.2=-1.4,∴=1.2t -1.4.(2)将t =x -20xx ,z =y -5,代入=1.2t -1.4, 得-5=1.2(x -20xx)-1.4,即=1.2x -2408.4.(3)∵=1.2×2020-2408.4=15.6(千亿元),∴预测到2020年年底,该地储蓄存款额可达15.6千亿元.2.[角度2](20xx·××市高三第一次调研)近年来,随着我国在教育科研上的投入不断加大,科学技术得到迅猛发展,国内企业的国际竞争力得到大幅提升.伴随着国内市场增速放缓,国内有实力的企业纷纷进行海外布局,第二轮企业出海潮到来.如在智能手机行业,国产品牌已在赶超国外巨头,某品牌手机公司一直默默拓展海外市场,在海外共设30多个分支机构,需要国内公司外派大量70后、80后中青年员工.该企业为了解这两个年龄层员工是否愿意被外派工作的态度,按分层抽样的方法从70后和80后的员工中随机调查了100位,得到数据如表:愿意被外派不愿意被外派 合计 70后 20 20 40 80后402060合计6040100(1)根据调查的数据,是否有90%以上的把握认为“是否愿意被外派与年龄有关”,并说明理由;(2)该公司举行参观驻海外分支机构的交流体验活动,拟安排6名参与调查的70后、80后员工参加.70后员工中有愿意被外派的3人和不愿意被外派的3人报名参加,从中随机选出3人,记选到愿意被外派的人数为x;80后员工中有愿意被外派的4人和不愿意被外派的2人报名参加,从中随机选出3人,记选到愿意被外派的人数为y.求x<y的概率.参考数据:P(K2≥k0)0.150.100.050.0250.0100.005k0 2.072 2.706 3.841 5.024 6.6357.879参考公式:K2=,其中n=a+b+c+d. [解] (1)有90%以上的把握认为“是否愿意被外派与年龄有关”,理由如下:K2=错误!=错误!=≈2.778>2.706,所以有90%以上的把握认为“是否愿意被外派与年龄有关”.(2)“x<y”包含“x=0,y=1”、“x=0,y=2”、“x=0,y=3”、“x=1,y=2”、“x=1,y=3”、“x=2,y=3”六个事件,且P(x=0,y=1)=×=,P(x=0,y=2)=×=,P(x=0,y=3)=×=,P(x=1,y=2)=×=,P(x=1,y=3)=×=,P(x=2,y=3)=×=,所以P(x<y)===.即x<y的概率为.热点课题23 统计知识的实际应用[感悟体验](20xx·山西吕梁二模)某校某次N名学生的学科能力测评成绩(满分120分)的频率分布直方图如下,已知分数在100~110的学生数有21人.(1)求总人数N和分数在110~115分的人数n;(2)现准备从分数在110~115的n名学生(女生占)中选3位分配给A老师进行指导,求选出的3位学生中有1位女生的概率;(3)为了分析某个学生的学习状态,对其下一阶段的学习提供指导建议,对他前7次考试的数学成绩x、物理成绩y进行分析,该生7次考试成绩如表数学(x)888311792108100112物理(y)949110896104101106已知该生的物理成绩y与数学成绩x是线性相关的,求出y关于x的线性回归方程=x+.若该生的数学成绩达到130分,请你估计他的物理成绩大约是多少?附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程=x+的斜率和截距的最小二乘估计分别为=,=-.[解] (1)分数在100~110内的学生的频率为P1=(0.04+0.03)×5=0.35,所以该班总人数为N ==60,分数在110~115内的学生的频率为P2=1-(0.01+0.04+0.05+0.04+0.03+0.01)×5=0.1,分数在110~115内的人数为n =60×0.1=6.(2)由题意分数在110~115内有6名学生,其中女生有2名,从6名学生中选出3人,有1位女生的概率为P ==.(3)计算=×(88+83+117+92+108+100+112)=100,y -=×(94+91+108+96+104+101+106)=100;由于x 与y 之间具有线性相关关系, 根据回归系数公式得到===0.5,a ^=-=100-0.5×100=50, ∴线性回归方程为=0.5x +50,∴当x =130时,=0.5×130+50=115.。

高考理科数学专题复习:第1讲 统计与统计案例(含答案)

高考理科数学专题复习:第1讲 统计与统计案例(含答案)

A 级 基础通关一、选择题1.某校为了解学生学习的情况,采用分层抽样的方法从高一1 000人、高二1 200人、高三n 人中抽取81人进行问卷调查,已知高二被抽取的人数为30,那么n =( )A .860B .720C .1 020D .1 040 解析:依题意,分层抽样比为301 200=140. 所以81=140(1 000+1 200+n ),解得n =1 040. 答案:D2.为规范学校办学,某省教育厅督察组对某所高中进行了抽样调查.抽到的班级一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4的样本,已知7号、33号、46号同学在样本中,那么样本中还有一位同学的编号应是( )A .13B .19C .20D .51解析:由系统抽样的原理知,抽样的间隔为52÷4=13,故抽取的样本的编号分别为7,7+13,7+13×2,7+13×3,即7号,20号,33号,46号.所以样本中还有一位同学的编号为20号.答案:C3.“关注夕阳、爱老敬老”——某爱心协会从2013年开始每年向敬老院捐赠物资和现金,下表记录了第x 年(2013年是第一年)与捐赠的现金y (单位:万元)的对应数据,由此表中的数据得到了y 关于x的线性回归方程y ^=mx +0.35,则预测2019年捐赠的现金大约是( ) x 3 4 5 6y 2.5 34 4.5 A.5万元 C .5.25万元D .5.5万元 解析:由统计表格,知x -=4.5,y -=3.5,所以3.5=4.5m +0.35,则m =0.7,因此y ^=0.7x +0.35,当x =7时,y ^=0.7×7+0.35=5.25(万元),故2019年捐赠的现金大约是5.25万元.答案:C4.如图所示的茎叶图记录了甲乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x 和y 的值分别为( )A.3,5 B .5,5 C .3,7 D .5,7解析:由茎叶图,可得甲组数据的中位数为65,从而乙组数据的中位数也是65,所以y =5.由乙组数据59,61,67,65,78,可得乙组数据的平均值为66,故甲组数据的平均值也为66,从而有56+62+65+74+70+x 5=66,解得x =3.。

最新-2021高考新课标数学理二轮专题复习课件:专题六第1讲统计与统计案例 精品

最新-2021高考新课标数学理二轮专题复习课件:专题六第1讲统计与统计案例 精品

将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成 9 组,制成了如图所示的频率分布直方图.
(导学号 55460044)
(1)求直方图中 a 的值; (2)设该市有 30 万居民,估计全市居民中月均用水量 不低于 3 吨的人数,并说明理由; (3)若该市政府希望使 85%的居民每月的用水量不超 过标准 x(吨),估计 x 的值,并说明理由.
解得 a=0.30.
(2)由(1)可知,100 位居民每人月均用水量不低于 3 吨的频率为 0.06+0.04+0.02=0.12.
由以上样本的频率,可以估计全市 30 万居民中月均 用水量不低于 3 吨的人数为 300 000×0.12=36 000.
(3)因为前 6 组的频率之和为 0.04+0.08+0.15+0.20 +0.26+0.15=0.88>0.85,
A.简单随机抽样 B.按性别分层抽样 C.按学段分层抽样 D.系统抽样 解析:因为男女视力情况差异不大,但学段的视力情 况有较大差异,所以应按学段分层抽样. 答案:C
2.(2015·重庆卷)重庆市 2013 年各月的平均气温(℃) 数据的茎叶图如下图,则这组数据的中位数是( )
A.19
B.20
C.21.5
(2)中位数为平分频率分布直方图面积且垂直于横轴 的直线与横轴交点的横坐标.
(3)平均数等于频率分布直方图中每个小矩形的面积 乘以小矩形底边中点的横坐标之和.
[变式训练 2] (1)(2015·广东卷)已知样本数据 x1, x2,…,xn 的均值-x =5,则样本数据 2x1+1,2x2+1,…, 2xn+1 的均值为________.
所以这种产品质量指标值的平均数的估计值为 100, 方差的估计值为 104.

高考数学(文)(新课标版)考前冲刺复习讲义:第2部分专题六第2讲 统计与统计案例 Word版含答案

高考数学(文)(新课标版)考前冲刺复习讲义:第2部分专题六第2讲 统计与统计案例 Word版含答案

第2讲统计与统计案例抽样方法[学生用书P58]自主练透夯实双基1.简单随机抽样特点是从总体中逐个抽取.适用范围:总体中的个体较少.2.系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取.适用范围:总体中的个体数较多.3.分层抽样特点是将总体分成几层,分层进行抽取.适用范围:总体由差异明显的几部分组成.[题组通关]1.某县老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为()A.90C.180 D.300C[解析]设该样本中的老年教师人数为x,由题意及分层抽样的特点得x900=320 1600,故x=180.2.用系统抽样法从160名学生中抽取容量为20的样本,将160名学生随机地从1~160编号,按编号顺序平均分成20组(1~8号,9~16号,…,153~160号),若第16组抽出的号码为126,则第1组中用抽签的方法确定的号码是________.[解析]设第1组抽出的号码为x,则第16组应抽出的号码是8×15+x=126,所以x=6.[答案]63.利用随机数表法对一个容量为500,编号为000,001,002,…,499的产品进行抽样检验,抽取一个容量为10的样本,选取方法是从随机数表第12行第5列、第6列、第7列数字开始由左到右依次选取三个数字(下面摘取了随机数表中的第11行至第12行),根据下表,读出的第3个数是________.1818079245441716580979838619620676500310552364050526623897758416074499831146322420148588451093728871[解析]最先读到的数据的编号是389,向右读下一个数是775,775大于499,故舍去,再下一个数是841,舍去,再下一个数是607,舍去,再下一个数是449,再下一个数是983,舍去,再下一个数是114.故读出的第3个数是114.[答案]114解决抽样问题的方法(1)解决此类题目的关键是深刻理解各种抽样方法的特点和适用范围.但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量与总体容量的比值.(2)在系统抽样的过程中,要注意分段间隔,需要抽取n 个个体,样本就需要分成n 个组,则分段间隔即为Nn (N 为样本容量),首先确定在第一组中抽取的个体的号码数,再从后面的每组中按规则抽取每个个体.用样本估计总体[学生用书P58]高频考点多维探明 1.统计中的四个数字特征(1)众数:在样本数据中,出现次数最多的那个数据.(2)中位数:在样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数.(3)平均数:样本数据的算术平均数,即 x =1n (x 1+x 2+…+x n ).(4)方差与标准差方差:s 2=1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2].标准差: s =1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2]. 2.直方图的两个结论 (1)小长方形的面积=组距×频率组距=频率. (2)各小长方形的面积之和等于1.用统计图表估计总体(2016·福建毕业班质量检测)随着移动互联网的发展,与餐饮美食相关的手机APP 软件层出不穷.现从使用A和B两款订餐软件的商家中分别随机抽取50个商家,对它们的“平均送达时间”进行统计,得到频率分布直方图如图.(1)试估计使用A款订餐软件的50个商家的“平均送达时间”的众数及平均数;(2)根据以上抽样调查数据,将频率视为概率,回答下列问题:①能否认为使用B款订餐软件“平均送达时间”不超过40分钟的商家达到75%?②如果你要从A和B两款订餐软件中选择一款订餐,你会选择哪款?说明理由.【解】(1)依题意可得,使用A款订餐软件的50个商家的“平均送达时间”的众数为55分钟.使用A款订餐软件的50个商家的“平均送达时间”的平均数为:15×0.06+25×0.34+35×0.12+45×0.04+55×0.4+65×0.04=40(分钟).(2)①使用B款订餐软件“平均送达时间”不超过40分钟的商家的比例估计值为0.04+0.20+0.56=0.80=80%>75%.故可以认为使用B款订餐软件“平均送达时间”不超过40分钟的商家达到75%.②使用B款订餐软件的50个商家的“平均送达时间”的平均数为15×0.04+25×0.2+35×0.56+45×0.14+55×0.04+65×0.02=35<40.所以选B款订餐软件.用样本的数字特征估计总体特征(2016·石家庄第一次模拟)为比较甲、乙两地某月11时的气温情况,随机选取该月中的5天,将这5天中11时的气温数据(单位:℃)制成如图所示的茎叶图,考虑以下结论:①甲地该月11时的平均气温低于乙地该月11时的平均气温 ②甲地该月11时的平均气温高于乙地该月11时的平均气温 ③甲地该月11时的气温的标准差小于乙地该月11时的气温的标准差 ④甲地该月11时的气温的标准差大于乙地该月11时的气温的标准差 其中根据茎叶图能得到的正确结论的编号为( ) A .①③ B.①④ C .②③D.②④【解析】由茎叶图和平均数公式可得甲、乙两地的平均数分别是30,29,则甲地该月11时的平均气温高于乙地该月11时的平均气温,①错误,②正确,排除A 和B ;又甲、乙两地该月11时的标准差分别是s 甲=4+1+1+45=2,s 乙=9+1+4+45=3105,则甲地该月11时的气温的标准差小于乙地该月11时的气温的标准差,③正确,④错误,故选项C 正确.【答案】C(1)关于平均数、方差的计算样本数据的平均数与方差的计算关键在于准确记忆公式,要特别注意区分方差与标准差,不能混淆,标准差是方差的算术平方根.(2)求解频率分布直方图中相关数据的两个注意点一是小长方形的面积表示频率,其纵轴是频率组距,而不是频率.二是各组数据频率之比等于对应小长方形的高度之比. [题组通关]1.(2016·广州六校教育教学联合体测试)为了了解某校高三美术生的身体状况,抽查了部分美术生的体重,将所得数据整理后,作出了如图所示的频率分布直方图.已知图中从左到右的前3个小组的频率之比为1∶3∶5,第2个小组的频数为15,则被抽查的美术生的人数是( )A .35 B.48 C .60D.75C [解析]设被抽查的美术生的人数为n ,因为后2个小组的频率之和为(0.0375+0.0125)×5=0.25,所以前3个小组的频率之和为0.75.又前3个小组的频率之比为1∶3∶5,第2个小组的频数为15,所以前3个小组的频数分别为5,15,25,所以n =5+15+250.75=60.2.(2016·福州模拟)为了丰富学生的课余生活,某校举办了“你来比划,我来猜”的猜成语活动,若甲、乙两个班级各10个小组参加了此项活动,对其猜对成语的个数进行统计,得到如茎叶图所示的两组数据,对这两个班级10个小组猜对成语的个数的平均数x 甲,x 乙和中位数y 甲,y 乙进行比较,正确的结论是( )A .x 甲>x 乙,y 甲>y 乙 B.x 甲<x 乙,y 甲>y 乙 C .x 甲>x 乙,y 甲<y 乙D.x 甲<x 乙,y 甲<y 乙D [解析]由茎叶图得x 甲=19+20+21+23+25+29+32+33+37+4110=28,x乙=10+26+30+30+34+37+44+46+46+4710=35,y 甲=25+292=27,y 乙=34+372=35.5,所以x甲<x 乙,y 甲<y 乙,故选D.统计案例[学生用书P60]高频考点多维探明 1.线性回归方程方程y ^=b ^x +a ^称为线性回归方程,其中b ^=,a ^=y -b ^x ,(x ,y )称为样本点的中心. 2.随机变量K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d.线性回归分析(2016·高考全国卷丙)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1-7分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,i =17(y i -y )2=0.55,7≈2.646.参考公式:相关系数回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:【解】(1)由折线图中数据和附注中参考数据得r =2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得=2.8928≈0.103, a ^=y -b ^t =1.331-0.103×4≈0.92. 所以,y 关于t 的回归方程为y ^=0.92+0.10t .将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.独立性检验(2016·沈阳教学质量检测)为考察某种疫苗预防疾病的效果,进行动物实验,得到统计数据如下:现从所有实验动物中任取一只,取到“注射疫苗”动物的概率为25.(1)求2×2列联表中的数据x ,y ,A ,B 的值; (2)绘制发病率的条形统计图,并判断疫苗是否有效?(3)能够有多大把握认为疫苗有效?附:K 2=n (ad -bc )2(a +b )(a +c )(c +d )(b +d ),n =a +b +c +d【解】(1)设“从所有实验动物中任取一只,取到‘注射疫苗’动物”为事件M ,由已知得P (M )=y +30100=25,所以y =10,B =40,x =40,A =60.(2)未注射疫苗发病率为4060=23,注射疫苗发病率为1040=14.发病率的条形统计图如图所示,由图可以看出疫苗影响到发病率.(3)K 2=100×(20×10-30×40)250×50×40×60=100000050×20×60=503≈16.67>10.828.所以至少有99.9%的把握认为疫苗有效.解决统计案例应注意的问题(1)求回归直线方程问题的关键有两点:一是把相关数据代入公式准确计算;二是抓住样本中心点(x ,y )必在回归直线上的特性.(2)求解独立性检验问题时要注意:一是2×2列联表中的数据与公式中各个字母的对应,不能混淆;二是注意计算得到K 2之后的结论.[题组通关]1.(2016·南昌模拟)已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5 D.y ^=-0.3x +4.4A [解析]由正相关排除C 、D ,再将平均数代入检验得A.2.(2016·郑州模拟)为了解人们对于国家新颁布的“生育二孩放开”政策的热度,现在某市进行调查,随机抽调了50人,他们年龄的频数分布及支持“生育二孩放开”人数如下表:对“生育二孩放开”政策的支持度有差异;二孩放开”的概率是多少?参考数据:K 2=n (ad -bc )(a +b )(a+c )(c +d )(b +d ),n =a +b +c +d[解] (1)2×2列联表如下:K 2=50×(3×11-7×29)(3+7)(29+11)(3+29)(7+11)≈6.27<6.635,所以没有99%的把握认为以45岁为分界点对“生育二孩放开”政策的支持度有差异.(2)设年龄在[5,15)的被调查人中支持“生育二孩放开”的4人分别为a ,b ,c ,d ,不支持“生育二孩放开”的1人记为M ,则从年龄在[5,15)的被调查人中随机选取2人所有可能的结果有:(a ,b ),(a ,c ),(a ,d ),(a ,M ),(b ,c ),(b ,d ),(b ,M ),(c ,d ),(c ,M ),(d ,M ).设“恰好这2人都支持‘生育二孩放开’”为事件A ,则事件A 所有可能的结果有:(a ,b ),(a ,c ),(a ,d ),(b ,c ),(b ,d ),(c ,d ), 所以P (A )=610=35.所以对年龄在[5,15)的被调查人中随机选取2人进行调查,恰好这2人都支持“生育二孩放开”的概率为35.课时作业[学生用书P133(独立成册)]1.(2016·长沙四校联考)高三某班有学生56人,现将所有同学随机编号,用系统抽样的方法,抽取一个容量为4的样本,已知5号、33号、47号学生在样本中,则样本中还有一个学生的编号为( )A .13 B.17 C .19D.21C [解析]因为47-33=14,所以由系统抽样的定义可知样本中的另一个学生的编号为5+14=19.2.为了判定两个分类变量X 和Y 是否有关系,应用K 2独立性检验法算得K 2的观测值为5,又已知P (K 2≥3.841)=0.05,P (K 2≥6.635)=0.01,则下列说法正确的是( )A .有95%的把握认为“X 和Y 有关系” B.有95%的把握认为“X 和Y 没有关系” C .有99%的把握认为“X 和Y 有关系” D.有99%的把握认为“X 和Y 没有关系”A [解析]依题意,K 2=5,且P (K 2≥3.841)=0.05,因此有95%的把握认为“X 和Y 有关系”,选A.3.(2016·开封模拟)下列说法错误的是( )A .自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系B.在线性回归分析中,相关系数r 的值越大,变量间的相关性越强C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D.在回归分析中,R2为0.98的模型比R2为0.80的模型拟合的效果好B[解析]根据相关关系的概念知A正确;当r>0时,r越大,相关性越强,当r<0时,r越大,相关性越弱,故B不正确;对于一组数据的拟合程度的好坏的评价,一是残差点分布的带状区域越窄,拟合效果越好.二是R2越大,拟合效果越好,所以R2为0.98的模型比R2为0.80的模型拟合的效果好,C、D正确,故选 B.4.(2016·江西百校联盟模拟)已知对某超市某月(30天)每天顾客使用信用卡的人数进行了统计,得到样本的茎叶图(如图所示),则该样本的中位数、众数、极差分别是()A.44,45,56B.44,43,57C.44,43,56D.45,43,57B[解析]由茎叶图可知全部数据为10,11,20,21,22,24,31,33,35,35,37,38,43,43,43,45,46,47,48,49,50,51,52,52,55,56,58,62,66,67,中位数为43+452=44,众数为43,极差为67-10=57.选B.5.某中学高中部有300名学生.为了研究学生的周平均学习时间,从中抽取60名学生,先统计了他们某学期的周平均学习时间(单位:小时),再将学生的周平均学习时间分成5组:[40,50),[50,60),[60,70),[70,80),[80,90],并加以统计,得到如图所示的频率分布直方图.则高中部学生的周平均学习时间为(同一组中的数据用该组区间的中点值作代表)()A.63.5小时 B.62.5小时C .63小时 D.60小时A [解析]在高中部抽取的60名学生中,周平均学习时间分别落在[40,50),[50,60),[60,70),[70,80),[80,90]的人数依次为6,15,24,12,3.所以高中部学生的周平均学习时间为(6×45+15×55+24×65+12×75+3×85)÷60=63.5(小时).故选A. 6.对于下列表格所示的五个散点,已知求得的线性回归方程为y ^=0.8x -155.则实数m 的值为(A .8 B.8.2 C .8.4D.8.5A [解析]依题意得x =15×(196+197+200+203+204)=200,y =15×(1+3+6+7+m )=17+m 5,回归直线必经过样本点的中心,于是有17+m5=0.8×200-155,由此解得m =8.故选A.7.某校高一年级有900名学生,其中女生400名,按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为________.[解析]设抽取的男生人数为x ,男生有500人,根据分层抽样的特点,知45900=x500,所以x =25.[答案]258.已知甲、乙两组数据如茎叶图所示,若它们的中位数相同,平均数相同,则图中的m +n =________.[解析]根据茎叶图,得乙的中位数是33,所以甲的中位数也是33,即m =3;甲的平均数x 甲=13×(27+39+33)=33,乙的平均数是x 乙=14×(20+n +32+34+38)=33,所以n =8,所以m +n =11.[答案]119.某调查机构调查了某地100个新生婴儿的体重,并根据所得数据画出了样本的频率分布直方图(如图所示),则新生婴儿的体重(单位:kg)在[3.2,4.0)的人数是________.[解析]频率分布直方图反映样本的频率分布,每个小矩形的面积等于样本数据落在相应区间上的频率,故新生婴儿的体重在[3.2,4.0)的人数为100×(0.4×0.625+0.4×0.375)=40.[答案]4010.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业9月份的产品销量(单位:千箱)与单位成本(单位:元)的资料进行线性回归分析,得到结果如下:x =72,y =71,∑i=16x 2i =79, ∑i=16x i y i =1481.则销量每增加1千箱,单位成本约下降________元(结果保留5位有效数字). 附:回归直线的斜率和截距的最小二乘法公式分别为:[解析]由题意知b ^=1481-6×72×7179-6×⎝⎛⎭⎫722≈-1.8182,a ^=71-(-1.8182)×72≈77.36,所以y ^=-1.8182x +77.36,所以销量每增加1千箱,则单位成本约下降1.8182元.[答案]1.818211.为了对考试成绩进行分析,某中学从分数在70分(满分100分)以上的全体同学中随机抽取8位,他们的数学、物理分数对应如下表:(1)与物理“优”有关?(2)从物理或数学分数在80分以上的同学中任意挑选2名,求这2名同学的数学与物理分数恰好都在80分以上的概率.附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ).【解】(1)根据题中条件,对两变量进行分类,则数学“优”的有4人,“一般”的有4人;物理“优”的有6人,“一般”的有2人.列联表如下:则K 2=16×(2×4-4×6)8×8×10×6≈1.067<2.706,显然,没有90%的把握认为数学“优”与物理“优”有关.(2)由已知数表可以看出,物理或数学分数在80分以上的同学共6人,其中4人的物理与数学分数都在80分以上,设这4人分别为A 1,A 2,A 3,A 4,另外2人为B 1,B 2,则从中任选2人的所有基本事件为A 1A 2,A 1A 3,A 1A 4,A 1B 1,A 1B 2, A 2A 3,A 2A 4,A 2B 1,A 2B 2, A 3A 4,A 3B 1,A 3B 2, A 4B 1,A 4B 2, B 1B 2, 共15个,记“这2名同学的数学与物理分数恰好都在80分以上”为事件M ,则M 所包含的基本事件为A 1A 2,A 1A 3,A 1A 4, A 2A 3,A 2A 4, A 3A 4,共6个. 故P (M )=615=25,于是,这2名同学的数学与物理分数恰好都在80分以上的概率为25.12.(2016·武汉调研)一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,测得的数据如下:(1)如果y (2)根据(1)所求回归直线方程,预测此车间加工这种零件70个时,所需要的加工时间.附:[解](1)设所求的回归直线方程为y ^=b ^+a ^ 列表所以x =30,y =75,∑i=15x 2i =5 500,∑i=15x i y i =11 920,5xy =11 250.因为a ^=y -b ^x =75-0.67×30=54.9, 所以回归直线方程为y ^=0.67x +54.9.(2)由(1)所求回归直线方程可知,在x =70时, y ^=0.67×70+54.9=101.8(分钟).所以预测此车间加工这种零件70个时,所需要的加工时间为101.8分钟.13.(2016·大连模拟)2016年“双十一”当天,甲、乙两大电商进行了打折促销活动,某公司分别调查了当天在甲、乙电商购物的1000名消费者的消费金额,得到了消费金额的频数分布表如下:甲电商:甲、乙电商消费金额的中位数的大小;(2)运用分层抽样分别从甲、乙1000名消费者中各自抽出20人放在一起,在抽出的40人中,从消费金额不小于4千元的人中任选2人,求这2人恰好是来自不同电商消费者的概率.[解] (1)频率分布直方图如图所示,甲的中位数在区间[2,3)内,乙的中位数在区间[1,2)内,所以甲的中位数大.(2)运用分层抽样从甲的1000名消费者中抽出20人,其中消费金额不小于4千元的人数为2,记作a,b;运用分层抽样从乙的1000名消费者中抽出20人,其中消费金额不小于4千元的人数为4,记作1,2,3,4.在这6人中任意抽取2人,所得基本事件空间为:Ω={ab,a1,a2,a3,a4,b1,b2,b3,b4,12,13,14,23,24,34},共计15个元素.把“2人恰好是来自不同电商消费者”的事件记作A,则A={a1,a2,a3,a4,b1,b2,b3,b4},共计8个元素,所以P(A)=815.。

高考数学统计与统计案例专题卷(附答案)

高考数学统计与统计案例专题卷(附答案)一、单选题1.新高考改革后,某校2000名学生参加物理学考,该校学生物理成绩的频率分布直方图如图所示,若规定分数达到90分以上为A级,则该校学生物理成绩达到A级的人数是()A. 600B. 300C. 60D. 302.国庆70周年庆典磅礴而又欢快的场景,仍历历在目.已知庆典中某省的游行花车需要用到某类花卉,而该类花卉有甲、乙两个品种,花车的设计团队对这两个品种进行了检测.现从两个品种中各抽测了10株的高度,得到如下茎叶图.下列描述正确的是()A. 甲品种的平均高度大于乙品种的平均高度,且甲品种比乙品种长的整齐B. 甲品种的平均高度大于乙品种的平均高度,但乙品种比甲品种长的整齐C. 乙品种的平均高度大于甲品种的平均高度,且乙品种比甲品种长的整齐D. 乙品种的平均高度大于甲品种的平均高度,但甲品种比乙品种长的整齐3.某次歌唱比赛中,7位评委为某选手打出的分数分别为83,91,91,94,94,95,96,去掉一个最高分和一个最低分后,所剩数据的平均数为()A. 94B. 93C. 92D. 914.为了解某市居民用水情况,通过抽样,获得了100位居民某年的月均用水量(单位:吨).将数据按照,…,分成9组,绘制了如图所示的频率分布直方图.政府要试行居民用水定额管理,制定一个用水量标准.使的居民用水量不超过,按平价收水费,超出的部分按议价收费,则以下比较适合做为标准的是()A. 2.5吨B. 3吨C. 3.5吨D. 4吨5.某校高三年级有男生220人,学籍编号为1,2,...,220;女生380人,学籍编号为221,222, (600)为了解学生学习的心理状态,按学籍编号采用系统抽样的方法从这600名学生中抽取10人进行问卷调查(第一组采用简单随机抽样,抽到的号码为10),再从这10名学生中随机抽取3人进行座谈,则这3人中既有男生又有女生的概率是()A. B. C. D.6.如图的折线图是某超市2018年一月份至五月份的营业额与成本数据,根据该折线图,下列说法正确的是()A. 该超市2018年的前五个月中三月份的利润最高B. 该超市2018年的前五个月的利润一直呈增长趋势C. 该超市2018年的前五个月的利润的中位数为0.8万元D. 该超市2018年前五个月的总利润为3.5万元7.为了从甲、乙两组学生中选一组参加“喜迎祖国七十华诞,共建全国文明城市”知识竞赛活动,班主任老师将这两组学生最近6次的测试成绩进行统计,得到如图所示的茎叶图.若甲、乙两组的平均成绩分别是,则下列说法正确的是()A. ,乙组比甲组成绩稳定,应选乙组参加竞赛B. ,甲组比乙组成绩稳定,应选甲组参加竞赛C. ,甲组比乙组成绩稳定,应选甲组参加竞赛D. ,乙组比甲组成绩稳定,应选乙组参加竞赛8.为了节能减排,发展低碳经济,我国政府从2001年起就通过相关政策推动新能源汽车产业发展.下面的图表反映了该产业发展的相关信息:根据上述图表信息,下列结论错误的是()A. 2017年3月份我国新能源汽车的产量不超过万辆B. 2017年我国新能源汽车总销量超过万辆C. 2018年8月份我国新能源汽车的销量高于产量D. 2019年1月份我国插电式混合动力汽车的销量低于万辆9.某学校运动会的立定跳远和秒跳绳两个单项比赛分成预赛和决赛两个阶段.下表为名学生的预赛成绩,其中有三个数据模糊.秒跳绳(单位:次)在这名学生中,进入立定跳远决赛的有人,同时进入立定跳远决赛和30秒跳绳决赛的有6人,则()A. 号学生进入秒跳绳决赛B. 号学生进入秒跳绳决赛C. 号学生进入秒跳绳决赛D. 号学生进入秒跳绳决赛10.2010-2018年之间,受益于基础设施建设对光纤产品的需求,以及个人计算机及智能手机的下一代规格升级,电动汽车及物联网等新机遇,连接器行业增长呈现加速状态.根据该折线图,下列结论正确的个数为()①每年市场规模量逐年增加;②增长最快的一年为2013~2014;③这8年的增长率约为40%;④2014年至2018年每年的市场规模相对于2010年至2014年每年的市场规模,数据方差更小,变化比较平稳A. 1B. 2C. 3D. 4二、填空题(共7题;共7分)11.己知随机变量与有相关关系,当时,的预报值为________.12.若数据的方差为,则________.13.某学校高一、高二、高三年级的学生人数成等差数列,现用分层抽样的方法从这三个年级中抽取90人,则应从高二年级抽取的学生人数为________.14.某班的全体学生参加数学测试,成绩的频率分布直方图如图,数据的分组依次为:、、、,若低于分的人数是,则成绩不低于分的学生人数是________.15.已知样本7,8,9,的平均数是9,且,则此样本的方差是________.16.某中学采用系统抽样方法,从该校高三年级全体800名学生中抽50名学生做牙齿健康检查.现将800名学生从1到800进行编号.已知从33~48这16个数中取的数是42,则在第1小组1~16中随机抽到的数是________.17.2020年年初,新冠肺炎疫情袭击全国.口罩成为重要的抗疫物资,为了确保口罩供应,某工厂口罩生产线高速运转,工人加班加点生产.设该工厂连续5天生产的口罩数依次为,,,,(单位:十万只),若这组数据,,,,的方差为1.44,且,,,,的平均数为4,则该工厂这5天平均每天生产口罩________十万只.三、解答题(共6题;共60分)18.每年的12月4日为我国“法制宣传日”.天津市某高中团委在2019年12月4日开展了以“学法、遵法、守法”为主题的学习活动.已知该学校高一、高二、高三的学生人数分别是480人、360人、360人.为检查该学校组织学生学习的效果,现采用分层抽样的方法从该校全体学生中选取10名学生进行问卷测试.具体要求:每位被选中的学生要从10个有关法律、法规的问题中随机抽出4个问题进行作答,所抽取的4个问题全部答对的学生将在全校给予表彰.(1)求各个年级应选取的学生人数;(2)若从被选取的10名学生中任选3人,求这3名学生分别来自三个年级的概率;(3)若被选取的10人中的某学生能答对10道题中的7道题,另外3道题回答不对,记表示该名学生答对问题的个数,求随机变量的分布列及数学期望.19.清华大学自主招生考试题中要求考生从A,B,C三道题中任选一题作答,考试结束后,统计数据显示共有600名学生参加测试,选择A,B,C三题答卷数如下表:(Ⅰ)负责招生的教授为了解参加测试的学生答卷情况,现用分层抽样的方法从600份答案中抽出若干份答卷,其中从选择A题作答的答卷中抽出了3份,则应分别从选择B,C题作答的答卷中各抽出多少份?(Ⅱ)测试后的统计数据显示,A题的答卷得优的有60份,若以频率作为概率,在(Ⅰ)问中被抽出的选择A题作答的答卷中,记其中得优的份数为,求的分布列及其数学期望.20.近年来,国资委.党委高度重视扶贫开发工作,坚决贯彻落实中央扶贫工作重大决策部署,在各个贫困县全力推进定点扶贫各项工作,取得了积极成效,某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面积以及相应的管理时间的关系如下表所示:土地使用面积(单位:亩) 1 2管理时间(单位:月)并调查了某村300名村民参与管理的意愿,得到的部分数据如下表所示:参考公式:其中.临界值表:0.100 0.050 0.025 0.010 0.001参考数据:(1)求出相关系数的大小,并判断管理时间与土地使用面积是否线性相关?(2)是否有99.9%的把握认为村民的性别与参与管理的意愿具有相关性?(3)若以该村的村民的性别与参与管理意愿的情况估计贫困县的情况,则从该贫困县中任取3人,记取到不愿意参与管理的男性村民的人数为,求的分布列及数学期望.21.出版商为了解某科普书一个季度的销售量y(单位:千本)和利润x(单位:元/本)之间的关系,对近年来几次调价之后的季销售量进行统计分析,得到如下的10组数据.根据上述数据画出如图所示的散点图:参考公式及参考数据:①对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归直线的斜率和截距的公式分别为, .②参考数据:表中u i=Inx i,= .另:In4.06≈1.40.计算时,所有的小数都精确到0.01.(1)根据图中所示的散点图判断y=ax+b和y=clnx+d哪个更适宜作为销售量y关于利润x的回归方程类型?(给出判断即可,不需要说明理由);(2)根据(1)中的判断结果及参考数据,求出y关于x的回归方程;(3)根据回归方程分析:设该科普书一个季度的利润总额为:(单位:千元),当季销售量y为何值时,该书一个季度的利润总额预报值最大?(季利润总额=季销售量×每本书的利润)22.某险种的基本保费为(单位:元),继续购买该险种的投保人称为续保人,续保人本年度的保费与其上年度出险次数的关联如下:随机调查了该险种的200名续保人在一年内的出险情况,得到如下统计表:(I)记A为事件:“一续保人本年度的保费不高于基本保费”.求P(A)的估计值;(Ⅱ)记B为事件:“一续保人本年度的保费高于基本保费但不高于基本保费的160%”.求P(B)的估计值;(Ⅲ)求续保人本年度的平均保费估计值.23.为了研究55岁左右的中国人睡眠质量与心脑血管病是否有关联,某机构在适龄人群中随机抽取了100万个样本,调查了他们每周是否至少三个晚上出现了三种失眠症状,症状:入睡困难;症状:醒得太早;症状:不能深度入睡或做梦,得到的调查数据如下:数据1:出现症状人数为8.5万,出现症状人数为9.3万,出现症状人数为6.5万,其中含症状同时出现1.8万人,症状同时出现1万人,症状同时出现2万人,症状同时出现0.5万人;数据2:同时有失眠症状和患心脑血管病的人数为5万人,没有失眠症状且无心脑血管病的人数为73万人.(Ⅰ)依据上述数据试分析55岁左右的中国人患有失眠症的比例大约多少?(Ⅱ)根据以上数据完成如下列联表,并根据所填列联表判断能否有95%的把握说明失眠与心脑血管病存在“强关联”?参考数据如下:0.500.05参考公式:答案一、单选题1. B2. D3. B4. B5. D6. D7. D8. D9. B 10. C二、填空题11. 7 12. 13. 30 14. 15 15. 2 16. 10 17. 1.6三、解答题18. (1)解:由题意,知高一、高二、高三年级的人数之比为,由于采用分层抽样方法从中选取人,因此,高一年级应选取人,高二年级应选取人,高三年级应选取人.(2)解:由(1)知,被选取的名学生高一、高二、高三年级分别有人、人、人,所以,从这名学生任选名,且名学生分别来自三个年级的概率为.(3)解:由题意知,随机变量的所有可能取值为,且服从超几何分布,().所以,随机变量的分布列为所以,随机变量的数学期望为.19. 解:解:(Ⅰ)由题意可得:应分别从B,C题的答卷中抽出5份,2份.(Ⅱ)由题意可知,A题答案得优的概率为,显然被抽出的A题的答案中得优的份数x的可能取值为0,1,2,3,且.;;;随机变量x的分布列为:所以.20. (1)解:依题意:故则,故管理时间与土地使用面积线性相关.(2)解:依题意,完善表格如下:计算得的观测值为故有99.9%的把握认为村民的性别与参与管理的意愿具有相关性.(3)解:依题意,的可能取值为0,1,2,3,从该贫困县中随机抽取一名,则取到不愿意参与管理的男性村民的概率为,故故的分布列为则数学期望为(或由,得21. (1)解:y=cln x+d更适宜作为销售量y关于利润x的回归方程类型(2)解:令u=lnx,先建立y关于u的线性回归方程,由于,=6.63+10.20×1.75=24.48,所以x关于u的线性回归方程为=24.48-10.20u,即y关于x的回归方程为=24.48-10.20lnx.(3)解:由题意得z=xy=x(24.48-10.20lnx),z'=[x(24.48-10.20lnx)]'=14.28-10.20lnx,令z'=0 即14.28-10.20lnx=0,解得lnx=1.40,所以x≈4.06.当x∈(0,4.06)时,z'>0,所以z在(0,4.06)上单调递增,当x∈(4.06,+∞)时,z'<0,所以z在(4.06,+∞)上单调递减,所以当x=4.06时,即季销量y=10.20千本时,季利润总额预报值最大22. 解:(I)记A为事件:“一续保人本年度的保费不高于基本保费”.事件A的人数为:60+50=110,该险种的200名续保,P(A)的估计值为:;(Ⅱ)记B为事件:“一续保人本年度的保费高于基本保费但不高于基本保费的160%”.事件B的人数为:30+30=60,P(B)的估计值为:;(Ⅲ)续保人本年度的平均保费估计值为1.1925a.23. 解:(Ⅰ)设{出现症状的人}、{出现症状的人}、{出现症状的人}(表示有限集合元素个数)根据数据1可知,,,,所以得患失眠症总人数为20万人,比例大约为20%(Ⅱ)根据数据2可得:有95%的把握说明失眠与中风或心脏病存在“强关联”.第11 页共11 页。

2023年高考数学微专题练习专练66高考大题专练六概率与统计的综合运用含解析理

专练66 高考大题专练(六) 概率与统计的综合运用1.[2022·全国甲卷(理),19]甲、乙两个学校进行体育比赛,比赛共设三个项目,每个项目胜方得10分,负方得0分,没有平局.三个项目比赛结束后,总得分高的学校获得冠军.已知甲学校在三个项目中获胜的概率分别为0.5,0.4,0.8,各项目的比赛结果相互独立.(1)求甲学校获得冠军的概率;(2)用X表示乙学校的总得分,求X的分布列与期望.2.[2021·全国甲卷]甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),3.[2022·全国乙卷(理),19]某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m 2)和材积量(单位:m 3),得到如下数据:并计算得∑i =110x 2i =0.038,∑i =110y 2i =1.6158,∑i =110x i y i =0.2474.(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量; (2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01); (3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186m 2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.附:相关系数r =i =1n(x i -x -)(y i -y -)i =1n (x i -x -)2i =1n (y i -y -)2, 1.896≈1.377.4.[2022·江西鹰潭高三模拟]某厂生产不同规格的一种产品,根据检测标准,其合格产品的质量y(g )与尺寸x(mm )之间近似满足关系式y =c·x b(b 、c 为大于0的常数).按照某项指标测定,当产品质量与尺寸的比在区间(e 9,e7)≈(0.302,0.388)内时为优等品.现随机抽取6件合格产品,测得数据如下:(1)现从抽取的6件合格产品中再任选3件,记ξ为取到优等品的件数,试求随机变量ξ的期望;(2)根据测得数据作了初步处理,得相关统计量的值如表:①根据所给统计量,求y 关于x 的回归方程;②已知优等品的收益z(单位:千元)与x 、y 的关系为z =2y -0.32x ,则当优等品的尺寸x 为何值时,收益z 的预报值最大?附:对于样本(v i ,u i )(i =1,2,…,n),其回归直线u =b·v+a 的斜率和截距的最小二乘估计公式分别为:b ^=∑ni =1(v i -v )(u i -u )∑ni =1(v i -v )2=∑ni =1v i u i -nvu ∑n i =1v 2i -nv 2, a ^=u -b ^v ,e ≈2.7182.5.[2022·河南省六市联考]在全球抗击新冠肺炎疫情期间,我国医疗物资生产企业加班加点生产防疫物品,保障抗疫一线医疗物资供应,某口罩生产厂商在加大生产的同时,狠抓质量管理,不定时抽查口罩质量,质检人员从某日所生产的口罩中随机抽取了100个,将其质量指标值分成以下五组:[100,110),[110,120),[120,130),[130,140),[140,150],得到如下频率分布直方图.(1)规定:口罩的质量指标值越高,说明该口罩质量越好,其中质量指标值低于130的为二级口罩,质量指标值不低于130的为一级口罩,现从样本口罩中利用分层抽样的方法随机抽取8个口罩,再从中抽取3个,求抽取的口罩至少有一个一级口罩的概率;(2)在2021年“双十一”期间,某网络购物平台推出该型号口罩订单“秒杀”抢购活动,甲、乙、丙三人分别在该平台参加一次抢购活动,假定甲、乙、丙抢购成功的概率分别为0.1,0.2,0.3,记三人抢购成功的总次数为X,求X的分布列及数学期望E(X).专练66 高考大题专练(六)概率与统计的综合运用1.解析:(1)设三个项目比赛中甲学校获胜分别为事件A,B,C,易知事件A,B,C相互独立.甲学校获得冠军,对应事件A,B,C同时发生,或事件A,B,C中有两个发生,故甲学校获得冠军的概率为p=P(ABC+A-BC+A B-C+AB C-)=P (ABC )+P (A -BC )+P (A B -C )+P (AB C -)=0.5×0.4×0.8+(1-0.5)×0.4×0.8+0.5×(1-0.4)×0.8+0.5×0.4×(1-0.8) =0.16+0.16+0.24+0.04 =0.6.(2)由题意得,X 的所有可能取值为0,10,20,30.易知乙学校在三个项目中获胜的概率分别为0.5,0.6,0.2,则P (X =0)=(1-0.5)×(1-0.6)×(1-0.2)=0.16,P (X =10)=0.5×(1-0.6)×(1-0.2)+(1-0.5)×0.6×(1-0.2)+(1-0.5)×(1-0.6)×0.2=0.44,P (X =20)=0.5×0.6×(1-0.2)+0.5×(1-0.6)×0.2+(1-0.5)×0.6×0.2=0.34, P (X =30)=0.5×0.6×0.2=0.06,所以X 的分布列为则E (X )2.解析:(1)根据题表中数据知,甲机床生产的产品中一级品的频率是150200=0.75,乙机床生产的产品中一级品的频率是120200=0.6.(2)根据题表中的数据可得K 2=400×(150×80-120×50)2200×200×270×130=40039≈10.256.因为10.256>6.635,所以有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异.3.解析:(1)该林区这种树木平均一棵的根部横截面积x -=0.610=0.06(m 2),平均一棵的材积量y -=3.910=0.39(m 3).(2)由题意,得i =110(x i -x -)2=i =110x 2i -10x -2=0.038-10×0.062=0.002,i =110(y i -y -)2=i =110y 2i -10y -2=1.6158-10×0.392=0.0948,i =110(x i -x -)(y i -y -)=i =110x i y i -10x -y -=0.2474-10×0.06×0.39=0.0134,所以相关系数r =0.01340.002×0.0948=0.01341.896×0.0001≈0.01340.01377≈0.97.(3)因为树木的材积量与其根部横截面积近似成正比,所以比例系数k =y -x -=0.390.06=6.5,所以该林区这种树木的总材积量的估计值为186×6.5=1209(m 3). 4.解析:(1)由表可知,抽取的6件合格产品中有3件优等品, 所以,ξ的所有可能取值为0,1,2,3,P(ξ=0)=C 33 C 36 =120,P(ξ=1)=C 13 C 23 C 36 =920,P(ξ=2)=C 23 C 13 C 36 =920,P(ξ=3)=C 33C 36=120, 所以,随机变量ξ的期望为E(ξ)=0×120+1×920+2×920+3×120=32.(2)①∵y=c·x b,∴ln y =ln c +b ln x ,∵∑6i =1 (ln x i )=24.6,∑6i =1(ln y i )=18.3, ∴ln x =16∑6i =1 (ln x i )=4.1,ln y =16∑6i =1(ln y i )=3.05,∴b ^=∑6i =1(ln x i ·ln y i )-6×ln x ×ln y∑6i =1(ln x i )2-6×(ln x )2=75.3-6×4.1×3.05101.4-6×4.12=0.5, a ^=ln y -b ^ln x =3.05-0.5×4.1=1, ∴ln y =1+0.5ln x ,所以,c =e, 故y 关于x 的回归方程为y ^=e x 0.5; ②由①知,y ^=e x 0.5,∴z ^=2y ^-0.32x =2e x 0.5-0.32x =-0.32(x -e 0.32)2+e 20.32,当x =e 0.32,即x =(e 0.32)2≈72时,z ^取得最大值,故当优等品的尺寸x 为72mm 时,收益z 的预报值最大.5.解析:(1)由频率分布直方图可得,二级品的频率为10×(0.005+0.04+0.03)=0.75, 一级品的频率为10×(0.02+0.005)=0.25,按分层抽样抽取8个口罩,则其中二级、一级口罩个数分别为6、2,故事件“至少有一个一级品”的概率P =C 26 C 12 +C 16 C 22 C 38=914. (2)由题知X 的可能取值为0,1,2,3, P(X =0)=0.9×0.8×0.7=0.504,P(X =1)=0.1×0.8×0.7+0.9×0.2×0.7+0.9×0.8×0.3=0.398, P(X =2)=0.1×0.2×0.7+0.1×0.8×0.3+0.9×0.2×0.3=0.092, P(X =3)=0.1×0.2×0.3=0.006, 所以X 的分布列为E(X)。

2018届高考数学高考大题专项突破六高考中的概率、统计与统计案例文新人教A版

高考大题专项练六高考中的概率、统计与统计案例1.(2017陕西渭南二模,文18)我国是世界上严重缺水的国家,城市缺水问题较为突出,某市政府为了鼓励居民节约用水,计划在本市试行居民生活用水定额管理,即确定一个合理的居民月用水量标准x(单位:吨),用水量不超过x的部分按平价收费,超过x的部分按议价收费,为了了解全市市民月用水量的分布情况,通过抽样,获得了100位居民某年的月用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a的值;(2)已知该市有80万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由;(3)若该市政府希望使85%的居民每月的用水量不超过标准x(单位:吨),估计x的值,并说明理由.2.为迎接即将举行的集体跳绳比赛,高一年级对甲、乙两个代表队各进行了6轮测试,测试成绩(单位:次/分钟)如下表:(1)补全茎叶图,并指出乙队测试成绩的中位数和众数;(2)试用统计学中的平均数、方差知识对甲、乙两个代表队的测试成绩进行分析.3.(2017河南洛阳一模,文18)某省电视台为了解该省卫视一档成语类节目的收视情况,抽查东、西两部各5个城市,得到观看该节目的人数(单位:千人)如下茎叶图所示,其中一个数字被污损.(1)求东部各城市观看该节目观众平均人数超过西部各城市观看该节目观众平均人数的概率;(2)随着节目的播出,极大激发了观众对成语知识的学习积累的热情,从中获益匪浅,现从观看节目的观众中随机统计了4位观众的周均学习成语知识的时间(单位:小时)与年龄(单位:岁),并制作了对照表(如下表所示);由表中数据,试求线性回归方程x+,并预测年龄为50岁观众周均学习成语知识时间.参考公式:.4.(2017安徽安庆二模,文19)为响应阳光体育运动的号召,某县中学生足球活动正如火如荼地开展,该县为了解本县中学生的足球运动状况,根据性别采取分层抽样的方法从全县24 000名中学生(其中男生14 000人,女生10 000人)中抽取120名,统计他们平均每天足球运动的时间,如下表:(平均每天足球运动的时间单位为小时,该县中学生平均每天足球运动的时间范围是[0,3])男生平均每天足球运动的时间分布情况:女生平均每天足球运动的时间分布情况:(1)请根据样本估算该校男生平均每天足球运动的时间(结果精确到0.1);(2)若称平均每天足球运动的时间不少于2小时的学生为“足球健将”.低于2小时的学生为“非足球健将”.①请根据上述表格中的统计数据填写下面2×2列联表,并通过计算判断,能否有90%的把握认为是否为“足球健将”与性别有关?②若在足球活动时间不足1小时的男生中抽取2名代表了解情况,求这2名代表都是足球运动时间不足半小时的概率.参考公式:K2=,其中n=a+b+c+d.〚导学号24190969〛5.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费x i和年销售量y i(i=1,2, (8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i=w i.(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:①当年宣传费x=49时,年销售量及年利润的预报值是多少?②当年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为.6.(2017福建福州一模,文19)在国际风帆比赛中,成绩以低分为优胜,比赛共11场,并以最佳的9场成绩计算最终的名次.在一次国际风帆比赛中,前7场比赛结束后,排名前8位的选手积分如下表:(1)根据表中的比赛数据,比较A与B的成绩及稳定情况;(2)从前7场平均分低于6.5的运动员中,随机抽取2个运动员进行兴奋剂检查,求至少1个运动员平均分不低于5分的概率;(3)请依据前7场比赛的数据,预测冠亚军选手,并说明理由.〚导学号24190970〛7.(2017辽宁抚顺一模,文18)某学校为了了解本校高一学生每周课外阅读时间(单位:小时)的情况,按10%的比例对该校高一600名学生进行抽样统计,将样本数据分为5组:第一组[0,2),第二组[2,4),第三组[4,6),第四组[6,8),第五组[8,10],并将所得数据绘制成如图所示的频率分布直方图:(1)求图中的x的值;(2)估计该校高一学生每周课外阅读的平均时间;(3)为了进一步提高本校高一学生对课外阅读的兴趣,学校准备选拔2名学生参加全市阅读知识竞赛,现决定先在第三组、第四组、第五组中用分层抽样的方法,共随机抽取6名学生,再从这6名学生中随机抽取2名学生代表学校参加全市竞赛,在此条件下,求第三组中恰有一名学生被抽取的概率.8.(2017安徽淮南一模,文18)为了弘扬民族文化,某校举行了“我爱国学,传诵经典”考试,并从中随机抽取了100名考生的成绩(得分均为整数,满分100分)进行统计制表,其中成绩不低于80分的考生被评为优秀生,请根据频率分布表中所提供的数据,用频率估计概率,回答下列问题.(1)求a,b的值及随机抽取一考生恰为优秀生的概率;(2)按频率分布表中的成绩分组,采用分层抽样抽取20人参加学校的“我爱国学”宣传活动,求其中优秀生的人数;(3)在第(2)问抽取的优秀生中指派2名学生担任负责人,求至少一人的成绩在[90,100]的概率.9.(2017山东潍坊二模,文16)市政府为调查市民对本市某项调控措施的态度,随机抽取了100名市民,统计了他们的月收入频率分布和对该项措施的赞成人数,统计结果如下表所示:(1)用样本估计总体的思想比较该市月收入低于20(百元)和不低于30(百元)的类人群在该项措施的态度上有何不同;(2)现从上班中月收入在[10,20)和[60,70]的市民中各随机抽取一个进行跟踪调查,求抽取的两个人恰好对该措施一个赞成一个不赞成的概率.〚导学号24190971〛高考大题专项练六高考中的概率、统计与统计案例1.解 (1)由频率分布直方图,可得(0.08+0.16+a+0.40+0.52+a+0.12+0.08+0.04)×0.5=1,解得a=0.30.(2)由频率分布直方图可知,100位居民每人月用水量不低于3吨的频率为(0.12+0.08+0.04)×0.5=0.12,由以上样本频率分布,可以估计全市80万居民中月均用水量不低于3吨的人数为800 000×0.12=96 000.(3)∵前6组的频率之和为(0.08+0.16+0.30+0.40+0.52+0.30)×0.5=0.88>0.85,而前5组的频率之和为(0.08+0.16+0.30+0.40+0.52)×0.5=0.73<0.85,∴2.5≤x<3.由0.3×(x-2.5)=0.85-0.73,解得x=2.9,因此,估计月用水量标准为2.9吨时,85%的居民每月的用水量不超过标准.2.解 (1)补全茎叶图如下:乙队测试成绩的中位数为72,众数为75.(2)=72,[(63-72)2+(66-72)2+(72-72)2+(73-72)2+(76-72)2+(82-72)2]=39;=72,[(62-72)2+(68-72)2+(69-72)2+(75-72)2+(75-72)2+(83-72)2]=44,因为,所以甲、乙两队水平相当,但甲队发挥较稳定.3.解 (1)设被污损的数字为a,则a有10种情况.令88+89+90+91+92>83+83+87+90+a+99,则a<8,故东部各城市观看该节目观众平均人数超过西部各城市观看该节目观众平均人数,有8种情况,其概率为.(2)=35,=3.5,.∴x+.当x=50时,=4.55小时.4.解 (1)男生抽取的人数为120×=70,女生抽取人数为120-70=50,∴x=5,y=2,∴该校男生平均每天足球运动的时间约为≈1.6(小时);(2)①由表格可知∴K2=≈2.743>2.706,∴能有90%的把握认为是否为“足球健将”与性别有关;②记不足半小时的两人为a,b,足球运动时间在[0.5,1)内的3人为1,2,3,则总的基本事件有10个,取2名代表都是足球运动时间不足半小时的是ab,故概率为.5.解 (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w=,先建立y关于w的线性回归方程.由于=68,=563-68×6.8=100.6,所以y关于w的线性回归方程为=100.6+68w,因此y关于x的回归方程为=100.6+68.(3)①由(2)知,当x=49时,年销售量y的预报值=100.6+68=576.6,年利润z的预报值=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z的预报值=0.2(100.6+68)-x=-x+13.6+20.12.所以当=6.8,即x=46.24时,取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.6.解 (1)由表格中的数据,我们可以分别求出运动员A和B前7场比赛积分的平均数和方差,作为度量两运动员比赛的成绩及稳定性的依据.运动员A的平均分×21=3,方差[(3-3)2+(2-3)2+(2-3)2+(2-3)2+(2-3)2+(4-3)2+(6-3)2]=2;运动员B的平均分×28=4,方差[(1-4)2+(1-4)2+(3-4)2+(5-4)2+(10-4)2+(4-4)2+(4-4)2]=8,从平均分和积分的方差来看,运动员A的平均积分及积分的方差都比运动员B的小, 也就是说,在前7场比赛过程中,运动员A的成绩较为优秀,且表现也较为稳定.(2)表中平均分低于6.5分的运动员共有5个,其中平均分低于5分的运动员有3个,平均分不低于5分且低于6.5分的运动员有2个,从这5个数据中任取2个,基本事件总数n=10,从3个运动员中任取2人的事件数为3, 至少1个运动员平均分不低于5分的对立事件是取到的两人的平均分都低于5分,∴至少1个运动员平均分不低于5分的概率P=1-.(3)尽管此时还有4场比赛没有进行,但这里我们可以假设每位选手在各自的11场比赛中发挥的水平大致相同,因而可以把前7场比赛的成绩看作总体的一个样本,并由此估计每位运动员最后的成绩,从已结束的7场比赛的积分来看,运动员A的成绩最为出色,而且表现最为稳定,故预测A运动员获得最后的冠军,而运动员B和C平均分相同,但运动员C得分整体呈下降趋势,所以预测运动员C将获得亚军.7.解 (1)由题设可知,(0.150+0.200+x+0.050+0.025)×2=1,解得x=0.075.(2)估计该校高一学生每周课外阅读的平均时间为:=1×0.3+3×0.4+5×0.15+7×0.1+9×0.05=3.40(小时).(3)由题意知从第三组、第四组、第五组中依次分别抽取3名学生,2名学生和1名学生,设第三组抽到的3名学生是A1,A2,A3,第四组抽取的学生是B1,B2,第五组抽到的学生是C1,则一切可能的结果组成的基本事件空间为:Ω={(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A1,C1),(A2,B1),(A2,B2),(A2,C1),(A3,B1),(A3,B2),(A3,C1),(B1,B2),(B1,C1),(B2,C1)},共由15个基本事件组成,设“第三组中恰有一名学生被抽取”为事件A,则A中有9个基本事件,故第三组中恰有一名学生被抽取的概率P(A)=.8.解 (1)由频率分布表得,解得a=20,b=0.35,由频率分布表可得随机抽取一考生恰为优秀生的概率为:P=0.25+0.15=0.4.(2)按成绩分层抽样抽取20人时,优秀生应抽取20×0.4=8(人).(3)8人中,成绩在[80,90)的有20×0.25=5(人),成绩在[90,100]的有20×0.15=3(人),从8个人中选2个人,结果共有n=28种选法,其中至少有一人成绩在[90,100]的情况有两种:可能有1人成绩在[90,100],也可能有2人成绩在[90,100],所以共有5×3+3=18(种),故至少一人的成绩在[90,100]的概率P=.9.解 (1)由表知,样本中月收入低于20(百元)的共有5人,其中持赞成态度的共有2人,赞成人数的频率p1=,月收入不低于30(百元)的共有75人,其中持赞成态度的共有64人,赞成人数的频率p2=.∵,∴根据样本估计总体思想可知月收入不低于30(百元)的人群对该措施持肯定态度的比月收入低于20(百元)的人群中持肯定态度的比例要高.(2)将月收入在[10,20)中,不赞成的3人记为a1,a2,a3,赞成的2人记为a4,a5,月收入在[60,70)中不赞成的1人记为b1,赞成的3人记为b2,b3,b4,从月收入在[10,20)和[60,70]的人中各随机抽取1人,基本事件总数:n=5×4=20,其中事件A“抽取的两个人恰好对该措施一个赞成一个不赞成”共包含:(a1,b2),(a1,b3),(a1,b4),(a2,b2),(a2,b3),(a2,b4),(a3,b2),(a3,b3),(a3,b4),(a4,b1),(a5,b1),共11个,∴抽取的两个人恰好对该措施一个赞成一个不赞成的概率P=.。

高考数学统考一轮复习课后限时集训62变量间的相关关系统计案例理含解析新人教

学习资料课后限时集训(六十二) 变量间的相关关系、统计案例建议用时:40分钟一、选择题1.如图是相关变量x,y的散点图,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程错误!=错误!1x+错误!1,相关系数为r1;方案二:剔除点(10,21),根据剩下数据得到线性回归直线方程错误!=错误!2x+错误!2,相关系数为r2.则()A.0<r1<r2<1 B.0<r2<r1<1C.-1<r1<r2<0 D.-1<r2<r1<0D[根据相关变量x,y的散点图知,变量x,y具有负线性相关关系,且点(10,21)是离群值.方案一中,没剔除离群值,线性相关性弱些,成负相关;方案二中,剔除离群值,线性相关性强些,也是负相关.所以相关系数-1<r2<r1<0.故选D.]2.(2020·全国卷Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i,y i)(i=1,2,…,20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是()A.y=a+bx B.y=a+bx2C.y=a+b e x D.y=a+b ln xD[根据散点图,用光滑的曲线把图中各点依次连起来(图略),由图并结合选项可排除A,B,C,故选D.]3.为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系.设其回归直线方程为错误!=错误!x+错误!.已知.该班某学生的脚长为24,据此估计其身高为()A.160 cm B.163 cm C.166 cm D.170 cm4.现行普通高中学生在高一时面临着选科的问题,学校抽取了部分男、女学生意愿的一份样本,制作出如下两个等高堆积条形图:根据这两幅图中的信息,下列哪个统计结论是不正确的()A.样本中的女生数量多于男生数量B.样本中有两理一文意愿的学生数量多于有两文一理意愿的学生数量C.样本中的男生偏爱两理一文D.样本中的女生偏爱两文一理D[由条形图知女生数量多于男生数量,有两理一文意愿的学生数量多于有两文一理意愿的学生数量,男生偏爱两理一文,女生中有两理一文意愿的学生数量多于有两文一理意愿的学生数量,故选D.]5.某医疗所为了检查新开发的流感疫苗对甲型H1N1流感的预防作用,把1 000名注射疫苗的人与另外1 000名未注射疫苗的人半年的感冒记录作比较,提出假设H0:“这种疫苗不能起到预防甲型H1N1流感的作用”,并计算得P(K2≥6。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

- 1 -
高考数学专题突破限时集训
专题限时集训(六) 统计与统计案例
[专题通关练]
(建议用时:20分钟)
1.下列说法中正确的是( )
A.先把高三年级的2 000名学生编号:1到2 000,再从编号为1到50的50名学生中
随机抽取1名学生,其编号为m,然后抽取编号为m+50,m+100,m+150,…的学生,
这样的抽样方法是分层抽样法

B.线性回归直线y^=b^x+a^不一定过样本中心点(x,y)
C.若两个随机变量的线性相关性越强,则相关系数r的值越接近于1

D.若一组数据1,a,3的平均数是2,则该组数据的方差是23
D [对于A,先把高三年级的2 000名学生编号:1到2 000,再从编号为1到50的50
名学生中随机抽取1名学生,其编号为m,然后抽取编号为m+50,m+100,m+150,…

的学生,这样的抽样方法是系统抽样,故A项错误;对于B,线性回归直线y^=b^x+a^一定过
样本中心点(x,y),故B项错误;对于C,若两个随机变量的线性相关性越强,则相关系
数r的绝对值越接近于1,故C项错误;对于D,若一组数据1,a,3的平均数是2,则a=2,

则该组数据的方差是13×[]1-222-223-22=23,故D项正确,故选D.]
2.[重视题](2019·青岛一模)调查机构对某高科技行业进行调查统计,得到该行业从业者
学历分布饼状图、从事该行业岗位分布条形图,如图所示.

相关文档
最新文档