2010年高考数学一轮复习讲义:用样本估计总体及线性相关关系

合集下载

高考数学一轮专项复习ppt课件-成对数据的统计分析(通用版)

高考数学一轮专项复习ppt课件-成对数据的统计分析(通用版)
A.y=a+bx B.y=a+bx2 C.y=a+bex D.y=a+bln x
答案
高考一轮总复习•数学
第14页
解析:由散点图分布可知,散点图分布在一个对数型函数图象的附近,因此最适宜作为 发芽率 y 和温度 x 的回归方程类型是 y=a+bln x.故选 D.
解析
高考一轮总复习•数学
第15页
4.在下列两个分类变量 X,Y 的样本频数列联表中,可以判断 X,Y 之间有无关系的
高考一轮总复习•数学
第6页
二 样本相关系数
1.r=
n
xi- x yi- y
i=1
.
n
xi- x 2
i=1
n
yi- y 2
i=1
2.当 r>0 时,称成对样本数据 正相关 ;当 r<0 时,称成对样本数据 负相关 . 3.|r|≤1.当|r|越接近 1 时,成对样本数据的线性相关程度越 强 ;当|r|越接近 0 时,成 对样本数据的线性相关程度越 弱 .
又因为变量 x,y 呈负相关,所以-r1>-r2,即 r1<r2.
解析 答案
高考一轮总复习•数学
第23页
题型 一元线性回归模型 典例 2 人类社会正进入数字时代,网络成为了生活中必不可少的工具,智能手机也给我 们的生活带来了许多方便.但是这些方便又时尚的手机,却也让我们的眼睛离健康越来越 远.为了解手机对视力的影响程度,某研究小组在经常使用手机的大学生中进行了随机调查, 并对结果进行了换算,统计了大学生一个月中平均每天使用手机的时间 x(单位:h)和视力损 伤指数 y 的数据如下表:
7
xiyi-7 x y
所以b^=i=1
也可用b^=i=1
.

高考数学10.2用样本估计总体与变量间的相关关系

高考数学10.2用样本估计总体与变量间的相关关系

2013版高考数学一轮复习精品学案:第十章统计、统计案例10.2用样本估计总体与变量间的相关关系【高考新动向】一、用样本估计总体(一) 考纲点击1.了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率折线图、茎叶图,理解它们各自的特点;2.理解样本数据标准差的意义和作用,会计算数据标准差;3.能从样本数据中提取基本的数字特征(如平均数、标准差),并给出合理的解释;4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想;5.会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.(二)热点提示1.频率分布直方图、茎叶图、平均数、方差、标准差是考查的重点,同时考查对样本估计总体的思想的理解;2. 频率分布直方等内容经常与概率等知识相结合出题;3.题型以选择题和填空题为主,属于中低档题。

二、变量间的相关关系(一)考纲点击1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.(二)热点提示1.以考查线性回归系数为主,同时可考查利用散点图判断两个变量间的相关关系;2.以实际生活为背景,重在考查回归方程的求法;3.在高考题中本部分的命题主要是以选择、填空题为主,属于中档题目。

【考纲全景透析】一、用样本估计总体1.作频率分布直方图的步骤(1)求极差(即一组数据中最大值与最小值的差);(2)决定组距与组数;(3)将数据分组;(4)列频率分布表;(5)画频率分布表.2.频率分布折线图和总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得频率分布折线图;(2)总体密度曲线:随着样本容量的增加,作图所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,即总体密度曲线.3.标准差和方差(1)标准差是样本数据到平均数的一种平均距离;(2)x是样本数(3)方差: (n据,n是样本容量,x是样本平均数)注:现实中的总体所包含个体数往往是很多的,如何求得总体的平均数和标准差呢?(通常的做法是用样本的平均数和标准差去估计总体的平均数与标准差,这与有样本的频率分布近似代替总体分布是类似的,只要样本的代表性好,这样做就是合理的,也是可以接受的.)4.利用频率分布直方图估计样本的数字特征(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值;(2)平均数:平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和;(3)众数:在频率分布直方图中,众数是最高的矩形的中点的横坐标.二、变量间的相关关系1.两个变量的线性相关(1)正相关在散点图中,点散布在从左下角到右上角的区域.对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.回归方程 (1)最小二乘法求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法. (2)回归方程方程ˆybx a =+是两个具有线性相关关系的变量的一组数据1122(,),(,),(,)n n x y x y x y L 的回归方程,期中,a b 是待定参数.1122211()()()nni i i ii i n ni i i i x x y y x y nx yb x x x nx a y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑ 注:相关关系与函数关系的异同点(相同点:两者均是指两个变量的关系.不同点:①函数关系是一种确定的关系,相关关系是一种非确定的关系;②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系)【热点难点全析】一、用样本估计总体(一)频率分布直方图在总体估计中的应用 ※相关链接※频率分布直方图反映样本的频率分布(1)频率分布直方图中横坐标表示组距,纵坐标表示频率组距,频率=组距×频率组距. (2)频率分布直方图中各小长方形的面积之和为1,因此在频率分布直方图中组距是一个固定值,所以各小长方形高的比也就是频率比.(3)频率分布表和频率分布直方图是一组数据频率分布的两种形式,前者准确,后者直观.(4)众数为最高矩形中点的横坐标.(5)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标.※例题解析※〖例〗为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图,图中从左到右各小长方形面积之比为2:4:17:15:9:3,第二小组频数为12.(1)第二小组的频率是多少?样本容量是多少?(2)若次数在110以上(含110次)为达标,试估计该学生全体高一学生的达标率是多少?(3)在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由.思路解析:利用面积求得每组的频率→求样本容量→求频率和→求达标率→分析中位数.解答:(1)由已知可设每组的频率为2x,4x,17x,15x,9x,3x.则2x+4x+17x+15x+9x+3x=1,解得x=0.02.则第二小组的频率为0.02×4=0.08,样本容量为12÷0.08=150.(2)次数在110次以上(含110次)的频率和为17×0.02+15×0.02+9×0.02+3×0.02=0.88,则高一学生的达标率为0.88×100%=88%.(3)在这次测试中,学生跳绳次数的中位数落在第四组.因为中位数为平分频率分布直方图的面积且垂直于横轴的直线与横轴交点的横坐标.注:利用样本的频率分布可近似地估计总体的分布,要比较准确地反映出总体分布的情况,必须准确地作出频率分布表和频率分布直方图,充分利用所给的数据正确地作出估计.(二)用样本的分布估计总体※相关链接※茎叶图刻画数据的优点(1)所有的数据信息都可以从茎叶图中得到.(2)茎叶图便于记录和表示,且能够展示数据的分布情况.注:当数据是两位有效数字时,用茎叶图显得容易、方便.而当样本数据较大和较多时,用茎叶图表示,就显得不太方便.※例题解析※〖例〗在某电脑杂志的一篇目文章中,每个句子的字数如下:10,28,31,17,23,27,18,15,26,24,20,19,36,27,14,25,15,22,11,24,27,17.在某报纸的一篇文章中,每个句子中所含的字数如下:27,39,33,24,28,19,32,41,33,27,35,12,36,41,27,13,22,23,18,46,32,22.(1)将这两组数据用茎叶图表示;(2)将这两组数据进行比较分析,得到什么结论?思路解析:(1)将十位数字作为茎,个位数字作为叶,逐一统计;(2)根据茎叶图分析两组数据,得到结论.解答:(1)如图:(2)电脑杂志上每个句子的字数集中在10~30之间,中位数为22.5;而报纸上每个句子的字数集中在10~40之间,中位数为27.5.可以看出电脑杂志上每个句子的平均字数比报纸上每个句子的平均字数要少.说明电脑杂志作为读物须通俗易懂、简明.(三)用样本的数字特征估计总体的数字特征〖例〗甲乙二人参加某体育项目训练,近期的五次测试成绩得分情况如图.(1)分别求出两人得分的平均数与方差;(2)根据图和上面算得的结果,对两人的训练成绩作出评价.思路解析:(1)先通过图象统计出甲、乙二人的成绩;(2)利用公式求出平均数、方差,再分析两人的成绩,作出评价.解答:(1)由图象可得甲、乙两人五次测试的成绩分别为 甲:10分,13分,12分,14分,16分; 乙:13分,14分,12分,12分,14分.2222222222221013121416==1351314121214==1351=[(1013)(1313)(1213)(1413)(1613)]451[(1313)(1413)(1213)(1213)(1413)]0.85x x s s ++++++++-+-+-+-+-==-+-+-+-+-=甲乙甲乙,(2)由2s 甲>2s 乙可知乙的成绩较稳定.从折线图看,甲的成绩基本呈上升状态,而乙的成绩上下波动,可知甲的成绩在不断提高,而乙的成绩则无明显提高.注:(1)运用方差解决问题时,注意到方差越大,波动越大,越不稳定;方差越小,波动越小,越稳定.(2)平均数与方差都是重要的数字特征,是对总体的一种简单的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述波动大小.(3)平均数、方差的公式推广①若数据123,,,,n x x x x L 的平均数为x ,那么12,,,n mx a mx a mx a +++L 的平均数是mx a +.②数据123,,,,n x x x x L 的方差为2s . a.22222111[()];n s x x x nx n=+++-L b.数据12,,,n x a x a x a +++L 的方差也为2s ; c.数据12,,,n ax ax ax L 的方差为22a s . 二、变量间的相关关系(一)利用散点图判断两个变量的相关关系 ※相关链接※ 1.散点图在散点图中,如果所有的样本点都落在某一函数的曲线上,就用该函数来描述变量之间的关系,即变量之间具有函数关系.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.注:函数关系是一种理想的关系模型,而相关关系是一种更为一般的情况. 2.正相关、负相关从散点图可知,即一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为正相关.如年龄的值由小变大时,体内脂肪含量也在由小变大.反之,如果一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为负相关. ※例题解析※〖例〗在某地区的12~30岁居民中随机抽取了10个人的身高和体重的统计资料如表:根据上述数据,画出散点图并判断居民的身高和体重之间是否有相关关系。

(新高考专用)高考数学一轮复习精讲必备第31讲统计与统计模型(讲义)

(新高考专用)高考数学一轮复习精讲必备第31讲统计与统计模型(讲义)

第31讲统计与统计模型学校____________ 姓名____________ 班级____________一、知识梳理数据的收集与直观表示1.总体、个体、样本与样本容量考察问题涉及的对象全体是总体,总体中每个对象是个体,抽取的部分对象组成总体的一个样本,一个样本中包含的个体数目是样本容量.(1)普查:一般地,对总体中每个个体都进行考察的方法称为普查(也称为全面调查).(2)抽样调查:只抽取样本进行考察的方法称为抽样调查.(1)定义:一般地,简单随机抽样(也称为纯随机抽样)就是从总体中不加任何分组、划类、排队等,完全随机地抽取个体.(2)两种常用方法:抽签法,随机数表法.一般地,如果相对于要考察的问题来说,总体可以分成有明显差别的、互不重叠的几部分时,每一部分可称为层,在各层中按层在总体中所占比例进行随机抽样的方法称为分层随机抽样(简称为分层抽样).(1)常见的统计图表有柱形图、折线图、扇形图、茎叶图、频数分布直方图、频率分布直方图等.(2)频率分布直方图①作频率分布直方图的步骤(ⅰ)找出最值,计算极差:即一组数据中最大值与最小值的差;(ⅱ)合理分组,确定区间:根据数据的多少,一般分5~9组;(ⅲ)整理数据:逐个检查原始数据,统计每个区间内数的个数(称为区间对应的频数),并求出频数与数据个数的比值(称为区间对应的频率),各组均为左闭右开区间,最后一组是闭区间;(ⅳ)作出有关图示:频率,每一组数对应的矩形高度与频率成正比,而且每个矩形的面积等于这一组数对应的组距频率,从而可知频率分布直方图中,所有矩形的面积之和为1.②频率分布折线图作图的方法都是:把每个矩形上面一边的中点用线段连接起来.为了方便看图,折线图都画成与横轴相交,所以折线图与横轴的左右两个交点是没有实际意义的.不难看出,虽然作频率分布直方图过程中,原有数据被“压缩”了,从这两种图中也得不到所有原始数据.但是,由这两种图可以清楚地看出数据分布的总体态势,而且也可以得出有关数字特征的大致情况.比如,估计出平均数、中位数、百分位数、方差.当然,利用直方图估计出的这些数字特征与利用原始数据求出的数字特征一般会有差异. 数据的数字特征、用样本估计总体 (1)最值一组数据的最值指的是其中的最大值与最小值,最值反映的是这组数最极端的情况. (2)平均数①定义:如果给定的一组数是x 1,x 2,…,x n ,则这组数的平均数为x -=1n(x 1+x 2+…+x n ).这一公式在数学中常简记为x -=1n∑ni =1x i , ②性质:一般地,利用平均数的计算公式可知,如果x 1,x 2,…,x n 的平均数为x ,且a ,b 为常数,则ax 1+b ,ax 2+b ,…,ax n +b 的平均数为a x -+b .(3)中位数有奇数个数,且按照从小到大排列后为x 1,x 2,…,x 2n +1,则称x n +1为这组数的中位数;如果一组数有偶数个数,且按照从小到大排列后为x 1,x 2,…,x 2n ,则称x n +x n +12为这组数的中位数. (4)百分位数①定义:一组数的p %(p ∈(0,100))分位数指的是满足下列条件的一个数值:至少有p %的数据不大于该值,且至少有(100-p )%的数据不小于该值.②确定方法:设一组数按照从小到大排列后为x 1,x 2,…,x n ,计算i =np %的值,如果i 不是整数,设i 0为大于i 的最小整数,取xi 0为p %分位数;如果i 是整数,取x i +x i +12为p %分位数. (5)众数一组数据中,出现次数最多的数据称为这组数据的众数. (6)极差、方差与标准差①极差:一组数的极差指的是这组数的最大值减去最小值所得的差,描述了这组数的离散程度. ②方差定义:如果x 1,x 2,…,x n 的平均数为x ,则方差可用求和符号表示为s 2=1n∑n i =1(x i -x -)2=1n∑ni =1x 2i -x -2. 性质:如果a ,b 为常数,则ax 1+b ,ax 2+b ,…,ax n +b 的方差为a 2s 2. ③标准差定义:方差的算术平方根s 表示,即样本数据x 1,x 2,…,x n 的标准差为s =1n∑ni =1(x i -x )2. 性质:如果a ,b 为常数,则ax 1+b ,ax 2+b ,…,ax n +b 的标准差为|a |s .一般情况下,如果样本容量恰当,抽样方法合理,在估计总体的数字特征时,只需直接算出样本对应的数字特征即可. 统计模型(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系. (2)相关关系的分类:正相关和负相关.(3)线性相关:如果变量x 与变量y 之间的关系可以近似地用一次函数来刻画,则称x 与y 线性相关.(1)r =∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2∑ni =1(y i -y -)2=∑ni =1x i y i -nx -y-(∑ni =1x 2i -n x -2)(∑ni =1y 2i -ny 2).(2)当r >0时,成对样本数据正相关;当r <0时,成对样本数据负相关.(3)|r |≤1;当|r |越接近1时,成对样本数据的线性相关程度越强;当|r |越接近0时,成对样本数据的线性相关程度越弱.(1)我们将y ^=b ^x +a ^称为y 关于x 的回归直线方程,其中⎩⎪⎨⎪⎧b ^=∑n i =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2=∑ni =1x i y i -n x -y -∑n i =1x 2i -n x-2,a ^=y ^-b ^x -.(2)残差:观测值减去预测值,称为残差. 4.2×2列联表和χ2如果随机事件A 与B 的样本数据的2×2列联表如下.记n =a +b +c χ2=n (ad-bc )2(a +b )(c +d )(a +c )(b +d ).统计学中,常用的显著性水平α以及对应的分位数k 如下表所示.要推断“A (1)作2×2列联表.(2)根据2×2列联表计算χ2的值.(3)查对分位数kχ2的值后,发现χ2≥k 成立,就称在犯错误的概率不超过α的前提下,可以认为A 与B 不独立(也称为A 与B 有关);或说有1-α的把握认为A 与Bχ2<k 成立,就称不能得到前述结论.这一过程通常称为独立性检验.二、考点和典型例题1、数据的收集与直观表示【典例1-1】北京2022年冬奥会期间,某大学派出了100名志愿者,为了解志愿者的工作情况,该大学学生会将这100名志愿者随机编号为1,2,…,100,再从中利用系统抽样的方法抽取一个容量为20的样本进行问卷调查,若所抽中的最小编号为3,则所抽中的最大编号为()A.96 B.97 C.98 D.99【典例1-2】某社区卫生室为了了解该社区居民的身体健康状况,对该社区1100名男性居民和900名女性居民按性别采用等比例分层随机抽样的方法进行抽样调查,抽取了一个容量为100的样本,则应从男性居民中抽取的人数为()A.45 B.50 C.55 D.60【典例1-3】已知某地区中小学生人数比例和近视情况分别如图甲和图乙所示,为了了解该地区中小学生的近视形成原因,用分层抽样的方法随机抽取1%的学生进行调查,其中被抽取的小学生有80人,则样本容量和该地区的高中生近视人数分别为()A.200,25 B.200,2500 C.8000,25 D.8000,2500【典例1-4】将某市参加高中数学建模竞赛的学生成绩分成5组:[50,60),[60,70),[70,80),[80,90),[90,100),并整理得到频率分布直方图(如图所示).现按成绩运用分层抽样的方法抽取100位同学进行学习方法的问卷调查,则成绩在区间[70,80)内应抽取的人数为()A .10B .20C .30D .35【典例1-5】某学校为调查学生参加课外体育锻炼的时间,将该校某班的40名学生进行编号,分别为00,01,02,…,39,现从中抽取一个容量为10的样本进行调查,选取方法是从下面的随机数表的第1行第11列开始向右读取数据,直到取足样本,则抽取样本的第6个号码为( )90 84 60 79 80 24 36 59 87 38 82 07 53 89 35 96 35 23 79 18 05 98 90 07 3546 40 62 98 80 54 97 20 56 95 15 74 80 08 32 16 46 70 50 80 67 72 16 42 75 A .07 B .40C .35D .232、数据的数字特征、用样本估计总体【典例2-1】某学校举行诗歌朗诵比赛,10位评委对甲、乙两位同学的表现打分,满分为10分,将两位同学的得分制成如下茎叶图,其中茎叶图茎部分是得分的个位数,叶部分是得分的小数,则下列说法错误的是( )A .甲同学的平均分大于乙同学的平均分C .甲、乙两位同学得分的中位数相同D .甲同学得分的方差更小【典例2-2】已知数据1x ,2x ,…,n x 的平均值为2,方差为1,若数据11ax ,21ax +,…,()10n ax a +>的平均值为b ,方差为4,则b =( ).A .5B .4C .3D .2【典例2-3】某校高一年级1000名学生在一次考试中的成绩的频率分布直方图如图所示,现用分层抽样的方法从成绩40~70分的同学中共抽取80名同学,则抽取成绩50~60分的人数是( )A .20B .30C .40D .50【典例2-4】某高中为了了解本校学生考入大学一年后的学习情况,对本校上一年考入大学的同学进行了调查,根据学生所属的专业类型,制成饼图,现从这些同学中抽出100人进行进一步调查,已知张三为理学专业,李四为工学专业,则下列说法不正确的是( )A .若按专业类型进行分层抽样,则张三被抽到的可能性比李四大B .若按专业类型进行分层抽样,则理学专业和工学专业应抽取30人和20人C .采用分层抽样比简单随机抽样更合理D .该问题中的样本容量为100【典例2-5】如图是2021年青年歌手大奖赛中,七位评委为甲、乙两名选手打出的分数的茎叶图(其中m n 、均为数字09中的一个),在去掉一个最高分和一个是低分后,则下列说法错误的是( )A .甲选手得分的平均数一定大于乙选手得分的平均数B .甲选手得分的中位数一定大于乙选手得分的中位数C .甲选手得分的众数与m 的值无关D .甲选手得分的方差与n 的值无关 3、统计模型【典例3-1】已知下列命题:①回归直线y bx a =+恒过样本点的中心(),x y ;②两个变量线性相关性越强,则相关系数r 就越接近于1; ③两个模型中残差平方和越小的模型拟合的效果越好. 则正确命题的个数是( ). A .0B .1C .2D .3【典例3-2】下列说法错误的是( ) A .相关系数r 的绝对值越大,两个变量的线性相关性越强 B .在回归分析中,残差平方和越大,模型的拟合效果越好C .相关指数20.64R =,表示解释变量对于预报变量变化的贡献率为64%D .在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高 【典例3-3】如图是一组实验数据构成的散点图,以下函数中适合作为y 与x 的回归方程的类型是( )A .y ax b =+B .2y ax c =+C .log a y b x c =+D .x y ba c =+【典例3-4】当下,大量的青少年沉迷于各种网络游戏,极大地毒害了青少年的身心健康.为了引导青少年抵制不良游戏,适度参与益脑游戏,某游戏公司开发了一款益脑游戏,在内测时收集了玩家对每一关的平均过关时间,如下表:计算得到一些统计量的值为:661128.5,106.05i i i i i u x u ====∑∑,其中,ln i i u y =.若用模型e bx y a =拟合y 与x 的关系,根据提供的数据,求出y 与x 的经验回归方程;参考公式:对于一组数据(),i i x y (1,2,3,,i n =⋅⋅⋅),其经验回归直线ˆˆˆybx a =+的斜率和截距的最小二乘估计分别为1221ˆniii nii x ynxybxnx =-=-=-∑∑,ˆˆay bx =-. 【典例3-5】2022年北京冬奥会即第24届冬季奥林匹克运动会在2022年2月4日至2月20日在北京和张家口举行.某研究机构为了解大学生对冰壶运动是否有兴趣,从某大学随机抽取男生、女生各200人,对冰壶运动有兴趣的人数占总数的2740,女生中有80人对冰壶运动没有兴趣.(1)完成上面2×2列联表,并判断是否有99%的把握认为对冰壶运动是否有兴趣与性别有关?(2)按性别用分层抽样的方法从对冰壶运动有兴趣的学生中抽取9人,若从这9人中随机选出2人作为冰壶运动的宣传员,设X 表示选出的2人中女生的人数,求X 的分布列和数学期望.附:22()()()()()()n ad bc K n a b c d a b c d a c b d -==+++++++.。

新教材高考数学一轮复习:概率与统计课件

新教材高考数学一轮复习:概率与统计课件
6
=
C 24
P(ξ=0)= 2
C6
=
6
15
=
2
C 12 C 14
,P(ξ=1)= 2
5
C6
1
,
15
故 ξ 的分布列为
ξ
0
1
2
P(ξ)
2
5
8
15
1
15
=
8
,
15
^
^
^
(2)由散点图可知 = bz+更适合于此模型.其中
6
^
∑ -6
= =16
2
∑ 2 -6
=
^
-1.07
量的散布列、数学期望与方差、超几何散布、二项散布、正态散布等基
础知识和基本方法.
二、考查方向分散
从近五年的高考试题来看,对概率与统计的考查主要有四个方面:一是统计
与统计案例,其中回归分析、相关系数的计算、独立性检验、用样本的数
字特征估计总体的数字特征是考查重点,常与抽样方法、茎叶图、频率散
布直方图、概率等知识交汇考查;二是统计与概率散布的综合,常与抽样方
10
零假设为H0:“使用手机支付”与年龄无关联.
年龄不低于45岁
15
15
根据列联表中的数据,经计算得到
2
100×(60×15-15×10)
χ2=
≈14.286>10.828=x0.001.
75×25×70×30
根据小概率值α=0.001的独立性检验,推断H0不成立,即认为“使用手机支付”
与年龄有关联,此推断犯错误的概率不大于0.001.
与 = z+ 哪个更合适于此模型(给出判断即可,不必说明理由)?并根据你的判

2025年高考数学一轮复习讲义含答案解析 第3节 第1课时 成对数据的统计分析

2025年高考数学一轮复习讲义含答案解析  第3节  第1课时  成对数据的统计分析

第三节成对数据的统计分析第1课时变量间的相关关系及回归模型课标解读考向预测1.结合具体实例,了解一元线性回归模型的含义,了解模型中参数的统计意义,了解最小二乘原理,掌握一元线性回归模型中参数的最小二乘估计方法,会使用相关的统计软件.2.针对实际问题,会用一元线性回归模型进行预测.预计2025年高考,变量间的相关关系、回归模型主要以应用题的方式出现,需要在复杂的题目描述中找出数量关系,建立数学模型,并且运用数学模型解决实际问题,考查分析问题和处理数据的能力.必备知识——强基础1.变量的相关关系(1)相关关系两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)散点图将各数据在平面直角坐标系中的对应点画出来,得到表示两个变量的一组数据的图形,这样的图形叫做01散点图.利用散点图,可以判断两个变量是否相关,相关时是正相关还是负相关.(3)正相关和负相关①当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量02正相关.②负相关:当一个变量的值增加时,另一个变量的相应值呈现减小的趋势,则称这两个变量03负相关.(4)线性相关①一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在04一条直线附近,我们就称这两个变量线性相关.②一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.2.样本相关系数(1)相关系数r 的计算变量x 和变量y 的样本相关系数r 的计算公式如下:r =∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2∑ni =1(y i -y -)2=∑ni =1x i y i -n x -y-∑ni =1x 2i -n x-2∑ni =1y 2i -n y-2.(2)相关系数r 的性质①当r >0时,称成对样本数据05正相关;当r <0时,称成对样本数据06负相关;当r =0时,成对样本数据间没有线性相关关系.②样本相关系数r 的取值范围为07[-1,1].当|r |越接近1时,成对样本数据的线性相关程度越08强;当|r |越接近0时,成对样本数据的线性相关程度越09弱.3.一元线性回归模型经验回归方程与最小二乘法我们将y ^=b ^x +a ^称为Y 关于x 的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的b ^,a ^叫做b ,a 的最小二乘估计,其中=∑ni =1(x i -x -)(y i -y -)∑n i =1(x i -x -)2=10∑ni =1x i y i -n x -y -∑ni =1x 2i -n x-2,=y --b ^x -.4.残差与残差分析(1)残差:对于响应变量Y ,通过观测得到的数据称为11观测值,通过经验回归方程得到的y ^称为12预测值,13观测值减去14预测值称为残差.(2)残差分析:残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.(3)刻画回归效果的方式①残差图法作图时纵坐标为残差,横坐标为自变量x ,这样作出的图形称为残差图.在残差图中,残差点比较均匀地分布在以取值为0的横轴为对称轴的水平的带状区域内,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.②残差平方和法残差平方和为∑n i =1(y i -y ^i )2,残差平方和15越小,模型拟合效果越好.③利用决定系数R 2刻画回归效果R 2=1-∑n i =1(y i -y ^i )2∑ni =1(y i -y -)2,R 2越16大,模型拟合效果越好;R 2越17小,模型拟合效果越差.1.求解经验回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过点(x -,y -).2.根据经验回归方程计算的y ^值,仅是一个预测值,不是真实发生的值.1.概念辨析(正确的打“√”,错误的打“×”)(1)经验回归方程y ^=b ^x +a ^中,若a ^<0,则变量x 和y 负相关.()(2)经验回归直线y ^=b ^x +a ^至少经过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点.()(3)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.()(4)残差平方和越大,线性回归模型的拟合效果越好.()答案(1)×(2)×(3)√(4)×2.小题热身(1)甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的R2分别如下表:甲乙丙丁R20.980.780.500.85建立的回归模型拟合效果最好的是()A.甲B.乙C.丙D.丁答案A解析R2越大,表示回归模型的拟合效果越好.(2)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i,y i)(i=1,2,…,20)得到下面的散点图:由此散点图,在10℃至40℃之间,下面四个回归方程类型中,最适宜作为发芽率y和温度x的回归方程类型的是()A.y=a+bx B.y=a+bx2C.y=a+b e x D.y=a+b ln x答案D解析由散点图分布可知,散点图分布在一个对数型函数图象的附近,因此最适宜作为发芽率y和温度x的回归方程类型的是y=a+b ln x.故选D.(3)(人教A选择性必修第三册复习参考题8T2改编)在一元线性回归模型Y=bx+a+e中,下列说法正确的是()A.Y=bx+a+e是一次函数B.响应变量Y是由解释变量x唯一确定的C.响应变量Y除了受解释变量x的影响外,可能还受到其他因素的影响,这些因素会导致随机误差e的产生D .随机误差e 是由于计算不准确造成的,可通过精确计算避免随机误差e 的产生答案C解析对于A ,一元线性回归模型Y =bx +a +e 中,方程表示的不是确定性关系,因此不是一次函数,所以A 错误;对于B ,响应变量Y 不是由解释变量x 唯一确定的,所以B 错误;对于C ,响应变量Y 除了受解释变量x 的影响外,可能还受到其他因素的影响,这些因素会导致随机误差e 的产生,所以C 正确;对于D ,随机误差是不能避免的,只能将误差缩小,所以D 错误.(4)若某商品的广告费支出x (单位:万元)与销售额y (单位:万元)之间有如下表所示的对应数据:x 24568y2040607080根据表中数据,利用最小二乘法求得y 关于x 的经验回归方程为y ^=b ^x +1.5,当广告费支出为10万元时,销售额的估计值为________万元.答案106.5解析x -=15×(2+4+5+6+8)=5,y -=15×(20+40+60+70+80)=54,所以样本中心为(5,54),将其代入经验回归方程y ^=b ^x +1.5中,有54=5b ^+1.5,解得b ^=10.5,所以经验回归方程为y ^=10.5x +1.5,当x =10时,y ^=10.5×10+1.5=106.5.考点探究——提素养考点一变量间相关关系的判断例1(1)对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是()A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3答案A解析由散点图知图①与图③是正相关,故r 1>0,r 3>0,图②与图④是负相关,故r 2<0,r 4<0,且图①与图②的样本点集中在一条直线附近,因此r 2<r 4<0<r 3<r 1.(2)(2023·河北邢台阶段考试)已知r 1表示变量X 与Y 之间的线性相关系数,r 2表示变量U 与V 之间的线性相关系数,且r 1=0.837,r 2=-0.957,则()A .变量X 与Y 之间呈正相关关系,且X 与Y 之间的相关性强于U 与V 之间的相关性B .变量X 与Y 之间呈负相关关系,且X 与Y 之间的相关性强于U 与V 之间的相关性C .变量U 与V 之间呈负相关关系,且X 与Y 之间的相关性弱于U 与V 之间的相关性D .变量U 与V 之间呈正相关关系,且X 与Y 之间的相关性弱于U 与V 之间的相关性答案C解析因为线性相关系数r 1=0.837,r 2=-0.957,所以变量X 与Y 之间呈正相关关系,变量U 与V 之间呈负相关关系,且X 与Y 之间的相关性弱于U 与V 之间的相关性.故选C.【通性通法】判断相关关系的方法(1)散点图法:如果样本点的分布从整体上看大致在某一曲线附近,变量之间就有相关关系;如果样本点的分布从整体上看大致在某一直线附近,变量之间就有线性相关关系.(2)样本相关系数:当r >0时,正相关;当r <0时,负相关;|r |越接近于1,相关性越强.(3)经验回归方程:当b ^>0时,正相关;当b ^<0时,负相关.【巩固迁移】1.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =-12x +1上,则这组样本数据的样本相关系数为()A .-1B .0C .-12D .1答案A解析因为所有样本点都在直线y =-12x +1上,呈现完全负相关,所以样本相关系数为-1.2.(2023·天津高考)调查某种群花萼长度和花瓣长度,所得数据如图所示.其中相关系数r =0.8245,下列说法正确的是()A .花瓣长度和花萼长度没有相关性B .花瓣长度和花萼长度呈负相关C .花瓣长度和花萼长度呈正相关D .若从样本中抽取一部分,则这部分的相关系数一定是0.8245答案C解析因为相关系数r =0.8245>0.75,所以花瓣长度和花萼长度的相关性较强,并且呈正相关,所以A ,B 错误,C 正确;因为相关系数与样本的数据有关,所以当样本发生变化时,相关系数也可能会发生变化,所以D 错误.故选C.考点二样本相关系数、决定系数的应用例2(2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山,为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m 2)和材积量(单位:m 3),得到如下数据:样本号i 12345678910总和根部横截面积0.040.060.040.080.080.050.050.070.070.060.6x i 材积量y i0.250.400.220.540.510.340.360.460.420.40 3.9并计算得∑10i =1x 2i =0.038,∑10i =1y 2i =1.6158,∑10i =1x i y i =0.2474.(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186m 2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.附:相关系数r =∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2∑n i =1(y i -y -)2,1.896≈1.377.解(1)设这种树木平均一棵的根部横截面积为x -,平均一棵的材积量为y -,则x -=0.610=0.06,y -=3.910=0.39.(2)r =∑10i =1x i y i -10x -y -(∑10i =1x 2i -10x -2)(∑10i =1y 2i -10y -2)=0.2474-10×0.06×0.39(0.038-10×0.062)×(1.6158-10×0.392)=0.01340.002×0.0948=0.01340.01×1.896≈0.01340.01377≈0.97.(3)设所有这种树木的根部横截面积总和为X ,总材积量为Y ,则X Y =x -y -,故Y =0.390.06×186=1209(m 3).【通性通法】经验回归方程的拟合效果,可以利用相关系数r 判断,当|r |越趋近于1时,两变量的线性相关性越强.或利用决定系数R 2判断,R 2越大,拟合效果越好.【巩固迁移】3.我国机床行业核心零部件对外依存度较高,我国整机配套的中高档功能部件大量依赖进口,根据中国机床工具工业协会的数据,国内高档系统自给率不到10%,约90%依赖进口.因此,迅速提高国产数控机床功能部件制造水平,加快国产数控机床功能部件产业化进程至关重要.通过对某机械上市公司近几年的年报公布的研发费用x (单位:亿元)与产品的直接收益y (单位:亿元)的数据进行统计,得到下表:年份2016201720182019202020212022x 234681013y15222740485460根据数据,可建立y 关于x 的两个回归模型:模型①:y ^=4.1x +10.9;模型②:y ^=21.3x -14.4.(1)根据表格中的数据,分别求出模型①,②的决定系数R 2的大小(结果保留三位有效数字);(2)(ⅰ)根据(1)选择拟合精度更高、更可靠的模型;(ⅱ)若2023年该公司计划投入研发费用17亿元,使用(ⅰ)中的模型预测可为该公司带来多少直接收益?回归模型模型①模型②∑7i =1(y i -y ^i )279.1318.86附:R 2=1-∑ni =1(y i -y ^i )2∑ni =1(y i -y -)2,17≈4.1.解(1)因为y -=15+22+27+40+48+54+607=38,所以∑7i =1(y i -y -)2=232+162+112+22+102+162+222=1750,则模型①的决定系数R 21=1-∑7i =1(y i -y ^i )2∑7i =1(y i -y -)2=1-79.131750≈0.955,模型②的决定系数R 22=1-∑7i =1(y i -y ^i )2∑7i =1(y i -y -)2=1-18.861750≈0.989.(2)(ⅰ)由(1)知,R 21<R 22,所以模型②的拟合精度更高、更可靠.(ⅱ)由经验回归方程y ^=21.3x -14.4,可得当x =17时,y ^=21.317-14.4≈72.93,所以若2023年该公司计划投入研发费用17亿元,大约可为该公司带来72.93亿元的直接收益.考点三回归分析(多考向探究)考向1一元线性回归模型例3已知某绿豆新品种发芽的适宜温度在6~22℃之间,一农学实验室研究人员为研究温度x (单位:℃)与绿豆新品种发芽数y (单位:颗)之间的关系,每组选取了成熟种子50颗,分别在对应的8~14℃的温度环境下进行实验,得到如下散点图:其中y -=24,∑7i =1(x i -x -)(y i -y -)=70,∑7i =1(y i -y -)2=176.(1)运用相关系数进行分析说明,是否可以用线性回归模型拟合y 与x 的关系?(2)求出y 关于x 的经验回归方程y ^=b ^x +a ^,并预测在19℃的温度下,种子的发芽颗数.参考公式:相关系数r =∑ni =1(x i -x -)(y i -y -)∑n i =1(x i -x -)2∑n i =1(y i -y -)2,经验回归方程y ^=b ^x +a ^,其中b ^=∑n i =1(x i -x -)(y i -y -)∑n i =1(x i -x -)2,a ^=y --b ^x -.参考数据:77≈8.77.解(1)根据题意,得x -=17×(8+9+10+11+12+13+14)=11.∑7i =1(x i -x -)2=(8-11)2+(9-11)2+(10-11)2+(11-11)2+(12-11)2+(13-11)2+(14-11)2=28,∑7i =1(x i -x -)2∑7i =1(y i -y -)2=28×176=877≈70.16.因而相关系数r =∑7i =1(x i -x -)(y i -y -)∑7i =1(x i -x -)2∑7i =1(y i -y -)2≈7070.16≈0.998.由于|r |≈0.998很接近1,∴可以用线性回归模型拟合y 与x 的关系.(2)b ^=∑7i =1(x i -x -)(y i -y -)∑7i =1(x i -x -)2=7028=52,a ^=24-52×11=-72,∴y 关于x 的经验回归方程为y ^=52x -72.若x =19,则y ^=52×19-72=44颗,∴在19℃的温度下,预测种子的发芽颗数为44.【通性通法】求经验回归方程的步骤【巩固迁移】4.(2023·安徽马鞍山第三次教学质量监测)为了研究某果园的一种果树的产量与种植密度的关系,某中学的数学兴趣小组在该果园选取了一块种植区域进行了统计调查,他们将每株果树与其直线距离不超过1米的果树株数x 记为其密度,在记录了该种植区域内每株果树的密度后,从中选取密度为0,1,2,3,4的果树,统计其产量的平均值y (单位:kg),得到如下统计表:x 01234y15121198(1)小组成员甲认为y 与x 有很强的线性相关关系,请你帮他利用最小二乘法求出y 关于x 的经验回归方程y ^=b ^x +a ^;(2)小组成员乙提出:若利用经验回归方程计算的平均产量的估计值y ^i 与实际的平均产量y i (1≤i ≤n ,n ∈N *)满足1n ∑ni =1|y i -y ^i |>0.5,则应该修正模型,寻找更合适的函数拟合x 与y 的关系.统计知种植密度分别为5,6的果树的平均产量为5.5kg 、4.4kg ,请你以这七组数据为依据判断(1)中得到的经验回归方程是否需要修正?参考公式:b ^=∑ni =1x i y i -n x -y -∑n i =1x 2i-n x -2,a ^=y --b ^x -.解(1)x -=2,y -=11,∑5i =1x i y i =93,∑5i =1x 2i -5x -2=10,故b ^=∑5i =1x i y i -5x -y -∑5i =1x 2i -5x -2=-1.7,a ^=y --b ^x -=14.4,所以经验回归方程为y ^=-1.7x +14.4.(2)令x =0,1,2,3,4,5,6,代入y ^=-1.7x +14.4,分别得|y ^-y |=0.6,0.7,0,0.3,0.4,0.4,0.2,从而17∑7i =1|y i -y ^i |=2.67,故不需要修正.考向2非线性回归模型例4某工厂生产一种产品,从该种产品中随机抽取6件合格产品,测得数据如下:尺寸x /mm 384858687888质量y /g16.818.820.722.42425.5(1)若按照检测标准,合格产品的质量y 与尺寸x 之间近似满足关系式y =c ·x d (c ,d 为大于0的常数),求y 关于x 的经验回归方程;(2)已知合格产品的收益z (单位:千元)与合格产品尺寸和质量的关系为z =2y -0.32x ,根据(1)中经验回归方程分析,当合格产品的尺寸x 约为何值时(结果用整数表示),收益z 的预报值最大?附:①参考数据:∑6i =1(ln x i ·ln y i )=75.3,∑6i =1(ln x i )=24.6,∑6i =1(ln y i )=18.3,∑6i =1(ln x i )2=101.4.②参考公式:对于样本(v i ,u i )(i =1,2,…,n ),其经验回归直线u ^=b ^v +a ^的斜率和截距的最小二乘估计公式分别为b ^=∑ni =1(v i -v -)(u i -u -)∑n i =1(v i -v -)2=∑n i =1v i u i -n v -u -∑n i =1v 2i -n v-2,a ^=u --b ^v -,e≈2.7182.解(1)对y =c ·x d (c ,d >0)两边取自然对数得ln y =ln c +d ln x .令v i =ln x i ,u i =ln y i ,则u ^=d ^v +a ^,其中a ^=ln c ^.根据所给统计量及最小二乘估计公式得d ^=∑6i =1v i u i -6v -u -∑6i =1v 2i -6v-2=∑6i =1(ln x i ·ln y i )-∑6i =1(ln x i )·∑6i =1(ln y i )6∑6i =1(ln x i )2-[∑6i =1(ln x i )]26=75.3-24.6×18.3÷6101.4-24.62÷6=0.270.54=12,a ^=u --d ^v -=∑6i =1(ln y i )6-d ^×∑6i =1(ln x i )6=18.36-12×24.66=1,又a ^=ln c ^=1,所以c ^=e ,所以y 关于x 的经验回归方程为y ^=e·x 12.(2)由(1)得y ^=e·x 12,所以z ^=2e x -0.32x =-0.32(x )2+2e x .令t =x ,则当t =e0.32时,z ^取得最大值,此时x =t 2≈72,所以当合格产品的尺寸x 约为72时,收益z 的预报值最大.【通性通法】非线性回归分析的步骤【巩固迁移】5.(2024·淄博诊断)小叶紫檀是珍稀树种,因其木质好备受玩家喜爱.其幼苗从观察之日起,第x 天的高度为y cm ,测得数据如下:x 14916253649y479111213数据的散点图如图所示:为近似描述y 与x 的关系,除了一次函数y =bx +a ,还有y =b x +a 和y =bx 2+a 两个函数可选.(1)从三个函数中选出“最好”的曲线拟合y 与x 的关系,并求出其回归方程(b ^保留到小数点后1位);(2)判断说法“高度从1000cm 长到1001cm 所需时间超过一年”是否成立,并给出理由.参考公式:b ^=∑ni =1(x i -x -)(y i -y -)∑n i =1(x i -x -)2=∑ni =1x i y i -n x -y -∑ni =1x 2i -n x-2,a ^=y --b ^x -.参考数据(其中u i =x i ,t i =x 2i ):x -=20,u -=4,t -=668,y -=8,∑7i =1x 2i =4676,∑7i =1u 2i =140,∑7i =1t 2i =7907396,∑7i =1x i y i =1567,∑7i =1u i y i =283,∑7i =1t i y i =56575.解(1)从散点图可以看出,曲线的形状与函数y =x 相似,故选择函数y =b x +a 拟合y 与x 的关系.b ^=283-7×4×8140-7×42=5928≈2.1,a ^≈8-2.1×4=-0.4,其经验回归方程为y ^=2.1x -0.4.(2)将y =1000,1001分别代入经验回归方程,得2.1x 1-0.4=1000和2.1x 2-0.4=1001,故x 2-x 1≈454,显然454>365,所以,说法“高度从1000cm 长到1001cm 所需时间超过一年”成立.课时作业一、单项选择题1.(2024·湘豫名校模拟)根据下表样本数据:x 23456y42.5-0.5-2-3得到的经验回归方程为y ^=b ^x +a ^,则()A .a ^>0,b ^>0B .a ^>0,b ^<0C .a ^<0,b ^>0D .a ^<0,b ^<0答案B解析由表中的数据可得,变量y 随着x 的增大而减小,则b ^<0,x -=2+3+4+5+65=4,y-=4+2.5-0.5-2-35=0.2,又经验回归直线y ^=b ^x +a ^经过点(4,0.2),可得a ^>0.2.甲、乙、丙、丁四位同学各自对A ,B 两个变量的线性相关性做试验,并用回归分析的方法分别求得样本相关系数r 与残差平方和m ,如下表:甲乙丙丁r 0.820.780.690.85m106115124103则哪位同学的试验结果体现A ,B 两个变量有更强的线性相关性?()A .甲B .乙C .丙D .丁答案D解析r 的绝对值越大,m 越小,线性相关性越强.3.(2023·河北高三校联考期末)下列四幅残差分析图中,与一元线性回归模型拟合精度最高的是()答案D解析用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高,显然D 项的拟合精度最高.故选D.4.已知某地的财政收入x 与支出y 满足经验回归方程y ^=b ^x +a ^+e (单位:亿元),其中b ^=0.8,a ^=2,|e |≤0.5,如果今年该地区的财政收入为10亿元,那么支出预计不会超过()A .9亿元B .10亿元C .9.5亿元D .10.5亿元答案D解析y ^=0.8×10+2+e =10+e ≤10.5.5.用模型y =c e kx 拟合一组数据时,为了求出经验回归方程,设z =ln y ,其变换后得到经验回归方程为z ^=0.5x +2,则c ^=()A .0.5B .e 0.5C .2D .e 2答案D解析因为y =c e kx ,两边取对数得ln y =ln (c e kx )=ln c +ln e kx =kx +ln c ,则z ^=k ^x +ln c ^,而z ^=0.5x +2,于是得ln c ^=2,即c ^=e 2.6.根据一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),求得经验回归方程为y ^=1.5x +0.5,且x -=3.现发现这组样本数据中有两个样本点(1.2,2.2)和(4.8,7.8)误差较大,去除后重新求得的经验回归直线l 的斜率为1.2,则()A .去除两个误差较大的样本点后,y 的估计值增加速度变快B .去除两个误差较大的样本点后,重新求得的经验回归直线一定过点(3,4)C .去除两个误差较大的样本点后,重新求得的经验回归方程为y ^=1.2x +1.4D .去除两个误差较大的样本点后,样本点(2,3.75)对应的残差为0.05答案C解析对于A ,因为1.5>1.2,所以去除两个误差较大的样本点后y 的估计值增加速度变慢,故A 错误;对于B ,当x -=3时,y -=3×1.5+0.5=5,设去掉两个误差较大的样本点后,横坐标的平均值为x -′,纵坐标的平均值为y -′,则x -′=x 1+x 2+…+x n -6n -2=3n -6n -2=3,y -′=y 1+y 2+…+y n -10n -2=5n -10n -2=5,故B 错误;对于C ,因为去除两个误差较大的样本点后,重新求得经验回归直线l 的斜率为1.2,所以5=3×1.2+a ^,解得a ^=1.4,所以去除两个误差较大的样本点后的经验回归方程为y ^=1.2x +1.4,故C 正确;对于D ,当x =2时,y ^=1.2×2+1.4=3.8,y -y ^=3.75-3.8=-0.05,故D 错误.二、多项选择题7.下列说法中正确的是()A .经验回归分析中,R 2的值越大,说明残差平方和越小B .若一组观测数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )满足y i =bx i +a +e i (i =1,2,…,n ),且e i 恒为0,则R 2=1C .经验回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法D .画残差图时,纵坐标为残差,横坐标一定是编号答案ABC解析对于A ,经验回归分析中,R 2的值越大,说明模型的拟合效果越好,则残差平方和越小,A 正确;对于B ,若一组观测数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )满足y i =bx i +a +e i (i =1,2,…,n ),且e i 恒为0,则R 2=1,B 正确;对于C ,经验回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,C 正确;对于D ,残差图中横坐标可以是样本编号,也可以是身高数据,还可以是体重的估计值等,D 错误.8.下列有关经验回归分析的说法中正确的是()A .经验回归直线必过点(x -,y -)B .经验回归直线就是散点图中经过样本数据点最多的那条直线C .当样本相关系数r >0时,两个变量正相关D .如果两个变量的相关性越弱,则|r |就越接近于0答案ACD解析对于A ,经验回归直线必过点(x -,y -),故A 正确;对于B ,经验回归直线在散点图中可能不经过任一样本数据点,故B 不正确;对于C ,当样本相关系数r >0时,则两个变量正相关,故C 正确;对于D ,如果两个变量的相关性越弱,则|r |就越接近于0,故D 正确.故选ACD.三、填空题9.(2023·广东广州模拟)某车间为了提高工作效率,需要测试加工零件所花费的时间,为此进行了5次试验,这5次试验的数据如下表:零件数x (个)1020304050加工时间y (min)62a758189若用最小二乘法求得经验回归方程为y ^=0.67x +54.9,则a 的值为________.答案68解析由已知得x -=10+20+30+40+505=30,y -=62+a +75+81+895=61+2+a5,所以61+2+a 5=0.67×30+54.9,解得a =68.10.用模型y =ekx -1去拟合一组数据时,已知如下数据:∑6i =1x i =18,y 1y 2y 3y 4y 5y 6=e 48,则实数k 的值为________.答案3解析由y =ekx -1得ln y =kx -1,所以y 1y 2y 3y 4y 5y 6=e 48⇒k ∑6i =1x i -6=18k -6=48,则k =3.11.(2023·海南调研)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-12附近波动,经计算∑6i =1x i =12,∑6i =1y i =14,∑6i =1x 2i=23,则实数b 的值为________.答案1723解析令t =x 2,则非线性经验回归方程变为线性经验回归方程,即y =bt -12,此时t -=∑6i =1x 2i 6=236,y -=∑6i =1y i 6=146,代入y =bt -12,得146=b ×236-12,解得b =1723.12.新能源汽车的核心部件是动力电池,电池占了新能源整车成本的很大一部分,而其中的原材料碳酸锂又是电池的主要成分.从2020年底开始,碳酸锂的价格不断升高,下表是2023年某企业的前5个月碳酸锂的价格与月份的统计数据:月份代码x 12345碳酸锂价格y (万元/kg)0.50.61m1.5根据表中数据,得出y 关于x 的经验回归方程为y ^=0.28x +a ^,根据数据计算出在样本点(5,1.5)处的残差为-0.06,则表中m =________.答案 1.4解析由题设,1.5-y ^=1.5-(0.28×5+a ^)=-0.06,可得a ^=0.16.又x -=1+2+3+4+55=3,y -=0.5+0.6+1+m +1.55=3.6+m 5,所以0.28×3+0.16=3.6+m 5,可得m =1.4.四、解答题13.某研究机构为调查人的最大可视距离y (单位:米)与年龄x (单位:岁)之间的关系,对不同年龄的志愿者进行了研究,收集数据得到下表:x 2025303540y167160150143130(1)根据上表提供的数据,求出y 关于x 的经验回归方程y ^=b ^x +a ^;(2)根据(1)中求出的经验回归方程,估计年龄为50岁的人的最大可视距离.参考公式:经验回归方程y ^=b ^x +a ^中斜率和截距的最小二乘估计公式分别为b ^=∑ni =1(x i -x -)(y i -y -)∑n i =1(x i -x -)2=∑n i =1x i y i -n x -y -∑n i =1x 2i -n x-2,a ^=y --b ^x -.解(1)由题意可得x -=20+25+30+35+405=30,y -=167+160+150+143+1305=150,∑5i =1x i y i =20×167+25×160+30×150+35×143+40×130=22045,∑5i =1x 2i =202+252+302+352+402=4750,所以b ^=22045-5×30×1504750-5×302=-455250=-1.82,则a ^=y --b ^x -=150+1.82×30=204.6,故所求经验回归方程为y ^=-1.82x +204.6.(2)当x =50时,y ^=-1.82×50+204.6=113.6,即年龄为50岁的人的最大可视距离约为113.6米.14.数独是源自18世纪瑞士的一种数学游戏,玩家需要根据9×9盘面上的已知数字,推理出所有剩余空格的数字,并满足每一行、每一列、每一个粗线宫(3×3)内的数字均含1~9,且不重复.数独爱好者小明打算报名参加“丝路杯”全国数独大赛初级组的比赛,赛前小明在某数独APP 上进行一段时间的训练,每天的解题平均速度y (秒)与训练天数x (天)有关,经统计得到如表的数据:x 1234567y990990450320300240210(1)现用y =a +bx 作为经验回归模型,请利用表中数据,求出该经验回归方程;(2)请用(1)中的结论预测,小明经过20天训练后,每天解题的平均速度y 约为多少秒?t i ∑7i =1t i y i =1845,t -=0.37,∑7i =1t 2i -7t -2=0.55.参考公式:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其经验回归直线v ^=α^+β^u 的斜率和截距的最小二乘估计公式分别为β^=∑ni =1u i v i -n u -v -∑n i =1u 2i -n u-2,α^=v --β^u -.解(1)由题意得y -=17×(990+990+450+320+300+240+210)=500,令t =1x,则y 关于t 的经验回归方程为y ^=b ^t +a ^,则有b ^=∑7i =1t i y i -7t -y-∑7i =1t 2i -7×t-2=1845-7×0.37×5000.55=1000,a ^=500-1000×0.37=130,所以y ^=1000t +130,又t =1x,所以y 关于x 的经验回归方程为y ^=1000x +130.(2)当x =20时,y ^=180,所以经过20天训练后,小明每天解题的平均速度约为180秒.15.(多选)(2024·河北三河市开学考试)某企业秉承“科学技术是第一生产力”的发展理念,投入大量科研经费进行技术革新,该企业统计了最近6年投入的年科研经费x (单位:百万元)和年利润y (单位:百万元)的数据,并绘制成如图所示的散点图,已知x ,y 的平均值分别为x -=7,y -=10,甲统计员得到的经验回归方程为y ^=1.69x +a ^,乙统计员得到的经验回归方程为y ^=2.52e 0.17x .若甲、乙二人计算均未出现错误,则以下结论正确的是()A .当投入年科研经费为20(百万元)时,按乙统计员的经验回归方程可得年利润估计值为75.6(百万元)(取e 3.4=30)B .a ^=-1.83C .经验回归方程y ^=1.69x +a ^比y ^=2.52e 0.17x 拟合效果好D .y 与x 正相关答案ABD解析将x =20代入y ^=2.52e 0.17x ,得y ^=75.6,投入年科研经费为20(百万元)时,按乙统计员的经验回归方程可得年利润估计值为75.6(百万元),A 正确;将x -=7,y -=10代入y ^=1.69x +a ^,得a ^=-1.83,B 正确;由散点图可知,经验回归方程y ^=2.52e 0.17x 比y ^=1.69x +a ^的拟合效果更好,C 错误;因为y 随x 的增大而增大,所以y 与x 正相关,D 正确.故选ABD.16.(2024·河北唐山统考)据统计,某城市居民年收入(所有居民在一年内收入的总和,单位:亿元)与某类商品销售额(单位:亿元)的10年数据如下表所示:第n 年12345居民年收入x 32.231.132.935.737.1商品销售额y 25.030.034.037.039.0第n 年678910居民年收入x 38.039.043.044.646.0商品销售额y41.042.044.048.051.0依据表格数据,得到下面一些统计量的值.∑10i =1x i∑10i =1y i∑10i =1(x i -x -)2∑10i =1(y i -y -)2379.6391247.624568.9(1)根据表中数据,得到样本相关系数r ≈0.95.以此推断,y 与x 的线性相关程度是否很强?(2)根据统计量的值与样本相关系数r ≈0.95,建立y 关于x 的经验回归方程(系数精确到0.01);(3)根据(2)的经验回归方程,计算第一个样本点(32.2,25.0)对应的残差(精确到0.01),并判断若剔除这个样本点再进行回归分析,b ^的值将变大还是变小(不必说明理由,直接判断即可)?附:样本(x i ,y i )(i =1,2,…,n )的相关系数r =∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2∑ni =1(y i -y -)2,2.297≈1.516,b ^=∑ni =1(x i -x -)(y i -y -)∑n i =1(x i -x -)2,a ^=y --b ^x -.解(1)根据样本相关系数r ≈0.95,可以推断线性相关程度很强.(2)由r =∑10i =1(x i -x -)(y i -y -)∑10i =1(x i -x -)2∑10i =1(y i -y -)2≈0.95及b ^=∑10i =1(x i -x -)(y i -y -)∑10i =1(x i -x -)2,可得b ^r=∑10i =1(x i -x -)2∑10i =1(y i -y -)2∑10i =1(x i -x -)2=∑10i =1(y i -y -)2∑10i =1(x i -x -)2≈2.297,所以b ^≈r 2.297≈0.95×1.516≈1.440,又因为x -=37.96,y -=39.1,所以a ^=y --b ^x -≈-15.56,所以y 关于x 的经验回归方程为y ^=1.44x -15.56.(3)第一个样本点(32.2,25.0)的残差为25.0-(1.44×32.2-15.56)=-5.808≈-5.81,由于该点在回归直线的左下方,故将其剔除后,b ^的值将变小.17.(2023·广东汕头三模)某药企为评估一款新药的药效和安全性,组织一批志愿者进行临床用药实验,结果显示临床疗效评价指标A 的数量y 与连续用药天数x 具有相关关系.刚开始用药时,指标A 的数量y 变化明显,随着天数增加,y 的变化趋缓.根据志愿者的临床试验情况,得到了一组数据(x i ,y i ),i =1,2,3,4,5,…,10,x i 表示连续用药i 天,y i 表示相应的临床疗效评价指标A 的数值.该药企为了进一步研究药物的临床效果,建立了y 关于x 的两个回归模型:模型①:由最小二乘公式可求得y 关于x 的经验回归方程为y ^=2.50x -2.50;模型②:由图中样本点的分布,可以认为样本点集中在曲线y =b ln x +a 的附近,令t =ln x ,则有∑10i =1t i =22.00,∑10i =1y i =230,∑10i =1t i y i =569.00,∑10i =1t 2i =50.92.(1)根据所给的统计量,求模型②中y 关于x 的经验回归方程;(2)根据下列表格中的数据,说明哪个模型的预测值精度更高、更可靠;(3)根据(2)中精确度更高的模型,预测用药一个月后,疗效评价指标相对于用药半个月的变化情况(一个月以30天计,结果保留两位小数).回归模型模型①模型②残差平方和∑10i =1(y i -y ^i )2102.2836.19附:样本(t i ,y i )(i =1,2,…,n )的最小二乘估计公式为b ^=∑ni =1(t i -t )(y i -y -)∑ni =1(t i -t )2,a ^=y --b ^t ;相关指数R 2=1-∑ni =1(y i -y ^)2∑ni =1(y i -y -)2.参考数据:ln 2≈0.6931.解(1)由题意,知∑10i =1t i =22.00,∑10i =1y i =230,可得t =2.20,y -=23,又由b ^=∑10i =1(t i -t )(y i -y -)∑10i =1(t i -t )2=∑10i =1t i y i -10t y -∑10i =1t 2i -10t2=569.00-10×2.20×2350.92-10×2.202=25,则a ^=y --b ^t =23-25×2.20=-32,。

2025高考数学一轮复习-第45讲-随机抽样的方法、用样本估计总体【课件】

2025高考数学一轮复习-第45讲-随机抽样的方法、用样本估计总体【课件】

举题说法
百分位数的估计
1 (1) 现有一组数据:663,664,665,668,671,664,656,674
,651,653,652,656.则这组数据的第85百分位数是
( C)
A.652
B.668
C.671
D.674
【解析】 由题意,这组数据共12个,则12×85%=10.2.将这组数据按从小到大的顺序 排列为651,652,653,656,656,663,664,664,665,668,671,674,故这组 数据的第85百分位数为第11个数,即671.
【解析】对于 A,设 x2,x3,x4,x5 的平均数为 m,x1,x2,…,x6 的平均数为 n,则 n-m=x1+x2+x3+6 x4+x5+x6-x2+x3+4 x4+x5=2(x1+x6)-(x122+x3+x4+x5),因为无 法确定 2(x1+x6),x2+x3+x4+x5 的大小关系,所以无法判断 m,n 的大小,如 1,2, 3,4,5,6,可得 m=n=3.5;如 1,1,1,1,1,7,可得 m=1,n=2;如 1,2, 2,2,2,2,可得 m=2,n=161,故 A 错误. 对于 B,不妨设 x1≤x2≤x3≤x4≤x5≤x6,可知 x2,x3,x4,x5 的中位数等于 x1,x2,…, x6 的中位数,均为x3+2 x4,故 B 正确.
【解答】 x =110×(545+533+551+522+575+544+541+568+596+548)=552.3, y =110×(536+527+543+530+560+533+522+550+576+536)=541.3,z = x - y =552.3-541.3=11,zi=xi-yi 的值分别为 9,6,8,-8,15,11,19,18,20,12, 故 s2=110×[(9-11)2+(6-11)2+(8-11)2+(-8-11)2+(15-11)2+0+(19-11)2+ (18-11)2+(20-11)2+(12-11)2]=61.

高三一轮复习第八章 第二节用样本估计总体

课时作业1.(2022·毛坦厂中学月考)一个容量为32的样本,已知某组样本的频率为0.375,则该组样本的频数为( )A.4 B.8C.12 D.16【答案】 C2.(2022·西藏拉萨中学月考)某次知识竞赛中,四个参赛小队的初始积分都是10分,在答题过程中,各小队每答对1题加0.5分,若答题过程中四个小队答对的题数分别是3道,7道,7道,3道,则四个小队积分的方差为( )A.0.5 B.0.75C.1 D.1.25【解析】 四个小队积分分别为11.5,13.5,13.5,11.5,平均数为11.5+13.5+13.5+11.54=12.5,故四个小队积分的方差为14[(11.5-12.5)2×2+(13.5-12.5)2×2]=1,故选C.【答案】 C3.(2022·龙岩质检)党的十八大以来,脱贫攻坚取得显著成绩.2013年至2016年4年间,累计脱贫5 564万人,2017年各地根据实际进行创新,精准、高效地完成了脱贫任务.某地区对当地3 000户家庭的2017年所的年收入情况调查统计,年收入的频率分布直方图如图所示,数据(单位:千元)的分组依次为[20,40),[40,60),[60,80),[800,100],则年收入不超过6万的家庭大约为( )A.900户B.600户C.300户D.150户【解析】 由频率分布直方图可得年收入不超过6万的家庭的概率为:(0.005+0.01)×20=0.3,所以年收入不超过6万的家庭大约为:3 000×0.3=900,故选A.【答案】 A4.(2022·江苏模拟)从某小区抽取100户居民进行月用电量调查,发现其用电量都在50至350度之间,频率分布直方图如图所示.在这些用户中,用电量落在区间[150,250]内的户数为( )A.48 B.52C.60 D.70【解析】 由题意可知,这些用户中,用电量落在区间[150,250]内的频率为1-(0.002 4+0.003 6+0.002 4+0.001 2)×50=0.52,所以用电量落在区间[150,250]内的户数为100×0.52=52,故选D.【答案】 D5.(多选) (2022·江苏模拟)已知数据x1,x2,…,x n的平均数为,标准差为s,则( ) A.数据x21,x2,…,x2n的平均数为,标准差为s2B.数据2x1,2x2,…,2x n的平均数为,标准差为2sC.数据x1+2,x2+2,…,x n+2的平均数为x+2,方差为s2D.数据2x1-2,2x2-2,…,2x n-2的平均数为-2,方差为2s2【解析】 取x1=1,x2=3,则=2,x21=1,x2=9,=5,故,A错误;数据2x1,2x2,…,2x n的平均数为2x,标准差为2s,B正确;数据x1+2,x2+2,…,x n+2的平均数为x+2,方差为s2,C正确;数据2x1-2,2x2-2,…,2x n-2的平均数为2x-2,方差为4s2,D错误.故选BC.【答案】 BC6.(多选)(2022·石家庄五校联考)下图统计了截止到2019年年底中国电动汽车充电桩细分产品占比及保有量情况,关于这5次统计,下列说法错误的是( )A.私人类电动汽车充电桩保有量增长率最高的年份是2018年B.公共类电动汽车充电桩保有量的中位数是25.7万台C.公共类电动汽车充电桩保有量的平均数为23.12万台D.从2017年开始,我国私人类电动汽车充电桩占比均超过50%【解析】 私人类电动汽车充电桩保有量增长率最高的年份是2016年,A错误;这5次统计的公共类电动汽车充电桩保有量的中位数是21.4万台,B错误;因为4.9+14.1+21.4+30+44.7=23.02,故C项错误,D项显然正确.故选:ABC.5【答案】 ABC7.某公司10位员工的月工资(单位:元)为x1,x2,…,x10,其平均数和方差分别为x 和s2,若从下月起每位员工的月工资增加100元,则这10位员工下月工资的平均数和方差分别为( )【解析】 因为每个数据都加上100,所以平均数也增加100,而离散程度应保持不变,即方差不变.【答案】 D8.(2022·宁夏长庆中学)某校为了了解全校高中学生十一小长假参加实践活动的情况,抽查了100名学生,统计他们假期参加实践活动的时间,绘成的频率分布直方图如图所示,估计这100名学生参加实践活动时间的中位数是( )A.7.2 B.7.16C.8.2 D.7【解析】 因为在频率分布直方图中,中位数两侧的面积相等,所以0.04×2+0.12×2+(x-6)×0.15=0.5,可解出x=7.2,故选A.【答案】 A9.(2022·泉州质检)已知某样本的容量为50,平均数为70,方差为75.现发现在收集这些数据时,其中的两个数据记录有误,一个错将80记录为60,另一个错将70记录为90.在对错误的数据进行更正后,重新求得样本的平均数为,方差为s2,则( )【解析】 分别根据数据的平均数和方差的计算公式,求得x,s2的值,即可得到答案.由题意,可得=70×50+80-60+70-9050=70,设收集的48个准确数据分别记为x1,x2, (x48)则75=150[(x1-70)2+(x2-70)2+…+(x48-70)2+(60-70)2+(90-70)2]=150[(x1-70)2+(x2-70)2+…+(x48-70)2+500],s2=150[(x1-70)2+(x2-70)2+…+(x48-70)2+(80-70)2+(70-70)2]=150[(x1-70)2+(x2-70)2+…+(x48-70)2+100]<75,所以s2<75.故选A.【答案】 A10.(多选)(2022·重庆模拟)2020年12月31日,我国第一支新冠疫苗“国药集团中国生物新冠灭活疫苗”获得国家药监局批准附条件上市,保护率为79.34%,中和抗体阳转率为99.52%,该疫苗将面向全民免费.所谓疫苗的保护率,是通过把人群分成两部分,一部分称为对照组,即注射安慰剂;另一部分称为疫苗组,即注射疫苗来进行的.当从对照组和疫苗组分别获得发病率后,就可以计算出疫苗的保护率=(对照组发病率-疫苗组发病率)/对照组发病率×100%.关于注射疫苗,下列说法正确的是( )A.只要注射了新冠疫苗,就一定不会感染新冠肺炎B.新冠疫苗的高度阳转率,使得新冠肺炎重症感染的风险大大降低C.若对照组10 000人,发病100人;疫苗组2 000人,发病80人,则保护率为60% D.若某疫苗的保护率为80%,对照组发病率为50%,那么在1 000个人注射了该疫苗后,一定有1 000个人发病【解析】 显然选项A错误,对于选项B:新冠疫苗的阳转率高说明有高滴度的抗体,当感染新冠肺炎后,肺炎症状将会大大降低,进而减少重症率,所以选项B正确,对于选项C:由保护率的计算公式可得:对照组和疫苗组的发病率分别为1%,0.4%,代入可得保护率为60%,所以选项C正确,对于选项D:虽然根据公式算出样本中疫苗组的发病率为10%,但实际是否会发病是随机事件,所以选项D错误.【答案】 BC11.样本中共有五个个体,其值分别为a,0,1,2,3,若该样本的平均值为1,则样本方差为________.【解析】 由题意知15(a+0+1+2+3)=1,解得a=-1,所以样本方差为s2=15[(-1-1)2+(0-1)2+(1-1)2+(2-1)2+(3-1)2]=2.【答案】 212.(2022·西城一模)在一次体育水平测试中,甲、乙两校均有100名学生参加,其中:甲校男生成绩的优秀率为70%,女生成绩的优秀率为50%;乙校男生成绩的优秀率为60%,女生成绩的优秀率为40%.对于此次测试,给出下列三个结论:①甲校学生成绩的优秀率大于乙校学生成绩的优秀率;②甲、乙两校所有男生成绩的优秀率大于甲、乙两校所有女生成绩的优秀率;③甲校学生成绩的优秀率与甲、乙两校所有学生成绩的优秀率的大小关系不确定.其中,所有正确结论的序号是________.【解析】 不能确定甲乙两校的男女比例,故①不正确;因为甲乙两校的男生的优秀率均大于女生成绩的优秀率,故甲、乙两校所有男生成绩的优秀率大于甲、乙两校所有女生成绩的优秀率,故②正确;因为不能确定甲乙两校的男女比例,故不能确定甲校学生成绩的优秀率与甲、乙两校所有学生成绩的优秀率的大小关系,故③正确.【答案】 ②③13.(2022·顺德二模)为了解某市公益志愿者的年龄分布情况,有关部门通过随机抽样,得到如图的频率分布直方图.(1)求a的值,并估计该市公益志愿者年龄的平均数(同一组中的数据用该组区间的中点值作代表);(2)根据世界卫生组织确定新的年龄分段,青年是指年龄15~44岁的年轻人.据统计,该市人口约为300万人,其中公益志愿者约占总人口的40%.试根据直方图估计该市青年公益志愿者的人数.【解】 (1)∵(0.005+0.01+0.02+a+0.025+0.01)×10=1,∴a=0.03该市公益志愿者的平均年龄:=20×0.05+30×0.1+40×0.2+50×0.3+60×0.25+70×0.1=49(2)由频率分布直方图可得年龄15~44岁的频率为:(0.005+0.01+0.02×910)×10=0.33,∴估计该市青年公益志愿者的人数为:300×40%×0.33=39.6(万) 14.(2022·临沂三模)某地教育主管部门对所管辖的学校进行年终督导评估,为了解某学校师生对学校教学管理的满意度,分别从教师和不同年级的学生中随机抽取若干师生,进行评分(满分100分),绘制如下频率分布直方图,并将分数从低到高分为四个等级:满意度评分低于 60分 60分到 79分 80分到 89分 90分及 以上 满意度等级 不满意基本 满意满意 非常满意 已知满意度等级为基本满意的有136人.(1)求表中a 的值及不满意的人数;(2)从等级为不满意师生中按评分分层抽取6人了解不满意的原因,并从6人中选取2人担任整改监督员,求2人中恰有1人评分在[40,50)的概率;(3)若师生的满意指数不低于0.8,则该校可获评“教学管理先进单位”,根据你所学的统计知识,判断是否能获奖,并说明理由.(注:满意指数=满意程度的平均分100) 【解】 (1)由频率和为1,得(0.002+0.004+0.014+0.020+a +0.025)×10=1,解得a =0.035,设不满意的人数为x ,则(0.002+0.004)∶(0.014+0.020)=x ∶136, 解得x=24;(2)按评分分层抽取6人,应在评分在[40,50)的师生中抽取2人,分别记作A、B,在评分在[50,60)的师生中抽取4人,分别记为c、d、e、f,从这6人中选2人的所有基本事件为AB、Ac、Ad、Ae、Af、Bc、Bd、Be、Bf、cd、ce、cf、de、df、ef共15种,其中恰有1人评分在[40,50)包含的基本事件为Ac、Ad、Ae、Af、Bc、Bd、Be、Bf共8种,记“2人中恰有1人的评分在[40,50)”为事件A,则P(A)=8 15;(3)师生的满意指数为1100×(45×0.02+55×0.04+65×0.14+75×0.2+85×0.35+95×0.25)=0.807;师生的满意指数不低于0.8,可获评“教学管理先进单位”.。

2024届新高考一轮总复习人教版 第九章 第2节 用样本估计总体 课件(49张)


2.(必修第二册 P202 例 2 改编)某机构调查了解 10 种食品的卡路里含量,结果如下:
107,135,138,140,146,175,179,182,191,195.则这组数据的第 25 百分位数和
中位数分别是( )
A.138,160.5
B.138,146
C.138,175
D.135,160.5
[必记结论] 1.频率分布直方图与众数、中位数、平均数的关系 (1)最高的小长方形底边中点的横坐标即是众数. (2)中位数左边和右边的小长方形的面积和是相等的. (3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面 积乘以小长方形底边中点的横坐标之和.
2.简单随机抽样样本平均数、方差的公式推广 (1)若数据 x1,x2,…,xn 的平均数为-x ,则 mx1+a,mx2+a,mx3+a,…,mxn+a 的平均数是 m-x +a. (2)数据 x1,x2,…,xn 与数据 x1′=x1+a,x2′=x2+a,…,xn′=xn+a 的方差相等, 即数据经过平移后方差不变; (3)若数据 x1,x2,…,xn 的方差为 s2,则数据 ax1+b,ax2+b,…,axn+b 的方差 为 a2s2.
【小题热身】 1.思考辨析(在括号内打“√”或“×”) (1)对一组数据来说,平均数和中位数总是非常接近.( ) (2)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数.( ) (3)方差与标准差具有相同的单位.( ) (4)如果一组数中每个数减去同一个非零常数,则这组数的平均数改变,方差不 变.( ) 答案:(1)× (2)√ (3)× (4)√
情况下是优点,但它对极端值的不敏 数据的平均数)
感有时也会成为缺点
数字特征

高考数学专题复习:用样本估计总体

高考数学专题复习:用样本估计总体一、单选题1.某班50名学生在一次百米测试中,成绩全部不小于13秒且小于19秒,将测试结果按如下方式分成六组:第一组,成绩大于等于13秒且小于14秒;第二组,成绩大于等于14秒且小于15秒;…;第六组,成绩大于等于18秒且小于19秒,如图是按上述分组方法得到的频率分布直方图,设成绩小于17秒的学生人数占全班总人数的百分比为x,成绩大于等于15秒且小于17秒的学生人数为y,则从频率分布直方图中可分析出x和y的值分别是()A.90%,35 B.90%,45C.10%,35 D.10%,452.某同学郑一粒均匀的骰子5次,记录每次骰子出现的点数,若其中至少出现了1次点数6,则这组数据不可能得出的统计结果是()A.平均数为3,中位数为2 B.中位数为3,众数为2C.平均数为2,方差为3 D.中位数为3,方差为2.83.某中学有10个学生社团,每个社团的人数分别是70,60,60,50,60,40,40,30,30,10,则这组数据的平均数,众数,中位数的和为()A.165 B.160 C.150 D.1704.四名同学各掷一枚骰子5次,分别记录每次骰子出现的点数.根据下面四名同学的统计结果,可以判断出一定没有出现点数6的是()A.平均数为2,方差为2.4 B.中位数为3,众数为2C.平均数为3,中位数为2 D.中位数为3,方差为2.85.某市2020年各月的平均气温(℃)数据的茎叶图如下,则这组数据的中位数是()A .21B .22C .22.5D .236.为了从甲、乙两人中选一人参加数学竞赛,老师将二人最近的6次数学测试的分数进行统计,甲、乙两人的得分情况如茎叶图所示,若甲、乙两人的平均成绩分别是 ,x x 甲乙,则下列说法正确的是( )A . x x >甲乙,乙比甲成绩稳定,应选乙参加比赛B . x x >甲乙,甲比乙成绩稳定,应选甲参加比赛C . x x <甲乙,甲比乙成绩稳定,应选甲参加比赛D . x x <甲乙,乙比甲成绩稳定,应选乙参加比赛7.已知某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为x ,方差为2s ,则( )A .242,x s ==B .24,2x s =>C .24,2x s =<D .24,2x s ><8.某校高一年级一名学生七次月考数学成绩(满分100分)分别为78,82,84,84,86,89,96,则这名学生七次月考数学成绩的第80百分位数为( ) A .82B .84C .89D .969.某校高一甲、乙两个班分别有男生24名、15名,现用比例分配的分层随机抽样方法从两班男生中抽取样本量为13的样本,对两个班男生的平均身高进行评估.已知甲班、乙班男生身高的样本平均数分别为175cm 、177.6cm ,以所抽取样本的平均身高作为两个班男生的平均身高,则两个班男生的平均身高为( )A .176cmB .176.3cmC .176.6cmD .176.9cm10.设一组样本数据12,,n x x x 的平均值为2,则数据1229,29,,29n x x x ++⋅⋅⋅+的平均值为( ) A .11B .12C .13D .1411.某同学掷骰子4次,并记录了每次骰子出现的点数,得出平均数为2,方差为12的统计结果,则下列点数中一定不出现的是( ) A .1B .2C .3D .512.某单位共有A 、B 、C 三个部门,三部门人员平均年龄分别为38岁、24岁、42岁,又已知A 和B 两部门人员平均年龄为30岁,B 和C 两部门人员平均年龄为34岁,则该单位全体人员的平均年龄为( ) A .34岁 B .35岁C .36岁D .37岁二、填空题13.一组数6,5,4,3,3,3,2,2,2,1的80%分位数为________.14.学校进行30秒跳绳测试,某小组8名同学的跳绳个数如下面的茎叶图所示,则该组数据的方差为________.15.某企业生产甲、乙两种产品,现从一批产品中随机抽取两种产品各5件进行检测,检测量结果如下:由于表格被污损,数据a ,b 看不清,统计员只记得甲、乙两种产品检测数据的平均数和方差都相等,则ab =________.16.已知样本数据1x ,2x ,⋯,2020x 的平均数与方差分别是m 和n ,若2(1i i y x i =-+=,2,⋯,2020),且样本数据的1y ,2y ,⋯,2020y 平均数与方差分别是n 和m ,则222122020x x x ++⋯+=________.三、解答题17.高一年级期末考试成绩各分数段[)0,90,[)90,105,[)105,120,[)120,135,[]135,150的频率分布如下图.(Ⅰ)计算高一年级所有同学成绩的中位数;(Ⅱ)用各分数段的中间值代替各分数段的平均值,并且删去[)0,90,[]135,150两个分数段,试估计高一年级期末考试成绩的平均值;(Ⅲ)若高一年级有1000人,把成绩从低到高编号,用系统抽样的方法从中抽取一个容量为20的样本,其中一个个体的编号为63,请写出抽样在[)105,120之间的个体的编号.18.20名学生某次数学考试成绩(单位:分)的频率分布直方图如图.(1)求频率分布直方图中a 的值;(2)估计总体中成绩落在[)50,60中的学生人数;(3)根据频率分布直方图估计20名学生数学考试成绩的众数,中位数;19.甲、乙两位同学要参加数学竞赛,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取6次,绘制成茎叶图如下(单位:分).(1)分别写出甲、乙两位同学6次预赛成绩的众数、中位数;(2)计算甲、乙两位同学6次预赛成绩的平均数与方差,并判断谁的成绩更稳定.20.现有某城市100户居民的月平均用电量(单位:度)的数据,根据这些数据,以[)160,180,[)180,200,[)200,220,[)220,240,[)240,260,[)260,280,[]280,300分组的频率分布直方图如图所示.(1)确定直方图中x 的值,并求月平均用电量的众数和中位数;(2)在月平均用电量为[)220,240,[)240,260,[)260,280,[]280,300的四组用户中,用分层随机抽样的方法抽取11户居民,则月平均用电量在[)220,240内的用户中应抽取多少户?21.下表为30位学生参加语文竞赛的成绩,并由小到大排列.(1)求第一、二、三四分位数;(2)求第10百分位数;(3)求第95百分位数.22.从某小区抽取100户居民进行月用电量调查,发现其用电量都在50至350度之间,频率分布直方图如图所示.(1)求直方图中x的值;(2)①求在这些用户中,用电量在区间[100,250)内的居民数;②如果按分层抽样方法,在这些用户中按1:10的比例抽取用户进一步调查,那么用电量在[150,200)内的居民数应抽取多少?参考答案1.A 【分析】频率分布直方图中,小矩形的高等于每一组的频率/组距,它们与频数成正比,小矩形的面积等于这一组的频率.建立相应的关系式,即可求得. 【详解】解:从频率分布直方图上可以看出1(0.060.04)0.9x =-+=,50(0.360.34)35y =⨯+=,故选:A . 2.C 【分析】对于选项ABD ,举出满足条件且出现点数为6的例子,对于选项C ,由于至少出现一个点数6,结合平均数为2,计算方差即可判断作答. 【详解】对于A ,中位数为2的5个点数是1,1,2,5,6,平均数为1125635++++=,选项A 可能出现;对于B ,中位数为3,众数为2的5个点数是2,2,3,4,6或2,2,3,5,6均符合要求,即选项B 可能出现;对于C ,因平均数为2,且至少出现了1次点数6,则方差221(62) 3.25s >-=,即方差不可能为3,选项C 不可能出现;对于D ,中位数为3的5个点数是1,2,3,3,6,平均数为1233635++++=,方差2222221[(13)(23)(33)(33)(63)] 2.85s =-+-+-+-+-=,选项D 可能出现.故选:C 3.C 【分析】将数字从小到大(或从大到小)排列,得到众数和中位数,再算出平均数,即可得到答案. 【详解】人数分别是10,30,30,40,40,50,60,60,60,70,则众数为60,中位数为4050452+=,平均数为103030404050606060704510+++++++++=,∴平均数,众数,中位数的和为:60+45+45=150. 故选:C. 4.A 【分析】选项A ,利用反证法说明一定含6,选项BCD 中依次举例说明可能含有6即可. 【详解】对于A ,若平均数为2,且出现点数6,则方差221(62) 3.2 2.45S >-=>,所以当平均数为2,方差为2.4时,一定不会出现点数6,所以A 可以判断;对于B ,当掷骰子出现的结果为2,2,3,4,6时,满足中位数为3,众数为2,可以出现点6,所以B 不能判断;对于C ,当掷骰子出现的结果为1,1,2,5,6时,满足平均数为3,中位数为2,可以出现点6,所以C 不能判断;对于D ,当掷骰子出现的结果为1,2,3,3,6时,满足中位数为3,则平均数为1(12336)35x =++++=,方差为2222221[(13)(23)(33)(33)(63)] 2.85S =-+-+-+-+-=,所以可以出现点6,所以D 不能判断. 故选:A. 5.B 【分析】由茎叶图得到数据最中间的两个数是21和23,即得解. 【详解】由茎叶图可知,数据最中间的两个数是21和23, 所以数据的中位数为21+23=222. 故选:B 6.D 【分析】根据茎叶图中的数据计算平均数得的平均数是82,乙的平均数是87,再根据茎叶图分析甲与乙的稳定性即可得答案. 【详解】由茎叶图可知,甲的平均数是727879858692826+++++=,乙的平均数是788687879193876+++++=,所以乙的平均数大于甲的平均数,即 x x <甲乙, 从茎叶图可以看出乙的成绩比较稳定,应选乙参加比赛. 故选:D. 7.C 【分析】由已知条件,根据平均数和方差的计算公式进行求解即可. 【详解】 根据题意有47448x ⨯+==, 而()22724428s ⨯+-=<.故选:C. 8.C 【分析】利用百分位数的定义分析求解即可. 【详解】解:因为780% 5.6⨯=,所以这名学生七次月考数学成绩的第80百分位数为89. 故选:C. 9.A 【分析】由题知13个的样本中,甲班男生有8人,乙班男生有5人,进而得两个班男生的平均身高为()11758177.6517613⨯+⨯=. 【详解】解:根据题意,抽出来的13个的样本中,甲班男生有241382415⨯=+人,乙班男生有151352415⨯=+人,所以根据题意得两个班男生的平均身高为()11758177.6517613⨯+⨯= 故选:A 10.C 【分析】利用平均数公式求解即可. 【详解】 因为122nx x x n+++=,所以12292929n x x x n++++++,()122913n x x x n+++=+=,故选:C. 11.D 【分析】利用方差的公式检验四个选项的正误即可得正确选项. 【详解】当有一个数是5,则()25291442-=>,所以5一定不出现;当有一个数是3时,()23211442-=<,所以3可能出现; 当有一个数是2时,()2221042-=<,所以2可能出现; 当有一个数是1时,()21211442-=<,所以1可能出现;故选:D. 12.B 【分析】设A 、B 、C 三个部门的人数分别为,,a b c ,根据已知条件列出方程组可求出34a b =,54c b =,然后再根据平均数的计算公式,即可求出该单位全体人员的平均年龄.【详解】设A 、B 、C 三个部门的人数分别为,,a b c ,由题意得382430244234a b a b b c b c+⎧=⎪⎪+⎨+⎪=⎪+⎩,所以3454a b c b ⎧=⎪⎪⎨⎪=⎪⎩, 所以该单位全体人员的平均年龄为3538244238244244353544b b b a bc a b c b b b ⨯++⨯++==++++. 故选:B13.4.5【分析】将数据按从小到大的顺序排列,第8和第9个数的平均数即可.【详解】一组数6,5,4,3,3,3,2,2,2,1按从小到大的顺序排列,可得1,2,2,2,3,3,3,4,5,6,共10个,由1080%8⨯=,所以该组数据的80%分位数为45 4.52+=, 故答案为:4.5.14.17.5【分析】先求出该组数据的平均数,再由方差公式即可求出.【详解】 由图可知,该组数据的平均数为4144454750515254488+++++++=, 所以方差为()()()()2222222217431234617.58⎡⎤⨯-+-+-+-++++=⎣⎦. 故答案为:17.5.15.72【分析】求出均值可得17a b +=,再由方差相等可得()()22881a b -+-=,解方程组即可求解.【详解】77+7.5+9+9.56+8.5+8.5+=8=55a x xb ++==甲乙,可得17a b += ①, ()()()()()22222878787.58989.5 5.5D =-+-+-+-+-=甲 ,则()()()()()2222286888.588.58 5.5D a b =-+-+-+-+-=乙,可得()()22881a b -+-= ②, 由①②可得89,98a a b b ==⎧⎧⎨⎨==⎩⎩,所以72ab = , 故答案为:72 .16.4040【分析】由样本数据的平均数、方差的性质列方程组求出1m =,1n =,从而2221220201[(1)(1)(1)]12020x x x -+-+⋅⋅⋅+-=,由此能求出222122020x x x ++⋯+的值. 【详解】由题意得:2m n m n -+=⎧⎨=⎩, 解得1m =,1n =, ∴2221220201[(1)(1)(1)]12020x x x -+-+⋅⋅⋅+-=, 22212202012202020202()2020x x x x x x ∴++⋯++-++⋅⋅⋅+=,2221220201220202()220204040x x x x x x ∴++⋯+=++⋅⋅⋅+=⨯=.故答案为:4040.17.(Ⅰ)110分;(Ⅱ)111.5分;(Ⅲ)413,463,513,563,613,663.【分析】(1)根据中位数的概念即可求解;(Ⅱ)结合加权平均数的计算公式即可求出结果;(Ⅲ)由系统抽样中等间隔即可求出结果.【详解】(1)由题图可知[)0,90和[)90,105分数段内的人数占总人数的40%,故中位数在[)105,120分数段内从低到高13处,则中位数为1105151103+⨯=(分). (Ⅱ)[)90,105,[)105,120,[)120,135三个分数段的中间值分别为97.5,112.5,127.5,人数比为25%:30%:20%5:6:4=,则估计高一年级期末考试成绩的平均值为97.55112.56127.54111.5564⨯+⨯+⨯=++(分). (Ⅲ)由题图可得[)0,90分数段内有150人,[)90,105分数段内有250人,[)105,120分数段内有300人,则[)105,120分数段内的编号是从401到700,由题意,两个相邻样本的编号差为10005020=,则在分数段[)105,120内抽取的个体的编号为413,463,513,563,613,663. 18.(1)0.005a =;(2)2人;(3)众数为75,中位数为5407. 【分析】(1)由频率和为1可求出a 的值;(2)先求出成绩落在[)50,60的频率,从而可求出频数;(3)由图可知众数在第3组,从而可得众数为7080752+=,由于前2组的频率和小于0.5,前3组的频率和大于0.5,所以中位数在第3组,列方程可求得结果【详解】(1)()23762101a a a a a ++++⨯=,解得0.005a =.(2)由频率分布直方图得成绩落在[)50,60中的频率为2100.1a ⨯=,∴估计总体中成绩落在[)50,60中的学生人数为:200.12⨯=人.(3)根据频率分布直方图估计20名学生数学考试成绩的众数为:7080752+=, 由于前2组的频率和10(0.010.015)0.250.5⨯+=<,前3组的频率和10(0.010.0150.035)0.60.5⨯++=>,所以中位数在第3组,设中位数为x ,则()()0.010.015100.035700.5x +⨯+-= 解得5407x =,所以中位数为540719.(1)甲同学6次预赛成绩的众数为82分,中位数为82分,乙同学6次预赛成绩的众数为85分,中位数为81.5分;(2)甲同学预赛的平均成绩82分;乙同学预赛的平均成绩81分,甲同学预赛成绩的方差为313;乙同学预赛成绩的方差为13;甲同学成绩更稳定. 【分析】(1)甲同学的6次预赛成绩分别为:78,79,82,82,83,88;乙同学的6次预赛成绩分别为:76,77,80,83,85,85,进而可得答案;(2)根据茎叶图,计算即可得平均数与方差,再根据数字特征的意义即可得答案.【详解】(1)由茎叶图可知,甲同学的6次预赛成绩分别为:78,79,82,82,83,88;乙同学的6次预赛成绩分别为:76,77,80,83,85,85;所以,甲同学6次预赛成绩的众数为82分,中位数为8282822+=(分),乙同学6次预赛成绩的众数为85分,中位数为808381.52+=(分) (2)甲同学预赛的平均成绩121223880826x --++++=+=分 乙同学预赛的平均成绩243035580816x --++++=+=分, 甲同学预赛成绩的方差为22222221131(7882)(7982)(8282)(8282)(8382)(8882)63s ⎡⎤=-+-+-+-+-+-=⎣⎦ 乙同学预赛成绩的方差为222222221(7681)(7781)(8081)(8381)(8581)(8581)136s ⎡⎤=-+-+-+-+-+-=⎣⎦ 由2221s s >,所以,甲同学成绩更稳定20.(1)0.0075x =,众数为230度,中位数224度;(2)5户.【分析】(1)由频率和为1列方程可求出x 的值,由[)220,240对应的频数最大,可求出众数,由前3组的频率和小于0.5,前4组的频率和大于0.5,所以中位数在第4组,设中位数为t 度,则0.50.45220200.25t -=+⨯; (2)利用分层抽样的比进行求解即可【详解】(1)因为()0.0020.00250.0050.00950.0110.0125201x ++++++⨯=,所以0.0075x =; 由频率分布直方图可知:[)220,240对应的频数最大,所以众数为230度;因为前三组频率之和为()0.0020.00950.011200.450.5++⨯=<,第四组频率为0.0125200.25⨯=,且0.450.250.70.5+=>,所以中位数在第四组数据中,设中位数为t 度, 所以0.50.45220202240.25t -=+⨯=. (2)因为[)220,240,[)240,260,[)260,280,[]280,300的频率之比为()()()()0.012520:0.007520:0.00520:0.0025205:3:2:1⨯⨯⨯⨯=,所以月平均用电量在[)220,240内的用户中应抽取:51155321⨯=+++户, 答:月平均用电量在[)220,240内的用户中应抽取5户.21.(1)第一四分位数为65,第二四分位数为75.5,第三四分位数为85;(2)56.5;(3)99.【分析】(1)由30×25%,30×50%,30×75%分别确定第一、二、三四分位数的位置即可; (2)由30×10%确定第10百分位数的位置; (3)由30×95%确定第95百分位数的位置 【详解】解:(1)30×25%=7.5,取第8项数据,所以第一四分位数为65,30×50%=15,取第15、16项数据的平均数,所以第二四分位数为75762+=75.5;30×75%=22.5,取第23项数据,所以第三四分位数为85.(2)30×10%=3,取第3、4项数据的平均数,所以第10百分位数为55582+=56.5. (3)30×95%=28.5,取第29项数据,所以第95百分位数为99. 22.(1)x =0.0044;(2)①70户;②3(户).【分析】(1)由频率分布直方图,列出方程,能求出直方图中x 的值.(2)①先求出用电量在[100,250)内的频率为0.7,由此能求出在这些用户中,用电量在区间[100,250)内的居民数.②用电量在[150,200)内的户数为30户,由此利用分层抽样的性质能求出用电量在[150,200)内的居民数应该抽取的户数.【详解】(1)由频率分布直方图得:(0.0012+0.0024×2+0.0036+x+0.0060)×50=1,解得直方图中x=0.0044.(2)①用电量在[100,250)内的频率为:(0.0036+0.0060+0.0044)×50=0.7,∴在这些用户中,用电量在区间[100,250)内的居民数为100×0.7=70户.②用电量在[150,200)内的户数为0.0060×50×100=30(户),按分层抽样方法,在这些用户中按1:10的比例抽取用户进一步调查,用电量在[150,200)内的居民数应该抽取:130310⨯=(户).。

考点3 统计图表及数据的数字特征,用样本估计总体

温馨提示:高考题库为Word 版,请按住Ctrl ,滑动鼠标滚轴,调节合适的观看比例,点击右上角的关闭按钮可返回目录。

考点3 统计图表及数据的数字特征,用样本估计总体2010年考题1.(2010·陕西高考文科·T4)如图,样本A 和B 分别取自两个不同的总体,它们的样本平均数分别为A B x x 和,样本标准差分别为s A 和s B ,则( )(A) A x >B x ,s A >s B (B) A x <B x ,s A >s B (C) A x >B x ,s A <s B (D) A x <B x ,s A <s B【解析】选B 由图易得A x <B x ,又A 波动性大,B 波动性小,所以s A >s B2.(2010·山东高考理科·T6)样本中共有五个个体,其值分别为a,0,1,2,3,,若该样本的平均值为1,则样本方差为( )65【解析】选D,由题意知1a+0+1+2+3)=15(,解得a=-1,所以样本方差为2222221S =[(-1-1)+(0-1)+(1-1)+(2-1)+(3-1)]5=2,故选D.3. (2010·山东高考文科·T6)在某项体育比赛中,七位裁判为一选手打出的分数如下: 90 89 90 95 93 94 93去掉一个最高分和一个最低分后,所剩数据的平均值和方差分别为( )(A )92 , 2 (B) 92 , 2.8 (C) 93 , 2 (D) 93 , 2.8 【解析】选了B ,去掉一个最高分95一个最低分89,剩下5个数的平均值为1(9090939493)925++++=,方差为222221[(9092)(9092)(9392)(9492)(9392)] 2.85-+-+-+-+-= 4. (2010·福建高考文科·T9)若某校高一年级8个班参加合唱比赛的得分如茎叶图所示,则这组数据的中位数和平均数分别是( )A.91.5和91.5B.91.5和92C.91和91.5D.92和92【解析】选A ,数据从小到大排列后可得其中位数为919291.52+=,平均数为878990919293949691.58+++++++=。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

用样本估计总体及线性相关关系一.【课标要求】1.用样本估计总体①通过实例体会分布的意义和作用,在表示样本数据的过程中,学会列频率分布表、画频率分布直方图、频率折线图、茎叶图,体会他们各自的特点;②通过实例理解样本数据标准差的意义和作用,学会计算数据标准差;③能根据实际问题的需求合理地选取样本,从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释;④在解决统计问题的过程中,进一步体会用样本估计总体的思想,会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征;初步体会样本频率分布和数字特征的随机性;⑤会用随机抽样的基本方法和样本估计总体的思想,解决一些简单的实际问题;能通过对数据的分析为合理的决策提供一些依据,认识统计的作用,体会统计思维与确定性思维的差异;⑥形成对数据处理过程进行初步评价的意识 2.变量的相关性①通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系;②经历用不同估算方法描述两个变量线性相关的过程。

知道最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程二.【命题走向】“统计”是在初中“统计初步”基础上的深化和扩展,本讲主要会用样本的频率分布估计总体的分布,并会用样本的特征来估计总体的分布预测2010年高考对本讲的考察是:1.以基本题目(中、低档题)为主,多以选择题、填空题的形式出现,以实际问题为背景,综合考察学生学习基础知识、应用基础知识、解决实际问题的能力;2.热点问题是频率分布直方图和用样本的数字特征估计总体的数字特征。

三.【要点精讲】1.用样本的数字特征估计总体的数字特征 (1)众数、中位数在一组数据中出现次数最多的数据叫做这组数据的众数;将一组数据按照从大到小(或从小到大)排列,处在中间位置上的一个数据(或中间两位数据的平均数)叫做这组数据的中位数;(2)平均数与方差如果这n 个数据是n x x x ,,.........,21,那么∑==ni ix n x 11叫做这n 个数据平均数;如果这n 个数据是n x x x ,,.........,21,那么)(112∑=-=ni i x x n S 叫做这n 个数据方差;同时=s)(11∑=-ni i x x n 叫做这n 个数据的标准差。

2.频率分布直方图、折线图与茎叶图样本中所有数据(或数据组)的频率和样本容量的比,就是该数据的频率。

所有数据(或数据组)的频率的分布变化规律叫做频率分布,可以用频率分布直方图、折线图、茎叶图来表示。

频率分布直方图: 具体做法如下:(1)求极差(即一组数据中最大值与最小值的差); (2)决定组距与组数; (3)将数据分组; (4)列频率分布表; (5)画频率分布直方图注:频率分布直方图中小正方形的面积=组距×组距频率=频率。

折线图:连接频率分布直方图中小长方形上端中点,就得到频率分布折线图总体密度曲线:当样本容量足够大,分组越多,折线越接近于一条光滑的曲线,此光滑曲线为总体密度曲线。

3.线性回归回归分析:对于两个变量,当自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫相关关系或回归关系。

回归直线方程:设x 与y 是具有相关关系的两个变量,且相应于n 个观测值的n 个点大致分布在某一条直线的附近,就可以认为y 对x 的回归函数的类型为直线型:bx a y+=ˆ。

其中2121121)())((xn x yx n yx x x y y x xb n i i ni ii ni i ni i i--=---=∑∑∑∑====,x b y a -=。

我们称这个方程为y 对x 的回归直线方程。

四.【典例解析】题型1:数字特征例1.为了检查一批手榴弹的杀伤半径,抽取了其中20颗做试验,得到这20颗手榴弹的杀伤半径,并列表如下:(1)在这个问题中,总体、个体、样本和样本容量各是什么?(2)求出这20颗手榴弹的杀伤半径的众数、中位数和平均数,并估计这批手榴弹的平均杀伤半径.解析: (1)总体是要检查的这批手榴弹的杀伤半径的全体;个体是每一颗手榴弹的杀伤半径;样本是所抽取的20颗手榴弹的杀伤半径;样本容量是20。

(2)在20个数据中,10出现了6次,次数最多,所以众数是10(米)20个数据从小到大排列,第10个和第11个数据是最中间的两个数,分别为9(米)和10(米),所以中位数是21(9+10)=9.5(米)。

样本平均数4.9)112311610495817(201=⨯+⨯+⨯+⨯+⨯+⨯=x (米)所以,估计这批手榴弹的平均杀伤半径约为9.4米。

点评:(1)根据总体、个体、样本、样本容量的概念答题.要注意:总体、个体和样本所说的考察对象是一种数量指标,不能说成考察的对象是手榴弹,而应说是手榴弹的杀伤半径。

变式1.甲、乙两种冬小麦试验品种连续5年的平均单位面积产量如下(单位:t / hm 2)其中产量比较稳定的小麦品种是 甲 。

解析:甲 = 1 5( 9.8 + 9.9 + 10.1 + 10 + 10.2) = 10.0,乙 = 1 5( 9.4 + 10.3 + 10.8 + 9.7 + 9.8) = 10.0;s 2甲 = 1 5( 9.82 + … + 10.22) – 102 = 0.02,s 2甲 = 1 5( 9.42 + … + 9.82) – 102 = 0.244 > 0.02 。

点评:方差与平均数在反映样本的特征上一定要区分开 2.在一次歌手大奖赛上,七位评委为歌手打出的分数如下: 9.4 8.4 9.4 9.9 9.6 9.4 9.7去掉一个最高分和一个最低分后,所剩数据的平均值和方差分别为(A )9.4, 0.484 (B )9.4, 0.016 (C )9.5, 0.04 (D )9.5, 0.016 答案:D ;解析:7个数据中去掉一个最高分和一个最低分后,余下的5个数为:9.4, 9.4, 9.6, 9.4, 9.5。

则平均数为:5.946.955.94.96.94.94.9≈=++++=x ,即5.9=x 。

方差为:016.0])5.95.9()5.94.9()5.94.9[(512222=-+⋅⋅⋅+-+-=s即 016.02=s ,故选D 。

点评:一定要根据实际的题意解决问题,并还原实际情景 题型2:频率分布直方图与条形图例2.为检测,某种产品的质量,抽取了一个容量为30的样本,检测结果为一级品5件,而极品8件,三级品13件,次品14件.(1)列出样本频率分布表;(2)画出表示样本频率分布的条形图;(3)根据上述结果,估计辞呈商品为二极品或三极品的概率约是多少 解析:(1)样本的频率分布表为(2)样本频率分布的条形图为:(3)此种产品为二极品或三极品的概率约为0.27+0.43=0.7。

点评:条形图中纵坐标一般是频数或频率例6.为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄为17.5岁-18岁的男生体重(kg) ,得到频率分布直方图如下:根据上图可得这100名学生中体重在〔56.5,64.5〕的学生人数是(A)20 (B)30(C)40 (D)50答案:C;解析:根据运算的算式:体重在〔56.5,64.5〕学生的累积频率为2×0.03+2×0.05+2×0.05+2×0.07=0.4,则体重在〔56.5,64.5〕学生的人数为0.4×100=40。

例3.某中学对高三年级进行身高统计,测量随机抽取的40名学生的身高,其结果如下(单位:cm)(1)列出频率分布表;(2)画出频率分布直方图;(3)估计数据落在[150,170]范围内的概率解析:(1)根据题意可列出频率分布表:(2)频率分布直方图如下:(3)数据落在[150,170]范围内的概率约为0.825。

题型4:茎叶图例4.观看下面两名选手全垒打数据的茎叶图,对他们的表现进行比较。

1961年扬基队外垒手马利斯打破了鲁斯的一个赛季打出60个全垒打的记录。

下面是扬基队的历年比赛中的鲁斯和马利斯每年击出的全垒打的比较图:鲁斯马利斯0 81 3 4 65 2 2 36 85 4 3 3 99 7 6 6 1 1 49 4 4 50 6 1解析:鲁斯的成绩相对集中,稳定在46左右;马利斯成绩相对发散,成绩稳定在26左右。

题型5:线性回归方程例5.由施肥量x与水稻产量y试验数据的关系,画出散点图,并指明相关性。

解析:散点图为:通过图象可知是正相关。

五.【思维总结】1.统计是为了从数据中提取信息,学习时根据实际问题的需求选择不同的方法合理地选取样本,并从样本数据中提取需要的数字特征。

不应把统计处理成数字运算和画图表。

对统计中的概念(如"总体"、"样本"等)应结合具体问题进行描述性说明,不应追求严格的形式化定义2.当总体中个体取不同值很少时,我们党用样本的频率分布标记频率分布梯形图取估计总体体分布,总体分布排除了抽样造成的错误,精确反映了总体取值的概率分布规律。

对于所取不同数值较多或可以在实数区间范围内取值的总体,需用频率分布直方图来表示相应的频率分布。

当样本容量无限增大,分组的组距无限缩小时,频率分布直方图无限接近一条光滑曲线——总体密度曲线.由于总体分布通常不易知道,往往是用样本的频率分布估计总体分布。

样本容量越大,估计就越精确3.相关关系研究两个变量间的相关关系是学习本节的目的。

对于相关关系我们可以从下三个方面加以认识:(1)相关关系与函数关系不同。

函数关系中的两个变量间是一种确定性关系。

例如正方S 就是函数关系。

即对于边长x的每一个确定的值,都有面积形面积S与边长x之间的关系2xS的惟一确定的值与之对应。

相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系。

例如人的身高与年龄;商品的销售额与广告费等等都是相关关系。

(2)函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系。

例如有人发现,对于在校儿童,身高与阅读技能有很强的相关关系。

然而学会新词并不能使儿童马上长高,而是涉及到第三个因素——年龄,当儿童长大一些,他们的阅读能力会提高而且由于长大身高也会高些。

(3)函数关系与相关关系之间有着密切联系,在一定的条件下可以相互转化。

例如正方形面积S与其边长x间虽然是一种确定性关系,但在每次测量边长时,由于测量误差等原因,其数值大小又表现出一种随机性。

而对于具有线性关系的两个变量来说,当求得其回归直线后,我们又可以用一种确定性的关系对这两个变量间的关系进行估计。

相关关系在现实生活中大量存在,从某种意义上讲,函数关系是一种理想的关系模型,而相关关系是一种更为一般的情况。

相关文档
最新文档