2018学年第一学期高二数学必修三专题复习统计与统计案例
2018学年高中数学人教A版课件必修三 第二章 统计 章末分层突破2 精品

数形结合思想
数形结合思想在本章中的重要应用是通过频率分布的态势对总体进 行估计及根据散点图确定两个变量是否具有相关关系,并做出判断.
统计图表(频率分布直方图、茎叶图)与数字特征(平均数、中位数、方 差)是高考的重点和热点内容,几乎每年必考,通常以茎叶图和频率分布 直方图为载体,考查平均数、中位数、方差等的计算,高考对变量间的相 关性的考查呈逐年上升的趋势,主要考查借助散点图直观地分析两个变量 间的相关关系,知道回归直线经过样本中心,会求回归方程,并能利用方 程对有关变量作出估计.
3.对甲、乙的学习成绩进行抽样分析,各抽 5 门功课,得到的观测值 如下:
甲 60 80 70 90 70 乙 80 60 70 80 75 问:甲、乙谁的平均成绩好?谁的各门功课发展较平衡?
【解】 甲的平均成绩为-x 甲=74,乙的平均成绩为-x 乙=73.所以甲 的平均成绩好.
甲的方差是 s2甲=51(142+62+42+162+42)=104,乙的方差是 s2乙=15× (72+132+32+72+22)=56.
因为 s2甲>s2乙,所以乙的各门功课发展较平衡.
回归直线的方程
分析两个变量的相关关系时,可根据样本数据散点图确定两个变量之 间是否存在相关关系,还可利用最小二乘法求出回归方程.从散点图上, 我们可以分析出两个变量是否存在相关关系.如果这些点大致分布在通过 散点图中心的一条直线附近,那么就说这两个变量之间具有线性相关关 系,这条直线叫做回归直线,直线的方程叫做回归方程.
(3)估计身高低于 134 cm 的人数占总人数的百分比.
【精彩点拨】 (1)根据频数计算出频率.分“分组 ”、“频数”、 “频率”三列,列出频率分布表.
(2)根据频率分布表画出频率分布直方图. (3)根据频率分布表计算出身高低于 134 cm 的频率.
高中数学必修3第二章:统计2.3变量间的相关关系

Y 研考点·知规律
探究悟道 点拨技法
题型一 相关关系的判断 【例 1】 河北国欣农研会的科研人员在 7 块并排、形状大小 相同的试验田上对某棉花新品种进行施化肥量 x 对产量 y 影响的 试验,得到如下表所示的一组数据(单位:kg): 施化肥量 x 15 20 25 30 35 40 45 棉花产量 y 330 345 365 405 445 450 455
D 读教材·抓基础
回扣教材 扫除盲点
课本导读
1.两个变量的线性相关 (1)在散点图中,点散布在从 左下角 到 右上角的区域,对于 两个变量的这种相关关系,我们将它称为正相关. (2)在散点图中,点散布在从 左上角 到 右下角的区域,两个 变量的这种相关关系称为负相关. (3)如果散点图中点的分布在整体上看大致在一条直线附近 , 就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
() (A)她儿子10岁时的身高一定是145.83 cm (B)她儿子10岁时的身高在145.83 cm以上 (C)她儿子10岁时的身高在145.83 cm左右 (D)她儿子10岁时的身高在145.83 cm以下
2.经调查知,某品牌汽车的销售量y(辆)与广告费用x(万元)之 间的回归直线方程为 yˆ =250+4x,当广告费用为50万元时,预计 汽车销售量约为 ______辆.
2.回归方程 (1)最小二乘法:使得样本数据的点到回归直线的 距离的平方
和最小的方法叫最小二乘法.
(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,
^^ ^
y1)、(x2,y2),…,(xn,yn).其回归方程为y=bx+a,则
n
n
xi- x yi- y xiyi-n x y
名师导学2018届高三数学文二轮复习课件:专题3第6讲统计与统计案例 精品

(2)相关性检验的步骤 ①作统计假设,假设 x 与 y 不具有线性相关关系; ②根据检验水平 0.05 查出 r 的一个临界值 r0.05; ③根据样本相关系数计算公式计算 r 的值; ④作统计推断.如果|r|>r0.05,表明有 95%的把握 认为 x 与 y 之间具有线性相关关系;如果|r|≤r0.05,则 没有理由拒绝原来的假设,这时寻找线性回归方程是
统计案例主要包括相关性检验和独立性检验,2011 年在选择题中出现.2012 年、2013 年、2014 年、2015 年又 没考.
预计我省 2016 年高考文科对本专题的内容考查将 有以下特点:
(1)本专题内容在高考试卷中所占分数在 16~22 分之 间,一般以填空题、选择题和解答题出现,难度以中档题 为主.
n
(xi x)( yi y)
i 1
①r= n
n
,叫做相关系数.
(xi x)2 ( yi y)2
i 1
i 1
②样本相关系数 r 的性质
a.相关系数用来衡量变量 x 与 y 之间的线性相关程度;
b.|r|≤1,且|r|越接近于 1,相关程度越高;
c.|r|≤1,且|r|越接近于 0,相关程度越低.
简单随
从总体中逐
总体中的个
机抽样 抽样 过程
系统 中每 抽样 个个
体被 抽取 的概 分层 率相 抽样 等
个抽取
将总体均分 成几部分, 按事先确定 的规则在各 部分抽取
在起始部 分抽样时 采用简单 随机抽样
分层抽样
将总体分成 时采用简
几层,分层 单随机抽
进行抽取 样或系统
体数较少
总体中的个 体数较多
总体由差异 明显的几部 分组成
高中数学【统计与统计案例】专题练习

高中数学【统计与统计案例】专题练习1.(多选)下列统计量中,能度量样本x 1,x 2,…,x n 的离散程度的是( ) A.样本x 1,x 2,…,x n 的标准差 B.样本x 1,x 2,…,x n 的中位数 C.样本x 1,x 2,…,x n 的极差 D.样本x 1,x 2,…,x n 的平均数 答案 AC解析 由标准差的定义可知,标准差考查的是数据的离散程度;由中位数的定义可知,中位数考查的是数据的集中趋势;由极差的定义可知,极差考查的是数据的离散程度;由平均数的定义可知,平均数考查的是数据的集中趋势;故选AC.2.某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下: 旧设备 9.8 10.3 10.0 10.2 9.9 9.8 10.0 10.1 10.2 9.7 新设备10.110.410.110.010.110.310.610.510.410.5旧设备和新设备生产产品的该项指标的样本平均数分别记为x -和y -,样本方差分别记为s 21和s 22. (1)求x -,y -,s 21,s 22;(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果y --x -≥2s 21+s 2210,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).解 (1)x -=9.8+10.3+10.0+10.2+9.9+9.8+10.0+10.1+10.2+9.710=10,y -=10.1+10.4+10.1+10.0+10.1+10.3+10.6+10.5+10.4+10.510=10.3,s 21=0.22+0.32+0+0.22+0.12+0.22+0+0.12+0.22+0.3210=0.036,s 22=0.22+0.12+0.22+0.32+0.22+0+0.32+0.22+0.12+0.2210=0.04. (2)由(1)知,y --x -=0.3; 2s 21+s 2210=20.036+0.0410=20.007 6.又(y --x -)2=0.09>(20.007 6)2=0.030 4,则y --x ->2s 21+s 2210,所以新设备生产产品的该项指标的均值较旧设备有显著提高.3.某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑20i =1x i =60,∑20i =1y i =1 200,∑20i =1(x i -x -)2=80,∑20i =1(y i-y -)2=9 000,∑20i =1(x i -x -)(y i -y -)=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r =∑ni =1 (x i -x -)(y i -y -)∑n i =1(x i -x -)2∑n i =1 (y i -y -)2,2≈1.414.解 (1)由已知得样本平均数y -=120∑20i =1y i =60,从而该地区这种野生动物数量的估计值为60×200=12 000.(2)样本(x i ,y i )(i =1,2,…,20)的相关系数r =∑20i =1 (x i -x -)(y i -y -)∑20i =1(x i -x -)2∑20i =1(y i -y -)2=80080×9 000=223≈0.94.(3)分层随机抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层随机抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关性.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层随机抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.1.抽样方法抽样方法包括简单随机抽样、分层随机抽样,两种抽样方法都是等概率抽样,体现了抽样的公平性,但又各有其特点和适用范围. 2.统计中的五个数据特征(1)众数:在样本数据中,出现次数最多的那个数据.(2)中位数:在样本数据中,将数据按大小顺序排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数. (3)平均数:样本数据的算术平均数,即x -=1n (x 1+x 2+…+x n ).(4)第p 百分位数:将一组数据(共n 个)按从小到大排列,计算i =n ×p %,若i 不是整数,而大于i 的比邻整数为j ,则第p 百分位数为第j 项数据;若i 是整数,则第p 百分位数为第i 项与第(i +1)项数据的平均数.(5)方差与标准差.s 2=1n [(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2],s =1n [(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2].3.频率分布直方图的两个结论 (1)小长方形的面积=组距×频率组距=频率. (2)各小长方形的面积之和等于1. 4.回归分析与独立性检验(1)回归直线y ^=b ^x +a ^经过样本点的中心(x -,y -),若x 取某一个值代入回归直线方程y ^=b ^x +a ^中,可求出y 的估计值. (2)独立性检验对于取值分别是{x 1,x 2}和{y 1,y 2}的分类变量X 和Y ,其样本频数列联表是:X Y 合计 y 1 y 2 x 1 a b a +b x 2 c d c +d 合计a +cb +dn则χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量).热点一 用样本估计总体考向1 数字特征与统计图表的应用【例1】 (1)空气质量指数分为六级,指数越大说明污染的情况越严重,对人体危害越大,其中指数范围[0,50],[51,100],[101,150],[151,200],[201,300]分别对应“优”“良”“轻度污染”“中度污染”“重度污染”五个等级.如图是某市连续14天的空气质量指数趋势图,下列说法不正确的是( )A.这14天中有4天空气质量为“良”B.这14天中空气质量指数的中位数是103C.从2日到5日空气质量越来越差D.连续三天中空气质量指数方差最小的是9日到11日(2)2020年我国突发新冠肺炎疫情,疫情期间中小学生“停课不停学”.已知某地区中小学生人数情况如甲图所示,各学段学生在疫情期间“家务劳动”的参与率如乙图所示.为了进一步了解该地区中小学生参与“家务劳动”的情况,现用分层随机抽样的方法抽取4%的学生进行调查,则抽取的样本容量、抽取的高中生中参与“家务劳动”的人数分别为()A.2 750,200B.2 750,110C.1 120,110D.1 120,200答案(1)B(2)C解析(1)在这14天中,1日、3日、12日、13日的空气质量为良,共4天,故A正确.14天中空气质量指数的中位数为86+1212=103.5,故B错误.从2日到5日,空气质量指数越来越高,故空气质量越来越差,C正确.观察题图可得,9日至11日空气质量指数偏差最小,因此方差最小,D正确.综上知,说法不正确的是B.(2)学生总数为15 500+5 000+7 500=28 000(人),由于抽取4%的学生进行调查,则抽取的样本容量为28 000×4%=1 120.故高中生应抽取的人数为5 000×4%=200,而抽取的高中生中参与“家务劳动”的比率为0.55,故抽取的高中生中参与“家务劳动”的人数为200×0.55=110.探究提高 1.解题的关键是理解统计图表的含义,从中提取数字信息,平均数、众数、中位数描述数据的集中趋势,方差与标准差描述数据的波动大小,标准差、方差越小,数据的离散程度越小,越稳定.2.进行分层随机抽样的相关计算时,常用到的两个关系:(1)样本容量n总体的个数N=该层抽取的个体数该层的个体数;(2)总体中某两层的个体数之比等于样本中这两层抽取的个体数之比.【训练1】(1)以下数据为参加数学竞赛决赛的15人的成绩:(单位:分)78,70,72,86,88,79,80,81,94,84,56,98,83,90,91,则这15人成绩的第80百分位数是()A.90B.90.5C.91D.91.5(2)(多选) 2020年上半年,中国养猪企业受猪价高位的利好影响,大多收获史上最佳半年报业绩,部分企业半年报营业收入同比增长超过1倍.某养猪场抓住机遇,加大了生猪养殖规模,为了检测生猪的养殖情况,该养猪场对2 000头生猪的体重(单位:kg)进行了统计,得到如图所示的频率分布直方图,则下列说法正确的是()A.这2 000头生猪体重的众数为160 kgB.这2 000头生猪中体重不低于200 kg的有80头C.这2 000头生猪体重的中位数落在区间[140,160)内D.这2 000头生猪体重的平均数为152.8 kg答案(1)B(2)BCD解析(1)把成绩按从小到大的顺序排列为:56,70,72,78,79,80,81,83,84,86,88,90,91,94,98,因为15×80%=12,所以这15人成绩的第80百分位数是90+912=90.5.(2)由频率分布直方图可知,[140,160)这一组的数据对应的小长方形最高,所以这2 000头生猪的体重的众数为150 kg,A错误;这2 000头生猪中体重不低于200 kg的有0.002×20×2 000=80(头),B正确;因为生猪的体重在[80,140)内的频率为(0.001+0.004+0.01)×20=0.3,在[140,160)内的频率为0.016×20=0.32,且0.3+0.32=0.62>0.5,所以这2 000头生猪体重的中位数落在区间[140,160)内,C正确;这2 000头生猪体重的平均数为(0.001×90+0.004×110+0.01×130+0.016×150+0.012×170+0.005×190+0.002×210)×20=152.8(kg),D正确.考向2用样本的频率分布估计总体分布【例2】为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.(1)求乙离子残留百分比直方图中a,b的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).解(1)由已知得0.70=a+0.20+0.15,故a=0.35,b=1-0.05-0.15-0.70=0.10.(2)甲离子残留百分比的平均值的估计值为2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.乙离子残留百分比的平均值的估计值为3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.探究提高 1.平均数与方差都是重要的数字特征,是对数据的一种简明描述,它们所反映的情况有着重要的实际意义.2.在例2中,抓住频率分布直方图各小长方形的面积之和为1,这是求解的关键;本题易混淆频率分布条形图和频率分布直方图,误把频率分布直方图纵轴的几何意义当成频率,导致样本数据的频率求错.【训练2】(多选)为了更好地支持中小型企业的发展,某市决定对部分企业的税收进行适当的减免,现调查了当地100家中小型企业年收入(单位:万元)情况,并根据所得数据画出了如图所示的频率分布直方图,则下列结论正确的是()A.样本在区间[500,700]内的频数为18B.如果规定年收入在300万元以内的企业才能享受减免税收政策,估计有30%的当地中小型企业能享受到减免税收政策C.样本的中位数大于350万元D.可估计当地中小型企业年收入的平均数超过400万元(同一组中的数据用该组区间的中点值作代表)答案ABC解析依题意,(0.001+0.002+0.002 6×2+a+0.000 4)×100=1,所以a=0.001 4.对于A,样本在[500,700]内的频率为(0.001 4+0.000 4)×100=0.18,故频数为0.18×100=18,故A正确.对于B,年收入在300万元以内的频率为(0.001+0.002)×100=0.3,故B正确. 对于C,设样本的中位数为x,易知中位数位于[300,400]内,则0.3+(x-300)×0.002 6=0.5,解得x≈376.9,376.9>350,故C正确.因为样本的平均数为150×0.1+250×0.2+350×0.26+450×0.26+550×0.14+650×0.04=376<400,所以估计当地中小型企业年收入的平均数小于400万元,故D 错误. 热点二 回归分析【例3】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据进行了初步处理,得到如图所示散点图及一些统计量的值.x -y -w -∑8i =1(x i -x -)2∑8i =1(w i -w -)2∑8i =1(x i -x -)·(y i -y -) ∑8i =1(w i -w -)·(y i -y -) 46.65636.8289.8 1.61 469108.8表中w i =x i ,w -=18∑8i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个更适宜作为年销售量y 关于年宣传费x 的回归方程?(给出判断即可,不必说明理由) (2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程.(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为:β^=∑ni =1(u i -u -)(v i -v -)∑n i =1(u i -u -)2,α^=v --β^u -.解 (1)由散点图可以判断,y =c +d x 更适宜作为年销售量y 关于年宣传费x 的回归方程.(2)易知w =x ,则y ^=d ^w +c ^.由题意得d ^=∑8i =1(w i -w -)(y i -y -)∑8i =1(w i -w -)2=108.81.6=68,所以c ^=y --d ^w -=563-68×6.8=100.6.所以y 关于w 的线性回归方程为y ^=100.6+68w , 所以y 关于x 的回归方程为y ^=100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值为y ^=100.6+6849=576.6,年利润z 的预报值为z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12,所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大. 探究提高 1.求回归直线方程的关键及实际应用 (1)关键:正确理解b ^,a ^的计算公式并准确地计算.(2)实际应用:在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值. 2.相关系数(1)当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关. (2)当|r |>0.75时,认为两个变量具有较强的线性相关关系.【训练3】 (多选)我国5G 技术研发试验在2016~2018年进行,分为5G 关键技术试验、5G 技术方案验证和5G 系统验证三个阶段.2020年初以来,5G 技术在我国已经进入高速发展的阶段,5G 手机的销量也逐渐上升.某手机商城统计了2021年5个月5G 手机的实际销量,如下表所示:若y 与x 线性相关,且求得线性回归方程为y ^=45x +5,则下列说法正确的是( ) A.a =142 B.y 与x 正相关C.y 与x 的相关系数为负数D.2021年7月该手机商城的5G 手机销量约为365部 答案 AB解析 x -=1+2+3+4+55=3,y -=50+96+a +185+2275=558+a 5,因为点(x -,y -)在回归直线上,所以558+a5=45×3+5,解得a =142,所以选项A 正确;从表格数据看,y 随x 的增大而增大,所以y 与x 正相关,所以选项B 正确;因为y 与x 正相关,所以y 与x 的相关系数为正数,所以选项C 错误;2021年7月对应的月份编号x =7,当x =7时,y ^=45×7+5=320,所以2021年7月该手机商城的5G 手机销量约为320部,所以选项D 错误.故选AB.热点三 独立性检验【例4】 为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO 2浓度(单位:μg/m 3),得下表:(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO 2浓度不超过150”的概率;(2)根据所给数据,完成下面的2×2列联表:(3)根据(2)中的列联表,依据小概率值α=0.01的χ2独立性检验,能否认为该市一天空气中PM2.5浓度与SO 2浓度有关? 附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),解 (1)根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且SO 2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO 2浓度不超过150的概率的估计值为64100=0.64. (2)根据抽查数据,可得2×2列联表:(3)零假设为H 0:该市一天空气中PM2.5浓度与SO 2浓度无关.根据(2)的列联表得χ2=100×(64×10-16×10)280×20×74×26≈7.484>6.635=x 0.01.根据小概率值α=0.01的χ2独立性检验,我们推断H 0不成立,即认为该市一天空气中PM2.5浓度与SO 2浓度有关,此推断犯错误的概率不超过0.01. 探究提高 1.独立性检验的一般步骤 (1)根据样本数据列成2×2列联表; (2)根据公式χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),计算χ2的值;(3)查表比较χ2与临界值的大小关系,作统计判断.2.χ2的值越大,对应假设事件H 0成立(两类变量相互独立)的概率越小,H 0不成立的概率越大.【训练4】 甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)依据小概率值α=0.01的χ2独立性检验,能否认为甲机床的产品质量与乙机床的产品质量有差异?附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),α 0.050 0.010 0.001 x α3.8416.63510.828解 (1)根据2×2列联表知:甲机床生产的产品中一级品的频率为150200=75%, 乙机床生产的产品中一级品的频率为120200=60%.(2)零假设为H 0:甲机床的产品质量与乙机床的产品质量没有差异.由2×2列联表,得χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=400×(150×80-120×50)2270×130×200×200=40039≈10.256>6.635=x 0.01.根据小概率值α=0.01的χ2独立性检验,我们推断H 0不成立,即认为甲机床的产品质量与乙机床的产品质量有差异,此推断犯错误的概率不超过0.01.一、选择题1.设一组样本数据x 1,x 2,…,x n 的方差为0.01,则数据10x 1,10x 2,…,10x n 的方差为( ) A.0.01 B.0.1 C.1 D.10答案 C解析 10x 1,10x 2,…,10x n 的方差为102×0.01=1.2.为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( ) A.160 B.163 C.166 D.170答案 C解析 ∵x -=110∑10i =1x i =110×225=22.5,y -=110∑10i =1y i=160, ∴a ^=y --b ^x -=160-4×22.5=70, ∴回归直线方程为y ^=4x +70. 因此估计其身高y ^=4×24+70=166.3.从一批零件中抽取80个,测量其直径(单位:mm),将所得数据分为9组:[5.31,5.33),[5.33,5.35),…,[5.45,5.47),[5.47,5.49],并整理得到如下频率分布直方图,则在被抽取的零件中,直径落在区间[5.43,5.47)内的个数为( )A.10B.18C.20D.36答案 B解析 因为直径落在区间[5.43,5.47)内的频率为0.02×(6.25+5.00)=0.225,所以零件的个数为0.225×80=18.4.某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A 点表示十月的平均最高气温约为15 ℃,B 点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是()A.各月的平均最低气温都在0 ℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20 ℃的月份有5个答案 D解析由雷达图易知A,C正确;七月的平均最高气温超过20 ℃,平均最低气温约为12 ℃,一月的平均最高气温约为6 ℃,平均最低气温约为2 ℃,所以七月的平均温差比一月的平均温差大,B正确;由雷达图知平均最高气温超过20 ℃的月份有3个月,D错误.5.(多选) 5G时代已经到来,5G的发展将直接带动包括运营、制造、服务在内的通信行业整体的快速发展,进而对GDP增长产生直接贡献,并通过产业间的关联效应,间接带动国民经济各行业的发展,创造出更多的经济增加值.如图,某单位结合近年数据,对今后几年的5G经济产出作出预测.由上图提供的信息可知()A.运营商的经济产出逐年增加B.设备制造商的经济产出前期增长较快,后期放缓C.设备制造商在各年的总经济产出中一直处于领先地位D.信息服务商与运营商的经济产出的差距有逐步拉大的趋势 答案 ABD解析 对于A ,由图知,运营商的经济产出逐年增加,故A 正确;对于B ,由图知,设备制造商的经济产出在2020~2023年间增长较快,后几年增长逐渐趋于平缓,故B 正确;对于C ,由图可知,设备制造商在各年的总经济产出中在前期处于领先地位,而后期是信息服务商处于领先地位,故C 错误;对于D ,由图知,在2020~2025年间信息服务商与运营商的经济产出的差距不大,后几年中信息服务商的经济产出增长速度明显高于运营商的经济产出增长速度,两者间的差距有逐步拉大的趋势,故D 正确.综上所述,选ABD.6.已知某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为x -,方差为s 2,则( )A.x -=4,s 2<2B.x -=4,s 2>2 C.x ->4,s 2<2 D.x ->4,s 2>2答案 A解析 ∵某7个数的平均数为4,∴这7个数的和为4×7=28.∵加入一个新数据4,∴x -=28+48=4.又∵这7个数的方差为2,且加入一个新数据4,∴这8个数的方差s 2=7×2+(4-4)28=74<2,故选A.二、填空题 7.给出如下列联表非 30 50 80 合计5060110根据独立性检验,__________在犯错误的概率不超过0.01的前提下认为“高血压与患心脏病有关”(填“能”或“不能”). 答案 能解析 零假设为H 0:高血压与患心脏病无关. 由列联表中的数据可得 χ2=110×(20×50-10×30)230×80×50×60≈7.486>6.635=x 0.01,根据小概率值α=0.01的χ2独立性检验,我们推断H 0不成立,即认为高血压与患心脏病有关,此推断犯错误的概率不超过0.01,即能在犯错误的概率不超过0.01的前提下,认为高血压与患心脏病有关.8.为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,测试成绩(单位:分)如图所示,假设得分值的中位数为m e ,众数为m 0,平均值为x -,则m e ,m 0与x -的大小关系是________.答案 m 0<m e <x -解析 由图可知,30名学生的得分情况依次为得3分的有2人,得4分的有3人,得5分的有10人,得6分的有6人,得7分的有3人,得8分的有2人,得9分的有2人,得10分的有2人.中位数为第15、16个数(分别为5、6)的平均数,即m e =5.5.5出现的次数最多,故m 0=5,x -=2×3+3×4+10×5+6×6+3×7+2×8+2×9+2×1030≈5.97.于是得m 0<m e <x -.9.下面的折线图给出的是甲、乙两只股票在某年中每月的收盘价格,已知股票甲的极差是6.88元,标准差为2.04元;股票乙的极差为27.47元,标准差为9.63元,根据这两只股票在这一年中的波动程度,给出下列结论:①股票甲在这一年中波动相对较小,表现的更加稳定;②购买股票乙风险高但可能获得高回报;③股票甲的走势相对平稳,股票乙的收盘价格波动较大;④两只股票在全年都处于上升趋势.其中正确的结论是________(填序号).答案 ①②③解析 由题意可知,甲的标准差为2.04元,乙的标准差为9.63元,可知股票甲在这一年中波动相对较小,表现的更加稳定,故①正确;甲的极差是6.88元,乙的极差为27.47元,可知购买股票乙风险高但可能获得高回报,故②正确;通过折线图可知股票甲的走势相对平稳,股票乙的收盘价格波动较大,故③正确;通过折线图可得乙在6月到8月明显是下降趋势,故④错误. 三、解答题10.某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:性别对该商场的服务 合计满意不满意(1)分别估计男、女顾客对该商场服务满意的概率;(2)依据小概率值α=0.05的χ2独立性检验,能否认为男、女顾客对该商场服务的评价有差异?附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)由调查数据,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6. (2)零假设为H 0:男、女顾客对该商场服务的评价没有差异. 由列联表中的数据,得 χ2=100×(40×20-30×10)250×50×70×30≈4.762>3.841=x 0.05.根据小概率值α=0.05的χ2独立性检验,我们推 断H 0不成立,即认为男、女顾客对商场服务的评价有差异,此推断犯错误的概率不大于0.05.11.某互联网公司为了确定下季度的前期广告投入计划,收集了近6个月广告投入量x (单位:万元)和收益y (单位:万元)的数据如表:他们分别用两种模型①y =bx +a ,②y =a e bx 进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值.x -y -∑6i =1x i y i∑6i =1x 2i7301 464.24 364(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由; (2)残差绝对值大于2的数据被认为是异常数据,需要剔除. (ⅰ)剔除异常数据后,求出(1)中所选模型的回归方程; (ⅱ)若广告投入量x =18,则该模型收益的预报值是多少?附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为:b ^=∑n i =1(x i -x -)(y i -y -)∑n i =1(x i -x -)2=∑ni =1x i y i -nx -·y -∑n i =1x 2i -n ·x -2,a ^=y --b ^x -. 解 (1)由于模型①残差波动小,应该选择模型①. (2)(ⅰ)剔除异常数据,即3月份的数据, 剩下数据的平均数为x -=15×(7×6-6)=7.2,y -=15×(30×6-31.8)=29.64,∑5i =1x i y i -5x -·y -=206.4,∑5i =1x 2i -5·x -2=68.8. ∴b ^=206.468.8=3,a ^=y --b ^x -=29.64-3×7.2=8.04.∴所选模型的回归方程为y ^=3x +8.04. (ⅱ)若广告投入量x =18,则该模型收益的预报值是3×18+8.04=62.04(万元).12.(多选)2020年7月国家统计局发布了我国2020年上半年国内经济数据,图1为国内三大产业生产总值的比重,图2为第三产业中各行业生产总值的比重.以下关于我国2020年上半年经济数据的说法正确的是()A.在第三产业中,“批发和零售业”与“金融业”的生产总值之和同“其他服务业”的生产总值基本持平B.若“租赁和商务服务业”生产总值为15 000亿元,则“房地产业”生产总值为32 500亿元C.若“金融业”的生产总值为42 000亿元,则第三产业生产总值为262 500亿元D.若“金融业”的生产总值为42 000亿元,则第一产业生产总值为45 000亿元答案ABC解析对于选项A,在第三产业中,“批发和零售业”与“金融业”的生产总值之和占比为16%+16%=32%,“其他服务业”的生产总值占比为32%,所以“批发和零售业”与“金融业”的生产总值之和同“其他服务业”的生产总值基本持平,故选项A正确.对于选项B,若“租赁和商务服务业”生产总值为15 000亿元,在第三产业中,因为“租赁和商务服务业”生产总值占比为6%,所以第三产业生产总值为15 000=250 000(亿元),又“房地产业”生产总值占比为13%,所以“房地产6%业”生产总值为13%×250 000=32 500(亿元),故选项B正确.对于选项C ,在第三产业中,若“金融业”的生产总值为42 000亿元,因为“金融业”生产总值占比为16%,所以第三产业生产总值为42 00016%=262 500(亿元),故选项C 正确.对于选项D ,第三产业生产总值在三大产业中占比为57%,第一产业生产总值在三大产业中占比为6%,由C 选项知第三产业生产总值为262 500亿元,所以第一产业生产总值为262 50057%×6%≈27 632(亿元),所以选项D 错误.13.由于受到网络电商的冲击,某品牌的洗衣机在线下的销售受到影响,承受了一定的经济损失,现将A 地区200家实体店该品牌洗衣机的月经济损失统计如图所示,估算月经济损失的平均数为m ,中位数为n ,则m -n =________.答案 360解析 第一块小矩形的面积S 1=0.3,第二块小矩形的面积S 2=0.4,故n =2 000+0.5-0.30.000 2=3 000;又第四、五块小矩形的面积均为S =0.06,故a =12 000[1-(0.3+0.4+0.06×2)]=0.000 09,所以m =1 000×0.3+3 000×0.4+5 000×0.18+(7 000+9 000)×0.06=3 360,故m -n =360.14.某公司为了预测下月产品销售情况,找出了近7个月的产品销售量y (单位:万件)的统计表:月份代码t 1 2 3 4 5 6 7 销售量y (万件)y 1y 2y 3y 4y 5y 6y 7但其中数据污损不清,经查证∑7i =1y i =9.32,∑7i =1t i y i =40.17,∑7i =1(y i -y -)2=0.55.。
2018届高三数学一轮复习: 重点强化课5 统计与统计案例

重点强化课(五) 统计与统计案例[复习导读] 本章是新课程改革增加内容,是命题的热点,以程序框图、回归分析、统计图表为重点,以客观题为主.命题注重背景新颖、角度灵活.但近几年统计与统计案例、统计与概率交汇,加大了考查力度.2015年、2016年全国卷均以解答题的形式呈现,强化统计思想方法和创新应用意识的考查,复习过程中应引起注意,多变换角度,注重新背景、新材料题目的训练.重点1 程序框图及应用☞角度1 程序框图与数列交汇执行如图1的程序框图,如果输入的N =100,则输出的X =( )A .0.95B.0.98C.0.99D.1.00图1C [由程序框图知,输出的X 表示数列⎩⎪⎨⎪⎧⎭⎪⎬⎪⎫1n (n +1)的前99项和,∴X =11×2+12×3+…+199×100=⎝ ⎛⎭⎪⎫1-12+⎝ ⎛⎭⎪⎫12-13+…+⎝ ⎛⎭⎪⎫199-1100=99100.] ☞角度2 程序框图与统计的渗透(2017·合肥模拟)随机抽取某中学甲、乙两个班各10名同学,测量他们的身高获得身高数据的茎叶图如图2,在样本的20人中,记身高在[150,160),[160,170),[170,180),[180,190)的人数依次为A 1,A 2,A 3,A 4.如图3是统计样本中身高在一定范围内的人数的算法框图.若图中输出的S=18,则判断框应填________.【导学号:01772372】图2图3i<5?或i≤4?[由于i从2开始,也就是统计大于或等于160的所有人数,于是就要计算A2+A3+A4,因此,判断框应填i<5?或i≤4?.]☞角度3程序框图与函数交汇渗透如图4所示的程序框图的输入值x∈[-1,3],则输出值y的取值范围为()【导学号:01772373】图4A.[1,2] B.[0,2]C.[0,1]D.[-1,2]B[当0≤x≤3时,1≤x+1≤4,所以,0≤log2(x+1)≤2.当-1≤x<0时,0<-x≤1⇒1<2-x≤2,所以,0<2-x-1≤1.因此输出值y的取值范围为[0,2].][规律方法] 1.完善程序框图:结合初始条件和输出结果,分析控制循环的变量应满足的条件或累加、累乘的变量的表达式.2.求解该类问题,关键是准确理解程序框图的结构,明确程序框图的功能,按照程序框图中的条件进行程序.重点2用样本估计总体(2015·全国卷Ⅱ)某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了40个用户,根据用户对产品的满意度评分,得到A地区用户满意度评分的频率分布直方图和B地区用户满意度评分的频数分布表.A地区用户满意度评分的频率分布直方图①图5B地区用户满意度评分的频数分布表比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);B地区用户满意度评分的频率分布直方图②图5(2)根据用户满意度评分,将用户的满意度分为三个等级:[解](1)如图所示.通过两地区用户满意度评分的频率分布直方图可以看出,B地区用户满意度评分的平均值高于A地区用户满意度评分的平均值;B地区用户满意度评分比较集中,而A地区用户满意度评分比较分散.5分(2)A地区用户的满意度等级为不满意的概率大.记C A表示事件:“A地区用户的满意度等级为不满意”;C B表示事件:“B地区用户的满意度等级为不满意”.由直方图得P(C A)的估计值为(0.01+0.02+0.03)×10=0.6,P(C B)的估计值为(0.005+0.02)×10=0.25.所以A地区用户的满意度等级为不满意的概率大.12分[规律方法] 1.利用统计图表解决实际问题的关键在于从统计图表中提炼准确的数据信息.2.本例通过画频率分布直方图考查对数据的处理能力和数形结合的思想方法,通过求概率考查运算求解能力和实际应用意识.[对点训练1]为调查甲、乙两校高三年级学生某次联考数学成绩情况,用简单随机抽样,从这两校中各抽取30名高三年级学生,以他们的数学成绩(百分制)作为样本,样本数据的茎叶图如图6所示.图6(1)若甲校高三年级每位学生被抽取的概率为0.05,求甲校高三年级学生总人数,并估计甲校高三年级这次联考数学成绩的及格率(60分及60分以上为及格);(2)设甲、乙两校高三年级学生这次联考数学平均成绩分别为x 1,x 2,估计x 1-x 2的值.[解] (1)设甲校高三年级学生总人数为n .由题意知30n =0.05,解得n =600.2分样本中甲校高三年级学生数学成绩不及格人数为5,据此估计甲校高三年级这次联考数学成绩的及格率为⎝ ⎛⎭⎪⎫1-530×100%≈83%.5分 (2)设甲、乙两校样本平均数分别为x ′1,x ′2,根据样本茎叶图可知30(x ′1-x ′2)=30x ′1-30x ′2=(7-5)+(55+8-14)+(24-12-65)+(26-24-79)+(22-20)+92=2+49-53-77+2+92=15,因此x ′1-x ′2=0.5,故x 1-x 2的估计值为0.5分.12分重点3 统计的应用(2016·全国卷Ⅰ)某公司计划购买1台机器,该种机器使用三年后即被淘汰.机器有一易损零件,在购进机器时,可以额外购买这种零件作为备件,每个200元.在机器使用期间,如果备件不足再购买,则每个500元.现需决策在购买机器时应同时购买几个易损零件,为此搜集并整理了100台这种机器在三年使用期内更换的易损零件数,得下面柱状图:图7记x 表示1台机器在三年使用期内需更换的易损零件数,y 表示1台机器在购买易损零件上所需的费用(单位:元),n 表示购机的同时购买的易损零件数.(1)若n =19,求y 与x 的函数解析式;(2)若要求“需更换的易损零件数不大于n ”的频率不小于0.5,求n 的最小值;(3)假设这100台机器在购机的同时每台都购买19个易损零件,或每台都购买20个易损零件,分别计算这100台机器在购买易损零件上所需费用的平均数,以此作为决策依据,购买1台机器的同时应购买19个还是20个易损零件?[解] (1)当x ≤19时,y =3 800;当x >19时,y =3 800+500(x -19)=500x -5 700,所以y 与x 的函数解析式为y =⎩⎨⎧3 800,x ≤19,500x -5 700,x >19(x ∈N ).4分 (2)由柱状图知,需更换的零件数不大于18的频率为0.46,不大于19的频率为0.7,故n 的最小值为19.8分(3)若每台机器在购机同时都购买19个易损零件,则这100台机器中有70台在购买易损零件上的费用为3 800,20台的费用为4 300,10台的费用为4 800,因此这100台机器在购买易损零件上所需费用的平均数为1100(3 800×70+4300×20+4 800×10)=4 000.10分若每台机器在购机同时都购买20个易损零件,则这100台机器中有90台在购买易损零件上的费用为4 000,10台的费用为4 500,因此这100台机器在购买易损零件上所需费用的平均数为1100(4 000×90+4 500×10)=4 050.比较两个平均数可知,购买1台机器的同时应购买19个易损零件.12分[规律方法] 1.本题将分段函数、频率分布、样本的数字特征交汇命题,体现了统计思想的意识和应用.2.本题易错点有两处:一是混淆频率分布直方图与柱状图致误;二是审题不清或不懂题意,导致解题无从入手.避免此类错误,需认真审题,读懂题意,并认真观察频率分布直方图与柱状图的区别,纵轴表示的意义.[对点训练2] 某旅行社为调查市民喜欢“人文景观”景点是否与年龄有关,随机抽取了55名市民,得到数据如下表:(1)点与年龄有关?(2)用分层抽样的方法从喜欢“人文景观”景点的市民中随机抽取6人作进一步调查,将这6位市民作为一个样本,从中任选2人,求恰有1位“大于40岁”的市民和1位“20岁至40岁”的市民的概率.下面的临界值表供参考:(参考公式:K 2=⎝ ⎛⎭⎪⎫(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d ) [解] (1)K 2=55(20×20-10×5)230×25×25×30≈11.978>7.879, 所以在犯错误的概率不超过0.5%的前提下认为喜欢“人文景观”景点与年龄有关.5分(2)设所抽样本中有m 个“大于40岁”市民,则m 20=630,得m =4,所以样本中有4个“大于40岁”的市民,2个“20岁至40岁”的市民,分别记作B1,B2,B3,B4,C1,C2.从中任选2人的基本事件有(B1,B2),(B1,B3),(B1,B4),(B1,C1),(B1,C2),(B2,B3),(B2,B4),(B2,C1),(B2,C2),(B3,B4),(B3,C1),(B3,C2),(B4,C1),(B4,C2),(C1,C2),共15个.10分其中恰有1名“大于40岁”和1名“20岁至40岁”的市民的事件有(B1,C1),(B1,C2),(B2,C1),(B2,C2),(B3,C1),(B3,C2),(B4,C1),(B4,C2),共8个.所以恰有1名“大于40岁”的市民和1名“20岁至40岁”的市民的概率为P=815.12分。
2018届北师大版高三数学一轮复习课件:第十章 统计与统计案例 第2讲 精品

s为标准差
诊断自测 1.判断正误(在括号内打“√”或“×”) 精彩PPT展示
(1) 平均数、众数与中位数从不同的角度描述了一组数据 的集中趋势.( ) )
(2)一组数据的方差越大,说明这组数据越集中.(
(3) 频率分布直方图中,小矩形的面积越大,表示样本数 据落在该区间的频率越高.( )
(4) 茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶
排序,排在第 25,26 位的是 75,75,故样本中位数为 75,所 以该市的市民对甲部门评分的中位数的估计值是 75. 50 位市民对乙部门的评分由小到大排序,排在第 25,26 位的 66+68 是 66,68,故样本中位数为 2 =67,所以该市的市民对乙 部门评分的中位数的估计值是 67.
布,会用样本的基本数字特征估计总体的基本数字特征,理 解用样本估计总体的思想; 5. 会用随机抽样的基本方法和样 本估计总体的思想解决一些简单的实际问题.
知识梳理
1.频率分布直方图 (1)频率分布表的画法:
极差 ,决定组数和组距,组距= 极差 ; 第一步:求_____ _______ 组数 分组,通常对组内数值所在区间取左闭右开区 第二步:_____
间,最后一组取闭区间; 第三步:登记频数,计算频率,列出频率分布表.
(2)频率分布直方图:反映样本频率分布的直方图(如图)
频率 横轴表示样本数据,纵轴表示 ,每个小矩形的面积 组距 ______
频率 表示样本落在该组内的_____.
2.茎叶图 统计中还有一种被用来表示数据的图叫做茎叶图,茎是指 中间的一列数,叶是从茎的旁边生长出来的数.
有疗效的人数为________.
解析
20 全体志愿者共有: =50(人), (0.24+0.16)×1
2018版高考数学(人教A版理)一轮复习课件:重点强化课5 统计与统计案例
图7
高三一轮总复习
记 x 表示 1 台机器在三年使用期内需更换的易损零件数,y 表示 1 台机器在购 买易损零件上所需的费用(单位:元),n 表示购机的同时购买的易损零件数. (1)若 n=19,求 y 与 x 的函数解析式; (2)若要求“需更换的易损零件数不大于 n”的频率不小于 0.5, 求 n 的最小值; (3)假设这 100 台机器在购机的同时每台都购买 19 个易损零件, 或每台都购买 20 个易损零件,分别计算这 100 台机器在购买易损零件上所需费用的平均数,以 此作为决策依据,购买 1 台机器的同时应购买 19 个还是 20 个易损零件?
高三一轮总复习
[规律方法] 的数据信息.
1.利用统计图表解决实际问题的关键在于从统计图表中提炼准确
2.本例通过画频率分布直方图考查对数据的处理能力和数形结合的思想方 法,通过求概率考查运算求解能力和实际应用意识.
高三一轮总复习 [对点训练 1] 为调查甲、乙两校高三年级学生某次联考数学成绩情况,用简
高三一轮总复习
其中恰有 1 名“大于 40 岁”和 1 名“20 岁至 40 岁”的市民的事件有(B1, C1), (B1,C2),(B2,C1),(B2,C2),(B3,C1),(B3,C2),(B4,C1),(B4,C2),共 8 个. 所以恰有 1 名“大于 40 岁”的市民和 1 名“20 岁至 40 岁”的市民的概率为 8 P=15.12 分
高三一轮总复习
[对点训练 2] 某旅行社为调查市民喜欢“人文景观”景点是否与年龄有关, 随机抽取了 55 名市民,得到数据如下表:
喜欢 不喜欢 总计 大于 40 岁 20 岁至 40 岁 总计 20 10 30 5 20 25 25 30 55
【高考数学】2018最新版本高三数学二轮专题复习课件:7.1统计与统计案例(专题拔高特训)
[答案]
D
[解析]
n 3 ∵ = ,∴n=13.故选 D. 120+80+60 60
(理)(2013· 新课标Ⅰ理, 3)为了解某地区的中小学生视力情 况,拟从该地区的中小学生中抽取部分学生进行调查,事先已 了解到该地区小学、初中、高中三个学段学生的视力情况有较 大差异,而男女生视力情况差异不大,在下面的抽样方法中, 最合理的抽样方法是( A.简单随机抽样 C.按学段分层抽样 ) B.按性别分层抽样 D.系统抽样
4.变量间的相关关系 (1) 利用散点图可以初步判断两个变量之间是否线性相 关.如果散点图中的点从整体上看大致分布在一条直线的附 近,我们说变量 x 和 y 具有线性相关关系. (2)用最小二乘法求回归直线的方程 ^x+a ^. 设线性回归方程为^ y=b ^是回归直线的斜率,a ^是截距. 其中,b
3.样本的数字特征 (1)众数 在样本数据中,频率分布最大值所对应的样本数据 (或出 现次数最多的那个数据). (2)中位数 样本数据中,将数据按大小排列,位于最中间的数据.如 果数据的个数为偶数,就取当中两个数据的平均数作为中位 数.
(3)平均数 1 - 样本数据的平均数 x =n(x1+x2+…+xn). (4)方差与标准差 方差 1 s = [(x1-- x )2+(x2-- x )2+…+(xn-- x )2]. n
2
标准差 s= 1 [x1-- x 2+x2-- x 2+…+xn-- x 2]. n
注意: (1)现实中总体所包含的个体数往往较多, 总体的平 均数与标准差、方差是不知道(或不可求)的,所以我们通常用 样本的平均数与标准差、方差来估计总体的平均数与标准差、 方差. (2)平均数反映了数据取值的平均水平, 标准差、 方差描述 了一组数据围绕平均数波动的大小.标准差、方差越大,数据 的离散程度越大,越不稳定.
2018学年高中数学人教A版课件选修2-3 第三章 统计案例
^+b ^x 中的b ^表示 x 每增加 1 个单位时预报变量 y 的平均 (4)回归直线方程^ y =a ^表示预报变量 y 不随 x 的变化而变化的部分. 变化量,而a (5)在一元线性回归模型中,相关指标 R2 与相关系数 r 都能刻画线性回归模 型拟合数据的效果. |r|越大, R2 就越大, 用线性回归模型拟合数据的效果就越好.
所以(1)的线性模型拟合效果比较好.
[ 再练一题] 1.(2016· 长春高二检测)已知某连锁经营公司的 5 个零售店某月的销售额和 利润额资料如下表: 商店名称 A B C D E 7 9 4 5
销售额 x(千万元) 3 5 6 利润额 y(千万元) 2 3 3
(1)画出散点图; (2)根据如下的参考公式与参考数据,求利润额 y 与销售额 x 之间的线性回 归方程;
(3)若该公司还有一个零售店某月销售额为 10 千万元,试估计它的利润额是 多少. x - y xiyi-n- ^= (参考公式:b
i=1 n
-2 x2 i -n x
i=1
n
^=- ^- ,a y -b x.
其中, xiyi=112, x2 i =200)
112-5×6×3.4 30 17 - - ^ (2)由已知数据计算得 n=5,x = 5 =6,y = 5 =3.4, b= = 200-5×6×6 ^=3.4-0.5×6=0.4. 0.5,a 则线性回归方程为^ y=0.5x+0.4. (3)将 x=10 代入线性回归方程中得到^ y=0.5×10+0.4=5.4(千万元). 即估计该零售店的利润额约为 5.4 千万元.
i=1
2 2 2 2 2 2 - ( y - y ) = ( - 20) + ( - 10) + 10 + 0 + 20 =1 000. i i =1
2018版高考数学一轮复习课件:重点强化课5 统计与统计案例
上一页
返回首页
下一页
第二十一页,编辑于星期六:二十二点 三十分。
高三一轮总复习
重点 3 统计的应用
(2016·全国卷Ⅰ)某公司计划购买 1 台机器,该种机器使用三年后即被 淘汰.机器有一易损零件,在购进机器时,可以额外购买这种零件作为备件,每个 200 元.在机器使用期间,如果备件不足再购买,则每个 500 元.现需决策在购买 机器时应同时购买几个易损零件,为此搜集并 整理了 100 台这种机器在三年使用期内更换的 易损零件数,得下面柱状图:
B [当 0≤x≤3 时,1≤x+1≤4, 所以,0≤log2(x+1)≤2. 当-1≤x<0 时,0<-x≤1⇒1<2-x≤2, 所以,0<2-x-1≤1. 因此输出值 y 的取值范围为[0,2].]
上一页
返回首页
下一页
第八页,编辑于星期六:二十二点 三十分。
高三一轮总复习
[规律方法] 1.完善程序框图:结合初始条件和输出结果,分析控制循环的变 量应满足的条件或累加、累乘的变量的表达式.
(2)设甲、乙两校高三年级学生这次联考数学平均成绩分别为 x 1, x 2,估计 x 1 - x 2 的值.
上一页
返回首页
下一页
第十九页,编辑于星期六:二十二点 三十分。
高三一轮总复习
[解] (1)设甲校高三年级学生总人数为 n. 由题意知3n0=0.05,解得 n=600.2 分 样本中甲校高三年级学生数学成绩不及格人数为 5,据此估计甲校高三年级这 次联考数学成绩的及格率为 1-350×100%≈83%.5 分
上一页
返回首页
下一页
第二十页,编辑于星期六:二十二点 三十分。
高三一轮总复习
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 必修三专题复习(2)——统计与统计案例 班级 学号 姓名 学习目标: 1.会用简单随机抽样方法从总体中抽取样本;了解分层抽样和系统抽样方法. 2.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征. 3.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程
知 识 梳 理 1.简单随机抽样:抽签法和随机数法. 2.系统抽样 3.分层抽样 练一练1:.某企业在甲、乙、丙、丁四个城市分别有150个,120个,190个,140个销售点.为了调查产品的质量,需从这600个销售点中抽取一个容量为100的样本,记这项调查为①;在丙城市有20个特大型销售点,要从中抽取8个调查,记这项调查为②,则完成①,②这两项调查宜采用的抽样方法依次为( ) A.分层抽样法、系统抽样法 B.分层抽样法、简单随机抽样法 C.系统抽样法、分层抽样法 D.简单随机抽样法、分层抽样法 练一练2:一支田径队有男运动员56人,女运动员42人,用分层抽样的方法从全体运动员中抽出一个容量为14的男女运动员分别为________、________人.
4.用样本的频率分布估计总体分布 (1)频率分布: (2)作频率分布直方图的步骤:①求极差,即一组数据中的最大值与最小值的差;②决定组距与组数;③将数据分组;④列频率分布表;⑤画频率分布直方图. 在频率分布直方图中,纵轴表示 ,数据落在各小组内的频率用 的面积表示,各小长方形的面积总和等于 (3)茎叶图
5.用样本的数字特征估计总体的数字特征 (1)众数:在一组数据中,出现次数最多的数据叫做这组数据的众数. (2)中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据2
的平均数)叫做这组数据的中位数. (3)平均数:样本数据的算术平均数,即x= . (4)样本方差、标准差 标准差s= . 其中xn是样本数据的第n项,n是样本容量,x是平均数. 练一练3:.对某商店一个月内每天的顾客人数进行了统计,得到样本的茎叶图(如图所示),则该样本的中位数、众数、极差分别是( ) A.46,45,56 B.46,45,53 C.47,45,56 D.45,47,53
6.变量间的相关关系: 正相关,负相关. 7.回归分析 对具有相关关系的两个变量进行统计分析的方法叫回归分析.其基本步骤是: (ⅰ)画散点图;(ⅱ)求回归直线方程;(ⅲ)用回归直线方程作预报. 则回归直线方程y^=a^+b^x的系数为:
其中x=1ni=1nxi,y=1ni=1nyi,(x,y)称为样本点的中心. 练一练4:为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表: 收入x(万元) 8.2 8.6 10.0 11.3 11.9 支出y(万元) 6.2 7.5 8.0 8.5 9.8
根据上表可得回归直线方程ybxa,其中b=0.76,.aybx.据此估计,该社区一户年收入为15万元家庭的年支出为( ) A.11.4万元 B.11.8万元 C.12.0万元 D.12.2万元
考点一 随机抽样 【例1】 (1)总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两3
个数字,则选出来的第5个个体的编号为________. (2)将高一·九班参加社会实践编号为1,2,3,…,48的48名学生,采用系统抽样的方法抽取一个容量为4的样本,已知5号,29号,41号学生在样本中,则样本中还有一名学生的编号是________. (3)某公司员工对户外运动分别持“喜欢”、“不喜欢”和“一般”三种态度,其中持“一般”态度的比持“不喜欢”态度的多12人,按分层抽样方法从该公司全体员工中选出部分员工座谈户外运动,如果选出的人有6位对户外运动持“喜欢”态度,有1位对户外运动持“不喜欢”态度,3位持“一般 ”态度.那么这个公司全体员工中对户外运动持“喜欢”态度的人数为( ) A.36 B.30 C.24 D.18
考点二 用样本估计总体 【例2】某公司为了了解用户对其产品的满意度,从A,B两地区分别随机调查了40个用户,根据用户对产品的满意度评分,得到A地区用户满意度评分的频率分布直方图和B地区用户满意度评分的频数分布表. A地区用户满意度评分的频率分布直方图
B地区用户满意度评分的频数分布表 满意度评 分分组 [50,60) [60,70) [70,80) [80,90) [90,100)
频数 2 8 14 10 6 (1)作出B地区用户满意度评分的频率分布直方图,并通过直方图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可). B地区用户满意度评分的频率分布直方图 4
(2)根据用户满意度评分,将用户的满意度分为三个等级: 满意度评分 低于70分 70分到89分 不低于90分 满意度等级 不满意 满意 非常满意 估计哪个地区用户的满意度等级为不满意的概率大?说明理由.
【例3】 某车间20名工人年龄数据如下表: 年龄(岁) 工人数(人) 19 1 28 3 29 3 30 5 31 4 32 3 40 1 合计 20
(1)求这20名工人年龄的众数与极差; (2)以十位数为茎,个位数为叶,作出这20名工人年龄的茎叶图; (3)求这20名工人年龄的方差.
考点三 变量间的相关关系、统计案例 【例4】随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表: 年份 2010 2011 2012 2013 2014
时间代号t 1 2 3 4 5
储蓄存款y(千亿元) 5 6 7 8 10 5
(1)求y关于t的回归方程ybta; (2)用所求回归方程预测该地区2015年(t=6)的人民币储蓄存款.
附:回归方程y=bt+a中,1221,.niiiniityntybaybttnt
巩固练习: 1.从编号为1~50的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射实验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是( ) A.5,10,15,20,25 B.3,13,23,33,43 C.1,2,3,4,5 D.2,4,6,16,32 2.在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.
若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是( ) A.3 B.4 C.5 D.6 4.已知某商场新进3 000袋奶粉,为检查其三聚氰胺是否达标,现采用系统抽样的方法从中抽取150袋检查,若第一组抽出的号码是11,则61组抽出的号码为________. 5.某学校高一、高二、高三年级的学生人数之比为3∶3∶4,现用分层抽样的方法从该校高中三个年级的学生中抽取容量为50的样本,则应从高二年级抽取__________名学生. 6.某校共有学生2 000名,各年级男、女学生人数如下表.已知在全校学生中随机抽取1名,抽到二年级女生的概率是0.19.现用分层抽样的方法在全校抽取64名学生,则应在三年级抽6
取的学生人数为________. 一年级 二年级 三年级 女生 373 x y 男生 377 370 z
7.某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是( ) A.y=-10x+200 B.y=10x+200 C.y=-10x-200 D.y=10x-200 8.200名职工年龄分布如图所示,从中随机抽40名职工作样本,采用系统抽样方法,按1~200编号为40组,分别为1~5,6~10,…,196~200,第5组抽取号码为22,第8组抽取号码为______.若采用分层抽样,40岁以下年龄段应抽取________人. 9.重庆市2013年各月的平均气温(°C)数据的茎叶图如下:
则这组数据的中位数是( ) A.19 B.20 C.21.5 D.23
10.如图是一容量为100的样本的质量的频率分布直方图,样本质量均在[5,20]内,其分组为[5,10),[10,15),[15,20],则样本质量落在[15,20]内的频数为( ) A.10 B.20 C.30 D.40 11.某公司10位员工的月工资(单位:元)为x1,x2,…,x10,其均
值和方差分别为x和s2,若从下月起每位员工的月工资增加100元,则这10位员工下月工资的均值和方差分别为( ) A. x,s2+1002 B. x+100,s2+1002 C. x,s2 D. x+100,s2 12.已知甲、乙两组数据如茎叶图所示,若它们的中位数相同,平均数也相同,则mn=( ) 7
A.1 B.13 C.29 D.38 13.在样本的频率分布直方图中,共有4个小长方形,这4个小长方形的面积由小到大构成等比数列{an},已知a2=2a1,且样本容量为300,则小长方形面积最大的一组的频数为________. 14.已知x,y之间的一组数据如下表: X 2 3 4 5 6 Y 3 4 6 8 9
对于表中数据,现给出如下拟合直线:①y=x+1;②y=2x-1;③y=85x-25;④y=32x.则根据最小二乘法的思想求得拟合程度最好的直线是________(填序号).
15.某校高一某班的某次数学测试成绩(满分为100分)的茎叶图和频率分布直方图都受了不同程度的破坏,但可见部分如图,据此解答下列问题:
(1)求分数在[50,60]的频率及全班人数; (2)求分数在[80,90]之间的频数,并计算频率分布直方图中[80,90]间的矩形的高.
16.某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.