§10.2 统计及统计案例
第2讲 统计、统计案例

第2讲 统计、统计案例统计的研究对象是数据,核心是数据分析,高考中统计考题常常与概率相联系,并具有鲜明的时代和文化背景,试题难度逐渐加大,重点提升数据分析、数学建模、逻辑推理和数学运算素养。
基础知识回顾 : 1.统计图表(1)常见的统计图表有条形图、扇形图、折线图、频率分布直方图等。
(2)作频率分布直方图的步骤①求极差;②决定组距与组数;③将数据分组,列频率分布表;⑤画频率分布直方图。
2.样本数字特征(1)平均数:()n x x x nx +++= (1)21。
(2)中位数:将一组数据按从小到大或从大到小的顺序排列,处在最中间的一个数(当数据个数是奇数时)或最中间两个数据的平均数(当数据个数是偶数时)。
(3)众数:一组数据中出现次数最多的数据(即频数最大值所对应的样本数据)。
(4)方差和标准差①方差:()21221211∑∑==--=n i i n i i x x n x x n s 或。
②标准差:()211∑=-=n i i x x n s 。
3.相关关系的强弱(1)样本相关系数:现实生活中的数据,由于度量对象和单位的不同等,数值会有大有小,为了去除这些因素的影响,统计学里用()()()()∑∑∑∑∑∑======---=----=ni i ni i ni ii ni in i ini iiyn y xn x yx n yx yyx x yyx x r 122122121211来衡量y 与x 的线性相关性强弱,我们称r 为变量x 和变量y 的样本相关系数。
(2)相关系数的性质:①当r>0时,称成对样本数据正相关;当r<0时,成对样本数据负相关;当r=0时,成对样本数据间没有线性相关关系。
②样本相关系数r 的取值范围为[-1,1];当|r |越接近1时,成对样本数据的线性相关程度越强;当|r |越接近0时,成对样本数据的线性相关程度越弱。
4.一元线性回归模型参数的最小二乘法:回归直线方程过样本点的中心()y x ,,是回归直线方程最常用的一个特征,我们将∧∧∧+=a x b y 称为Y 关于x 的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线 ,这种求经验回归方程的方法叫做最小二乘法,求得的∧∧a b ,,叫做b ,a 的最小二乘估计,其中∧b 称为回归系数,它实际上也就是经验回归直线的斜率,∧a 为截距。
§10.2 统计及统计案例(试题部分)

§10.2统计及统计案例探考情悟真题【考情探究】考点内容解读5年考情预测热度考题示例考向关联考点抽样方法①理解随机抽样的必要性和重要性;②会用简单随机抽样方法从总体中抽取样本2019课标全国Ⅰ,6,5分系统抽样—★★☆2018课标全国Ⅲ,14,5分分层抽样—统计图表了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率分布折线图、茎叶图,体会它们各自的特点2017课标全国Ⅲ,3,5分认识折线图—★★☆2018课标全国Ⅰ,3,5分认识扇形统计图—2018课标全国Ⅰ,19,12分用频率分布直方图解决实际问题平均数样本的数字特征①理解样本数据标准差的意义和作用,会计算数据标准差;②能从样本数据中提取基本的数字特征,并给出合理的解释;③会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征;④会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题2017课标全国Ⅰ,2,5分理解方差或标准差—★★☆2019课标全国Ⅲ,4,5分用样本估计总体—2019课标全国Ⅲ,17,12分用频率分布直方图估计数字特征频率分布直方图2019课标全国Ⅱ,19,12分频数分布表及数字特征—变量间的相关性①会作两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系;②了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程2016课标全国Ⅲ,18,12分相关系数与回归方程折线统计图★★☆2017课标全国Ⅰ,19,12分相关系数数字特征独立性检验了解独立性检验的基本思想、方法及其简单应用,能通过计算判断两个变量的相关程度2019课标全国Ⅰ,17,12分独立性检验用频率估计概率★★☆2017课标全国Ⅱ,19,12分频率分布直方图与独立性检验用频率估计概率2018课标全国Ⅲ,18,12分茎叶图与独立性检验样本的数字特征分析解读从近几年的高考试题来看,本部分在高考中的考查点如下:1.主要考查分层抽样的定义、频率分布直方图、平均数、方差的计算、识图能力及借助概率知识分析、解决问题的能力;2.在频率分布直方图中,注意小矩形的竖直方向的长度=频率/组距,小矩形的面积为频率,所有小矩形的面积之和为1;3.分析两个变量间的相关关系,通过独立性检验判断两个变量是否相关.本节内容在高考中分值为17分左右,属中档题.破考点练考向【考点集训】考点一抽样方法A.416B.432C.448D.464答案A2.(2018安徽安庆一中、山西太原五中等五省六校(K12联盟)期末联考,3)某中学有高中生960人,初中生480人,为了了解学生的身体状况,采用分层抽样的方法,从该校学生中抽取容量为n的样本,其中高中生有24人,那么n等于()A.12B.18C.24D.36答案D考点二统计图表3940112551366778889600123345A.1B.2C.3D.4答案B2.(多选题)(2020届山东夏季高考模拟,9)下图为某地区2006年—2018年地方财政预算内收入、城乡居民储蓄年末余额折线图.根据该折线图可知,该地区2006年—2018年()A.财政预算内收入、城乡居民储蓄年末余额均呈增长趋势B.财政预算内收入、城乡居民储蓄年末余额的逐年增长速度相同C.财政预算内收入年平均增长量高于城乡居民储蓄年末余额年平均增长量D.城乡居民储蓄年末余额与财政预算内收入的差额逐年增大答案AD考点三样本的数字特征1.(2018湖北华师一附中月考,3)某人到甲、乙两市各7个小区调查空置房情况,将调查得到的小区空置房的套数绘成了如图所示的茎叶图,则调查中甲市空置房套数的中位数与乙市空置房套数的中位数之差为( )A.4B.3C.2D.1答案 B2.(2018山东济南一模,3)已知某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为x ,方差为s 2,则( ) A.x =4,s 2<2 B.x =4,s 2>2 C.x >4,s 2<2 D.x >4,s 2>2答案 A考点四 变量间的相关性1.(2018河南焦作四模,3)已知变量x 和y 的统计数据如下表:x 3 4 5 6 7 y2.5344.56根据上表可得回归直线方程为y ^=b ^x-0.25,据此可以预测当x=8时,y ^=( ) A.6.4B.6.25C.6.55D.6.45答案 C2.(2018湖南张家界三模,4)已知变量x,y 之间的线性回归方程为y ^=-0.7x+10.3,且变量x,y 之间的一组相关数据如下表所示,则下列说法错误..的是( ) x 6 8 10 12 y6m32A.变量x,y 之间成负相关关系B.可以预测,当x=20时,y ^=-3.7 C.m=4D.该回归直线必过点(9,4) 答案 C考点五独立性检验(2018贵州六校12月联考,18)海南大学某餐饮中心为了解新生的饮食习惯,在全校新生中进行了抽样调查,调查结果如下表所示:喜欢甜品不喜欢甜品合计南方学生602080北方学生101020合计7030100(1)根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”?(2)已知在被调查的北方学生中有5名中文系的学生,其中2名喜欢甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.P(K2≥k0)0.100.050.010k0 2.706 3.841 6.635附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).答案(1)将2×2列联表中的数据代入公式计算,得K2=100×(60×10-20×10)270×30×80×20=10021≈4.762.由于4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.(2)从5名中文系学生中任取3人的所有可能结果所组成的基本事件空间Ω={(a1,a2,b1),(a1,a2,b2),(a1,a2,b3),(a1,b1,b2),(a1,b1,b3),(a1,b2,b3),(a2,b1,b2),(a2,b1,b3),(a2,b2,b3),(b1,b2,b3)},其中a i表示喜欢甜品的学生,i=1,2,b j表示不喜欢甜品的学生,j=1,2,3.Ω由10个基本事件组成,且这些基本事件的出现是等可能的.用A表示“3人中至多有1人喜欢甜品”这一事件,则A={(a1,b1,b2),(a1,b1,b3),(a1,b2,b3),(a2,b1,b2),(a2,b1,b3),(a2,b2,b3),(b1,b2,b3)}.事件A由7个基本事件组成,因而P(A)=710.炼技法提能力【方法集训】方法1 解与频率分布直方图有关问题的方法1.(2016山东,3,5分)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是()A.56B.60C.120D.140答案D2.(2020届广西桂林十八中模拟,18)某家电公司销售部门共有200名销售员,每年部门对每名销售员都有1400万元的年度销售任务.已知这200名销售员去年完成的销售额在区间[2,22](单位:百万元)内,现将其分成5组:第1组、第2组、第3组、第4组、第5组对应的区间分别为[2,6),[6,10),[10,14),[14,18),[18,22),并绘制出频率分布直方图,如图.(1)若用分层抽样的方法从这200名销售员中抽取容量为25的样本,求a的值和样本中完成年度任务的销售员人数;(2)从(1)中样本内完成年度任务的销售员中随机选取2名,奖励海南三亚三日游,求获得此奖励的2名销售员在同一组的概率.答案(1)∵(0.02+0.08+0.09+2a)×4=1,∴a=0.03.∴样本中完成年度任务的人数为200×0.03=6.(2)样本中完成年度任务的销售员中,第4组有3人,记这3人分别为A1,A2,A3;第5组有3人,记这3人分别为B1,B2,B3,从这6人中随机抽取2名,所有的基本事件为A1A2,A1A3,A1B1,A1B2,A1B3,A2A3,A2B1,A2B2,A2B3,A3B1,A3B2,A3B3,B1B2,B1B3,B2B3,共15个,获得此奖励的2名销售员在同一组的基本事件分别为A1A2,A1A3,A2A3,B1B2,B1B3,B2B3,共6个,故所求概率为615=2 5 .方法2 样本的数字特征的求解及其应用1.(2015山东,6,5分)为比较甲、乙两地某月14时的气温状况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:①甲地该月14时的平均气温低于乙地该月14时的平均气温;②甲地该月14时的平均气温高于乙地该月14时的平均气温;③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.A.①③B.①④C.②③D.②④答案B2.(2018四川德阳模拟,13)为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(10分制)的频数分布直方图如图所示,如果得分的中位数为a,众数为b,平均数为c,则a、b、c中的最大者是.答案 c方法3 回归直线方程的求解与运用1.(2020届河南南阳第一中学模拟,1)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i=1,2,…,n)都在直线y=-15x+1上,则这组样本数据的样本相关系数为( ) A.-1B.1C.-15D.15答案 A日期 1月10日 2月10日 3月10日 4月10日 5月10日 6月10日 昼夜温 差x(℃) 10 11 13 12 8 6 就诊人 数y222529261612该兴趣小组确定的研究方案是:先从这六组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验. (1)求选取的2组数据恰好是相邻两个月数据的概率;(2)若选取的是1月与6月的两组数据,请根据2至5月份的数据求出y 关于x 的线性回归方程y ^=b ^x+a ^;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?参考公式:b ^=∑i=1nx i y i -nx y ∑i=1nx i 2-nx 2=∑i=1n(x i -x)(y i -y)∑i=1(x i -x)2,a ^=y -b ^x ;参考数据:11×25+13×29+12×26+8×16=1 092,112+132+122+82=498.答案 (1)设抽到相邻两个月的数据为事件A.因为从6组数据中选取2组数据共有15种情况,每种情况都是等可能出现的,其中,抽到相邻两个月的数据的情况有5种,所以P(A)=515=13.(2)由题表中数据求得x =11,y =24,由公式求得b ^=187,则a ^=y -b ^x =-307,所以y 关于x 的线性回归方程为y ^=187x-307.(3)由(2)知,当x=10时,y ^=1507,|1507-22|<2,当x=6时,y ^=787,|787-12|<2,所以,该小组所得线性回归方程是理想的.方法4 独立性检验的思想方法(2018山西太原五中模拟,18)网购是当前民众购物的新方式,某公司为改进营销方式,随机调查了100名市民,统计其周平均网购的次数,并整理得到如图所示的频数直方图.这100名市民中,年龄不超过40岁的有65人.将所抽样中周平均网购次数不少于4次的市民称为网购迷,且已知其中有5名市民的年龄超过40岁.(1)根据已知条件完成下面的2×2列联表,能否在犯错的概率不超过0.10的前提条件下认为网购迷与年龄不超过40岁有关?网购迷非网购迷合计年龄不超过40岁 年龄超过40岁合计(2)现将所抽取样本中周平均网购次数不少于5次的市民称为超级网购迷,且已知超级网购迷中有2名年龄超过40岁,若从超级网购迷中任意挑选2名,求至少有1名市民年龄超过40岁的概率. 附:K 2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d).答案 (1)根据已知条件完成2×2列联表如下:网购迷 非网购迷 合计 年龄不超过40岁 20 45 65 年龄超过40岁5 30 35 合计2575100K 2=100×(20×30-5×45)225×75×65×35≈3.297,因为3.297>2.706,所以据此列联表判断,在犯错误的概率不超过0.10的前提下,认为网购迷与年龄不超过40岁有关.(2)由频数分布直方图知,超级网购迷共有10人,记其中年龄超过40岁的2名市民为A 、B,其余8名市民记为c 、d 、e 、f 、g 、h 、m 、n,现从10人中任取2人,基本事件有AB 、Ac 、Ad 、Ae 、Af 、Ag 、Ah 、Am 、An 、Bc 、Bd 、Be 、Bf 、Bg 、Bh 、Bm 、Bn 、cd 、ce 、cf 、cg 、ch 、cm 、cn 、de 、df 、dg 、dh 、dm 、dn 、ef 、eg 、eh 、em 、en 、fg 、fh 、fm 、fn 、gh 、gm 、gn 、hm 、hn 、mn,共有45种,其中至少有1名市民年龄超过40岁的基本事件有AB 、Ac 、Ad 、Ae 、Af 、Ag 、Ah 、Am 、An 、Bc 、Bd 、Be 、Bf 、Bg 、Bh 、Bm 、Bn,共17种, 故所求的概率P=1745.【五年高考】A组统一命题·课标卷题组考点一抽样方法A.8号学生B.200号学生C.616号学生D.815号学生答案C2.(2018课标全国Ⅲ,14,5分)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是.答案分层抽样考点二统计图表1.(2018课标全国Ⅰ,3,5分)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是()A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半答案A2.(2017课标全国Ⅲ,3,5分)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.根据该折线图,下列结论错误的是()A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳答案A3.(2015课标Ⅱ,3,5分)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是()A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关答案D4.(2018课标全国Ⅰ,19,12分)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:未使用节水龙头50天的日用水量频数分布表日用水量[0,0.1)[0.1,0.2)[0.2,0.3)[0.3,0.4)[0.4,0.5)[0.5,0.6)[0.6,0.7)频数13249265使用了节水龙头50天的日用水量频数分布表日用水量[0,0.1)[0.1,0.2)[0.2,0.3)[0.3,0.4)[0.4,0.5)[0.5,0.6)频数151310165(1)作出使用了节水龙头50天的日用水量数据的频率分布直方图;(2)估计该家庭使用节水龙头后,日用水量小于0.35m3的概率;(3)估计该家庭使用节水龙头后,一年能节省多少水.(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表)答案(1)(2)根据以上数据,该家庭使用节水龙头后50天日用水量小于0.35m3的频率为0.2×0.1+1×0.1+2.6×0.1+2×0.05=0.48,因此该家庭使用节水龙头后日用水量小于0.35m3的概率的估计值为0.48.(3)该家庭未使用节水龙头50天日用水量的平均数为x1=1×(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48.50该家庭使用了节水龙头后50天日用水量的平均数为x2=1×(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35.50估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m3).考点三样本的数字特征1.(2019课标全国Ⅲ,4,5分)《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为()A.0.5B.0.6C.0.7D.0.8答案C2.(2017课标全国Ⅰ,2,5分)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,x n,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是()A.x1,x2,…,x n的平均数B.x1,x2,…,x n的标准差C.x1,x2,…,x n的最大值D.x1,x2,…,x n的中位数答案B3.(2019课标全国Ⅲ,17,12分)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.(1)求乙离子残留百分比直方图中a,b的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).答案本题主要考查频率分布直方图的含义,以及用频率分布直方图估计样本的数字特征,通过实际问题的应用考查学生的运算求解能力,考查了数学运算的核心素养,体现了应用意识.(1)由已知得0.70=a+0.20+0.15,故a=0.35.b=1-0.05-0.15-0.70=0.10.(2)甲离子残留百分比的平均值的估计值为2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.乙离子残留百分比的平均值的估计值为3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.4.(2019课标全国Ⅱ,19,12分)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.y的分组[-0.20,0)[0,0.20)[0.20,0.40)[0.40,0.60)[0.60,0.80)企业数22453147(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)附:√74≈8.602.答案本题考查了统计的基础知识、基本思想和方法,考查学生对频数分布表的理解与应用,考查样本的平均数,标准差等数字特征的计算方法,以及对现实社会中实际数据的分析处理能力.(1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.产值负增长的企业频率为2100=0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)y=1100(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,s2=1100∑i=15n i(y i-y)2=1100[2×(-0.40)2+24×(-0.20)2+53×02+14×0.202+7×0.402]=0.0296,s=√0.029 6=0.02×√74≈0.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为30%,17%.考点四 变量间的相关性1.(2017课标全国Ⅰ,19,12分)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:抽取次序 1 2 3 4 5 6 7 8 零件尺寸9.9510.129.969.9610.019.929.9810.04抽取次序 9 10 11 12 13 14 15 16 零件尺寸10.269.9110.1310.029.2210.0410.059.95经计算得x =116∑i=116x i =9.97,s=√116∑i=116(x i -x)2=√116(∑i=116x i 2-16x 2)≈0.212,√∑i=116(i -8.5)2≈18.439,∑i=116(x i -x )(i-8.5)=-2.78, 其中x i 为抽取的第i 个零件的尺寸,i=1,2, (16)(1)求(x i ,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在(x -3s,x +3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.(i)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ii)在(x -3s,x +3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01) 附:样本(x i ,y i )(i=1,2,…,n)的相关系数r=∑i=1n(x i -x)(y -y)√∑i=1(x i -x)2√∑i=1(y i -y)2.√0.008≈0.09.答案 (1)由样本数据得(x i ,i)(i=1,2,…,16)的相关系数为r=∑i=116(x i -x)(i -8.5)√∑i=1(x i -x)2√∑i=1(i -8.5)2=0.212×√16×18.439≈-0.18.由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)(i)由于x =9.97,s ≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(x -3s,x +3s)以外,因此需对当天的生产过程进行检查. (ii)剔除离群值,即第13个数据,剩下数据的平均数为115×(16×9.97-9.22)=10.02,这条生产线当天生产的零件尺寸的均值的估计值为10.02.∑i=116x i 2=16×0.2122+16×9.972≈1 591.134,剔除第13个数据,剩下数据的样本方差为115×(1 591.134-9.222-15×10.022)≈0.008, 这条生产线当天生产的零件尺寸的标准差的估计值为√0.008≈0.09.2.(2016课标全国Ⅲ,18,12分)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:参考数据:∑i=17y i =9.32,∑i=17t i y i =40.17,√∑i=17(y i -y)2=0.55,√7≈2.646.参考公式:相关系数r=∑i=1n(t i -t)(y -y)√∑i=1(t i -t)2∑i=1(i -y)2,回归方程y ^=a ^+b ^t 中斜率和截距最小二乘估计公式分别为:b ^=∑i=1n(t i -t)(y i -y)∑i=1n(t i -t)2,a ^=y -b ^t .答案 (1)由折线图中数据和附注中参考数据得 t =4,∑i=17(t i -t )2=28,√∑i=17(y i -y)2=0.55,∑i=17(t i -t )(y i -y )=∑i=17t i y i -t ∑i=17y i =40.17-4×9.32=2.89,r ≈2.890.55×2×2.646≈0.99.(4分)因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(6分)(2)由y =9.327≈1.331及(1)得b ^=∑i=17(t i -t)(y i -y)∑i=17(t i -t)2=2.8928≈0.10,a ^=y -b ^t =1.331-0.10×4≈0.93.所以y 关于t 的回归方程为y ^=0.93+0.10t.(10分)将2016年对应的t=9代入回归方程得:y ^=0.93+0.10×9=1.83.所以预测2016年我国生活垃圾无害化处理量将约为1.83亿吨.(12分)考点五 独立性检验1.(2019课标全国Ⅰ,17,12分)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意 不满意 男顾客 40 10 女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异? 附:K 2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d).P(K 2≥k) 0.050 0.010 0.001 k3.8416.63510.828答案 本题通过对概率与频率的关系、统计案例中两变量相关性检验考查学生的抽象概括能力与数据处理能力,重点考查数学抽象、数据分析、数学运算的核心素养;倡导学生关注生活,提高数学应用意识.(1)由调查数据,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8. 女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6. (2)K 2=100×(40×20-30×10)250×50×70×30≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.2.(2018课标全国Ⅲ,18,12分)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高,并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m 和不超过m 的工人数填入下面的列联表;超过m不超过m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异? 附:K 2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),P(K 2≥k) 0.050 0.010 0.001 k 3.841 6.635 10.828.答案 (1)第二种生产方式的效率更高. 理由如下:(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(iii)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分. (2)由茎叶图知m=79+812=80. 列联表如下:超过m 不超过m第一种生产方式 15 5 第二种生产方式515(3)由于 K 2=40×(15×15-5×5)220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.3.(2017课标全国Ⅱ,19,12分)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A 表示事件“旧养殖法的箱产量低于50 kg ”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量<50 kg箱产量≥50 kg旧养殖法 新养殖法(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较. 附:P(K 2≥k) 0.050 0.010 0.001 k3.841 6.635 10.828, K 2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d).答案 (1)旧养殖法的箱产量低于50 kg 的频率为 (0.012+0.014+0.024+0.034+0.040)×5=0.62. 因此,事件A 的概率估计值为0.62. (2)根据箱产量的频率分布直方图得列联表:箱产量<50 kg箱产量≥50 kg旧养殖法 62 38 新养殖法3466K 2=200×(62×66-34×38)2100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg 到55 kg 之间,旧养殖法的箱产量平均值(或中位数)在45 kg 到50 kg 之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.B 组 自主命题·省(区、市)卷题组考点一 抽样方法1.(2015湖南,2,5分)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是( ) A.3B.4C.5D.6答案 B2.(2017江苏,3,5分)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件.为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取 件.。
高考数学10.2用样本估计总体与变量间的相关关系

2013版高考数学一轮复习精品学案:第十章统计、统计案例10.2用样本估计总体与变量间的相关关系【高考新动向】一、用样本估计总体(一) 考纲点击1.了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率折线图、茎叶图,理解它们各自的特点;2.理解样本数据标准差的意义和作用,会计算数据标准差;3.能从样本数据中提取基本的数字特征(如平均数、标准差),并给出合理的解释;4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想;5.会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.(二)热点提示1.频率分布直方图、茎叶图、平均数、方差、标准差是考查的重点,同时考查对样本估计总体的思想的理解;2. 频率分布直方等内容经常与概率等知识相结合出题;3.题型以选择题和填空题为主,属于中低档题。
二、变量间的相关关系(一)考纲点击1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.(二)热点提示1.以考查线性回归系数为主,同时可考查利用散点图判断两个变量间的相关关系;2.以实际生活为背景,重在考查回归方程的求法;3.在高考题中本部分的命题主要是以选择、填空题为主,属于中档题目。
【考纲全景透析】一、用样本估计总体1.作频率分布直方图的步骤(1)求极差(即一组数据中最大值与最小值的差);(2)决定组距与组数;(3)将数据分组;(4)列频率分布表;(5)画频率分布表.2.频率分布折线图和总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得频率分布折线图;(2)总体密度曲线:随着样本容量的增加,作图所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,即总体密度曲线.3.标准差和方差(1)标准差是样本数据到平均数的一种平均距离;(2)x是样本数(3)方差: (n据,n是样本容量,x是样本平均数)注:现实中的总体所包含个体数往往是很多的,如何求得总体的平均数和标准差呢?(通常的做法是用样本的平均数和标准差去估计总体的平均数与标准差,这与有样本的频率分布近似代替总体分布是类似的,只要样本的代表性好,这样做就是合理的,也是可以接受的.)4.利用频率分布直方图估计样本的数字特征(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值;(2)平均数:平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和;(3)众数:在频率分布直方图中,众数是最高的矩形的中点的横坐标.二、变量间的相关关系1.两个变量的线性相关(1)正相关在散点图中,点散布在从左下角到右上角的区域.对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.回归方程 (1)最小二乘法求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法. (2)回归方程方程ˆybx a =+是两个具有线性相关关系的变量的一组数据1122(,),(,),(,)n n x y x y x y L 的回归方程,期中,a b 是待定参数.1122211()()()nni i i ii i n ni i i i x x y y x y nx yb x x x nx a y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑ 注:相关关系与函数关系的异同点(相同点:两者均是指两个变量的关系.不同点:①函数关系是一种确定的关系,相关关系是一种非确定的关系;②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系)【热点难点全析】一、用样本估计总体(一)频率分布直方图在总体估计中的应用 ※相关链接※频率分布直方图反映样本的频率分布(1)频率分布直方图中横坐标表示组距,纵坐标表示频率组距,频率=组距×频率组距. (2)频率分布直方图中各小长方形的面积之和为1,因此在频率分布直方图中组距是一个固定值,所以各小长方形高的比也就是频率比.(3)频率分布表和频率分布直方图是一组数据频率分布的两种形式,前者准确,后者直观.(4)众数为最高矩形中点的横坐标.(5)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标.※例题解析※〖例〗为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图,图中从左到右各小长方形面积之比为2:4:17:15:9:3,第二小组频数为12.(1)第二小组的频率是多少?样本容量是多少?(2)若次数在110以上(含110次)为达标,试估计该学生全体高一学生的达标率是多少?(3)在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由.思路解析:利用面积求得每组的频率→求样本容量→求频率和→求达标率→分析中位数.解答:(1)由已知可设每组的频率为2x,4x,17x,15x,9x,3x.则2x+4x+17x+15x+9x+3x=1,解得x=0.02.则第二小组的频率为0.02×4=0.08,样本容量为12÷0.08=150.(2)次数在110次以上(含110次)的频率和为17×0.02+15×0.02+9×0.02+3×0.02=0.88,则高一学生的达标率为0.88×100%=88%.(3)在这次测试中,学生跳绳次数的中位数落在第四组.因为中位数为平分频率分布直方图的面积且垂直于横轴的直线与横轴交点的横坐标.注:利用样本的频率分布可近似地估计总体的分布,要比较准确地反映出总体分布的情况,必须准确地作出频率分布表和频率分布直方图,充分利用所给的数据正确地作出估计.(二)用样本的分布估计总体※相关链接※茎叶图刻画数据的优点(1)所有的数据信息都可以从茎叶图中得到.(2)茎叶图便于记录和表示,且能够展示数据的分布情况.注:当数据是两位有效数字时,用茎叶图显得容易、方便.而当样本数据较大和较多时,用茎叶图表示,就显得不太方便.※例题解析※〖例〗在某电脑杂志的一篇目文章中,每个句子的字数如下:10,28,31,17,23,27,18,15,26,24,20,19,36,27,14,25,15,22,11,24,27,17.在某报纸的一篇文章中,每个句子中所含的字数如下:27,39,33,24,28,19,32,41,33,27,35,12,36,41,27,13,22,23,18,46,32,22.(1)将这两组数据用茎叶图表示;(2)将这两组数据进行比较分析,得到什么结论?思路解析:(1)将十位数字作为茎,个位数字作为叶,逐一统计;(2)根据茎叶图分析两组数据,得到结论.解答:(1)如图:(2)电脑杂志上每个句子的字数集中在10~30之间,中位数为22.5;而报纸上每个句子的字数集中在10~40之间,中位数为27.5.可以看出电脑杂志上每个句子的平均字数比报纸上每个句子的平均字数要少.说明电脑杂志作为读物须通俗易懂、简明.(三)用样本的数字特征估计总体的数字特征〖例〗甲乙二人参加某体育项目训练,近期的五次测试成绩得分情况如图.(1)分别求出两人得分的平均数与方差;(2)根据图和上面算得的结果,对两人的训练成绩作出评价.思路解析:(1)先通过图象统计出甲、乙二人的成绩;(2)利用公式求出平均数、方差,再分析两人的成绩,作出评价.解答:(1)由图象可得甲、乙两人五次测试的成绩分别为 甲:10分,13分,12分,14分,16分; 乙:13分,14分,12分,12分,14分.2222222222221013121416==1351314121214==1351=[(1013)(1313)(1213)(1413)(1613)]451[(1313)(1413)(1213)(1213)(1413)]0.85x x s s ++++++++-+-+-+-+-==-+-+-+-+-=甲乙甲乙,(2)由2s 甲>2s 乙可知乙的成绩较稳定.从折线图看,甲的成绩基本呈上升状态,而乙的成绩上下波动,可知甲的成绩在不断提高,而乙的成绩则无明显提高.注:(1)运用方差解决问题时,注意到方差越大,波动越大,越不稳定;方差越小,波动越小,越稳定.(2)平均数与方差都是重要的数字特征,是对总体的一种简单的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述波动大小.(3)平均数、方差的公式推广①若数据123,,,,n x x x x L 的平均数为x ,那么12,,,n mx a mx a mx a +++L 的平均数是mx a +.②数据123,,,,n x x x x L 的方差为2s . a.22222111[()];n s x x x nx n=+++-L b.数据12,,,n x a x a x a +++L 的方差也为2s ; c.数据12,,,n ax ax ax L 的方差为22a s . 二、变量间的相关关系(一)利用散点图判断两个变量的相关关系 ※相关链接※ 1.散点图在散点图中,如果所有的样本点都落在某一函数的曲线上,就用该函数来描述变量之间的关系,即变量之间具有函数关系.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.注:函数关系是一种理想的关系模型,而相关关系是一种更为一般的情况. 2.正相关、负相关从散点图可知,即一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为正相关.如年龄的值由小变大时,体内脂肪含量也在由小变大.反之,如果一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为负相关. ※例题解析※〖例〗在某地区的12~30岁居民中随机抽取了10个人的身高和体重的统计资料如表:根据上述数据,画出散点图并判断居民的身高和体重之间是否有相关关系。
统计学统计方法应用案例分析

统计学统计方法应用案例分析统计学是一门研究数据收集、整理、分析和解释的科学。
它通过应用各种统计方法,能够帮助我们理解和解释事物背后的规律以及进行有效的决策。
本文将通过分析一个统计学应用案例来展示统计方法在实际问题中的威力。
案例描述:某电子商务平台希望了解用户对其平台服务的满意度水平,并希望找出影响用户满意度的主要因素。
为实现这一目标,该平台进行了一项用户调查,收集到了大量的数据。
第一步:数据整理与描述统计在统计学中,数据整理的第一步是对数据的描述统计分析。
通过计算各个变量的均值、中位数、标准差等统计指标,可以快速了解数据的分布情况。
在这个案例中,我们有如下几个变量:用户满意度、购买频率、平台推荐度、客户服务评分等。
首先,我们计算了用户满意度的平均值为4.2分(满分为5分),标准差为0.8。
购买频率的平均值为2.5次/月,标准差为1.0次/月。
平台推荐度的平均值为4.0分,标准差为0.9。
客户服务评分的平均值为4.5分,标准差为0.7。
通过这些统计指标,我们可以初步了解到用户对该电子商务平台的整体满意度较高,购买频率和平台推荐度相对较低,客户服务评分较高。
第二步:相关性分析相关性分析可以帮助我们了解不同变量之间的关系。
在这个案例中,我们想要了解不同因素与用户满意度之间的相关性。
为了实现这一目标,我们使用了皮尔逊相关系数进行相关性分析。
分析结果显示,用户满意度与购买频率之间存在显著正相关(相关系数为0.6),表明购买频率越高,用户满意度也越高。
然而,用户满意度与平台推荐度之间的相关性较低(相关系数为0.3),表明用户对平台推荐度评价的变化与满意度之间的关系不显著。
另外,用户满意度与客户服务评分之间存在正相关(相关系数为0.7),表明客户服务质量对用户满意度有较大的影响。
第三步:回归分析回归分析是一种常用的统计方法,用于探究自变量与因变量之间的关系,并建立回归方程进行预测。
在这个案例中,我们使用了多元线性回归分析,目的是找出对用户满意度最具影响力的因素。
统计与统计案例

第九章统计与统计案例第一节随机抽样考纲要求:1.理解随机抽样的必要性和重要性.2.会用简单随机抽样方法从总体中抽取样本.3.了解分层抽样和系统抽样方法.[基础真题体验]考查角度[抽样方法]1.(2013·课标全国卷Ⅰ)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大.在下面的抽样方法中,最合理的抽样方法是()A.简单随机抽样B.按性别分层抽样C.按学段分层抽样D.系统抽样【解析】由于三个学段学生的视力情况差别较大,故需按学段分层抽样.【答案】 C2.(2014·四川高考)在“世界读书日”前夕,为了了解某地5 000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间的全体是() A.总体B.个体C.样本的容量D.从总体中抽取的一个样本【解析】调查的目的是“了解某地5 000名居民某天的阅读时间”,所以“5 000名居民的阅读时间的全体”是调查的总体.【答案】 A3.(2014·天津高考)某大学为了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查,已知该校一年级、二年级、三年级、四年级的本科生人数之比为4∶5∶5∶6,则应从一年级本科生中抽取________名学生.【解析】根据题意,应从一年级本科生中抽取的人数为44+5+5+6×300=60.【答案】60[命题规律预测]考向一简单随机抽样[典例剖析]【例1】(2013·江西高考)总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为()【思路点拨】读数→比较与20的大小→选数→成样【解析】由随机数表法的随机抽样的过程可知选出的5个个体是08,02,14,07,01,所以第5个个体的编号是01.【答案】 D抽签法与随机数表法的适用情况:(1)抽签法适用于总体中个体数较少的情况,随机数表法适用于总体中个体数较多的情况.(2)一个抽样试验能否用抽签法,关键看两点:一是抽签是否方便;二是号签是否易搅匀.一般地,当总体容量和样本容量都较小时可用抽签法.[对点练习]下列抽样方法是简单随机抽样的是()A.从50个零件中一次性抽取5个做质量检验B.从50个零件中有放回地抽取5个做质量检验C.从实数集中逐个抽取10个正整数分析奇偶性D.运动员从8个跑道中随机抽取一个跑道【解析】简单随机抽样是不放回、逐个、等可能的抽样,故D正确.【答案】 D考向二 系统抽样及其应用[典例剖析]【例2】 (1)(2013·陕西高考)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( )A .11B .12C .13D .14(2)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A ,编号落入区间[451,750]的人做问卷B ,其余的人做问卷C ,则抽到的人中,做问卷B 的人数为( )A .7B .9C .10D .15【思路点拨】 (1)结合系统抽样的方法及不等式解法求解. (2)结合系统抽样及等差数列知识求解.【解析】 (1)抽样间隔为84042=20.设在1,2,…,20中抽取号码x 0(x 0∈[1,20]),在[481,720]之间抽取的号码记为20k +x 0,则481≤20k +x 0≤720,k ∈N *.∴24120≤k +x 020≤36.∵x 020∈⎣⎢⎡⎦⎥⎤120,1,∴k =24,25,26, (35)∴k 值共有35-24+1=12(个),即所求人数为12.(2)由系统抽样的特点知:抽取号码的间隔为96032=30,抽取的号码依次为9,39,69,…939.落入区间[451,750]的有459,489,…,729,这些数构成首项为459,公差为30的等差数列,设有n 项,显然有729=459+(n -1)×30,解得n =10.所以做问卷B 的有10人.【答案】 (1)B (2)C系统抽样的特点:(1)适用于元素个数很多且均衡的总体. (2)各个个体被抽到的机会均等.(3)总体分组后,在起始部分抽样时采用的是简单随机抽样. (4)如果总体容量N 能被样本容量n 整除,则抽样间隔为k =Nn .提醒:如果总体容量N 不能被样本容量n 整除,可随机地从总体中剔除余数,然后再按系统抽样的方法抽样.[对点练习]高三(1)班共有56人,学号依次为1,2,3,…,56,现用系统抽样的方法抽取一个容量为4的样本.已知学号为6,34,48的同学在样本中,那么还有一个同学的学号应为()A.30 B.25 C.20 D.15【解析】由题意可知,可将学号依次为1,2,3,…,56的56名同学分成4组,每组14人,抽取的样本中,若将他们的学号按从小到大的顺序排列,彼此之间会相差14,故还有一个同学的学号应为14+6=20.【答案】 C考向三分层抽样及其应用[典例剖析]【例3】(2013·湖南高考)某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件,80件,60件.为了解它们的产品质量是否存在显著差异,用分层抽样方法抽取了一个容量为n的样本进行调查,其中从丙车间的产品中抽取了3件,则n=()A.9 B.10 C.12 D.13(2)(2014·湖北高考)甲、乙两套设备生产的同类型产品共4 800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为________件.【思路点拨】 利用“抽样比=样本容量总体容量=各层样本容量各层个体数量”求解(1)(2).【解析】 (1)依题意得360=n120+80+60,故n =13.(2)设乙设备生产的产品总数为x 件,则甲设备生产的产品总数为(4 800-x )件.由分层抽样特点,结合题意可得5080=4 800-x4 800,解得x =1 800.【答案】 (1)D (2)1 800与分层抽样有关问题的常见类型及解题策略:(1)确定抽样比.可依据各层总数与样本数之比,确定抽样比.(2)求某一层的样本数或总体个数.可依据题意求出抽样比,再由某层总体个数(或样本数)确定该层的样本(或总体)数.(3)求各层的样本数.可依据题意,求出各层的抽样比,再求出各层样本数.[对点练习]某校共有学生2 000名,各年级男、女生人数如下表.已知在全校学生中随机抽取1名,抽到二年级女生的概率是0.19,现用分层抽样的方法在全校抽取64名学生,则应在三年级抽取的学生人数为()A.24 B.18【解析】根据题意可知二年级女生的人数应为2 000×0.19=380(人),故一年级共有人数750人,二年级共有750人,这两个年级均应抽取64×7502 000=24(人),则应在三年级抽取的学生人数为64-24×2=16(人).【答案】 C误区分析17 忽视“抽样比”相等导致分层抽样失误[典例剖析]【典例】 (2015·洛阳模拟)交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社区做分层抽样调查.假设四个社区驾驶员的总人数为N ,其中甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数N 为( )A .101B .808C .1 212D .2 012 【解析】 四个社区共抽取了12+21+25+43=101人. 又由题意可知抽样比为1296, 故1296=101N ,此处在求解时,因不理解“样本容量总体容量=抽样比”致误解得N =808. 【答案】 B【防范措施】 1.对于分层抽样问题,其解决的关键是抓住“样本容量总体容量=抽样比”建立等量关系.2.等可能性入样是所有简单随机抽样的大前提.[对点练习]某工厂的一、二、三车间在12月份共生产了3 600双皮靴,在出厂前要检查这批产品的质量,决定采用分层抽样的方法进行抽取,若从一、二、三车间抽取的产品数分别为a、b、c,且a、b、c构成等差数列,则二车间生产的产品数为()A.800 B.1 000 C.1 200 D.1 500【解析】设该厂的一、二、三车间生产的产品数分别为x,y,z,由题意可知x∶y∶z=a∶b∶c,又a,b,c成等差数列,所以2b=a+c,即2y=x+z.又x+y+z=3 600,∴3y=3 600,y=1 200.【答案】 C课堂达标训练1.(2013·湖南高考)某学校有男、女学生各500名,为了解男、女学生在学习兴趣与业余爱好方面是否存在显著差异,拟从全体学生中抽取100名学生进行调查,则宜采用的抽样方法是() A.抽签法B.随机数法C.系统抽样法D.分层抽样法【解析】由于是调查男、女学生在学习兴趣与业余爱好方面是否存在差异,因此用分层抽样方法.【答案】 D2.从30个个体中抽取10个样本,现给出某随机数表的第11行到第15行(见下表),如果某人选取第12行的第6列和第7列中的数作为第一个数并且由此数向右读,则选取的前4个的号码分别为() 9264 4607 2021 3920 7766 3817 3256 16405858 7766 3170 0500 2593 0545 5370 78142889 6628 6757 8231 1589 0062 0047 38155131 8186 3709 4521 6665 5325 5383 27029055 7196 2172 3207 1114 1384 4359 4488A.76,63,17,00 B.16,00,02,30C.17,00,02,25 D.17,00,02,07【解析】在随机数表中,将处于00~29的号码选出,第一个数76不合要求,第2个63不合要求,满足要求的前4个号码为17,00,02,07.【答案】 D3.从2 014名学生中选取50名组成参观团,若采用下面的方法选取:先用简单随机抽样法从2 014名学生中剔除14名学生,再用系统抽样法从剩下的2 000名学生中选取50名学生.则每人入选的概率()A.不全相等B.均不相等C.都相等,且为251 007D.都相等,且为140【解析】抽样过程中每个个体被抽取的机会均等,概率相等,故每人入选的概率为502 014=251 007.故选C.【答案】 C4.某学校高一、高二、高三年级的学生人数之比为3∶3∶4,现用分层抽样的方法从该校高中三个年级的学生中抽取容量为50的样本,则应从高二年级抽取________名学生.【解析】 由分层抽样的特征可知,应从高二年级抽取3×5010=15. 【答案】 15课时提升练(五十二) 随机抽样一、选择题1.(2014·广东高考)为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为( )A .50B .40C .25D .20【解析】 根据系统抽样的特点可知分段间隔为1 00040=25,故选C. 【答案】 C2.(2014·重庆高考)某中学有高中生3 500人,初中生1 500人.为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n 的样本,已知从高中生中抽取70人,则n 为( )A .100B .150C .200D .250【解析】 法一:由题意可得70n -70=3 5001 500,解得n =100,故选A.法二:由题意,抽样比为703 500=150,总体容量为3 500+1 500=5 000,故n=5 000×150=100.【答案】 A3.(2014·石家庄模拟)某学校在高三年级一班共有60名学生,现采用系统抽样的方法从中抽取6名学生做“早餐与健康”的调查,为此将学生编号为1,2,…,60.选取的这6名学生的编号可能是() A.1,2,3,4,5,6 B.6,16,26,36,46,56C.1,2,4,8,16,32 D.3,9,13,27,36,54【解析】系统抽样是等间隔抽样.【答案】 B4.某单位共有老、中、青职工430人,其中有青年职工160人,中年职工人数是老年职工人数的2倍.为了解职工身体状况,现采用分层抽样方法进行调查,在抽取的样本中有青年职工32人,则该样本中的老年职工人数为()A.9 B.18 C.27 D.36【解析】设该单位老年职工有x人,从中抽取y人.则160+3x=430⇒x=90,即老年职工有90人,即90160=y32⇒y=18.【答案】 B5.将参加夏令营的600名学生编号为:001,002,…,600.采用系统抽样方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在第Ⅰ营区,从301到495在第Ⅱ营区,从496到600在第Ⅲ营区,则三个营区被抽中的人数依次为( )A .26,16,8B .25,17,8C .25,16,9D .24,17,9【解析】 由题意知,间隔k =60050=12,故抽到的个体编号为12k +3(其中k =0,1,2,3,…,49).令12k +3≤300,解得k ≤24.∴k =0,1,2,…,24,共25个编号. 所以从Ⅰ营区抽取25人;令300<12k +3≤495,解得25≤k ≤41 ∴k =25,26,27,…,41,共17个编号. 所以从Ⅱ营区抽取17人;因此从第Ⅲ营区抽取50-25-17=8(人). 【答案】 B6.某初级中学有学生270人,其中一年级108人,二、三年级各81人,现要利用抽样方法抽取10人参加某项调查,考虑选用简单随机抽样、分层抽样和系统抽样三种方案,使用简单随机抽样和分层抽样时,将学生按一、二、三年级依次统一编号为1,2,…,270,使用系统抽样时,将学生统一随机编号为1,2,…,270,并将整个编号依次分为10段,如果抽得号码有下列四种情况:①7,34,61,88,115,142,169,196,223,250②5,9,100,107,111,121,180,195,200,265③11,38,65,92,119,146,173,200,227,254④30,57,84,111,138,165,192,219,246,270关于上述样本的下列结论中,正确的是()A.②、③都不能为系统抽样B.②、④都不能为分层抽样C.①、④都可能为系统抽样D.①、③都可能为分层抽样【解析】因为③为系统抽样,所以选项A不对;因为②为分层抽样,所以选项B不对;因为④不为系统抽样,所以选项C不对,故选D.【答案】 D二、填空题7.(2014·汉中模拟)用系统抽样法要从160名学生中抽取容量为20的样本,将160名学生随机地从1~160编号,按编号顺序平均分成20组(1~8号,9~16号,…,153~160号),若第16组抽出的号码为126,则第1组中用抽签的方法确定的号码是________.【解析】设第1组抽取的号码为b,则第n组抽取的号码为8(n-1)+b,∴8×(16-1)+b=126,∴b=6,故第1组抽取的号码为6.【答案】 68.某商场有四类食品,其中粮食类、植物油类、动物性食品类及果蔬类分别有40种、10种、30种、20种,现从中抽取一个容量为20的样本进行食品安全检验.若采用分层抽样的方法抽取样本,则抽取的植物油类与果蔬类食品种类之和是________.【解析】 ∵四类食品的每一种被抽到的概率为20100=15,∴植物油类和果蔬类食品被抽到的种数之和为(10+20)×15=6.【答案】 69.某单位200名职工的年龄分布情况如图9-1-1所示,现要从中抽取40名职工作样本,用系统抽样法将全体职工随机按1~200编号,并按编号顺序平均分为40组(1~5号,6~10号,…,196~200号).若第5组抽出的号码为22,则第8组抽出的号码应是________.若用分层抽样方法,则40岁以下年龄段应抽取________人.图9-1-1【解析】 由分组可知,抽号的间隔为5, 又因为第5组抽出的号码为22,所以第6组抽出的号码为27,第7组抽出的号码为32,第8组抽出的号码为37. 40岁以下的年龄段的职工数为200×0.5=100,则应抽取的人数为40200×100=20(人).【答案】3720三、解答题10.中央电视台为了解观众对《中国好歌曲》的意见,准备从502名现场观众中抽取10%进行座谈,请用系统抽样的方法完成这一抽样.【解】把502名观众平均分成50组,由于502除以50的商是10,余数是2,所以每组有10名观众,还剩2名观众,采用系统抽样的方法抽样的步骤如下:第一步,先用简单随机抽样的方法从502名观众中抽取2名观众,这2名观众不参加座谈;第二步,将剩下的500名观众编号为1,2,3,…,500,并均匀分成50段,每段含50050=10个个体;第三步,从第1段即1,2,…,10这10个编号中,用简单随机抽样的方法抽取一个编号(比如l)作为起始编号;第四步,从l开始,再将编号为l+10,l+20,l+30,…,l+490的个体抽出,得到一个容量为50的样本.11.某公司有一批专业技术人员,对他们进行年龄状况和接受教育程度(学历)的调查,其结果(人数分布)如下表:(1)5的样本,将该样本看成一个总体,从中任取2人,求至少有1人学历为研究生的概率;(2)在这个公司的专业技术人员中按年龄状况用分层抽样的方法抽取N 个人,其中35岁以下48人,50岁以上10人,再从这N 个人中随机抽取1人,此人的年龄为50岁以上的概率为539,求x ,y 的值.【解】 (1)用分层抽样的方法在35~50岁年龄段的专业技术人员中抽取一个容量为5的样本,设抽取学历为本科的人数为m ,∴3050=m5,解得m =3.抽取的样本中有研究生2人,本科生3人,分别记作S 1,S 2;B 1,B 2,B 3.从中任取2人的所有等可能基本事件共有10个:(S 1,B 1),(S 1,B 2),(S 1,B 3),(S 2,B 1),(S 2,B 2),(S 2,B 3),(S 1,S 2),(B 1,B 2),(B 1,B 3),(B 2,B 3),其中至少有1人的学历为研究生的基本事件有7个:(S 1,B 1),(S 1,B 2),(S 1,B 3),(S 2,B 1),(S 2,B 2),(S 2,B 3),(S 1,S 2).∴从中任取2人,至少有1人学历为研究生的概率为710. (2)由题意,得10N =539,解得N =78.∴35~50岁中被抽取的人数为78-48-10=20, ∴4880+x =2050=1020+y,解得x =40,y =5.即x ,y 的值分别为40,5.12.某单位最近组织了一次健身活动,活动分为登山组和游泳组,且每个职工至多参加其中一组.在参加活动的职工中,青年人占42.5%,中年人占47.5%,老年人占10%.登山组的职工占参加活动总人数的14,且该组中,青年人占50%,中年人占40%,老年人占10%.为了了解各组不同年龄层次的职工对本次活动的满意程度,现用分层抽样方法从参加活动的全体职工中抽取一个容量为200的样本.试确定:(1)游泳组中,青年人、中年人、老年人分别所占的比例; (2)游泳组中,青年人、中年人、老年人分别应抽取的人数.【解】 (1)设登山组人数为x ,游泳组中青年人、中年人、老年人各占比例分别为a 、b 、c ,则有 x ·40%+3xb 4x =47.5%,x ·10%+3xc4x =10%, 解得b =50%,c =10%,则a =40%,即游泳组中,青年人、中年人、老年人各占比例分别为40%、50%、10%. (2)游泳组中抽取的青年人数为200×34×40%=60(人); 抽取的中年人数为200×34×50%=75(人); 抽取的老年人数为200×34×10%=15(人).第二节用样本估计总体考纲要求:1.了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率分布折线图、茎叶图,理解它们各自的特点.2.理解样本数据标准差的意义和作用,会计算数据标准差.3.能从样本数据中提取基本的数字特征(如平均数、标准差),并给出合理的解释.4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想.5.会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.[基础真题体验]考查角度[样本数据的数字特征]1.(2012·山东高考)在某次测量中得到的A样本数据如下:82,84,84,86,86,86,88,88,88,88.若B样本数据恰好是A样本数据每个都加2后所得数据.则A,B两样本的下列数字特征对应相同的是() A.众数B.平均数C.中位数D.标准差【解析】对样本中每个数据都加上一个非零常数时不改变样本的方差和标准差,众数、中位数、平均数都发生改变.【答案】 D考查角度[茎叶图]2.(2013·课标全国卷Ⅰ)为了比较两种治疗失眠症的药(分别称为A药,B药)的疗效,随机地选取20位患者服用A药,20位患者服用B药,这40位患者在服用一段时间后,记录他们日平均增加的睡眠时间(单位:h).试验的观测结果如下:服用A药的20位患者日平均增加的睡眠时间:0.6 1.2 2.7 1.5 2.8 1.8 2.2 2.3 3.23.5 2.5 2.6 1.2 2.7 1.5 2.9 3.0 3.12.3 2.4服用B药的20位患者日平均增加的睡眠时间:3.2 1.7 1.90.80.9 2.4 1.2 2.6 1.31.4 1.60.5 1.80.6 2.1 1.1 2.5 1.22.70.5(1)分别计算两组数据的平均数,从计算结果看,哪种药的疗效更好?(2)根据两组数据完成下面茎叶图,从茎叶图看,哪种药的疗效更好?图9-2-1【解】(1)设A药观测数据的平均数为x,B药观测数据的平均数为y.由观测结果可得x=120(0.6+1.2+1.2+1.5+1.5+1.8+2.2+2.3+2.3+2.4+2.5+2.6+2.7+2.7+2.8+2.9+3.0+3.1+3.2+3.5)=2.3,y=120(0.5+0.5+0.6+0.8+0.9+1.1+1.2+1.2+1.3+1.4+1.6+1.7+1.8+1.9+2.1+2.4+2.5+2.6+2.7+3.2)=1.6.由以上计算结果可得x>y,因此可看出A药的疗效更好.(2)由观测结果可绘制茎叶图如图:从以上茎叶图可以看出,A药疗效的试验结果有710的叶集中在茎“2.”,“3.”上,而B药疗效的试验结果有710的叶集中在茎“0.”,“1.”上,由此可看出A药的疗效更好.考查角度[频率分布直方图]3.(2014·课标全国卷Ⅰ)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:质量指标值分[75,85)[85,95)[95,105)[105,115)[115,125)组频数62638228(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?【解】(1)(2)质量指标值的样本平均数为x-=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.质量指标值的样本方差为s2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.(3)质量指标值不低于95的产品所占比例的估计值为0.38+0.22+0.08=0.68.由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定.[命题规律预测]考向一频率分布直方图及其应用[典例剖析]【例1】(2012·广东高考)某校100名学生期中考试语文成绩的频率分布直方图如图9-2-2所示,其中成绩分组区间是:[50,60),[60,70),[70,80),[80,90),[90,100].图9-2-2(1)求图中a的值;(2)根据频率分布直方图,估计这100名学生语文成绩的平均分;(3)若这100名学生语文成绩某些分数段的人数(x)与数学成绩相应分数段的人数(y)之比如下表所示,求数学成绩在[50,90)之外的人数.分数段[50,60)[60,70)[70,80)[80,90)x∶y 1∶12∶13∶44∶5a的值;(2)语文成绩的平均分采取每个小矩形的面积乘以矩形底边中点横坐标之和来求得;(3)先求出各段中语文成绩人数,再由比例求出各段中的数学成绩人数.【解】(1)由频率分布直方图知:(2a+0.02+0.03+0.04)×10=1,解得a=0.005.(2)由频率分布直方图知:这100名学生语文成绩的平均分为55×0.005×10+65×0.04×10+75×0.03×10+85×0.02×10+95×0.005×10=73(分).(3)由频率分布直方图知:语文成绩在[50,60),[60,70),[70,80),[80,90)各分数段的人数依次为0.005×10×100=5,0.04×10×100=40,0.03×10×100=30,0.02×10×100=20.由题中给出的比例关系知数学成绩在上述各分数段的人数依次为5,40×12=20,30×43=40,20×54=25.故数学成绩在[50,90)之外的人数为100-(5+20+40+25)=10.[对点练习](2014·江苏高考)为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:cm),所得数据均在区间[80,130]上,其频率分布直方图如图9-2-3所示,则在抽测的60株树木中,有________株树木的底部周长小于100 cm.图9-2-3【解析】底部周长在[80,90)的频率为0.015×10=0.15,底部周长在[90,100)的频率为0.025×10=0.25,样本容量为60,所以树木的底部周长小于100 cm的株数为(0.15+0.25)×60=24.【答案】24考向二茎叶图的绘制及应用[典例剖析]【例2】某良种培育基地正在培育一种小麦新品种A,将其与原有的一个优良品种B进行对照试验.两种小麦各种植了25亩,所得亩产数据(单位:千克)如下:品种A:357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454品种B:363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,416,422,430(1)完成数据的茎叶图.(2)用茎叶图处理现有的数据,有什么优点?(3)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,写出统计结论.【思路点拨】由百位数和十位数作茎,以个位数作叶,画出茎叶图,并依据数据的集中程度分析品种A与B亩产量及其稳定性的差异.【解】(1)如图所示:(2)由于每个品种的数据都只有25个,样本不大,画茎叶图很方便;此时茎叶图不仅清晰、明了地展示了数据的分布情况,便于比较,没有任何信息损失,而且还可以随时记录新的数据.(3)通过观察茎叶图可以看出:①品种A的亩产平均数(或均值)比品种B高;②品种A的亩产标准差(或方差)比品种B大,故品种A的亩产稳定性较差.茎叶图的制作及应用:(1)茎叶图的优点是保留了原始数据,便于记录及表示,能反映数据在各段上的分布情况.(2)茎叶图不能直接反映总体的分布情况,这就需要通过茎叶图给出的数据求出数据的数字特征,进一步估计总体情况.(3)制作茎叶图的一般方法是:将所有两位数的十位数字作为“茎”,个位数字作为“叶”,茎相同者共用一个茎,茎按从小到大顺序由上到下列出.[对点练习](2014·岳阳模拟)甲、乙两位歌手在“中国好声音”选拔赛中,5次得分情况如图9-2-4所示.记甲、乙两人的平均得分分别为x甲、x乙,则下列判断正确的是()图9-2-4A.x甲<x乙,甲比乙成绩稳定B.x甲<x乙,乙比甲成绩稳定C.x甲>x乙,甲比乙成绩稳定D.x甲>x乙,乙比甲成绩稳定【解析】x甲=76+77+88+90+945=85,x 乙=75+88+86+88+935=86, s 2甲=15[(76-85)2+(77-85)2+(88-85)2+(90-85)2+(94-85)2]=52,s 2乙=15[(75-86)2+(88-86)2+(86-86)2+(88-86)2+(93-86)2]=35.6.所以x 甲<x 乙,s 2甲>s 2乙,故乙比甲成绩稳定.【答案】 B考向三 数字特征的总体估计[典例剖析]【例3】 (理)(1)(2014·陕西高考)设样本数据x 1,x 2,…,x 10的均值和方差分别为1和4,若y i =x i+a (a 为非零常数,i =1,2,…,10),则y 1,y 2,…,y 10的均值和方差分别为( )A .1+a,4B .1+a,4+aC .1,4D .1,4+a(2)(2012·安徽高考)甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图9-2-5所示,则( )图9-2-5A .甲的成绩的平均数小于乙的成绩的平均数B .甲的成绩的中位数等于乙的成绩的中位数C .甲的成绩的方差小于乙的成绩的方差D .甲的成绩的极差小于乙的成绩的极差【思路点拨】 (1)由样本数据数字特征的性质求解;【解析】 (1)x 1+x 2+…+x 1010=1,y i =x i +a ,所以y 1,y 2,…,y 10的均值为1+a ,方差不变仍为4.故选A.(2)由条形统计图知:甲射靶5次的成绩分别为:4,5,6,7,8;乙射靶5次的成绩分别为:5,5,5,6,9,所以x 甲=4+5+6+7+85=6;x 乙=5+5+5+6+95=6. 所以x 甲=x 乙.故A 不正确.甲的成绩的中位数为6,乙的成绩的中位数为5,故B 不正确.s 2甲=15[(4-6)2+(5-6)2+(6-6)2+(7-6)2+(8-6)2]=15×10=2,s 2乙=15[(5-6)2+(5-6)2+(5-6)2+(6-6)2+(9-6)2]=15×12=125,因为2<125,所以s 2甲<s 2乙.故C 正确.甲的成绩的极差为:8-4=4,乙的成绩的极差为:9-5=4,故D 不正确.故选C.【答案】 (1)A (2)C (1)数字特征的意义平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述其波动大小.(2)方差的简化计算公式s 2=1n [(x 21+x 22+…+x 2n )-n x 2],或写成s 2=1n (x 21+x 22+…+x 2n )-x 2,即方差等于原数据平方的平均数减去平均数的平方.[对点练习](2013·山东高考)将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91,现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x 表示:89⎪⎪⎪7 74 0 1 0 x 9 1图9-2-13则7个剩余分数的方差为( )A.1169B.367 C .36 D.677【解析】 根据茎叶图,去掉1个最低分87,1个最高分99, 则17[87+94+90+91+90+(90+x )+91]=91, ∴x =4.∴s 2=17[(87-91)2+(94-91)2+(90-91)2+(91-91)2+(90-91)2+(94-91)2+(91-91)2]=367. 【答案】 B满分指导17 应用频率直方图对总体作出估计。
统计教学案例

统计教学案例(经典版)编制人:__________________审核人:__________________审批人:__________________编制单位:__________________编制时间:____年____月____日序言下载提示:该文档是本店铺精心编制而成的,希望大家下载后,能够帮助大家解决实际问题。
文档下载后可定制修改,请根据实际需要进行调整和使用,谢谢!并且,本店铺为大家提供各种类型的经典范文,如工作报告、合同协议、演讲致辞、条据文书、策划方案、规章制度、心得体会、教学资料、作文大全、其他范文等等,想了解不同范文格式和写法,敬请关注!Download tips: This document is carefully compiled by this editor. I hope that after you download it, it can help you solve practical problems. The document can be customized and modified after downloading, please adjust and use it according to actual needs, thank you!Moreover, our store provides various types of classic sample essays, such as work reports, contract agreements, speeches, policy documents, planning plans, rules and regulations, insights, teaching materials, complete essays, and other sample essays. If you want to learn about different sample formats and writing methods, please stay tuned!统计教学案例统计教学案例统计教学案例1作为义务教育阶段学习的继续,初中阶段的数学学习将巩固,加深学生已形成的对数裾分析方法的理解,扩展学生已经获得的对不确定性和概率的经验。
统计与统计案例PPT课件

走向高考 ·二轮专题复习 ·新课标版 ·数学
用样本估计总体
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
用样本估计总体 (文)某学校为了调查学生平均每周的上网时间(单 位:h)对学习产生的影响,从高三年级随机抽取了 100 名学生, 将所得数据整理后,画出频率分布直方图(如图),其中频率分 布直方图从左到右前 3 个小矩形的面积之比为 1:3:5,试估 计:
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
疑难误区警示 1.当总体数 N 不能被样本容量整除,用系统抽样法剔除 多余个体时,必须随机抽样. 2.注意中位数与平均数的区别,中位数可能不在样本数 据中.
专题七 第一讲
走向高考 ·二轮专题复习 ·新课工厂甲、乙、丙三个车
间生产了同一种产品,数量分别为 120 件,80 件,60 件,为
了解它们的产品质量是否存在显著差异,用分层抽样方法抽
取了一个容量为 n 的样本进行调查,其中从丙车间的产品中
抽取了 3 件,则 n=( )
A.9
B.10
C.12
D.13
[答案] D
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
某市有大型超市 200 家、中型超市 400 家、小型超市 1400 家.为掌握各类超市的营业情况,现按分层抽样方法抽取一个 容量为 100 的样本,应抽取中型超市________家.
[答案] 20
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
[解析] 属简单题,关键是清楚每一层的抽取比例都一样 是Nn .
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
统计统计案例

在起始部分 取样时,采 用简单随机 抽样
总体个数 较多
第5页/共59页
类别
共同点
特点
相互联系 适用范围
①抽样过程中 每个个体被抽 到的可能性相 分层抽样 等;②每次抽 出个体后不再 将它放回,即 不放回抽样
将总体分成 几层,分层 进行抽取
各层抽样 时采用简 单随机抽 样或系统 抽样
总体由差 异明显的 几部分组 成
• (3)频率分布折线图的优点是它反映了数据的变化趋势.如果将样本容量取得足够大,分组的组距取得足够 小,则这条折线将趋于一条曲线,我们称这一曲线为总体分布的密度曲线.
第8页/共59页
• 3.样本估计总体的方法 • (1)样本频率分布与总体频率分布的关系 • 样本频率分布随着样本容量的增大更加接近总体频率分布,当样本容量无限增大
为了解该年级学生的健康情况,从男生中任意抽取 25 人,
从女生中任意抽取 20 人进行调查.这种抽样方法是( )
A.简单随机抽样法
B.抽签法
C.系统抽样法
D.分层抽样法
第24页/共59页
[分析] 本题可以按照三种抽样方法的使用环境进行分 析解决.可能出现的错误是只看到从男生中抽出 25 人、女 生中抽出 20 人,就认为是简单随机抽样,忽视了简单随机 抽样是面对总体的,而误选 A.
第10页/共59页
②一般地,设样本数据分别是 x1,x2,x3,…,xn, 样本的平均数为 x ,
则方差
s2=x1-
x
2+x2-
x 2+…+xn- n
x
2 ,
标准差 s=
x1- x 2+x2- x 2+…+xn- x 2
n
.
第11页/共59页
4.回归分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(2)如果确实属于这类问题,要科学地抽取样本,样本容量要适当,不可太
小;
(3)根据数据列出2×2列联表;
×6+3.6=10.8(千亿元).
方法 5 独立性检验的思想方法
1.独立性检验的思想来自于统计上的假设检验思想,它与反证法类似,它 们都是先假设结论不成立,然后根据是否能推出“矛盾”来判定结论是 否成立.但二者“矛盾”的含义不同,反证法中的“矛盾”是指不符合 逻辑的事件发生;而假设检验中的“矛盾”是指不符合逻辑的小概率事 件发生,即在结论不成立的假设下推出有利于结论成立的小概率事件的 发生. 2.独立性检验的一般步骤: (1)独立性检验原理只能解决两个对象,每个对象有两类属性的问题,所 以对于一个实际问题,我们要首先确定能否用独立性检验的思想加以解 决;
95, ∵[0,50]的频率为0.004×50=0.2,(50,100]的频率为0.008×50=0.4,
∴中位数为50+ 0.5 0.2 ×50=87.5.
0.4
(3)由题意知在空气质量指数为(50,100]和(150,200]的监测天数中分别 抽取4天和1天, 在所抽取的5天中,将空气质量指数为(50,100]的4天分别记为a,b,c,d; 将空气质量指数为(150,200]的1天记为e, 从中任取2天的基本事件为(a,b),(a,c),(a,d),(a,e),(b,c),(b,d),(b,e),(c,d), (c,e),(d,e),共10个,
例4 (2015重庆,17,13分)随着我国经济的发展,居民的储蓄存款逐年增
长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:
^^ ^
(1)求y关于t的回归方程 y = b t+ a ;
(2)用所求回归方程预测该地区2015年(t=6)的人民币储蓄存款.
附:回归方程 y^ = b^ t+ a^ 中,
(
i1
n
yi
yi
)2
.R2越大,模型的拟合效果越好;R2越小,
( yi y)2
i1
模型的拟合效果越差.
4.相关系数r.|r|→1,表示两个变量的线性相关性越强.
|r|→0,表明两个变量之间几乎不存在线性相关性.
通常|r|≥0.75时,认为两个变量有很强的线性相关性.
考点五 独立性检验 1.分类变量:变量的不同“值”表示个体所属的不同类别,像这样的 变量称为分类变量. 2.列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变 量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为 2×2列联表)如下:
n
2.样本相关系数r=
xi yi nx y
i1
n
i1
xi2
2
nx
n
i1
yi2
n
2
y
.
如果|r|>r0.05,那么表明有95%的把握认为x与y具有线性相关关系.如果|r|
≤r0.05,那么求回归直线方程没有意义.
n
^
3.相关指数:R2=1-
解析 (1)∵0.004×50= 20 ,∴n=100,
n
∵20+40+m+10+5=100,∴m=25.
40 =0.008; 25 =0.005; 10 =0.002; 5 =0.001.
100 50
100 50
100 50
100 50
由此完成频率分布直方图,如图:
(2)由频率分布直方图得该组数据的平均数为 25×0.004×50+75×0.008×50+125×0.005×50+175×0.002×50+225×0.001× 50=
(4)如果总体容量N能被样本容量n整除,则抽样间隔k= N ,如果总体容量
n
N不能被样本容量n整除,可随机地从总体中剔除余数个个体,然后再按 系统抽样的方法抽样. 2.分层抽样适用于由差异明显的几部分组成的总体,抽取的步骤是: (1)按某种特征将总体分成若干部分. (2)按比例确定每层抽取的个体数.
可构造一个随机变量K2=
n(ad bc)2
,其中n=a+b+c+d为
(a b)(c d )(a c)(b d )
样本容量.
3.独立性检验
利用独立性假设、随机变量K2来确定是否有一定把握认为“两个分类
变量有关系”的方法称为两个分类变量的独立性检验.
两个分类变量X和Y是否有关系的判断标准:
(3)各层按简单随机抽样或系统抽样的方法抽取个体. (4)综合每层抽取的个体,组成样本. 例1 (2016广东肇庆三模,3)一个总体中有100个个体,随机编号为0,1,2, …,99.依编号顺序平均分成10个小组,组号依次为一,二,三,…,十.现用系 统抽样方法抽取一个容量为10的样本,如果在第一组随机抽取的号码为 m,那么在第k组中抽取的号码个位数字与m+k的个位数字相同.若m=6, 则在第七组中抽取的号码是 ( A ) A.63 B.64 C.65 D.66
关系,这条直线叫做回归直线,直线方程叫做回归直线方程.
求回归直线方程的步骤:
n
n
(1)整理数据,计算出 i1 xi2
, xiyi, x , y . i1
^^
(2)计算回归系数 a , b ,公式为
b^
n
xi
i1
n
yi
n x y ,
xi2 nx?2
i1
(3a^)写y 出 b^ 回x. 归直线方程 y^ = b^ x+ a^ .
当 N 不是整数时,先随机地从总体中剔除余数个个体,然后按上述步骤
n
进行.
考点二 频率分布直方图与茎叶图 1.频率分布直方图的特征 (1)各个小矩形的面积和为1.
(2)纵轴的含义为 频 组率 距 ,矩形的面积=组距× 频 组率 距=频率.
(3)样本数据的平均数的估计值等于每个小矩形的面积乘矩形底边中点 横坐标之和. (4)众数为最高矩形的底边中点的横坐标. 2.茎叶图的优点 茎叶图的优点是可以保留原始数据,而且可以随时记录,这给数据的记 录和表示都带来了方便.
2.平均数: x= x1 x2 x3 xn ;
n
方差:s2= 1n [(x1- x )2+(x2- x )2+…+(xn- x )2];
标准差:s=
1 n [(x1
x)2
( x2
x)2
( xn
x)2 ] .
方差、标准差描述数据的离散程度.
例3 (2017湖北黄冈3月质检,7)已知数据x1,x2,x3,…,xn是某市n(n≥3,n∈
N*)个普通职工的年收入,设这n个数据的中位数为x,平均数为y,方差为z,
如果再加上世界首富的年收入xn+1,则这(n+1)个数据中,下列说法正确的
是 ( B )
A.年收入平均数可能不变,中位数可能不变,方差可能不变
B.年收入平均数大大增大,中位数可能不变,方差变大
C.年收入平均数大大增大,中位数可源自不变,方差也不变高考文数第十章 概率、统计及统计案例
§10.2 统计及统计案例
知识清单
考点一 抽样方法 1.三种抽样方法的比较
4.系统抽样的步骤
当 Nn 是整数时,(1)先将总体中每一个个体编号.(2)确定分段间隔k= Nn ,对
编号进行分段.(3)在第一段用抽签法确定第一个个体编号t(t≤k).(4)按
照一定的规则抽取样本,通常是抽取t,t+k,t+2k,……,t+(n-1)·k.
ti2 -n t2 =55-5×32=10,lty=
n
i1
tiyi-n t
y =120-5×3×7.2=12,
^
从而 b =
lty
= 12 =1.2, a^ = y - b^ t =7.2-1.2×3=3.6,
ltt 10
^
故所求回归方程为 y =1.2t+3.6.
^
(2)将t=6代入回归方程可预测该地区2015年的人民币储蓄存款为 y =1.2
(1)根据所给统计表和频率分布直方图中的信息求出n,m的值,并完 成频率分布直方图;
(2)由频率分布直方图,求该组数据的平均数与中位数; (3)在空气质量指数分别为(50,100]和(150,200]的监测数据中,用分层抽 样的方法抽取5天,从中任意选取2天,求事件A“两天空气质量等级都为 良”发生的概率.
n
^ ti yi nt y ^
^
b =
i1 n
, a = y - b t .
ti2 nt ?2
i1
解析 (1)列表计算如下:
t
2 i
这里n=5, t = 1n in1ti= 155 =3, y = 1n in1yi= 356 =7.2.
又ltt=
n
i1
方法 4 回归分析的应用
分析两个变量的相关关系时,我们可根据样本数据散点图确定两个变量
之间是否存在相关关系,还可利用最小二乘法求出回归直线方程.把样
本数据表示的点在直角坐标系中作出,构成的图叫散点图.从散点图上,
我们可以分析出两个变量是否存在相关关系.如果这些点大致分布在通
过散点图中心的一条直线附近,那么就说这两个变量之间具有线性相关
解析 若m=6,则在第7组中抽取的号码个位数字与13的个位数字相同, 而第7组中的编号依次为60,61,62,63,…,69,故在第7组中抽取的号码是63.
方法 2 频率分布直方图