统计与统计案例(文科)教程文件

合集下载

【2019版课标版】高考数学文科精品课件§10.2 统计及统计案例

【2019版课标版】高考数学文科精品课件§10.2 统计及统计案例

§10.2统计及统计案例考纲解读分析解读从近几年的高考试题来看,本部分在高考中的考查点如下:1.主要考查分层抽样的定义,频率分布直方图,平均数、方差的计算,识图能力及借助概率知识分析、解决问题的能力;2.在频率分布直方图中,注意小矩形的高=频率/组距,小矩形的面积为频率,所有小矩形的面积之和为1;3.分析两个变量间的相关关系,通过独立性检验判断两个变量是否相关.本节内容在高考中分值为17分左右,属中档题.(1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6, 所以样本中分数小于70的频率为1-0.6=0.4.所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4. (2)根据题意,样本中分数不小于50的频率为(0.01+0.02+0.04+0.02)×10=0.9, 分数在区间[40,50)内的人数为100-100×0.9-5=5. 所以总体中分数在区间[40,50)内的人数估计为400×=20. (3)由题意可知,样本中分数不小于70的学生人数为(0.02+0.04)×10×100=60, 所以样本中分数不小于70的男生人数为60×=30.所以样本中的男生人数为30×2=60,女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2.所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2.五年高考考点一 抽样方法1.(2015北京,4,5分)某校老年、中年和青年教师的人数见下表.采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( )类别 人数 老年教师 900 中年教师 1 800 青年教师1 600合计4 300A.90B.100C.180D.300答案 C2.(2015湖南,2,5分)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是( ) A.3 B.4 C.5 D.6答案B3.(2015四川,3,5分)某学校为了了解三年级、六年级、九年级这三个年级之间的学生视力是否存在显著差异,拟从这三个年级中按人数比例抽取部分学生进行调查,则最合理的抽样方法是( )A.抽签法B.系统抽样法C.分层抽样法D.随机数法答案C4.(2014湖南,3,5分)对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则( )A.p1=p2<p3B.p2=p3<p1C.p1=p3<p2D.p1=p2=p3答案D5.(2014四川,2,5分)在“世界读书日”前夕,为了了解某地5 000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间的全体是( )A.总体B.个体C.样本的容量D.从总体中抽取的一个样本答案A6.(2017江苏,3,5分)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件.为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取件.答案187.(2014山东,16,12分)海关对同时从A,B,C三个不同地区进口的某种商品进行抽样检测,从各地区进口此种商品的数量(单位:件)如下表所示.工作人员用分层抽样的方法从这些商品中共抽取6件样品进行检测.(1)求这6件样品中来自A,B,C各地区商品的数量;(2)若在这6件样品中随机抽取2地区A B C数量50150100解析(1)因为样本容量与总体中的个体数的比是=,所以样本中包含三个地区的个体数量分别是:50×=1,150×=3,100×=2,所以A,B,C三个地区的商品被选取的件数分别为1,3,2.(2)设6件来自A,B,C三个地区的样品分别为:A;B1,B2,B3;C1,C2,则抽取的这2件商品构成的所有基本事件为:{A,B1},{A,B2},{A,B3},{A,C1},{A,C2},{B1,B2},{B1,B3},{B1,C1},{B1,C2},{B2,B3},{B2,C1},{B2,C2},{B3,C1},{B3,C2},{C1,C2},共15个.每个样品被抽到的机会均等,因此这些基本事件的出现是等可能的.记事件D:“抽取的这2件商品来自相同地区”,则事件D包含的基本事件有{B1,B2},{B1,B3},{B2,B3},{C1,C2},共4个.所以P(D)=,即这2件商品来自相同地区的概率为.教师用书专用(8—15)8.(2014重庆,3,5分)某中学有高中生3 500人,初中生1 500人.为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n的样本,已知从高中生中抽取70人,则n为( )A.100B.150C.200D.250答案A9.(2014广东,6,5分)为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为( )A.50B.40C.25D.20答案C10.(2013江西,5,5分)总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )7816657208026314070243699728019832049234493582003623486969387481A.08B.07C.02D.01答案D11.(2013湖南,3,5分)某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件、80件、60件.为了解它们的产品质量是否存在显著差异,用分层抽样方法抽取了一个容量为n的样本进行调查,其中从丙车间的产品中抽取了3件,则n=( )A.9B.10C.12D.13答案D12.(2015福建,13,4分)某校高一年级有900名学生,其中女生400名.按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为.答案2513.(2014湖北,11,5分)甲、乙两套设备生产的同类型产品共4 800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为件.答案 1 80014.(2014天津,9,5分)某大学为了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查.已知该校一年级、二年级、三年级、四年级的本科生人数之比为4∶5∶5∶6,则应从一年级本科生中抽取名学生.答案6015.(2013陕西,19,12分)有7位歌手(1至7号)参加一场歌唱比赛,由500名大众评委现场投票决定歌手名次.根据年龄将大众评委分为五组,各组的人数如下:组别A B C D E人数5010015015050(1)为了调查评委对7位歌手的支持情况,,请将其余各组抽取的人数填入下表;组别A B C D E人数5010015015050抽取人数6(2)在(1)中,若A,B两组被抽到的评委中各有2人支持1号歌手,现从这两组被抽到的评委中分别任选1人,求这2人都支持1号歌手的概率.解析(1)由题设知,分层抽样的抽取比例为组别A B C D E人数5010015015050抽取人数36993(2)记从A组抽到的3个评委为a1,a2,a3,其中a1,a2支持1号歌手;从B组抽到的6个评委为b1,b2,b3,b4,b5,b6,其中b1,b2支持1号歌手.从{a1,a2,a3}和{b1,b2,b3,b4,b5,b6}中各抽取1人的所有结果为:由以上树状图知所有结果共18种,其中2人都支持1号歌手的有a1b1,a1b2,a2b1,a2b2,共4种,故所求概率P==.考点二统计图表1.(2017课标全国Ⅲ,3,5分)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.根据该折线图,下列结论错误的是( )A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳答案A2.(2016山东,3,5分)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )A.56B.60C.120D.140答案D3.(2015课标Ⅱ,3,5分)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关答案D4.(2015陕西,2,5分)某中学初中部共有110名教师,高中部共有150名教师,其性别比例如图所示,则该校女教师的人数为( )A.93B.123C.137D.167答案C5.(2014山东,8,5分)为了研究某药品的疗效,选取若干名志愿者进行临床试验.所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,……,第五组.如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为( )A.6B.8C.12D.18答案C6.(2015课标Ⅱ,18,12分)某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了40个用户,根据用户对产品的满意度评分,得到A地区用户满意度评分的频率分布直方图和B地区用户满意度评分的频数分布表.满意度评分分组[50,60)[60,70)[70,80)[80,90)[90,100]频数2814106(1)作出B地区用户满意度评分的频率分布直方图,并通过直方图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);(2)根据用户满意度评分,将用户的满意度分为三个等级:满意度评分低于70分70分到89分不低于90分满意度等级不满意满意非常满意估计哪个地区用户的满意度等级为不满意的概率大,说明理由.解析(1)通过两地区用户满意度评分的频率分布直方图可以看出,B地区用户满意度评分的平均值高于A地区用户满意度评分的平均值;B地区用户满意度评分比较集中,而A地区用户满意度评分比较分散.(2)A地区用户的满意度等级为不满意的概率大.记C A表示事件:“A地区用户的满意度等级为不满意”;C B表示事件:“B地区用户的满意度等级为不满意”.由直方图得P(C A)的估计值为(0.01+0.02+0.03)×10=0.6,P(C B)的估计值为(0.005+0.02)×10=0.25.所以A地区用户的满意度等级为不满意的概率大.7.(2015安徽,17,12分)某企业为了解下属某部门对本企业职工的服务情况,随机访问50名职工,根据这50名职工对该部门的评分,绘制频率分布直方图(如图所示),其中样本数据分组区间为:[40,50),[50,60),…,[80,90),[90,100].(1)求频率分布直方图中a的值;(2)估计该企业的职工对该部门评分不低于80的概率;(3)从评分在[40,60)的受访职工中,随机抽取2人,求此2人的评分都在[40,50)的概率.解析(1)因为(0.004+a+0.018+0.022×2+0.028)×10=1,所以a=0.006.(2)由所给频率分布直方图知,50名受访职工评分不低于80的频率为(0.022+0.018)×10=0.4,所以该企业职工对该部门评分不低于80的概率的估计值为0.4.(3)受访职工中评分在[50,60)的有50×0.006×10=3(人),记为A1,A2,A3;受访职工中评分在[40,50)的有50×0.004×10=2(人),记为B1,B2.从这5名受访职工中随机抽取2人,所有可能的结果共有10种,它们是{A1,A2},{A1,A3},{A1,B1},{A1,B2},{A2,A3},{A2,B1},{A2,B2},{A3,B1},{A3,B2},{B1,B2},又因为所抽取2人的评分都在[40,50)的结果有1种,即{B1,B2},故所求的概率为P=.教师用书专用(8—13)8.(2013山东,10,5分)将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91.现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x表示:则7个剩余分数的方差为( )A. B. C.36 D.答案B9.(2013辽宁,5,5分)某班的全体学生参加英语测试,成绩的频率分布直方图如图.数据的分组依次为:[20,40),[40,60),[60,80),[80,100].若低于60分的人数是15,则该班的学生人数是( )A.45B.50C.55D.60答案B10.(2013重庆,6,5分)如图是某公司10个销售店某月销售某产品数量(单位:台)的茎叶图,则数据落在区间[22,30)内的频率为( )1892122793003A.0.2B.0.4C.0.5D.0.6答案B11.(2013四川,7,5分)某学校随机抽取20个班,调查各班中有网上购物经历的人数,所得数据的茎叶图如图所示.以组距为5将数据分组成[0,5),[5,10),…,[30,35),[35,40]时,所作的频率分布直方图是( )答案A12.(2014福建,20,12分)根据世行2013年新标准,人均GDP低于1 035美元为低收入国家;人均GDP为1 035~ 4 085美元为中等偏下收入国家;人均GDP为4 085~ 12 616美元为中等偏上收入国家;人均GDP不低于12 616美元为高收入国家.某城市有5个行政区,各区人口占该城市人口比例及人均GDP如下表:行政区区人口占城市人口比例区人均GDP(单位:美元)A25%8 000B30% 4 000C15% 6 000D10% 3 000E20%10 000(1)判断该城市人均GDP是否达到中等偏上收入国家标准;(2)现从该城市5个行政区中随机抽取2个,求抽到的2个行政区人均GDP都达到中等偏上收入国家标准的概率. 解析(1)设该城市人口总数为a,则该城市人均GDP为(8 000×0.25a+4000×0.30a+6000×0.15a+3000×0.10a+10000×0.20a)=6 400.因为6 400∈[4 085,12 616),所以该城市人均GDP达到了中等偏上收入国家标准.(2)“从5个行政区中随机抽取2个”的所有的基本事件是{A,B},{A,C},{A,D},{A,E},{B,C},{B,D},{B,E},{C,D},{C,E},{D,E},共10个.设事件“抽到的2个行政区人均GDP都达到中等偏上收入国家标准”为M,则事件M包含的基本事件是{A,C},{A,E},{C,E},共3个,所以所求概率为P(M)=.13.(2014重庆,17,13分)20名学生某次数学考试成绩(单位:分)的频率分布直方图如下:(1)求频率分布直方图中a的值;(2)分别求出成绩落在[50,60)与[60,70)中的学生人数;(3)从成绩在[50,70)的学生中任选2人,求此2人的成绩都在[60,70)中的概率.解析(1)据题中直方图知组距=10,由(2a+3a+6a+7a+2a)×10=1,解得a==0.005.(2)成绩落在[50,60)中的学生人数为2×0.005×10×20=2.成绩落在[60,70)中的学生人数为3×0.005×10×20=3.(3)记成绩落在[50,60)中的2人为A1,A2,成绩落在[60,70)中的3人为B1,B2,B3,则从成绩在[50,70)的学生中任选2人的基本事件共有10个:(A1,A2),(A1,B1),(A1,B2),(A1,B3),(A2,B1),(A2,B2),(A2,B3),(B1,B2),(B1,B3),(B2,B3),其中2人的成绩都在[60,70)中的基本事件有3个:(B1,B2),(B1,B3),(B2,B3),故所求概率为P=.考点三样本的数字特征1.(2017课标全国Ⅰ,2,5分)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,x n,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )A.x1,x2,…,x n的平均数B.x1,x2,…,x n的标准差C.x1,x2,…,x n的最大值D.x1,x2,…,x n的中位数答案B2.(2017山东,8,5分)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x和y 的值分别为( )A.3,5B.5,5C.3,7D.5,7答案A3.(2016江苏,4,5分)已知一组数据4.7,4.8,5.1,5.4,5.5,则该组数据的方差是.答案0.14.(2016课标全国Ⅰ,19,12分)某公司计划购买1台机器,该种机器使用三年后即被淘汰.机器有一易损零件,在购进机器时,可以额外购买这种零件作为备件,每个200元.在机器使用期间,如果备件不足再购买,则每个500元.现需决策在购买机器时应同时购买几个易损零件,为此搜集并整理了100台这种机器在三年使用期内更换的易损零件数,得下面柱状图:记x表示1台机器在三年使用期内需更换的易损零件数,y表示1台机器在购买易损零件上所需的费用(单位:元),n表示购机的同时购买的易损零件数.(1)若n=19,求y与x的函数解析式;(2)若要求“需更换的易损零件数不大于n”的频率不小于0.5,求n的最小值;(3)假设这100台机器在购机的同时每台都购买19个易损零件,或每台都购买20个易损零件,分别计算这100台机器在购买易损零件上所需费用的平均数,以此作为决策依据,购买1台机器的同时应购买19个还是20个易损零件?解析(1)当x≤19时,y=3 800;当x>19时,y=3 800+500(x-19)=500x-5 700,所以y与x的函数解析式为y=-(x∈N).(4分)(2)由柱状图知,需更换的零件数不大于18的频率为0.46,不大于19的频率为0.7,故n的最小值为19.(5分)(3)若每台机器在购机同时都购买19个易损零件,则这100台机器中有70台在购买易损零件上的费用为3 800元,20台的费用为4 300元,10台的费用为4 800元,因此这100台机器在购买易损零件上所需费用的平均数为(3 800×70+4300×20+4 800×10)=4 000(元).(7分)若每台机器在购机同时都购买20个易损零件,则这100台机器中有90台在购买易损零件上的费用为4 000元,10台的费用为4 500元,因此这100台机器在购买易损零件上所需费用的平均数为(4 000×90+4500×10)=4 050(元).(10分)比较两个平均数可知,购买1台机器的同时应购买19个易损零件.(12分)5.(2016四川,16,12分)我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查.通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由;(3)估计居民月均用水量的中位数.解析(1)由频率分布直方图可知:月均用水量在[0,0.5)的频率为0.08×0.5=0.04.同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5)等组的频率分别为0.08,0.21,0.25,0.06,0.04,0.02.由1-(0.04+0.08+0.21+0.25+0.06+0.04+0.02)=0.5×a+0.5×a,解得a=0.30.(2)由(1)知,100位居民月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12,由以上样本的频率分布,可以估计30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.(3)设中位数为x吨.因为前5组的频率之和为0.04+0.08+0.15+0.21+0.25=0.73>0.5,而前4组的频率之和为0.04+0.08+0.15+0.21=0.48<0.5,所以2≤x<2.5.由0.50×(x-2)=0.5-0.48,解得x=2.04.故可估计居民月均用水量的中位数为2.04吨.6.(2014课标Ⅰ,18,12分)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:质量指标值分组[75,85)[85,95)[95,105)[105,115)[115,125)频数62638228(1)作出这些数据的频率分布直方图;(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?解析(1)(2)质量指标值的样本平均数为=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.质量指标值的样本方差为s2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.(3)质量指标值不低于95的产品所占比例的估计值为0.38+0.22+0.08=0.68.由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定.教师用书专用(7—17)7.(2015重庆,4,5分)重庆市2013年各月的平均气温(℃)数据的茎叶图如下:0 8 91 2 5 82 0 03 3 83 1 2则这组数据的中位数是( )A.19B.20C.21.5D.23答案B8.(2014陕西,9,5分)某公司10位员工的月工资(单位:元)为x1,x2,…,x10,其均值和方差分别为和s2,若从下月起每位员工的月工资增加100元,则这10位员工下月工资的均值和方差分别为( )A.,s2+1002B.+100,s2+1002C.,s2D.+100,s2答案D9.(2015广东,12,5分)已知样本数据x1,x2,…,x n的均值=5,则样本数据2x1+1,2x2+1,…,2x n+1的均值为.答案1110.(2013湖北,12,5分)某学员在一次射击测试中射靶10次,命中环数如下:7,8,7,9,5,4,9,10,7,4则(1)平均命中环数为;(2)命中环数的标准差为.答案(1)7 (2)211.(2013辽宁,16,5分)为了考察某校各班参加课外书法小组的人数,从全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据.已知样本平均数为7,样本方差为4,且样本数据互不相同,则样本数据中的最大值为.答案1012.(2015广东,17,12分)某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.(1)求直方图中x的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?解析(1)由已知得,20×(0.002+0.009 5+0.011+0.012 5+x+0.005+0.002 5)=1,解得x=0.007 5.(2)由题图可知,面积最大的矩形对应的月平均用电量区间为[220,240),所以月平均用电量的众数的估计值为230;因为20×(0.002+0.009 5+0.011)=0.45<0.5,20×(0.002+0.009 5+0.011+0.012 5)=0.7>0.5,所以中位数在区间[220,240)内.设中位数为m,则20×(0.002+0.009 5+0.011)+0.012 5×(m-220)=0.5,解得m=224.所以月平均用电量的中位数为224.(3)由题图知,月平均用电量为[220,240)的用户数为(240-220)×0.0125×100=25,同理可得,月平均用电量为[240,260),[260,280),[280,300]的用户数分别为15,10,5.故用分层抽样的方式抽取11户居民,月平均用电量在[220,240)的用户中应抽取11×=5(户).13.(2014课标Ⅱ,19,12分)某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:甲部门乙部门49797665332110 98877766555554443332100665520063222034567891059044812245667778901123468800113449123345011456000(1)分别估计该市的市民对甲、乙两部门评分的中位数;(2)分别估计该市的市民对甲、乙两部门的评分高于90的概率;(3)根据茎叶图分析该市的市民对甲、乙两部门的评价.解析(1)由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为=67,所以该市的市民对乙部门评分的中位数的估计值是67.(2)由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为=0.1,=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.(3)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.14.(2014广东,17,13分)某车间20名工人年龄数据如下表:年龄(岁)工人数(人)191283293305314323401合计20(1)求这20名工人年龄的众数与极差;(2)以十位数为茎,个位数为叶,作出这20名工人年龄的茎叶图;(3)求这20名工人年龄的方差.解析(1)由题表中的数据易知,这20名工人年龄的众数是30,极差为40-19=21.(2)这20名工人年龄的茎叶图如下:1 2 3 498 8 8 9 9 90 0 0 0 0 1 1 1 1 2 2 2 0(3)这20名工人年龄的平均数=(19×1+28×3+29×3+30×5+31×4+32×3+40×1)=30,故方差s2=[1×(19-30)2+3×(28-30)2+3×(29-30)2+5×(30-30)2+4×(31-30)2+3×(32-30)2+1×(40-30)2]=×(121+12+3+0+4+12+100)=12.6.15.(2014湖南,17,12分)某企业有甲、乙两个研发小组,为了比较他们的研发水平,现随机抽取这两个小组往年研发新产品的结果如下:(a,b),(a,),(a,b),(,b),(,),(a,b),(a,b),(a,),(,b),(a,),(,),(a,b),(a,),(,b),(a,b),其中a,分别表示甲组研发成功和失败;b,分别表示乙组研发成功和失败.(1)若某组成功研发一种新产品,则给该组记1分,否则记0分.试计算甲、乙两组研发新产品的成绩的平均数和方差,并比较甲、乙两组的研发水平;(2)若该企业安排甲、乙两组各自研发一种新产品,试估计恰有一组研发成功的概率.解析(1)甲组研发新产品的成绩为1,1,1,0,0,1,1,1,0,1,0,1,1,0,1,其平均数为甲==;方差甲=×--=.乙组研发新产品的成绩为1,0,1,1,0,1,1,0,1,0,0,1,0,1,1,其平均数为乙==;方差乙=×--=.因为甲>乙,甲<乙,所以甲组的研发水平优于乙组.(2)记E={恰有一组研发成功}.在所抽得的15个结果中,恰有一组研发成功的结果是(a,),(,b),(a,),(,b),(a,),(a,),(,b),共7个,故事件E发生的频率为.将频率视为概率,即得所求概率为P(E)=.16.(2013北京,16,13分)如图是某市3月1日至14日的空气质量指数趋势图.空气质量指数小于100表示空气质量优良,空气质量指数大于200表示空气重度污染.某人随机选择3月1日至3月13日中的某一天到达该市,并停留2天.(1)求此人到达当日空气质量优良的概率;(2)求此人在该市停留期间只有1天空气重度污染的概率;(3)由图判断从哪天开始连续三天的空气质量指数方差最大.(结论不要求证明)解析(1)在3月1日至3月13日这13天中,1日、2日、3日、7日、12日、13日共6天的空气质量优良,所以此人到达当日空气质量优良的概率是.(2)根据题意,事件“此人在该市停留期间只有1天空气重度污染”等价于“此人到达该市的日期是4日,或5日,或7日,或8日”.所以此人在该市停留期间只有1天空气重度污染的概率为.(3)从3月5日开始连续三天的空气质量指数方差最大.17.(2013安徽,17,12分)为调查甲、乙两校高三年级学生某次联考数学成绩情况,用简单随机抽样,从这两校中各抽取30名高三年级学生,以他们的数学成绩(百分制)作为样本,样本数据的茎叶图如下:(1)若甲校高三年级每位学生被抽取的概率为0.05,求甲校高三年级学生总人数,并估计甲校高三年级这次联考数学成绩的及格率(60分及60分以上为及格);(2)设甲、乙两校高三年级学生这次联考数学平均成绩分别为、,估计-的值.解析(1)设甲校高三年级学生总人数为n.由题意知,=0.05,即n=600.样本中甲校高三年级学生数学成绩不及格人数为5,据此估计甲校高三年级此次联考数学成绩及格率为1-=.(2)设甲、乙两校样本平均数分别为'1、'2,根据样本茎叶图可知,30('1-'2)=30'1-30'2=(7-5)+(55+8-14)+(24-12-65)+(26-24-79)+(22-20)+92=2+49-53-77+2+92=15.因此'1-'2=0.5.故-的估计值为0.5分.考点四变量间的相关性1.(2015湖北,4,5分)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关答案C2.(2014湖北,6,5分)根据如下样本数据得到的回归方程为=bx+a,则( )x345678y 4.0 2.5-0.50.5-2.0-3.0A.a>0,b<0B.a>0,b>0C.a<0,b<0D.a<0,b>0答案A3.(2017课标全国Ⅰ,19,12分)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16抽取次序12345678零件尺寸9.9510.129.969.9610.019.929.9810.04抽取次序910111213141516零件尺寸10.269.9110.1310.029.2210.0410.059.95经计算得=x i=9.97,s=-=-≈0.212,-≈18.439,(x i-)(i-8.5)=-2.78,其中x i为抽取的第i个零件的尺寸,i=1,2, (16)(1)求(x i,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在(-3s,+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.(i)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ii)在(-3s,+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(x i,y i)(i=1,2,…,n)的相关系数--.r=--≈0.09.--解析(1)由样本数据得(x i,i)(i=1,2,…,16)的相关系数为r=--=≈-0.18.由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.。

第一章文科统计案例14课时

第一章文科统计案例14课时

12§1.1.1回归分析的基本思想及其初步Array应用(二)一、学习目标1. 通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用;2. 了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和.3. 会用相关指数,残差图评价回归效果.二、预习案(预习教材P4~ P7,找出疑惑之处)复习1:用相关系数r可衡量两个变量之间关系.r>0, 相关, r<0 相关; r越接近于1,两个变量的线性相关关系,它们的散点图越接近;r>,两个变量有关系.复习2:评价回归效果的三个统计量:总偏差平方和;残差平方和;回归平方和.3、评价回归效果的三个统计量(1)总偏差平方和:(2)残差平方和:(3)回归平方和:4、相关指数:2R表示对的贡献,公式为:2R=2R的值越大,说明残差平方和,说明模型拟合效果.5、残差分析:通过来判断拟合效果.通常借助图实现.残差图:横坐标表示,纵坐标表示.残差点比较均匀地落在的区的区域中,说明选用的模型,带状区域的宽度越,说明拟合精度越,回归方程的预报精度越.14上图中,样本点的分布没有在某个区域,因16由上图可以直观地看出, 吸烟与患肺癌 .由上图可以直观地看出, 吸烟与患肺癌 .第一步:提出假设检验问题H:18C. 若从统计量中求出有95%的把握认为吸烟与患肺病有关,是指有5%的可能性使推断出现错误.D. 以上三种说法都不对. 2. 下面是一个22⨯列联表则表中a,b 的之分别是( )A. 94,96B. 52,50C. 52,54D. 54,52 3.某班主任对全班50名学生进行了作业量多少的调查,数据如下表:握大约为( )A. 99%B. 95%C. 90%D.无充分依据 4. 在独立性检验中,当统计量2K 满足时,我们有99%的把握认为这两个分类变量有关系. 5. 在22⨯列联表中,统计量2K = .课后作业为考察某种药物预防疾病的效果,进行动物试验,得到如下列联表。

高考数学文科二轮专题攻略课件:第十四讲 统计与统计案例

高考数学文科二轮专题攻略课件:第十四讲 统计与统计案例

考点聚焦 栏目索引
答案 B 依题意及系统抽样的意义可知,将这600名学生按编号 一次分成50组,每一组各有12名学生,第k(k∈N*)组抽中的号码是3
高考导航
+12(k-1),令3+12(k-1)≤300,得k≤103 ,因此A营区被抽中的人数是
4
25.令300<3+12(k-1)≤495,得 103 <k≤42,因此B营区被抽中的人数
考点聚焦 栏目索引
2.相关系数r
当r>0时,表明两个变量正相关; 当r<0时,表明两个变量负相关.
高考导航
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对
值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|
r|大于0.75时,认为两个变量有很强的线性相关性.
考点聚焦 栏目索引
^
^
a, 其中b
( xi
i1 n
x)( yi
y)
,
(xi x)2
i1
^
^
a y b x.
考点聚焦 栏目索引 高考导航
解析 (1)作出散点图如下.
考点聚焦 栏目索引 高考导航
考点聚焦 栏目索引
y
11 13
16
15 6
20
21
6
16, (
i 1
yi
y)2
76,
r
6
(xi x)( yi y)
观察题图易知1号,4号,5号学生的面试分数在100分以下,
故选择的两人的面试分数均在100分以下的选择方法有(1,4),(1,
5),(4,5),共3种, 故选择的两人的面试分数均在100分以下的概率为 3 .

第一章统计案例(文科)

第一章统计案例(文科)

第一章统计案例(选修1——2)学习目标:1、回归分析的基本思想及其初步应用通过对典型案例的探究,进一步体会回归分析的基本思想、方法及其初步应用。

2、独立性检验的基本思想及其初步应用通过对典型案例的探究,体验独立性检验(只要求2×2列联表)的基本思想、方法及其应用。

1.1回归分析的基本思想及其初步应用(约4课时)1、教学标准①通过对典型案例的学习、理解和方法的实质,让学生进一步体会统计方法在解决实际问题中的基本思想。

②通过例1的教学,让学生进一步体验与线性回归模型有关的一些统计思想,体验模型的适用范围。

③通过例2的学习,让学生体会统计方法的特点。

④通过作图类比,让学生体会线性回归模型与函数模型的差异。

⑤通过典型案例的探究,使学生体会有些非线性模型通过交换可以转化为线性回归模型,体验在解决实际问题的过程中寻找更好的模型的方法,能运用用残差分析的方法,比较两种模型的拟合效果。

2、标准解析⑴内容解析本节内容是在前面必修③中学生学习了两个变量之间的相互关系,包括画散点图,最小二乘法求回归直线方程,利用回归直线方程进行预报等内容。

本节在此基础上进一步介绍模型的基本思想及其初步应用,这部分内容《教师用书》共计4课时。

第一课时:介绍线性回归模型的数学表达式,解释随机误差项产生的原因,使学生能正确理解回归方程的预报结果,并能从残差角度分析讨论回归模型的拟合效果;第二课时:从相关系数,相关指数的角度探讨回归模型的拟合效果,以及建立回归模型的基本步骤;第三课时:介绍两上变量非线性相关关系;第四课时:回归分析的应用。

教学重点体会回归模型与函数模型的区别感受任何模型只能近似描述实际问题学会模型拟合效果的分析工具——残差分析和R2,体会有些非线性模型通过变换可以转化为线性回归模型,体验在解决实际问题过程中寻找更好的模型的方法。

⑵、学情诊断本节是进一步介绍回归模型的基本思想及其应用,数学问题的载体都是具有实际意义与生活背景的,为了使例题具有一定的真实性,对例1进行了修改,让学生代表用抽样调查的方法统计10名男生的身高体重数据来进行线性回归分析。

高考数学文科二轮复习专题六第1讲统计与统计案例案

高考数学文科二轮复习专题六第1讲统计与统计案例案

第 1 讲统计与统计事例高考定位 1.抽方法、本的数字特色、表、回剖析与独立性主要以、填空形式命,度小; 2.侧重知的交浸透,与概率,回剖析与概率是近来几年命的点, 2015 年, 2016 年和 2017 年在解答中均有考 .真感悟( 1.(2017 全·国Ⅰ卷 )估一种作物的栽种成效,了n 地作田 .n 地的量位: kg)分 x1,x2,⋯,x n,下边出的指中能够用来估种作物量定程度的是 ()A. x1, x2,⋯, x n的均匀数B. x1, x2,⋯, x n的准差C.x1, x2,⋯, x n的最大D. x1, x2,⋯, x n的中位数分析刻画估种作物量定程度的指是准差.答案B2.(2016全·国Ⅲ卷)某旅行城市向旅客介当地的气温状况,制了一年中各月均匀最高气温15 ℃,B 点表示四月的均匀和均匀最低气温的雷达.中 A 点表示十月的均匀最高气温最低气温 5 ℃ .下边表达不正确的选项是()A. 各月的均匀最低气温都在0 ℃以上B.七月的均匀温差比一月的均匀温差大C.三月和十一月的均匀最高气温基真相同D. 均匀最高气温高于20 ℃的月份有 5 个分析依据雷达可知整年最低气温都在0 ℃以上,故 A 正确;一月均匀最高气温是6℃左右,均匀最低气温2℃左右,七月均匀最高气温22℃左右,均匀最低气温13 ℃左右,所以七月的均匀温差比一月的均匀温差大, B 正确;三月和十一月的均匀最高气温都是 10 ℃,三月和十一月的均匀最高气温基真相同, C 正确;均匀最高气温高于 20 ℃的有七月和八月,D 不正确.答案 D3.(2017 山·东卷 ) 为了研究某班学生的脚长 x(单位:厘米 )和身高 y(单位:厘米 )的关系,从该班 随机抽取10 名学生,依据丈量数据的散点图能够看出y 与 x 之间有线性有关关系,设其回归^ ^ ^1010 ^直线方程为 y = bx + a.已知 ∑x i = 225, ∑y i = 1 600,b = 4.该班某学生的脚长为 24,据此估计其i =1i =1身高为 ( )A.160B.163C.166D.170- -= 160,分析 由已知得 x = 22.5, y∵回归直线方程过样本点中心- -^( x , y ),且 b = 4,^ ^∴ 160=4×22.5+a ,解得 a =70.∴回归直线方程为 ^ ^y =4x + 70,当 x = 24 时, y = 166.答案C4.(2017抽取了全·国Ⅱ卷 )海水养殖场进行某水产品的新、 旧网箱养殖方法的产量对照, 100 个网箱,丈量各箱水产品的产量 (单位: kg) ,其频次散布直方图以下:收获时各随机(1) 记 A 表示事件 “旧养殖法的箱产量低于 50 kg ”,估计 A 的概率;(2) 填写下边列联表,并依据列联表判断能否有99%的掌握以为箱产量与养殖方法有关:箱产量 <50 kg箱产量 ≥ 50 kg旧养殖法新养殖法(3) 依据箱产量的频次散布直方图,对这两种养殖方法的好坏进行比较.附:P( K 2≥k)0.050 0.010 0.001k3.8416.63510.8282n ( ad - bc ) 2K = (a + b )( c +d )( a +c )( b + d )解 (1)由 率散布直方 知,旧养殖法的箱 量低于 50 kg 的 率 (0.012+ 0.014+ 0.024+0.034+0.040) 5×= 0.62, 事件 A 的概率估 0.62.(2) 列 表以下:箱 量 <50 kg箱 量 ≥ 50 kg旧养殖法 62 38 新养殖法34662∴ K 2=200×(62×66-38×34)≈15.705>6.635,100 ×100 ×104 ×96∴有 99%的掌握 箱 量与养殖方法有关 .(3) 由箱 量的 率散布直方 可知, 旧养殖法的箱 量均匀 ( 或中位数 ) 在 45~ 50 kg 之 ,新养殖法的箱 量均匀 (或中位数 ) 在 50~ 55 kg 之 ,且新养殖法的箱 量散布集中程度旧养殖法散布集中程度高,可知新养殖法的箱 量高且 定,进而新养殖法 于旧养殖法.考点整合1.抽 方法抽 方法包含 随机抽 、系 抽 、分 抽 ,三种抽 方法都是等概率抽 ,体 了抽 的公正性,但又各有其特色和合用范.2. 中的四个数据特色(1) 众数:在 本数据中,出 次数最多的那个数据.(2) 中位数: 本数据中,将数据按大小摆列,位于最中 的数据 .假如数据的个数 偶数,就取中 两个数据的均匀数作 中位数.(3) 均匀数: 本数据的算 均匀数,即- 1x = (x 1 +x 2+⋯ + x n ).n(4) 方差与 准差 .21 -2 - 2- 2s = [( x 1- x ) + (x 2- x ) + ⋯ + (x n - x ) ] ,n1- 2- 2-2s =n [( x 1- x ) +( x 2- x ) + ⋯+( x n - x) ].3.直方 的两个率(1) 小 方形的面 = 距 ×= 率 . 距(2) 各小 方形的面 之和等于1. 4.回 剖析与独立性- -(1) 回 直 y^ = b^ x + a^ 本点的中心点 ( x , y ),若 x 取某一个 代入回 直 方程 y^ = b^ x + a^ 中,可求出 y 的估 .(2) 独立性对于取值分别是 { x1, x2} 和 { y1, y2} 的分类变量X 和 Y,其样本频数列联表是:y1y2总计x1a b a+bx2c d c+ d总计a+ c b+ d nn( ad- bc)22(此中n=a+b+c+d为样本容量).则 K =( a+ b)( c+ d)( a+ c)( b+ d)热门一抽样方法【例 1】(1)(2015 ·京卷北)某校老年、中年和青年教师的人数见下表,采纳分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320 人,则该样本中的老年教师人数为 ()类型人数老年教师900中年教师 1 800青年教师 1 600总计 4 300A.90B.100C.180D.300(2)(2017 长·沙雅礼中学质检)在一次马拉松竞赛中, 35 名运动员的成绩 (单位:分钟 )的茎叶图以下图若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7 人,则此中成绩在区间 [139 ,151] 上的运动员人数是 ________.分析 (1) 设该样本中的老年教师人数为x,由题意及分层抽样的特色得x=320,故 x= 180.900 1 600(2)依题意,可将编号为 1~ 35 号的 35 个数据分红 7 组,每组有 5 个数据 .在区间 [139, 151] 上共有20 个数据,分在 4 个小组内,每组抽取 1 人,共抽取 4 人 .答案(1)C(2)4研究提升 1.解决此类题目的要点是深刻理解各样抽样方法的特色和合用范围.但不论哪一种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量与整体容量的比值.2.在系统抽样的过程中,要注意分段间隔,需要抽取n 个个体,样本就需要分红n 个组,则分N段间隔即为n( N 为样本容量 ),第一确立在第一组中抽取的个体的号码数,再从后边的每组中按规则抽取每个个体 .【训练1】 (1)(2017 ·郑州模拟 )为规范学校办学,某省教育厅督察组对某所高中进行了抽样调查 .抽到的班级一共有 52 名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4 的样本,已知 7 号、 33 号、 46 号同学在样本中,那么样本中还有一位同学的编号应是()A.13B.19C.20D.51(2)(2017 江·苏卷 )某工厂生产甲、乙、丙、丁四种不一样型号的产品,产量分别为200,400,300,100 件,为查验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60 件进行查验,则应从丙种型号的产品中抽取________件 .分析(1) 由系统抽样的原理知,抽样的间隔为52÷4= 13,故抽取的样本的编号分别为7, 7+13, 7+ 13×2, 7+ 13×3,即 7 号, 20 号, 33 号, 46 号 .∴样本中还有一位同学的编号为20 号.n =60(2) 因为样本容量 n= 60,样本整体 N= 200+ 400+ 300+ 100= 1 000,所以抽取比率为N1000=350.所以应从丙种型号的产品中抽取300×3= 18(件 ). 50答案(1)C(2)18热门二用样本估计整体命题角度 1数字特色与茎叶图的应用【例 2- 1】(2017 ·北京东城质检 )某班男女生各 10 名同学近来一周均匀每日的锻炼时间(单位:分钟 ) 用茎叶图记录以下:假定每名同学近来一周均匀每日的锻炼时间是相互独立的 . ①男生每日锻炼的时间差异小,女生每日锻炼的时间差异大;②从均匀值剖析,男生每日锻炼的时间比女生多;③男生均匀每日锻炼时间的标准差大于女生均匀每日锻炼时间的标准差;④从 10 个男生中任选一人,均匀每日的锻炼时间超出 65 分钟的概率比相同条件下女生锻炼时间超出 65 分钟的概率大 .此中切合茎叶所数据的是()A. ①②③B. ②③④C.①②④D. ①③④分析由茎叶知,男生每日差小,女生差大,①正确.男生均匀每日超65 分的概率P1=105= 12,女生均匀每日超65 分的42概率 P2==,P1>P2,所以④正确.男生、女生两数据的均匀数分--s 甲,s 乙. x 甲, x 乙,准差分----易求 x甲= 65.2, x乙= 61.8,知 x 甲 > x 乙,②正确 .又依据茎叶,男生集中,女生分别,∴s 甲<s 乙,③ ,所以切合茎叶所数据的是①②④.答案C命角度2用本的率散布估体散布【例2- 2】(2016 ·四川卷 )我国是世界上重缺水的国家,某市了拟订合理的水方案,居民用水状况行了.通抽,得了某年100 位居民每人的月均用水量(位:吨将数据依据 [0, 0.5), [0.5, 1),⋯, [4,4.5] 分红 9 ,制成了如所示的率散布直方.),(1)求直方中 a 的;(2)市有 30 万居民,估全市居民中月均用水量不低于 3 吨的人数,明原因;(3)估居民月均用水量的中位数 .解(1)由率散布直方可知,月均用水量在[0, 0.5)内的率 0.08 ×0.5=0.04.同理,在 [0.5 ,1),[1.5 ,2),[2,2.5),[3,3.5),[3.5,4), [4,4.5] 的率分0.08,0.21,0.25, 0.06, 0.04, 0.02.由 1- (0.04+ 0.08+ 0.21+ 0.25+ 0.06+ 0.04+ 0.02) =0.5 ×a+ 0.5×a,解得 a=0.30.(2) 由(1) 知,市100 位居民中月均用水量不低于 3 吨的率0.06+ 0.04+ 0.02= 0.12.由以上本的率散布,能够估30 万居民中月均用水量不低于 3 吨的人数300 000×0.12= 36 000.(3)中位数 x 吨 .因前 5 的率之和0.04+ 0.08+ 0.15+0.21+ 0.25= 0.73>0.5.又前 4 的率之和0.04+ 0.08+0.15+ 0.21= 0.48<0.5.所以 2≤x<2.5.由 0.50 ×(x-2) =0.5- 0.48,解得 x=2.04.故可估居民月均用水量的中位数 2.04 吨 .研究提升 1.均匀数与方差都是重要的数字特色,是数据的一种明描绘,它所反应的情况有侧重要的意.均匀数、中位数、众数描绘数据的集中,方差和准差描绘数据的波大小 .2.在本例2- 2 中,抓住率散布直方各小方形的面之和1,是求解的关;本易混杂率散布条形和率散布直方,把率散布直方的几何意当作率,致本数据的率求.【2】(2017 ·北京卷 )某大学400 名学生参加某次,依据男女学生人数比率,使用分抽的方法从中随机抽取了100 名学生,他的分数,将数据分红7 : [20,30), [30 , 40),⋯ [80, 90],并整理获得以下率散布直方:(1)从体的 400 名学生中随机抽取一人,估其分数小于70 的概率;(2)已知本中分数小于 40 的学生有 5 人,估体中分数在区[40,50)内的人数;(3)已知本中有一半男生的分数不小于70,且本中分数不小于70 的男女生人数相等.估体中男生和女生人数的比率.解 (1)依据率散布直方可知,本中分数不小于70 的率 (0.02+0.04) ×10= 0.6,所以本中分数小于70 的率1- 0.6= 0.4.所以从体的 400 名学生中随机抽取一人,其分数小于70 的概率估 0.4.(2) 依据意,本中分数不小于50 的率(0.01+ 0.02+ 0.04+ 0.02) 10×= 0.9,分数在区 [40 , 50)内的人数 100- 100×0. 9- 5= 5.所以体中分数在区[40 , 50)内的人数估 400×5=20. 100(3) 由意可知,本中分数不小于70 的学生人数(0.02+ 0.04) 10××100= 60,所以本中分数不小于170 的男生人数 60×= 30.2所以样本中的男生人数为30×2= 60,女生人数为100- 60= 40,男生和女生人数的比率为60∶ 40= 3∶ 2.所以依据分层抽样原理,整体中男生和女生人数的比率估计为3∶2.热门三回归剖析与独立性查验【例 3】(1) 某新闻媒体为了认识观众对央视《开门大吉》节目的喜欢与性别能否有关系,随机检查了观看该节目的观众110 名,获得以下的列联表:女男总计喜欢402060不喜欢203050总计6050110试依据样本估计整体的思想,估计约有________的掌握以为“喜欢该节目与否和性别有关”.参照附表:P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.8282n( ad- bc)2,此中(参照公式: K =( a+b)( c+ d)( a+ c)( b+ d)n= a+b+ c+ d)(2)(2016 全·国Ⅲ卷 )如图是我国2008 年至 2014 年生活垃圾无害化办理量(单位:亿吨 )的折线图 .注:年份代码1~7 分别对应年份2008~ 2014.①由折线图看出,可用线性回归模型拟合y 与 t 的关系,请用有关系数加以说明;②成立 y 对于 t 的回归方程 (系数精准到0.01),展望 2016 年我国生活垃圾无害化办理量.附注:^ ^^回归方程 y=a+ bt 中斜率和截距的最小二乘估计公式分别为:(1)分析剖析列联表中数据,可得 K 2的一个观察值k=110 ×( 40×30-20×20)299%的掌握以为“喜欢《开门大吉》节目与60×50×60×50≈ 7.822> 6.635,所以有否和性别有关”.答案99%(2) 解①由折线图中的数据和附注中参照数据得-= 4,t因为 y 与 t 的有关系数近似为 0.99,说明 y 与 t 的线性有关程度相当高,进而能够用线性回归模型拟合 y 与 t 的关系 .^ -^-a= y -b t ≈ 1.331- 0.103 × 4≈ 0.92.^所以, y 对于 t 的回归方程为 y= 0.92+0.10t.^+ 0.10 ×9= 1.82.将 2016 年对应的 t= 9 代入回归方程得: y=0.92所以展望2016 年我国生活垃圾无害化办理量约为 1.82 亿吨 .研究提升 1.求回归直线方程的要点及实质应用(1) 要点:正确理解计算^ ^b, a的公式和正确地计算 .(2)实质应用:在剖析实质中两个变量的有关关系时,可依据样本数据作出散点图来确立两个变量之间能否拥有有关关系,若拥有线性有关关系,则可经过线性回归方程估计和展望变量的值 .2.独立性查验的要点(1) 依据 2×2 列联表正确计算K 2,若 2×2 列联表没有列出来,要先列出此表.(2)K2的观察值 k 越大,对应假定事件 H0成立 ( 两类变量相互独立 )的概率越小, H 0不可立的概率越大 .【训练 3】 (1)(2017 ·贵阳调研 )某医疗研究所为了查验某种血清能起到预防感冒的作用,把 500名使用血清的人与此外500 名未使用血清的人一年中的感冒记录作比较,利用2×2 列联表计算得 K2的观察值 k≈3.918.附表:P(K2≥k0)0.150.100.050.0250.0100.0050.001 k0 2.072 2.706 3.841 5.024 6.6357.87910.828则作出“这类血清能起到预防感冒的作用”犯错的可能性不超出()A.95%B.5%C.97.5%D.2.5%(2)(2017 唐·山一模 )某市春节时期7 家商场的广告费支出 x i (万元 )和销售额 y i(万元 )数据以下:商场A B C D E F G广告费支出 x i1246111319销售额 y i①若用线性回归模型拟合y 与 x 的关系,求 y 对于 x 的线性回归方程;②用对数回归模型拟合^y 与 x 的关系,可得回归方程 y=12ln x+ 22,经计算得出线性回归模型和对数模型的 R2分别约为 0.75 和 0.97,请用 R2说明选择哪个回归模型更适合,并用此模型预测 A 商场广告费支出为8 万元时的销售额 .( 1)分析∵ k≈3.918>3.841,且P( K 2≥k0= 3.841)= 0.05,依据独立性查验思想“这类血清能起到预防感冒的作用”犯错的可能性不超出5%.答案B^ -^-所以 a= y - b x = 42- 1.7 ×8=28.4.所以, y 对于 x 的线性回归方程是^y= 1.7x+28.4.②∵ 0.75<0.97 ,∴对数回归模型更适合.^当 x = 8 , y = 12ln 8 + 22= 36ln 2 + 22= 36×0.7+22= 47.2 万元 .∴广告 支出8 万元 , A 商场 售 47.2 万元 .1.用 本估 体是 的基本思想.用 本 率散布来估 体散布的要点是 率散布表和 率散布直方 的 制及用 本 率散布估 体散布; 点是 率散布表和 率散布直方 的理解及 用.2.(1)众数、中位数及均匀数都是描绘一 数据集中 的量,均匀数是最重要的量,与每个本数占有关, 是中位数、众数所不拥有的性.(2) 准差、方差描绘了一 数据 均匀数波 的大小. 准差、方差越大,数据的失散程度就越大 .3.茎叶 、 率散布表和 率散布直方 都可直 描绘 本数据的散布 律.在 率散布直方 中,可剖析 本数据的散布状况,大概判断均匀数的范 ,并利用数据的波 性大小反应方差 ( 准差 )的大小 .率注意: 率散布直方 的 刻度是 ,而不是 率,每个小直方 的面 才是相 区 距的 率 .4.回 剖析是 拥有有关关系的两个 量 行 剖析的方法,只有在散点 大概呈 性 ,求出的 性回 方程才有 意 ,否 ,求出的 性回 方程毫无心.依据回 方程 行, 是一个 ,而不是真 生的.一、1.采纳系 抽 方法从960 人中抽取 32 人做 卷 , 此将他 随机 号1,2,⋯ ,960,分 后在第一 采纳 随机抽 的方法抽到的号 9.抽到的 32人中, 号落入区 [1,450] 的人做 卷 A , 号落入区 [451 ,750] 的人做 卷 B ,其他的人做 卷 C. 抽到的人中,做 卷 B 的人数 ( )A.7B.9C.10D.15分析 抽取号 的 隔960= 30,进而区 [451 , 750] 包含的段数750- 450= 10, 号323030落入区 [451 , 750] 的人数 10 人,即做 卷 B 的人数 10.答案 C2.(2017 全·国Ⅲ卷 )某城市 认识旅客人数的 化 律, 提升旅行服 量, 采集并整理了 2014年 1 月至 2016 年 12 月期 月招待旅客量( 位:万人 )的数据, 制了下边的折.依据该折线图,以下结论错误的选项是()A.月招待旅客量逐月增添B.年招待旅客量逐年增添C.各年的月招待旅客量顶峰期大概在7,8 月D. 各年1 月至 6 月的月招待旅客量相对于7 月至12 月,颠簸性更小,变化比较安稳分析由题图可知,2014 年8 月到9 月的月招待旅客量在减少,则 A 选项错误.答案A3.(2017 山·东卷 ) 以下图的茎叶图记录了甲乙两组各两组数据的中位数相等,且均匀值也相等,则x 和5 名工人某日的产量数据y 的值分别为 ()(单位:件 ).若这A.3, 5B.5 ,5C.3, 7D.5,7解析由茎叶图知甲组数据中位数为 65 ,所以 y = 5 ,此时乙组平均值为66.56+65+ 62+74+ 70+x=66,解得x=3.5答案A4.(2017 汉·中模拟 )已知两个随机变量x, y 之间的有关关系如表所示:x- 4- 2124y- 5- 3- 1- 0.51依据上述数据获得的回归方程为^ ^^) y= bx+ a,则大概能够判断 (^^^^ A. a>0, b>0 B. a>0, b<0^^^^ C.a<0, b>0 D.a<0, b<0分析作出散点图,画出回归直线直观判断^^ b>0, a<0.答案C5.(2017 济·南调研 )2016 年济南地铁正式动工建设,地铁时代的到来可否缓解济南的交通拥挤状况呢?某社团进行社会检查,获得的数据以下表:男性市民女性市民以为能缓解交通拥挤4830以为不可以缓解交通拥挤1220则以下结论正确的选项是()2n( ad- bc)2附:K =( a+ b)( a+ c)( b+ d)( c+ d)P(K 2≥k)0.050.0100.0050.001k 3.841 6.6357.87910.828A. 有 95%的掌握以为“对可否缓解交通拥挤的认识与性别有关”B. 有 95%的掌握以为“对可否缓解交通拥挤的认识与性别没关”C.有 99%的掌握以为“对可否缓解交通拥挤的认识与性别有关”D.有 99%的掌握以为“对可否缓解交通拥挤的认识与性别没关”分析由 2×2 列联表,可求K 2的观察值,(48+ 30+ 12+ 20)( 20×48- 12×30)2k=( 48+30)( 48+ 12)( 12+ 20)( 30+ 20)≈5.288>3.841.由统计表P(K 2≥ 3.841)= 0.05,∴有 95%的掌握以为“可否缓解交通拥挤的认识与性别有关”.答案 A二、填空题6.(2017 石·家庄质检 )为比较甲、乙两地 14时的气温状况,随机选用该月中的 5 天,将这 5 天中 14 时的气温数据 (单位:℃ )制成以下图的茎叶图 .考虑以下结论:①甲地该月 14 时的均匀气温低于乙地该月14 时的均匀气温;②甲地该月 14 时的均匀气温高于乙地该月14 时的均匀气温;③甲地该月 14 时的气温的标准差小于乙地该月14时的气温的标准差;④甲地该月 14 时的气温的标准差大于乙地该月14时的气温的标准差 .此中依据茎叶图能获得的统计结论的编号正确的选项是________.分析-+29+ 31+31=29,x甲=26+ 285-28+ 29+ 30+31+--x 乙=32= 30,则 x 甲< x 乙,①正确 .5由茎叶图知,乙地的气温相对照较集中,甲地的气温相对照较失散.所以甲地该月的标准差大于乙地该月的标准差,④正确.答案①④7.(2017 泉·州模拟 )某厂在生产甲产品的过程中,产量x(吨 )与生产能耗 y(吨 )的对应数据如表:x30405060y25354045依据最小二乘法求得回归方程为^^80 吨时,估计需要生产能耗为 ________ y= 0.65x+a,当产量为吨 .--^^^分析由题意, x = 45, y = 36.25,代入 y= 0.65x+ a,得 a= 7,∴当产量为 80 吨时,估计需要生产能耗为 0.65 ×80+ 7= 59.答案 598.(2016 山·东卷改编 )某高校检查了200 名学生每周的自习时间 (单位:小时 ),制成了以下图的频次散布直方图,此中自习时间的范围是[17.5 ,30],样本数据分组为 [17.5 ,20),[20,22.5),[22.5 , 25), [25 ,27.5), [27.5 , 30].依据直方图,这200 名学生中每周的自习时间许多于22.5小时的人数是 ________.分析设所求的人数为 n,由频次散布直方图,自习时间许多于22.5 小时的频次为 (0.04+ 0.08+0.16) ×2.5= 0.7,∴ n= 0.7 ×200= 140.答案 140三、解答题9.(2017 全·国Ⅲ卷 )某商场计划按月订购一种酸奶,每日进货量相同,进货成本每瓶 4 元,售价每瓶 6 元,未售出的酸奶降价办理,以每瓶 2 元的价钱当日所有办理完.依据早年销售经验,每日需求量与当日最高气温(单位:℃ )有关 .假如最高气温不低于25,需求量为500 瓶;假如最高气温位于区间 [20, 25),需求量为300 瓶;假如最高气温低于20,需求量为200 瓶 .为了确立六月份的订购计划,统计了前三年六月份各天的最高气温数据,得下边的频数散布表:最高气温[10 ,15)[15 , 20)[20, 25)[25,30)[30 , 35)[35 , 40)天数216362574以最高气温位于各区间的频次估计最高气温位于该区间的概率.(1) 估计六月份这类酸奶一天的需求量不超出300 瓶的概率;(2) 设六月份一天销售这类酸奶的收益为Y(单位:元 ) ,当六月份这类酸奶一天的进货量为450瓶时,写出 Y 的所有可能值,并估计Y 大于零的概率 .解 (1)这类酸奶一天的需求量不超出300 瓶,当且仅当最高气温低于25,由表中数据可知,最高气温低于25 的频次为2+16+36= 0.6.90所以这类酸奶一天的需求量不超出300 瓶的概率的估计值为0.6.(2) 当这类酸奶一天的进货量为450 瓶时,若最高气温低于20,则 Y= 200×6+ (450- 200) ×2- 450×4=- 100;若最高气温位于区间[20 , 25),则 Y= 300×6+ (450-300) ×2- 450×4= 300;若最高气温不低于25,则 Y= 450×(6- 4)= 900,所以,收益Y 的所有可能值为-100, 300, 900.Y 大于零当且仅当最高气温不低于20,由表格数据知,最高气温不低于20 的频次为36+ 25+ 7+ 4=0.8.90所以 Y 大于零的概率的估计值为 0.8.10.(2017 赤·峰二模 )微信是腾讯企业推出的一种手机通信软件,它支持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至浮现出一批在微信的朋友圈内销售商品的人(被称为微商 ).为了检查每日微信誉户使用微信的时间,某经销化妆品的微商在一广场随机采访男性、女性用户各 50 名,将男性、女性使用微信的时间分红 5 组: (0, 2],(2, 4],(4, 6], (6,8],(8, 10]分别加以统计,获得以下图的频次散布直方图.(1)依据女性频次散布直方图估计女性使用微信的均匀时间;(2)若每日玩微信超出 4 小时的用户列为“微信控”,不然称其为“非微信控”,请你依据已知条件达成 2×2 的列联表,并判断能否有 90%的掌握以为“微信控”与“性别有关”?解 (1)女性均匀使用微信的时间为:0.16 ×1+0.24 ×3+0.28 ×5+0.2 ×7+ 0.12 ×9= 4.76(小时 ).(2) 由已知得: 2(0.04+ a+0.14+ 2×0.12)= 1,解得 a= 0.08.由题设条件得列联表微信控非微信控总计男性381250女性302050总计68321002∴K 2=n( ad-bc)( a+ b)( c+d)( a+c)( b+ d)100( 38×20- 30×12)2=≈ 2.941>2.706.50×50×68×32所以有 90% 的掌握“微信控”与“性”有关 .11.(2017 全·国Ⅰ卷 )了控某种部件的一条生的生程,每隔30 min 从生上随机抽取一个部件,并量其尺寸(位: cm). 下边是在一天内挨次抽取的16 个零件的尽寸:抽取序次12345678部件尺寸9.9510.129.969.9610.019.929.9810.04抽取序次910111213141516部件尺寸10.269.9110.1310.029.2210.0410.059.95( 1)求( x i,i )( i= 1, 2,⋯, 16)的有关系数r,并回答能否能够一天生的部件尺寸不随生程的行而系地大或小(若|r |<0.25,能够部件的尺寸不随生程的行而系地大或小).( 2)一天内抽部件中,假如出了尺寸在(--x- 3s, x +3s)以外的部件,就条生在一天的生程可能出了异样状况,需当日的生程行.①从一天抽的果看,能否需当日的生程行?--②在( x - 3s, x + 3s)以外的数据称离群,剔除离群,估条生当日生的部件尺寸的均与准差.(精准到0.01)解 (1)由本数据得 (x i, i)(i =1, 2,⋯,16)的有关系数因为 |r |<0.25,所以能够以为这天生产的部件尺寸不随生产过程的进行而系统地变大或变小.-= 9.97,s≈0.212,由样本数据能够看出抽取的第13 个部件的尺寸在--+(2) ①因为 x( x- 3s, x 3s)以外 .所以需对当日的生产过程进行检查.②剔除离群值,即第13 个数据,剩下数据的均匀数为115(16×9.97-9.22) = 10.02,这条生产线当日生产的部件尺寸的均值的估计值为10.02.162+ 16×9.9722≈ 16× 0.212≈ 1 591.134,xi= 1剔除第 13 个数据,剩下数据的样本方差为1(1 591.134- 9.222- 15×10.022) ≈ 0.008,15这条生产线当日生产的部件尺寸的标准差的估计值为0.008≈0.09.。

2020高考数学(文科,通用)复习课件:专题7 第2讲统计与统计案例.ppt

2020高考数学(文科,通用)复习课件:专题7 第2讲统计与统计案例.ppt

第三组中没有疗效的有6人,则第三组中有疗效的
人数为( )
思维启迪 根据第一组与第二组
的人数和对应频率估计
样本总数,然后利用第
三组的频率和无疗效人
数计算;
A.6
B.8 C.12 D.18
解析 志愿者的总人数为0.16+200.24×1=50,
所以第三组人数为50×0.36=18, 有疗效的人数为18-6=12. 答案 C
热点一 抽样方法
例1 (1)(2013·陕西)某单位有840名职工,现采用
系 统 抽 样 方 法 抽 取 42 人 做 问 卷 调 查 , 将 840 人 按
1,2,…,840随机编号,则抽取的42人中,编号落
入区间[481,720]的人数为( )
A.11
B.12 C.13 D.14
思维启迪
系统抽样时需要抽取几个个体,样本就分成几组,且抽
思维启迪 分层抽样最重要的是各层的比例.
解析 本题属于分层抽样,设该学校的教师人数为x, 所以3126000=160-x 150,所以 x=200.
(1)随机抽样各种方法中,每个个体被抽到的概率
思 都是相等的;(2)系统抽样又称“等距”抽样,被 维 抽到的各个号码间隔相同;分层抽样满足:各层

华 抽取的比例都等于样本容量在总体容量中的比例.
2.常用的统计图表 (1)频率分布直方图
频率 ①小长方形的面积=组距×组距=频率;
②各小长方形的面积之和等于1;
③小长方形的高=频 组率 距,所有小长方形的高的和为组1距.
(2)茎叶图 在样本数据较少时,用茎叶图表示数据的效果较好. 3.用样本的数字特征估计总体的数字特征 (1)众数、中位数、平均数
数字特

第1讲 统计与统计案例教案(有解析) 高三数学(文科)二轮复习

第1讲 统计与统计案例教案(有解析) 高三数学(文科)二轮复习

第1讲 统计与统计案例1.以选择题、填空题的形式考查随机抽样、样本的数字特征、统计图表、回归方程、独立性检验等.2.在概率与统计的交汇处命题,以解答题中档难度出现.热点一 抽样方法1.简单随机抽样特点是从总体中逐个抽取.适用范围:总体中的个体数较少.2.系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取.适用范围:总体中的个体数较多.3.分层抽样特点是将总体分成几层,分层进行抽取.适用范围:总体由差异明显的几部分组成.例1 (1)(2017·山东省实验中学一模)用系统抽样的方法从300名学生中抽取容量为20的样本,将300名学生从1~300编号,按编号顺序平均分组.若第16组应抽出的号码为232,则第一组中抽出的号码是( )A .5B .6C .7D .8答案 C解析 设第一组中抽出的号码是x ,列方程有x +30020×15=232⇒x =7, 即第一组中抽出的号码是7.故选C.(2)某高级中学高一、高二、高三年级的学生人数分别为600,700,700,为了解不同年级学生的眼睛近视情况,现用分层抽样的方法抽取了容量为100的样本,则高三年级应抽取的学生人数为________. 答案 35解析 由题意结合抽样比可得,高三年级应抽取的学生人数为100×700600+700+700=35. 思维升华 (1)随机抽样的各种方法中,每个个体被抽到的概率都是相等的.(2)系统抽样又称“等距”抽样,被抽到的各个号码间隔相同.(3)分层抽样满足:各层抽取的比例都等于样本容量在总体容量中的比例.跟踪演练1 (1)(2017·葫芦岛协作体模拟)福利彩票“双色球”中红球的号码可以从01,02,03,…,32,33这33个二位号码中选取,小明利用如图所示的随机数表选取红色球的6个号码,选取方法是从第1行、第9列和第10列的数字开始从左到右依次选取两个数字,则第四个被选中的红色球号码为( )A.12 B .33C .06D .16答案 C解析 被选中的红色球号码依次为17,12,33,06,所以第四个被选中的红色球号码为06,故选C.(2)(2017届江西重点中学协作体联考)高三某班有学生36人,现将所有同学随机编号,用系统抽样的方法,抽取一个容量为4的样本,已知5号、23号、32号学生在样本中,则样本中还有一个学生的编号为( )A .13B .14C .18D .26答案 B解析 ∵高三某班有学生36人,用系统抽样的方法,抽取一个容量为4的样本,∴样本组距为36÷4=9,则5+9=14,即样本中还有一个学生的编号为14,故选B.热点二 用样本估计总体1.频率分布直方图中横坐标表示组距,纵坐标表示频率组距,频率=组距×频率组距. 2.频率分布直方图中各小长方形的面积之和为1.3.利用频率分布直方图求众数、中位数与平均数利用频率分布直方图求众数、中位数和平均数时易出错,应注意区分这三者.在频率分布直方图中:(1)最高的小长方形底边中点的横坐标即众数.(2)中位数左边和右边的小长方形的面积和相等.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.例2 (1)(2017·全国Ⅰ)为评估一种农作物的种植效果,选了n 块地作试验田.这n 块地的亩产量(单位:kg)分别为x 1,x 2,…,x n ,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )A .x 1,x 2,…,x n 的平均数B .x 1,x 2,…,x n 的标准差C .x 1,x 2,…,x n 的最大值D .x 1,x 2,…,x n 的中位数答案 B解析 因为可以用极差、方差或标准差来描述数据的离散程度,所以要评估亩产量稳定程度,应该用样本数据的极差、方差或标准差.故选B.(2)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图可知,这200名学生中每周的自习时间不足22.5小时的人数是________.。

【2018年高考一轮课程】文科数学 全国通用版 统计与统计案例 教案

【2018年高考一轮课程】文科数学  全国通用版 统计与统计案例 教案

一、自我诊断 知己知彼1.若某校高一年级8个班参加合唱比赛的得分如茎叶图所示,则这组数据的中位数和平均数分别是( )A .91.5和91.5B .91.5和92C .91和91.5D .92和92答案 A解析 这组数据由小到大排列为87,89,90,91,92,93,94,96, ∴中位数是91+922=91.5,平均数x =87+89+90+91+92+93+94+968=91.5.2.某中学初中部共有110名教师,高中部共有150名教师,其性别比例如图所示,则该校女教师的人数为( )A .93B .123C .137D .167 答案 C解析 由题干扇形统计图可得该校女教师人数为110×70%+150×(1-60%)=137.故选C . 3.若数据x 1,x 2,x 3,…,x n 的平均数为x =5,方差s 2=2,则数据3x 1+1,3x 2+1,3x 3+1,…,3x n +1的平均数和方差分别为( ) A .5,2B .16,2C .16,18D .16,9答案 C解析 ∵x 1,x 2,x 3,…,x n 的平均数为5, ∴x 1+x 2+x 3+…+x n n=5,∴3x 1+3x 2+3x 3+…+3x n n +1=3×5+1=16,∵x 1,x 2,x 3,…,x n 的方差为2,∴3x 1+1,3x 2+1,3x 3+1,…,3x n +1的方差是32×2=18.4.已知变量x 和y 满足关系y ^=-0.1x +1,变量y 与z 正相关.下列结论中正确的是( ) A .x 与y 正相关,x 与z 负相关 B .x 与y 正相关,x 与z 正相关 C .x 与y 负相关,x 与z 负相关 D .x 与y 负相关,x 与z 正相关 答案 C解析 因为y ^=-0.1x +1,-0.1<0,所以x 与y 负相关.又y 与z 正相关,故可设z ^=b ^y+a ^(b ^>0),所以z ^=-0.1b ^x +b ^+a ^,-0.1b ^<0,所以x 与z 负相关.故选C . 5.下面是2×2列联表:则表中a ,b 的值分别为( )A .94,72B .52,50C .52,74D .74,52 答案 C解析 ∵a +21=73,∴a =52.又a +22=b ,∴b =74.6.为了研究某大型超市当天销售额与开业天数的关系,随机抽取了5天,其当天销售额与开业天数的数据如下表所示:根据上表提供的数据,求得y 关于x 的线性回归方程为y ^=0.67x +54.9,由于表中有一个数据模糊看不清,请你推断出该数据的值为( ) A .67 B .68 C .68.3 D .71解析 设表中模糊看不清的数据为m ,因为x =10+20+30+40+505=30,又样本中心点(x ,y )在回归直线y ^=0.67x +54.9上, 所以y =m +3075=0.67×30+54.9,得m =68,故选B . 二、温故知新 夯实基础1.作频率分布直方图的步骤(1)求极差(即一组数据中最大值与最小值的差). (2)决定组距与组数. (3)将数据分组. (4)列频率分布表. (5)画频率分布直方图.2.频率分布折线图和总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.(2)总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.3.茎叶图统计中还有一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶就是从茎的旁边生长出来的数.4.标准差和方差(1)标准差是样本数据到平均数的一种平均距离. (2)标准差: s =1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2]. (3)方差:s 2=1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2](x n 是样本数据,n 是样本容量,x 是样本平均数).5.两个变量的线性相关(1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.6.回归方程(1)最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法. (2)回归方程方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数.⎩⎨⎧b ^=∑n i =1(x i-x )(y i-y )∑ni =1(x i-x )2=∑ni =1x i y i -n x y ∑n i =1x 2i-n x2,a ^=y -b ^x .7.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x ,y )称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.8.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表构造一个随机变量K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d为样本容量.(3)独立性检验利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.三、典例剖析思维拓展考点一频率分布直方图的绘制与应用1、某市居民用水拟实行阶梯水价,每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?(2)假设同组中的每个数据用该组区间的右端点值代替.当w=3时,估计该市居民该月的人均水费.解(1)如图所示,用水量在[0.5,3)的频率的和为(0.2+0.3+0.4+0.5+0.3)×0.5=0.85.∴用水量小于等于3立方米的频率为0.85,又w为整数,∴为使80%以上的居民在该月的用水价格为4元/立方米,w至少定为3.(2)当w=3时,该市居民该月的人均水费估计为(0.1×1+0.15×1.5+0.2×2+0.25×2.5+0.15×3)×4+0.15×3×4+[0.05×(3.5-3)+0.05×(4-3)+0.05×(4.5-3)]×10=7.2+1.8+1.5=10.5(元).即该市居民该月的人均水费估计为10.5元.考点二茎叶图的应用1、为比较甲、乙两地某月14时的气温情况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:①甲地该月14时的平均气温低于乙地该月14时的平均气温; ②甲地该月14时的平均气温高于乙地该月14时的平均气温; ③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差; ④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差. 其中根据茎叶图能得到的统计结论的编号为( ) A .①③ B .①④ C .②③ D .②④ 答案 B解析 (1)甲地5天的气温为26,28,29,31,31, 其平均数为x 甲=26+28+29+31+315=29;方差为s 2甲=15[(26-29)2+(28-29)2+(29-29)2+(31-29)2+(31-29)2]=3.6;标准差为s 甲= 3.6.乙地5天的气温为28,29,30,31,32,其平均数为x 乙=28+29+30+31+325=30;方差为s 2乙=15[(28-30)2+(29-30)2+(30-30)2+(31-30)2+(32-30)2]=2;标准差为s 乙= 2. ∴x 甲<x 乙,s 甲>s 乙.考点三 用样本的数字特征估计总体的数字特征1、抽样统计甲、乙两位射击运动员的5次训练成绩(单位:环),结果如下:则成绩较为稳定(方差较小)的那位运动员成绩的方差为________. 答案 2解析 x 甲=15(87+91+90+89+93)=90,x 乙=15(89+90+91+88+92)=90,s 2甲=15[(87-90)2+(91-90)2+(90-90)2+(89-90)2+(93-90)2]=4, s 2乙=15[(89-90)2+(90-90)2+(91-90)2+(88-90)2+(92-90)2]=2. 考点四 相关关系的判断1、四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得线性回归方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423;②y 与x 负相关且y ^=-3.476x +5.648;③y 与x 正相关且y ^=5.437x +8.493;④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④ D .①④答案 D解析 由线性回归方程y ^=b ^x +a ^知当b ^>0时,y 与x 正相关,当b ^<0时,y 与x 负相关,∴①④一定错误.考点五 线性回归分析1、下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码17分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17(y i -y )2=0.55,7≈2.646.参考公式:相关系数r =∑i =1n(t i -t )(y i -y )∑i =1n(t i -t )2∑i =1n(y i -y )2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:b ^=∑i =1n(t i -t )(y i -y )∑i =1n(t i -t )2,a ^=y -b ^t .解 (1)由折线图中数据和附注中参考数据得 t =4,∑i =17(t i -t )2=28,∑i =17y i -y2=0.55.∑i =17 (t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32=2.89,所以r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b ^=∑i =17(t i -t )(y i -y )∑i =17(t i -t )2=2.8928≈0.103, a ^=y -b ^t ≈1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y ^=0.92+0.10t .将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨.考点六 独立性检验1、某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革的关系,随机抽取了100名员工进行调查,其中支持企业改革的调查者中,工作积极的有46人,工作一般的有35人,而不太赞成企业改革的调查者中,工作积极的有4人,工作一般的有15人. (1)根据以上数据建立一个2×2列联表;(2)对于人力资源部的研究项目,根据以上数据是否可以认为企业的全体员工对待企业改革。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

统计与统计案例(文科)统计与统计案例第一节随机抽样1.下面的抽样方法是简单随机抽样的是( )A.在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方式确定号码的后四位为2709的为三等奖B.某车间包装一种产品,在自动包装的传送带上,每隔30分钟抽一包产品,称其重量是否合格C.某学校分别从行政人员、教师、后勤人员中抽取2人、14人、4人了解对学校机构改革的意见D.用抽签方法从10件产品中选取3件进行质量检验答案:D2.总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )答案:D3.为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为( )A.50 B.40 C.25 D.20答案: C4.某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( ) A.11 B.12 C.13 D.14答案:B5.在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________.答案:46.某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( )A.90 B.100C.180 D.300答案:C7.某校高一年级有900名学生,其中女生400名,按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为________.答案:58.某工厂生产甲、乙、丙三种型号的产品,产品数量之比为3∶5∶7,现用分层抽样的方法抽出容量为n的样本,其中甲种产品有18件,则样本容量n=()A.54 B.90 C.45 D.126答案:B9.某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人).个兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a的值为________.答案:3010.甲、乙两套设备生产的同类型产品共4 800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为________件.答案:180011.某市有A、B、C三所学校,共有高三文科学生1 500人,且A、B、C三所学校的高三文科学生人数成等差数列,在三月进行全市联考后,准备用分层抽样的方法从所有高三文科学生中抽取容量为120的样本,进行成绩分析,则应从B校学生中抽取________人.答案:40第二节用样本估计总体12.根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关答案: D13.某电子商务公司对10 000名网络购物者2014年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示.①直方图中的a=________;②在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为________.答案:①3 ②6 00014.某地政府调查了工薪阶层1 000人的月工资收入,并根据调查结果画出如图所示的频率分布直方图,为了了解工薪阶层对月工资收入的满意程度,要用分层抽样的方法从调查的1 000人中抽出100人做电话询访,则(30,35](百元)月工资收入段应抽出________人.答案:1515.某学校随机抽取20个班,调查各班中有网上购物经历的人数,所得数据的茎叶图如图所示.以组距为5将数据分组成[0,5),[5,10),…,[30,35),[35,40]时,所作的频率分布直方图是( )答案:A16.某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:①分别估计该市的市民对甲、乙两部门评分的中位数; ②分别估计该市的市民对甲、乙两部门的评分高于90的概率; ③根据茎叶图分析该市的市民对甲、乙两部门的评价.答案:①由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为66+682=67,所以该市的市民对乙部门评分的中位数的估计值是67. ②由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为550=0.1,850=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.③由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大. 17.某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.(1)求直方图中x 的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?答案:(1)由(0.002+0.009 5+0.011+0.012 5+x +0.005+0.002 5)×20=1得x =0.007 5,∴直方图中x 的值为0.007 5.(2)月平均用电量的众数是220+2402=230.∵(0.002+0.009 5+0.011)×20=0.45<0.5,∴月平均用电量的中位数在[220,240)内,设中位数为a ,则(0.002+0.009 5+0.011)×20+0.012 5×(a -220)=0.5,解得a =224,即中位数为224.(3)月平均用电量在[220,240)的用户有0.012 5×20×100=25(户),同理可求月平均用电量为[240,260),[260,280),[280,300)的用户分别有15户、10户、5户,故抽取比例为1125+15+10+5=15,∴从月平均用电量在[220,240)的用户中应抽取25×1=5(户).518.重庆市2013年各月的平均气温(℃)数据的茎叶图如下图,则这组数据的中位数是( )A.19 B.20 C.21.5 D.23答案:B19.为比较甲、乙两地某月14时的气温情况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:①甲地该月14时的平均气温低于乙地该月14时的平均气温;②甲地该月14时的平均气温高于乙地该月14时的平均气温;③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.其中根据茎叶图能得到的统计结论的编号为( )A.①③ B.①④ C.②③ D.②④答案:B20.甲、乙、丙、丁四人参加某运动会射击项目选拔赛,四人的平均成绩和方差如下表所示:甲乙丙丁平均环数x8.38.88.88.7方差s2 3.5 3.6 2.2 5.4A.甲 B.乙 C.丙 D.丁答案:C第三节变量间的相关关系、统计案例1.判断下列结论的正误.(正确的打“√”,错误的打“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( )(2)利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系去表示.( )(3)通过回归方程y ^=b ^x +a ^可以估计和观测变量的取值和变化趋势.( ) (4)任何一组数据都对应着一个回归直线方程.( )(5)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( ) 答案:(1)× (2)√ (3)√ (4)× (5)√ 2.观察下列各图:其中两个变量x ,y 具有相关关系的图是( ) A .①② B .①④ C .③④ D .②③ 解析:选C 由散点图知③④具有相关关系.3.已知x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y ^=0.95x +a ,则a =( )x 0 1 3 4 y2.24.34.86.7A.3.25 B .2.6 C .解析:选B 由已知得x =2,y =4.5,因为回归方程经过点(x ,y ),所以a =4.5-0.95×2=2.6.4.若回归直线方程为y ^=2-1.5x ,则变量x 增加一个单位,y ( )A .平均增加1.5个单位B .平均增加2个单位C .平均减少1.5个单位D .平均减少2个单位解析:选 C 因为回归直线方程为y ^=2-1.5x ,所以b ^=-1.5,则变量x 增加一个单位,y 平均减少1.5个单位.5.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )A .若K 2的观测值为k =6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病B .从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,我们说某人吸烟,那么他有99%的可能患有肺病C .若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误D .以上三种说法都不正确解析:选C 根据独立性检验的思想知C 项正确.6.下列四个散点图中,变量x 与y 之间具有负的线性相关关系的是( )答案:D7.为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x 轴、y 轴的单位长度相同),用回归直线方程y ^=bx +a 近似地刻画其相关关系,根据图形,以下结论最有可能成立的是( )A .线性相关关系较强,b 的值为1.25B .线性相关关系较强,b 的值为0.83C .线性相关关系较强,b 的值为-0.87D .线性相关关系较弱,无研究价值 答案:B8.已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关 答案: C9.某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的回归直线方程y =b x +a ; (2)利用(1)中所求出的回归直线方程预测该地2016年的粮食需求量.解:(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来配回归直线方程,为此对数据预处理如下:x =0,y =3.2,b ^=(-4)×(-21)+(-2)×(-11)+2×19+4×29-5×0×3.2(-4)2+(-2)2+22+42-5×02=26040=6.5, a ^=y -b ^x =3.2.由上述计算结果,知所求回归直线方程为 y ^-257=b ^(x -2010)+a ^=6.5(x -2010)+3.2, 即y ^=6.5(x -2010)+260.2.(*)(2)利用回归直线方程(*),可预测2016年的粮食需求量为6.5(2016-2010)+260.2=6.5×6+260.2=299.2(万吨).10.某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩平均分(采用百分制),剔除平均分在40分以下的学生后,共有男生300名,女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生成绩分为6组,得到如下所示频数分布表.精品资料仅供学习与交流,如有侵权请联系网站删除 谢谢11看,数学成绩与性别是否有关;(2)规定80分以上为优分(含80分),请你根据已知条件作出2×2列联表,并判断是否有90%以上的把握认为“数学成绩与性别有关”.附表及公式K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )[听前试做](1)x 男=45×0.05+55×0.15+65×0.3+75×0.25+85×0.1+95×0.15=71.5,x女=45×0.15+55×0.1+65×0.125+75×0.25+85×0.325+95×0.05=71.5,从男、女生各自的平均分来看,并不能判断数学成绩与性别有关.(2)由频数分布表可知:在抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:可得K 2=100×(15×25-15×45)260×40×30×70≈1.79,因为1.79<2.706,所以没有90%以上的把握认为“数学成绩与性别有关”.。

相关文档
最新文档