高三理科数学一轮总复习第十三章 统计案例
高考数学大一轮复习 第十章 统计、统计案例 理 北师大版

【高考领航】2017届高考数学大一轮复习 第十章 统计、统计案例 理 北师大版1.理解随机抽样的必要性和重要性. 2.会用简单随机抽样方法从总体中抽取样本. 3.了解分层抽样和系统抽样方法.1.抽样调查及相关概念通常情况下,从调查对象中按照一定的方法抽取一部分,进行调查或观测,获取数据,并以此对调查对象的某项指标作出推断,这就是抽样调查.其中,调查对象的全体称为总体,被抽取的一部分称为样本.2.简单随机抽样(1)定义:设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n ≤N ),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法. 3.分层抽样(1)定义:将总体按其属性特征分成若干类型,然后在每个类型中按照所占比例随机抽取一定的样本,这种抽样方法通常叫作分层抽样. (2)分层抽样的应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样. 4.系统抽样(1)系统抽样是将总体的个体进行编号,按照简单随机抽样抽取第一个样本,然后按相同的间隔抽取其他样本. 系统抽样又叫等距抽样或机械抽样. (2)系统抽样的步骤①先将总体的N 个个体编号,有时可直接利用个体自身所带的号码,如学号、准考证号、门牌号等; ②确定分段间隔k ,对编号进行分段,当N n (n 是样本容量)是整数时,取k =N n; ③在第1段用简单随机抽样确定第一个个体编号l (l ≤k );④按照一定的规则抽取样本.通常是将l 加上间隔k 得到第2个个体编号(l +k ),再加k 得到第3个个体编号(l +2k ),依次进行下去,直到获取整个样本.[基础自测]1.(教材改编题)某公司有员工500人,其中不到35岁的有125人,35~49岁的有280人,50岁以上的有95人,为了调查员工的身体健康状况,从中抽取100名员工,则应在这三个年龄段分别抽取人数为( )A .33个,34人,33人B .25人,56人,19人C.30人,40人,30人D.30人,50人,20人解析:因为125∶280∶95=25∶56∶19,所以抽取人数分别为:25人,56人,19人.答案:B2.(2016·抚顺质检)为了了解全校240名学生的身高情况,从中抽取40名学生进行测量,下列说法正确的是( )A.总体是240 B.个体是每一个学生C.样本是40名学生D.样本容量是40解析:总体容量是240,总体是240名学生的身高;个体是每名学生的身高;样本是40名学生的身高;样本容量是40.答案:D3.老师在班级50名学生中,依次抽取学号为5,10,15,20,25,30,35,40,45,50的学生进行作业检查,这种抽样方法是( )A.随机抽样B.分层抽样C.系统抽样D.以上都不是解析:因为所抽取学生的学号成等差数列,即为等距离抽样,属于系统抽样.答案:C4.一支田径队有男运动员48人,女运动员36人,若用分层抽样的方法从该队的全体运动员中抽取一个容量为21的样本,则抽取男运动员的个数为________.解析:抽取男运动员的人数为2148+36×48=12.答案:125.若总体中含有1 650个个体,现在要采用系统抽样法,从中抽取一个容量为35的样本,分段时应从总体中随机剔除________个个体,编号后应均分为________段,每段有________个个体.解析:计算1 650除以35的余数,可知商为47,余数为5,所以采用系统抽样首先要从总体中随机剔除5个个体,由于抽取的样本容量为35,所以编号后应均分为35段,每段有47个个体.答案:5 35 47考点一简单随机抽样[例1] 某大学为了支持亚运会,从报名的24名大三学生中选6人组成志愿小组,请用抽签法和随机数法设计抽样方案.审题视点考虑到总体的个数较少,利用抽签法和随机数法可容易地获取样本,须按这两种抽样方法的操作步骤进行.抽签法应“编号、制签、搅匀、抽取”,随机数法应“编号、确定起始数、读数、取得样本”.解抽签法:第一步:将24名志愿者编号,编号为1,2,3, (24)第二步:将24个号码分别写在24张外形完全相同的纸条上,并揉成团,制成号签;第三步:将24个号签放入一个不透明的盒子中,充分搅匀;第四步:从盒子中逐个抽取6个号签,并记录上面的编号;第五步:所得号码对应的志愿者,就是志愿小组的成员.随机数法:第一步:将24名学生编号,编号为01,02,03, (24)第二步:在随机数表中任选一数开始,按某一确定方向选取两列组成两位数;第三步:凡不在01~24中的数或重复出现的数,都不能选取,依次选取即可得到6个样本的编号;第四步:所得号码对应的志愿者,就是志愿小组的成员.(1)一个抽样试验能否用抽签法,关键看两点:一是抽签是否方便;二是号签是否易搅匀,一般地,当总体容量和样本容量都较小时可用抽签法.(2)随机数表中共随机出现0,1,2,…,9十个数字,也就是说,在表中的每个位置上出现各个数字的机会都是相等的.在使用随机数表时,如遇到三位数或四位数时,可从选择的随机数表中的某行某列的数字计起,每三个或每四个作为一个单位,自左向右选取,有超过总体号码或出现重复号码的数字舍去.1.(2016·昆明调研)下列说法中正确说法的个数是( )①总体中的个体数不多时宜用简单随机抽样法;②在总体均分后的每一部分进行抽样时,采用的是简单随机抽样;③百货商场的抓奖活动是抽签法;④整个抽样过程中,每个个体被抽取的概率相等(有剔除时例外).A.1 B.2C.3 D.4解析:①②③显然正确,系统抽样无论有无剔除都是等概率抽样;④不正确.答案:C2.某车间工人加工一种轴100件,为了了解这种轴的直径,要从中抽取10件在同一条件下测量,如何采用简单随机抽样的方法抽取样本?解:法一:抽签法:将100件轴编号为1,2,…,100,并制成大小、形状相同的号签,分别写上这100个数,将这些号签放在同一个箱子里,进行均匀搅拌,接着连续抽取10个号签,然后测量这10个号签对应的轴的直径.法二:随机数法:将100件轴编号为00,01,…99,在随机数表中选定一个起始位置,如从第21行第1个数开始,选取10个,为68,34,30,13, 70,55,74,77,40,44,这10件即为所要抽取的样本.考点二系统抽样[例2] 某单位在职职工共624人,为了调查工人用于上班途中的时间,决定抽取10%的工人进行调查,试采用系统抽样方法抽取所需的样本.审题视点由题意应抽取62人,624不是10的整数倍,需先剔除4人,再利用系统抽样完成抽样.解第一步:将624名职工用随机方式进行编号;第二步:从总体中用随机数法剔除4人,将剩下的620名职工重新编号(分别为000,001,002,…,619),并分成62段;第三步:在第1段000,001,002,…009这十个编号中用简单随机抽样确定起始号码为l;第四步:将编号为l,l+10,l+20,…,l+610的个体抽出,组成样本.(1)系统抽样的特点——机械抽样,又称等距抽样,所以依次抽取的样本对应的号码就是一个等差数列,首项就是第1组所抽取样本的号码,公差为间隔数,根据等差数列的通项公式就可以确定每一组内所要抽取的样本号码.(2)系统抽样时,如果总体中的个数不能被样本容量整除时,可以先用简单随机抽样从总体中剔除几个个体,然后再按系统抽样进行.1.(2015·高考湖南卷)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是( ) A.3 B.4C.5 D.6解析:因为35÷7=5,因此可将编号为1~35的35个数据分成7组,每组有5个数据,在区间[139,151]上共有20个数据,分在4个小组中,每组取1人,共取4人.答案:B2.某校高一、高二、高三分别有学生人数为495,493,482,现采用系统抽样方法,抽取49人做问卷调查,将高一、高二、高三学生依次随机按1,2,3,…,1 470编号,若第1组用简单随机抽样方法抽取的号码为23,则高二应抽取的学生人数为( ) A.15 B.16C.17 D.18解析:由系统抽样方法,知按编号依次每30个编号作为一组,共分49组,高二学生的编号为496到988,在第17组到第33组内,第17组抽取的编号为16×30+23=503,为高二学生,第33组抽取的编号为32×30+23=983,为高二学生,故共抽取高二学生人数为33-16=17.答案:C考点三分层抽样[例3] 某地区有小学150所,中学75所,大学25所.现采用分层抽样的方法从这些学校中抽取30所学校对学生进行视力调查,应从小学中抽取________所学校,中学中抽取________所学校.审题视点先求出样本抽取的比例,再逐个求解解析应从小学中抽取150150+75+25×30=18(所).应从中学中抽取75150+75+25×30=9(所).答案 18 9分层抽样的操作步骤及特点 (1)操作步骤①将总体按一定标准进行分层;②计算各层的个体数与总体数的比,按各层个体数占总体数的比确定各层应抽取的样本容量; ③在每一层进行抽样(可用简单随机抽样或系统抽样). (2)特点①适用于总体由差异明显的几部分组成的情况; ②更充分地反映了总体的情况;③等可能抽样,每个个体被抽到的可能性都是n N.1.(2015·高考北京卷)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( )A.90 B .100 C .180D .300解析:设该样本中的老年教师人数为x ,由题意得x 900=3201 600,故x =180.答案:C2.(2015·高考福建卷)某校高一年级有900名学生,其中女生400名.按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为________.解析:男生人数为900-400=500(人),设男生应抽取x 人,则有45900=x500,解得x =25.答案:25分层抽样的易错点[典例] 某个年级有男生560人,女生420人,用分层抽样的方法从该年级全体学生中抽取一个容量为280的样本,则此样本中男生人数为________.解题指南 由男生和女生的总人数和样本容量可得分层抽样的比例,进而可得男生的入样人数. 解析 男生人数为560×280560+420=160.答案 160阅卷点评 (1)不能正确确定抽样比例从而导致失误. (2)在求解过程中计算失误.备考建议 解决随机抽样问题时,还有以下几点容易造成失误,在备考时要高度关注: (1)熟练掌握各种抽样方法的步骤和适用条件;(2)系统抽样中各段入样的个体编号成等差数列,公差即每段的个体数;(3)分层抽样中各层所占的比例要确定准确.另外,某些情况下还需先剔除若干个体,注意剔除个体的等可能性.◆一条规律三种抽样方法的共同点都是等概率抽样,即抽样过程中每个个体被抽到的概率相等,体现了这三种抽样方法的客观性和公平性.若样本容量为n ,总体的个体数为N ,则用这三种方法抽样时,每个个体被抽到的概率都是n N.◆三个特点(1)简单随机抽样的特点:总体中的个体性质相似,无明显层次;总体容量较小,尤其是样本容量较小;用简单随机抽样法抽出的个体带有随机性,个体间无固定间距.(2)系统抽样的特点:适用于元素个数很多且均衡的总体;各个个体被抽到的机会均等;总体分组后,在起始部分抽样时,采用简单随机抽样.(3)分层抽样的特点:适用于总体由差异明显的几部分组成的情况;分层后,在每一层抽样时可采用简单随机抽样或系统抽样.课时规范训练 [A 级 基础演练]1.(2015·高考四川卷)某学校为了了解三年级、六年级、九年级这三个年级之间的学生视力是否存在显著差异,拟从这三个年级中按人数比例抽取部分学生进行调查,则最合理的抽样方法是( )A .抽签法B .系统抽样法C .分层抽样法D .随机数法解析:根据年级不同产生差异及按人数比例抽取易知应为分层抽样法. 答案:C2.(2016·浙江杭州模拟)某校150名教职员工中,有老年人20名,中年人50名,青年人80名,从中抽取30名作为样本. ①采用随机抽样法:抽签取出30个样本;②采用系统抽样法:将教职工编号为00,01,…,149,然后平均分组抽取30个样本; ③采用分层抽样法:从老年人、中年人、青年人中抽取30个样本. 下列说法中正确的是( )A .无论采用哪种方法,这150名教职工中每个人被抽到的概率都相等B .①②两种抽样方法,这150名教职工中每个人被抽到的概率都相等;③并非如此C .①③两种抽样方法,这150名教职工中每个人被抽到的概率都相等;②并非如此D .采用不同的抽样方法,这150名教职工中每个人被抽到的概率是各不相同的 解析:三种抽样方法中,每个人被抽到的概率都等于30150=15,故选A.答案:A3.(2014·高考湖南卷)对一个容量为N 的总体抽取容量为n 的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p 1,p 2,p 3,则( )A .p 1=p 2<p 3B .p 2=p 3<p 1C .p 1=p 3<p 2D .p 1=p 2=p 3解析:根据三种抽样方法的特征求解.由于三种抽样过程中,每个个体被抽到的概率都是相等的,因此p 1=p 2=p 3. 答案:D4.课题组进行城市空气质量调查,按地域把24个城市分成甲、乙、丙三组,对应的城市数分别为4,12,8,若用分层抽样抽取6个城市,则丙组中应抽取的城市数为________.解析:设两组中应抽取的城市数为x ,由分层抽样的性质可知824=x6,∴x =2.答案:25.(2014·高考天津卷)某大学为了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查,已知该校一年级、二年级、三年级、四年级的本科生人数之比为4∶5∶5∶6,则应从一年级本科生中抽取________名学生.解析:根据题意,应从一年级本科生中抽取的人数为44+5+5+6×300=60.答案:606.(2016·兰州模拟)最近网络上流行一种“QQ 农场游戏”,这种游戏通过虚拟软件模拟种植与收获的过程.为了了解本班学生对此游戏的态度,高三(6)班计划在全班60人中展开调查,根据调查结果,班主任计划采用系统抽样的方法抽取若干名学生进行座谈,对此先对60名学生进行编号为:01,02,03,…,60,已知抽取的学生中最小的两个编号为03,09,则抽取的学生中最大的编号为________.解析:由最小的两个编号为03,09可知,抽取人数的比例为16,即抽取10名同学,其编号构成首项为3,公差为6的等差数列,故最大编号为3+9×6=57.答案:577.(2016·沈阳质检)某学校的三个学生社团的人数分布如下表(每名学生只能参加一个社团):18人,结果拳击社被抽出了6人. (1)求拳击社女生有多少人;(2)从围棋社指定的3名男生和2名女生中随机选出2人参加围棋比赛,求这2名同学是一名男生和一名女生的概率. 解:(1)由于按分层抽样的方法从三个社团成员中抽取18人,拳击社被抽出了6人, ∴628+m =1820+40+28+m,∴m =2. (2)指定3男生记为A 1,A 2,A 3,2女生记为B 1,B 2,选取2人有A 1A 2,A 1A 3,A 2A 3,B 1B 2,A 1B 1,A 1B 2,A 2B 1,A 2B 2,A 3B 1,A 3B 2共10种选法,其中一男一女有6种选法,故设A 为“这2名同学是一名男生和一名女生”,则P (A )=610=35.8.海关对同时从A ,B ,C 三个不同地区进口的某种商品进行抽样检测,从各地区进口此种商品的数量(单位:件)如下表所示.工作人员用分层抽样的方法从这些商品中共抽取6件样品进行检测.(1)求这6件样品中来自A ,B ,C (2)若在这6件样品中随机抽取2件送往甲机构进行进一步检测,求这2件商品来自相同地区的概率. 解:(1)因为样本容量与总体中的个体数的比是 650+150+100=150,所以样本中包含三个地区的个体数量分别是: 50×150=1,150×150=3,100×150=2.所以A ,B ,C 三个地区的商品被选取的件数分别为1,3,2.(2)设6件来自A ,B ,C 三个地区的样品分别为:A ;B 1,B 2,B 3;C 1,C 2.则从6件样品中抽取的这2件商品构成的所有基本事件为:{A ,B 1},{A ,B 2},{A ,B 3},{A ,C 1},{A ,C 2},{B 1,B 2},{B 1,B 3},{B 1,C 1},{B 1,C 2},{B 2,B 3},{B 2,C 1},{B 2,C 2},{B 3,C 1},{B 3,C 2},{C 1,C 2},共15个.每个样品被抽到的机会均等,因此这些基本事件的出现是等可能的.记事件D :“抽取的这2件商品来自相同地区”,则事件D 包含的基本事件有:{B 1,B 2},{B 1,B 3},{B 2,B 3},{C 1,C 2},共4个. 所以P (D )=415,即这2件商品来自相同地区的概率为415.[B 级 能力突破]1.为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女视力情况差异不大.在下面的抽样方法中,最合理的抽样方法是( )A .简单随机抽样B .按性别分层抽样C .按学段分层抽样D .系统抽样解析:由于三个学段学生的视力情况差别较大,故需按学段分层抽样. 答案:C2.某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( )A .11B .12C .13D .14解析:抽样间隔为84042=20.设在1,2,…,20中抽取号码x 0(x 0∈[1,20]),在[481,720]之间抽取的号码记为20k +x 0,则481≤20k +x 0≤720,k ∈N +.∴24120≤k +x 020≤36.∵x 020∈⎣⎢⎡⎦⎥⎤120,1,∴k =24,25,26,…,35, ∴k 值共有35-24+1=12(个),即所求人数为12. 答案:B3.(2016·鄂州模拟)一个总体共有600个个体,随机编号为001,002,…,600.现采用系统抽样的方法抽取一个容量为50的样本,且随机抽得的号码为003.这600个个体分三组,从001到300在第一组,从301到495在第2组,从496到600在第3组,则这三组抽中的个数依次为( )A .25,16,9B .25,18,7C .25,17,8D .25,19,6解析:按照系统抽样,间隔为60050=12.∵随机号码为003,∴被抽出的个体编号为12k +3,所以在001~300间抽出25个个体,从301到495间抽出17个个体,在496~600间抽出8个个体. 答案:C4.甲、乙两套设备生产的同类型产品共4 800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为________件.解析:设乙设备生产的产品总数为x 件,则甲设备生产的产品总数为(4 800-x )件.由分层抽样特点,结合题意可得5080=4 800-x4 800,解得x =1 800(件).答案:1 8005.(2016·黄冈模拟)一个社会调查机构就某地居民的月收入调查了10 000人,并根据所得数据画了样本的频率分布直方图(如图).为了分析居民的收入与年龄、学历、职业等方面的关系,要从这10 000人中再用分层抽样方法抽出100人进一步调查,则在[2 500,3 000)元/月收入段应抽出________人.解析:收入在[2 500,3 000)元/月的人占总数的频率为(3 000-2 500)×0.0005=0.25,故应抽出100×0.25=25(人). 答案:256.某校初一、初二、初三三班各有300人,400人,302人,取系统抽样从中抽取一个容量为100的样本检查学生的视力情况,则初三年级每人被抽到的概率为( )A.3021 002 B.1001 002 C.3001 000D.30302解析:利用系统抽样,虽然剔除2人,但每人能抽到的概率为n N =1001002.答案:B7.(2016·衡水中学一模)已知某中学高三文科班学生共有800人参加了数学与地理的水平测试,学校决定利用随机数表法从中抽取100人进行成绩抽样调查,先将800人按001,002,…,800进行编号.(1)如果从第8行第7列的数开始向右读,请你依次写出最先检查的3个人的编号;(下面摘取了第7行到第9行) 84 42 17 53 31 57 24 55 06 88 77 04 74 47 67 21 76 33 50 25 83 92 12 06 76(第7行)63 01 63 78 59 16 95 56 67 19 98 10 50 71 75 12 86 73 58 07 44 39 52 38 79(第8行)33 21 12 34 29 78 64 56 07 82 52 42 07 44 38 15 51 00 13 42 99 66 02 79 54(第9行)(2)抽取的100人的数学与地理的水平测试成绩如下表:20+18+4=42人.①若在该样本中,数学成绩优秀率是30%,求a ,b 的值;②在地理成绩及格的学生中,已知a ≥10,b ≥8,求数学成绩优秀的人数比及格的人数少的概率.解:(1)从第8行第7列的数开始向右读,依次检查的编号分别为785,916(舍),955(舍),667,199,….故最先检查的3个人的编号为785,667,199.(2)①7+9+a 100=30%,∴a =14,b =100-30-(20+18+4)-(5+6)=17. ②a +b =100-(7+20+5)-(9+18+6)-4=31.∵a ≥10,b ≥8,∴a ,b 的搭配为(10,21),(11,20),(12,19),(13,18),(14,17),(15,16),(16,15),(17,14),(18,13),(19,12),(20,11),(21,10),(22,9),(23,8),共14种.记a ≥10,b ≥8,数学成绩优秀的人数比及格的人数少为事件A .则事件A 包括(10,21),(11,20),(12,19),(13,18),(14,17),(15,16),共6个基本事件. ∴P (A )=614=37,∴数学成绩优秀的人数比及格的人数少的概率为37.第2课时 统计图表、 数据的数字特征及用样本估计总体1.了解分布的意义和作用,会列频率分布表、会画频率分布直方图、频率折线图、茎叶图,理解它们各自的特点. 2.理解样本数据标准差的意义和作用,会计算数据标准差.3.能从样本数据中提取基本的数字特征(如平均数、标准差),并给出合理的解释.4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想. 5.会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.1.统计图表统计图是表达和分析数据的重要工具,常用的统计图表有频率分布直方图、扇形统计图、折线统计图、茎叶图等. 2.用样本的数字特征估计总体的数字特征 (1)众数、中位数、平均数众数:在一组数据中,出现次数最多的数据叫作这组数据的众数.中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫作这组数据的中位数. 平均数:样本数据的算术平均数.即x =1n(x 1+x 2+…+x n )在频率分布直方图中,中位数左边和右边的直方图的面积应该相等.(2)样本方差、标准差 标准差s =1nx 1-x2+x 2-x2+…+x n -x2],其中x n 是样本数据的第n 项,n 是样本容量,x 是平均数.标准差是反映总体波动大小的特征数,样本方差是标准差的平方.通常用样本方差估计总体方差,当样本容量接近总体容量时,样本方差很接近总体方差.3.用样本估计总体(1)我们对总体作出的估计一般分成两种.一种是用样本的频率分布估计总体的分布.另一种是用样本的数字特征估计总体的数字特征. (2)在频率分布直方图中,纵轴表示频率组距,数据落在各小组内的频率用各小长方形的面积表示,各小长方形的面积总和等于1.(3)连结频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.随着样本容量的增加,作图时所分的组数增加,相应的频率分布折线图就会越来越接近于一条光滑的曲线,统计中称之为总体密度曲线,它能够更加精确地反映出总体在各个范围内取值的百分比.[基础自测]1.(教材改编题)某工厂生产滚珠,从某批产品中随机抽取8粒,量得直径分别为(单位:mm):14.7,14.6,15.1,15.0,14.8,15.1,15.0,14.9,则估计该厂生产的滚珠直径的平均数为( )A .14.8 mmB .14.9 mmC .15.0 mmD .15.1 mm解析:平均数x =18(14.7+14.6+15.1+15.0+14.8+15.1+15.0+14.9)=14.9(mm).答案:B2.(2016·合肥月考)一个容量为100的样本,其数据的分组与各组的频数如下:则样本数据落在A .0.13B .0.39C .0.52D .0.64解析:由列表可知样本数据落在(10,40]上的频数52. 故其频率为0.52. 答案:C3.某赛季,甲、乙两名篮球运动员都参加了11场比赛,他们每场比赛得分的情况用如图所示的茎叶图表示,则甲、乙两名运动员的中位数分别为________.解析:根据中位数的含义及茎叶图可知,甲的中位数是19,乙的中位数是13. 答案:19、134.已知一个样本为:1,3,4,a,7.它的平均数是4,则这个样本的标准差是________. 解析:由平均数是4,得1+3+4+a +75=4,∴a =5,代入标准差的计算公式得s =2. 答案:2考点一 频率分布直方图的绘制与应用[例1] 对某电子元件进行寿命追踪调查,情况如下:(1)列出频率分布表; (2)画出频率分布直方图;(3)估计电子元件寿命在[100,400)h 以内的概率; (4)估计电子元件寿命在400 h 以上的概率.审题视点 分组及频数统计题中已给出,只需列表画图即可,解答(3)(4)可用频率代替概率.解(1)频率分布表如下:(2)频率分布直方图如下:(3)由频率分布表和频率分布直方图可得,寿命在[100,400)h内的电子元件出现的频率为0.10+0.15+0.40=0.65,所以我们估计电子元件寿命在[100,400)h内的概率为0.65.(4)由频率分布表可知,寿命在400 h以上的电子元件出现的频率为0.20+0.15=0.35,故我们估计电子元件寿命在400 h以上的概率为0.35.用频率分布直方图解决相关问题时,应正确理解图表中各个量的意义,识图掌握信息是解决该类问题的关键.频率分布直方图有以下几个要点:(1)纵轴表示频率/组距;(2)频率分布直方图中各长方形高的比也就是其频率之比;(3)直方图中每一个矩形的面积是样本数据落在这个区间上的频率,所有的小矩形的面积之和等于1,即频率之和为1.1.(2016·厦门质检)某工厂对一批产品进行了抽样检测,如图是根据抽样检测后的产品净重(单位:克)数据绘制的频率分布直方图,其中产品净重的范围是[96,106],样本数据分组为[96,98),[98,100),[100,102),[102,104),[104,106],已知样本中产品净重小于100克的个数是36,则样本中净重大于或等于98克并且小于104克的产品的个数是( )A.90 B.75C.60 D.45。
2020高考理科数学一轮复习题第九篇统计与统计案例(必修3、选修1-2)第3节【变量的相关性与统计案例】

2020高考理科数学一轮复习题第九篇统计与统计案例(必修3、选修1-2)第3节【变量的相关性与统计案例】【选题明细表】知识点、方法题号变量的相关性1,3回归分析4,6,8,12,13独立性检验2,5,7,11,14综合应用9,10基础巩固(时间:30分钟)1.对变量x,y有观测数据(xi ,yi)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据(ui ,vi)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断(C)(A)变量x与y正相关,u与v正相关(B)变量x与y正相关,u与v负相关(C)变量x与y负相关,u与v正相关(D)变量x与y负相关,u与v负相关解析:由图(1)可知,各点整体呈递减趋势,x与y负相关;由图(2)可知,各点整体呈递增趋势,u与v正相关.故选C.2.(2018·湖南邵阳联考)假设有两个分类变量X和Y的2×2列联表为YX y1y2总计x1a10a+10x2c30c+30总计6040100对同一样本,以下数据能说明X与Y有关系的可能性最大的一组为(A)(A)a=45,c=15(B)a=40,c=20(C)a=35,c=25(D)a=30,c=30解析:由题意可得,当与相差越大,X与Y有关系的可能性越大,分析四组选项,A中的a,c 的值最符合题意,故选A.3.(2018·甘肃模拟)如表是我国某城市在2018年1月份至10月份各月最低温与最高温(℃)的数据一览表.月份12345678910最高温59911172427303121最低温-12-31-271719232510已知该城市的各月最低温与最高温具有相关关系,根据该一览表,则下列结论错误的是(B)(A)最低温与最高温为正相关(B)每月最高温与最低温的平均值在前8个月逐月增加(C)月温差(最高温减最低温)的最大值出现在1月(D)1月至4月的月温差(最高温减最低温)相对于7月至10月,波动性更大解析:根据题意,依次分析选项,A中,该城市的各月最低气温与最高气温具有相关关系,根据数据分析可知最低气温与最高气温为正相关,A正确;B中,由表中数据,每月的最低气温与最高气温的平均值依次为-3.5,3,5,4.5,12,20.5,23, 26.5,28,15.5,在前8个月不是逐月增加的,因此B错误;C中,由表中数据,月温差依次为17,12,8,13,10,7,8,7,6,11,月温差的最大值出现在1月,C正确;D中,根据C中温差的数据可得1月至4月的月温差相对于7月至10月,波动更大,D正确.故选B.4.(2018·贵阳适应)某公司某件产品的定价x与销量y之间的数据统计表如下,根据数据,用最小二乘法得出y与x的线性回归直线方程为=6.5x+17.5,则表格中n的值应为(D)x24568y3040n5070(A)45(B)50(C)55(D)60解析:由题意得,根据题表中的数据可知==5,=,代入回归直线方程可得=6.5×5+17.5⇒n=60,故选D.5.(2018·定兴中学模拟)“真人秀”热潮在我国愈演愈烈,为了了解学生是否喜欢某“真人秀”节目,在某中学随机调查了110名学生,得到如下列联表:男女总计喜欢402060不喜欢203050总计6050110由K2=算得K2=≈7.8.附表:P(K2≥k)0.0500.0100.001k 3.841 6.63510.828参照附表,得到的正确结论是(C)(A)在犯错误的概率不超过0.1%的前提下,认为“喜欢该节目与性别有关”(B)在犯错误的概率不超过0.1%的前提下,认为“喜欢该节目与性别无关”(C)有99%以上的把握认为“喜欢该节目与性别有关”(D)有99%以上的把握认为“喜欢该节目与性别无关”解析:因为7.8<10.828,所以不能在犯错误的概率不超过0.1%的前提下,认为“喜欢该节目与性别有关”;又因为7.8>6.635,所以有99%以上的把握认为“喜欢该节目与性别有关”,故选C.6.(2018·四川南充一诊)已知变量x与变量y之间具有相关关系,并测得如下一组数据:x651012y6532则变量x与y之间的线性回归直线方程可能为(B)(A)=0.7x-2.3(B)=-0.7x+10.3(C)=-10.3x+0.7(D)=10.3x-0.7解析:根据表中数据,得=(6+5+10+12)=,=(6+5+3+2)=4,且变量y随变量x的增大而减小,是负相关,所以,验证=时,=-0.7×+10.3≈4,即回归直线=-0.7x+10.3过样本点的中心(,).故选B.7.(2018·广州模拟)为了判断高中三年级学生选修文理科是否与性别有关,现随机抽取50名学生,得到2×2列联表如下:理科文科总计男131023女72027总计203050已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2=≈4.844,则认为选修文理科与性别有关系出错的可能性约为.解析:由4.844>3.841.故认为选修文理科与性别有关系出错的可能性约为5%.答案:5%8.已知下列表格所示的数据的回归直线方程为=3.8x+,则的值为.x23456y251254257262266解析:由表格可知,==4,==258.由回归直线经过样本点的中心(,),得258=3.8×4+,所以=242.8.答案:242.8能力提升(时间:15分钟)9.(2018·豪洋中学模拟)某研究机构在对具有线性相关的两个变量x和y进行统计分析时,得到如下数据:x4681012y12356由表中数据求得y关于x的回归方程为=0.65x+,则在这些样本点中任取一点,该点落在回归直线下方的概率为(A)(A)(B)(C)(D)解析:因为=8,=3.4,所以3.4=0.65×8+,解得=-1.8,则=0.65x-1.8,可知5个点中落在回归直线下方的有(6,2),(8,3),共有两个,因而所求概率为,故选A.10.已知下列命题:①在线性回归模型中,R2表示解释变量x对于预报变量y的贡献率,R2越接近于1,表示回归效果越好;②两个变量相关性越强,则相关系数的绝对值就越接近于1;③在线性回归方程=-0.5x+2中,当解释变量x每增加一个单位时,预报变量平均减少0.5个单位;④对分类变量X与Y,它们的随机变量K2的观测值k来说,k越小,“X与Y有关系”的把握程度越大.其中正确命题的序号是.解析:由R2的性质可知①正确;由相关系数的性质可知②正确;由线性回归方程中回归截距的几何意义可得③正确;对分类变量X与Y,它们的随机变量K2的观测值k来说,k越小,“X与Y有关系”的把握程度越小,k越大,“X与Y有关系”的把握程度越大,④错误.所以正确命题的序号是①②③.答案:①②③11.在西非肆虐的“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下联表:感染未感染总计服用104050未服用203050总计3070100参考公式:K2=P(K2>k)0.150.100.050.0252.072 2.7063.841 5.024k)0.0100.0050.001P(K2>kk6.6357.87910.828参照附表,在犯错误的概率最多不超过(填百分比)的前提下,可认为“该种疫苗对预防埃博拉病毒感染有效果”.解析:由题意可得,K2的观测值k=≈4.762>3.841,参照附表,可得:在犯错误的概率不超过5%的前提下,认为“该种疫苗对预防埃博拉病毒感染有效果”.答案:5%12.(2018·青岛一模)已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下对应数据:x24568y3040506070根据上表可得回归方程=x+,其中=7,据此估计,当投入10万元广告费时,销售额为万元.解析:由题意可得:==5,==50,线性回归方程过样本点的中心,则50=7×5+,所以=15,线性回归方程为=7x+15,据此估计,当投入10万元广告费时,销售额为=7×10+15=85万元.答案:8513.(2018·漳州二模)合成纤维抽丝工段第一导丝盘速度y对丝的质量很重要,今发现它与电流的周波x有关系,由生产记录得到10对数据,并对数据作了初步处理,得到下面的散点图及一些统计量的值.xi496.1yi168.6(xi -)21.989(yi -)20.244xi yi8364.92(xi -)(yi-)0.674(1)由散点图看出,可用线性回归模型拟合y与x的关系,请用相关系数加以说明;(2)根据表中数据,建立y关于x的回归方程.参考公式:相关系数r=,回归方程=+x中斜率和截距的最小二乘估计公式分别是=,=-.解:(1)根据题意,计算相关系数为r==;所以r2=≈0.936且r>0,故y与x具有很强的正相关关系.(2)依题意,=≈0.34,又=xi=49.61.=yi=16.86,解得=16.86-0.34×49.61≈0;故y关于x的回归直线方程为y=0.34x.14.(2018·厦门一模)为了解学生的课外阅读时间情况,某学校随机抽取了50人进行统计分析,把这50人每天阅读的时间(单位:分钟)绘制成频数分布表,如下表所示:阅读时间[0,20)[20,40)[40,60)[60,80)[80,100)[100,120]人数810121172若把每天阅读时间在60分钟以上(含60分钟)的同学称为“阅读达人”,根据统计结果中男女生阅读达人的数据,制作出如图所示的等高条形图.(1)根据抽样结果估计该校学生的每天平均阅读时间(同一组数据用该区间的中点值作为代表);(2)根据已知条件完成下面的2×2列联表,并判断是否有99%的把握认为“阅读达人”跟性别有关?男生女生总计阅读达人非阅读达人总计附:参考公式:K2=,其中n=a+b+c+d.临界值表:P(K2≥k)0.1000.0500.0100.0012.7063.841 6.63510.828k解:(1)该校学生的每天平均阅读时间为10×+30×+50×+70×+90×+110×=1.6+6+12+15.4+12.6+4.4=52(分).(2)由频数分布表得,“阅读达人”的人数是11+7+2=20人,根据等高条形图作出2×2列联表如下:男生女生总计阅读达人61420非阅读达人181230总计242650计算K2==≈4.327,由于4.327<6.635,故没有99%的把握认为“阅读达人”跟性别有关.。
高考数学第一轮章节复习课件 第十章 统计、统计案例

图、频率折线图、茎叶图,理 1.以实际问题为
解它们各自的特点.
载体,考查用
2.理解样本数据标准差的意义和 样本的频率分
作用,会计算标准差.
布估计总体分
3.能从样本数据中提取基本的数 布.用样本的数
字特征(如平均数、标准差),并 字特征估计总
给出合理的解释.
体的数字特征,
4.会用样本的频率分布估计总体 多以选择、填空
答案:C
3.甲校有3 600名学生,乙校有5 400名学生,丙校有1 800
名学生,为统计三校学生某方面的情况,计划采用分层
抽样法,抽取一个容量为90的样本,应在这三校分别抽取学生()源自A.30人,30人,30人
B.30人,45人,15人
C.20人,30人,10人
D.30人,50人,10人
解析:抽取的比例为 ∴甲校抽取3 600× =30人,乙校抽取5 400× 丙校抽取1 800× =15人.
,
∴100× =20为抽取人数.
[答案] 37 20
只有从本质上理解系统抽样和分层抽样的方法,才能解决 问题. 另外同学们思考一下:若用分层抽样方法求50岁以上年龄 数应抽取多少人?
编号,分组,按比例抽取即得样本.
【解】 按1∶5分段,每段5人,共分59段,每段抽取一 人,关键是确定第1段的编号. 按照1∶5的比例,应该抽取的样本容量为295÷5=59,我 们把这295名同学分成59组,每组5人,第1组是编号为1~ 5的5名学生,第2组是编号为6~10的5名学生,依次下去, 第59组是编号为291~295的5名学生.采用简单随机抽样 的方法,从第1组5名学生中抽出一名学生,不妨设编号为 k(1≤k≤5),那么抽取的学生编号为k+5l(l=0,1,2,…,58), 得到59个个体作为样本,如当k=3时的样本编号为 3,8,13,…,288,293.
高三数学(理)一轮总复习课件:第十章 统计与统计案例、算法初步 10-4

2.(2015· 高考课标卷Ⅱ)下边程序框图的算法思路源于我国 古代数学名著《九章算术》中的“更相减损术”.执行该程序框 图,若输入的 a,b 分别为 14,18,则输出的 a=( A.0 B.2 C.4 D.14 )
解析:选 B.开始 a=14,b=18. 第一次循环:14≠18 且 14<18,b=18-14=4; 第二次循环:14≠4 且 14>4,a=14-4=10; 第三次循环:10≠4 且 10>4,a=10-4=6; 第四次循环:6≠4 且 6>4,a=6-4=2; 第五次循环:2≠4 且 2<4,b=4-2=2; 第六次循环:a=b=2,退出循环,输出 a=2,故选 B.
4.(2014· 高考课标全国卷Ⅰ)执行如 图所示的程序框图,若输入的 a,b,k 分别为 1,2,3,则输出的 M=( )
20 A. 3 7 C.2
16 B. 5 15 D. 8
3 3 解析:选 D.第一次循环:M= ,a=2,b= ,n=2;第二 2 2 8 3 8 15 8 次循环:M=3,a=2,b=3,n=3;第三次循环:M= 8 ,a=3, 15 15 b= 8 ,n=4.则输出的 M= 8 ,选 D.
程序框
, 是一种用
程序框
、
流程线
及
文字说明
来
连接起来.
3.算法的三种基本逻辑结构
若干个依次执行的步骤 (1)顺序结构:是由
组成的,这是任何
一个算法都离不开的基本结构.
其结构形式为
(2)条件结构:是指算法的流程根据给定的条件是否成立而选 择执行不同的流向的结构形式. 其结构形式为
(3)循环结构:是指从某处开始,按照一定条件反复执行
解析:选 C.依题意及程序框图可得
高三数学(理)一轮总复习课件:第十章 统计与统计案例、算法初步 10-3

解析:选 D.根据柱形图易得选项 A,B,C 正确,2006 年以 来我国二氧化硫年排放ቤተ መጻሕፍቲ ባይዱ与年份负相关,选项 D 错误.故选 D.
2. (2015· 高考福建卷)为了解某社区居民的家庭年收入与年支 出的关系,随机调查了该社区 5 户家庭,得到如下统计数据表: 收入 x(万元) 8.2 8.6 10.0 11.3 11.9 支出 y(万元) 6.2 7.5 8.0 8.5 9.8
3 757 160 ,
2 2 2 则 K2 > K > K > K 4 2 3 1 , 所以阅读量与性别有关联的可能性最
大.
4. (2014· 高考课标全国卷Ⅱ)某地区 2007 年至 2013 年农村居 民家庭人均纯收入 y(单位:千元)的数据如下表: 年份 年份代 号t 人均纯 收入 y 2007 2008 2009 2010 2011 2012 2013 1 2 3 4 5 6 7
1.(2015· 高考全国卷Ⅱ)根据下面给出的 2004 年至 2013 年 我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确 的是( )
A.逐年比较,2008 年减少二氧化硫排放量的效果最显著 B.2007 年我国治理二氧化硫排放显现成效 C.2006 年以来我国二氧化硫年排放量呈减少趋势 D.2006 年以来我国二氧化硫年排放量与年份正相关
i 1 n
^ ^- a=y-b t.
解:(1)由所给数据计算得 1 - t = (1+2+3+4+5+6+7)=4, 7 1 - y = (2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3, 7
2 - Σ ( t - t ) =9+4+1+0+1+4+9=28 i i=1
7
- - Σ ( t i - t )(yi - y ) = ( - 3)×( - 1.4) + ( - 2)×( - 1) + ( - i=1 1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14, - - ∑ ( t i- t )(yi- y ) 14 i=1 ^ b= = =0.5, 7 28 2 - ∑ ( t - t ) i =
高考数学一轮复习 统计案例【配套文档】第十一章 11.3

§11.3 变量的相关性、统计案例2014高考会这样考 考查回归分析、独立性检验的基本思想和简单应用.复习备考要这样做 1.理解散点图和相关关系的概念;2.注意回归直线方程、独立性检验在实际问题中的应用.1. 变量间的相关关系2. 散点图以一个变量的取值为横坐标,另一个变量的相应取值为纵坐标,在直角坐标系中描点,这样的图形叫做散点图. 3. 回归直线方程与回归分析(1)直线方程y ^=a +bx ,叫做Y 对x 的回归直线方程,b 叫做回归系数.要确定回归直线方程,只要确定a 与回归系数b .(2)用最小二乘法求回归直线方程中的a ,b 有下列公式b ^=∑ni =1x i y i -n x y ∑n i =1x 2i -n x 2,a ^ =y -b ^ x ,其中的a ^ ,b ^表示是求得的a ,b 的估计值.(3)相关性检验①计算相关系数r ,r 有以下性质:|r |≤1,并且|r |越接近1,线性相关程度越强;|r |越接近0,线性相关程度越弱;②|r |>r 0.05,表明有95%的把握认为变量x 与Y 直线之间具有线性相关关系,回归直线方程有意义;否则寻找回归直线方程毫无意义. 4. 独立性检验(1)2×2列联表:B B 合计 An 11n 12n 1+A n 21 n 22 n 2+ 合计n +1n +2n其中n 1+=n 11+n 12,n 2+2122+1=n 11+n 21,+2=n 12+n 22,n =n 11+n 21+n 12+n 22. (2)χ2统计量: χ2=n (n 11n 22-n 12n 21)2n 1+n 2+n +1n +2.(3)两个临界值:3.841与6.635当χ2>3.841时,有95%的把握说事件A 与B 有关; 当χ2>6.635时,有99%的把握说事件A 与B 有关; 当χ2≤3.841时,认为事件A 与B 是无关的. [难点正本 疑点清源]1. 相关关系的判定与回归直线方程的求法(1)函数关系是一种理想的关系模型,而相关关系是一种更为一般的情况.(2)如果两个变量不具有线性相关关系,即使求出回归直线方程也毫无意义,而且用其进行估计和预测也不可信.(3)回归直线方程只适用于我们所研究的样本的总体.样本的取值范围一般不能超过回归直线方程的适用范围,否则就没有实用价值. 2. 独立性检验的理解独立性检验,即要确定“两个变量X 与Y 有关系”这一结论成立的可信度,可通过列2×2列联表计算χ2=n (n 11n 22-n 12n 21)2n 1+n 2+n +1n +2的值与3.841和6.635比较,确定X 、Y 是否有关系.1. 已知x 、y 的取值如下表:x 0 1 3 4 y2.24.34.86.7从所得的散点图分析,y 与x 线性相关,且y =0.95x +a ,则a ^=________. 答案 2.6解析 因为回归直线必过样本点的中心(x ,y ), 又x =2,y =4.5,代入y ^=0.95x +a ^,得a ^=2.6.2. (2011·辽宁)调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y ^=0.254x +0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加______万元. 答案 0.254解析 由题意知[0.254(x +1)+0.321]-(0.254x +0.321)=0.254.3. (2012·湖南)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归直线方程为y ^=0.85x -85.71,则下列结论中不正确...的是 ( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 答案 D解析 由于回归直线方程中x 的系数为0.85, 因此y 与x 具有正的线性相关关系,故A 正确.又回归直线方程必过样本点的中心(x ,y ),因此B 正确.由回归直线方程中系数的意义知,x 每增加1 cm ,其体重约增加0.85 kg ,故C 正确. 当某女生的身高为170 cm 时,其体重估计值是58.79 kg ,而不是具体值,因此D 不正确. 4. 下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归直线方程y ^=3-5x ,变量x 增加1个单位时,y 平均增加5个单位; ③回归直线方程y ^=b ^x +a ^ 必过(x ,y ); ④曲线上的点与该点的坐标之间具有相关关系;⑤在一个2×2列联表中,由计算得χ2=13.079,则其两个变量间有关系的可能性是90%. 其中错误..的个数是( )A .1B .2C .3D .4答案 C解析 ①③正确,其余均错误,故选C.5. (2011·湖南)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:不爱好203050总计6050110则正确的结论是() A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”答案 A解析根据独立性检验的定义,由χ2≈7.8>6.635可知我们有99%以上的把握认为“爱好该项运动与性别有关”,故选A.题型一两个变量间的相关关系例15个学生的数学和物理成绩如下表:学生A B C D E学科数学8075706560物理7066686462思维启迪:将每个学生的数学成绩和物理成绩分别作为点的横坐标和纵坐标,作散点图,然后根据散点图判断两个变量是否存在相关关系.解以x轴表示数学成绩,y轴表示物理成绩,可得到相应的散点图如图所示.由散点图可知,各组数据对应点大致在一条直线附近,所以两者之间具有相关关系,且为正相关.探究提高判断变量之间有无相关关系,一种简便可行的方法就是绘制散点图,根据散点图很容易看出两个变量之间是否具有相关性,是不是存在线性相关关系,是正相关还是负相关,相关关系是强还是弱.对变量x ,y 有观测数据(x i ,y i ) (i =1,2,…,10),得散点图(1);对变量u 、v 有观测数据(u i ,v i ) (i =1,2,…,10),得散点图(2).由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关 答案 C解析 由图(1)可知,各点整体呈递减趋势,x 与y 负相关;由图(2)可知,各点整体呈递增趋势,u 与v 正相关. 题型二 回归直线方程例2 (2012·福建)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x (元) 8 8.2 8.4 8.6 8.8 9 销量y (件)908483807568(1)求回归直线方程y =b x +a ,其中b =-20,a =y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本) 思维启迪:根据回归直线过样本点中心来求回归直线方程,然后利用回归方程求最大利润.解 (1)由于x =16(8+8.2+8.4+8.6+8.8+9)=8.5,y =16(90+84+83+80+75+68)=80,又b ^=-20,所以a ^=y -b ^x =80+20×8.5=250, 从而回归直线方程为y ^=-20x +250. (2)设工厂获得的利润为L 元,依题意得L =x (-20x +250)-4(-20x +250) =-20x 2+330x -1 000 =-20(x -8.25)2+361.25.当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润.探究提高 回归直线过样本点中心(x ,y )是一条重要性质;利用回归直线方程可以估计总体,帮助我们分析两个变量的变化趋势.(2011·广东)为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x (单位:小时)与当天投篮命中率y 之间的关系:时间x 1 2 3 4 5 命中率y0.40.50.60.60.4小李这56号打6小时篮球的投篮命中率为________. 答案 0.5 0.53解析 小李这5天的平均投篮命中率y =0.4+0.5+0.6+0.6+0.45=0.5,可求得小李这5天的平均打篮球时间x =3.根据表中数据可求得b ^=0.01,a ^=0.47,故回归直线方程为y ^=0.01x +0.47,将x =6代入得6号打6小时篮球的投篮命中率约为0.53. 题型三 相关性检验例3 假设关于某种设备的使用年限x (年)与所支出的维修费用y (万元)有如下统计资料:x 2 3 4 5 6 y2.23.85.56.57.0已知∑5i =1x 2i =90,∑5i =1y 2i =140.8,∑i =1x i y i =112.3, 79≈8.9,2≈1.4. (1)求x ,y ;(2)对x ,y 进行线性相关性检验;(3)如果x 与y 具有线性相关关系,求出回归直线方程; (4)估计使用年限为10年时,维修费用约是多少?思维启迪:(1)先根据已知计算相关系数r ,判断是否具有相关关系. (2)再利用公式求出回归直线方程进行回归分析.解 (1)x =2+3+4+5+65=4,y =2.2+3.8+5.5+6.5+7.05=5.(2)∑5i =1x i y i -5x y =112.3-5×4×5=12.3, ∑5i =1x 2i -5x 2=90-5×42=10, ∑5i =1y 2i -5y 2=140.8-125=15.8, ∴r =12.310×15.8=12.3158≈0.987.∵r >r 0.05=0.878,所以认为x 与y 之间具有线性相关关系,求回归直线方程是有意义的.(3)b ^=∑5i =1x i y i -5x y∑5i =1x 2i -5x2=12.310=1.23, a ^=y -b ^x =5-1.23×4=0.08, 所以回归直线方程为y ^=1.23x +0.08.(4)当x =10时,y ^=1.23×10+0.08=12.38(万元), 即估计使用年限为10年时,维修费用约为12.38万元.探究提高 在解决具体问题时,要先进行相关性检验,通过检验确认两个变量是否具有线性相关关系.若它们之间具有相关关系,再求回归直线方程,否则,即使求出回归直线方程也是毫无意义的,而且用其估计和预测的量也是不可信的.(2011·江西)变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( ) A .r 2<r 1<0 B .0<r 2<r 1 C .r 2<0<r 1D .r 2=r 1答案 C解析 由线性相关系数公式知r =∑ni =1 (x i -x )(y i -y )∑ni =1(x i -x )2∑ni =1(y i -y )2.∵X =U =11.72,Y =V =3,X i =U i (i =1,2,…,5),Y i =V 6-i (i =1,2,…,5), ∴∑5i =1 (X i -X )2∑5i =1(Y i -Y )2=∑5i =1 (U i -U )2∑5i =1(V i -V )2. 令∑5i =1(X i -X )(Y i -Y )=A =(10-X )(1-Y )+(11.3-X )(2-Y )+(11.8-X )(3-Y )+(12.5-X )(4-Y )+ (13-X )(5-Y ), ∑5i =1(U i -U )(V i -V )=B =(10-U )(5-V )+(11.3-U )(4-V )+(11.8-U )(3-V )+(12.5-U )(2-V )+(13-U )(1-V ), ∴A >0,B <0,∴r 1>0,r 2<0. 题型四 独立性检验例4 为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表:喜爱打篮球不喜爱打篮球合计 男生 5 女生 10 合计50已知在全部50人中随机抽取1人抽到喜爱打篮球的学生的概率为35.(1)请将上面的列联表补充完整;(2)是否有99%的把握认为喜爱打篮球与性别有关?说明你的理由;(3)已知喜爱打篮球的10位女生中,A 1,A 2,A 3,A 4,A 5还喜欢打羽毛球,B 1,B 2,B 3还喜欢打乒乓球,C 1,C 2还喜欢踢足球,现再从喜欢打羽毛球、喜欢打乒乓球、喜欢踢足球的女生中各选出1名进行其他方面的调查,求B 1和C 1不全被选中的概率. 思维启迪:可以根据列联表计算χ2的值,然后和临界值比较下结论;选人的概率是古典概型,要先列举基本事件. 解 (1)列联表补充如下:喜爱打篮球不喜爱打篮球合计男生 20 5 25 女生 10 15 25 合计302050(2)∵χ2=50×(20×15-10×5)230×20×25×25≈8.333>6.635,∴有99%的把握认为喜爱打篮球与性别有关.(3)从10位女生中选出喜欢打羽毛球、喜欢打乒乓球、喜欢踢足球的各1名,其一切可能的结果组成的基本事件如下:(A 1,B 1,C 1),(A 1,B 1,C 2),(A 1,B 2,C 1),(A 1,B 2,C 2),(A 1,B 3,C 1),(A 1,B 3,C 2),(A 2,B 1,C 1),(A 2,B 1,C 2),(A 2,B 2,C 1),(A 2,B 2,C 2),(A 2,B 3,C 1),(A 2,B 3,C 2),(A 3,B 1,C 1),(A 3,B 1,C 2),(A 3,B 2,C 1),(A 3,B 2,C 2),(A 3,B 3,C 1),(A 3,B 3,C 2),(A 4,B 1,C 1),(A 4,B 1,C 2),(A 4,B 2,C 1),(A 4,B 2,C 2),(A 4,B 3,C 1),(A 4,B 3,C 2),(A 5,B 1,C 1),(A 5,B 1,C 2),(A 5,B 2,C 1),(A 5,B 2,C 2),(A 5,B 3,C 1),(A 5,B 3,C 2), 基本事件的总数为30.用M 表示“B 1,C 1不全被选中”这一事件,则其对立事件M 表示“B 1,C 1全被选中”这一事件,由于M 由(A 1,B 1,C 1),(A 2,B 1,C 1),(A 3,B 1,C 1),(A 4,B 1,C 1),(A 5,B 1,C 1)共5个基本事件组成,所以P (M )=530=16.由对立事件的概率公式得P (M )=1-P (M )=1-16=56.探究提高 从列联表上可以粗略地估计两个事件的关系,它不能给出有关或无关的精确的可信程度,若要作出精确的判断,应该进行独立性检验的有关计算.某班主任对全班50名学生的积极性和对待班级工作的态度进行了调查,统计数据如下表所示:积极参加班级工作不太积极参加班级工作合计 学习积极性高 18 7 25 学习积极性一般6 19 25 合计242650系?说明理由.解 由χ2=50×(18×19-6×7)224×26×25×25≈11.54.∵χ2>6.635,故可以有99%的把握认为学生的学习积极性与对待班级工作的态度有关系.统计中的数形结合思想典例:(12分)某地10户家庭的年收入和年饮食支出的统计资料如表所示:年收入 x (万元) 24466677810年饮食支 出y (万元)0.91.41.62.02.11.91.82.12.22.3(2)如果某家庭年收入为9万元,预测其年饮食支出.审题视角 可以画出散点图,根据图中点的分布判断家庭年收入和年饮食支出的线性相关性. 规范解答解 (1)把这10对数据画出散点图如下图所示:[4分]从图中可以看出,样本点呈条状分布,年收入和年饮食支出有比较好的线性相关关系,因此可以用回归直线方程刻画它们之间的关系. [6分]因为x =6,y =1.83,∑i =110x 2i =406,∑i =110y 2i =35.13,∑i =110x i y i =117.7,所以b^=∑i=110x i y i-10x y∑i=110x2i-10x2≈0.172,a^=y-b^x≈1.83-0.172×6=0.798. [8分] 从而得到回归直线方程为y^=0.172x+0.798.[10分](2)y^=0.172×9+0.798=2.346(万元).所以家庭年收入为9万元时,可以预测年饮食支出为2.346万元.[12分] 温馨提醒(1)在统计中,用样本的频率分布表、频率分布直方图、统计图表中的茎叶图、折线图、条形图,去估计总体的相关问题,以及用散点图判断相关变量的相关性等都体现了数与形的完美结合.借助于形的直观,去统计数据,分析数据,无不体现了数形结合的思想.(2)本题利用散点图分析两变量间的相关关系,充分体现了数形结合思想的应用.(3)本题易错点为散点图画的不准确,导致判断错误.方法与技巧1.求回归直线方程,关键在于正确求出系数a^,b^,由于a^,b^的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误.(注意回归直线方程中一次项系数为b^,常数项为a^,这与一次函数的习惯表示不同.)2.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出回归直线方程.3.根据χ2的值可以判断两个分类事件有关的可信程度.失误与防范1.r的大小说明两变量是否相关,|r|越接近1,线性相关程度越强;|r|越接近0,线性相关程度越弱.2.独立性检验的统计量χ2=3.841是判断是否有关系的临界值,χ2≤3.841应判断为没有充分证据显示两变量有关系,而不能作为小于95%的量化值来判断.A 组 专项基础训练 (时间:35分钟,满分:57分)一、选择题(每小题5分,共20分) 1. 下列关系中,具有相关关系的为( )①学生的学习态度与学习成绩之间的关系; ②教师的执教水平与学生的学习成绩之间的关系; ③学生的身高与学生的学习成绩之间的关系; ④家庭的经济条件与学生的学习成绩之间的关系. A .①② B .①③C .②③D .②④答案 A解析 ①中学生的学习态度与学习成绩之间不是因果关系,但具有相关性,是相关关系,②教师的执教水平与学生的学习成绩之间的关系是相关关系,③④都不具备相关关系. 2.(2011·陕西)设(x 1,y 1),(x 2,y 2),…,(x n ,y n )是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的回归线性直线(如图),以下结论中正确的是( )A .直线l 过点(x ,y )B .x 和y 的相关系数为直线l 的斜率C .x 和y 的相关系数在0到1之间D .当n 为偶数时,分布在l 两侧的样本点的个数一定相同 答案 A解析 因为相关系数是表示两个变量是否具有线性相关关系的一个值,它的绝对值越接近1,两个变量的线性相关程度越强,所以B 、C 错误.D 中n 为偶数时,分布在l 两侧的样本点的个数可以不相同,所以D 错误.根据线性回归直线一定经过样本点中心可知A 正确.3. (2011·山东)某产品的广告费用x 与销售额y 的统计数据如下表:广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归直线方程y ^=b ^x +a ^中的b ^为9.4,据此模型预报广告费用为6万元时销售额为 ( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元答案 B解析 ∵x =4+2+3+54=72,y =49+26+39+544=42,又y ^=b ^x +a ^必过(x ,y ),∴42=72×9.4+a ^ ,∴a ^ =9.1.∴回归直线方程为y ^=9.4x +9.1.∴当x =6时,y ^=9.4×6+9.1=65.5(万元).4. 在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )①若χ2≥6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;③从统计量中得知有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误. A .① B .①③C .③D .②答案 C解析 ①推断在100个吸烟的人中必有99人患有肺病,说法错误,排除A ,B ;③正确. 二、填空题(每小题5分,共15分)5. 某市居民2005~2009年家庭年平均收入x (单位:万元)与年平均支出Y (单位:万元)的统计资料如下表所示:出有________线性相关关系.(填“正”或“负”) 答案 13 正解析 把2005~2009年家庭年平均收入按从小到大顺序排列为11.5,12.1,13,13.3,15,因此中位数为13(万元),由统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正线性相关关系.6. 在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算χ2=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的(填“有关”或“无关”). 答案 有关解析 由χ2=27.63与临界值比较,我们有99%的把握说打鼾与患心脏病有关. 7. 在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结果如下:由此得到回归直线方程的斜率b 是__________.(结果保留两位小数) 答案 0.88解析 把表中数据代入公式b ^ =∑5i =1x i y i -5x y ∑5i =1x 2i -5x 2≈0.88.三、解答题(共22分)8. (10分)某企业上半年产品产量与单位成本资料如下:且已知产量x (1)求出回归直线方程;(2)指出产量每增加1 000件时,单位成本平均变动多少? (3)假定产量为6 000件时,单位成本为多少元?解 (1)n =6,x =3.5,y =71,∑6i =1x 2i =79,∑6i =1x i y i =1 481, b ^ =∑6i =1x i y i -6x y ∑6i =1x 2i -6x 2=1 481-6×3.5×7179-6×3.52≈-1.82, a ^=y -b ^ x =71+1.82×3.5=77.37, ∴回归直线方程为y ^=b ^x +a ^=-1.82x +77.37.(2)因为单位成本平均变动b ^=-1.82<0,且产量x 的计量单位是千件,所以根据回归系数b ^的意义有产量每增加一个单位即1 000件时,单位成本平均减少1.82元. (3)当产量为6 000件时,即x =6,代入回归直线方程, 得y ^=77.37-1.82×6=66.45(元)∴当产量为6 000件时,单位成本大约为66.45元.9. (12分)(2011·安徽)某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的回归直线方程y =b x +a ; (2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.解 (1)由所给数据看出,年需求量与年份之间是近似直线上升的,下面求回归直线方程.为此对数据预处理如下:x =0,y =3.2.b ^=(-4)×(-21)+(-2)×(-11)+2×19+4×29-5×0×3.2(-4)2+(-2)2+22+42-5×02=26040=6.5, a ^=y -b ^x =3.2.由上述计算结果,知所求回归直线方程为 y ^-257=b ^(x -2 006)+a ^=6.5(x -2 006)+3.2, 即y ^ =6.5(x -2 006)+260.2.①(2)利用直线方程①,可预测2012年的粮食需求量约为 6.5×(2 012-2 006)+260.2=6.5×6+260.2=299.2(万吨).B 组 专项能力提升 (时间:25分钟,满分:43分)一、选择题(每小题5分,共15分)1. 以下四个命题,其中正确的是 ( )①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1 ;③在回归直线方程y ^=0.2x +12中,当变量x 每增加一个单位时,变量y ^平均增加0.2个单位;④对变量X 与Y ,它们的统计量χ2越小,“X 与Y 有关系”的把握程度越大. A .①④ B .②④ C .①③ D .②③答案 D解析 ①是系统抽样;对于④,统计量χ2的值越小,说明两个相关变量有关系的把握程度越小.2. (2011·江西)为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:则y 对x( )A.y ^=x -1 B.y ^=x +1 C.y ^=88+12xD.y ^=176答案 C解析 因为x =174+176+176+176+1785=176,y =175+175+176+177+1775=176,又y 对x 的回归直线方程表示的直线恒过点(x ,y ),所以将(176,176)代入A 、B 、C 、D 中检验知选C.3. 某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得χ2≈3.918,已知P (χ2≥3.841)≈0.05.对此,四名同学作出了以下的判断:p :有95%的把握认为“这种血清能起到预防感冒的作用”; q :若某人未使用该血清,那么他在一年中有95%的可能性得感冒; r :这种血清预防感冒的有效率为95%; s :这种血清预防感冒的有效率为5%.则下列结论中,正确结论的序号是________. ①p ∧綈q ;②綈p ∧q ;③(綈p ∧綈q )∧(r ∨s ); ④(p ∨綈r )∧(綈q ∨s ). 答案 ①④解析 本题考查了独立性检验的基本思想及常用逻辑用语.由题意,得χ2≈3.918,P (χ2≥3.841)≈0.05,所以,只有第一位同学的判断正确,即有95%的把握认为“这种血清能起到预防感冒的作用”.由真值表知①④为真命题. 二、填空题(每小题5分,共15分)4. ①若r >0,则x 增大时,y 也相应增大;②若r <0,则x 增大时,y 也相应增大;③若r=1或r =-1,则x 与y 的关系完全对应(有函数关系),在散点图上各个点均在一条直线上.上面是关于相关系数r 的几种说法,其中正确的序号是________. 答案 ①③解析 若r >0,表示两个相关变量正相关,x 增大时,y 也相应增大,故①正确;r <0,表示两个相关变量负相关,x 增大时,y 相应减小,故②错误;|r |越接近1,表示两个变量相关性越高,|r |=1表示两个变量有确定的关系(即函数关系),故③正确.5. (2011·广东)某数学老师身高176 cm ,他爷爷、父亲和儿子的身高分别是173 cm 、170 cm和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________ cm. 答案 185解析 儿子和父亲的身高可列表如下:设回归直线方程y ^=a ^+b x ,由表中的三组数据可求得b =1,故a ^=y -b ^x =176-173=3,故回归直线方程为y ^=3+x ,将x =182代入得孙子的身高为185 cm. 6. 某炼钢厂废品率x (%)与成本y (元/t)的回归直线方程为y ^=105.492+42.569x .当成本控制在176.5元/t 时,可以预计生产的1 000 t 钢中,约有________ t 钢是废品. 答案 16.68解析 ∵176.5=105.492+42.569x ,∴x ≈1.668,即成本控制在176.5元/t 时,废品率为1.668%.∴生产的1 000 t 钢中,约有1 000×1.668%=16.68(t)钢是废品. 三、解答题7. (13分)一台机器使用时间较长,但还可以使用.它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器运转的速度而变化,下表为抽样试验结果:(1)对变量Y 与(2)如果Y 与x 有线性相关关系,求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么,机器的运转速度应控制在什么范围内?(结果保留整数) 解 (1)x =12.5,y =8.25,∑4i =1x i y i =438, 4x y =412.5,∑4i =1x 2i =660,∑4i =1y 2i =291, 所以r =∑4i =1x i y i -4x y(∑4i =1x 2i -4x 2)(∑4i =1y 2i -4y 2)=438-412.5(660-625)×(291-272.25)=25.5656.25≈25.525.62≈0.995.因为r >r 0.05=0.950,所以有95%的把握认为x 与Y 之间具有线性相关关系.(2)b ^=∑4i =1x i y i -4x y ∑4i =1x 2i -4x2≈0.728 6, a ^=y -b ^ x =8.25-0.728 6×12.5=-0.857 5, ∴所求回归直线方程为y ^=0.728 6x -0.857 5. (3)要使y ^≤10⇒0.728 6x -0.857 5≤10, 所以x ≤14.901 9≈15.所以机器的转速应控制在15转/秒以下.。
高三数学第一轮复习课时作业(56)变量的相关性与统计案例
课时作业(五十六) 第56讲变量的相关性与统计案例时间:45分钟分值:100分基础热身1.2011·广东六校联考有五组变量:①汽车的重量和汽车每消耗1升汽油所行驶的平均路程;②平均日学习时间和平均学习成绩;③某人每日吸烟量和身体健康情况;④圆的半径与面积;⑤汽车的重量和每千米耗油量.其中两个变量成正相关的是( )A.①③ B.②④ C.②⑤ D.④⑤2.2011·丰台二模已知x,y的取值如下表,从散点图可以看出y与x线性相关,且回归方程为y=0.95x +a,则a=( )A.3.25 B.2.6 C.2.2 D.3.2011·大连双基检测为了考察两个变量x、y之间的线性相关关系,甲、乙两同学各自独立地做10次和15次试验,并利用最小二乘法求得回归直线分别为l1和l2.已知在两人的试验中发现变量x的观测数据的平均值恰好都为s,变量y的观测数据的平均值恰好都为t,那么下列说法中正确的是( ) A.直线l1,l2有公共点(s,t)B.直线l1,l2相交,但是公共点未必是(s,t)C.由于斜率相等,所以直线l1,l2必定平行D.直线l1,l2必定重合4.2011·新余二模为了解某班学生喜爱打篮球是否与性别有关,对该班50名学生进行了问卷调查,得到了如下的2×2列联表:则至少有________附:χ2=n(ad-bc)2 (能力提升5.观察下列散点图,则①正相关;②负相关;③不相关,它们的排列顺序与图形相对应的是( )A.a—①,b-②,c-③ B.a-②,b-③,c-①C.a-②,b-①,c-③ D.a-①,b-③,c-②6.对于给定的两个变量的统计数据,下列说法正确的是( )A.都可以分析出两个变量的关系B.都可以用一条直线近似地表示两者的关系C.都可以作出散点图D.都可以用确定的表达式表示两者的关系7.2011·江西卷为了解儿子身高与其父亲身高的关系,随机抽取5对父子身高数据如下则y对xA.y=x-1 B.y=x+1C.y=88+12x D.y=1768.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )A.若χ2的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病B.从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,我们说某人吸烟,那么他有99%的可能患有肺病C.若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误D.以上三种说法都不正确9.2011·南昌一模对一些城市进行职工人均工资水平x(千元)与居民人均消费水平y(元)统计调查后知,y与x具有相关关系,满足回归方程y=0.66x+1.562.若某被调查城市居民人均消费水平为7.675(千元),则可以估计该城市人均消费额占人均工资收入的百分比约为________%(保留两个有效数字).10.2010·广东卷市居民2005~2009年家庭年平均收入x(单位:万元)与年平均支出y(单位:万元)的统计资料如下表所示:________线性相关关系.11.2011·辽宁卷调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.12.2011·九江六校三联假设关于某设备的使用年限x和所支出的维修费用y(万元),有如下的统计资料:若由资料可知y对x b=1.23,请估计使用年限为20年时,维修费用约为________.13.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得χ2≈3.918,经查临界值表知P(χ2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.①有95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%.14.(10分)(1)画出上表数据的散点图;(2)根据上表提供的数据,求出y关于x的线性回归方程;(3)据此估计广告费用为10万元时,所得的销售收入.(参考数值:∑i =15x 2i =145,∑i =15x i y i =1270)15.(13分)2011·巢湖质检 地震、海啸、洪水、森林大火等自然灾害频繁出现,紧急避险常识越来越引起人们的重视.某校为了了解学生对紧急避险常识的了解情况,从七年级和八年级各选取100名同学进行紧急避险常识知识竞赛.图K56-2(1)和图K56-2(2)分别是对七年级和八年级参加竞赛的学生成绩按40,50),50,60),60,70),70,80分组,得到的频率分布直方图.图K56-2(1)分别计算参加这次知识竞赛的两个年级学生的平均成绩;(注:统计方法中,同一组数据常用该组区间的中点值作为代表)(2)完成下面?附:χ2=(a +b )(c +d )(a .临界值表:难点突破16.(12分)2011·揭阳一模 某食品厂为了检查甲乙两条自动包装流水线的生产情况,随即在这两条流水线上各抽取40件产品作为样本称出它们的重量(单位: g),重量值落在(495,510的产品为合格品,否则为不合格品.下表是甲流水线样本频数分布表,图K56-3是乙流水线样本的频率分布直方图.图K56-3(1)根据上表数据作出甲流水线样本的频率分布直方图;(2)若以频率作为概率,试估计从甲、乙两条流水线分别任取1件产品,该产品恰好是合格品的概率分别是多少?(3)由以上统计数据完成下面2×2列联表,并回答有多大的把握认为“产品的包装质量与两条自动包装流水线的选择有关”.参考公式:χ2=,其中n=a+b+c+d(a+b)(c+d)(a+c)(b+d)课时作业(五十六)【基础热身】1.C 解析 由变量的相关关系的概念知,②⑤是正相关,①③是负相关,④为函数关系,故选C. 2.B 解析 x =2,y =4.5,因为回归方程经过点(x ,y ),所以a =4.5-0.95×2=2.6,故选B. 3.A 解析 因为甲、乙两组观测数据的平均值都是(s ,t ),则由最小二乘法知线性回归直线方程为y =bx +a ,而a =y -b x ,(s ,t )在直线l 1,l 2上,故选A.4.99.5% 解析 χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=50(20×15-5×10)225×25×30×20=8.333>7.879,则至少有99.5%的把握认为喜爱打篮球与性别有关.【能力提升】5.D 解析 变量的相关性的图形表示法,在相关变量中,图a 从左下角到右上角是正相关,图c 从左上角到右下角是负相关,图b 的点分布不规则是不相关,故选D.6.C 解析 给出一组样本数据,总可以作出相应的散点图,但不一定能分析出两个变量的关系,更不一定符合线性相关或函数关系,故选C.7.C 解析 由表中数据知回归直线是上升的,首先排除D.x =176,y =176,由线性回归性质知:点(x ,y )=(176,176)一定在回归直线上,代入各选项检验,只有C 符合,故选C.8.C 解析 根据独立性检验的思想知,某人吸烟,只能说其患肺病的可能性较大,有99%的把握认为吸烟与患肺病有关系,但并没有理由认为吸烟者有99%的可能患肺病,故选C.9.83 解析 将y =7.675代入回归方程得x ≈9.262,所以估计该城市人均消费额占人均工资收入的百分比约为7.6759.262≈0.83.10.13 正 解析 本题考查了统计中的线性相关关系、中位数等知识点,该知识点在高考考纲中是A 级要求.11.0.254 【解析】 由题意得y 2-y 1=0.254(x +1)+0.321-0.254x +0.321=0.254,即家庭年收入每增加1万元,年饮食支出平均增加0.254万元.12.24.68万元 解析 易求得(x ,y )=(4,5),所以a =y -b x =5-1.23×4=0.08,所以y =0.08+1.23x ,当x =20时,维修费用约为0.08+1.23×20=24.68.13.① 解析 χ2≈3.918>3.841,而P (χ2≥3.841)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”;但检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆,正确序号为①.14.解答 (1)散点图如图所示.(2)x =2+4+5+6+85=5,y =20+30+50+50+705=44,∑i = 15x 2i = 22 + 42 + 52 + 62 + 82= 145,∑i =15x i y i =2×20+4×30+5×50+6×50+8×70=1270,b =∑i = 15x i y i -5xy∑i = 15x 2i -5x2=1270-5×5×44145-5×25= 8.5,a=-b x=44-8.5×5=1.5,因此回归直线方程为y=8.5x+1.5.(3)当x=10时,y=8.5×10+1.5=86.5.15.解答 (1)七年级学生竞赛平均成绩为(45×30+55×40+65×20+75×10)÷100=56(分),八年级学生竞赛平均成绩为﹙45×15+55×35+65×35+75×15﹚÷100=60(分).(2)2×2列联表如下:∴χ2=100×100×120×80≈8.333>6.635,∴有99%的把握认为“两个年级学生对紧急避险常识的了解有差异”.【难点突破】16.解答 (1)甲流水线样本的频率分布直方图如下:(2)由表知甲样本中合格品数为8(0.06+0.09+0.03)×5×40=36,故甲样本合格品的频率为3040=0.75,乙样本合格品的频率为3640=0.9,据此可估计从甲流水线任取1件产品,该产品恰好是合格品的概率为0.75,从乙流水线任取1件产品,该产品恰好是合格品的概率为0.9.(3)2×2列联表如下:∵χ2=n(ad-(a+b)(c+d)(a+c)(b+d)=66×14×40×40≈3.117>2.706.∴有90%的把握认为产品的包装质量与两条自动包装流水线的选择有关.。
高三数学二轮复习-专题六第三讲统计、统计案例课件
B.在犯错误的概率不超过0.1%的前提下,认为“爱好 该项运动与性别无关”
C.有99%以上的把握认为“爱好该项运动与性别有关”
D.有99%以上的把握认为“爱好该项运动与性别无关”
解析 根据独立性检验的定义,由K2≈7.8>6.635可知我 们有99%以上的把握认为“爱好该项运动与性别有关”,故 选C.
(导学教程)2012届高三二轮专 题复习课件:专题六第三讲 统计、
统计案例
第三讲 统计、统计案例
1.抽样方法
抽样方法主要有简单随机抽样、系统抽
样、分层抽样三种,这三种抽样方法各自适
用不同特点的总体,但无论哪种抽样方法,
每一个个体被抽到的概率都是相等的,都等
于样本容量 总体和容量
的比值.
2.频率分布直方图
A.0.2
B.0.3
解C.析0.4 落 在 [114.5,124.5) 内 的 D样.本0.5数 据 为
120,122,116,120,共 4 个,故所求频率为140=25=0.4.
答案 C
3.(2011·湖南)通过随机询问110名性别 不同的大学生是否爱好某项运动,得到如下 的列联表:
男 爱好 40 不爱好 20 总计 60
A.6
B.8
C.10
ቤተ መጻሕፍቲ ባይዱD.12
解析 设样本容量为 N,则 N×3700=6,∴N=14,∴ 高二年级所抽人数为 14×4700=8.
答案 B
2.(2011·重庆)从一堆苹果中任取10只,称得 它们的质量如下(单位:克):
125 120 122 105 130 114 116 95 120 134
高三数学一轮复习 11-1统计、统计案例 (北师大版)
上页
下页
末页
第二章 函数与基本初等函数
基础自测
1.(2010·四川文)一个单位职工800人,其中具有高级
职称的160人,具有中级职称的320人,具有初级职称的
200人,其余人员120人,为了解职工收入情况,决定采用
分层抽样的方法,从中抽取容量为40的样本,则从上述各
层中依次抽取的人数分别是( )
A.12,24,15,9
首页
上页
下页
末页
第二章 函数与基本初等函数
(4)独立性检验的一般步骤 ①根据样本数据制成 2×2 列联表. ②根据公式 χ2=a+ban+adc-bb+cd2 c+d,计算 χ2 的值. ③比较 χ2 与临界值的大小关系作统计推断.
首页
上页
下页
末页
第二章 函数与基本初等函数
首页
上页
下页
末页
第二章 函数与基本初等函数
首页
上页
下页
末页
第二章 函数与基本初等函数
(3)分析两个变量相关关系的常用方法 ①利用散点图进行判断:把样本数据表示的点在平面 直角坐标系中作出,从而得到散点图,如果这些点大致分 布在通过散点图中心的一条直线附近,那么就说这两个变 量之间具有线性相关关系. ②利用相关系数r进行判断:|r|≤1而且|r|越接近于1, 相关程度越大;|r|越接近于0,相关程度越小.
第二章 函数与基本初等函数
首页
上页
下页
末页
第二章 函数与基本初等函数
首页
上页
下页
末页
第二章 函数与基本初等函数
首页
上页
下页
末页
第二章 函数与基本初等函数
首页
上页
备战2025年高考 理科数学考点一遍过:独立性检验
独立性检验统计案例了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用,并能解决一些实际问题.
1.22列联表设X,Y为两个变量,它们的取值分别为12{}xx,和12
{}yy,,其样本频数列联表(22列联表)如下:
1y2y总计
1xaba+b
2xcdc+d
总计a+cb+dabcd
2.独立性检验利用随机变量2K(也可表示为2)2()()()()()nadbcabcdacbd(其中nabcd为样本容量)
来
判断“两个变量有关系”的方法称为独立性检验.3.独立性检验的一般步骤(1)根据样本数据列出22列联表;(2)计算随机变量2K的观测值k,查下表确定临界值k0:20()PKk0.500.400.250.150.1000.0500.0250.0100.0050.001
0k0.4550.7081.3232.0722.7063.8415.0246.6357.87910.828
(3)如果0
kk,就推断“X与Y有关系”,这种推断犯错误的概率不超过20PKk;否则,就认为在犯
错误的概率不超过2
0PKk
的前提下不能推断“X与Y有关系”.【注意】(1)通常认为2.706k时,样本数据就没有充分的证据显示“X与Y有关系”.(2)独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.(3)独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.
考向一两类变量相关性的判断已知分类变量的数据,判断两类变量的相关性.可依据数据及公式计算2K,然后作出判断.
典例1为了判断高中生选修理科是否与性别有关.现随机抽取50名学生,得到如下22列联表:
根据表中数据,得到2K的观测值225013201074.84423272030K,若已知23.8410.05PK
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十三章统计案例
高考导航
难度属于基础的思想解决一些简
知识网络
13.1 抽样方法与用样本估计总体
典例精析
题型一 抽样方法
【例1】某校有教师200人,男学生1 200人,女学生1 000人,用分层抽样的方法从所有师生中抽取一个容量为n 的样本,已知女学生抽取的人数为80人,则n 的值为 .
【解析】根据分层抽样的意义, n 200+1 200+1 000=80
1 000
,解得n =192.
【点拨】现实中正确的分层抽样一般有三个步骤:首先,辨明突出的统计特征和分类.其次,确定每个分层在总体上的比例.利用这个比例,可计算出样本中每组(层)应抽取的人数.最后,必须从每层中抽取独立简单随机样本.
【变式训练1】从某厂生产的802辆轿车中随机抽取80辆测试某项性能.请合理选择抽样方法进行抽样,并写出抽样过程.
【解析】第一步,将802辆轿车用随机方式编号.
第二步,从总体中剔除2辆(剔除方法可用随机数表法),将剩余的800辆轿车重新编号(分别为001,002,003,…,800),并分成80段.
第三步,在第一段001,002,…,010这十个编号中用简单随机抽样抽出一个(如005)作为起始号码. 第四步,将编号为005,015,025,…,795的个体抽出,组成样本. 题型二 频率分布直方图
【例2】(2010湖南)如图是某城市通过抽样得到的居民某年的月均用水量(单位:吨)的频率分布直方图.
(1)求直方图中x的值;
(2)若将频率视为概率,从这个城市随机抽取3位居民(看作有放回的抽样),求月均用水量在3至4吨的居民数X的分布列和数学期望.
【解析】(1)依题意及频率分布直方图知0.02+0.1+x+0.37+0.39=1,解得x=0.12.
(2)由题意知X~B(3,0.1),因此
P(X=0)=C03×0.93=0.729,
P(X=1)=C13×0.1×0.92=0.243,
P(X=2)=C23×0.12×0.9=0.027,
P(X=3)=C33×0.13=0.001,
故随机变量X的分布列为
0.
X的数学期望为E(X)
(或E(X)=1×0.243+2×0.027+3×0.001=0.3)
【点拨】从频率分布直方图读取数据时,要特别重视组距,纵坐标是频率除以组距,故长方形的面积之和为1.
【变式训练2】如图是容量为100的样本的频率分布直方图,试根据数据填空:
(1)样本数据落在[10,14)内的频数为;
(2)样本数据落在[6,10)内的频率为;
(3)总体落在[2,6)内的频率为.
【解析】(1)样本落在[10,14)内的频数为0.09×4×100=36.
(2)样本落在[6,10)内的频率为0.08×4=0.32.
(3)样本落在[2,6)内的频率为0.02×4=0.08,所以总体落在[2,6)内的频率约为0.08.
题型三 平均数、方差的计算
【例3】甲、乙两人在相同条件下各射靶10次,每次命中环数如下: 甲 4 7 10 9 5 6 8 6 8 8 乙 7 8 6 8 6 7 8 7 5 9 试问谁10次射靶的情况较稳定?
【解析】本题要计算两样本的方差,当样本平均数不是整数,且样本数据不大时,可用简化公式计算方差.
甲x =1
10(4+7+…+8)=7.1, 乙x =1
10(7+8+…+9)=7.1,
s 2甲=110(42+72
+…+82-10×7.12)=3.09, s 2乙=110
(72+82+…+92-10×7.12)=1.29, 因为s 2甲>s 2乙,所以乙10次射靶比甲10次射靶情况稳定.
【点拨】平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小,标准差、方差越大,数据的离散程度就越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.
【变式训练3】(2010北京市东城区)在一次数学统考后,某班随机抽取10名同学的成绩进行
样本分析,获得成绩数据的茎叶图如右图.
(1)计算此样本的平均成绩及方差;
(2)现从此样本中随机抽出2名学生的成绩,设抽出分数为90分以上的人数为X ,求随机变量X 的分布列和均值.
【解析】(1)样本的平均成绩x =80; 方差为s 2=
1
10
[(92-80)2+(98-80)2+(98-80)2+(85-80)2+(85-80)2+(74-80)2+(74-80)2+(74-80)2+(60-80)2+(60-80)2]=175.
(2)由题意,随机变量X =0,1,2.
P (X =0)=C 27C 210=715,P (X =1)=C 13C 1
7
C 210=715,P (X =2)=115
.
随机变量X 的分布列为
E (X )=0×715+1×715+2×115=3
5
.
总结提高
1.统计的基本思想是用样本估计总体.这就要求样本具有很好的代表性,而样本良好客观的代表性,则完全依赖抽样方法.
2.三种抽样方法中简单随机抽样是最基本的抽样方法,是其他两种方法的基础,它们的共同点都是等概率抽样.适用范围不同,要根据总体的具体情况选用不同的方法.
3.对于总体分布,总是用样本的频率分布对它进行估计.
4.用样本估计总体,一般分成以下几个步骤:
先求样本数据中的最大值和最小值(称为极值),再确定合适的组数和组距,确定分点(每个分点只属于一组,故一般采用半开半闭区间),然后列出频率分布表(准确,查数据容易),画频率分布直方图.
13.2 两变量间的相关性、回归分析和独立性检验
典例精析
题型一 求回归直线方程
【例1】下表是关于某设备的使用年限(年)和所需要的维修费用(万元)的几组统计数据:
(1)若y 对x 呈线性相关关系,求出y 关于x 的线性回归方程y =b
x +a ˆ; (2)估计使用年限为10年时,维修费用为多少?
【解析】(1)因为5
1
=∑i x i y i =112.3,5
1
=∑i x 2i =4+9+16+25+36=90,且x =4,y =5,n =5,
所以b ˆ=112.3-5×4×590-5×16=12.310=1.23,a ˆ=5-1.23×4=0.08,
所以回归直线方程为y =1.23x +0.08. (2)当x =10时,y =1.23×10+0.08=12.38, 所以估计当使用10年时,维修费用约为12.38万元.
【点拨】当x 与y 呈线性相关关系时,可直接求出回归直线方程,再利用回归直线方程进行计算和预测.
【变式训练1】某工厂经过技术改造后,生产某种产品的产量(吨)与相应的生产能耗(吨标准煤)有如下几组样本数据.
据相关性检验,y 与x 0.7,那么y 关于x 的回归直线方程是 .
【解析】先求得x =4.5,y =3.5,由y
ˆ=0.7x +a 过点(x ,y ),则a =0.35,所以回归直线方程是y ˆ=0.7x +0.35.
题型二 独立性检验
【例2】研究小麦种子经灭菌与否跟发生黑穗病的关系,经试验观察,得到数据如下表所示:
【解析】由列联表得:
a =26,
b =184,
c =50,
d =200,a +b =210,c +d =250,a +c =76,b +d =384,n =460. 所以K 2
=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )
=460×(26×200-184×50)2
210×250×76×384≈4.804,
由于K 2≈4.804>3.841,
所以有95%的把握认为种子灭菌与否与小麦发生黑穗病是有关系的.
【变式训练2】(2010东北三省三校模拟)某研究小组为了研究中学生的身体发育情况,在某学校随机抽出20名15至16周岁的男生,将他们的身高和体重制成2×2的列联表,根据列联表的数据,可以有 %的把握认为该学校15至16周岁的男生的身高和体重之间有关系.
(独立性检验随机变量K 2
值的计算公式:K 2
=n (ad -bc )(a +b )(c +d )(a +c )(b +d )
)
【解析】由表可得a +b =5,c +d =15,a +c =7,b +d =13,ad =48,bc =3,n =20,运用独立性检验随机变量K 2
值的计算公式得K 2
=20×(48-3)25×15×7×13=540
91
≈5.934,
由于K 2≈5.934>5.024,所以有97.5%的把握认为该学校15至16周岁的男生的身高和体重之间有关系.
总结提高
1.在研究两个变量之间是否存在某种关系时,必须从散点图入手.
2.样本的随机性导致由线性回归方程所作出的预报也具有随机性.。