2018年高考数学一轮复习第十章算法初步统计统计案例第67讲变量间的相关关系与统计案例实战演练理
2019年高考数学一轮复习第十章算法初步统计统计案例课时达标67变量间的相关关系与统计案例理

2019年高考数学一轮复习第十章算法初步统计统计案例课时达标67变量间的相关关系与统计案例理[解密考纲]本节内容在高考中,三种题型均有考查,文字量比较大,但题目较容易. 一、选择题1.登山族为了了解某山高y (km)与气温x (℃)之间的关系,随机统计了4次山高与相应的气温,并制作了对照表:由表中数据,得到线性回归方程y =-2x +a (a ∈R ),由此请估计出山高72(km)处气温的度数为( D )A .-10B .-8C .-4D .-6解析:由题意可得:x =10,y =40, 所以a ^=y +2x =40+2×10=60.所以y ^=-2x +60,当y ^=72时,有-2x +60=72,解得x =-6,故选D .2.对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8)其回归直线方程是y ^=13x +a ^,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数a ^的值是( B )A .116B .18C .14D .12 解析:依题意可知样本中心点为⎝ ⎛⎭⎪⎫34,38,则38=13×34+a ^,解得a ^=18,故选B . 3.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( D )A .-1B .0C .12D .1解析:由题设可知这组样本中的数据完全正相关,又都在y =12x +1上,故相关系数为1,故选D .4.(2017·辽宁大连双基测试)对于下列表格所示五个散点,已知求得的线性回归方程为y ^=0.8x -155,则实数m 的值为( A )A .8 C .8.4D .8.5解析:x =196+197+200+203+2045=200,y =1+3+6+7+m 5=17+m5,样本中心点为⎝ ⎛⎭⎪⎫200,17+m 5,将样本中心点⎝ ⎛⎭⎪⎫200,17+m 5代入y ^=0.8x -155, 可得m =8,故选A .5.如表提供了某厂节能降耗技术改造后在生产A 产品过程中记录的产量x (吨)与相应的生产能耗y (吨)的几组对应数据,根据表提供的数据,求出y 关于x 的线性回归方程为y ^=0.7x +0.35,则下列结论错误的是( B )A B .t 的取值必定是3.15 C .回归直线一定过(4.5,3.5)D .A 产品每多生产1吨,则相应的生产能耗约增加0.7吨 解析:由题意,x =3+4+5+64=4.5,因为y ^=0.7x +0.35,所以y =0.7×4.5+0.35=3.5,所以t =4×3.5-2.5-4-4.5=3,故选B .6.(2017·福建泉州模拟)已知某产品连续4个月的广告费x 1(千元)与销售额y 1(万元),经过对这些数据的处理,得到如下数据信息:①∑i =44x i =18,∑i =44y i =14;②广告费用x 和销售额y 之间具有较强的线性相关关系; ③回归直线方程为y ^=b ^x +a ^中的b ^=0.8(用最小二乘法求得). 那么广告费用为6千元时,可预测销售额约为( B ) A .3.5万元 B .4.7万元 C .4.9万元D .6.5万元解析:因为∑i =14x i =18,∑i =14y i =14,所以x =92,y =72,因为回归直线方程为y ^=b ^x +a ^中的b ^=0.8, 所以72=0.8×92+a ^,所以a ^=-110,所以y ^=0.8x -110.故x =6时,可预测销售额约为4.7万元,故选B . 二、填空题7.已知x ,y 的取值如下表:从散点图分析,y 与x 线性相关,且回归方程为y =1.46x +a ,则实数a ^的值为-0.61. 解析:x =2+3+4+54=3.5,y =2.2+3.8+5.5+6.54=4.5,回归方程必过样本的中心点(x ,y ).把(3.5,4.5)代入回归方程,计算得a ^=-0.61.8.高三某班学生每周用于物理学习的时间x (单位:小时)与物理成绩y (单位:分)之间有如下关系:13.5 (精确到0.1).解析:由已知可得x =24+15+23+19+16+11+20+16+17+1310=17.4,y =92+79+97+89+64+47+83+68+71+5910=74.9.设回归直线方程为y ^=3.53x +a ^, 则74.9=3.53×17.4+a ^解得a ^≈13.5. 9.以下四个命题:①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③在回归直线方程y ^=0.2x +12中,当解释变量x 每增加一个单位时,预报变量y ^平均增加0.2单位;④对分类变量X 与Y ,它们的随机变量K 2的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越大.其中所有正确的是②③.(填序号)解析:①是系统抽样;对于④,随机变量K 2的观测值k 越小,说明两个变量有关系的把握程度越小.三、解答题10.下表是高三某位文科生连续5次月考的历史、政治的成绩,结果统计如下:月份 9 10 11 12 1 历史/x 分 79 81 83 85 87 政治/y 分7779798283(1)求该生5次月考历史成绩的平均分和政治成绩的方差;(2)一般来说,学生的历史成绩与政治成绩有较强的线性相关关系,根据上表提供的数据,求两个变量x ,y 的线性回归方程y ^=b ^x +a ^.⎝⎛⎭⎪⎪⎫附:b ^=∑i =1n x i -xy i -y∑i =1nx i -x2=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x解析:(1)x =15×(79+81+83+85+87)=83,∵y =15(77+79+79+82+83)=80,∴s 2y =15[(77-80)2+(79-80)2+(79-80)2+(82-80)2+(83-80)2]=4.8.(2)∵∑i =15(x i -x )(y i -y )=30,∑i =15(x i -x )2=40,∴b ^=0.75,a ^=y -b ^x =17.75. 则所求的线性回归方程为y ^=0.75x +17.75.11.(2017·河北石家庄调研)某学校高中毕业班有男生900人,女生600人,学校为了对高三学生数学学习情况进行分析,从高三年级按照性别进行分层抽样,抽取200名学生成绩,统计数据如下表所示: 分数段/分 [50,70) [70,90) [90,110) [110,130)[130,150)总计 频数2040705020200学生人数;(2)如果样本数据中,有60名女生数学成绩及格,请完成如下数学成绩与性别的列联表,并判断是否有90%的把握认为“该校学生的数学成绩与性别有关”.女生 男生 总计 及格人数 60 不及格人数 总计参考公式:K 2=a +bc +d a +cb +d. P (K 2≥k 0)0.10 0.050 0.010 k2.7063.8416.635解析:(1)高三学生数学平均成绩为200(60×20+80×40+100×70+120×50+140×20)=101,估计高三学生数学平均成绩为101分,及格学生人数为70+50+20200×(900+600)=1050.(2)女生 男生 总计 及格人数 60 80 140 不及格人数 20 40 60 总计80120200K2的观测值k=200×60×40-20×80280×120×60×140=10063≈1.587<2.706,所以没有90%的把握认为“该校学生的数学成绩与性别有关”.12.一家商场为了确定营销策略,进行了四次投入促销费用x和商场实际销售额的试验,得到如下数据:投入促销费用x/万元235 6商场实际营销额y/万元100200300400(1)在下面的直角坐标中,画出上述数据的散点图,并据此判断两个变量是否具有较好的线性相关性;(2)求出x,y之间的回归直线方程y^=b^x+a^;(3)若该商场计划营销额不低于600万元,则至少要投入多少万元的促销费用?解析:(1)散点图,如图所示,从图上可以看出两个变量具有较好的线性相关性.(2)x=2+3+5+64=4,y-=100+200+300+4004=250,∑i=14(x i-x)2=(2-4)2+(3-4)2+(5-4)2+(6-4)2=4+1+1+4=10,∑i=14(x1-x)(y i-y-)=(-2)×(-150)+(-1)×(-50)+1×50+2×150=700.b^=∑i=14x i-x y i-y-∑i=14x i-x2=70010=70,a^=y--b^x=250-70×4=-30.故所求的回归直线方程为y ^=70x -30. (3)令70x -30≥600,即x ≥600+3070=9(万元). 即该商场计划营销额不低于600万元,则至少要投入9万元的促销费用.。
高考数学一轮复习 第十章 统计与统计案例 10.3 变量间的相关关系、统计案例真题演练集训 理 新人

系、统计案例真题演练集训理新人教A版编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(2018版高考数学一轮复习第十章统计与统计案例10.3 变量间的相关关系、统计案例真题演练集训理新人教A版)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为2018版高考数学一轮复习第十章统计与统计案例10.3 变量间的相关关系、统计案例真题演练集训理新人教A版的全部内容。
关系、统计案例真题演练集训理新人教A版1.[2015·福建卷]为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x(万元)8。
28.610.011。
311.9支出y(万元) 6.27。
58。
08.59.8根据上表可得回归直线方程y,=错误!x+错误!,其中错误!=0.76,错误!=错误!-错误!错误!。
据此估计,该社区一户年收入为15万元家庭的年支出为( )A.11。
4万元 B.11.8万元C.12。
0万元 D.12。
2万元答案:B解析:由题意知,x=错误!=10,错误!=错误!=8,∴错误!=8-0。
76×10=0。
4,∴当x=15时,错误!=0。
76×15+0.4=11。
8(万元).2.[2016·新课标全国卷Ⅲ]下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1-7分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:错误!i=9.32,错误!i y i=40。
高考数学一轮复习 第10章 算法初步、统计与统计案例 第4节 变量间的相关关系、统计案例教学案 理

第四节 变量间的相关关系、统计案例[最新考纲] 1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.4.了解独立性检验(只要求2×2列联表)的思想、方法及其初步应用.1.相关性 (1)线性相关假设两个变量x 和y 的散点图中,所有点看上去都在一条直线附近波动,那么称变量间是线性相关的.(2)非线性相关假设所有点看上去都在某条曲线(不是一条直线)附近波动,那么称此相关为非线性相关的.(3)不相关如果所有的点在散点图中没有显示任何关系,那么称变量间是不相关的. 2.最小二乘估计 (1)最小二乘法如果有n 个点(x 1,y 1),(x 2,y 2),…,(x n ,y n )可以用下面的表达式来刻画这些点与直线y =a +bx 的接近程度:[y 1-(a +bx 1)]2+[y 2-(a +bx 2)]2+…+[y n -(a +bx n )]2.使得上式达到最小值的直线y =a +bx 就是我们所要求的直线,这种方法称为最小二乘法.(2)线性回归方程方程y =bx +a 是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的线性回归方程,其中a ,b 是待定参数.⎩⎪⎨⎪⎧b =∑n i =1x i-x y i-y ∑ni =1x i-x 2=∑ni =1x i y i -n x y ∑ni =1x 2i -n x2.a =y -b x .3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )中,(x ,y )称为样本点的中心.(3)相关系数r①r =∑i =1nx i y i -n x y∑i =1nx 2i -n x 2∑i =1ny 2i -n y 2;②当r >0时,称两个变量正相关. 当r <0时,称两个变量负相关. 当r =0时,称两个变量线性不相关. 4.独立性检验假设一个2×2列联表为:BAB 1 B 2 总计A 1 a b a +b A 2c d c +d 总计a +cb +dn =a +b +c +d那么统计量χ2为:χ2=n ad -bc 2a +bc +d a +cb +d.(1)当χ2≤2.706时,可以认为变量A ,B 是没有关联的; (2)当χ2>2.706时,有90%的把握判定变量A ,B 有关联; (3)当χ2>3.841时,有95%的把握判定变量A ,B 有关联; (4)当χ2>6.635时,有99%的把握判定变量A ,B 有关联. [常用结论]1.回归直线必过样本点的中心(x ,y ).2.当两个变量的相关系数|r |=1时,两个变量呈函数关系.一、思考辨析(正确的打“√〞,错误的打“×〞)(1)“名师出高徒〞可以解释为教师的教学水平与学生的水平成正相关关系.( ) (2)通过回归直线方程y ^=b ^x +a ^可以估计预报变量的取值和变化趋势.( )(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( )(4)事件X ,Y 关系越密切,那么由观测数据计算得到的χ2的观测值越大.( ) [答案] (1)√ (2)√ (3)× (4)√ 二、教材改编1.变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,那么由该观测数据算得的线性回归方程可能是( )A .y =0.4x +2.3B .y =2x -2.4C .y =-2x +9.5D .y =-0.3x +4.4A [因为变量x 和y 正相关,排除选项C ,D.又样本中心(3,3.5) 在回归直线上,排除B ,选项A 满足.]2.下面是2×2列联表:y 1 y 2总计 x 1 a21 73 x 22225 47 总计b46120那么表中a ,b 的值分别为( ) A .94,72 B .52,50 C .52,74D .74,52C [∵a +21=73,∴a =52.又a +22=b ,∴b =74.]3.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科 文科 男 13 10 女720P (χ2≥3.841)≈0.05,P (χ2≥5.024)≈0.025.根据表中数据,得到χ2的观测值k =50×13×20-10×7223×27×20×30≈4.844.那么认为选修文科与性别有关系出错的可能性约为______.5% [χ2的观测值k ≈4.844,这说明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系〞成立,并且这种判断出错的可能性约为5%.]4.某同学家里开了一个小卖部,为了研究气温对某种冷饮销售量的影响,他收集了一段时间内这种冷饮每天的销售量y (杯)与当天最高气温x (℃)的有关数据,通过描绘散点图,发现y 和x 呈线性相关关系,并求得其回归方程y ^=2x +60.如果气象预报某天的最高气温为34 ℃,那么可以预测该天这种饮料的销售量为__________杯.128 [由题意x =34时,该小卖部大约能卖出热饮的杯数y ^=2×34+60=128杯.]考点1 相关关系的判断判定两个变量正、负相关的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关. (3)线性回归直线方程中:b ^>0时,正相关;b ^<0时,负相关.1.变量x 和y 近似满足关系式y =-0.1x +1,变量y 与z 正相关.以下结论中正确的选项是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关C [由y =-0.1x +1,知x 与y 负相关,即y 随x 的增大而减小,又y 与z 正相关,所以z 随y 的增大而增大,减小而减小,所以z 随x 的增大而减小,x 与z 负相关.]2.对四组数据进行统计,获得如下图的散点图,关于其相关系数的比较,正确的选项是( )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3A [由相关系数的定义以及散点图可知r 2<r 4<0<r 3<r 1.]3.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,假设所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =-3x +1上,那么这组样本数据的样本相关系数为( )A .-3B .0C .-1D .1C [在一组样本数据的散点图中,所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =-3x +1上,所以b =-3<0,即这组样本数据的两个变量负相关,且相关系数为-1.应选C.]4.x 和y 的散点图如下图,那么以下说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,假设用y =c 1e c 2x拟合时的相关系数为r 1,用y ^=b ^x +a ^拟合时的相关指数为r 2,那么|r 1|>|r 2|;③x ,y 之间不能建立线性回归方程.①② [在散点图中,点散布在从左上角到右下角的区域,因此x ,y 是负相关关系,故①正确;由散点图知用y =c 1e c 2x拟合比用y ^=b ^x +a ^拟合效果要好,那么|r 1|>|r 2|,故②正确;x ,y 之间可以建立线性回归方程,但拟合效果不好,故③错误.]相关关系的直观判断方法就是作出散点图,假设散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,假设呈曲线型也是有相关性,假设呈图形区域且分布较乱那么不具有相关性.考点2 回归分析线性回归分析求线性回归直线方程的步骤(1)用散点图或进行相关性检验判断两个变量是否具有线性相关关系;(2)利用公式b ^=∑ni =1x i -xy i -y∑ni =1x i -x 2=∑ni =1x i y i -n x y∑ni =1x 2i -n x2,a ^=y -b ^x 求得回归系数;(3)写出回归直线方程.如图是某企业2012年至2018年的污水净化量(单位:吨)的折线图.注:年份代码1~7分别对应年份2012~2018.(1)由折线图看出,可用线性回归模型拟合y 和t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程,预测2021年该企业的污水净化量; (3)请用数据说明回归方程预报的效果.参考数据:y =54,∑7i =1(t i -t )(y i -y )=21,14≈3.74,∑7i =1(y i -y ^i )2=94.参考公式:相关系数r =∑ni =1 t i -ty i -y∑ni =1t i -t 2∑n i =1y i -y2,线性回归方程y ^=a ^+b ^t ,b ^=∑ni =1t i -ty i -y∑ni =1t i -t2,a ^=y -b ^t .反映回归效果的公式为:R 2=1-∑ni =1y i -y ^i2∑ni =1y i -y2,其中R 2越接近于1,表示回归的效果越好. [解] (1)由折线图中的数据得,t =4,∑7i =1(t i -t )2=28,∑7i =1(y i -y )2=18,所以r =2128×18≈0.935.因为y 与t 的相关系数近似为0.935,说明y 与t 的线性相关程度相当大,所以可以用线性回归模型拟合y 与t 的关系.(2)因为y =54,b ^=∑7i =1t i -ty i -y∑7i =1t i -t2=2128=34, 所以a ^=y -b ^t =54-34×4=51,所以y 关于t 的线性回归方程为y ^=b ^t +a ^=34t +51.将2021年对应的t =10代入得y ^=34×10+51=58.5,所以预测2021年该企业污水净化量约为58.5吨.(3)因为R 2=1-∑7i =1y i -y ^i 2∑7i =1y i -y2=1-94×118=1-18=78=0.875,所以“污水净化量的差异〞有87.5%是由年份引起的,这说明回归方程预报的效果是良好的.在线性回归分析中,只需利用公式求出回归直线方程并利用其进行预测即可(注意回归直线过样本点的中心(x ,y )),利用回归方程进行预测,常把线性回归方程看作一次函数,求函数值.[教师备选例题]某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:年份x 2013 2014 2015 2016 2017 储蓄存款y (千亿元)56 7810为了研究计算的方便,工作人员将上表的数据进行了处理,t =x -2 012,z =y -5得到下表2:时间代号t1 2 3 4 5 z1 235(1)求z 关于t 的线性回归方程;(2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少? (附:对于线性回归方程y ^=b ^x +a ^,其中b ^=∑ni =1x i y i -n x y∑ni =1x 2i -n x2,a ^=y -b ^x )[解] (1)t =3,z =2.2,∑5i =1t i z i =45,∑5i =1t 2i =55,b ^=45-5×3×2.255-5×9=1.2,a ^=z -b ^t =2.2-3×1.2=-1.4,所以z ^=1.2t -1.4.(2)将t =x -2 012,z =y -5,代入z ^=1.2t -1.4, 得y -5=1.2(x -2 012)-1.4,即y ^=1.2x -2 410.8.(3)因为y ^=1.2×2 022-2 410.8=15.6,所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.1.(2017·某某高考)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系.设其回归直线方程为y ^=b ^x +a ^.∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( )A .160B .163C .166D .170C [∵∑10i =1x i =225,∴x =110∑10i =1x i =22.5.∵∑10i =1y i =1 600,∴y =110∑10i =1y i =160.又b ^=4,∴a ^=y -b ^x =160-4×22.5=70. ∴回归直线方程为y ^=4x +70.将x =24代入上式得y ^=4×24+70=166.应选C.]2.某产品的广告费用x 万元与销售额y 万元的统计数据如表:广告费用x (万元) 2 34 5 销售额y (万元)26m4954根据上表可得回归方程y ^=9x +10.5,那么m 的值为( ) A .36 B .37 C .38D .39D [由回归方程的性质,线性回归方程过样本点的中心,那么26+m +49+544=2+3+4+54×9+10.5, 解得m =39.应选D.]可线性化的回归方程 可线性化的回归方程的求法(1)根据原始数据作出散点图. (2)根据散点图,选择恰当的拟合函数.(3)作恰当变换,将其转化成线性函数,求线性回归方程. (4)在(3)的基础上通过相应变换,即可得可线性化的回归方程.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.x y w∑8i =1(x i -x )2∑8i =1(w i -w )2∑8i =1(x i -x )(y i-y )∑8i =1(w i -w )·(y i -y ) 46.6563 6.8 289.81.61 469108.8表中w i =x i ,w ]=18∑8i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型;(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答以下问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=α^+β^u 的斜率和截距的最小二乘估计分别为β^=∑ni =1u i -uv i -v∑ni =1u i -u2,α^=v -β^u .[解] (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑i =18w i -wy i -y∑i =18w i -w2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.对于非线性回归分析问题,应先进行变量代换,求出代换后的回归直线方程,再求非线性回归方程.[教师备选例题]某地级市共有200 000名中小学生,其中有7%的学生在2017年享受了“国家精准扶贫〞政策,在享受“国家精准扶贫〞政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为5∶3∶2,为进一步帮助这些学生,当地市政府设立“专项教育基金〞,对这三个等次的困难学生每年每人分别补助1 000元、1 500元、2 000元.经济学家调查发现,当地人均可支配收入较上一年每增加n %,一般困难的学生中有3n %会脱贫,脱贫后将不再享受“国家精准扶贫〞政策,很困难的学生中有2n %转为一般困难,特别困难的学生中有n %转为很困难.现统计了该地级市2013年到2017年共5年的人均可支配收入,对数据初步处理后得到了如下图的散点图和表中统计量的值,其中年份x 取13时代表2013年,x 与y (万元)近似满足关系式y =c 1·2c 2x ,其中c 1,c 2为常数.(2013年至2019年该市中学生人数大致保持不变)y k∑5i =1(k i -k )2∑5i =1(y i-y ) ∑5i =1(x i -x )(y i -y )∑5i =1(x i -x )·(k i -k )2.31.23.14.621其中k i =log 2y i ,k =15∑5i =1k i .(1)估计该市2018年人均可支配收入;(2)求该市2018年的“专项教育基金〞的财政预算大约为多少.附:①对于一组具有线性相关关系的数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线方程v ^=β^u +α^的斜率和截距的最小二乘估计分别为β^=∑ni =1u i -uv i -v∑ni =1u i -u2,α^=v -β^u .②参考数据:2-0.72-0.320.121.721.821.90.6 0.81.13.23.53.73[解] (1)因为x =15×(13+14+15+16+17)=15,所以∑5i =1(x i -x )2=(-2)2+(-1)2+02+12+22=10.由k =log 2y 得k =log 2c 1+c 2x ,所以c 2=∑5i =1x i -xk i -k∑5i =1x i -x2=110, log 2c 1=k -c 2x =1.2-110×15=-0.3,所以c 1=2-0.3=0.8,所以y =0.8×2x10.当x =18时,y =0.8×21.8=0.8×3.5=2.8(万元). 即该市2018年人均可支配收入为2.8万元.(2)由题意知2017年时该市享受“国家精准扶贫〞政策的学生有200 000×7%=14 000人,一般困难、很困难、特别困难的中学生依次有7 000人、4 200人、2 800人,2018年人均可支配收入比2017年增长0.8×21.8-0.8×21.70.8×21.7=20.1-1=0.1=10%, 所以2018年该市特别困难的学生有2 800×(1-10%)=2 520人. 很困难的学生有4 200×(1-20%)+2 800×10%=3 640人, 一般困难的学生有7 000×(1-30%)+4 200×20%=5 740人.所以2018年的“专项教育基金〞的财政预算大约为5 740×1 000+3 640×1 500+2 520×2 000=16 240 000(元)=1 624(万元).十九大报告指出,必须树立“绿水青山就是金山银山〞的生态文明发展理念,这一理念将进一步推动新能源汽车产业的迅速发展.以下是近几年我国新能源汽车的年销量数据及其散点图(如下图):年份 2013 2014 2015 2016 2017 年份代码x 1 2 3 4 5 新能源汽车的 年销量y /万辆1.55.917.732.955.6(1)请根据散点图判断y ^=b ^x +a ^与y ^=c ^x 2+d ^中哪个更适宜作为新能源汽车年销量y 关于年份代码x 的回归方程模型;(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程,并预测2020年我国新能源汽车的年销量.(精确到0.1)c ^=∑i =1nw i -wy i -y∑i =1nw i -w2,d ^=y -c ^w .附:令w i =x 2i .y∑5i =1(x i -x )2∑5i =1(w i-w )2∑5i =1(x i -x )·(y i -y ) ∑5i =1(w i -w )·(y i -y ) 22.7210374135.2851.2[解](1)根据散点图得,y ^=c ^x 2+d ^更适宜作为年销量y 关于年份代码x 的回归方程.(2)依题意得,w -=1+4+9+16+255=11,c ^=∑i =15w i -w-()y i-y -∑i =15w i -w-2=851.2374≈2.28,那么d ^=y --c ^w -=22.72-2.28×11=-2.36, ∴y ^=2.28x 2-2.36.令x =8,那么y ^=2.28×64-2.36=143.56≈143.6, 故预测2020年我国新能源汽车的年销量为143.6万辆. 考点3 独立性检验1.比较几个分类变量有关联的可能性大小的方法(1)通过计算χ2的大小判断:χ2越大,两变量有关联的可能性越大.(2)通过计算|ad-bc|的大小判断:|ad-bc|越大,两变量有关联的可能性越大.2.独立性检验的一般步骤(1)根据样本数据制成2×2列联表.(2)根据公式χ2=n ad-bc2a+b a+c b+d c+d计算χ2的观测值k.(3)比较观测值k与临界值的大小关系,作统计推断.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下图的茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m 和不超过m的工人数填入下面的列联表:超过m 不超过m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:χ2=n ad-bc2a+b c+d a+c b+d,n=a+b+c+d.P(χ2≥k)0.0500.0100.001 k 3.841 6.63510.828[解理由如下:(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.(以上给出了4种理由,答出其中任意一种或其他合理理由均可) (2)由茎叶图知m =79+812=80.列联表如下:超过m 不超过m第一种生产方式 15 5 第二种生产方式515(3)由于χ2=4015×15-5×5220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.独立性检验是判断两个分类变量之间是否有关系的一种方法.在判断两个分类变量之间是否有关系时,作出等高条形图只能近似地判断两个分类变量是否有关系,而独立性检验可以精确地得到可靠的结论.[教师备选例题](2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A 表示事件“旧养殖法的箱产量低于50 kg ,新养殖法的箱产量不低于50 kg 〞,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量<50 kg箱产量≥50 kg旧养殖法 新养殖法(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).附:P (χ2≥k )0.050 0.010 0.001 k3.8416.635 10.828χ2=n ad -bc 2a +bc +d a +cb +d.[解] (1)记B 表示事件“旧养殖法的箱产量低于50 kg 〞,C 表示事件“新养殖法的箱产量不低于50 kg 〞.由题意知P (A )=P (BC )=P (B )P (C ). 旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P (B )的估计值为0.62.新养殖法的箱产量不低于50 kg 的频率为 (0.068+0.046+0.010+0.008)×5=0.66, 故P (C )的估计值为0.66.因此,事件A 的概率估计值为0.62×0.66=0.409 2. (2)根据箱产量的频率分布直方图得列联表:箱产量<50 kg箱产量≥50 kg旧养殖法 62 38 新养殖法3466χ2=200×62×66-34×382100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为 (0.004+0.020+0.044)×5=0.34<0.5, 箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5,故新养殖法产量的中位数的估计值为 50+0.5-0.340.068≈52.35(kg).1.党的十九大报告明确提出:在共享经济等领域培育增长点、形成新动能.共享经济是公众将闲置资源通过社会化平台与他人共享,进而获得收入的经济现象.为考察共享经济对企业经济活跃度的影响,在四个不同的企业各取两个部门进行共享经济对比试验,根据四个企业得到的试验数据画出如下四个等高条形图,最能表达共享经济对该部门的发展有显著效果的图形是( )A BC DD [根据四个选项中的等高条形图可知,选项D 中共享与不共享的企业经济活跃度的差异较大,且最能表达共享经济对该部门的发展有显著效果,应选D.]2.(2019·全国卷Ⅰ)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意 不满意 男顾客 40 10 女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异? 附:χ2=n ad -bc 2a +bc +d a +cb +d, P (χ2≥k )0.050 0.010 0.001 k3.8416.63510.828[解] (1)由调查数据知,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)χ2的观测值k =100×40×20-30×10250×50×70×30≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.。
2018高考数学理人教B版一轮课件:10-4变量间的相关关

^
关闭
B
解析
答案
-13知识梳理 双基自测
1
2
3
4
5
4.高三年级267位学生参加期末考试,某班37位学生的语文成绩、 数学成绩与总成绩在全年级中的排名情况如下图所示,甲、乙、丙 为该班三位学生.
2
,n+2=
,
.
-9知识梳理 双基自测
1
2
3
4
5
(3)两个临界值:3.841与6.635 2 当 χ >3.841 时,有95%的把握说事件A与B有关; 2>6.635 χ 当 时,有99%的把握说事件A与B有关; 当 χ2≤3.841 时,认为事件A与B是无关的.
-10知识梳理 双基自测
1
2
3
-4知识梳理 双基自测
1
2
3
4
5
3.散点图 在一个统计数表中,为了更清楚地看出x和y是否有相关关系,常将 x的取值作为横坐标,将y的相应取值作为纵坐标,在直角坐标系中描 点(xi,yi)(i=1,2,…,n),这样的图形叫做散点图.
-5知识梳理 双基自测
1
2
3
4
5
4.回归分析 对具有 相关关系 的两个变量进行统计分析的方法叫做 回归分析.其基本步骤是:(ⅰ)画散点图;(ⅱ) 求 回归直线方程 ;(ⅲ)用回归直线方程作预报. (1)回归直线:如果散点图中点的分布从整体上看大致在 一条直线 附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归 直线.
(5)通过回归方程������ = b x+������ 可以估计和观测变量的取值和变化 关闭 趋势 . ( (2)√ ) (3)√ (4)√ (5)√ (1)×
最新-2018届高三数学一轮复习 变量间的相关关系课件 新人教B版 精品

• 解析:作出散点图如图: • 由图可见,身高与年龄具有线性相关关系.
• (09·宁夏、海南)对变量x,y的观测数据(xi,yi)(i=1,2,…, 10),得散点图(1);对变量u,v的观测数据(u1,v1)(i= 1,2,…,10),得散点图(2).由这两个散点图可以判 断.( )
• A.变量x与y正相关,u与v正相关 • B.变量x与y正相关,u与v负相关 • C.变量x与y负相关,u与v正相关 • D.变量x与y负相关,u与v负相关 • 解析:由图(1)可知,各点整体呈递减趋势,x与y负相关,
• (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤, 试根据(2)求出的线性回归方程,预测生产100吨甲产品的生 产能耗比技改前降低多少吨标准煤?
• (参考数值:3×2.5+4×3+5×4+6×4.5=66.5)
• 解析:(1)由题设所给数据,可得散点图如下图.
4
(2)由表中数据,计算得: xi2=86,
∵k2=105×55×105×0×303-0×207×5 452≈6.109>3.841,
• 答案:95
∴有95%的把握说药物有效.
• 一、选择题 • 1.(2010·湖南文)某商品销售量y(件)与销售价格x(元/件)负
相关,则其回归方程可能是( )
A.^y=-10x+200
B.^y=10x+200
• 4.独立性检验 • (1)若变量的不同“值”表示个体所属的不同类别,则这些
变量称为分类变量.
• (2)两个分类变量X与Y的频数表,称作2×2列联表.
x1 x2 合计
y1 n11 n21 n+1
y2 n12 n22 n+2
合计
n1+ n2+
n
2018年高考数学一轮温习第十章算法初步统计统计案例课时达标67变量间的相关关系与统计案例理

2018年高考数学一轮温习 第十章 算法初步、统计、统计案例 课时达标67 变量间的相关关系与统计案例 理[解密考纲]本节内容在高考中,三种题型均有考查,文字量比较大,但题目较容易. 一、选择题1.登山族为了了解某山高y (km)与气温x (℃)之间的关系,随机统计了4次山高与相应的气温,并制作了对照表:由表中数据,取得线性回归方程y =-2x +a (a ∈R ),由此请估量出山高72(km)处气温的度数为( D ) A .-10 B .-8 C .-4D .-6解析:由题意可得:x =10,y =40, 因此a ^=y +2x =40+2×10=60.因此y ^=-2x +60,当y ^=72时,有-2x +60=72,解得x =-6,应选D .2.对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8)其回归直线方程是y ^=13x +a ^,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,那么实数a ^的值是( B )A .116B .18C .14D .12解析:依题意可知样本中心点为⎝ ⎛⎭⎪⎫34,38,那么38=13×34+a ^,解得a ^=18,应选B . 3.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,假设所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,那么这组样本数据的样本相关系数为( D )A .-1B .0C .12D .1解析:由题设可知这组样本中的数据完全正相关,又都在y =12x +1上,故相关系数为1,应选D .4.(2017·辽宁大连双基测试)关于以下表格所示五个散点,已知求得的线性回归方程为y ^=0.8x -155,那么实数m 的值为( A )A .8 C .8.4D .8.5解析:x =196+197+200+203+2045=200,y =1+3+6+7+m 5=17+m5,样本中心点为⎝ ⎛⎭⎪⎫200,17+m 5, 将样本中心点⎝⎛⎭⎪⎫200,17+m 5代入y ^=0.8x -155, 可得m =8,应选A .5.如表提供了某厂节能降耗技术改造后在生产A 产品进程中记录的产量x (吨)与相应的生产能耗y (吨)的几组对应数据,依照表提供的数据,求出y关于x 的线性回归方程为y ^=0.7x +0.35,那么以下结论错误的选项是( B )A B .t 的取值必然是3.15 C .回归直线必然过(4.5,3.5)D .A 产品每多生产1吨,那么相应的生产能耗约增加0.7吨 解析:由题意,x =3+4+5+64=4.5, 因为y ^=0.7x +0.35,因此y =0.7×4.5+0.35=3.5,因此t =4×3.5-2.5-4-4.5=3,应选B .6.(2017·福建泉州模拟)已知某产品持续4个月的广告费x 1(千元)与销售额y 1(万元),通过对这些数据的处置,取得如下数据信息:①∑i =44x i =18,∑i =44y i =14;②广告费用x 和销售额y 之间具有较强的线性相关关系; ③回归直线方程为y ^=b ^x +a ^中的b ^=0.8(用最小二乘法求得). 那么广告费用为6千元时,可预测销售额约为( B ) A .3.5万元 B .4.7万元 C .4.9万元D .6.5万元解析:因为∑i =14x i =18,∑i =14y i =14,因此x =92,y =72,因为回归直线方程为y ^=b ^x +a ^中的b ^=0.8, 因此72=0.8×92+a ^,因此a ^=-110,因此y ^=0.8x -110.故x =6时,可预测销售额约为4.7万元,应选B . 二、填空题7.已知x ,y 的取值如下表:从散点图分析,y 与x 线性相关,且回归方程为y =1.46x +a ,那么实数a 的值为-0.61.解析:x =2+3+4+54=3.5,y =2.2+3.8+5.5+6.54=4.5,回归方程必过样本的中心点(x ,y ).把(3.5,4.5)代入回归方程,计算得a ^=-0.61.8.高三某班学生每周用于物理学习的时刻x (单位:小时)与物理成绩y (单位:分)之间有如下关系:13.5 (. 解析:由已知可得x =24+15+23+19+16+11+20+16+17+1310=17.4,y =92+79+97+89+64+47+83+68+71+5910=74.9.设回归直线方程为y ^=3.53x +a ^, 那么74.9=3.53×17.4+a ^解得a ^≈13.5. 9.以下四个命题:①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,如此的抽样是分层抽样;②两个随机变量相关性越强,那么相关系数的绝对值越接近于1;③在回归直线方程y ^=0.2x +12中,当说明变量x 每增加一个单位时,预报变量y ^平均增加0.2单位; ④对分类变量X 与Y ,它们的随机变量K 2的观测值k 来讲,k 越小,“X 与Y 有关系”的把握程度越大. 其中所有正确的选项是②③.(填序号)解析:①是系统抽样;关于④,随机变量K 2的观测值k 越小,说明两个变量有关系的把握程度越小. 三、解答题10.下表是高三某位文科生持续5次月考的历史、政治的成绩,结果统计如下:月份 9 10 11 12 1 历史/x 分 79 81 83 85 87 政治/y 分7779798283(1)求该生5次月考历史成绩的平均分和政治成绩的方差;(2)一样来讲,学生的历史成绩与政治成绩有较强的线性相关关系,依照上表提供的数据,求两个变量x ,y 的线性回归方程y ^=b ^x +a ^.⎝⎛⎭⎪⎪⎫附:b ^=∑i =1n x i -xy i -y∑i =1nx i -x2=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x解析:(1)x =15×(79+81+83+85+87)=83,∵y =15(77+79+79+82+83)=80,∴s 2y =15[(77-80)2+(79-80)2+(79-80)2+(82-80)2+(83-80)2]=4.8.(2)∵∑i =15(x i -x )(y i -y )=30,∑i =15(x i -x )2=40,∴b ^=0.75,a ^=y -b ^x =17.75.那么所求的线性回归方程为y ^=0.75x +17.75.11.(2017·河北石家庄调研)某学校高中毕业班有男生900人,女生600人,学校为了对高三学生数学学习情形进行分析,从高三年级依照性别进行分层抽样,抽取200名学生成绩,统计数据如下表所示:分数段/分 [50,70) [70,90) [90,110) [110,130)[130,150)总计 频数2040705020200(2)若是样本数据中,有60名女生数学成绩合格,请完成如下数学成绩与性别的列联表,并判定是不是有90%的把握以为“该校学生的数学成绩与性别有关”.女生 男生 总计 及格人数 60 不及格人数 总计参考公式:K 2=n a +bc +d a +cb +d.P (K 2≥k0)0.10 0.050 0.010 k2.7063.8416.635解析:(1)高三学生数学平均成绩为1200(60×20+80×40+100×70+120×50+140×20)=101,估量高三学生数学平均成绩为101分,合格学生人数为70+50+20200×(900+600)=1 050.(2)女生 男生 总计 及格人数 60 80 140 不及格人数 20 40 60 总计80120200K 2的观测值k =200×60×40-20×80280×120×60×140=10063≈1.587<2.706, 因此没有90%的把握以为“该校学生的数学成绩与性别有关”.12.一家商场为了确信营销策略,进行了四次投入促销费用x 和商场实际销售额的实验,取得如下数据:投入促销费用x /万元 2 3 5 6 商场实际营销额y /万元100200300400(1)(2)求出x ,y 之间的回归直线方程y ^=b ^x +a ^;(3)假设该商场打算营销额不低于600万元,那么至少要投入多少万元的促销费用? 解析:(1)散点图,如下图,从图上能够看出两个变量具有较好的线性相关性.(2)x =2+3+5+64=4,y -=100+200+300+4004=250,∑i =14(x i -x )2=(2-4)2+(3-4)2+(5-4)2+(6-4)2=4+1+1+4=10,∑i =14(x 1-x )(y i -y -)=(-2)×(-150)+(-1)×(-50)+1×50+2×150=700.b ^=∑i =14x i -xy i -y-∑i =14x i -x2=70010=70, a ^=y --b ^x =250-70×4=-30.故所求的回归直线方程为y ^=70x -30. (3)令70x -30≥600,即x ≥600+3070=9(万元). 即该商场打算营销额不低于600万元,那么至少要投入9万元的促销费用.。
2018版高考数学复习第十章统计与统计案例10.3变量间的相关关系统计案例教师用书文北师大版
2018版高考数学大一轮复习 第十章 统计与统计案例 10.3 变量间的相关关系、统计案例教师用书 文 北师大版1.相关性(1)通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.(2)从散点图上可以看出,如果变量之间存在着某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这样近似的过程称为曲线拟合.(3)若两个变量x 和y 的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关的,若所有点看上去都在某条曲线(不是一条直线)附近波动,则称此相关是非线性相关的.如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的. 2.线性回归方程 (1)最小二乘法如果有n 个点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),可以用[y 1-(a +bx 1)]2+[y 2-(a +bx 2)]2+…+[y n -(a +bx n )]2来刻画这些点与直线y =a +bx 的接近程度,使得上式达到最小值的直线y =a +bx 就是所要求的直线,这种方法称为最小二乘法. (2)线性回归方程方程y =bx +a 是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的线性回归方程,其中a ,b 是待定参数.⎩⎨⎧b =∑n i =1x i -xy i -y∑ni =1x i-x2=∑ni =1x i y i -n x y∑n i =1x 2i -n x2,a =y -b x .3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(x n,y n)中,(x,y)称为样本点的中心.(3)相关系数①r=∑ni=1x i-x y i-y∑ni=1x i-x2∑ni=1y i-y2=∑ni=1x i y i-n x y∑ni=1x2i-n x2∑ni=1y2i-n y2;②当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关;当r=0时,表明两个变量线性不相关.|r|值越接近于1,表明两个变量之间的线性相关程度越高.|r|值越接近于0,表明两个变量之间的线性相关程度越低.4.独立性检验设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,A2=A1;变量B:B1,B2=B1.2×2列联表:BAB1B2总计A1 a b a+bA2 c d c+d总计a+c b+d n=a+b+c+d 构造一个统计量χ2=n ad-bc2a+b c+d a+c b+d.利用统计量χ2来判断“两个分类变量有关系”的方法称为独立性检验.当χ2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的;当χ2>2.706时,有90%的把握判定变量A,B有关联;当χ2>3.841时,有95%的把握判定变量A,B有关联;当χ2>6.635时,有99%的把握判定变量A,B有关联.【思考辨析】判断下列结论是否正确(请在括号中打“√”或“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( ×)(2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( √)(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( √)(4)某同学研究卖出的热饮杯数y与气温x(℃)之间的关系,得回归方程y=-2.352x+147.767,则气温为2℃时,一定可卖出143杯热饮.( ×)(5)事件X,Y关系越密切,则由观测数据计算得到的χ2越大.( √)(6)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( ×)1.(2015·湖北)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关答案 C解析因为y=-0.1x+1,-0.1<0,所以x与y负相关.又y与z正相关,故可设z=by +a(b>0),所以z=-0.1bx+b+a,-0.1b<0,所以x与z负相关.故选C.2.(教材改编)下面是2×2列联表:y1y2合计x1 a 2173x2222547合计 b 46120则表中a,b的值分别为( )A.94,72 B.52,50 C.52,74 D.74,52答案 C解析∵a+21=73,∴a=52.又a+22=b,∴b=74.3.(2017·重庆联考)已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能是( )A.y=0.4x+2.3 B.y=2x-2.4C.y=-2x+9.5 D.y=-0.3x+4.4答案 A解析因为变量x和y正相关,则回归直线的斜率为正,故可以排除选项C和D.因为样本点的中心在回归直线上,把点(3,3.5)分别代入选项A和B中的直线方程进行检验,可以排除B,故选A.4.(2016·西安模拟)某产品在某零售摊位的零售价x(单位:元)与每天的销售量y(单位:个)的统计资料如下表所示:由上表可得线性回归方程y=bx+a中的b=-4,据此模型预测零售价为15元时,每天的销售量为( )A.51个 B.50个 C.49个 D.48个答案 C解析由题意知x=17.5,y=39,代入线性回归方程得a=109,109-15×4=49,故选C.5.(2016·玉溪一中月考)利用独立性检验来判断两个分类变量X和Y是否有关系,通过查阅下表来确定“X和Y有关系”的可信度.为了调查用电脑时间与视力下降是否有关系,现从某地网民中抽取100位居民进行调查.经过计算得χ2≈3.855,那么就有________%的把握认为用电脑时间与视力下降有关系.答案95解析根据表格发现3.855>3.841,3.841对应的是0.05,所以根据独立性检验原理可知有95% 的把握认为用电脑时间与视力下降有关系.题型一 相关关系的判断例1 (1)四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得线性回归方程,分别得到以下四个结论: ①y 与x 负相关且y =2.347x -6.423; ②y 与x 负相关且y =-3.476x +5.648; ③y 与x 正相关且y =5.437x +8.493; ④y 与x 正相关且y =-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④D .①④(2)x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系; ②在该相关关系中,若用y =21e c xc 拟合时的相关系数的平方为r 21,用y =bx +a 拟合时的相关系数的平方为r 22,则r 21>r 22; ③x 、y 之间不能建立线性回归方程. 答案 (1)D (2)①②解析 (1)由线性回归方程y =bx +a 知当b >0时,y 与x 正相关,当b <0时,y 与x 负相关,∴①④一定错误.(2)①显然正确;由散点图知,用21ec xy c =拟合的效果比用y =bx +a 拟合的效果要好,故②正确;x ,y 之间能建立线性回归方程,只不过预报精度不高,故③不正确. 思维升华 判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关. (3)线性回归方程中:b >0时,正相关;b <0时,负相关.(1)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y=12x +1上,则这组样本数据的样本相关系数为( ) A .-1 B .0 C.12D .1(2)变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( ) A .r 2<r 1<0 B .0<r 2<r 1 C .r 2<0<r 1 D .r 2=r 1答案 (1)D (2)C解析 (1)所有点均在直线上,则样本相关系数最大,即为1,故选D.(2)对于变量Y 与X 而言,Y 随X 的增大而增大,故Y 与X 正相关,即r 1>0;对于变量V 与U 而言,V 随U 的增大而减小,故V 与U 负相关,即r 2<0,故选C.题型二 线性回归分析例2 (2016·全国丙卷)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码17分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17y i -y2=0.55,7≈2.646.参考公式:相关系数r =∑i =1nt i -ty i -y∑i =1nt i -t2∑i =1n y i -y2,回归方程y =a +bt 中斜率和截距的最小二乘估计公式分别为:b =∑i =1nt i -ty i -y∑i =1nt i -t2,a =y -b t .解 (1)由折线图中数据和附注中参考数据得t =4,∑i =17(t i -t )2=28,∑i =17y i -y2=0.55.∑i =17(t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32=2.89,所以r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b =∑i =17t i -ty i -y∑i =17t i -t2=2.8928≈0.103, a =y -b t ≈1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y =0.92+0.10t .将2016年对应的t =9代入回归方程得y =0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨. 思维升华 线性回归分析问题的类型及解题方法 (1)求线性回归方程①利用公式,求出回归系数b ,a .②待定系数法:利用回归直线过样本点的中心求系数. (2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值. (3)利用回归直线判断正、负相关;决定正相关还是负相关的是系数b .(4)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.(2015·课标全国Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.xyw∑i =18(x i -x )2∑i =18(w i -w )2∑i =18(x i -x )·(y i -y )∑i =18(w i -w )·(y i -y )46.6 563 6.8289.81.61 469108.8表中w i =x i ,w =18∑i =18w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β=∑i =1nu i -uv i -v∑i =1nu i -u2,α=v -βu .解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型. (2)令w =x ,先建立y 关于w 的线性回归方程,由于d =∑i =18w i -w·y i -y∑i =18w i -w2=108.81.6=68, c =y -d w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y =100.6+68w ,因此y 关于x 的回归方程为y =100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值y =100.6+6849=576.6, 年利润z 的预报值z =576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值z =0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z 取得最大值.故年宣传费为46.24千元时,年利润的预报值最大. 题型三 独立性检验例3 (2016·福建厦门三中模拟)某大型企业人力资源部为了研究企业员工工作的积极性和对待企业改革的态度的关系,随机抽取了100名员工进行调查,其中支持企业改革的调查者中,工作积极的有46人,工作一般的有35人,而不太赞成企业改革的调查者中,工作积极的有4人,工作一般的有15人. (1)根据以上数据建立一个2×2列联表;(2)对于人力资源部的研究项目,根据以上数据是否可以认为企业的全体员工对待企业改革的态度与其工作积极性有关系?参考公式:χ2=n ad -bc 2a +bc +d a +cb +d(其中n =a +b +c +d )P (χ2≥k 0)0.500.400.250.150.100.05 0.025 0.010 0.0050.001k 0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828解 (1)根据题设条件,得2×2列联表如下:支持企业改革不太赞成企业改革总计 工作积极 46 4 50 工作一般 35 15 50 总计8119100(2)提出假设:企业的全体员工对待企业改革的态度与其工作积极性无关. 根据(1)中的数据,可以求得 χ2=100×15×46-35×4250×50×19×81≈7.862>6.635,所以有99%的把握认为抽样员工对待企业改革的态度与工作积极性有关,从而认为企业的全体员工对待企业改革的态度与其工作积极性有关.思维升华 (1)比较几个分类变量有关联的可能性大小的方法 ①通过计算χ2的大小判断:χ2越大,两变量有关联的可能性越大.②通过计算|ad -bc |的大小判断:|ad -bc |越大,两变量有关联的可能性越大. (2)独立性检验的一般步骤 ①根据样本数据制成2×2列联表. ②根据公式χ2=n ad -bc 2a +ba +cb +dc +d计算χ2.③比较χ2与临界值的大小关系,作出统计推断.(2016·衡阳联考)2016年9月20日是第28个全国爱牙日,为了迎接此节日,某地区卫生部门成立了调查小组,调查“常吃零食与患龋齿的关系”,对该地区小学六年级800名学生进行检查,按患龋齿和不患龋齿分类,并汇总数据:不常吃零食且不患龋齿的学生有60名,常吃零食但不患龋齿的学生有100名,不常吃零食但患龋齿的学生有140名. (1)能否在犯错误的概率不超过0.001的前提下,认为该地区学生常吃零食与患龋齿有关系? (2)4名卫生部门的工作人员随机分成两组,每组2人,一组负责数据收集,另一组负责数据处理,求工作人员甲分到收集数据组,工作人员乙分到处理数据组的概率. 附:χ2=n ad -bc 2a +bc +d a +cb +dP (χ2≥k 0)0.010 0.005 0.001 k 06.6357.87910.828解 (1)由题意可得2×2列联表如下:不常吃零食常吃零食 总计 不患龋齿 60 100 160 患龋齿 140 500 640 总计200600800根据2×2列联表中数据,得 χ2=800×60×500-100×1402160×640×200×600≈16.667>10.828.∴能在犯错误的概率不超过0.001的前提下,认为该地区学生常吃零食与患龋齿有关系. (2)设其他工作人员为丙和丁,4人分组的所有情况如下表.小组 1 2 3 4 5 6 收集数据 甲乙 甲丙 甲丁 乙丙 乙丁 丙丁 处理数据丙丁乙丁乙丙甲丁甲丙甲乙由表可知,分组的情况共有6种,工作人员甲负责收集数据且工作人员乙负责处理数据的有2种,故工作人员甲分到收集数据组,工作人员乙分到处理数据组的概率为P =26=13.21.求线性回归方程的方法技巧典例 (12分)某地最近十年粮食需求量逐年上升,下表是部分统计数据:年份 2006 2008 2010 2012 2014 需求量/万吨236246257276286(1)利用所给数据求年需求量与年份之间的线性回归方程y =bx +a ; (2)利用(1)中所求出的线性回归方程预测该地2016年的粮食需求量.思想方法指导 回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组统计数据,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程. 规范解答解 (1)由所给数据看出,年需求量与年份之间近似直线上升,下面来求线性回归方程,先将数据处理如下表.年份-2010 -4 -2 0 2 4 需求-257-21-111929对处理的数据,容易算得x =0,y =3.2,[4分]b =-4×-21+-2×-11+2×19+4×29-5×0×3.2-42+-22+22+42-5×02=26040=6.5, a =y -b x =3.2.[6分]由上述计算结果,知所求线性回归方程为y -257=6.5(x -2010)+3.2,即y =6.5(x -2010)+260.2.[8分](2)利用所求得的线性回归方程,可预测2016年的粮食需求量大约为6.5×(2016-2010)+260.2=6.5×6+260.2=299.2(万吨).[12分]1.(2016·衡水质检)具有线性相关关系的变量x ,y 满足一组数据如下表所示.若y 与x 的线性回归方程为y =3x -32,则m 的值是( )x 0 1 2 3 y-11m8A.4B.92 C .5 D .6答案 A解析 由已知得x =32,y =m4+2,又因为点(x ,y )在直线y =3x -32上,所以m 4+2=3×32-32,得m =4.2.(2016·湖南师大附中月考)已知x ,y 的取值如下表:x 0 1 4 5 6 8 y1.31.85.66.17.49.3从所得散点图中分析可知:y 与x 线性相关,且y =0.95x +a ,则x =13时,y 等于( ) A .1.45 B .13.8 C .13 D .12.8 答案 B解析 由题意,x =16×(0+1+4+5+6+8)=4,y =16×(1.3+1.8+5.6+6.1+7.4+9.3)=5.25,∵y 与x 线性相关,且y =0.95x +a , ∴5.25=0.95×4+a ,∴a =1.45, 从而当x =13时,有y =13.8.故选B.3.(2017·泰安质检)为了普及环保知识,增强环保意识,某大学从理工类专业的A 班和文史类专业的B 班各抽取20名同学参加环保知识测试.统计得到成绩与专业的列联表:优秀 非优秀 总计 A 班 14 6 20 B 班7 13 20 总计211940附:参考公式及数据: (1)统计量:χ2=n ad -bc 2a +bc +d a +cb +d(n =a +b +c +d ).(2)独立性检验的临界值表:P (χ2≥k 0)0.050 0.010 k 03.8416.635则下列说法正确的是( )A .有99%的把握认为环保知识测试成绩与专业有关B .有99%的把握认为环保知识测试成绩与专业无关C .有95%的把握认为环保知识测试成绩与专业有关D .有95%的把握认为环保知识测试成绩与专业无关答案 C解析 因为χ2=40×14×13-7×6220×20×21×19≈4.912,3.841<χ2<6.635,所以有95%的把握认为环保知识测试成绩与专业有关.4.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y =0.85x -85.71,则下列结论中不正确的是( ) A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 答案 D解析 ∵0.85>0,∴y 与x 正相关,∴A 正确; ∵回归直线经过样本点的中心(x ,y ),∴B 正确; ∵Δy =0.85(x +1)-85.71-(0.85x -85.71)=0.85, ∴C 正确.故选D.5.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:优秀 非优秀 总计 甲班 10b乙班 c30 合计附:P (χ2≥k 0)0.05 0.025 0.010 0.005 k 03.8415.0246.6357.879已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是( )A .列联表中c 的值为30,b 的值为35B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系” 答案 C解析 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c =20,b =45,选项A 、B 错误. 根据列联表中的数据,得到χ2=105×10×30-20×45255×50×30×75≈6.109>5.024,因此有97.5%的把握认为“成绩与班级有关系”.6.已知数组(x 1,y 1),(x 2,y 2),…,(x 10,y 10)满足线性回归方程y =bx +a ,则“(x 0,y 0)满足线性回归方程y =bx +a ”是“x 0=x 1+x 2+…+x 1010,y 0=y 1+y 2+…+y 1010”的( )A .充分不必要条件B .必要不充分条件C .充要条件D .既不充分也不必要条件答案 B解析 x 0,y 0为这10组数据的平均数,根据公式计算线性回归方程y =bx +a 的b 以后,再根据a =y -b x (x ,y 为样本平均数)求得a .因此(x ,y )一定满足线性回归方程,但满足线性回归方程的除了(x ,y )外,可能还有其他样本点. 7.以下四个命题,其中正确的序号是________.①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③在线性回归方程y =0.2x +12中,当解释变量x 每增加一个单位时,预报变量y 平均增加0.2个单位;④对分类变量X 与Y 的统计量χ2来说,χ2越小,“X 与Y 有关系”的把握程度越大. 答案 ②③解析 ①是系统抽样;对于④,统计量χ2越小,说明两个相关变量有关系的把握程度越小. 8.(2016·郑州模拟)对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其线性回归方程是y =13x +a ,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数a 的值是________.答案 18解析 依题意可知样本点的中心为⎝ ⎛⎭⎪⎫34,38, 则38=13×34+a ,解得a =18. 9.(2016·江西南昌二中模拟)为了研究某种细菌随时间x 变化的繁殖个数y ,收集数据如下:天数x /天 1 2 3 4 5 6 繁殖个数y /个612254995190(1)用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图,根据散点图判断y =a +bx 与y =c 12e c x 哪一个作为繁殖个数y 关于时间x 变化的回归方程类型为最佳;(给出判断即可,不必说明理由)(2)根据(1)中判断的最佳类型及表中的数据,建立y 关于x 的回归方程.x y z∑6i =1(x i -x )2∑6i =1(x i -x )·(y i -y )∑6i =1(x i -x )·(z i -z )3.5 62.83 3.53 17.5596.512.09其中z i =ln y i ,z =16∑6i =1z i .参考公式:b =∑6i =1x i -xy i -y∑6i =1x i -x2,a =y -b x .解 (1)画散点图如下.由散点图看出样本点分布在一条类似指数函数图像的周围,于是先选择y =c 12e c x . (2)对y =c 12e c x 两边取对数,得ln y =c 2x +ln c 1. 令z =ln y ,c 2=b ,ln c 1=a ,则z =bx +a .x 1 2 3 4 5 6z1.792.483.22 3.894.555.25由b =∑6i =1x i -xz i -z∑6i =1x i -x2=12.0917.5=0.691, a =z -b x ≈1.112,得z =0.691x +1.112, 所以y =e0.691x +1.112.10.某高校共有学生15 000人,其中男生10 500人,女生4 500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2),[2,4),[4,6),[6,8),[8,10),[10,12],估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请列出每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”. 附:χ2=n ad -bc 2a +bc +d a +c b +d. P (χ2≥k 0)0.10 0.05 0.010 0.005 k 02.7063.8416.6357.879解 (1)300×4 50015 000=90,所以应收集90位女生的样本数据. (2)由频率分布直方图得 1-2×(0.025+0.100)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225(人)的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下: 每周平均体育运动时间与性别列联表男生 女生 总计 每周平均体育运动时间不超过4小时 45 30 75 每周平均体育运动时间超过4小时165 60 225 总计210 90300结合列联表可算得χ2=300×45×60-165×3075×225×210×90=10021≈4.762>3.841. 所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.。
高考数学一轮总复习 第10章 算法初步、统计、统计案例 第四节 变量间的相关关系 统计案例课件 文
3.(教材习题改编)为研究吸烟是否对患肺癌有影响,某肿瘤 研究所随机地调查了 9 965 人,得出如下结果(单位:人):
不吸烟 吸烟 总计
不患肺癌 患肺癌 总计
7 775
42 7 817
2 099
49 2 148
9 874
91 9 965
则患肺癌与吸烟________.(填“有关”或“无关”)
答案:有关
D.l1 与 l2 相交,但交点不一定是(s,t)
解析:注意到回归直线必经过样本中心点.
答案:C
考点一 相关关系的判断 基础送分型考点——自主练透
[题组练透]
1.(易错题)对四组数据进行统计,获得如图所示的散点图,
关于其相关系数的比较,正确的是
()
A.r2<r4<0<r3<r1 B.r4<r2<0<r1<r3 C.r4<r2<0<r3<r1 D.r2<r4<0<r1<r3
3.独立性检验
假设有两个分类变量 X 和 Y,它们的取值分别为{x1,x2} 和{y1,y2},其样本频数列联表(称为 2×2 列联表)为:
x1 x2 总计
y1
y2
a
b
c
d
a+c b+d
总计 a+b c+d a+b+c+d
K2=a+ban+adc-bb+cd2c+d(其中 n=a+b+c+d 为 样本容量).
[小题体验] 1.(教材习题改编)已知 x,y 的取值如下表,从散点图可
以看出 y 与 x 线性相关,且回归方程为^y=0.95x+^a,
则^a= x01 3 4
()
y 2.2 4.3 4.8 6.7
A.3.25
B.2.6 C.2.2
D.0
解析:∵回归直线必过样本点的中心(-x ,-y ),又-x =2, -y =4.5,代入回归方程,得^a=2.6. 答案:B
2018版高考数学大一轮复习第十章统计与统计案例10.3变量间的相关关系统计案例教师用书文北师大版
2018版高考数学大一轮复习 第十章 统计与统计案例 10.3 变量间的相关关系、统计案例教师用书 文 北师大版1.相关性(1)通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.(2)从散点图上可以看出,如果变量之间存在着某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这样近似的过程称为曲线拟合.(3)若两个变量x 和y 的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关的,若所有点看上去都在某条曲线(不是一条直线)附近波动,则称此相关是非线性相关的.如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的. 2.线性回归方程 (1)最小二乘法如果有n 个点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),可以用[y 1-(a +bx 1)]2+[y 2-(a +bx 2)]2+…+[y n -(a +bx n )]2来刻画这些点与直线y =a +bx 的接近程度,使得上式达到最小值的直线y =a +bx 就是所要求的直线,这种方法称为最小二乘法. (2)线性回归方程方程y =bx +a 是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的线性回归方程,其中a ,b 是待定参数.⎩⎨⎧b =∑n i =1x i-x y i-y ∑i =1x i-x 2=∑ni =1x i y i -n x y ∑i =1x 2i-n x2,a =y -b x .3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(x n,y n)中,(x,y)称为样本点的中心.(3)相关系数①r=∑ni=1x i-x y i-y∑ni=1x i-x 2∑ni=1y i-y 2=∑ni=1x i y i-n x y∑ni=1x2i-n x2∑ni=1y2i-n y2;②当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关;当r=0时,表明两个变量线性不相关.|r|值越接近于1,表明两个变量之间的线性相关程度越高.|r|值越接近于0,表明两个变量之间的线性相关程度越低.4.独立性检验设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,A2=A1;变量B:B1,B2=B1.2×2列联表:构造一个统计量χ2=n ad-bc 2a+b c+d a+c b+d.利用统计量χ2来判断“两个分类变量有关系”的方法称为独立性检验.当χ2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的;当χ2>2.706时,有90%的把握判定变量A,B有关联;当χ2>3.841时,有95%的把握判定变量A,B有关联;当χ2>6.635时,有99%的把握判定变量A,B有关联.【思考辨析】判断下列结论是否正确(请在括号中打“√”或“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( ×)(2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( √)(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( √)(4)某同学研究卖出的热饮杯数y与气温x(℃)之间的关系,得回归方程y=-2.352x+147.767,则气温为2℃时,一定可卖出143杯热饮.( ×)(5)事件X,Y关系越密切,则由观测数据计算得到的χ2越大.( √)(6)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( ×)1.(2015·湖北)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关答案 C解析因为y=-0.1x+1,-0.1<0,所以x与y负相关.又y与z正相关,故可设z=by +a(b>0),所以z=-0.1bx+b+a,-0.1b<0,所以x与z负相关.故选C.2.(教材改编)下面是2×2列联表:则表中a,b的值分别为( )A.94,72 B.52,50 C.52,74 D.74,52答案 C解析∵a+21=73,∴a=52.又a+22=b,∴b=74.3.(2017·重庆联考)已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能是( )A.y=0.4x+2.3 B.y=2x-2.4C.y=-2x+9.5 D.y=-0.3x+4.4答案 A解析因为变量x和y正相关,则回归直线的斜率为正,故可以排除选项C和D.因为样本点的中心在回归直线上,把点(3,3.5)分别代入选项A和B中的直线方程进行检验,可以排除B,故选A.4.(2016·西安模拟)某产品在某零售摊位的零售价x(单位:元)与每天的销售量y(单位:个)的统计资料如下表所示:由上表可得线性回归方程y=bx+a中的b=-4,据此模型预测零售价为15元时,每天的销售量为( )A.51个 B.50个 C.49个 D.48个答案 C解析由题意知x=17.5,y=39,代入线性回归方程得a=109,109-15×4=49,故选C.5.(2016·玉溪一中月考)利用独立性检验来判断两个分类变量X和Y是否有关系,通过查阅下表来确定“X和Y有关系”的可信度.为了调查用电脑时间与视力下降是否有关系,现从某地网民中抽取100位居民进行调查.经过计算得χ2≈3.855,那么就有________%的把握认为用电脑时间与视力下降有关系.答案95解析根据表格发现3.855>3.841,3.841对应的是0.05,所以根据独立性检验原理可知有95% 的把握认为用电脑时间与视力下降有关系.题型一 相关关系的判断例1 (1)四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得线性回归方程,分别得到以下四个结论: ①y 与x 负相关且y =2.347x -6.423; ②y 与x 负相关且y =-3.476x +5.648; ③y 与x 正相关且y =5.437x +8.493; ④y 与x 正相关且y =-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④D .①④(2)x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用y =21e c xc 拟合时的相关系数的平方为r 21,用y =bx +a 拟合时的相关系数的平方为r 22,则r 21>r 22; ③x 、y 之间不能建立线性回归方程. 答案 (1)D (2)①②解析 (1)由线性回归方程y =bx +a 知当b >0时,y 与x 正相关,当b <0时,y 与x 负相关,∴①④一定错误.(2)①显然正确;由散点图知,用21e c xy c =拟合的效果比用y =bx +a 拟合的效果要好,故②正确;x ,y 之间能建立线性回归方程,只不过预报精度不高,故③不正确. 思维升华 判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关. (3)线性回归方程中:b >0时,正相关;b <0时,负相关.(1)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( ) A .-1 B .0 C.12D .1(2)变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( ) A .r 2<r 1<0 B .0<r 2<r 1 C .r 2<0<r 1 D .r 2=r 1答案 (1)D (2)C解析 (1)所有点均在直线上,则样本相关系数最大,即为1,故选D.(2)对于变量Y 与X 而言,Y 随X 的增大而增大,故Y 与X 正相关,即r 1>0;对于变量V 与U 而言,V 随U 的增大而减小,故V 与U 负相关,即r 2<0,故选C.题型二 线性回归分析例2 (2016·全国丙卷)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码17分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17y i -y2=0.55,7≈2.646.参考公式:相关系数r =∑i =1nt i -ty i -y∑i =1nt i -t2∑i =1ny i -y2,回归方程y =a +bt 中斜率和截距的最小二乘估计公式分别为:b =∑i =1nt i -ty i -y∑i =1nt i -t 2,a =y -b t .解 (1)由折线图中数据和附注中参考数据得t =4,∑i =17(t i -t )2=28,∑i =17y i -y2=0.55.∑i =17(t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32=2.89,所以r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b =∑i =17t i -ty i -y∑i =17t i -t 2=2.8928≈0.103, a =y -b t ≈1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y =0.92+0.10t .将2016年对应的t =9代入回归方程得y =0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨. 思维升华 线性回归分析问题的类型及解题方法 (1)求线性回归方程①利用公式,求出回归系数b ,a .②待定系数法:利用回归直线过样本点的中心求系数. (2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值. (3)利用回归直线判断正、负相关;决定正相关还是负相关的是系数b .(4)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.(2015·课标全国Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑i =18w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β=∑i =1nu i -uv i -v∑i =1nu i -u 2,α=v -βu .解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型. (2)令w =x ,先建立y 关于w 的线性回归方程,由于d =∑i =18w i -w· y i -y∑i =18w i -w2=108.81.6=68, c =y -d w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y =100.6+68w ,因此y 关于x 的回归方程为y =100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值y =100.6+6849=576.6, 年利润z 的预报值z =576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值z =0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z 取得最大值.故年宣传费为46.24千元时,年利润的预报值最大. 题型三 独立性检验例3 (2016·福建厦门三中模拟)某大型企业人力资源部为了研究企业员工工作的积极性和对待企业改革的态度的关系,随机抽取了100名员工进行调查,其中支持企业改革的调查者中,工作积极的有46人,工作一般的有35人,而不太赞成企业改革的调查者中,工作积极的有4人,工作一般的有15人. (1)根据以上数据建立一个2×2列联表;(2)对于人力资源部的研究项目,根据以上数据是否可以认为企业的全体员工对待企业改革的态度与其工作积极性有关系?参考公式:χ2=n ad -bc 2a +bc +d a +c b +d(其中n =a +b +c +d )解 (1)根据题设条件,得2×2列联表如下:(2)提出假设:企业的全体员工对待企业改革的态度与其工作积极性无关. 根据(1)中的数据,可以求得χ2=100× 15×46-35×4 250×50×19×81≈7.862>6.635,所以有99%的把握认为抽样员工对待企业改革的态度与工作积极性有关,从而认为企业的全体员工对待企业改革的态度与其工作积极性有关.思维升华 (1)比较几个分类变量有关联的可能性大小的方法 ①通过计算χ2的大小判断:χ2越大,两变量有关联的可能性越大.②通过计算|ad -bc |的大小判断:|ad -bc |越大,两变量有关联的可能性越大. (2)独立性检验的一般步骤 ①根据样本数据制成2×2列联表.②根据公式χ2=n ad -bc 2 a +b a +c b +d c +d计算χ2.③比较χ2与临界值的大小关系,作出统计推断.(2016·衡阳联考)2016年9月20日是第28个全国爱牙日,为了迎接此节日,某地区卫生部门成立了调查小组,调查“常吃零食与患龋齿的关系”,对该地区小学六年级800名学生进行检查,按患龋齿和不患龋齿分类,并汇总数据:不常吃零食且不患龋齿的学生有60名,常吃零食但不患龋齿的学生有100名,不常吃零食但患龋齿的学生有140名. (1)能否在犯错误的概率不超过0.001的前提下,认为该地区学生常吃零食与患龋齿有关系? (2)4名卫生部门的工作人员随机分成两组,每组2人,一组负责数据收集,另一组负责数据处理,求工作人员甲分到收集数据组,工作人员乙分到处理数据组的概率.附:χ2=n ad -bc 2a +bc +d a +c b +d解 (1)由题意可得2×2列联表如下:根据2×2列联表中数据,得χ2=800× 60×500-100×140 2160×640×200×600≈16.667>10.828.∴能在犯错误的概率不超过0.001的前提下,认为该地区学生常吃零食与患龋齿有关系. (2)设其他工作人员为丙和丁,4人分组的所有情况如下表.由表可知,分组的情况共有6种,工作人员甲负责收集数据且工作人员乙负责处理数据的有2种,故工作人员甲分到收集数据组,工作人员乙分到处理数据组的概率为P =26=13.21.求线性回归方程的方法技巧典例 (12分)某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的线性回归方程y =bx +a ; (2)利用(1)中所求出的线性回归方程预测该地2016年的粮食需求量.思想方法指导 回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组统计数据,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程. 规范解答解 (1)由所给数据看出,年需求量与年份之间近似直线上升,下面来求线性回归方程,先将数据处理如下表.对处理的数据,容易算得x =0,y =3.2,[4分]b =-4 × -21 + -2 × -11 +2×19+4×29-5×0×3.2-4 2+ -2 2+22+42-5×02=26040=6.5, a =y -b x =3.2.[6分]由上述计算结果,知所求线性回归方程为y -257=6.5(x -2010)+3.2,即y =6.5(x -2010)+260.2.[8分](2)利用所求得的线性回归方程,可预测2016年的粮食需求量大约为6.5×(2016-2010)+260.2=6.5×6+260.2=299.2(万吨).[12分]1.(2016·衡水质检)具有线性相关关系的变量x ,y 满足一组数据如下表所示.若y 与x 的线性回归方程为y =3x -32,则m 的值是( )A.4B.92 C .5 D .6答案 A解析 由已知得x =32,y =m4+2,又因为点(x ,y )在直线y =3x -32上,所以m 4+2=3×32-32,得m =4.2.(2016·湖南师大附中月考)已知x ,y 的取值如下表:从所得散点图中分析可知:y 与x 线性相关,且y =0.95x +a ,则x =13时,y 等于( ) A .1.45 B .13.8 C .13 D .12.8 答案 B解析 由题意,x =16×(0+1+4+5+6+8)=4,y =16×(1.3+1.8+5.6+6.1+7.4+9.3)=5.25,∵y 与x 线性相关,且y =0.95x +a , ∴5.25=0.95×4+a ,∴a =1.45, 从而当x =13时,有y =13.8.故选B.3.(2017·泰安质检)为了普及环保知识,增强环保意识,某大学从理工类专业的A 班和文史类专业的B 班各抽取20名同学参加环保知识测试.统计得到成绩与专业的列联表:附:参考公式及数据:(1)统计量:χ2=n ad -bc 2a +bc +d a +c b +d(n =a +b +c +d ).(2)独立性检验的临界值表:则下列说法正确的是( )A .有99%的把握认为环保知识测试成绩与专业有关B .有99%的把握认为环保知识测试成绩与专业无关C .有95%的把握认为环保知识测试成绩与专业有关D .有95%的把握认为环保知识测试成绩与专业无关答案 C解析 因为χ2=40× 14×13-7×6220×20×21×19≈4.912,3.841<χ2<6.635,所以有95%的把握认为环保知识测试成绩与专业有关.4.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y =0.85x -85.71,则下列结论中不正确的是( ) A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 答案 D解析 ∵0.85>0,∴y 与x 正相关,∴A 正确; ∵回归直线经过样本点的中心(x ,y ),∴B 正确; ∵Δy =0.85(x +1)-85.71-(0.85x -85.71)=0.85, ∴C 正确.故选D.5.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:附:已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是( )A .列联表中c 的值为30,b 的值为35B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系” 答案 C解析 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c =20,b =45,选项A 、B 错误. 根据列联表中的数据,得到χ2=105× 10×30-20×45255×50×30×75≈6.109>5.024,因此有97.5%的把握认为“成绩与班级有关系”.6.已知数组(x 1,y 1),(x 2,y 2),…,(x 10,y 10)满足线性回归方程y =bx +a ,则“(x 0,y 0)满足线性回归方程y =bx +a ”是“x 0=x 1+x 2+…+x 1010,y 0=y 1+y 2+…+y 1010”的( )A .充分不必要条件B .必要不充分条件C .充要条件D .既不充分也不必要条件答案 B解析 x 0,y 0为这10组数据的平均数,根据公式计算线性回归方程y =bx +a 的b 以后,再根据a =y -b x (x ,y 为样本平均数)求得a .因此(x ,y )一定满足线性回归方程,但满足线性回归方程的除了(x ,y )外,可能还有其他样本点. 7.以下四个命题,其中正确的序号是________.①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③在线性回归方程y =0.2x +12中,当解释变量x 每增加一个单位时,预报变量y 平均增加0.2个单位;④对分类变量X 与Y 的统计量χ2来说,χ2越小,“X 与Y 有关系”的把握程度越大. 答案 ②③解析 ①是系统抽样;对于④,统计量χ2越小,说明两个相关变量有关系的把握程度越小. 8.(2016·郑州模拟)对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其线性回归方程是y =13x +a ,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数a 的值是________.答案 18解析 依题意可知样本点的中心为⎝ ⎛⎭⎪⎫34,38, 则38=13×34+a ,解得a =18. 9.(2016·江西南昌二中模拟)为了研究某种细菌随时间x 变化的繁殖个数y ,收集数据如下:(1)用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图,根据散点图判断y =a +bx 与y =c 12e c x 哪一个作为繁殖个数y 关于时间x 变化的回归方程类型为最佳;(给出判断即可,不必说明理由)(2)根据(1)中判断的最佳类型及表中的数据,建立y 关于x 的回归方程.其中z i =ln y i ,z =16∑6i =1z i .参考公式:b =∑6i =1x i -x y i -y∑i =1x i -x2,a =y -b x . 解 (1)画散点图如下.由散点图看出样本点分布在一条类似指数函数图像的周围,于是先选择y =c 12e c x . (2)对y =c 12e c x 两边取对数,得ln y =c 2x +ln c 1. 令z =ln y ,c 2=b ,ln c 1=a ,则z =bx +a .由b =∑6i =1x i -x z i -z ∑6i =1x i -x 2=12.0917.5=0.691, a =z -b x ≈1.112,得z =0.691x +1.112, 所以y =e0.691x +1.112.10.某高校共有学生15 000人,其中男生10 500人,女生4 500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2),[2,4),[4,6),[6,8),[8,10),[10,12],估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请列出每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:χ2=n ad -bc 2a +bc +d a +c b +d.解 (1)300×4 50015 000=90,所以应收集90位女生的样本数据. (2)由频率分布直方图得 1-2×(0.025+0.100)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225(人)的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下: 每周平均体育运动时间与性别列联表结合列联表可算得χ2=300× 45×60-165×3075×225×210×90=10021≈4.762>3.841. 所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.。
2018年高考数学理人教A版一轮复习课件:第十章 算法初
^
^
^
^ ^
^ ^ ^ 由 ������ =-0.1x+1 知 y 与 x 负相关,又 ������ 与 z 正相关,故 z 与 x 负相关.
关闭
D.x 与������ 负相关,x 与 z 正相关
^
关闭
A
解析 答案
-10知识梳理 双基自测
1
2
3
4
5
3.(2016河南焦作二模)为了解某社区居民的家庭年收入与年支出 的关系,随机调查了该社区5户家庭,得到如下统计数据表:
(5)通过回归方程������ = b x+������ 可以估计和观测变量的取值和变化 关闭 趋势 . ( (2)√ ) (3)√ (4)√ (5)√ (1)×
答案
^ ^ ^
-9知识梳理 双基自测
1
2
3
4
5
2.已知变量 x 和 y 满足关系������ =-0.1x+1,变量������ 与 z 正相关.下列结 论中正确的是( ) A.x 与������ 负相关,x 与 z 负相关 B.x 与������ 正相关,x 与 z 正相关 C.x 与������ 正相关,x 与 z 负相关
������
∑ ������2 ������ -������������
������
,它主要用于相关量的显著性检验,以衡量
2
它们之间的线性相关程度.当r>0时表示两个变量正相关,当r<0 时表示两个变量负相关.|r|越接近1,表明两个变量的线性相关 性 越强 ;当|r|接近0时,表明两个变量间几乎不存 在 线性相关性 .
^
关闭
8.2+8.6+10+11.3+11.9
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2018年高考数学一轮复习 第十章 算法初步、统计、统计案例 第67
讲 变量间的相关关系与统计案例实战演练 理
1.(2015·福建卷)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
根据上表可得回归直线方程y =b x +a ,其中b =0.76,a =y -b x .据此估计,该社区一户年收入为15万元家庭的年支出为( B )
A .11.4万元
B .11.8万元
C .12.0万元
D .12.2万元
解析:统计数据得x =
8.2+8.6+10.0+11.3+11.9
5
=10.0,
y -=6.2+7.5+8.0+8.5+9.85=8.0,则a ^=8.0-0.76×10.0=0.4,所以回归直线方
程为y ^=0.76x +0.4,当x =15时,y ^
=0.76×15+0.4=11.8,故估计年收入为15万元家庭的年支出为11.8万元,故选B .
2.(2015·北京卷)高三年级267位学生参加期末考试,某班37位学生的语文成绩、数学成绩与总成绩在全年级中的排名情况如图所示,甲、乙、丙为该班三位学生.
从这次考试成绩看,
①在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是乙; ②在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是数学.
解析:①由图可知,甲的语文成绩排名比总成绩排名靠后,而乙的语文成绩排名比总成绩排名靠前,故填乙.②由图可知,比丙的数学成绩排名还靠后的人比较多,而总成绩的排名中比丙排名靠后的人数比较少,所以丙的数学成绩的排名更靠前,故填数学.
3.(2016·全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注:
参考数据:∑i =1
7
y i =9.32,∑i =1
7
t i y i =40.17,
∑i =1
7
y i -y
2
=0.55,7=2.646.
参考公式:相关系数r =
∑i =1
n
t i -t
y i -y
∑i =1
n
t i -t
2
∑i =1
n
y i -y
2
,
回归方程y ^
=a ^
+b ^
t 中斜率和截距的最小二乘估计公式分别为:
b ^
=
∑i =1
n
t i -t
y i -y
∑i =1
n
t i -t 2
,a ^
=y -b ^
t .
解析:(1)由折线图中数据和附注中参考数据得t -
=4,∑i =1
7
(t i -t -)2
=28,
∑i =1
7
y i -y -
2=0.55,
∑i =1
7 (t i -t -)(y i -y -)=∑i =1
7t i y i -t -
∑i =1
7
y i =40.17-4×9.32=2.89,
r ≈
2.89
0.55×2×2.646
≈0.99.
因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用
线性回归模型拟合y 与t 的关系.
(2)由y -=9.327
≈1.331及(1)得b ^=
∑i =1
7
t i -t - y i -y -
∑i =1
7
t i -t -
2
=2.8928
≈0.103,a ^=y --b ^t -
=1.331-0.103×4≈0.92.
所以,y 关于t 的回归方程为y ^
=0.92+0.10t .
将2016年对应的t =9代入回归方程得y ^
=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.
4.(2014·安徽卷)某高校共有学生15 000人,其中男生10 500人,女生4 500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).
(1)应收集多少位女生的样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
附:K 2
=n ad -bc 2
a +
b
c +
d a +c b +d
解析:(1)300×15 000
=90,所以应收集90位女生的样本数据.
(2)由频率分布直方图得1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.
(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,
75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的.所以每周平均体育运动时间与性别列联表如下:
K 2
=300× 45×60-165×30 2
75×225×210×90=10021
≈4.762>3.841.
所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.。