高考数学(文)大一轮复习检测:10.3变量间的相关关系、统计案例(含答案)
高三数学(文)一轮复习课件:变量间的相关关系、统计案例

某商品销售量 y(件)与销售价格 x(元/件)负相关,
则其回归方程可能是( )
A. yˆ 10x 200
B. yˆ 10x 200
C. yˆ 10x 200
D. yˆ 10x 200
【解析】 ∵商品销售量 y(件)与销售价格 x(元/件)负相 关,∴a<0,排除 B,D.又∵x=0 时,y>0 ,∴排除 C,答案为 A. 【答案】 A
10.3 变量间的相关关系、统计案例
1.两个变量的线性相关 (1)正相关 在散点图中,点散布在从 左下角 到 右上角 的区域,对于 两个变量的这种相关关系,我们将它称为正相关. (2)负相关 在散点图中,点散布在从 左上角 到 右下角 的区域,对于 两个变量的这种相关关系,我们将它称为负相关.
2/18/2020
和b为模型的_未__知__参__数___,_e__称为随机误差.
2/18/2020
(4)相关系数
n
xi- x yi- y
i=1
n
n
xi- x 2 yi- y 2
i=1
i=1
①r=____________________________;
②当r>0时,表明两个变量__正__相__关__; 当r<0时,表明两个变量__负__相___关__.
2/18/2020
有甲、乙两个班级进行数学考试,按照大于等于 85 分为优秀,85
分以下为非优秀统计成绩后,得到如下的列联表.
优秀
非优秀
总计
甲班
10
乙班
30
合计 105
已知从全部 105 人中随机抽取 1 人为优秀的概率为 2 . 7
(1)请完成上面的列联表;
高考数学一轮复习 第十章 统计与统计案例 10.3 变量间的相关关系、统计案例真题演练集训 理 新人

系、统计案例真题演练集训理新人教A版编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(2018版高考数学一轮复习第十章统计与统计案例10.3 变量间的相关关系、统计案例真题演练集训理新人教A版)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为2018版高考数学一轮复习第十章统计与统计案例10.3 变量间的相关关系、统计案例真题演练集训理新人教A版的全部内容。
关系、统计案例真题演练集训理新人教A版1.[2015·福建卷]为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x(万元)8。
28.610.011。
311.9支出y(万元) 6.27。
58。
08.59.8根据上表可得回归直线方程y,=错误!x+错误!,其中错误!=0.76,错误!=错误!-错误!错误!。
据此估计,该社区一户年收入为15万元家庭的年支出为( )A.11。
4万元 B.11.8万元C.12。
0万元 D.12。
2万元答案:B解析:由题意知,x=错误!=10,错误!=错误!=8,∴错误!=8-0。
76×10=0。
4,∴当x=15时,错误!=0。
76×15+0.4=11。
8(万元).2.[2016·新课标全国卷Ⅲ]下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1-7分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:错误!i=9.32,错误!i y i=40。
高三数学一轮复习:0104变量间相关关系、统计案例

例 4. 随着我国中医学的发展,药用昆虫的使用愈来愈多.每年春暖以后至寒冬前,昆虫大量活动与繁殖,
易于采集各种药用昆虫.已知一只药用昆虫的产卵数 y(单位:个)与一定范围内的温度 x(单位:℃)有关,
其中拟合效果最好的模型是( )
A.模型 1 的相关指数 R2 为 0.98
B.模型 2 的相关指数 R2 为 0.80
C.模型 3 的相关指数 R2 为 0.50
D.模型 4 的相关指数 R2 为 0.25
补 5 下列命题中正确的为( ) A.线性相关系数 r 越大,两个变量的线性相关性越强 B.线性相关系数 r 越小,两个变量的线性相关性越弱 C.残差平方和越小的模型,模型拟合的效果越好 D.用相关指数 R2 来刻画回归效果,R2 越小,说明模型的拟合效果越好
程,再对被选取的 2 组数据进行检验.
(1)若选取的是 3 月 2 日与 30 日这 2 组的数据,请根据 3 月 7 日、15 日和 22 日这 3 组的数据,求出 y 关
于 x 的线性回归方程;
(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过 2 个,则认为得到的线性回归方
程是可靠的,试问(1)中所得的线性回归方程是否可靠?
(2)由(1)知,y 关于 x 的线性回归方程为y^=52x-3.
当 x=10 时,y^=52×10-3=22,|22-23|<2,
当 x=8 时,y^=52×8-3=17,|17-16|<2.
所以(1)中所得的线性回归方程y^=52x-3 是可靠的.
例 5 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费 x(单位:千元)对年销售量 y(单位:t) 和年利润 z(单位:千元)的影响,对近 8 年的年宣传费 xi 和年销售量 yi(i=1,2,…,8)的数据作了初步处理, 得到下面的散点图及一些统计量的值.
高考数学一轮复习10.3统计案例

2013版高考数学一轮复习精品学案:第十章 统计、统计案例10.3统计案例【高考新动向】一、考纲点击1.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;2.了解回归分析的基本思想、方法及其简单应用. 二、热点提示1.本部分主要内容是变量的相关性及其几种常见的统计方法.在高考中主要是以考查独立性检验、回归分析为主,并借助解决一些简单的实际问题来了解一些基本的统计思想;2.本部分在高考中多为选择、填空题,也有可能出现解答题,都为中低档题.【考纲全景透析】1.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法;(2)随机误差:线性回归模型用y bx a e =++表示,其中a b 和为模型的未知数,e 称为随机误差.(3)样本点的中心在具有线性相关关系的数据1122(,),(,),,(,)n n x y x y x y 中,回归方程的截距和斜率的最小二乘估计公式分别为:121()()ˆˆˆˆ,.()niii nii x x y y bay bx x x ==--==--∑∑ 其中1111,,(,)n ni i i i x x y y x y n n ====∑∑称为样本点的中心.(4)相关系数①12211()();()()niii n niii i x x y y r x x y y ===--=--∑∑∑②当0r >时,表明两个变量正相关; 当0r <时,表明两个变量负相关.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常||r 大于0.75时,认为两个变量有很强的线性相关性.2.残差分析 (1)总偏差平方和把每个效应(观测值减去总的平均值)的平方加起来即:21()nii y y =-∑(2)残差数据点和它回归直线上相应位置的差异()i i y y -是随机误差的效应,称i i i e y y =-为残差.(3)残差平方和21()niii y y =-∑.(4)相关指数22121()()niii nii y y R y y ==-=-∑∑2R 的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中, 2R 表示解释变量对预报变量变化的贡献率, 2R 越接近于1,表示回归的效果越好.3.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y,它们的可能取值分别为1122{,}{,}x y x y 和,其样本频数列联表(称为2×2列联表)为2×2列联表1y 2y总计1x a b a b + 2xcdc d +总计a c +b d + a bcd +++构造一个随机变量22()()()()()n ad bc K a b c d a c b d -=++++,其中a b c d +++为样本容量.(3)独立性检验利用随机变量2K 来确定是否能以一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.注: 在独立性检验中经常由2K 得到观测值k ,则k =2K 是否成立?(2K 与k 的关系并不是k =2K ,k 是2K 的观测值,或者说2K 是一个随机变量,它在a ,b ,c ,d )取不同值时,2K 可能不同,而k 是取定一组数a ,b ,c ,d 后的一个确定的值.【热点难点精析】(一)线性回归分析 ※相关链接※1.首先利用散点图判断两个变量是否线性相关.2.求回归方程y bx a =+.(1)线性回归方程中的截距a 和斜率b 都是通过样本估计而来的,存在着误差,这种误差可能导致预报结果的偏差.(2)回归方程y bx a =+中的b 表示x 增加1个单位时y 的变化量为b . (3)可以利用回归方程y bx a =+预报在x 取某一个值时y 的估计值. 3.相关系数r利用相关系数r 来衡量两个变量之间的线性相关的强弱. 4.建立回归模型的步骤(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y bx a =+).(4)按一定规则估计回归方程中的参数(如最小二乘法).(5)得出结果后分析残差是否异常(个别数据对应残差过大,或残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否适合等.注:回归方程只适用于我们所研究的样本的总体,而且一般都有时间性.样本的取值范围一般不能超过回归方程的适用范围,否则没有实用价值.※例题解析※〖例〗测得某国10对父子身高(单位:英寸)如下:(1)对变量y x 与进行相关性检验;(2)如果y x 与之间具有线性相关关系,求回归方程. (3)如果父亲的身高为73英寸,估计儿子的身高.思路解析:(1)先根据已知计算相关系数r ,判断是否具有相关关系. (2)再利用分工求出回归方程进行回归分析. 解答:(1)1010102222111101101022221166.8,67.01,4462.24,4490.4,44974,44941.93,44842.4,1044842.4104476.26879.72(4479444622.4)(44941.93449.3.4)661(10)(10)iii i i i i i ii i i i i x y x y x y x y x y x yr x x y y =========≈===--⨯==----∑∑∑∑∑∑0.804.1.5764≈所以y x 与之间具有很强的线性相关关系.(2)设回归方程为y bx a=+.由101102211044842.444762.6879.72ˆ0.46464479444662.4171.610i ii i i x y x ybx x==--===≈--∑∑.ˆˆ67.010.464666.835.97.ay bx =-=-⨯≈ 故所求的回归方程为:ˆ0.464635.97yx =+. (3)当x=73时, ˆ0.46467335.9769.9y=⨯+≈.所以当父亲身高为73英寸时,估计儿子身高约为69.9英寸.(二)非线性回归分析 ※相关链接※1.非线性回归模型:当回归方程不是形如y bx a =+时称之为非线性回归模型.2.非线性回归模型的拟合效果:对于给定的样本点1122(,),(,),,(,)n n x y x y x y ,两个含有未知数的模型(1)(2)(,)(,)y f x a y g x b ==和,其中a b 和都是未知参数.可按如下的步骤比较它们的拟合效果:(1)分别建立对应于两个模型的回归方程(1)(2)ˆˆˆˆ(,)(,)yf x a yg x b ==和,其中ˆˆa b 和分别是参数a b 和的估计值;(2)分别计算两个回归方程的残差平方和(1)(1)2(2)(2)211ˆˆˆˆ()()nni i i i i i Qy yQ y y===-=-∑∑和; (3)若(1)ˆQ<(2)ˆQ ,则(1)(2)ˆˆˆˆ(,)(,)y f x a y g x b ==的效果比; 反之, (1)(2)ˆˆˆˆ(,)(,)yf x a yg x b ==的效果不如的好. ※例题解析※〖例〗为了研究某种细菌随时间x 变化时,繁殖个数y 的变化,收集数据如下:(1)用天数x 作解释变量,繁殖个数y 作预报变量,作出这些数据的散点图; (2)描述解释变量x 与预报变量y 之间的关系; (3)计算残差平方和、相关指数.思路解析:作出散点图→分析与哪种曲线拟合→转化线性关系→进行回归分析. 解答:(1)所作散点图如图所示.(2)由散点图看出样本点分析在一条指数函数21c xy c e =的周围,于是令ln z y =,则由计算器得:ˆ0.69 1.112,zx =+则有 1.69 1.112ˆx y e +=. (3)则662211ˆˆ() 3.1643ii i i i ey y ===-=∑∑,621ˆ()i i i y y =-∑=24642.8,2 3.164310.999924642.8R =-=,即解释变量天数对预报变量细菌的繁殖个数解释了99.99%.(三)独立性检验〖例〗在调查的480名男人中有38名患有色盲,520名女人中有6名患有色盲,分别利用图形和独立性检验的方法来判断色盲与性别是否有关?你所得到的结论在什么范围内有效?思路解析:(1)先由已知作出调查数据的列联表; (2)再根据列联表画出二维条形图,并进行分析; (3)利用独立性检验作出判断.解答:根据题目所给的数据作出如下的联表:根据列联表作出相应的二维条形图,如图所示.从二维条形图来看,在男人中患色盲的比例38480,要比在女人中患色盲的比例6520要大,其差值为386||0.068,480520-≈差值较大,因而我们可以认为“性别与患色盲是有关的”,根据列联表中所给的数据可以有38,442,6,514,a b c d a b c d a c ====+=+=+=代入公式22()()()()()n ad bcKa b c d a c b d-=++++得221000(385146442)27.148052044956K⨯⨯-⨯=≈⨯⨯⨯。
2020届高三理数一轮讲义:10.3-变量间的相关关系与统计案例(含答案)

第3节 变量间的相关关系与统计案例最新考纲 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.知 识 梳 理1.相关关系与回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系. 2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^__,则b ^=∑ni =1(x i -x -)(y i -y -)∑n i =1(x i -x -)2=∑n i =1x i y i -nx -y-∑n i =1x 2i -nx-2,a ^=y --b ^x -.其中,b ^是回归方程的斜率,a ^是在y 轴上的截距.回归直线一定过样本点的中心(x -,y -). 3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心:对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x -,y -)称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.(4)相关指数:R 2=1-∑n i =1 (y i -y ^i )2∑ni =1(y i -y -)2.其中∑n i =1(y i -y ^i )2是残差平方和,其值越小,则R 2越大(接近1),模型的拟合效果越好. 4.独立性检验(1)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)为则随机变量K 2=n (ad -bc )2(a +b )(a +c )(b +d )(+d ),其中n =a +b +c +d 为样本容量.[微点提醒]1.求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本中心点(x -,y -).2.根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.3.根据回归方程计算的y ^值,仅是一个预报值,不是真实发生的值.基 础 自 测1.判断下列结论正误(在括号内打“√”或“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )(2)通过回归直线方程y ^=b ^x +a ^可以估计预报变量的取值和变化趋势.( ) (3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( )(4)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( ) 答案 (1)√ (2)√ (3)× (4)√2.(选修2-3P91探究改编)为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( ) A.回归分析 B.均值与方差 C.独立性检验D.概率解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断. 答案 C3.(选修2-3P85讲解改编)两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数R 2如下,其中拟合效果最好的模型是( ) A.模型1的相关指数R 2为0.98 B.模型2的相关指数R 2为0.80 C.模型3的相关指数R 2为0.50 D.模型4的相关指数R 2为0.25解析 在两个变量y 与x 的回归模型中,它们的相关指数R 2越近于1,模拟效果越好,在四个选项中A 的相关指数最大,所以拟合效果最好的是模型1. 答案 A4.(2019·焦作模拟)已知变量x 和y 的统计数据如下表:根据上表可得回归直线方程为y ^=b ^x -0.25,据此可以预测当x =8时,y ^=( ) A.6.4B.6.25C.6.55D.6.45解析 由题意知x -=3+4+5+6+75=5,y -=2.5+3+4+4.5+65=4,将点(5,4)代入y ^=b ^x -0.25,解得b ^=0.85,则y ^=0.85x -0.25,所以当x =8时,y ^=0.85×8-0.25=6.55,故选C. 答案 C5.(2015·全国Ⅱ卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论不正确的是( )A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关解析 对于A 选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,D 不正确.答案 D6.(2019·丹东教学质量监测)某校为了研究学生的性别和对待某一活动的态度(支持与不支持)的关系,运用2×2列联表进行独立性检验,经计算K2=6.705,则所得到的统计学结论是:有________的把握认为“学生性别与支持该活动没有关系”()A.99.9%B.99%C.1%D.0.1%解析因为 6.635<6.705<10.828,因此有1%的把握认为“学生性别与支持该活动没有关系”,故选C.答案 C考点一相关关系的判断【例1】 (1)观察下列各图形,其中两个变量x,y具有相关关系的图是( )A.①②B.①④C.③④D.②③(2)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:则哪位同学的试验结果体现A,B两变量有更强的线性相关性( )A.甲B.乙C.丙D.丁解析 (1)由散点图知③中的点都分布在一条直线附近.④中的点都分布在一条曲线附近,所以③④中的两个变量具有相关关系.(2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A ,B 两变量有更强的线性相关性. 答案 (1)C (2)D规律方法 1.散点图中如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.2.利用相关系数判定,当|r |越趋近于1相关性越强.当残差平方和越小,相关指数R 2越大,相关性越强.若r >0,则正相关;r <0时,则负相关.3.线性回归直线方程中:b ^>0时,正相关;b ^<0时,负相关.【训练1】 (1)已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( ) A.x 与y 正相关,x 与z 负相关 B.x 与y 正相关,x 与z 正相关 C.x 与y 负相关,x 与z 负相关 D.x 与y 负相关,x 与z 正相关(2)x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用y =c 1e c 2x 拟合时的相关指数为R 21,用y ^=b ^x +a ^拟合时的相关指数为R 22,则R 21>R 22;③x ,y 之间不能建立线性回归方程.解析 (1)由y =-0.1x +1,知x 与y 负相关,即y 随x 的增大而减小,又y 与z 正相关,所以z 随y 的增大而增大,减小而减小,所以z 随x 的增大而减小,x 与z 负相关.(2)在散点图中,点散布在从左上角到右下角的区域,因此x ,y 是负相关关系,故①正确;由散点图知用y =c 1e c 2x 拟合比用y ^=b ^x +a ^拟合效果要好,则R 21>R 22,故②正确;x ,y 之间可以建立线性回归方程,但拟合效果不好,故③错误. 答案 (1)C (2)①② 考点二 线性回归方程及应用【例2】 (2018·日照调研)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:表1为了研究计算的方便,工作人员将上表的数据进行了处理,t =x -2 012,z =y -5得到下表2:表2(1)求z 关于t 的线性回归方程;(2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少?(附:对于线性回归方程y ^=b ^x +a ^,其中b ^=∑ni =1x i y i -nx -·y-∑n i =1x 2i -nx-2,a ^=y --b ^x -)解 (1)t -=3,z -=2.2,∑5i =1t i z i =45,∑5i =1t 2i =55,b ^=45-5×3×2.255-5×9=1.2,a ^=z --b ^t -=2.2-3×1.2=-1.4,所以z ^=1.2t -1.4.(2)将t =x -2 012,z =y -5,代入z ^=1.2t -1.4,得y -5=1.2(x -2 012)-1.4,即y ^=1.2x -2 410.8.(3)因为y ^=1.2×2 022-2 410.8=15.6,所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.规律方法 1.(1)正确理解计算b ^,a ^的公式和准确的计算是求线性回归方程的关键.(2)回归直线方程y ^=b ^x +a ^必过样本点中心(x -,y -).2.(1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.(2)对于非线性回归分析问题,应先进行变量代换, 求出代换后的回归直线方程,再求非线性回归方程.【训练2】 (2018·全国Ⅱ卷)如图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2, (17)建立模型①:y ^=-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^=99+17.5t .(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.解 (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y ^=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为y ^=99+17.5×9=256.5(亿元). (2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^=99+17.5t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠. (ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分. 考点三 独立性检验【例3】 (2019·湖南长沙雅礼中学、河南省实验中学联考)环境问题是当今世界共同关注的问题,我国环保总局根据空气污染指数PM2.5浓度,制定了空气质量标准:某市政府为了打造美丽城市,节能减排,从2010年开始考察了连续六年11月份的空气污染指数,绘制了频率分布直方图,经过分析研究,决定从2016年11月1日起在空气质量重度污染和严重污染的日子对机动车辆限号出行,即车牌尾号为单号的车辆单号出行,车牌尾号为双号的车辆双号出行(尾号是字母的,前13个视为单号,后13个视为双号).王先生有一辆车,若11月份被限行的概率为0.05.(1)求频率分布直方图中m的值;(2)若按分层抽样的方法,从空气质量良好与中度污染的天气中抽取6天,再从这6天中随机抽取2天,求至少有一天空气质量是中度污染的概率;(3)该市环保局为了调查汽车尾气排放对空气质量的影响,对限行两年来的11月份共60天的空气质量进行统计,其结果如下表:根据限行前6年180天与限行后60天的数据,计算并填写2×2列联表,并回答是否有90%的把握认为空气质量的优良与汽车尾气的排放有关.参考数据:参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.解(1)因为限行分单双号,王先生的车被限行的概率为0.05,所以空气重度污染和严重污染的概率应为0.05×2=0.1,由频率分布直方图可知(0.004+0.006+0.005+m)×50+0.1=1,解得m=0.003.(2)因为空气质量良好与中度污染的天气的概率之比为0.3∶0.15=2∶1,按分层抽样的方法从中抽取6天,则空气质量良好的天气被抽取的有4天,记作A1,A2,A3,A4,空气中度污染的天气被抽取的有2天,记作B1,B2,从这6天中随机抽取2天,所包含的基本事件有(A1,A2),(A1,A3),(A1,A4),(A1,B1),(A1,B2),(A2,A3),(A2,A4),(A2,B1),(A2,B2),(A3,A4),(A3,B1),(A3,B2),(A4,B1),(A4,B2),(B1,B2),共15个,记事件A为“至少有一天空气质量是中度污染”,则事件A所包含的事件有(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(A4,B1),(A4,B2),(B1,B2),共9个,故P(A)=915=35,即至少有一天空气质量是中度污染的概率为35.(3)2×2列联表如下:由表中数据可得,K2=240×(90×22-90×38)2180×60×128×112≈3.214>2.706,所以有90%的把握认为空气质量的优良与汽车尾气的排放有关.规律方法 1.在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表:(2)根据公式K2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)计算K2的观测值k;(3)比较观测值k与临界值的大小关系,作统计推断.【训练3】为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案5%[思维升华]1.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.2.独立性检验是根据K2的值判断两个分类变量有关的可信程度.[易错防范]1.求回归方程,关键在于正确求出系数a^,b^ ,由于a^ ,b^ 的计算量大,计算时应仔细谨慎,分步进行,避免因计算而产生错误.2.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.3.独立性检验中统计量K2的观测值k0的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.基础巩固题组(建议用时:40分钟)一、选择题1.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3解析由散点图知图(1)与图(3)是正相关,故r1>0,r3>0,图(2)与图(4)是负相关,故r2<0,r4<0,且图(1)与图(2)的样本点集中在一条直线附近,因此r<r4<0<r3<r1,故选A.2答案 A2.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适.②用相关指数R2来刻画回归的效果,R2值越接近于1,说明模型的拟合效果越好.③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.正确的是( )A.①②B.②③C.①③D.①②③答案 D3.在一次对性别与说谎是否相关的调查中,得到如下数据:根据表中数据,得到如下结论正确的一项是( ) A.在此次调查中有95%的把握认为是否说谎与性别有关 B.在此次调查中有99%的把握认为是否说谎与性别有关 C.在此次调查中有99.5%的把握认为是否说谎与性别有关 D.在此调查中没有充分的证据显示说谎与性别有关解析 由已知得k =30×(6×9-7×8)213×17×14×16≈0.002<0.455,所以在犯错误的概率不超过50%的情况下,认为说谎与性别无关,也就是说,在此调查中没有充分的证据显示说谎与性别有关. 答案 D4.(2019·衡水中学调研)已知变量x ,y 之间的线性回归方程为y ^=-0.7x +10.3,且变量x ,y 之间的一组相关数据如下表所示,则下列说法错误..的是( )A.变量x ,y 之间呈负相关关系B.可以预测,当x =20时,y ^=-3.7 C.m =4D.该回归直线必过点(9,4)解析 由-0.7<0,得变量x ,y 之间呈负相关关系,故A 正确;当x =20时,y ^=-0.7×20+10.3=-3.7,故B 正确;由表格数据可知x -=14×(6+8+10+12)=9,y -=14(6+m +3+2)=11+m 4,则11+m 4=-0.7×9+10.3,解得m =5,故C错;由m =5,得y -=6+5+3+24=4,所以该回归直线必过点(9,4),故D 正确.故选C. 答案 C5.通过随机询问110名性别不同的学生是否爱好某项运动,得到如下的列联表:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )算得,K 2=110×(40×30-20×20)260×50×60×50≈7.8.得到的正确结论是( )A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.有95%以上的把握认为“爱好该项运动与性别有关”D.有95%以上的把握认为“爱好该项运动与性别无关”解析 根据独立性检验的定义,由K 2≈7.8>6.635,可知我们有99%的把握认为“爱好该项运动与性别有关”. 答案 A 二、填空题6.某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得回归直线方程y ^=b ^x +a ^中的b ^=-2,预测当气温为-4 ℃时,用电量约为________度.解析 根据题意知x -=18+13+10+(-1)4=10,y -=24+34+38+644=40.所以a^=40-(-2)×10=60,y ^=-2x +60.所以当x =-4时,y =(-2)×(-4)+60=68,所以用电量约为68度. 答案 687.(2018·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)根据上述数据,推断视觉和空间想象能力与性别有关系,则这种推断犯错误的概率不超过________. 附表:解析 由列联表计算K 2的观测值k =50(22×12-8×8)230×20×20×30≈5.556>5.024.∴推断犯错误的概率不超过0.025. 答案 0.0258.(2019·广东深中、华附、省实、广雅四校联考)如图是一组数据(x ,y )的散点图,经最小二乘估计公式计算,y 与x 之间的线性回归方程为y ^=b ^x +1,则b ^=________.解析 由题图知x -=0+1+3+44=2, y -=0.9+1.9+3.2+4.44=2.6,将(2,2.6)代入y ^=b ^x +1中,解得b ^=0.8.答案0.8三、解答题9.(2018·重庆调研)某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了80人,结果如下表:(1)根据上表,现用分层抽样的方法抽取对产品满意的用户5人,在这5人中任选2人,求被选中的恰好是男、女用户各1人的概率;(2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由.注:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.解(1)用分层抽样的方法在满意产品的用户中抽取5人,则抽取比例为550=110.所以在满意产品的用户中应抽取女用户20×110=2(人),男用户30×110=3(人).抽取的5人中,三名男用户记为a,b,c,两名女用户记为r,s,则从这5人中任选2人,共有10种情况:ab,ac,ar,as,bc,br,bs,cr,cs,rs.其中恰好是男、女用户各1人的有6种情况:ar,as,br,bs,cr,cs.故所求的概率为P=610=0.6.(2)由题意,得K2的观测值为k=80×(30×20-20×10)2(30+20)×(10+20)×(30+10)×(20+20)=163≈5.333>5.024.又P(K2≥5.024)=0.025.故有97.5%的把握认为“产品用户是否满意与性别有关”. 10.调查某公司的五名推销员,其工作年限与年推销金额如下表:(1)在图中画出年推销金额关于工作年限的散点图,并从散点图中发现工作年限与年推销金额之间关系的一般规律;(2)利用最小二乘法求年推销金额关于工作年限的回归直线方程; (3)利用(2)中的回归方程,预测工作年限为10年的推销员的年推销金额.附:b ^=∑ni =1(x i -x -)(y i -y -)∑n i =1(x i -x -)2,a ^=y --b ^x -.解 (1)年推销金额关于工作年限的散点图如图:从散点图可以看出,各点散布在从左下角到右上角的区域里,因此, 工作年限与年推销金额正相关,即工作年限越长,年推销金额越大. (2)由表中数据可得:x -=15×(2+3+5+7+8)=5,y -=15×(3+3.5+4+6.5+8)=5,b ^=∑ni =1 (x i -x -)(y i -y -)∑n i =1(x i -x -)2=(-3)×(-2)+(-2)×(-1.5)+0+2×1.5+3×39+4+0+4+9=2126, a ^=y --b ^x -=5-2126×5=2526,∴年推销金额关于工作年限的回归直线方程为y ^=2126x +2526.(3)当x =10时,y ^=2126×10+2526=23526, ∴预测工作年限为10年的推销员的年推销金额为23526万元. 能力提升题组(建议用时:20分钟)11.(2019·黄山一模)在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是( )A.若K 2的观测值为k =6.635,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,那么在100个吸烟的人中必有99人患有肺癌B.由独立性检验可知,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有99%的可能患有肺癌C.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误D.以上三种说法都不正确解析 独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误.故选C. 答案 C12.(2019·承德期末)某城市收集并整理了该市2018年1月份至10月份各月最低气温与最高气温(单位:℃)的数据,绘制了下面的折线图.已知该城市各月的最低气温与最高气温具有较好的线性关系,则根据折线图,下列结论错误的是( ) A.最低气温与最高气温为正相关B.10月的最高气温不低于5月的最高气温C.月温差(最高气温减最低气温)的最大值出现在1月D.最低气温低于0 ℃的月份有4个解析 在A 中,最低气温与最高气温为正相关,故A 正确; 在B 中,10月的最高气温不低于5月的最高气温,故B 正确;在C 中,月温差(最高气温减最低气温)的最大值出现在1月,故C 正确; 在D 中,最低气温低于0 ℃的月份有3个,故D 错误.故选D. 答案 D13.在2018年3月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x +40,且m +n =20,则其中的n =________.解析 x -=9+9.5+m +10.5+115=8+m5,y -=11+n +8+6+55=6+n5.回归直线一定经过样本中心(x -,y -),即6+n 5=-3.2⎝ ⎛⎭⎪⎫8+m 5+40,即3.2m +n =42.又因为m +n =20,即⎩⎨⎧3.2m +n =42,m +n =20,解得⎩⎨⎧m =10,n =10,故n =10.答案 1014.(2018·山东、湖北部分重点中学模拟)某地级市共有200 000名中小学生,其中有7%的学生在2017年享受了“国家精准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为5∶3∶2,为进一步帮助这些学生,当地市政府设立“专项教育基金”,对这三个等次的困难学生每年每人分别补助 1 000元、1 500元、2 000元.经济学家调查发现,当地人均可支配收入较上一年每增加有n %,一般困难的学生中有3n %会脱贫,脱贫后将不再享受“国家精准扶贫”政策,很困难的学生中有2n %转为一般困难,特别困难的学生中有n %转为很困难.现统计了该地级市2013年到2017年共5年的人均可支配收入,对数据初步处理后得到了如图所示的散点图和表中统计量的值,其中年份x 取13时代表2013年,x 与y (万元)近似满足关系式y =C 1·2C 2x ,其中C 1,C 2为常数(2013年至2019年该市中学生人数大致保持不变).其中k i =log 2 y i ,k -=15∑5i =1k i .(1)估计该市2018年人均可支配收入;(2)求该市2018年的“专项教育基金”的财政预算大约为多少.附:①对于一组具有线性相关关系的数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线方程v ^=β^u +α^的斜率和截距的最小二乘估计分别为β^=∑n i =1(u i -u -)(v i -v -)∑n i =1(u i -u -)2,α^=v --β^u -.②解 (1)因为x -=15×(13+14+15+16+17)=15,所以∑5i =1 (x i -x -)2=(-2)2+(-1)2+02+12+22=10.由k =log 2 y 得k =log 2 C 1+C 2x ,所以C 2=∑5i =1(x i -x -)(k i -k -)∑5i =1(x i -x -)2=110, log 2 C 1=k --C 2x -=1.2-110×15=-0.3, 所以C 1=2-0.3=0.8,所以y =0.8×2x 10.当x =18时,y =0.8×21.8=0.8×3.5=2.8(万元). 即该市2018年人均可支配收入为2.8万元.(2)由题意知2017年时该市享受“国家精准扶贫”政策的学生有200 000×7%=。
高考数学一轮复习学案:11.3 变量间的相关关系、统计案例(含答案)

高考数学一轮复习学案:11.3 变量间的相关关系、统计案例(含答案)11.3变量间的相关关系变量间的相关关系..统计案例统计案例最新考纲考情考向分析1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程3.了解独立性检验的基本思想.方法及其初步应用4.了解回归分析的基本思想.方法及简单应用.回归分析,独立性检验是全国卷高考重点考查的内容,必考一个解答题,选择.填空题中也会出现主要考查回归方程,相关系数,利用回归方程进行预测,独立性检验的应用等.1两个变量的线性相关1正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关2负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关3线性相关关系.回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线2回归方程1最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法2回归方程方程ybxa是两个具有线性相关关系的变量的一组数据x1,y1,x2,y2,,xn,yn的回归方程,其中a,b是待定参数bni1xixyiyni1xix2ni1xiyinxyni1x2inx2,aybx.3回归分析1定义对具有相关关系的两个变量进行统计分析的一种常用方法2样本点的中心对于一组具有线性相关关系的数据x1,y1,x2,y2,,xn,yn,其中x,y称为样本点的中心3相关系数当r0时,表明两个变量正相关;当rR22;x,y之间不能建立线性回归方程答案解析在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故正确;由散点图知用y21ecxc拟合比用ybxa拟合效果要好,则R21R22,故正确;x,y之间可以建立线性回归方程,但拟合效果不好,故错误思维升华判定两个变量正,负相关性的方法1画散点图点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关2相关系数r0时,正相关;r0时,正相关;b10.828,所以有99.9的把握认为“经常使用微信与年龄有关”求线性回归方程的方法技巧典例12分某地最近年粮食需求量逐年上升,下表是部分统计数据年份xxxxxxxxxx需求量/万吨2362462572762861利用所给数据求年需求量与年份之间的线性回归方程ybxa;2利用1中所求出的线性回归方程预测该地xx年的粮食需求量思想方法指导回归分析是处理变量相关关系的一种数学方法主要解决1确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;2根据一组观测值,预测变量的取值及判断变量取值的变化趋势;3求出线性回归方程规范解答解1由所给数据看出,年需求量与年份之间近似直线上升,下面来求线性回归方程,先将数据处理如下表年份xx42024需求257211101929对处理的数据,容易算得x0,y3.2,4分b421211219429503.242222242502260406.5,aybx3.2.6分由上述计算结果,知所求线性回归方程为y2576.5xxx3.2,即y6.5xxx260.2.8分2利用所求得的线性回归方程,可预测xx年的粮食需求量大约为6.5xxxx260.26.58260.2312.2万吨12分。
2019年高考文科数学一轮复习:变量间的相关关系与统计案例(检测题解析版附后)

2019年高考文科数学一轮复习:变量间的相关关系与统计案例(检测题解析版附后)A 组 基础达标 (建议用时:30分钟)一、选择题1.已知变量x 和y 满足关系y =-0.1x +1,变量y 与 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与 负相关B .x 与y 正相关,x 与 正相关C .x 与y 负相关,x 与 负相关D .x 与y 负相关,x 与 正相关2.(2018·汉中模拟)已知两个随机变量x ,y 之间的相关关系如下表所示:根据上述数据得到的回归方程为y =b x +a ,则大致可以判断( ) A .a ^>0,b ^>0 B .a ^>0,b ^<0 C .a ^<0,b ^>0D .a ^<0,b ^<03.(2018·江西九校联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.附表:由K 2=(a +b )(c +d )(a +c )(b +d ),算得K 2=13)258×42×35×65≈9.616,参照附表,得到的正确结论是( )A .在犯错误的概率不超过0.1 的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1 的前提下,认为“生育意愿与城市级别无关”C .有99 以上的把握认为“生育意愿与城市级别有关”D .有99 以上的把握认为“生育意愿与城市级别无关” 4.(2018·皖南模拟)下列说法错误的是( ) A .回归直线过样本点的中心(x ,y )B .两个随机变量的线性相关性越强,则相关系数的绝对值就越接近1C .在回归直线方程y ^=0.2x +0.8中,当解释变量x 每增加1个单位时,预报 变量y ^平均增加0.2个单位D .对分类变量X 与Y ,随机变量K 2的观测值k 越大,则判断“X 与Y 有关 系”的把握程度越小5.(2015·福建高考)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y =b x +a ,其中b =0.76,a =y -b x .据此估计,该社区一户年收入为15万元家庭的年支出为( ) A .11.4万元 B .11.8万元 C .12.0万元 D .12.2万元6.为了判断高中三年级学生是否选修文 与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥根据表中数据,得到K 2=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文 与性别有关系出错的可能性为________.7.(2018·唐山模拟)为了研究某种细菌在特定环境下随时间变化的繁殖规律,得到了下表中的实验数据,计算得回归直线方程为y ^=0.85x -0.25.由以上信息,可得表中c 的值为________.8.(2017·长沙雅礼中学质检)某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得回归直线方程y =b x +a 中的b =-2,预测当气温为-4 ℃时,用电量为________度.9.(2017·石家庄质检)微信是现代生活进行信息交流的重要工具,据统计,某公司200名员工中90 的人使用微信,其中每天使用微信时间在一小时以内的有60人,其余的员工每天使用微信的时间在一小时以上,若将员工分成青年(年龄小于40岁)和中年(年龄不小于40岁)两个阶段,那么使用微信的人中75 是青年人.若规定:每天使用微信时间在一小时以上为经常使用微信,那么经常使用微信的员工中23是青年人.(1)若要调查该公司使用微信的员工经常使用微信与年龄的关系,列出2×2列联表:(2)龄有关”?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).10.(2018·长沙模拟)已知某企业近3年的前7个月的月利润(单位:百万元)如下面的折线图9-4-6所示:图9-4-6(1)试问这3年的前7个月中哪个月的月平均利润较高? (2)通过计算判断这3年的前7个月的总利润的发展趋势;(3)试以第3年的前4个月的数据(如下表),用线性回归的拟合模式估计第3年8月份的利润.相关公式:b ^=∑ i =1 (x i -x )(y i -y )∑ n i =1(x i -x )2=∑ i =1x i y i -n x y ∑ ni =1x 2i -n x2,a ^=y -b ^x .B 组 能力提升(建议用时:15分钟)1.(2018·安阳模拟)已知变量x 与y 的取值如下表所示,且2.5<n <m <6.5,则由该数据算得的线性回归方程可能是( )A .y ^=0.8x +2.3 B .y =2x +0.4 C .y ^=-1.5x +8D .y ^=-1.6x +102.(2017·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)的概率不超过________. 附表:3.(2018·汕头模拟)二手车经销商小王对其所经营的A 型号二手汽车的使用年数x 与销售价格y (单位:万元/辆)进行整理,得到如下数据:图9-4-7(1)由折线图可以看出,可以用线性回归模型拟合 与x 的关系,请用相关系数加以说明;(2)求y 关于x 的回归方程,并预测某辆A 型号二手车当使用年数为9年时售价约为多少;(b ^,a ^小数点后保留两位有效数字)(3)基于成本的考虑,该型号二手车的售价不得低于7 118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年. 参考公式:b ^=∑ n i =1(x i -x )(y i -y )∑ n i =1(x i -x )2=∑ ni =1x i y i -n x y ∑ n i =1x 2i -n x2,a ^=y -b ^x ,r =∑ n i =1 (x i -x )(y i -y )∑ ni =1(x i -x )2∑ ni =1(y i -y )2. 参考数据:∑ 6 i =1x i y i =187.4,∑ 6 i =1x i i =47.64,∑ 6 i =1x 2i =139,∑ 6i =1(x i -x )2=4.18,∑ 6i =1(y i -y )2=13.96,∑ 6 i =1(z i -z )2=1.53,ln 1.46≈0.38,ln 0.711 8≈-0.34.2019年高考文科数学一轮复习:变量间的相关关系与统计案例(检测题解析版)A 组 基础达标 (建议用时:30分钟)一、选择题1.已知变量x 和y 满足关系y =-0.1x +1,变量y 与 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与 负相关B .x 与y 正相关,x 与 正相关C .x 与y 负相关,x 与 负相关D .x 与y 负相关,x 与 正相关C [随着x 的增大,y 减小, 也减小,从而x 与y 负相关,x 与 负相关.] 2.(2018·汉中模拟)已知两个随机变量x ,y 之间的相关关系如下表所示:根据上述数据得到的回归方程为y =b x +a ,则大致可以判断( ) A .a ^>0,b ^>0 B .a ^>0,b ^<0 C .a ^<0,b ^>0 D .a ^<0,b ^<0C [画出散点图及样本点的中心(0.2,-1.7)可知b ^>0,a ^<0.]3.(2018·江西九校联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.附表:由K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),算得K 2=100×(45×22-20×13)258×42×35×65≈9.616,参照附表,得到的正确结论是( )A .在犯错误的概率不超过0.1 的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1 的前提下,认为“生育意愿与城市级别无关”C .有99 以上的把握认为“生育意愿与城市级别有关”D .有99 以上的把握认为“生育意愿与城市级别无关” C [∵K 2=100×(45×22-20×13)258×42×35×65≈9.616>6.635,∴有99 以上的把握认为“生育意愿与城市级别有关”,故选C .] 4.(2018·皖南模拟)下列说法错误的是( ) A .回归直线过样本点的中心(x ,y )B .两个随机变量的线性相关性越强,则相关系数的绝对值就越接近1C .在回归直线方程y ^=0.2x +0.8中,当解释变量x 每增加1个单位时,预报 变量y ^平均增加0.2个单位D .对分类变量X 与Y ,随机变量K 2的观测值k 越大,则判断“X 与Y 有关 系”的把握程度越小D [对于A ,回归直线过样本点的中心(x ,y ),正确;对于B ,两个随机变量相关性越强,则相关系数的绝对值越接近1,正确; 对于C ,在线性回归方程y ^=0.2x +0.8中,当解释变量x 每增加1个单位时,预报变量平均增加0.2个单位,正确;对于D ,对分类变量X 与Y 的随机变量K 2的观测值k 来说,k 越大,“X 与Y 有关系”的把握程度越大,因此不正确.故选D.]5.(2015·福建高考)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y =b x +a ,其中b =0.76,a =y -b x .据此估计,该社区一户年收入为15万元家庭的年支出为( ) A .11.4万元 B .11.8万元 C .12.0万元 D .12.2万元B [由题意知,x =8.2+8.6+10.0+11.3+11.95=10,y =6.2+7.5+8.0+8.5+9.85=8,∴a ^=8-0.76×10=0.4,∴当x =15时,y ^=0.76×15+0.4=11.8(万元).] 二、填空题6.为了判断高中三年级学生是否选修文 与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥根据表中数据,得到K 2=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文 与性别有关系出错的可能性为________.5 [∵K 2≈4.844,根据假设检验的基本原理,应该断定“是否选修文 与性别之间有关系”成立,并且这种判断出错的可能性约为5 .]7.(2018·唐山模拟)为了研究某种细菌在特定环境下随时间变化的繁殖规律,得到了下表中的实验数据,计算得回归直线方程为y ^=0.85x -0.25.由以上信息,可得表中c 的值为________.6 [x =15(3+4+5+6+7)=5,y =15(2.5+3+4+4.5+c )=14+c 5,代入回归直线方程得,14+c5=0.85×5-0.25,解得c =6.]8.(2017·长沙雅礼中学质检)某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得回归直线方程y =b x +a 中的b =-2,预测当气温为-4 ℃时,用电量为________度.68 [根据题意知x =18+13+10+(-1)4=10,y =24+34+38+644=40,因为回归直线过样本点的中心,所以a ^=40-(-2)×10=60,所以当x =-4时,y =(-2)×(-4)+60=68,所以用电量为68度.] 三、解答题9.(2017·石家庄质检)微信是现代生活进行信息交流的重要工具,据统计,某公司200名员工中90 的人使用微信,其中每天使用微信时间在一小时以内的有60人,其余的员工每天使用微信的时间在一小时以上,若将员工分成青年(年龄小于40岁)和中年(年龄不小于40岁)两个阶段,那么使用微信的人中75 是青年人.若规定:每天使用微信时间在一小时以上为经常使用微信,那么经常使用微信的员工中23是青年人.(1)若要调查该公司使用微信的员工经常使用微信与年龄的关系,列出2×2列联表:(2)龄有关”?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).[解]), 经常使用微信的有180-60=120(人), 其中青年人有120×23=80(人),使用微信的人中青年人有180×75 =135(人), 所以2×2列联表:分(2)将列联表中数据代入公式可得:K 2=180×(80×5-55×40)2120×60×135×45≈13.333,由于13.333>10.828,所以有99.9 的把握认为“经常使用微信与年龄有 关” .12分10.(2018·长沙模拟)已知某企业近3年的前7个月的月利润(单位:百万元)如下面的折线图9-4-6所示:图9-4-6(1)试问这3年的前7个月中哪个月的月平均利润较高? (2)通过计算判断这3年的前7个月的总利润的发展趋势;(3)试以第3年的前4个月的数据(如下表),用线性回归的拟合模式估计第3年8月份的利润.相关公式:b ^=∑ i =1 (x i -x )(y i -y )∑ n i =1(x i -x )2=∑ i =1x i y i -n x y ∑ ni =1x 2i -n x2,a ^=y -b ^x . [解] (1)由折线图可知5月和6月的平均利润最高. 2分(2)第1年前7个月的总利润为1+2+3+5+6+7+4=28(百万元), 3分 第2年前7个月的总利润为2+5+5+4+5+5+5=31(百万元), 4分 第3年前7个月的总利润为4+4+6+6+7+6+8=41(百万元), 5分 所以这3年的前7个月的总利润呈上升趋势.6分(3)∵x =2.5,y =5,∑ 4 i =1x 2i =12+22+32+42=30,∑ 4 i =1x i y i =1×4+2×4+3×6+4×6=54,∴b ^=54-4×2.5×530-4×2.52=0.8,∴a ^=5-2.5×0.8=3,∴y ^=0.8x +3,10分当x =8时,y ^=0.8×8+3=9.4.∴估计第3年8月份的利润为9.4百万元. 12分B 组 能力提升(建议用时:15分钟)1.(2018·安阳模拟)已知变量x 与y 的取值如下表所示,且2.5<n <m <6.5,则由该数据算得的线性回归方程可能是( )A .y ^=0.8x +2.3 B .y ^=2x +0.4 C .y ^=-1.5x +8D .y ^=-1.6x +10D [由2.5<n <m <6.5,可得为负相关,排除A ,B ,由题意,知x =3.5,y =14×(6.5+m +n +2.5)∈(3.5,5.5),分别代入选项C ,D ,可得D 满足.故选D.]2.(2017·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)的概率不超过________. 附表:k =50×(22×12-8×8)230×20×20×30≈5.556>5.024,∴推断犯错误的概率不超过0.025.]3.(2018·汕头模拟)二手车经销商小王对其所经营的A 型号二手汽车的使用年数x 与销售价格y (单位:万元/辆)进行整理,得到如下数据:图9-4-7(1)由折线图可以看出,可以用线性回归模型拟合 与x 的关系,请用相关系数加以说明;(2)求y 关于x 的回归方程,并预测某辆A 型号二手车当使用年数为9年时售价约为多少;(b ^,a ^小数点后保留两位有效数字)(3)基于成本的考虑,该型号二手车的售价不得低于7 118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年. 参考公式:b ^=∑ n i =1(x i -x )(y i -y )∑ n i =1(x i -x )2=∑ ni =1x i y i -n x y ∑ n i =1x 2i -n x2,a ^=y -b ^x ,r =∑ n i =1 (x i -x )(y i -y )∑ ni =1(x i -x )2∑ ni =1(y i -y )2. 参考数据:∑ 6 i =1x i y i =187.4,∑ 6 i =1x i i =47.64,∑ 6 i =1x 2i =139,∑ 6i =1(x i -x )2=4.18,∑ 6 i =1(y i -y )2=13.96,∑ 6 i =1(z i -z )2=1.53,ln 1.46≈0.38,ln 0.711 8≈-0.34.[解] (1)由题意,知x =16×(2+3+4+5+6+7)=4.5,z =16×(3+2.48+2.08+1.86+1.48+1.10)=2, 又∑ 6 i =1x i i =47.64,∑ 6 i =1(x i -x )2=4.18,∑ 6 i =1(z i -z )2=1.53,∴r =47.64-6×4.5×24.18×1.53=- 6.366.395 4≈-0.99,3分∴ 与x 的相关系数大约为-0.99,说明 与x 的线性相关程度很高.4分 (2)b ^=47.64-6×4.5×2139-6×4.52=-6.3617.5≈-0.36,5分 ∴a ^=z -b ^x =2+0.36×4.5=3.62, 6分∴ 与x 的线性回归方程是z ^=-0.36x +3.62, 又 =ln y ,∴y 关于x 的回归方程是y ^=e -0.36x +3.62. 令x =9,8分得y ^=e -0.36×9+3.62=e 0.38,∵ln 1.46≈0.38,∴y ^=1.46,即预测某辆A 型号二手车当使用年数为9年时售价约为1.46万元.9分 (3)当y ^≥0.711 8,即e -0.36x +3.62≥0.711 8=e ln 0.711 8=e -0.34时, 10分则有-0.36x +3.62≥-0.34, 解得x ≤11,11分 因此,预测在收购该型号二手车时车辆的使用年数不得超过11年.12分。
高考数学(理)一轮复习分层演练:10.3变量间的相关关系、统计案例(含答案)

第3讲 变量间的相关关系、统计案例[学生用书P221])1.变量间的相关关系常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.(3)回归方程为y ^=b ^x +a ^,其中b ^=∑ni =1x i y i-n x y∑n i =1 x 2i -n x 2,a ^=y -b ^x . (4)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |大于0.75时,认为两个变量有很强的线性相关性.3.独立性检验(1)2×2列联表:假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称2×2列联表)为:(2)K 2统计量K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量).1.辨明三个易误点(1)回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x ,y )点,可能所有的样本数据点都不在直线上.(2)利用回归方程分析问题时,所得的数据易误认为准确值,而实质上是预测值(期望值). (3)虽然任何一组不完全相同的数据都可以求出回归直线方程,但只有具有线性相关关系的一组数据才能得到有意义的回归直线方程,求出的方程才具有实际价值.2.求回归方程的方法求解回归方程的关键是确定回归系数a ^,b ^,因求解b ^的公式计算量太大,一般题目中给出相关的量,如x ,y ,∑i =1nx 2i ,∑i =1nx i y i 等,便可直接代入求解.充分利用回归直线过样本中心点(x ,y ),即有y =b ^x +a ^,可确定a ^.1.有关线性回归的说法,不正确的是( ) A .具有相关关系的两个变量是非确定性关系 B .散点图能直观地反映数据的相关程度C .回归直线最能代表线性相关的两个变量之间的关系D .散点图中的点越集中,两个变量的线性相关性越强 [答案] D2.某商品销售量y (件)与销售价格x (元/件)负相关,则其回归直线方程可能是( ) A.y ^=-10x +200 B .y ^=10x +200C.y ^=-10x -200 D .y ^=10x -200A [解析] 因为商品销售量y (件)与销售价格x (元/件)负相关,所以b ^<0,排除B ,D .又因为x =0时,y >0,所以应选A.3.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K 2=7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.( )附:A.0.1% B .1% C .99%D .99.9%C [解析] 因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.4.下面是一个2×2列联表则表中a 、b 处的值分别为________. [解析] 因为a +21=73,所以a =52. 又因为a +2=b ,所以b =54, [答案] 52、545.已知x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y ^=0.95x +a ^,则a ^=________.[解析] 由已知得x =2,y =4.5,因为回归方程经过点(x ,y ),所以a ^=4.5-0.95×2=2.6.[答案] 2.6相关关系的判断[学生用书P222][典例引领](2015·高考湖北卷)已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关【解析】 因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.【答案】 C判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关. (3)线性回归方程中:b ^>0时,正相关;b ^<0时,负相关.某公司在2016年上半年的收入x (单位:万元)与月支出y (单位:万元)的统计资料如表所示:根据统计资料,则( )A .月收入的中位数是15,x 与y 有正线性相关关系B .月收入的中位数是17,x 与y 有负线性相关关系C .月收入的中位数是16,x 与y 有正线性相关关系D .月收入的中位数是16,x 与y 有负线性相关关系C [解析] 月收入的中位数是15+172=16,收入增加,支出增加,故x 与y 有正线性相关关系.线性回归方程及其应用(高频考点)[学生用书P222]线性回归问题是高考中的热点问题,考查形式可以是小题,也可以是解答题. 高考中对线性回归问题的考查主要有以下三个命题角度: (1)由回归直线方程求参数值; (2)求回归直线方程; (3)利用回归方程进行预测.[典例引领](2016·高考全国卷丙)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1-7分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:参考数据:∑i =17y i =9.32, ∑i =17t i y i =40.17,∑i =17(y i -y )2=0.55,7≈2.646.参考公式:相关系数,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:【解】(1)由折线图中数据和附注中参考数据得 t =4, i =17(t i -t )2=28,=40.17-4×9.32=2.89, r =2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得=2.8928≈0.103, a ^=y -b ^t =1.331-0.103×4≈0.92. 所以,y 关于t 的回归方程为y ^=0.92+0.10t .将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.最小二乘估计的三个步骤(1)作出散点图,判断是否线性相关. (2)如果是,则用公式求a ^,b ^,写出回归方程. (3)根据方程进行估计.[注意] 回归直线方程恒过点(x -,y -).[题点通关]角度一 由回归直线方程求参数值1.表中提供了某厂节能降耗技术改造后生产A 产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对应数据.根据下表提供的数据,求出y 关于x 的线性回归方程为y ^=0.7x +0.35,那么表中t 的值为( )A.3 B .3.15C .3.5D .4.5A [解析] 因为线性回归方程过样本中心点,所以由回归方程y ^=0.7x +0.35,知y =0.7x +0.35,又y =2.5+t +4+4.54=11+t 4,x =3+4+5+64=92,所以11+t 4=0.7×92+0.35,解得t =3.故选A.角度二、三 求回归直线方程并进行预测2.(2017·石家庄市教学质量检测(二))为了解某地区某种农产品的年产量x (单位:吨)对价格y (单位:千元/吨)和年利润z 的影响,对近五年该农产品的年产量和价格统计如下表:(1)求y 关于x 的线性回归方程y ^=b ^x +a ^;(2)若每吨该农产品的成本为2千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z 取到最大值?(保留两位小数)参考公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2=∑ni =1x i y i-n x -y -∑n i =1x 2i -n x -2, a ^=y --b ^x -.[解] (1) x =3,y =5,∑5i =1x i y i =62.7,∑5i =1x 2i =55, 解得b ^=-1.23,a ^=8.69, 所以y ^=8.69-1.23x .(2)年利润z =x (8.69-1.23x )-2x =-1.23x 2+6.69x ,所以当x ≈2.72时,年利润z 最大.独立性检验[学生用书P223][典例引领](2017·云南省第一次统一检测)某校高二年级共有1 600名学生,其中男生960名,女生640名.该校组织了一次满分为100分的数学学业水平模拟考试.根据研究,在正式的学业水平考试中,本次成绩在[80,100]的学生可取得A等(优秀),在[60,80)的学生可取得B等(良好),在[40,60)的学生可取得C等(合格),不到40分的学生只能取得D等(不合格).为研究这次考试成绩优秀是否与性别有关,现按性别采用分层抽样的方法抽取100名学生,将他们的成绩按从低到高分成[30,40)、[40,50)、[50,60)、[60,70)、[70,80)、[80,90)、[90,100]七组加以统计,绘制成如图所示的频率分布直方图.(1)估计该校高二年级学生在正式的数学学业水平考试中成绩不合格的人数;(2)请你根据已知条件将下列2×2列联表补充完整.并判断是否有90%的把握认为“该校高二年级学生在本次考试中数学成绩优秀与性别有关”?【解】(1) 设抽取的100名学生中,本次考试成绩不合格的有x人,根据题意得x=100×[1-10×(0.006+0.012×2+0.018+0.024+0.026)]=2.据此估计该校高二年级学生在正式的数学学业水平考试中成绩不合格的人数为2100×1600=32.(2)根据已知条件得2×2列联表如下:因为K 2=100×(12×34-6×48)60×40×18×82≈0.407<2.706,所以没有90%的把握认为“该校高二年级学生在本次考试中数学成绩优秀与性别有关”.独立性检验的一般步骤(1)根据样本数据制成2×2列联表;(2)根据公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算K 2的值;(3)查表比较K 2与临界值的大小关系,作出统计判断.(2017·九江第一次统考)某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩平均分(采用百分制),剔除平均分在40分以下的学生后,共有男生300名,女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生成绩分为6组,得到如下所示频数分布表.(1)估计男、女生各自的平均分(同一组数据用该组区间中点值作代表),从计算结果看,数学成绩与性别是否有关;(2)规定80分以上为优分(含80分),请你根据已知条件作出2×2列联表,并判断是否有90%以上的把握认为“数学成绩与性别有关”.[解] (1) x 男=45×0.05+55×0.15+65×0.3+75×0.25+85×0.1+95×0.15=71.5,x 女=45×0.15+55×0.1+65×0.125+75×0.25+85×0.325+95×0.05=71.5, 从男、女生各自的平均分来看,并不能判断数学成绩与性别有关.(2)由频数分布表可知:在抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:可得K 2=100×(15×25-15×45)60×40×30×70≈1.79,因为1.79<2.706,所以没有90%以上的把握认为“数学成绩与性别有关”.[学生用书P314(独立成册)]1.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③C .③④D .①④D [解析] 正相关指的是y 随x 的增大而增大,负相关指的是y 随x 的增大而减小,故不正确的为①④.2.(2017·南昌市第一次模拟测试)为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,得到5组数据(x 1,y 1),(x 2,y 2),(x 3,y 3),(x 4,y 4),(x 5,y 5).根据收集到的数据可知x 1+x 2+x 3+x 4+x 5=150,由最小二乘法求得回归直线方程为y ^=0.67x +54.9,则y 1+y 2+y 3+y 4+y 5的值为( )A .75B .155.4C .375D .466.2C [解析] 由x 1+x 2+x 3+x 4+x 5=150,得x =30,代入回归直线方程y ^=0.67x +54.9,得y =75,则y 1+y 2+y 3+y 4+y 5=375.3.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),算得K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:参照附表,得到的正确结论是( )A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关”C [解析] 根据独立性检验的定义,由K 2≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”,故选C.4.(2017·东营模拟)已知变量x 与y 之间的回归直线方程为y ^=-3+2x ,若∑10i =1x i =17,则∑10i =1y i 的值等于( ) A .3 B .4C .0.4D .40B [解析] 依题意x =1710=1.7,而直线y ^=-3+2x 一定经过样本点的中心(x ,y ), 所以y =-3+2x =-3+2×1.7=0.4,所以∑10i =1y i =0.4×10=4. 5.春节期间,某销售公司每天销售某种取暖商品的销售额y (单位:万元)与当天的平均气温x (单位:℃)有关.现收集了春节期间这个销售公司4天的x 与y 的数据列于下表:根据以上数据,用线性回归的方法,求得y 与x 之间的线性回归方程y ^=b ^x +a ^的系数b ^=-125,则a ^=________. [解析] 由表中数据可得x -=-4,y -=25,所以线性回归方程y ^=-125x +a ^过点(-4,25),代入方程得25=-125×(-4)+a ^,解得a ^=775.[答案]7756.(2017·赣州摸底考试)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-13附近波动.经计算∑6i =1x i =11,∑6i =1y i=13,∑6i =1x 2i =21,则实数b 的值为________. [解析] 令t =x 2,则曲线的回归方程变为线性的回归方程,即y =bt -13,此时t =∑6i =1x 2i 6=72,y =∑6i =1y i 6=136,代入y =bt -13,得136=b ×72-13,解得b =57. [答案] 577.(2017·广东省六校联考)某市调研考试后,某校对甲、乙两个文科班的数学考试成绩进行分析,规定:大于或等于120分为优秀,120分以下为非优秀.统计成绩后,得到如下的列联表,且已知在甲、乙两个文科班全部110人中随机抽取1人为优秀的概率为311.(1)请完成上面的列联表;(2)根据列联表的数据,若按99.9%的可靠性要求,能否认为“成绩与班级有关系”. 参考公式与临界值表:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).[解] (1)(2)根据列联表中的数据,得到K 2=110×(10×30-20×50)260×50×30×80≈7.486<10.828.因此按99.9%的可靠性要求,不能认为“成绩与班级有关系”.8.(2017·唐山第一次模拟)为了研究某种细菌在特定环境下随时间变化的繁殖情况,得如下实验数据:(1)求y 关于t 的线性回归方程;(2)利用(1)中的回归方程,预测t =8时,细菌繁殖个数. [解] (1)由表中数据计算得,t -=5,y -=4,所以回归方程为y ^=0.85t -0.25.(2)将t =8代入(1)的回归方程中得y ^=0.85×8-0.25=6.55. 故预测t =8时,细菌繁殖个数为6.55千个.9.(2017·郑州第二次质量预测)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:由表中数据,求得线性回归方程为y ^=-4x +a ^.若在这些样本点中任取一点,则它在回归直线左下方的概率为( )A.16 B .13C.12D .23B [解析] 由表中数据得x =6.5,y =80,由y =-4x +a ^,得a ^=106,故线性回归方程为y ^=-4x +106.将(4,90),(5,84),(6,83),(7,80),(8,75),(9,68)分别代入回归方程可知有6个基本事件,因84<-4×5+106=86,68<-4×9+106=70,故(5,84)和(9,68)在直线的左下方,满足条件的只有2个,故所求概率为26=13.10.(2017·梅州一模)在2016年1月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x +40,且m +n =20,则其中的n =________.[解析] x =9+9.5+m +10.5+115=8+m 5,y =11+n +8+6+55=6+n5,回归直线一定经过样本中心(x ,y ),即6+n5=-3.2⎝⎛⎭⎫8+m 5+40, 即3.2m +n =42.又因为m +n =20,即⎩⎪⎨⎪⎧3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.[答案] 1011.第31届夏季奥林匹克运动会于2016年8月5日至8月21日在巴西里约热内卢举行.下表是近五届奥运会中国代表团和俄罗斯代表团获得的金牌数的统计数据(单位:枚).(1)根据表格中两组数据完成近五届奥运会两国代表团获得的金牌数的茎叶图;(2)下表是近五届奥运会中国代表团获得的金牌数之和y (从第26届算起,不包括之前已获得的金牌数)随时间x 变化的数据:作出散点图如下:由图可以看出,金牌数之和y 与时间x 之间存在线性相关关系,请求出y 关于x 的线性回归方程;并预测到第32届奥运会时中国代表团获得的金牌数之和为多少?参考数据:x -=28,y -=85.6,附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为:[解] (1)近五届奥运会两国代表团获得的金牌数的茎叶图如下:(2)a ^=y --b ^x -=85.6-38.1×28=-981.2,所以金牌数之和y 关于时间x 的线性回归方程为 y ^=38.1x -981.2.当x =32时,中国代表团获得的金牌数之和的预报值 y ^=38.1×32-981.2=238,故预测到第32届奥运会时中国代表团获得的金牌数之和为238枚.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第3讲 变量间的相关关系、统计案例, [学生用书P193])1.变量间的相关关系常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.(3)回归方程为y ^=b ^x +a ^,其中b ^=∑ni =1x i y i -n x y∑n i =1x 2i -n x 2,a ^=y -b ^x .(4)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |大于0.75时,认为两个变量有很强的线性相关性.3.非线性回归分析如果在样本数据的散点图中,样本点并没有分布在某一条直线附近,而是分布在某一条曲线(如二次函数、指数函数、对数函数等)的周围,我们就称这两个变量之间不具有线性相关关系,而是非线性相关关系.对这样的两个变量进行回归分析,称为非线性回归分析.4.独立性检验假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为:K 2=n (ad -bc )(a +b )(a +c )(b +d )(c +d )(其中n =a +b +c +d 为样本容量).1.辨明四个易误点(1)易混淆相关关系与函数关系,两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.(2)回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x ,y )点,可能所有的样本数据点都不在直线上.(3)利用回归方程分析问题时,所得的数据易误认为准确值,而实质上是预测值(期望值). (4)虽然任何一组不完全相同的数据都可以求出回归直线方程,但只有具有线性相关关系的一组数据才能得到有意义的回归直线方程,求出的方程才具有实际价值.2.求回归方程的方法 (1)求线性回归方程的方法求解回归方程的关键是确定回归系数a ^,b ^,因求解b ^的公式计算量太大,一般题目中给出相关的量,如x ,y,∑ni =1x 2i ,∑n i =1x i y i 等,便可直接代入求解.充分利用回归直线过样本中心点(x ,y ),即有y =b ^x +a ^,可确定a ^.(2)非线性回归分析的步骤①通过散点图,判断回归模型的形式是线性的还是非线性的,若为非线性的,可以通过变化趋势选择合适的模型,求出模型后,通过相关指数判断哪个模型拟合效果较好;②非线性回归问题可以通过变换转化为用线性回归方法去解决,转化过程中,注意数据也相应地跟着变化;③利用变量替换转化为线性问题,解决后要再转化回来.1.有关线性回归的说法,不正确的是( ) A .具有相关关系的两个变量是非确定性关系 B .散点图能直观地反映数据的相关程度C .回归直线最能代表线性相关的两个变量之间的关系D .散点图中的点越集中,两个变量的相关性越强 [答案] D2.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K 2=7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.( )附:A .0.1%B .1%C .99%D .99.9%C [解析] 因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.3.教材习题改编 改革开放以来,我国教育事业发展迅速,某省把近10年来农村、县城、地级市和省城每年考入大学的百分比作为因变量,把年份x 作为自变量得到四条回归直线.省城y ^=2.84x +9.50,地级市y ^=2.52x +8.35, 县城y ^=2.31x +6.76,农村y ^=0.42x +1.80,则四个区域中,大学入学率年增长率最快的区域是( ) A .省城 B .地级市 C .县城D .农村A [解析] 四条回归直线,斜率最大的是省城,故选A.4.对于下列表格所示的五个散点,已知求得的回归直线方程为y ^=0.8x -155.则实数m 的值为( )A.8 B .8.2 C .8.4D .8.5A [解析] 依题意得x -=15×(196+197+200+203+204)=200,y -=15×(1+3+6+7+m )=17+m 5,因为回归直线必经过样本点的中心,所以17+m5=0.8×200-155,解得m =8,选A.5.下面是一个2×2列联表则表中a 、b 处的值分别为________. [解析] 因为a +21=73,所以a =52. 又因为a +2=b ,所以b =54, [答案] 52、54相关关系的判断[学生用书P194][典例引领](1)(2015·高考湖北卷)已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关(2)对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图①;对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图②.由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关【解析】 (1)因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.(2)由题图①可知,各点整体呈递减趋势,x 与y 负相关;由题图②可知,各点整体呈递增趋势,u 与v 正相关.【答案】 (1)C (2)C判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关:r <0时,负相关.(3)线性回归方程中:b ^>0时,正相关;b ^<0时,负相关.[通关练习]1.下列四个散点图中,变量x 与y 之间具有负的线性相关关系的是( )D[解析] 观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系.2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3A[解析] 由相关系数的定义,以及散点图所表达的含义可知r2<r4<0<r3<r1.线性回归方程及其应用(高频考点)[学生用书P195]线性回归问题是高考中的热点问题,考查形式可以是小题,也可以是解答题.高考中对线性回归问题的考查主要有以下两个命题角度:(1)求回归直线方程;(2)利用回归方程进行预测.[典例引领](2017·山西四校联考)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:为了研究计算的方便,工作人员将上表的数据进行了处理,t =x -2 010,z =y -5得到下表2:(1)求z 关于t 的线性回归方程;(2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2020年年底,该地储蓄存款额可达多少?(附:对于线性回归方程y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x ·y∑i =1nx 2i -n x2,a ^=y -b ^x )【解】 (1) t -=3,z -=2.2,∑i =15 t i z i =45,∑i =15t 2i =55,b ^=45-5×3×2.255-5×9=1.2,a ^=z --b ^t -=2.2-3×1.2=-1.4, 所以z ^=1.2t -1.4.(2)将t =x -2 010,z =y -5,代入z ^=1.2t -1.4, 得y -5=1.2(x -2 010)-1.4,即y ^=1.2x -2 408.4. (3)因为y ^=1.2×2 020-2 408.4=15.6,所以预测到2020年年底,该地储蓄存款额可达15.6千亿元.最小二乘估计的三个步骤(1)作出散点图,判断是否线性相关. (2)如果是,则用公式求a ^,b ^,写出回归方程. (3)根据方程进行估计.[注意] 回归直线方程恒过点(x -,y -).[题点通关]角度一 求回归直线方程1.某企业每天由空气污染造成的经济损失y (单位:元)与空气污染指数API(记为x )的数据统计如下:(1)求出y 与x 的线性回归方程y ^=b ^x +a ^;(2)若该地区某天的空气污染指数为800,预测该企业当天由空气污染造成的经济损失.附:回归方程中⎩⎪⎨⎪⎧b ^=∑i =1n (x i-x ) (y i-y )∑i =1n (x i-x )2a ^=y -b ^x[解] (1)x =14×(150+200+250+300)=225,y =14×(200+350+550+800)=475,∑i =14(x i -x )(y i -y )=(-75)×(-275)+(-25)×(-125)+25×75+75×325=50 000,∑i =14(x i -x )2=(-75)2+(-25)2+252+752=25×25×20=12 500,b ^=4,a ^=y -b ^x =475-4×225=-425, 所以y ^=4x -425.(2)当x =800时,y ^=2 775.角度二 利用回归方程进行预测2.(2015·高考福建卷)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y ^=b ^x +a ^,其中b ^=0.76,a ^=y --b ^x .据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元B [解析] 由题意知, x =8.2+8.6+10.0+11.3+11.95=10,y -=6.2+7.5+8.0+8.5+9.85=8,所以a ^=8-0.76×10=0.4, 所以当x =15时,y ^=0.76×15+0.4=11.8(万元).独立性检验[学生用书P196][典例引领](2017·沈阳模拟)为考查某种疫苗预防疾病的效果,进行动物实验,得到统计数据如下:现从所有试验动物中任取一只,取到“注射疫苗”动物的概率为25.(1)求2×2列联表中的数据x ,y ,A ,B 的值;(2)绘制发病率的条形统计图,并判断疫苗是否有效?(3)能够有多大把握认为疫苗有效?附:K 2=n (ad -bc )2(a +b )(a +c )(c +d )(b +d ),n =a +b +c +d【解】 (1)设“从所有试验动物中任取一只,取到‘注射疫苗’动物”为事件E , 由已知得P (E )=y +30100=25,所以y =10,B =40,x =40,A =60.(2)未注射疫苗发病率为4060=23,注射疫苗发病率为1040=14.发病率的条形统计图如图所示,由图可以看出疫苗影响到发病率.(3)K 2=100×(20×10-30×40)250×50×40×60=1 000 00050×20×60=503≈16.67>10.828.所以至少有99.9%的把握认为疫苗有效.独立性检验的一般步骤(1)根据样本数据制成2×2列联表;(2)根据公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算K 2的值;(3)查表比较K 2与临界值的大小关系,作出统计判断.(2017·九江第一次统考)某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩平均分(采用百分制),剔除平均分在40分以下的学生后,共有男生300名,女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生成绩分为6组,得到如下所示频数分布表.(1)估计男、女生各自的平均分(同一组数据用该组区间中点值作代表),从计算结果看,数学成绩与性别是否有关;(2)规定80分以上为优分(含80分),请你根据已知条件作出2×2列联表,并判断是否有90%以上的把握认为“数学成绩与性别有关”.附表及公式K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d),n=a+b+c+d[解] (1)x男=45×0.05+55×0.15+65×0.3+75×0.25+85×0.1+95×0.15=71.5,x女=45×0.15+55×0.1+65×0.125+75×0.25+85×0.325+95×0.05=71.5,从男、女生各自的平均分来看,并不能判断数学成绩与性别有关.(2)由频数分布表可知:在抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:可得K 2=100×(15×25-15×45)60×40×30×70≈1.79,因为1.79<2.706,所以没有90%以上的把握认为“数学成绩与性别有关”., [学生用书P197])——回归直线方程的求解与运用(本题满分12分)(2015·高考全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为[思维导图](1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2分)(2)令w =x ,先建立y 关于w 的线性回归方程. 由于=108.81.6=68,(4分)c ^=y -d ^w =563-68×6.8=100.6,(5分) 所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x . (6分)(3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32. (9分)②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12. 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大. (12分)(1)求解本题的思路①根据散点图中的点的分布规律作出判断.②若x ,y 为线性相关,可直接求其线性回归方程,若x ,y 为非线性相关,可通过换元先建立线性回归方程,然后再转化为非线性回归方程.③利用②中求出的回归方程求最大预报值. (2)求解本题渗透的思想①通过散点图判断回归类型,体现了数形结合思想.②通过换元法将问题转化为线性回归分析,体现了化归转化思想., [学生用书P289(独立成册)])1.已知变量x ,y 呈线性相关关系,线性回归方程为y ^=0.5+2x ,则变量x ,y 是( ) A .线性正相关关系B .由回归方程无法判断其正负相关C .线性负相关关系D .不存在线性相关关系A [解析] 随着变量x 增大,变量y 有增大的趋势,则x ,y 称为正相关.2.某商品的销售量y (件)与销售价格x (元/件)存在线性相关关系.根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=-5x +150,则下列结论正确的是( )A .y 与x 具有正的线性相关关系B .若r 表示y 与x 之间的线性相关系数,则r =-5C .当销售价格为10元时,销售量为100件D .当销售价格为10元时,销售量为100件左右D [解析] 由回归直线方程知,y 与x 具有负的线性相关关系,A 错,若r 表示y 与x 之间的线性相关系数,则|r |≤1,B 错.当销售价格为10元时,y ^=-5×10+150=100,即销售量为100件左右,C 错,故选D.3.某产品生产厂家的市场部在对4家商场进行调研时,获得该产品售价x (单位:元)和销售量y (单位:件)之间的四组数据如下表:为决策产品的市场指导价,用最小二乘法求得销售量y 与售价x 之间的线性回归方程为y ^=-1.4x +a ^,那么方程中的a ^值为( )A .17B .17.5C .18D .18.5B [解析] x -=4+4.5+5.5+64=5,y -=12+11+10+94=10.5,因为回归直线过样本点的中心, 所以a ^=10.5+1.4×5=17.5.故选B.4.甲、乙、丙、丁四位同学各自对A 、B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 与残差的平方和m 如下表:则哪位同学的试验结果体现A 、B 两变量有更强的线性相关性( ) A .甲 B .乙 C .丙D .丁D [解析] 相关系数r 越接近于1和残差平方和m 越小,两变量A ,B 的线性相关性越强.故选D.5.某考察团对10个城市的职工人均工资x (千元)与居民人均消费y (千元)进行调查统计,得出y 与x 具有线性相关关系,且回归方程为y ^=0.6x +1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为( )A .66%B .67%C .79%D .84%D [解析] 因为y 与x 具有线性相关关系,满足回归方程y ^=0.6x +1.2,该城市居民人均工资为x =5,所以可以估计该城市的职工人均消费水平y ^=0.6×5+1.2=4.2,所以可以估计该城市人均消费额占人均工资收入的百分比为4.25=84%.6.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:则下面的正确结论是( )A .有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”B .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”D .有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”A [解析] 由2×2列联表得到a =45,b =10,c =30,d =15,则a +b =55,c +d =45,a +c =75,b +d =25,ad =675,bc =300,n =100,计算得K 2的观测值k =100×(675-300)255×45×75×25≈3.030.因为2.706<3.030<3.841,所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”.7.经调查某地若干户家庭的年收入x (万元)和年饮食支出y (万元)具有线性相关关系,并得到y 关于x 的回归直线方程:y ^=0.245x +0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.[解析] x 变为x +1,y ^=0.245(x +1)+0.321=0.245x +0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.[答案] 0.2458.某单位为了了解用电量y 千瓦·时与气温x ℃之间的关系,随机统计了某4天的用电量与当天气温.由表中数据得线性回归方程y ^=a ^+b ^x 中b ^=-2,据此预测当气温为5℃时,用电量的千瓦·时数约为________.[解析] 因为回归直线经过样本中心点,故由已知数表可得x -=10,y -=30,即(10,30)在回归直线上,代入方程可得a ^=50,即回归直线方程为y ^=50-2x ,故可预测当气温为5℃时,用电量的度数约为50-2×5=40.[答案] 409.某学生对其亲属30人的饮食习惯进行了一次调查,并用下图所示的茎叶图表示30人的饮食指数(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主).(1)根据以上数据完成下列2×2列联表.(2)能否有99%的把握认为其亲属的饮食习惯与年龄有关?并写出简要分析. [解] (1)2×2列联表如下:(2)因为K 2=30×(4×2-16×8)12×18×20×10=10>6.635,所以有99%的把握认为其亲属的饮食习惯与年龄有关.10.(2017·唐山第一次模拟)为了研究某种细菌在特定环境下随时间变化的繁殖情况,得如下实验数据:(1)求y 关于t 的线性回归方程;(2)利用(1)中的回归方程,预测t =8时,细菌繁殖个数.[解] (1)由表中数据计算得,t -=5,y -=4,∑i =15 (t i -t -)(y i -y -)=8.5,∑i =15(t i -t -)2=10,b ^=∑i =15(t i -t ) (y i -y )∑i =15(t i -t )2=0.85,a ^=y --b ^t -=-0.25.所以回归方程为y ^=0.85t -0.25.(2)将t =8代入(1)的回归方程中得y ^=0.85×8-0.25=6.55. 故预测t =8时,细菌繁殖个数为6.55千个.11.(2017·梅州一模)在2016年1月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x +40,且m +n =20,则其中的n =________.[解析] x =9+9.5+m +10.5+115=8+m 5,y =11+n +8+6+55=6+n5,回归直线一定经过样本中心(x ,y ),即6+n5=-3.2⎝⎛⎭⎫8+m 5+40, 即3.2m +n =42.又因为m +n =20,即⎩⎪⎨⎪⎧3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.[答案] 1012.第31届夏季奥林匹克运动会于2016年8月5日至8月21日在巴西里约热内卢举行.下表是近五届奥运会中国代表团和俄罗斯代表团获得的金牌数的统计数据(单位:枚).(1)根据表格中两组数据完成近五届奥运会两国代表团获得的金牌数的茎叶图; (2)下表是近五届奥运会中国代表团获得的金牌数之和y (从第26届算起,不包括之前已获得的金牌数)随时间x 变化的数据:作出散点图如下:由图可以看出,金牌数之和y 与时间x 之间存在线性相关关系,请求出y 关于x 的线性回归方程;并预测到第32届奥运会时中国代表团获得的金牌数之和为多少?参考数据:x -=28,y -=85.6,∑i =1n (x i -x -)(y i -y -)=381,∑i =1n(x i -x -)2=10.[解] (1)近五届奥运会两国代表团获得的金牌数的茎叶图如下:(2)b ^=∑i =1n(x i -x ) (y i -y )∑i =1n(x i -x )2=38110=38.1, a ^=y --b ^x -=85.6-38.1×28=-981.2, 所以金牌数之和y 关于时间x 的线性回归方程为 y ^=38.1x -981.2.当x =32时,中国代表团获得的金牌数之和的预报值 y ^=38.1×32-981.2=238,故预测到第32届奥运会时中国代表团获得的金牌数之和为238枚.13.已知某班n 名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a ,b ,c 成等差数列,且成绩在[90,100]内的有6人.(1)求n 的值;(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析是否有90%的把握认为“本次测试的及格情况与性别有关”?附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d[解] (1)依题意得⎩⎪⎨⎪⎧10(0.035+0.025+c +2b +a )=12b =a +c解得b =0.01,因为成绩在[90,100]内的有6人,所以n =60.01×10=60.(2)由于2b =a +c ,而b =0.01,可得a +c =0.02,则不及格的人数为0.02×10×60=12,及格的人数为60-12=48, 于是本次测试的及格情况与性别的2×2列联表如下:结合列联表计算可得K 2=60×(22×4-26×8)48×12×30×30≈1.666 7<2.706,故没有90%的把握认为“本次测试的及格情况与性别有关”.。