新编(新课标)高三数学一轮复习 第9篇 变量间的相关关系与统计案例学案 理

合集下载

(新课标)高三数学一轮复习 第9篇 变量间的相关关系与统计案例学案 理

(新课标)高三数学一轮复习 第9篇 变量间的相关关系与统计案例学案 理

第六十三课时 变量间的相关关系与统计案例课前预习案1.会作两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆).3.了解回归的基本思想、方法及其简单应用.4.了解独立性检验的思想、方法及其初步应用.1.相关关系的判断(1)散点图直观反映了两变量的成对观测值之间存在的某种关系,利用散点图可以初步判断两个变量之间是否线性相关.如果散点图中点的分布从整体上看大致在一条直线的附近,我们说变量x 和y 具有 相关关系.(2)相关系数r =∑i =1n(x i -x )(y i -y)∑i =1n(x i -x)2∑i =1n(y i -y)2, 当r>0时,两变量 相关,当r<0时,两变量 相关,当|r|≤1且|r|越接近于1,相关程度 ,当|r|≤1且|r|越接近于0,相关程度 . 2.最小二乘法求回归直线方程 (1)设线性回归方程为y ^=b ^x +a ^,⎩⎪⎨⎪⎧b ^=∑i =1n (x i-x )(y i-y )∑i =1n (x i -x )2=∑i =1nx i y i-n x y∑i =1nx 2i-n x2,a ^=y -b ^ x .(2)回归直线一定经过样本的中心点 ,据此性质可以解决有关的计算问题. 3.独立性检验(1)独立性检验的有关概念 ①分类变量可用变量的不同“值”表示个体所属的 的变量称为分类变量.②2×2列联表假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:(2)独立性检验利用随机变量K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(其中n=a+b+c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.步骤如下:①计算随机变量K2的观测值k,查下表确定临界值k0:00错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关系”.1.下列两个变量之间的关系是相关关系的是( ).A.正方体的棱长与体积B.单位面积的产量为常数时,土地面积与总产量C.日照时间与水稻的亩产量D.电压一定时,电流与电阻2.对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据(u i,v i)(i =1,2,…,10),得散点图(2).由这两个散点图可以判断( ).A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关3.(2012·湖南)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( ).A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg4.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算K 2≈0.99,根据这一数据分析,下列说法正确的是( ). A .有99%的人认为该栏目优秀B .有99%的人认为该栏目是否优秀与改革有关系C .有99%的把握认为电视栏目是否优秀与改革有关系D .没有理由认为电视栏目是否优秀与改革有关系5.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的线性回归方程:y ^=0.254x +0.321.由线性回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.课堂探究案考点1 线性相关关系的判断【典例1】下表是某小卖部6天卖出的热茶的杯数与当天气温的对比表.(1)(2)你能依据散点图指出气温与热茶杯数的关系吗?(3)如果气温与卖出热茶杯数近似成线性相关关系的话,请画出一条直线来近似地表示这种线性相关关系.【变式1】 5个学生的数学和物理成绩如下表:考点2 线性回归方程及其应用【典例2】(2012·福建)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求回归直线方程y ^=b x +a ,其中b =-20,a =y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)【变式2】 (2013·南昌模拟)以下是某地搜集到的新房屋的销售价格y 和房屋的面积x 的数据.(1)(2)据(1)的结果估计当房屋面积为150 m 2时的销售价格.考点3 独立性检验的基本思想及应用【典例3】在调查男女乘客是否晕机的事件中,已知男乘客晕机的为28人,不晕机的也是28人,而女乘客晕机的为28人,不晕机的为56人. (1)根据以上数据建立一个2×2的列联表;(2)能否在犯错误的概率不超过0.05的前提下认为晕机与性别有关系?(可能用到的公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),可能用到的数据:P (K 2≥3.841)=0.05,P (K 2≥5.024)=0.025)【变式3】某学生对其亲属30人的饮食习惯进行了一次调查,并用下图所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主)(1)根据以上数据完成下列2×2列联表:(2)能否有99%1.(2012·新课标全国)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( ). A .-1B .0C.12D .12.(2013·长春调研)已知x ,y 取值如下表:从所得的散点图分析可知:y 与x 线性相关,且y =0.95x +a ,则a =( ). A .1.30B .1.45C .1.65D .1.803.(2011·陕西)设(x 1,y 1),(x 2,y 2),…,(x n ,y n )是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论正确的是( ).A .直线l 过点(x ,y )B .x 和y 的相关系数为直线l 的斜率C .x 和y 的相关系数在0到1之间D .当n 为偶数时,分布在l 两侧的样本点的个数一定相同 4.(2011·山东)某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为 ( ). A .63.6万元B .65.5万元C .67.7万元D .72.0万元课后拓展案组全员必做题1.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:则y 对x A .y =x -1B .y =x +1C .y =88+12x D .y =1762.(2013·福州模拟)下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变; ②设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位; ③线性回归方程y ^=b ^x +a ^必过(x ,y );④在一个2×2列联表中,由计算得K 2的观测值k =13.079,则在犯错误的概率不超过0.001的前提下认为这两个变量间有关系.其中错误的个数是 ( ). A .0 B .1 C .2 D .33.已知施化肥量x 与水稻产量y 的试验数据如下表,则变量x 与变量y 是________相关(填“正”或“负”).4.(2013·唐山统一考试)考古学家通过始祖鸟化石标本发现:其股骨长度x (cm)与肱骨长度y (cm)的线性回归方程为y ^=1.197x -3.660,由此估计,当股骨长度为50 cm 时,肱骨长度的估计值为________ cm. 5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥3.841)≈0.05,P (K 2根据表中数据,得到K 2=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.组提高选做题1.某班主任对全班50名学生进行了作业量多少的调查.数据如下表:(1)(2)试通过计算说明在犯错误的概率不超过多少的前提下认为喜欢玩游戏与作业量的多少有关系? 附:K 2=n ((a +b )(c +d )(a +c )(b +d )2.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^;(3)已知该厂技改前生产100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5)参考答案1.【答案】C【解析】A ,B ,D 中两个变量间的关系都是确定的,所以是函数关系;C 中的两个变量间是相关关系,对于日照时间一定的水稻,仍可以有不同的亩产量,故选C. 2.【答案】C【解析】由图(1)可知,各点整体呈递减趋势,x 与y 负相关;由图(2)可知,各点整体呈递增趋势,u 与v 正相关. 3.【答案】D【解析】根据线性回归方程中各系数的意义求解.由于线性回归方程中x 的系数为0.85,因此y 与x 具有正的线性相关关系,故A 正确.又线性回归方程必过样本中心点(x ,y ),因此B 正确.由线性回归方程中系数的意义知,x 每增加1 cm ,其体重约增加0.85 kg ,故C 正确.当某女生的身高为170 cm 时,其体重估计值是58.79 kg ,而不是具体值,因此D 不正确. 4.【答案】D【解析】只有K 2≥6.635才能有99%的把握认为电视栏目是否优秀与改革有关系,而即使K 2≥6.635也只是对“电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,与是否有99%的人等无关.故D 正确. 5.【答案】0.254【解析】由题意,知其回归系数为0.254,故家庭年收入每增加1万元,年饮食支出平均增加0.254万元.【典例1】【解析】(1)画出的散点图如图.(2)从图中可以发现气温和热茶杯数具有相关关系,气温和热茶杯数成负相关,图中的各点大致分布在一条直线的附近,因此气温和杯数近似成线性相关关系.(3)根据不同的标准,可以画出不同的直线来近似表示这种线性相关关系,如让画出的直线上方的点和下方的点数目相等.如图.【变式1】【解析】把数学成绩作为横坐标,把相应的物理成绩作为纵坐标,在直角坐标系中描点(x i ,y i )(i =1,2,…,5),作出散点图如图.从图中可以直观地看出数学成绩和物理成绩具有相关关系,且当数学成绩增大时,物理成绩也在由小变大,即它们正相关.【典例2】【解析】(1)由于x =16(8+8.2+8.4+8.6+8.8+9)=8.5,y =16(90+84+83+80+75+68)=80,又b ^=-20,所以a ^=y -b ^x =80+20×8.5=250, 从而回归直线方程为y ^=-20x +250.(2)设工厂获得的利润为L 元,依题意得L =x (-20x +250)-4(-20x +250)=-20x 2+330x -1 000 =-20()x -8.252+361.25.当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润.【变式2】【解析】(1)x =15×(115+110+80+135+105)=109,y =15×(24.8+21.6+18.4+29.2+22)=23.2.设所求回归直线方程为y ^=b ^x +a ^,则b ^=∑i =15(x i -x )(y i -y)∑i =15(x i -x)2=3081 570≈0.196 2, ∴a ^=y -b ^x =23.2-109×3081 570≈1.816 6.∴所求回归直线方程为y ^=0.196 2x +1.816 6.(2)由第(1)问可知,当x =150 m 2时,销售价格的估计值为 y ^=0.196 2×150+1.816 6=31.246 6(万元).【典例3】【解析】(1)2×2列联表如下:(2)假设是否晕机与性别无关,则K 2的观测值k =)256×84×56×84=359≈3.889,P (K 2≥3.841)=0.05.所以可以在犯错误的概率不超过0.05的前提下认为晕机与性别有关系. 【变式3】【解析】(1)2×2列联表如下:(2)因为K 2=30×(8-128)212×18×20×10=10>6.635,所以有99%的把握认为其亲属的饮食习惯与年龄有关.1.【答案】D【解析】样本点都在直线上时,其数据的估计值与真实值是相等的,故其相关系数为1. 2.【答案】B【解析】依题意得,x =16×(0+1+4+5+6+8)=4,y =16×(1.3+1.8+5.6+6.1+7.4+9.3)=5.25.又直线y ^=0.95x +a 必过样本中心点(x ,y ),即点(4,5.25),于是有5.25=0.95×4+a ,由此解得a =1.45,选B. 3.【答案】A【解析】由样本的中心(x ,y )落在回归直线上可知A 正确;x 和y 的相关系数表示为x 与y 之间的线性相关程度,不表示直线l 的斜率,故B 错;x 和y 的相关系数应在-1到1之间,故C 错;分布在回归直线两侧的样本点的个数并不绝对平均,无论样本点个数是奇数还是偶数,故D 错. 4.【答案】B【解析】x =4+2+3+54=3.5(万元),y =49+26+39+544=42(万元),∴a ^=y -b ^x =42-9.4×3.5=9.1, ∴回归方程为y ^=9.4x +9.1,∴当x =6(万元)时,y ^=9.4×6+9.1=65.5(万元).组全员必做题1.【答案】C【解析】由题意得x =174+176+176+176+1785=176(cm),y =175+175+176+177+1775=176(cm),由于(x ,y )一定满足线性回归方程,经验证知选C.2.【答案】B【解析】只有②错误,应该是y 平均减少5个单位. 3.【答案】正【解析】因为散点图能直观地反映两个变量是否具有相关关系,所以画出散点图如图所示:通过观察图象可知变量x 与变量y 是正相关.4.【答案】56.19【解析】根据线性回归方程y ^=1.197x -3.660,将x =50代入得y =56.19,则肱骨长度的估计值为56.19cm.5.【答案】5%【解析】∵K 2≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.组提高选做题1.解:(1)(2)将表中的数据代入公式K 2=(a +b )(c +d )(a +c )(b +d )得到K 2的观测值k =50×(18×15-8×9)226×24×27×23≈5.059>5.024,查表知P (K 2≥5.024)=0.025,即说明在犯错误的概率不超过0.025的前提下认为喜欢玩游戏与作业量的多少有关系.2.【解析】(1)由题设所给数据,可得散点图如图所示.(2)由对照数据,计算得:∑i =14x 2i =86, x =3+4+5+64=4.5(吨),y =2.5+3+4+4.54=3.5(吨). 已知∑i =14x i y i =66.5,所以,由最小二乘法确定的回归方程的系数为:b ^=∑i =14x i y i -4x ·y∑i =14x 2i -4x 2=66.5-4×4.5×3.586-4×4.52=0.7, a ^=y -b ^x =3.5-0.7×4.5=0.35.因此,所求的线性回归方程为y ^=0.7x +0.35.(3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为: 90-(0.7×100+0.35)=19.65(吨标准煤).。

高考数学一轮必备 10.3《变量间的相关关系与统计案例》考情分析学案

高考数学一轮必备 10.3《变量间的相关关系与统计案例》考情分析学案

1122211()()()n ni i i i i i n ni i i i x x y y x y nx y b x x x nx a y bx ====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑10.3变量间的相关关系与统计案例考情分析从近三年高考试题分析,高考对本部分的考察多以散点图和相关关系为主,另外对线性回归方程与独立性检验在实际应用中的考察。

基础知识1.两个变量的线性相关:(1)正相关:在散点图中,点散布在从左下角到右上角的区域.对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.最小二乘法:求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法.3.回归方程方程ˆybx a =+是两个具有线性相关关系的变量的一组数据1122(,),(,),(,)n n x y x y x y 的回归方程,其中 4.回归分析的基本思想及其初步应用 (1)回归分析是对具有相关关系的两个 变量进行统计分析的方法,其常用的研究方法步骤是画出散点图,求出回归直线方程,并利用回归直线方程进行预报. (2)对n 个样本数据(x 1,y 1)、(x 2,y 2)、…、(xn ,yn ),(,)x y 称为样本点的中心. (3)除用散点图外,还可以用样本相关系数r 来衡量两个变量x ,y 相关关系的强弱,r =r >0,表明两个变量正相关,当r <0,表明两个变量负相关,r 的绝对值越接近于1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |0.75>时,认为这两个变量具有很强的线性相关关系.5、用相关指数2R 来刻画回归的效果,公式是22121()1()niii nii y y R y y ==-=--∑∑2R 的值越大,说明残差平方和越小,也就是说模型拟合效果好5.独立性检验的基本思想及其初步应用(1)若变量的不同“值”表示个体所属的不同类型,则这类变量称为分类变量. (2)列出的两个分类变量的频数表,称为列联表.(3)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验独立性检验公式2K =2()()()()()n ad bc a b a c b d c d -++++注意事项1.(1)函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系. (2)当K 2≥3.841时,则有95%的把握说事A 与B 有关; 当K 2≥6.635时,则有99%的把握说事件A 与B 有关; 当K 2≤2.706时,则认为事件A 与B 无关.2.(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义. (2)线性回归方程中的截距和斜率都是通过样本数据估计而来的,存在误差,这种误差会导致预报结果的偏差;而且回归方程只适用于我们所研究的样本总体.(3)独立性检验的随机变量K 2=3.841是判断是否有关系的临界值,K 2≤3.841应判断为没有充分证据显示事件A 与B 有关系,而不能作为小于95%的量化值来判断. 题型一 相关关系的判断【例1】对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是( )A. r 2<r 4<0<r 3<r 1B. r 4<r 2<0<r 1<r 3C. r 4<r 2<0<r 3<r 1D. r 2<r 4<0<r 1<r 3答案:A解析:由相关系数的定义以及散点图所表达的含义可知r 2<r 4<0<r 3<r 1.故选A. 【变式1】 根据两个变量x ,y 之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系________(填“是”与“否”).解析 从散点图看,散点图的分布成团状,无任何规律,所以两个变量不具有线性相关关系. 答案 否题型二 独立性检验【例2】通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:由K 2=a +bc +d a +cb +d,算得K 2=-260×50×60×50≈7.8.附表:A. 有99%以上的把握认为“选择过马路的方式与性别有关”B. 有99%以上的把握认为“选择过马路的方式与性别无关”C. 在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D. 在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关” 答案:A 解析:∵K 2=-260×50×60×50≈7.8>6.635,∴有99%以上的把握认为“选择过马路的方式与性别有关”.【变式2】 某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:甲厂:(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.附K2=a +b c+d a+c b+d,解(1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为360 500×100%=72%;乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为320500×100%=64%.(2)K2=500×500×680×320≈7.35>6.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异”.题型三线性回归方程【例3】9. [2013·金版原创]在2013年元旦期间,某市物价部门对本市五个商场销售的某商品一天的销售量及其价格进行调查,五个商场的售价x 元和销售量y 件之间的一组数据如下表所示:格x 的线性回归方程为________.(参考公式:b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x )答案:y ^=-3.2x +40解析:∑i =15x i y i =392,x =10,y =8,∑i =15x 2i =502.5,代入公式,得b ^=-3.2,所以,a ^=y -b ^x =40,故线性回归方程为y ^=-3.2x +40. 【变式3】为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:则y 对x 的线性回归方程为( ). A .y =x -1 B .y =x +1 C .y =88+12xD .y =176解析 由题意得x =174+176+176+176+1785=176(cm),y =175+175+176+177+1775=176(cm),由于(x ,y )一定满足线性回归方程,经验证知选C. 答案 C重难点突破【例4】某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的回归直线方程y =bx +a ; (2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.解析 (1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来配回归直线方程,为此对数据预处理如下:x =0,y =3.2, b =--+--+2×19+4×29-5×0×3.2-2+-2+22+42-5×02=26040=6.5,a =y -b x =3.2. 由上述计算结果,知所求回归直线方程为y -257=b (x -2 006)+a =6.5(x -2 006)+3.2, 即y ^=6.5(x -2 006)+260.2.①(2)利用直线方程①,可预测2012年的粮食需求量为6. 5(2 012-2 006)+260.2=6.5×6+260.2=299.2(万吨). 巩固提高1.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变; ②设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位; ③线性回归方程y ^=b ^x +a ^必过(x ,y );④在一个2×2列联表中,由计算得K 2=13.079,则有99%的把握确认这两个变量间有关系;其中错误的个数是( ) A. 0 B. 1 C. 2 D. 3答案:C解析:①方差不变,对.②错.变量x 增加一个单位时,y 平均降低5个单位.③对.④错,应该有99.9%的把握确认这两个变量间有关系.2.已知回归直线斜率的估计值为1.23,样本点的中心为点(4,5),则回归直线的方程为( )A. y ^=1.23x +4 B. y ^=1.23x +5 C. y ^=1.23x +0.08 D. y ^=0.08x +1.23答案:C解析:回归直线必过点(4,5),故其方程为y ^-5=1.23(x -4),即y ^=1.23x +0.08. 3. 已知x 、y 取值如下表:从所得的散点图分析可知:y 与x 线性相关,且y =0.95x +a ,则a =( ) A. 1.30 B. 1.45 C. 1.65 D. 1.80答案:B解析:依题意,得x =16×(0+1+4+5+6+8)=4,y =16×(1.3+1.8+5.6+6.1+7.4+9.3)=5.25;又直线y ^=0.95x +a 必过中心点(x ,y ),即点(4,5.25),于是有5.25=0.95×4+a ,由此解得a =1.45,选B.4. 从某高中随机选取5名高三男生,其身高和体重的数据如下表所示:根据上表可得回归直线方程:y =0.56x +a ,据此模型预报身高为172 cm 的高三男生的体重为( )A. 70.09 kgB. 70.12 kgC. 70.55 kgD. 71.05 kg答案:B解析:x =160+165+170+175+1805=170,y =63+66+70+72+745=69.∵回归直线过点(x ,y ),∴将点(170,69)代入回归直线方程得y ^=0.56x -26.2,代入x =172 cm ,则其体重为70.12 kg.5.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y ^=0.254x +0.321.由回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.答案:0.254解析:以x +1代x ,得y ^=0.254(x +1)+0.321,与y ^=0.254x +0.321相减可得,年饮食支出平均增加0.254万元.。

2022版高考数学一轮复习第九章算法初步统计统计案例第四讲变量间的相关关系统计案例学案含解析新人教版

2022版高考数学一轮复习第九章算法初步统计统计案例第四讲变量间的相关关系统计案例学案含解析新人教版

第四讲变量间的相关关系、统计案例知识梳理·双基自测知识梳理知识点一回归分析(1)相关关系:当自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系.与函数关系不同,相关关系是一种__非确定性关系__.(2)散点图:表示具有__相关__关系的两个变量的一组数据的图形叫做散点图,它可直观地判断两变量的关系是否可以用线性关系表示.若这些散点有y随x增大而增大的趋势,则称两个变量__正相关__;若这些散点有y随x增大而减小的趋势,则称两个变量__负相关__.(3)回归方程:y^=b^x+a^,其中b^=∑ni=1x i y i-n x-y-∑ni=1x2i-n x2,a^=__y--b^x__,它主要用来估计和预测取值,从而获得对这两个变量之间整体关系的了解.(4)相关系数:r=∑ni=1x i y i-n x-y-∑ni=1x2i-n x2∑ni=1y2i-n y2它主要用于相关量的显著性检验,以衡量它们之间的线性相关程度.当r>0时表示两个变量正相关,当r<0时表示两个变量负相关.|r|越接近1,表明两个变量的线性相关性__越强__;当|r|接近0时,表明两个变量间几乎不存在相关关系,相关性__越弱__.知识点二独立性检验(1)2×2列联表设X,Y为两个分类变量,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)如下:y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+d(2)独立性检验利用随机变量K2(也可表示为X2)=n ad-bc2n=a+b+c+d为样本容量)来判断“两个变a+b c+d a+c b+d(其中量有关系”的方法称为独立性检验.(3)独立性检验的一般步骤①根据样本数据列出2×2列联表;②计算随机变量K2的观测值k,查表确定临界值k0:③如果k≥k0,就推断“X与Y有关系\”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关\”.归纳拓展1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性分布时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.2.独立性检验是对两个变量的关系的可信程度的判断,而不是对其是否有关系的判断.根据K2的值可以判断两个分类变量有关的可信程度,并用来指导科研和实际生活.双基自测题组一走出误区1.判断下列结论是否正确(请在括号中打“√”或“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( √)(2)两个随机变量的线性相关性越强,相关系数的绝对值越接近于0.( ×)(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( √)(4)某同学研究卖出的热饮杯数y与气温x(℃)之间的关系,得回归方程y^=-2.352x+147.767,则气温为2 ℃时,一定可卖出143杯热饮.( ×)(5)事件x,y关系越密切,则由观测数据计算得到的K2的观测值越大.( √)(6)由独立性检验可知,在犯错误的概率不超过1%的前提下认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( ×)题组二走进教材2.(P97T2)为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( C )A.回归分析B.均值与方差C.独立性检验D.概率[解析]“近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.3.(P81例1)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y^=0.67x+54.9.零件数x(个)1020304050加工时间y(min)62758189现发现表中有一个数据看不清,请你推断出该数据的值为__68__.[解析]由x-=30,得y-=0.67×30+54.9=75.设表中的“模糊数字”为a,则62+a+75+81+89=75×5,∴a=68.题组三走向高考4.(2017·某某高考)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为y^=b^x+a^,已知∑10i=1x i=225,∑10i=1y i=1 600,b^=4.该班某学生的脚长为24,据此估计其身高为( C )A .160B .163C .166D .170[解析]由题意知y ^=4x +a ^又x =22.5,y =160,因此160=22.5×4+a ^,∴a ^=70,因此y ^=4x +70,当x =24时,y ^=4×24+70=166,故选C .5.(2019·高考全国Ⅰ卷)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意 不满意 男顾客 40 10 女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异? 附:K 2=n ad -bc2a +bc +da +cb +d.P (K 2≥k ) 0.050 0.010 0.001 k3.8416.63510.828[解析](1)由调查数据,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8. 女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)由题可得K 2=100×40×20-30×10250×50×70×30≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.考点突破·互动探究考点一 相关关系的判断——自主练透例1 (1)(2021·某某资阳模拟)在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是( B )A .人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%B .人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%C .人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%D .人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%(2)对四组数据进行统计,获得以下关于其相关系数的比较,正确的是( A )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3[解析](1)观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%,故选B.(2)由相关系数的定义及散点图所表达的含义,可知r2<r4<0<r3<r1.故选A.名师点拨判断两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r>0时,正相关;r<0时,负相关.(3)线性回归直线方程中:b^>0时,正相关;b^<0时负相关.考点二线性回归分析——师生共研例2 (1)(2021·湖湘名校教育联合体联考)2020年3月15日,某市物价部门对5家商场的某商品一天的销售量及其价格进行调查,5家商场的售价x(元)和销售量y(件)之间的一组数据如表所示:价格x 99.51010.511销售量y 111086 5 按公式计算,y与x的回归直线方程是:y=-3.2x+a,相关系数|r|=0.986,则下列说的是( D )法不正确...A.变量x,y线性负相关且相关性较强B.a^=40C.当x=8.5时,y的估计值为12.8D.相应于点(10.5,6)的残差约为0.4(2)(2020·全国Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑i =120xi =60,∑i =120y i =1 200,i =120(x i -x -)2=80,i =120(y i -y -)2=9 000,i =120(x i -x -)(y i -y -)=800.①求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);②求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01);③根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r =i =1nx i -x-y i -y-i =1nx i -x-2i =1ny i -y-2,2≈1.414.[解析](1)对A ,由表可知y 随x 增大而减少,可认为变量x ,y 线性负相关,且相关性强,故A 正确.对B ,价格平均x -=15(9+9.5+10+10.5+11)=10,销售量y -=15(11+10+8+6+5)=8.故回归直线恒过定点(10,8),故8=-3.2×10+a ^⇒a ^=40,故B 正确.对C ,当x =8.5时,y ^=-3.2×8.5+40=12.8,故C 正确.对D ,相应于点(10,8)的残差约为e ^=6-(-3.2×10.5+40)=-0.4,故D 不正确.故选D .(2)①样区野生动物平均数为 120∑i =120y i =120×1 200=60,地块数为200,该地区这种野生动物的估计值为200×60=12 000. ②样本(x i ,y i )的相关系数为r=i=120x i-x-y i-y-i=120x i-x-2i=120y i-y-2=80080×9 000=223≈0.94.③由于各地块间植物覆盖面积差异较大,为提高样本数据的代表性,应采用分层抽样,先将植物覆盖面积按优中差分成三层,在各层内按比例抽取样本,在每层内用简单随机抽样方法抽取样本即可.名师点拨线性回归分析问题的类型及解题方法(1)求线性回归方程:①利用公式,求出回归系数b^,a^.②待定系数法:利用回归直线过样本点中心求系数.(2)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值.(3)利用回归直线判断正、负相关:决定正相关还是负相关的是系数b^.〔变式训练1〕(2021·某某六校教育研究会素质测试)某商场近5个月的销售额和利润额如表所示:销售额x/千万元35679利润额y/百万元1334 5(1)画出散点图,观察散点图,说明两个变量有怎样的相关关系;(2)求出利润额y关于销售额x的回归直线方程;(3)当销售额为4千万元时,利用(2)的结论估计该商场的利润额(百万元).b^=∑i=1nx i y i-n x-y-∑i=1nx2i-n x-2=i=1n x i-x-y i-y-i=1n x i-x-2,a^=y--b x-.[解析](1)散点图如图所示:两个变量正相关,且具有线性相关关系.(2)易求x-=6,y-=3.2,由公式有b^=3×2.2+1×0.2+0+1×0.8+3×1.832+12+12+32=1320=0.65,且a^=3.2-0.65×6=-0.7,则线性回归方程为y^=0.65x-0.7,(3)当x=4时,由(1)可求得y^=1.9,即利润额约为1.9百万元.考点三,独立性检验——师生共研例3 (1)(2020·新高考Ⅰ,19)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:SO2PM2.5[0,50](50,150](150,475][0,35]3218 4(35,75]6812(75,115]3710①估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;②根据所给数据,完成下面的2×2列联表:SO2PM2.5[0,150](150,475][0,75](75,115]③根据②中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.附:K2=n ad-bc2a+b c+d a+c b+d,P(K2≥k)0.0500.0100.001 k 3.841 6.63510.828某校推迟2020年的春季线下开学,并采取了“停课不停学”的线上授课措施.为了解学生对线上课程的满意程度,随机抽取了该校的100名学生(男生与女生的人数之比为3∶2)对线上课程进行评价打分,若评分不低于80分视为满意,其得分情况的频率分布直方图如图所示,若根据频率分布直方图得到的评分不低于70分的频率为0.85.①估计100名学生对线上课程评分的平均值;(每组数据用该组的区间中点值为代表)②结合频率分布直方图,请完成以下2×2列联表,并回答能否有99%的把握认为对“线上教学是否满意与性别有关”;态度性别满意 不满意 合计男生 女生 10合计100K 2=n ad -bc2a +bc +d a +cb +d,其中P (K 2=k 0)0.10 0.05 0.025 0.010 0.005 k 02.7063.8415.0246.6357.879n =a +b +c +d .[解析](1)①根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且SO 2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO 2浓度不超过150的概率的估计值为64100=0.64.②根据抽查数据,可得2×2列联表:SO 2PM2.5[0,150] (150,475][0,75] 64 16 (75,115]1010K 2=100×64×10-16×10280×20×74×26≈7.484.由于7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO 2浓度有关.(2)①由已知得(0.015+b +0.03)×10=0.85, 解得b =0.04,又(0.005+a )×10=1-0.85,解得a =0.01, 评分的平均值为55×0.05+65×0.1+75×0.3+85×0.4+95×0.15=80. ②完成2×2列联表如下表:态度性别满意 不满意 合计男生 25 35 60 女生 30 10 40 合计5545100K 2=100×10×25-35×3055×45×60×40≈10.774>6.635,∴有99%的把握认为对“线上教学是否满意与性别有关”.名师点拨解独立性检验的应用问题的关注点(1)两个明确:①明确两类主体.②明确研究的两个问题. (2)两个关键:①准确列出2×2列联表:②准确理解K 2.注意:查表时不是查最大允许值,而是先根据题目要求的百分比找到第一行对应的数值,再将该数值对应的k 值与求得的K 2相比较.另外,表中第一行数据表示两个变量没有关联的可能性p ,所以其有关联的可能性为1-p .〔变式训练2〕(2021·某某某某、崇左质检)某出租汽车公司决定更换一批新的小汽车以代替原来的报废的出租车,现有A,B两款车型,根据以往这两种出租车车型的数据,得到两款出租车型使用寿命频数表如下:使用寿命年数4年5年6年7年总计A型出租车(辆)10204525100B型出租车(辆)153********(1)填写下表,并判断是否有99%的把握认为出租车的使用寿命年数与汽车车型有关?使用寿命不高于5年使用寿命不低于6年总计A型B型总计(2)司机师傅小李准备在一辆开了3年的A型车和一辆开了3年的B型车中选择,为了尽最大可能实现3年内(含3年)不换车,试通过计算说明,他应如何选择.参加公式:K2=n ad-bc2a+b c+d a+c b+d,其中n=a+b+c+d.参考数据:P(K2≥k0)0.050.0100.001k0 3.841 6.63510.828[解析](1)根据题目所给数据得到如下2×2的列联考:使用寿命不高于5年使用寿命不低于6年总计A型3070100B型5050100总计80 120 200由列联表可知:K 2=200×30×50-70×502100×100×80×120≈8.33>6.635,所以有99%的把握认为出租车的使用寿命年数与汽车车型有关;(2)记事件A 1,A 2分别表示小李选择A 型出租车和B 型出租车时,3年内(含3年)换车, 由表知P (A 1)=10+20+45100=0.75,P (A 2)=15+35+40100=0.9,因为P (A 1)<P (A 2),所以小李应选择A 型出租车.名师讲坛·素养提升非线性回归问题例4 (2020·某某乌兰察布等五市调研)一个调查学生记忆的研究团队从某中学随机挑选100名学生进行记忆测试,通过讲解100个陌生单词后,相隔十分钟进行听写测试,间隔时间t (分钟)和答对人数y 的统计表格如下: 时间t (分钟) 10 20 30 40 50 60 70 80 90 100 答对人数y 98 70 52 36 30 20 15 11 5 5 lg y1.991.851.721.561.481.301.181.040.70.7附:∑n =110t 2i =38 500,∑n =110y i =342,∑n =110lg y i =13.5,∑n =110t i y i =10 960,∑n =110t i lg y i =620.9,对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为:β^=∑i =1nu i v i -n u -v -∑i =1n u 2i -n u -2,α^=v --β^u -.请根据表格数据回答下列问题:(1)根据散点图判断,y =at +b 与lg y =ct +d ,哪个更适宜作为线性回归类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果,建立y 与t 的回归方程;(数据保留3位有效数字)(3)根据(2)请估算要想记住75%的内容,至多间隔多少分钟重新记忆一遍.(参考数据:lg 2≈0.3,lg 3≈0.48)[解析](1)由图象可知,lg y =ct +d 更适宜作为线性回归类型; (2)设lg y =ct +d ,根据最小二乘法得c =∑i =110t i lg y i -10t -lg y ∑i =110t 2i -10t -2=620.9-10×55×1.3538 500-10×552≈-0.014 7,d =lg y -c t -≈2.16,所以lg y =-0.014 7t +2.16, 因此y =10-0.014 7t +2.16;(3)由题意知y =10-0.014 7t +2.16≥75,即-0.014 7t+2.16≥2+lg 3-2lg 2≈1.88,解得t≤19.05,即至多19.05分钟,就需要重新复习一遍.名师点拨非线性相关问题一般通过换元法转化为线性相关(线性回归分析)问题解决.〔变式训练3〕(2020.课标Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i,y i)(i=1,2, (20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( D )A.y=a+bx B.y=a+bx2C.y=a+b e x D.y=a+b ln x[解析]观察题中散点图可知,散点图用光滑曲线连接起来比较接近对数型函数的图象,故选D.。

变量间的相关关系教案

变量间的相关关系教案

变量间的相关关系教案一、教学目标1. 让学生理解变量间的相关关系的概念。

2. 让学生掌握如何判断两个变量之间的相关关系。

3. 让学生学会如何绘制相关系数图。

4. 让学生能够运用相关关系解决实际问题。

二、教学内容1. 变量间的相关关系定义。

2. 相关关系的判断方法。

3. 相关系数图的绘制。

4. 实际问题中的应用。

三、教学重点与难点1. 教学重点:变量间的相关关系概念,判断方法,相关系数图的绘制。

2. 教学难点:相关系数图的绘制,实际问题中的应用。

四、教学方法1. 讲授法:讲解变量间的相关关系定义、判断方法和绘制相关系数图的步骤。

2. 案例分析法:分析实际问题,让学生学会运用相关关系解决问题。

3. 互动教学法:引导学生提问、讨论,提高学生的参与度。

五、教学过程1. 导入:通过一个实例引入变量间的相关关系概念。

2. 讲解:讲解变量间的相关关系定义、判断方法,并进行相关系数图的绘制演示。

3. 案例分析:分析实际问题,让学生学会运用相关关系解决问题。

4. 练习:让学生独立完成相关系数图的绘制,并分析实际问题。

6. 作业布置:布置相关练习题,巩固所学知识。

六、教学评价1. 评价方式:采用课堂表现、练习完成情况和课后作业三种方式进行评价。

2. 评价内容:(1)课堂表现:观察学生在课堂上的参与程度、提问和回答问题的情况。

(2)练习完成情况:检查学生练习题的完成质量,包括相关系数图的绘制和实际问题的分析。

(3)课后作业:评估学生作业的完成情况,巩固所学知识。

七、教学反思1. 反思内容:(1)教学内容:回顾本节课的教学内容,确认是否全面覆盖了变量间的相关关系概念、判断方法和实际应用。

(3)课堂互动:评估学生的参与程度,思考如何提高学生的积极性和主动性。

(4)作业布置:检查作业的难度和量,确保学生能够通过作业巩固所学知识。

八、拓展与延伸1. 相关研究:介绍变量间相关关系在学术研究中的应用,如心理学、经济学等领域。

2. 实际案例:分析更多实际问题,让学生了解相关关系在生活中的重要作用。

高考数学一轮复习 9-4 变量间的相关关系及统计案例课件 理 新人教A版

高考数学一轮复习 9-4 变量间的相关关系及统计案例课件 理 新人教A版
(3)线性回归方程 y=a^+b^x 必定过点( x , y ).( )
答案:(1)√ (2)× (3)√
4.已知线性回归方程为y=0.50x-0.81,则当x=25时,y的估计 值为________.
解析:把x=25代入方程,得y=11.69. 答案:11.69
三、独立性检验 5.判断下列结论的正误.(正确的打“√”,错误的打“×”) (1)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越 大.( ) (2)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成 绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( ) 答案:(1)√ (2)×
6.下面是2×2列联表:
y1
y2
总计
x1
a
21
73
x2
22
25
47
总计
b
46
120
则表中a,b的值分别为( )
A.94,72
B.52,50
C.52,74
D.74,52
解析:∵a+21=73,∴a=52,又a+22=b,∴b=74.
答案:C
相关关系的判断(自主探究)
例1 (1)对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点 图 (1) ; 对 变 量 u 、 v 有 观 测 数 据 (ui , vi)(i = 1,2 , … , 10) , 得 散 点 图 (2).由这两个散点图可以判断( )
2.K2 统计量 K2=a+bcn+add-ab+cc2b+d(其中 n=a+b+c+d 为样本容量).
1.易混淆相关关系与函数关系,两者的区别是函数关系是一种确定 的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系, 而相关关系不一定是因果关系,也可能是伴随关系.

高考数学一轮复习第9章统计与统计案例9.3变量间的相关关系与统计案例学案理

高考数学一轮复习第9章统计与统计案例9.3变量间的相关关系与统计案例学案理

高考数学一轮复习第9章统计与统计案例9.3变量间的相关关系与统计案例学案理052122949.3 变量间的相关关系与统计案例[知识梳理]1.相关关系与回归方程(1)相关关系的分类①正相关:从散点图上看,点散布在从左下角到右上角的区域内,如图1;②负相关:从散点图上看,点散布在从左上角到右下角的区域内,如图2.(2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(3)回归方程①最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.②回归方程:两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则b ^=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x)2=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x .其中,b ^是回归方程的斜率,a ^是在y 轴上的截距,x -=1n ∑ni =1x i ,y -=1n ∑ni =1y i ,(x -,y -)称为样本点的中心.说明:回归直线y ^=b ^x +a ^必过样本点的中心(x -,y -),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.(4)样本相关系数r =∑i =1n(x i -x )(y i -y)∑i =1n(x i -x )2∑i =1n(y i -y)2,用它来衡量两个变量间的线性相关关系.①当r >0时,表明两个变量正相关; ②当r <0时,表明两个变量负相关;③r 的绝对值越接近1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r |>0.75时,认为两个变量有很强的线性相关关系.2.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表构造一个随机变量K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d 为样本容量.(3)独立性检验利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. [诊断自测] 1.概念思辨(1)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( ) (2)通过回归方程y ^=b ^x +a ^可以估计和观测变量的取值和变化趋势.( ) (3)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( ) (4)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( )答案 (1)√ (2)√ (3)√ (4)× 2.教材衍化(1)(必修A3P 94A 组T 3)某种产品的广告费用支出x (单位:万元)与销售额y (单位:万元)之间有如下的对应数据:由最小二乘法得到线性回归直线方程y =b x +a ,则此直线一定经过点( ) A .(5,60) B .(5,50) C .(6,50) D .(8,70) 答案 B解析 回归直线样本点的中心为(x -,y -),而x -=15×(2+4+5+6+8)=5,y -=15×(30+40+60+50+70)=50,所以回归直线一定经过点(5,50).故选B.(2)(选修A1-2P 96T 2)通过随机询问72名不同性别的大学生在购买食物时是否看生产日期,得到如下列联表:读生产日期 16 28 44 不读生产日期20 8 28 总计363672则有________的把握认为性别与是否读生产日期有关.答案 99.5%解析 由表中数据得k =72×(16×8-20×28)236×36×44×28≈8.416>7.879,所以可知有99.5%的把握认为性别与是否读生产日期有关.3.小题热身(1)设回归方程为y ^=3-5x ,则变量x 增加一个单位时 ( ) A .y 平均增加3个单位 B .y 平均减少5个单位 C .y 平均增加5个单位 D .y 平均减少3个单位 答案 B解析 因为-5是斜率的估计值,说明x 每增加一个单位,y 平均减少5个单位.故选B.(2)(2018·西安模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^=0.67x +54.9.零件数x (个)10 2030 4050 加工时间y (min) 62758189现发现表中有一个数据看不清,请你推断出该数据的值为________. 答案 68解析 由x -=30,得y -=0.67×30+54.9=75. 设表中的“模糊数字”为a ,则62+a +75+81+89=75×5,∴a =68.题型1 相关关系的判断典例1 对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图①;对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图②,由这两个散点图可以判断( )A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关散点分布向右上升为正相关,反之为负相关.答案 C解析题图①的散点分布在斜率小于0的直线附近,y随x的增大而减小,故变量x与y负相关;题图②的散点分布在斜率大于0的直线附近,u随v的增大而增大,故变量u与v正相关,故选C.典例2甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:甲乙丙丁r0.820.780.690.85m 106115124103 则哪位同学的试验结果体现A,B两变量有更强的线性相关性( )A.甲 B.乙 C.丙 D.丁考查r的取值与1的关系.答案 D解析在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两个变量有更强的线性相关性,故选D.方法技巧判定两个变量正、负相关性的方法1.画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.见典例1.2.相关系数:r >0时,正相关;r <0时,负相关.3.线性回归直线方程中:b ^>0时,正相关;b ^<0时,负相关. 冲关针对训练下面是水稻产量与施化肥量的一组观测数据(单位:千克/亩): 施化肥量 15 20 25 30 35 40 45 水稻产量320330360410460470480(1)将上述数据制成散点图;(2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗?水稻产量会一直随施化肥量的增加而增长吗?解 (1)散点图如下:(2)从图中可以发现施化肥量与水稻产量具有线性相关关系,当施化肥量由小到大变化时,水稻产量由小变大,图中的数据点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系,但水稻产量只是在一定范围内随着化肥施用量的增加而增长.题型2 线性回归分析角度1 线性回归方程及应用典例 (2014·全国卷Ⅱ)某地区2007年至2013年农村居民家庭人均纯收入y (单位:千元)的数据如下表:(1)求y 关于t 的线性回归方程;(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^=∑i =1n(t i -t )(y i -y)∑i =1n(t i -t)2,a ^=y -b ^t .收集相关数据,代入公式.解 (1)由所给数据计算得t =17×(1+2+3+4+5+6+7)=4,y =17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑i =17(t i -t )2=9+4+1+0+1+4+9=28,∑i =17(t i -t )(y i -y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=∑i =17(t i -t )(y i -y)∑i =17(t i -t)2=1428=0.5, a ^=y -b ^t =4.3-0.5×4=2.3,所求回归方程为y ^=0.5t +2.3.(2)由(1)知,b ^=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t =9代入(1)中的回归方程, 得y ^=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元. 角度2 非线性回归模型的应用典例 (2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑8i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1(u i -u )(v i -v )∑ni =1(u i -u )2,α^=v -β^u .(1)散点图趋势是曲线,推断y =c +d x 适宜;(2)将非线性回归方程y =c+d x 用换元法w =x 转化为线性回归方程y =c +dw ,进而求解.解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑8i =1(w i -w )(y i -y )∑8i =1(w i -w )2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大. 方法技巧1.利用线性回归方程时的关注点(1)正确理解计算b ^,a ^的公式和准确的计算是求线性回归方程的关键. (2)回归直线方程y ^=b ^x +a ^必过样本点中心(x -,y -).(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.见角度1典例.2.非线性回归方程的求法(1)根据原始数据(x ,y )作出散点图. (2)根据散点图选择恰当的拟合函数.(3)作恰当的变换,将其转化成线性函数,求线性回归方程.(4)在(3)的基础上通过相应变换,即可得非线性回归方程.见角度2典例. 冲关针对训练(2016·全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:∑7i =1y i =9.32,∑7i =1t i y i =40.17,∑7i =1(y i -y )2=0.55,7≈2.646.参考公式:相关系数r =∑ni =1 (t i -t )(y i -y )∑ni =1(t i -t )2∑ni =1(y i -y )2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:b ^=∑ni =1 (t i -t )(y i -y )∑n i =1(t i -t )2,a ^=y -b ^ t . 解 (1)由折线图中数据和附注中参考数据得t =4,∑7i =1 (t i -t )2=28,∑7i =1(y i -y )2=0.55,∑7i =1(t i -t )(y i -y )=∑7i =1t i y i -t ∑7i =1y i =40.17-4×9.32=2.89,r ≈2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b ^=∑7i =1(t i -t )(y i -y )∑7i =1(t i -t )2=2.8928≈0.103,a ^=y -b ^t ≈1.331-0.103×4≈0.92.所以,y 关于t 的回归方程为y ^=0.92+0.10t . 将2016年对应的t =9代入回归方程得 y ^=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨. 题型3 独立性检验典例 (2018·广州测试)某企业生产的某种产品被检测出其中一项质量指标存在问题.该企业为了检查生产该产品的甲、乙两条流水线的生产情况,随机从这两条流水线上生产的大量产品中各抽取50件产品作为样本,测出它们的这一项质量指标值.若该项质量指标值落在(195,210]内,则为合格品,否则为不合格品.下表是甲流水线样本的频数分布表,下图是乙流水线样本的频率分布直方图.(1)根据上图,估计乙流水线产品的该项质量指标值的中位数;(2)若将频率视为概率,某个月内甲、乙两条流水线均生产了5000件产品,则甲、乙两条流水线分别生产出不合格品约多少件?(3)根据已知条件完成下面的2×2列联表,并回答能否有85%的把握认为“该企业生产的这种产品的该项质量指标值与甲、乙两条流水线的选择有关”?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(其中n=a+b+c+d).解(1)设乙流水线产品的该项质量指标值的中位数为x,因为0.48=(0.012+0.032+0.052)×5<0.5<(0.012+0.032+0.052+0.076)×5=0.86,所以(0.012+0.032+0.052)×5+0.076×(x-205)=0.5,解得x =390019.(2)由甲、乙两条流水线各抽取50件产品可得,甲流水线生产的不合格品有15件,则甲流水线生产的产品为不合格品的概率为1550=310,乙流水线生产的产品为不合格品的概率为(0.012+0.028)×5=15.所以某个月内甲、乙两条流水线均生产了5000件产品,则甲、乙两条流水线生产的不合格品件数分别为5000×310=1500,5000×15=1000.(3)2×2列联表:则K 2=50×50×75×25=3≈1.3,因为1.3<2.072,所以没有85%的把握认为“该企业生产的这种产品的该项质量指标值与甲、乙两条流水线的选择有关”.方法技巧独立性检验的一般步骤(1)根据样本数据列出2×2列联表;(2)计算随机变量K 2的观测值k ,查表确定临界值k 0;(3)如果k ≥k 0,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过P (K 2≥k 0);否则,就认为在犯错误的概率不超过P (K 2≥k 0)的前提下不能推断“X 与Y 有关系”.见典例.冲关针对训练(2017·洛阳模拟)某学生对其亲属30人的饮食习惯进行了一次调查,并用如图所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主.)(1)根据以上数据完成下列2×2列联表.主食蔬菜主食肉类总计50岁以下50岁以上总计(2)能否在犯错误的概率不超过0.01的前提下认为其亲属的饮食习惯与年龄有关?并写出简要分析.(3)能否说有99%的亲属的饮食习惯与年龄有关?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828解(1)2×2列联表如下:主食蔬菜主食肉类总计50岁以下481250岁以上16218 总计201030(2)因为K2的观测值k=30×(8-128)212×18×20×10=10>6.635,所以能在犯错误的概率不超过0.01的前提下认为其亲属的饮食习惯与年龄有关.(3)这种说法不正确.能在犯错误的概率不超过0.01的前提下认为其亲属的饮食习惯与年龄有关,是这个论断成立的可能性大小的结论,与是否有“99%的亲属的饮食习惯与年龄有关”无关.1.(2017·山东高考)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系.设其回归直线方程为y ^=b ^x +a ^.已知∑i =110x i =225,∑i =110y i =1600,b ^=4.该班某学生的脚长为24,据此估计其身高为( )A .160B .163C .166D .170 答案 C解析 ∵∑i =110x i =225,∴x =110∑i =110x i =22.5.∵∑i =110y i =1600,∴y =110∑i =110y i =160.又b ^=4,∴a ^=y -b ^x =160-4×22.5=70. ∴回归直线方程为y ^=4x +70.将x =24代入上式得y ^=4×24+70=166. 故选C.2.(2015·福建高考)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y =b x +a ,其中b =0.76,a =y -b x .据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元 答案 B解析 由统计数据表可得 x -=8.2+8.6+10.0+11.3+11.95=10.0,y -=6.2+7.5+8.0+8.5+9.85=8.0,则a ^=8.0-0.76×10.0=0.4,所以回归直线方程为y ^=0.76x +0.4,当x =15时,y ^=0.76×15+0.4=11.8,故估计年收入为15万元家庭的年支出为11.8万元.故选B.3.(2018·江西南城一中、高安中学联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.由K 2=(a +b )(c +d )(a +c )(b +d ),得K 2=100×(45×22-20×13)265×35×58×42≈9.616.参照下表,A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D .有99%以上的把握认为“生育意愿与城市级别无关” 答案 C解析 K 2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”,故选C.4.(2018·广东广州检测)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )A .成绩B .视力C .智商D .阅读量 答案 D解析 K 2=52×(6×22-10×14)216×36×20×32,令5216×36×20×32=m ,则K 21=82m ,同理,K 22=m ×(4×20-12×16)2=1122m ,K 23=m ×(8×24-8×12)2=962m ,K 24=m ×(14×30-6×2)2=4082m ,∴K 24>K 22>K 23>K 21,则与性别有关联的可能性最大的变量是阅读量,故选D.[重点保分 两级优选练]A 级一、选择题1.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④ D .①④ 答案 D解析 由回归直线方程y ^=b ^x +a ^,知当b ^>0时,y 与x 正相关;当b ^<0时,y 与x 负相关.∴①④一定错误.故选D.2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3 答案 A解析 易知题中图(1)与图(3)是正相关,图(2)与图(4)是负相关,且图(1)与图(2)中的样本点集中分布在一条直线附近,则r 2<r 4<0<r 3<r 1.故选A.3.(2018·辽宁沈阳二中一模)某考察团对全国10大城市居民人均工资水平x (千元)与居民人均消费水平y (千元)进行统计调查,y 与x 具有相关关系,回归方程为y ^=0.66x +1.562,若某城市居民人均消费水平为7.675(千元),估计该城市人均消费额占人均工资收入的百分比约为( )A .83%B .72%C .67%D .66% 答案 A解析 由7.675=0.66x +1.562,得x ≈9.262, 所以7.6759.262×100%≈83%.故选A.4.下表提供了某厂节能降耗技术改造后在生产A 产品过程中记录的产量x (吨)与相应的生产能耗y (吨)的几组对应数据:x 3 4 5 6 y2.5t44.5根据上表提供的数据,求出y 关于x 的线性回归方程为y =0.7x +0.35,那么表中t 的精确值为 ( )A .3B .3.15C .3.5D .4.5 答案 A解析 ∵x -=3+4+5+64=4.5,代入y ^=0.7x +0.35,得y ^=3.5,∴t =3.5×4-(2.5+4+4.5)=3.故选A.5.(2018·长春检测)已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3B.y ^=2x -2.4 C.y ^=-2x +9.5 D.y ^=-0.3x +4.4 答案 A解析 由变量x 与y 正相关知C 、D 均错误,又回归直线经过样本点的中心(3,3.5),代入验证得A 正确,B 错误.故选A.6.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x -,y -)C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 答案 D解析 D 选项中,若该大学某女生身高为170 cm ,根据回归方程只能近似认为其体重为58.79 kg ,但不是绝对的.故D 不正确.故选D.7.(2018·湖南邵阳调研)假设有两个分类变量X 和Y 的2×2列联表如下:A .a =45,c =15B .a =40,c =20C .a =35,c =25D .a =30,c =30 答案 A解析 根据2×2列联表与独立性检验可知, 当a a +10与cc +30相差越大时,X 与Y 有关系的可能性越大, 即a 、c 相差越大,a a +10与cc +30相差越大,故选A.8.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:由表中数据,求得线性回归方程为y =-4x +a .若在这些样本点中任取一点,则它在回归直线左下方的概率为( )A.16B.13C.12D.23 答案 B解析 由题意可知x -=4+5+6+7+8+96=132,y -=90+84+83+80+75+686=80.又点⎝ ⎛⎭⎪⎫132,80在直线y ^=-4x +a 上,故a =106. 所以回归方程为y =-4x +106.由线性规划知识可知,点(5,84),(9,68)在直线y =-4x +106的左下方. 故所求事件的概率P =26=13.故选B.9.(2018·安徽皖南一模)下列说法错误的是( ) A .回归直线过样本点的中心(x -,y -)B .两个随机变量的线性相关性越强,则相关系数的绝对值就越接近1C .在回归直线方程y ^=0.2x +0.8中,当解释变量x 每增加1个单位时,预报变量y ^平均增加0.2个单位D .对分类变量X 与Y ,随机变量K 2的观测值k 越大,则判断“X 与Y 有关系”的把握程度越小答案 D解析 回归直线过样本点的中心(x -,y -),A 正确;两个随机变量相关性越强,则相关系数的绝对值越接近1,B 正确;在线性回归方程y ^=0.2x +0.8中,当解释变量x 每增加1个单位时,预报量平均增加0.2个单位,C 正确;对分类变量X 与Y 的随机变量K 2的观测值k 来说,k 越大,“X 与Y 有关系”的把握程度越大,因此D 不正确.故选D.10.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程为y ^=b ^x +a ^.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′ D.b ^<b ′,a ^<a ′ 答案 C解析 x =216=72,y =136,代入公式求得b ^=58-6×72×13691-6×⎝ ⎛⎭⎪⎫722=57,a ^=y -b ^x =136-57×72=-13,而b ′=2,a ′=-2,∴b ^<b ′,a ^>a ′,故选C.二、填空题11.x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用y =c 1ec 2x 拟合时的相关指数为R 21,用y ^=b ^x +a ^拟合时的相关指数为R 22,则R 21>R 22;③x ,y 之间不能建立线性回归方程. 答案 ①②解析 在散点图中,点散布在从左上角到右下角的区域,因此x ,y 是负相关关系,故①正确;由散点图知用y =c 1ec 2x 拟合比用y ^=b ^x +a ^拟合效果要好,则R 21>R 22,故②正确;x ,y 之间可以建立线性回归方程,但拟合效果不好,故③错误.12.(2017·赣州模拟)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-13附近波动.经计算∑6i =1x i =11,∑6i =1y i=13,∑6i =1x 2i =21,则实数b 的值为________.答案 57解析 令t =x 2,则曲线的回归方程变为线性的回归方程,即y =bt -13,此时t =∑6i =1x 2i6=72,y =∑6i =1y i6=136,代入y =bt -13,得136=b ×72-13,解得b =57. 13.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2≈3.918,经查对临界值表知P (K 2≥3.841)≈0.05.对此,四名同学作出了以下的判断:p :有95%的把握认为“这种血清能起到预防感冒的作用”; q :若某人未使用该血清,则他在一年中有95%的可能性得感冒; r :这种血清预防感冒的有效率为95%; s :这种血清预防感冒的有效率为5%.则下列结论中,正确结论的序号是________.(把你认为正确的命题的序号都填上) ①p ∧(綈q );②(綈p )∧q ;③(綈p ∧綈q )∧(r ∨s ); ④(p ∨綈r )∧(綈q ∨s ). 答案 ①④解析 由题意,得K 2≈3.918,P (K 2≥3.841)≈0.05,所以,只有第一位同学的判断正确,即有95%的把握认为“这种血清能起到预防感冒的作用”.所以p 真,q 假,r 假,s 假.由真值表知①④为真命题.14.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是________.①列联表中c 的值为30,b 的值为35; ②列联表中c 的值为15,b 的值为50;③根据列联表中的数据,若在犯错误的概率不超过0.025的前提下,能认为“成绩与班级有关系”;④根据列联表中的数据,若在犯错误的概率不超过0.025的前提下,不能认为“成绩与班级有关系”.答案 ③解析 由题意知,成绩优秀的学生数是30, 成绩非优秀的学生数是75,所以c =20,b =45, ①②错误;根据列联表中的数据,得到 K 2=105×(10×30-20×45)255×50×30×75≈6.1>5.024,因此在犯错误的概率不超过0.025的前提下认为“成绩与班级有关系”.故③正确,④错误.B 级三、解答题15.(2018·湖南百所重点中学诊断)已知某企业近3年的前7个月的月利润(单位:百万元)如下面的折线图所示:(1)试问这3年的前7个月中哪个月的月平均利润较高? (2)通过计算判断这3年的前7个月的总利润的发展趋势;(3)试以第3年的前4个月的数据(如下表),用线性回归的拟合模式估计第3年8月份的利润.月份1234利润y (单位:百万元)4 4 66相关公式:b ^=a ^=y --b ^x -.解 (1)由折线图可知5月和6月的平均利润最高.(2)第1年前7个月的总利润为1+2+3+5+6+7+4=28(百万元), 第2年前7个月的总利润为2+5+5+4+5+5+5=31(百万元), 第3年前7个月的总利润为4+4+6+6+7+6+8=41(百万元), 所以这3年的前7个月的总利润呈上升趋势.∴b ^=54-4×2.5×530-4×2.52=0.8,∴a ^=5-2.5×0.8=3,∴y ^=0.8x +3,当x =8时,y ^=0.8×8+3=9.4.∴估计第3年8月份的利润为9.4百万元.16.(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:旧养殖法新养殖法(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量<50 kg箱产量≥50 kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).解(1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.由题意知P (A )=P (BC )=P (B )P (C ). 旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P (B )的估计值为0.62.新养殖法的箱产量不低于50 kg 的频率为 (0.068+0.046+0.010+0.008)×5=0.66, 故P (C )的估计值为0.66.因此,事件A 的概率估计值为0.62×0.66=0.4092. (2)根据箱产量的频率分布直方图得列联表K 2=100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为 (0.004+0.020+0.044)×5=0.34<0.5, 箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法产量的中位数的估计值为 50+0.5-0.340.068≈52.35(kg).。

高三数学一轮复习 10-3变量间的相关关系、统计案例学案

探究类型三:独立性检 验
例4.(2010年新课标)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老人,结果如下:
是否需要志愿者


需要
40
30
不需要
160
270
(Ⅰ)估计该地区 老年人中,需要志愿提供帮助的老年人的比例;
(Ⅱ)能否有99℅的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?
总计
总计
若要推断的论述为Hl:X与Y有关系,可以按如下步骤判断结论Hl成立的可能性:根据观测数据计算由公式 所给出的检验随机变量的 观测值k,并且k的值越大,说明“X与Y有关系”成立的可能性越大,利用以下数据来确定“X与Y有关系”的可信程度,
如果 ,就有_______的把握认为“ 与 有关系”;
如果 ,就有99%的把握认为“ 与 有关系”;
月平均气温x(℃)
17
13
33
40
55
9.春节期间,某市物价部门对本市五个商场销售的某商品一天的销售量及其价格进行调查,五个商场的售价x元和销售量y件之间的一组数据如下表所示:
价格x
9
9.5
10
10.5
11
销售量y
11
10
8
6
5
通过分析,发现销售量 y与商品的价格x具有相关关系 ,则销售量y关于商品的价格x的回归直线方程为_____________________。
x
0
1
2
3
y
1
3
5
7
( D)以上说法都不对
2.已知x与y之间的一组数据如右表:则x与y的线性回归直线 必过点
(A)(2,2)(B)(1.5,0)(C)(1,2)(D)(1.5,4)

2023年高考数学(文科)一轮复习讲义——变量间的相关关系与统计案例

第4节 变量间的相关关系与统计案例考试要求 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.1.相关关系与回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系. 2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^__,则b ^=, a ^=y --b ^x -.其中,b ^是回归方程的斜率,a ^是在y 轴上的截距.回归直线一定过样本点的中心(x -,y -). 3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心:对于一组具有线性相关关系的数据(x 1, y 1)(x 2, y 2),…,(x n, y n ), 其中(x -,y -)称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.(4)相关指数:R 2=.其中是残差平方和,其值越小,则R 2越大(接近1),模型的拟合效果越好. 4.独立性检验(1)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)为y 1 y 2 总计 x 1 a b a +b x 2 c dc +d总计a +cb +d a +b +c +d则随机变量K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )n =a +b +c +d 为样本容量.1.求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本点的中心(x -,y -).2.根据回归方程计算的y ^值,仅是一个预报值,不是真实发生的值.3.根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.1.思考辨析(在括号内打“√”或“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )(2)通过回归直线方程y ^=b ^x +a ^可以估计预报变量的取值和变化趋势.( ) (3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( ) (4)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( ) 答案 (1)√ (2)√ (3)√ (4)√2.(易错题)(2022·兰州模拟)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,n ∈N *,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( ) A.-1 B.0C.12D.1答案 D解析 由题设知,所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,可知这组样本数据完全正相关,故其相关系数为1,故选D.3.两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数R 2如下,其中拟合效果最好的模型是( ) A.模型1的相关指数R 2为0.98 B.模型2的相关指数R 2为0.80C.模型3的相关指数R2为0.50D.模型4的相关指数R2为0.25答案 A解析在两个变量y与x的回归模型中,它们的相关指数R2越近于1,拟合效果越好,在四个选项中A的相关指数最大,所以拟合效果最好的是模型1.4.(2020·全国Ⅰ卷)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i,y i)(i=1,2,…,20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是()A.y=a+bxB.y=a+bx2C.y=a+b e xD.y=a+b ln x答案 D解析由散点图可以看出,这些点大致分布在对数型函数的图象附近.故选D. 5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科文科男1310女720已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.答案 5%解析 K 2的观测值k ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.6.(2022·银川模拟)某车间为了提高工作效率,需要测试加工零件所花费的时间,为此进行了5次试验,这5次试验的数据如下表:零件数x (个) 10 20 30 40 50 加工时间y (min)62a758189若用最小二乘法求得回归直线方程为y ^=0.67x +54.9,则a 的值为________. 答案 68解析 x -=10+20+30+40+505=30,y -=62+a +75+81+895=61+2+a 5,所以61+2+a5=0.67×30+54.9, 解得a =68.考点一 相关关系的判断1.某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:月份 1 2 3 4 5 6 人均销售额 6 5 8 3 4 7 利润率(%)12.610.418.53.08.116.3根据表中数据,下列说法正确的是( ) A.利润率与人均销售额成正相关关系 B.利润率与人均销售额成负相关关系 C.利润率与人均销售额成正比例函数关系D.利润率与人均销售额成反比例函数关系 答案 A解析 由统计表可得利润率与人均销售额不是正比例关系,也不是反比例关系,排除C 和D ;其属于正相关关系,A 正确,B 错误.2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A.r 2<r 4<0<r 3<r 1B.r 4<r 2<0<r 1<r 3C.r 4<r 2<0<r 3<r 1D.r 2<r 4<0<r 1<r 3 答案 A解析 由散点图知图①与图③是正相关,故r 1>0,r 3>0, 图②与图④是负相关,故r 2<0,r 4<0,且图①与图②的样本点集中在一条直线附近,因此r 2<r 4<0<r 3<r 1,故选A. 3.(2022·合肥模拟)根据如下样本数据,得到回归直线方程y ^=b ^x +a ^,则( )x 3 4 5 6 7 8 y-3.0 -2.00.5-0.52.54.0A.a ^>0,b ^>0 B.a ^>0,b ^<0 C.a ^<0,b ^>0D.a ^<0,b ^<0答案 C解析 作出散点图(图略),由散点图可知,a ^<0,b ^>0. 感悟提升 判断相关关系的两种方法:(1)散点图法:如果样本点的分布从整体上看大致在某一曲线附近,变量之间就有相关关系;如果样本点的分布从整体上看大致在某一直线附近,变量之间就有线性相关关系.(2)相关系数法:利用相关系数判定,|r |越趋近于1,相关性越强. 考点二 回归分析 角度1 线性回归方程及应用例1 (2021·成都诊断)某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x (单位:年)与失效费y (单位:万元)的统计数据如下表所示:使用年限x (单位:年) 1234567失效费y (单位:万元)2.903.30 3.604.40 4.805.20 5.90(1)由上表数据可知,可用线性回归模型拟合y 与x 的关系,请用相关系数加以说明;(精确到0.01)(2)求出y 关于x 的线性回归方程,并估算该种机械设备使用10年的失效费. 参考公式:相关系数r =∑ni =1 (x i -x -)(y i -y -)∑ni =1 (x i -x -)2∑ni =1(y i -y -)2.线性回归方程y ^=b ^x +a ^中斜率和截距最小二乘估计计算公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2,a ^=y --b ^x -. 参考数据:∑7i =1(x i -x -)(y i -y -)=14.00, ∑7i =1(y i -y -)2=7.08,198.24≈14.10.解 (1)由题意,知x -=1+2+3+4+5+6+77=4,y -=2.90+3.30+3.60+4.40+4.80+5.20+5.907=4.30,∑7i =1(x i -x -)2=(1-4)2+(2-4)2+(3-4)2+(4-4)2+(5-4)2+(6-4)2+(7-4)2=28, ∴r =14.0028×7.08=14.00198.24≈14.0014.10≈0.99.因为y 与x 的相关系数近似为0.99,所以y 与x 的线性相关程度相当大,从而可以用线性回归模型拟合y 与x 的关系. (2)∵b ^=∑7i =1 (x i -x -)(y i -y -)∑7i =1 (x i -x -)2=1428=0.5, ∴a ^=y --b ^x -=4.3-0.5×4=2.3.∴y 关于x 的线性回归方程为y ^=0.5x +2.3.将x =10代入线性回归方程,得y ^=0.5×10+2.3=7.3, ∴估算该种机械设备使用10年的失效费为7.3万元. 角度2 非线性回归方程及应用例2 (2022·郑州调研)人类已经进入大数据时代.目前,数据量级已经从TB(1 TB =1 024 GB)级别跃升到PB(1 PB =1 024 TB),EB(1 EB =1 024 PB)乃至ZB(1 ZB =1 024 EB)级别.国际数据公司(IDC)研究结果表明,2008年全球产生的数据量为0.49 ZB ,2009年数据量为0.8 ZB ,2010年增长到1.2 ZB ,2011年数据量更是高达1.82 ZB.下表是国际数据公司(IDC)研究的全球近6年每年产生的数据量(单位:ZB)及相关统计量的值:表中z i =ln y i ,z -=16∑6i =1z i . (1)根据上表数据信息判断,方程y =c 1·e c 2x (e 是自然对数的底数)更适宜作为该公司统计的年数据量y 关于年份序号x 的回归方程类型,试求此回归方程(c 2精确到0.01);(2)有人预计2022年全世界产生的数据规模将超过2011年的50倍.根据(1)中的回归方程,说明这种判断是否准确,并说明理由. 参数数据:e4.56≈95.58,e4.58≈97.51,回归方程y ^=a ^+b ^x 中,b ^=∑n i =1(x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i -nx - y -∑n i =1x 2i -nx -2, a ^=y --b ^x -.解 (1)由y =c 1·e c 2x 得ln y =c 2x +ln c 1, 即z =c 2x +ln c 1,∴c 2=∑6i =1(x i -x -)(z i -z -)∑6i =1(x i -x -)2=6.7317.5≈0.38.又∵z -=c 2x -+ln c 1,0.38×3.5+ln c 1=2.85,ln c 1=1.52. ∴ln y =0.38x +1.52,即y =e 0.38x +1.52为所求的回归方程. (2)根据(1)知回归方程为y =e 0.38x +1.52.当x =9时,y =e 0.38×9+1.52=e 4.94>e 4.56≈95.58,95.581.82≈52.52.据此可以判断2022年全球产生的数据量超过2011年的50倍,因此,这种判断是准确的.感悟提升 回归分析问题的类型及解题方法 (1)求回归方程①根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关. ②利用公式,求出回归系数b ^.③待定系数法:利用回归直线过样本点的中心求系数a ^.(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值. (3)利用回归直线判断正、负相关,决定正相关还是负相关的是系数b ^.(4)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.训练1 下面给出了根据我国2015~2021年水果人均占有量y (单位:kg)和年份代码x 绘制的散点图和线性回归方程的残差图.(2015年~2021年的年份代码x 分别为1~7)(1)根据散点图分析y 与x 之间的相关关系;(2)根据散点图相应数据计算得∑7i =1y i =1 074,∑7i =1x i y i =4 517,求y 关于x 的线性回归方程;(精确到0.01)(3)根据线性回归方程的残差图,分析线性回归方程的拟合效果. 附:回归方程y ^=a ^+b ^x 中斜率和截距的最小二乘估计公式分别为 b ^=∑ni =1 (x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i -nx - y -∑n i =1x 2i-nx -2, a ^=y --b ^x -.解 (1)从散点图可以看出,这些点的分布整体上在一条直线附近,且当x 由小变大时,y 也由小变大,所以y 与x 之间具有线性相关关系,且是正相关. (2)由题意可知,x -=1+2+3+4+5+6+77=4,y -=17∑7i =1y i=1 0747, ∑7i =1x 2i =12+22+32+42+52+62+72=140, ∴b ^=∑7i =1x i y i-7x - y -∑7i =1x 2i -7x -2=4 517-7×4×1 0747140-7×42=22128≈7.89,∴a ^=y --b ^x -=1 0747-7.89×4≈121.87,∴y 关于x 的线性回归方程为y ^=7.89x +121.87.(3)由残差图可以看出历年数据的残差均分布在-2~2之间,且图中各点比较均匀地分布在数值0所在直线附近,带状区域很窄,说明对应的回归直线拟合效果较好.考点三 独立性检验例3 (2021·武汉质检)有关研究表明,正确佩戴安全头盔,规范使用安全带能够将交通事故死亡风险大幅降低,对保护群众生命安全具有重要作用.2020年4月,“一盔一带”安全守护行动在全国各地开展,行动期间,公安交管部门将加强执法管理,依法查纠摩托车和电动自行车骑乘人员不佩戴安全头盔,汽车驾乘人员不使用安全带的行为,助推养成安全习惯,该行动开展一段时间后,某市针对电动自行车骑乘人员是否佩戴安全头盔问题进行调查,在随机调查的1 000名骑行人员中,记录其年龄和是否佩戴头盔情况,得到统计图如图所示.(1)估算该市电动自行车骑乘人员的平均年龄; (2)根据所给的数据,完成列联表:是否佩戴头盔是否(3)根据(2)中的列联表,判断是否有99%的把握认为佩戴安全头盔与年龄有关. 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)该市电动自行车骑乘人员平均年龄为25×0.25+35×0.35+45×0.2+55×0.15+65×0.05=39(周岁). (2)完成2×2列联表如下:(3)K 2的观测值k =1 000×(60×540-60×340)2600×400×880×120=12522≈5.682<6.635.故没有99%的把握认为佩戴安全头盔与年龄有关.感悟提升 1.在2×2列联表中,如果两个变量没有关系,则应满足ad -bc ≈0. |ad -bc |越小,说明两个变量之间关系越弱;|ad -bc |越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表:(2)根据公式K2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)计算K2的观测值k;(3)通过比较观测值k与临界值的大小关系来作统计推断.训练2 (2022·南宁模拟)第五代移动通信技术(5G技术)是最新一代蜂窝移动通信技术,也是继4G、3G和2G系统之后的延伸.5G的性能目标是高数据速率、减少延迟、节省能源、降低成本、提高系统容量和大规模设备连接.某大学为了解学生对“5G”相关知识的了解程度,随机抽取100名学生参与测试,并根据得分划分成“不太了解”或“比较了解”两类后整理得到如下列联表:(1)补全列联表,并判断是否有99.9%的把握认为“学生对5G的了解程度与性别有关”;(2)从“不太了解”的学生中按性别分层抽取6人,再从这6人中随机选取2人参加“5G”知识讲座,求抽到的2人中恰有1名女生的概率.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(n=a+b+c+d). 临界值表:解(1)补全的列联表如下:不太了解 比较了解 总计 男生 25 33 58 女生 5 37 42 总计3070100所以K 2的观测值k =100×(25×37-33×5)258×42×30×70≈11.291>10.828,故有99.9%的把握认为“学生对5G 的了解程度与性别有关”. (2)“不太了解”的男生有25人,女生有5人,按性别分层抽样从中抽取6人,则男生应抽取5人,记为a ,b ,c ,d ,e ,女生应抽取1人,记为x ,再从这6人中随机抽取2人共有15种情况:xa ,xb ,xc ,xd ,xe ,ab ,ac ,ad ,ae ,bc ,bd ,be ,cd ,ce ,de ,抽到恰有1名女生有5种情况:xa ,xb ,xc ,xd ,xe , 所以所求的概率为515=13.1.为调查中学生近视情况,测得某校在150名男生中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( ) A.回归分析 B.均值与方差 C.独立性检验 D.概率答案 C解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断. 2.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图(1);对变量u ,v ,有观测数据(u i ,v i )(i =1,2,…,10),得散点图(2),由这两个散点图可以判断( )A.变量x 与y 正相关,u 与v 正相关B.变量x 与y 正相关,u 与v 负相关C.变量x 与y 负相关,u 与v 正相关D.变量x 与y 负相关,u 与v 负相关 答案 C解析 由题图(1)可知,y 随x 的增大而减小,各点整体呈下降趋势,x 与y 负相关,由题图(2)可知,u 随v 的增大而增大,各点整体呈上升趋势,u 与v 正相关. 3.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适;②用相关指数R 2来刻画回归的效果,R 2值越接近于1,说明模型的拟合效果越好;③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.正确的是( ) A.①② B.②③ C.①③ D.①②③答案 D4.(2022·昆明诊断)下表是关于某设备的使用年限x (单位:年)和所支出的维修费用y (单位:万元)的统计表:x 2 3 4 5 6 y3.44.25.15.56.8由表可得线性回归方程y ^=0.81x +a ^,若规定:维修费用y 不超过10万元,一旦大于10万元时,该设备必须报废.据此模型预测,该设备使用年限的最大值约为( ) A.7B.8C.9D.10答案 D解析 由已知表格,得x -=15×(2+3+4+5+6)=4, y -=15×(3.4+4.2+5.1+5.5+6.8)=5,因为回归直线恒过样本点的中心(x -,y -), 所以5=0.81×4+a ^,解得a ^=1.76, 所以回归直线的方程为y ^=0.81x +1.76,由y ≤10,得0.81x +1.76≤10,解得x ≤82481≈10.17,由于x ∈N *,所以据此模型预测,该设备使用年限的最大值为10.故选D. 5.某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修课程的55名学生,得到数据如下表:附表:参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .参照附表,得到的正确结论是( )A.在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别有关B.在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别无关C.有99.99%以上的把握认为喜欢“应用统计”课程与性别有关D.有99.99%以上的把握认为喜欢“应用统计”课程与性别无关 答案 A解析 ∵K 2的观测值k =55×(20×20-5×10)225×30×30×25≈11.978>10.828,所以有99.9%的把握认为喜欢“应用统计”课程与性别有关,即在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别有关. 6.下列说法:①残差可用来判断模型拟合的效果;②设有一个回归方程:y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位; ③线性回归直线:y ^=b ^x +a ^必过点(x -,y -);④在一个2×2列联表中,由计算得K 2的观测值k =6.665,则有99%的把握确认这两个变量间有关系(其中P (K 2≥6.635)=0.010), 其中错误的个数是( ) A.0 B.1 C.2 D.3答案 B解析 对于①,残差可用来判断模型拟合的效果,残差越小,拟合效果越好,∴①正确;对于②,回归方程y ^=3-5x 中,变量x 增加一个单位时,y 平均减少5个单位,∴②错误;对于③,线性回归直线y ^=b ^x +a ^必过样本点的中心(x -,y -),∴③正确; 对于④,在2×2列联表中,由计算得k =6.665,对照临界值得,有99%的把握确认这两个变量间有关系,∴④正确. 综上,其中错误的命题是②,共1个,故选B.7.已知x 和y 的散点图如图所示,在相关关系中,若用y =c 1e c 2x 拟合时的相关指数为R 21,用y ^=b ^x +a ^拟合时的相关指数为R 22,则R 21,R 22中较大的是________.答案 R 21解析 由散点图知,用y =c 1e c 2x 拟合的效果比y ^=b ^x +a ^拟合的效果要好,所以R 21>R 22,故较大者为R 21.8.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2的观测值k ≈3.918,经查临界值表知P (K 2≥3.841)≈0.05.则下列结论中,正确结论的序号是________. ①有95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%. 答案 ①解析 k ≈3.918≥3.841,而P (K 2≥3.814)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.9.在一次对人体脂肪含量和年龄的关系的研究中,研究人员获得了一组样本数据,并制成如图所示的人体脂肪含量与年龄的关系的散点图,下列结论中正确的是________(填序号).①人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%; ②人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%;③人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%; ④人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%. 答案 ②解析 观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%.10.(2022·河南名校联考)某学校食堂统计了最近5天到餐厅就餐的人数x (单位:百人)与食堂向食材公司购买所需食材(原材料)的数量y (单位:袋),得到如下统计表:(1)根据所给的5组数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;(2)已知购买食材的费用C (单位:元)与数量y (单位:袋)的关系为C =⎩⎨⎧400y -20,0<y <36(y ∈N ),380y ,y ≥36(y ∈N ),投入使用的每袋食材相应的销售单价为700元,多余的食材必须无偿退还食材公司,据悉下周一大约有1 500人到食堂餐厅就餐,根据(1)中求出的线性回归方程,预测食堂应购买多少袋食材,才能获得最大利润,最大利润是多少?(注:利润L =销售收入-原材料费用)参考公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i -nx - y -∑n i =1x 2i-nx -2,a ^=y --b ^x -. 参考数据:∑5i =1x i y i =1 343,∑5i =1x 2i =558,∑5i =1y 2i=3 237. 解 (1)由所给数据可得x -=13+9+8+10+125=10.4,y -=32+23+18+24+285=25,所以b ^=∑5i =1x i y i -5x - y -∑5i =1x 2i-5x -2=1 343-5×10.4×25558-5×10.42=2.5,又a ^=y --b ^x -=25-2.5×10.4=-1, 所以y 关于x 的线性回归方程为y ^=2.5x -1. (2)由(1)中求出的线性回归方程知,当x =15时,y =36.5,即预计需要购买食材36.5袋. 因为C =⎩⎪⎨⎪⎧400y -20,0<y <36(y ∈N ),380y ,y ≥36(y ∈N ),所以当y <36时,利润L =700y -(400y -20)=300y +20,y ∈N , 此时当y =35时,利润L max =300×35+20=10 520(元);当y ≥36时,根据线性回归方程预测需要购买食材36.5袋,并且剩余的食材只能无偿退还,此时当y =36时,利润L =700×36-380×36=11 520(元), 当y =37时,利润L =700×36.5-380×37=11 490(元).综上,食堂应购买36袋食材,才能获得最大利润,最大利润为11 520元. 11.(2022·“四省八校”开学考试)据我国一项专题调查显示,某市高级职称的中年知识分子中竟有高达75.3%的人处于亚健康状态,更令人担忧的是85%以上的企业管理者处于慢性疲劳状态或亚健康状态,这是由他们所处的特殊工作及生活的环境和行为模式所决定的.亚健康是指非病非健康的一种临界状态.如果这种状态不能及时得到纠正,非常容易引起身心疾病.某高科技公司为了了解亚健康与性别的关系,对本公司部分员工进行了不记名问卷调查,该公司处于正常工作状态的员工(包括管理人员)共有8 000人,其中男性员工有6 000人,女性员工有2 000人,从8 000人中用分层抽样的方法随机抽取了400人作为样本进行健康状况的调查.(1)求男性员工、女性员工各抽取多少人?(2)通过调查得到如图所示的统计图,其中a=0.2,b=0.1.根据统计图,完成下面2×2列联表,健康亚健康总计男员工女员工总计400问是否有97.5%的把握认为人处于亚健康状态与性别有关?参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d. 参考数据:P(K≥k0)0.050.0250.0100.005k0 3.841 5.024 6.6357.879解(1)由题意知样本容量与总体的比值为4008 000=120,∴男性员工抽取了6 000×120=300(人),女性员工抽取了2 000×120=100(人).(2)由统计图可知,样本中男员工处于亚健康状态的人数为300×0.2=60,样本中女员工处于亚健康状态的人数为100×0.1=10,2×2列联表为健康 亚健康 总计 男员工 240 60 300 女员工 90 10 100 总计33070400则K 2的观测值k =400×(240×10-60×90)2300×100×330×70≈5.195>5.024,∴有97.5%的把握认为人处于亚健康状态与性别有关.12.已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩(单位:分)对应如下表:学生编号 1 2 3 4 5 6 7 8 数学成绩 60 65 70 75 80 85 90 95 物理成绩7277808488909395给出散点图如下:根据以上信息,判断下列结论:①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系; ②根据散点图,可以判断数学成绩与物理成绩具有一次函数关系;③从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩一定比乙同学的物理成绩高. 其中正确的为________(填序号). 答案 ①解析 由散点图知,各点大致分布在一条直线附近,故可以判断数学成绩与物理成绩具有线性相关关系,但不能判断数学成绩与物理成绩具有一次函数关系,故①正确,②错误;若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩可能比乙同学的物理成绩高,故③错误.13.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-12附近波动.经计算∑6i =1x i =12,∑6i =1y i =14,∑6i =1x 2i =23,则实数b 的值为________. 答案 1723解析 令t =x 2,则曲线的回归方程变为线性的回归方程,即y =bt -12, 此时t -=∑6i =1x 2i 6=236,y -=∑6i =1yi 6=73,代入y =bt -12,得73=b ×236-12,解得b =1723.14.近年来,国资委、党委高度重视扶贫开发工作,坚决贯彻落实中央扶贫工作重大决策部署,在各个贫困县全力推进定点扶贫各项工作,取得了积极成效,某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面积以及相应的管理时间的关系如下表所示:并调查了某村300名村民参与管理的意愿,得到的部分数据如下表所示:(1)求y 关于x 的线性回归方程(计算结果保留两位小数);(2)是否有99.9%的把握认为村民的性别与参与管理的意愿具有相关性?参考公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2,a ^=y --b ^x -,K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .临界值表:解 (1)依题意得,x -=1+2+3+4+55=3,y -=8+10+13+25+245=16,故∑5i =1(x i -x -)(y i -y -)=(-2)×(-8)+(-1)×(-6)+1×9+2×8=47, ∑5i =1(x i -x -)2=4+1+1+4=10,则b ^=∑5i =1(x i -x -)(y i -y -)∑5i =1 (x i -x -)2=4710=4.7,a ^=y --b ^x -=16-4.7×3=1.9.所以y 关于x 的线性回归方程为y ^=4.7x +1.9. (2)依题意,女性不愿意参与管理的人数为50, 计算得K 2的观测值为k =300×(150×50-50×50)2200×100×200×100=300×5 000×5 000200×100×200×100=18.75>10.828, 故有99.9%的把握认为村民的性别与参与管理的意愿具有相关性.。

高三数学一轮复习 第九章 第四节 变量间的相关关系、统计案例课件 理 新人教A版

【解析】 ∵k=27.63>6.635, ∴有99%的把握认为“打鼾与患心脏病有关”. 【答案】 有关
第十二页,共47页。
下面是水稻(shuǐdào)产量与施化肥量的一组观测数据:
施化肥量 15 20 25 30 35 40 45 水稻产量 320 330 360 410 460 470 480
(1)将上述数据制成散点图; (2)你能从散点图中发现施化肥(huàféi)量与水稻产量近 似成什么关系吗?水稻产量会一直随施化肥(huàféi)量的增加 而增长吗?
(2)由公式算出K2后,再根据临界值表作出回答.
第二十九页,共47页。
【尝试解答(jiědá)】 (1)由题意喜欢打篮球人数为48× =32,故男生中喜欢打篮球的有22人.
列联表补充如下:
男生 女生 合计
喜爱打篮球 不喜爱打篮球
22
6
10
10
32
16
合计 28 20 48
第三十页,共47页。
(2)由 k=4288××(202×203-2×601)62≈4.286 因为 4.286>3.841,有 95%的把握认为喜爱打篮球与性 别有关.
第十五页,共47页。
1.利用散点图判断两个变量是否有相关关系(guān xì) 是比较直观简便的方法.如果所有的样本点都落在某一函 数的曲线附近,变量之间就有相关关系(guān xì).如果所 有的样本点都落在某一直线附近,变量之间就有线性相关 关系(guān xì).
2.在散点图中,若点散布在从左下角到右上角的区 域,称为正相关;若散布在从左上角到右下角的区域称为 负相关.
第十三页,共47页。
【思路点拨】 分析观测数据、制图,分析散点图,做 出判断(pànduàn).

高考数学一轮复习 第9章 统计与统计案例 第3讲 变量间的相关关系与统计案例创新教学案(含解析)新人

第3讲变量间的相关关系与统计案例[考纲解读] 1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系;根据最小二乘法求出回归直线方程.(重点)2.了解独立性检验(只要求2×2列联表)的基本思想、方法及其初步应用.[考向预测]从近三年高考情况来看,本讲是高考中的一个热点考查内容.预测2021年将会考查:①回归直线方程的判断、求解及相关系数的意义,并用其解决实际问题;②独立性检验思想在实际问题中的应用.试题以解答题的形式呈现,难度为中等.此外,也可能出现在客观题中,此时试题难度不大,属中、低档题型.1.相关关系与回归方程(1)相关关系的分类02右上角的区域内,如图1;①正相关:从散点图上看,点散布在从□01左下角到□03左上角到□04右下角的区域内,如图②负相关:从散点图上看,点散布在从□2.(2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在□05一条06回归直线.直线附近,那么称这两个变量之间具有线性相关关系,这条直线叫做□(3)回归方程①最小二乘法:使得样本数据的点到回归直线的□07距离的平方和最小的方法叫做最小二乘法.②回归方程:两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,那么b ^=i =1n (x i -x -)(y i -y -)i =1n (x i -x -)2=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x-2,a ^=y--b ^x -.其中,b ^是回归方程的□08斜率,a ^是在y 轴上的□09截距,x -=1n ∑n i =1x i ,y -=1n ∑n i =1y i ,□10(x -,y -)称为样本点的中心.说明:回归直线y ^=b ^x +a ^必过样本点的中心(x -,y -),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.(4)样本相关系数r =i =1n (x i -x -)(y i -y -)i =1n (x i -x -)2i =1n (y i -y -)2,用它来衡量两个变量间的线性相关关系.①当r >0时,说明两个变量□11正相关; ②当r <0时,说明两个变量□12负相关; ③r 的绝对值越接近1,说明两个变量的线性相关性□13越强;r 的绝对值接近于0,说明两个变量之间几乎不存在线性相关关系.通常当|r |>0.75时,认为两个变量有很强的线性相关关系.2.残差分析(1)残差:对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),它们的随机误差为e i =y i -bx i -a ,i =1,2,…,n ,其估计值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n ,e ^i 称为相应于点(x i ,y i )的残差.(2)残差平方和为∑ni =1(y i -y ^i )2. (3)相关指数:R 2=1-□01∑ni =1 (y i -y ^i )2∑n i =1 (y i-y -)2.3.独立性检验(1)分类变量:变量的不同“值〞表示个体所属的□01不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的□02频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +d构造一个随机变量K 2=□03n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =□04a +b +c +d 为样本容量.(3)独立性检验利用随机变量□05K 2来判断“两个分类变量□06有关系〞的方法称为独立性检验.1.概念辨析(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( ) (2)“名师出高徒〞可以解释为教师的教学水平与学生水平成正相关关系.( )(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( ) (4)事件X ,Y 关系越密切,那么由观测数据计算得到的K 2的观测值越大.( ) (5)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,那么他有99%的可能物理优秀.( )答案 (1)× (2)√ (3)√ (4)√ (5)×2.小题热身(1)设回归方程为y ^=3-5x ,那么变量x 增加一个单位时( ) A .y 平均增加3个单位 B .y 平均减少5个单位 C .y 平均增加5个单位 D .y 平均减少3个单位答案 B解析 因为-5是斜率的估计值,说明x 每增加一个单位,y 平均减少5个单位.应选B.(2)在以下各图中,两个变量具有相关关系的图是( )A .①②B .①③C .②④D .②③答案 D解析 ①为函数关系;②显然成正相关;③显然成负相关;④没有明显相关性.(3)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如表.非一线 一线 总计 愿生 45 20 65 不愿生 13 22 35 总计5842100算得K 2=58×42×35×65≈9.616.附表:P (K 2≥k 0)0.050 0.010 0.001 k 03.8416.63510.828参照附表,得到的正确结论是( )A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关〞B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关〞C .有99%以上的把握认为“生育意愿与城市级别有关〞D .有99%以上的把握认为“生育意愿与城市级别无关〞 答案 C解析 因为K 2≈9.616>6.635,所以有99%以上的把握认为“生育意愿与城市级别有关〞.(4)变量x ,y 具有线性相关关系,它们之间的一组数据如下表所示,假设y 关于x 的回归方程为y ^=1.3x -1,那么m =________.x 1 2 3 4 y0.11.8m4答案 3.1解析 由得x -=14×(1+2+3+4)=2.5, y -=14(0.1+1.8+m +4)=14×(5.9+m ).因为(x -,y -)在直线y ^=1.3x -1上,所以y -=1.3×2.5-1=2.25, 所以14×(5.9+m )=2.25,解得m =3.1.题型一 相关关系的判断1.以下两变量中不存在相关关系的是()①人的身高与视力;②曲线上的点与该点的坐标之间的关系;③某农田的水稻产量与施肥量;④某同学考试成绩与复习时间的投入量;⑤匀速行驶的汽车的行驶距离与时间;⑥商品的销售额与广告费.A.①②⑤B.①③⑥C.④⑤⑥D.②⑥答案 A解析根据相关关系的定义知,①②⑤中两个变量不存在相关关系.2.以下命题中正确的为()A.线性相关系数r越大,两个变量的线性相关性越强B.线性相关系数r越小,两个变量的线性相关性越弱C.残差平方和越小的模型,模型拟合的效果越好D.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好答案 C解析线性相关系数r的绝对值越接近于1,两个变量的线性相关性越强,故A,B错误;残差平方和越小,相关指数R2越大,越接近于1,拟合效果越好,故C正确,D错误.3.对四组数据进行统计,获得如下图的散点图,关于其相关系数的比较,正确的选项是()A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3答案 A解析 易知题中图①与图③是正相关,图②与图④是负相关,且图①与图②中的样本点集中分布在一条直线附近,那么r 2<r 4<0<r 3<r 1.应选A.1.判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关.|r |越趋近于1相关性越强.见举例说明3.(3)线性回归直线方程中:b ^>0时,正相关;b ^<0时,负相关. 2.判断拟合效果的两个方法(1)残差平方和越小,拟合效果越好.见举例说明2. (2)相关指数R 2越大,越接近于1,拟合效果越好.1.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,假设所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,那么这组样本数据的样本相关系数为( )A .-1B .0 C.12 D .1答案 D解析 所有点均在直线上,那么样本相关系数最大即为1,应选D.2.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得线性回归方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④ D .①④答案 D解析 由回归方程y ^=b ^x +a ^知当b ^>0时,y 与x 正相关,当b ^<0时,y 与x 负相关,∴①④一定错误.题型二 回归分析角度1 线性回归方程及应用1.某汽车的使用年数x 与所支出的维修总费用y 的统计数据如表:使用年数x /年 1 2 3 4 5 维修总费用y /万元0.51.22.23.34.5根据上表可得y 关于x 的线性回归方程y ^=b ^x -0.69,假设该汽车维修总费用超过10万元就不再维修,直接报废,据此模型预测该汽车最多可使用(不足1年按1年计算)( )A .8年B .9年C .10年D .11年答案 D解析 由y 关于x 的线性回归直线y ^=b ^x -0.69过样本点的中心(3,2.34),得b ^=1.01,即线性回归方程为y ^=1.01x -0.69,令y ^=1.01x -0.69=10,得x ≈10.6,所以预测该汽车最多可使用11年.应选D.2.(2019·东北三省三校三模)现代社会,“鼠标手〞已成为常见病.一次实验中,10名实验对象进行160分钟的连续鼠标点击游戏,每位实验对象完成的游戏关卡一样,鼠标点击频率平均为180次/分钟,实验研究人员测试了实验对象使用鼠标前后的握力变化,前臂表面肌电频率(sEMG)等指标.(1)10名实验对象实验前、后握力(单位:N)测试结果如下: 实验前:346,357,358,360,362,362,364,372,373,376. 实验后:313,321,322,324,330,332,334,343,350,361.完成茎叶图,并计算实验后握力平均值比实验前握力的平均值下降了多少N?(2)实验过程中测得时间t (分)与10名实验对象前臂表面肌电频率(sEMG)的中位数y (Hz)的九组对应数据(t ,y )为(0,87),(20,84),(40,86),(60,79),(80,78),(100,78),(120,76),(140,77),(160,75).建立y 关于时间t 的线性回归方程;(3)假设肌肉肌电水平显著下降,提示肌肉明显进入疲劳状态,根据(2)中9组数据分析,使用鼠标多少分钟就该进行休息了?参考数据:∑9i =1(t i -t )(y i -y -)=-1800; 参考公式:回归方程y ^=b ^t +a ^中斜率和截距的最小二乘估计公式分别为:b ^=∑ni =1 (t i -t )(y i -y -)∑ni =1 (t i-t )2,a ^=y --b ^t 解 (1)根据题意得到茎叶图如以下图所示:由图中数据可得x -1=110×(346+357+358+360+362+362+364+372+373+376)=363,x -2=110×(313+321+322+324+330+332+334+343+350+361)=333, ∴x -1-x -2=363-333=30(N), ∴故实验前后握力的平均值下降了30 N.(2)由题意得t =19×(0+20+40+60+80+100+120+140+160)=80, y -=19×(87+84+86+79+78+78+76+77+75)=80,∑9i =1 (t i -t )2=(0-80)2+(20-80)2+(40-80)2+(60-80)2+(80-80)2+(100-80)2+(120-80)2+(140-80)2+(160-80)2=24000,又∑9i =1(t i -t )(y i -y -)=-1800,∴b ^=∑9i =1(t i -t )(y i -y -)∑9i =1 (t i-t )2=-180024000=-0.075, ∴a ^=y --b ^t =80-(-0.075)×80=86,∴y 关于时间t 的线性回归方程为y ^=-0.075t +86.(3)九组数据中40分钟到60分钟y 的下降幅度最大,提示60分钟时肌肉已经进入疲劳状态,故使用鼠标60分钟就该休息了.角度2 非线性回归模型的应用3.(2019·某某二模)某芯片公司为制定下一年的研发投入计划,需了解年研发资金投入量x i (单位:亿元)对年销售额y i (单位:亿元)的影响.该公司对历史数据进行对比分析,建立了两个函数模型:①y =α+βx 2,②y =e λx +t ,其中α,β,λ,t 均为常数,e 为自然对数的底数.现该公司收集了近12年的年研发资金投入量x i 和年销售额y i 的数据,i =1,2,…,12,并对这些数据作了初步处理,得到了如下的散点图及一些统计量的值.令u i =x 2,v i =ln y i (i =1,2,…,12),经计算得如下数据: x - y - i =112(x i -x -)2 i =112(y i -y -)2 u - v - 20 66770 2004604.20i =112(u i -u -)2 i =112(u i -u -)·(y i -y -) i =112(v i -v -)2 i =112(x i -x -)·(v i -v -) 3125000 215000.308 14(1)设{u i }和{y i }的相关系数为r 1,{x i }和{v i }的相关系数为r 2,请从相关系数的角度,选择一个拟合程度更好的模型;(2)①根据(1)的选择及表中数据,建立y 关于x 的回归方程(系数精确到0.01); ②假设下一年销售额y 需达到90亿元,预测下一年的研发资金投入量x 是多少亿元?附:相关系数r =i =1n (x i -x -)(y i -y -)i =1n (x i -x -)2i =1n (y i -y -)2,回归直线y ^=a ^+b ^x 中斜率和截距的最小二乘估计公式分别为b ^=i =1n (x i -x -)(y i -y -)i =1n (x i -x -)2,a ^=y --b ^x -;参考数据:308=4×77,90≈9.4868,e 4.4998≈90.解 (1)由题意,r 1=i =112(u i -u -)(y i -y -)i =112(u i -u -)2i =112(y i -y -)2=215003125000×200=2150025000=4350=0.86,r 2=i =112(x i -x -)(v i -v -)i =112(x i -x -)2i =112(v i -v -)2=14770×0.308=1477×0.2=1011≈0.91,那么|r 1|<|r 2|,因此从相关系数的角度,模型y =e λx +t 的拟合程度更好.(2)①先建立v 关于x 的线性回归方程, 由y =e λx +t ,得ln y =t +λx ,即v =t +λx ;由于λ=i =112(x i -x -)(v i -v -)i =112(x i -x -)2=14770≈0.018,t =v --λx -=4.20-0.018×20=3.84,所以v 关于x 的线性回归方程为v ^=0.02x +3.84, 所以ln y ^=0.02x +3.84, 那么y ^=e 0.02x +3.84.②下一年销售额y 需达到90亿元,即y =90, 代入y ^=e 0.02x +3.84,得90=e 0.02x +3.84, 又e 4.4998≈90,所以4.4998≈0.02x +3.84, 所以x ≈4.4998-3.840.02=32.99,所以预测下一年的研发资金投入量约是32.99亿元.1.利用线性回归方程时的关注点(1)正确理解计算b ^,a ^的公式和准确的计算是求线性回归方程的关键. (2)回归直线方程y ^=b ^x +a ^必过样本点中心(x -,y -).见举例说明1.(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,假设具有线性相关关系,那么可通过线性回归方程来估计和预测.2.非线性回归方程的求法(1)根据原始数据(x ,y )作出散点图. (2)根据散点图选择恰当的拟合函数.(3)作恰当的变换,将其转化成线性函数,求线性回归方程.(4)在(3)的基础上通过相应变换,即可得非线性回归方程.见举例说明3.1.(2019·某某二模)一汽车销售公司对开业4年来某种型号的汽车“五一〞优惠金额与销售量之间的关系进行分析研究并做了记录,得到如下资料.日期 第1年 第2年 第3年 第4年 优惠金额x (千元) 10 11 13 12 销售量y (辆)22243127(1)用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^;(2)假设第5年优惠金额为8.5千元,估计第5年的销售量y (辆)的值.参考公式:b ^=i =1n (x i -x -)(y i -y -)i =1n (x i -x -)2=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x -2,a ^=y --b ^x -.解 (1)由题意,得x -=11.5,y -=26,∑i =14x i y i =1211,∑i =14x 2i =534,∴b ^=∑i =14x i y i -4x -y -∑i =14x 2i -4x-2=1211-4×11.5×26534-4×11.52=155=3,那么a ^=y --b ^x -=26-3×11.5=-8.5.∴y ^=3x -8.5.(2)当x =8.5时,y ^=17,∴第5年优惠金额为8.5千元时,销售量估计为17辆.2.对某地区儿童的身高与体重的一组数据,我们用两种模型①y =bx +a ,②y =c e dx拟合,得到回归方程分别为y ^(1)=0.24x -8.81,y ^(2)=1.70e 0.022x ,作残差分析,如下表:(2)根据残差比较模型①②的拟合效果,决定选择哪个模型;(3)假设残差大于1 kg 的样本点被认为是异常数据,应剔除,剔除后对(2)所选择的模型重新建立回归方程.(结果保留到小数点后两位)附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为b ^=∑ni =1 (x i -x -)(y i -y -)∑ni =1(x i -x -)2,a ^=y --b ^x -. 解 (1)根据残差分析,把x =80代入y ^(1)=0.24x -8.81中,得y ^(1)=10.39. ∵10-10.39=-0.39, ∴表中空格内的值为-0.39.(2)模型①残差的绝对值的和为0.41+0.01+0.39+1.21+0.19+0.41=2.62, 模型②残差的绝对值的和为0.36+0.07+0.12+1.69+0.34+1.12=3.7. ∵2.62<3.7,∴模型①的拟合效果比较好,选择模型①.(3)残差大于1 kg 的样本点被剔除后,剩余的数据如下表:体重y (kg)6 8 10 15 18 e ^(1)0.410.01-0.39-0.190.41由公式b ^=∑n i =1 (x i -x -)(y i -y -)∑ni =1 (x i -x -)2,a ^=y --b ^x -, 得回归方程为y ^=0.24x -8.76.题型三 独立性检验1.假设有两个分类变量X 和Y 的2×2列联表如下:YXy 1 y 2 总计 x 1 a 10 a +10 x 2 c 30 c +30 总计6040100( ) A .a =45,c =15 B .a =40,c =20 C .a =35,c =25 D .a =30,c =30答案 A解析 根据2×2列联表与独立性检验可知,当a a +10与c c +30相差越大时,X与Y 有关系的可能性越大,即a ,c 相差越大,a a +10与c c +30相差越大.应选A.2.(2019·某某三模)某校高三文科(1)班共有学生45人,其中男生15人,女生30人.在一次地理考试后,对成绩作了数据分析(总分值100分),成绩为85分以上的同学称为“地理之星〞,得到了如以下联表:地理之星 非地理之星 合计男生7女生合计如果从全班45人中任意抽取1人,抽到“地理之星〞的概率为1 3.(1)完成“地理之星〞与性别的2×2列联表,并回答是否有90%以上的把握认为获得“地理之星〞与“性别〞有关?(2)假设此次考试中获得“地理之星〞的同学的成绩平均值为90,方差为7.2,请你判断这些同学中是否有得到总分值的同学,并说明理由.(得分均为整数分)参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d. 临界值表:P(K2≥k0)0.100.050.0100.0050.001 k0 2.706 3.841 6.6357.87910.828解(1)根据题意知“地理之星〞总人数为45×13=15,填写列联表如下:地理之星非地理之星合计男生7815 女生82230 合计153045根据表中数据,计算K2=45×(7×22-8×8)215×30×15×30=1.8<2.706,所以没有90%的把握认为获得“地理之星〞与性别有关.(2)没有得总分值的同学,记各个分值由高到低分别为x1,x2, (x15)①假设有2个以上的总分值,那么s 2=115×[(100-90)2+(100-90)2+…+(x 15-90)2]>403>7.2,不符合题意.②假设恰有1个总分值,为使方差最小,那么其他分值需集中分布在平均数90的附近,且为保证平均值为90,那么有10个得分为89,其余4个得分为90,此时方差取得最小值,∴s 2min =115×[(100-90)2+4×(90-90)2+10×(89-90)2]=223>7.2,与题意方差为7.2不符合,所以这些同学中没有得总分值的同学.独立性检验的一般步骤(1)根据样本数据列出2×2列联表;(2)计算随机变量K 2的观测值k ,查表确定临界值k 0;(3)如果k ≥k 0,就推断“X 与Y 有关系〞,这种推断犯错误的概率不超过P (K 2≥k 0);否那么,就认为在犯错误的概率不超过P (K 2≥k 0)的前提下不能推断“X 与Y 有关系〞.1.学生会为了调查学生对2018年俄罗斯世界杯的关注是否与性别有关,抽样调查100人,得到如下数据:不关注 关注 总计 男生 30 15 45 女生451055总计7525100 根据表中数据,通过计算统计量K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),并参考以下临界数据:P(K2≥k0)0.500.400.250.150.100.050.0250.0100.0050.001 k00.4550.708 1.323 2.072 2.706 3.841 5.024 6.6357.87910.828 假设由此认为“学生对2018年俄罗斯世界杯的关注与性别有关〞,那么此结论出错的概率不超过()A.0.10 B.0.05C.0.025 D.0.01答案 A解析由题意可得K2=100×(30×10-15×45)245×55×75×25≈3.030>2.706,由此认为“学生对2018年俄罗斯世界杯的关注与性别有关〞出错的概率不超过0.10.应选A.2.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:超过m 不超过m附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),解(1)第二种生产方式的效率更高.理由如下:①由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.②由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.③由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.④由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可)(2)由茎叶图知m=79+812=80.列联表如下:超过m 不超过m第一种生产方式15 5 第二种生产方式515(3)由于K2的观测值k=40×(15×15-5×5)220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.组基础关1.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,那么()A.r2<r1<0 B.0<r2<r1C.r2<0<r1D.r2=r1答案 C解析对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r1>0;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r2<0,应选C.2.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,那么与性别有关联的可能性最大的变量是()表1C .智商D .阅读量答案 D解析 K 21=52×(6×22-10×14)216×36×20×32,令5216×36×20×32=m ,那么K 21=82m ,同理,K 22=m ×(4×20-12×16)2=1122m ,K 23=m ×(8×24-8×12)2=962m ,K 24=m ×(14×30-6×2)2=4082m ,∴K 24>K 22>K 23>K 21,那么与性别有关联的可能性最大的变量是阅读量.应选D.3.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,假设所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-13附近波动.经计算∑6i =1x i =11,∑6i =1y i=13,∑6i =1x 2i=21,那么实数b 的值为________. 答案 57解析 令t =x 2,那么曲线的回归方程变为线性的回归方程,即y =bt -13,此时t =∑6i =1x 2i 6=72,y -=∑6i =1yi 6=136,代入y =bt -13,得136=b ×72-13,解得b =57.4.针对时下的“韩剧热〞,某校团委对“学生性别和喜欢韩剧是否有关〞作了一次调查,其中女生人数是男生人数的12,男生喜欢韩剧的人数占男生人数的16,女生喜欢韩剧的人数占女生人数的23.假设有95%的把握认为是否喜欢韩剧和性别有关,那么男生至少有________人.答案 解析 设男生人数为x ,由题意可得列联表如下:喜欢韩剧不喜欢韩剧总计 男生 x 6 5x 6 x 女生 x 3 x 6 x 2 总计x 2x3x 2假设有95%的把握认为是否喜欢韩剧和性别有关,那么k >3.841,即k =3x 2⎝ ⎛⎭⎪⎫x 6·x 6-5x 6·x 32x ·x 2·x 2·x =3x8>3.841,解得x >10.243.因为x 6,x2为整数,所以假设有95%的把握认为是否喜欢韩剧和性别有关,那么男生至少有12人.5.(2018·全国卷Ⅱ)以下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:y ^=-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^=99+17.5t .(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.解 (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y ^=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为 y ^=99+17.5×9=256.5(亿元). (2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^=99+17.5t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.(以上给出了2种理由,考生答出其中任意一种或其他合理理由均可)组 能力关1.某职称晋级评定机构对参加某次专业技术考试的100人的成绩进行了统计,绘制了频率分布直方图(如下图),规定80分及以上者晋级成功,否那么晋级失败(总分值为100分).(1)求图中a 的值;(2)估计该次考试的平均分x-(同一组中的数据用该组的区间中点值代表);(3)根据条件完成下面的2×2列联表,并判断能否有85%的把握认为“晋级成功〞与性别有关.,其中n=a+b+c+d.K2=(a+b)(c+d)(a+c)(b+d)解(1)由频率分布直方图中各小长方形的面积总和为1,可知(2a+0.020+0.030+0.040)×10=1,故a=0.005.(2)由频率分布直方图知各小组的区间中点值分别为55,65,75,85,95,对应的频率分别为0.05,0.30,0.40,0.20,0.05,故可估计平均数x-=55×0.05+65×0.3+75×0.4+85×0.2+95×0.05=74.(3)由频率分布直方图知,晋级成功的频率为0.20+0.05=0.25,故晋级成功的人数为100×0.25=25,故填表如下:K 2=100×(16×41-34×9)225×75×50×50≈2.613>2.072,所以有85%的把握认为“晋级成功〞与性别有关.2.(2019·某某一中模拟)某餐厅通过查阅了最近5次食品交易会参会人数x (万人)与餐厅所用原材料数量y (袋),得到如下统计表:(1)根据所给5组数据,求出y 关于x 的线性回归方程y =b x +a ;(2)购买原材料的费用C (元)与数量t (袋)的关系为C =⎩⎨⎧400t -20,0<t <36(t ∈N ),380t ,t ≥36(t ∈N ),投入使用的每袋原材料相应的销售收入为700元,多余的原材料只能无偿返还,据悉本次交易大会大约有15万人参加.根据(1)中求出的线性回归方程,预测餐厅应购买多少袋原材料,才能获得最大利润,最大利润是多少?(注:利润L =销售收入-原材料费用)参考公式:b ^=i =1n (x i -x -)(y i -y -)i =1n (x i -x -)2=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x -2,a ^=y --b ^x -.参考数据:∑i =15x i y i =1343,∑i =15x 2i =558,∑i =15y 2i =3237.解 (1)由所给数据,得x -=13+9+8+10+125=10.4,y -=32+23+18+24+285=25,b ^=∑i =15x i y i -5x -y -∑i =15x 2i -5x-2=1343-5×10.4×25558-5×10.42=2.5,a ^=y --b ^x -=25-2.5×10.4=-1,那么y 关于x 的线性回归方程为y ^=2.5x ^-1.(2)由(1)中求出的线性回归方程知,当x =15时,y =36.5,即预计需要原材料36.5袋,因为C =⎩⎨⎧400t -20,0<t <36,t ∈N ,380t ,t ≥36,t ∈N ,所以当t <36时,利润L =700t -(400t -20)=300t +20, 当t =35时,利润L =300×35+20=10520; 当t ≥36时,利润L =700t -380t ,当t =36时,利润L =700×36-380×36=11520,因为预计需要原材料36.5袋,且多余的原材料只能无偿返还,所以当t =37时,利润L =700×36.5-380×37=11490.综上所述,餐厅应该购买36袋原材料,才能使利润获得最大,最大利润为11520元.。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第六十三课时 变量间的相关关系与统计案例课前预习案1.会作两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆).3.了解回归的基本思想、方法及其简单应用.4.了解独立性检验的思想、方法及其初步应用.1.相关关系的判断(1)散点图直观反映了两变量的成对观测值之间存在的某种关系,利用散点图可以初步判断两个变量之间是否线性相关.如果散点图中点的分布从整体上看大致在一条直线的附近,我们说变量x 和y 具有 相关关系.(2)相关系数r =∑i =1n(x i -x )(y i -y)∑i =1n(x i -x)2∑i =1n(y i -y)2, 当r>0时,两变量 相关,当r<0时,两变量 相关,当|r|≤1且|r|越接近于1,相关程度 ,当|r|≤1且|r|越接近于0,相关程度 . 2.最小二乘法求回归直线方程 (1)设线性回归方程为y ^=b ^x +a ^,⎩⎪⎨⎪⎧b ^=∑i =1n (x i-x )(y i-y )∑i =1n (x i -x )2=∑i =1nx i y i-n x y∑i =1nx 2i-n x2,a ^=y -b ^ x .(2)回归直线一定经过样本的中心点 ,据此性质可以解决有关的计算问题. 3.独立性检验(1)独立性检验的有关概念 ①分类变量可用变量的不同“值”表示个体所属的 的变量称为分类变量.②2×2列联表假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:(2)独立性检验利用随机变量K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(其中n=a+b+c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.步骤如下:①计算随机变量K2的观测值k,查下表确定临界值k0:00错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关系”.1.下列两个变量之间的关系是相关关系的是( ).A.正方体的棱长与体积B.单位面积的产量为常数时,土地面积与总产量C.日照时间与水稻的亩产量D.电压一定时,电流与电阻2.对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据(u i,v i)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断( ).A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关3.(20xx·湖南)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( ).A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg4.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算K 2≈0.99,根据这一数据分析,下列说法正确的是( ). A .有99%的人认为该栏目优秀B .有99%的人认为该栏目是否优秀与改革有关系C .有99%的把握认为电视栏目是否优秀与改革有关系D .没有理由认为电视栏目是否优秀与改革有关系5.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的线性回归方程:y ^=0.254x +0.321.由线性回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.课堂探究案考点1 线性相关关系的判断【典例1】下表是某小卖部6天卖出的热茶的杯数与当天气温的对比表.(1)(2)你能依据散点图指出气温与热茶杯数的关系吗?(3)如果气温与卖出热茶杯数近似成线性相关关系的话,请画出一条直线来近似地表示这种线性相关关系.【变式1】 5个学生的数学和物理成绩如下表:考点2 线性回归方程及其应用【典例2】(20xx ·福建)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求回归直线方程y ^=b x +a ,其中b =-20,a =y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)【变式2】 (20xx ·南昌模拟)以下是某地搜集到的新房屋的销售价格y 和房屋的面积x 的数据.(1)(2)据(1)的结果估计当房屋面积为150 m 2时的销售价格.考点3 独立性检验的基本思想及应用【典例3】在调查男女乘客是否晕机的事件中,已知男乘客晕机的为28人,不晕机的也是28人,而女乘客晕机的为28人,不晕机的为56人. (1)根据以上数据建立一个2×2的列联表;(2)能否在犯错误的概率不超过0.05的前提下认为晕机与性别有关系?(可能用到的公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),可能用到的数据:P (K 2≥3.841)=0.05,P (K 2≥5.024)=0.025)【变式3】某学生对其亲属30人的饮食习惯进行了一次调查,并用下图所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主)(1)根据以上数据完成下列2×2列联表:(2)能否有99%1.(20xx ·新课标全国)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( ). A .-1B .0C.12D .12.(20xx ·长春调研)已知x ,y 取值如下表:从所得的散点图分析可知:y 与x 线性相关,且y =0.95x +a ,则a =( ). A .1.30B .1.45C .1.65D .1.803.(20xx ·陕西)设(x 1,y 1),(x 2,y 2),…,(x n ,y n )是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论正确的是( ).A .直线l 过点(x ,y )B .x 和y 的相关系数为直线l 的斜率C .x 和y 的相关系数在0到1之间D .当n 为偶数时,分布在l 两侧的样本点的个数一定相同 4.(20xx ·山东)某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为 ( ). A .63.6万元B .65.5万元C .67.7万元D .72.0万元课后拓展案组全员必做题1.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:则y 对x A .y =x -1B .y =x +1C .y =88+12x D .y =1762.(20xx ·福州模拟)下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变; ②设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位; ③线性回归方程y ^=b ^x +a ^必过(x ,y );④在一个2×2列联表中,由计算得K 2的观测值k =13.079,则在犯错误的概率不超过0.001的前提下认为这两个变量间有关系.其中错误的个数是 ( ). A .0 B .1 C .2 D .33.已知施化肥量x 与水稻产量y 的试验数据如下表,则变量x 与变量y 是________相关(填“正”或“负”).4.(20xx ·唐山统一考试)考古学家通过始祖鸟化石标本发现:其股骨长度x (cm)与肱骨长度y (cm)的线性回归方程为y ^=1.197x -3.660,由此估计,当股骨长度为50 cm 时,肱骨长度的估计值为________ cm. 5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥3.841)≈0.05,P (K 2根据表中数据,得到K 2=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.组提高选做题1.某班主任对全班50名学生进行了作业量多少的调查.数据如下表:(1)(2)试通过计算说明在犯错误的概率不超过多少的前提下认为喜欢玩游戏与作业量的多少有关系? 附:K 2=n ((a +b )(c +d )(a +c )(b +d )2.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^;(3)已知该厂技改前生产100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5)参考答案1.【答案】C【解析】A ,B ,D 中两个变量间的关系都是确定的,所以是函数关系;C 中的两个变量间是相关关系,对于日照时间一定的水稻,仍可以有不同的亩产量,故选C. 2.【答案】C【解析】由图(1)可知,各点整体呈递减趋势,x 与y 负相关;由图(2)可知,各点整体呈递增趋势,u 与v 正相关. 3.【答案】D【解析】根据线性回归方程中各系数的意义求解.由于线性回归方程中x 的系数为0.85,因此y 与x 具有正的线性相关关系,故A 正确.又线性回归方程必过样本中心点(x ,y ),因此B 正确.由线性回归方程中系数的意义知,x 每增加1 cm ,其体重约增加0.85 kg ,故C 正确.当某女生的身高为170 cm 时,其体重估计值是58.79 kg ,而不是具体值,因此D 不正确. 4.【答案】D【解析】只有K 2≥6.635才能有99%的把握认为电视栏目是否优秀与改革有关系,而即使K 2≥6.635也只是对“电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,与是否有99%的人等无关.故D 正确. 5.【答案】0.254【解析】由题意,知其回归系数为0.254,故家庭年收入每增加1万元,年饮食支出平均增加0.254万元.【典例1】【解析】(1)画出的散点图如图.(2)从图中可以发现气温和热茶杯数具有相关关系,气温和热茶杯数成负相关,图中的各点大致分布在一条直线的附近,因此气温和杯数近似成线性相关关系.(3)根据不同的标准,可以画出不同的直线来近似表示这种线性相关关系,如让画出的直线上方的点和下方的点数目相等.如图.【变式1】【解析】把数学成绩作为横坐标,把相应的物理成绩作为纵坐标,在直角坐标系中描点(x i ,y i )(i =1,2,…,5),作出散点图如图.从图中可以直观地看出数学成绩和物理成绩具有相关关系,且当数学成绩增大时,物理成绩也在由小变大,即它们正相关.【典例2】【解析】(1)由于x =16(8+8.2+8.4+8.6+8.8+9)=8.5,y =16(90+84+83+80+75+68)=80,又b ^=-20,所以a ^=y -b ^x =80+20×8.5=250,从而回归直线方程为y ^=-20x +250. (2)设工厂获得的利润为L 元,依题意得L =x (-20x +250)-4(-20x +250)=-20x 2+330x -1 000 =-20()x -8.252+361.25.当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润.【变式2】【解析】(1)x =15×(115+110+80+135+105)=109,y =15×(24.8+21.6+18.4+29.2+22)=23.2.设所求回归直线方程为y ^=b ^x +a ^,则b ^=∑i =15(x i -x )(y i -y)∑i =15(x i -x)2=3081 570≈0.196 2, ∴a ^=y -b ^x =23.2-109×3081 570≈1.816 6.∴所求回归直线方程为y ^=0.196 2x +1.816 6.(2)由第(1)问可知,当x =150 m 2时,销售价格的估计值为 y ^=0.196 2×150+1.816 6=31.246 6(万元).【典例3】【解析】(1)2×2列联表如下:(2)假设是否晕机与性别无关,则K 2的观测值k =)256×84×56×84=359≈3.889,P (K 2≥3.841)=0.05.所以可以在犯错误的概率不超过0.05的前提下认为晕机与性别有关系. 【变式3】【解析】(1)2×2列联表如下:(2)因为K 2=30×(8-12×18×20×10=10>6.635,所以有99%的把握认为其亲属的饮食习惯与年龄有关.1.【答案】D【解析】样本点都在直线上时,其数据的估计值与真实值是相等的,故其相关系数为1. 2.【答案】B【解析】依题意得,x =16×(0+1+4+5+6+8)=4,y =16×(1.3+1.8+5.6+6.1+7.4+9.3)=5.25.又直线y ^=0.95x +a 必过样本中心点(x ,y ),即点(4,5.25),于是有5.25=0.95×4+a ,由此解得a =1.45,选B. 3.【答案】A【解析】由样本的中心(x ,y )落在回归直线上可知A 正确;x 和y 的相关系数表示为x 与y 之间的线性相关程度,不表示直线l 的斜率,故B 错;x 和y 的相关系数应在-1到1之间,故C 错;分布在回归直线两侧的样本点的个数并不绝对平均,无论样本点个数是奇数还是偶数,故D 错. 4.【答案】B【解析】x =4+2+3+54=3.5(万元),y =49+26+39+544=42(万元),∴a ^=y -b ^x =42-9.4×3.5=9.1, ∴回归方程为y ^=9.4x +9.1,∴当x =6(万元)时,y ^=9.4×6+9.1=65.5(万元).组全员必做题1.【答案】C【解析】由题意得x =174+176+176+176+1785=176(cm),y =175+175+176+177+1775=176(cm),由于(x ,y )一定满足线性回归方程,经验证知选C.2.【答案】B【解析】只有②错误,应该是y 平均减少5个单位. 3.【答案】正【解析】因为散点图能直观地反映两个变量是否具有相关关系,所以画出散点图如图所示:通过观察图象可知变量x 与变量y 是正相关.4.【答案】56.19【解析】根据线性回归方程y ^=1.197x -3.660,将x =50代入得y =56.19,则肱骨长度的估计值为56.19 cm.5.【答案】5%【解析】∵K 2≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.组提高选做题1.解:(1)(2)将表中的数据代入公式K 2=(a +b )(c +d )(a +c )(b +d )得到K 2的观测值k =50×(18×15-8×9)226×24×27×23≈5.059>5.024,查表知P (K 2≥5.024)=0.025,即说明在犯错误的概率不超过0.025的前提下认为喜欢玩游戏与作业量的多少有关系.2.【解析】(1)由题设所给数据,可得散点图如图所示.(2)由对照数据,计算得:∑i =14x 2i =86, x =3+4+5+64=4.5(吨),y =2.5+3+4+4.54=3.5(吨). 已知∑i =14x i y i =66.5,所以,由最小二乘法确定的回归方程的系数为:b ^=∑i =14x i y i -4x ·y∑i =14x 2i -4x 2=66.5-4×4.5×3.586-4×4.52=0.7, a ^=y -b ^x =3.5-0.7×4.5=0.35.因此,所求的线性回归方程为y ^=0.7x +0.35.(3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为: 90-(0.7×100+0.35)=19.65(吨标准煤).。

相关文档
最新文档