2018年高考总复习知识导学案(文科)9.4变量间的相关关系与统计案例
(新课标)高三数学一轮复习 第9篇 变量间的相关关系与统计案例学案 理

第六十三课时 变量间的相关关系与统计案例课前预习案1.会作两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆).3.了解回归的基本思想、方法及其简单应用.4.了解独立性检验的思想、方法及其初步应用.1.相关关系的判断(1)散点图直观反映了两变量的成对观测值之间存在的某种关系,利用散点图可以初步判断两个变量之间是否线性相关.如果散点图中点的分布从整体上看大致在一条直线的附近,我们说变量x 和y 具有 相关关系.(2)相关系数r =∑i =1n(x i -x )(y i -y)∑i =1n(x i -x)2∑i =1n(y i -y)2, 当r>0时,两变量 相关,当r<0时,两变量 相关,当|r|≤1且|r|越接近于1,相关程度 ,当|r|≤1且|r|越接近于0,相关程度 . 2.最小二乘法求回归直线方程 (1)设线性回归方程为y ^=b ^x +a ^,⎩⎪⎨⎪⎧b ^=∑i =1n (x i-x )(y i-y )∑i =1n (x i -x )2=∑i =1nx i y i-n x y∑i =1nx 2i-n x2,a ^=y -b ^ x .(2)回归直线一定经过样本的中心点 ,据此性质可以解决有关的计算问题. 3.独立性检验(1)独立性检验的有关概念 ①分类变量可用变量的不同“值”表示个体所属的 的变量称为分类变量.②2×2列联表假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:(2)独立性检验利用随机变量K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(其中n=a+b+c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.步骤如下:①计算随机变量K2的观测值k,查下表确定临界值k0:00错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关系”.1.下列两个变量之间的关系是相关关系的是( ).A.正方体的棱长与体积B.单位面积的产量为常数时,土地面积与总产量C.日照时间与水稻的亩产量D.电压一定时,电流与电阻2.对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据(u i,v i)(i =1,2,…,10),得散点图(2).由这两个散点图可以判断( ).A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关3.(2012·湖南)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( ).A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg4.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算K 2≈0.99,根据这一数据分析,下列说法正确的是( ). A .有99%的人认为该栏目优秀B .有99%的人认为该栏目是否优秀与改革有关系C .有99%的把握认为电视栏目是否优秀与改革有关系D .没有理由认为电视栏目是否优秀与改革有关系5.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的线性回归方程:y ^=0.254x +0.321.由线性回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.课堂探究案考点1 线性相关关系的判断【典例1】下表是某小卖部6天卖出的热茶的杯数与当天气温的对比表.(1)(2)你能依据散点图指出气温与热茶杯数的关系吗?(3)如果气温与卖出热茶杯数近似成线性相关关系的话,请画出一条直线来近似地表示这种线性相关关系.【变式1】 5个学生的数学和物理成绩如下表:考点2 线性回归方程及其应用【典例2】(2012·福建)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求回归直线方程y ^=b x +a ,其中b =-20,a =y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)【变式2】 (2013·南昌模拟)以下是某地搜集到的新房屋的销售价格y 和房屋的面积x 的数据.(1)(2)据(1)的结果估计当房屋面积为150 m 2时的销售价格.考点3 独立性检验的基本思想及应用【典例3】在调查男女乘客是否晕机的事件中,已知男乘客晕机的为28人,不晕机的也是28人,而女乘客晕机的为28人,不晕机的为56人. (1)根据以上数据建立一个2×2的列联表;(2)能否在犯错误的概率不超过0.05的前提下认为晕机与性别有关系?(可能用到的公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),可能用到的数据:P (K 2≥3.841)=0.05,P (K 2≥5.024)=0.025)【变式3】某学生对其亲属30人的饮食习惯进行了一次调查,并用下图所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主)(1)根据以上数据完成下列2×2列联表:(2)能否有99%1.(2012·新课标全国)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( ). A .-1B .0C.12D .12.(2013·长春调研)已知x ,y 取值如下表:从所得的散点图分析可知:y 与x 线性相关,且y =0.95x +a ,则a =( ). A .1.30B .1.45C .1.65D .1.803.(2011·陕西)设(x 1,y 1),(x 2,y 2),…,(x n ,y n )是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论正确的是( ).A .直线l 过点(x ,y )B .x 和y 的相关系数为直线l 的斜率C .x 和y 的相关系数在0到1之间D .当n 为偶数时,分布在l 两侧的样本点的个数一定相同 4.(2011·山东)某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为 ( ). A .63.6万元B .65.5万元C .67.7万元D .72.0万元课后拓展案组全员必做题1.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:则y 对x A .y =x -1B .y =x +1C .y =88+12x D .y =1762.(2013·福州模拟)下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变; ②设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位; ③线性回归方程y ^=b ^x +a ^必过(x ,y );④在一个2×2列联表中,由计算得K 2的观测值k =13.079,则在犯错误的概率不超过0.001的前提下认为这两个变量间有关系.其中错误的个数是 ( ). A .0 B .1 C .2 D .33.已知施化肥量x 与水稻产量y 的试验数据如下表,则变量x 与变量y 是________相关(填“正”或“负”).4.(2013·唐山统一考试)考古学家通过始祖鸟化石标本发现:其股骨长度x (cm)与肱骨长度y (cm)的线性回归方程为y ^=1.197x -3.660,由此估计,当股骨长度为50 cm 时,肱骨长度的估计值为________ cm. 5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥3.841)≈0.05,P (K 2根据表中数据,得到K 2=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.组提高选做题1.某班主任对全班50名学生进行了作业量多少的调查.数据如下表:(1)(2)试通过计算说明在犯错误的概率不超过多少的前提下认为喜欢玩游戏与作业量的多少有关系? 附:K 2=n ((a +b )(c +d )(a +c )(b +d )2.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^;(3)已知该厂技改前生产100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5)参考答案1.【答案】C【解析】A ,B ,D 中两个变量间的关系都是确定的,所以是函数关系;C 中的两个变量间是相关关系,对于日照时间一定的水稻,仍可以有不同的亩产量,故选C. 2.【答案】C【解析】由图(1)可知,各点整体呈递减趋势,x 与y 负相关;由图(2)可知,各点整体呈递增趋势,u 与v 正相关. 3.【答案】D【解析】根据线性回归方程中各系数的意义求解.由于线性回归方程中x 的系数为0.85,因此y 与x 具有正的线性相关关系,故A 正确.又线性回归方程必过样本中心点(x ,y ),因此B 正确.由线性回归方程中系数的意义知,x 每增加1 cm ,其体重约增加0.85 kg ,故C 正确.当某女生的身高为170 cm 时,其体重估计值是58.79 kg ,而不是具体值,因此D 不正确. 4.【答案】D【解析】只有K 2≥6.635才能有99%的把握认为电视栏目是否优秀与改革有关系,而即使K 2≥6.635也只是对“电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,与是否有99%的人等无关.故D 正确. 5.【答案】0.254【解析】由题意,知其回归系数为0.254,故家庭年收入每增加1万元,年饮食支出平均增加0.254万元.【典例1】【解析】(1)画出的散点图如图.(2)从图中可以发现气温和热茶杯数具有相关关系,气温和热茶杯数成负相关,图中的各点大致分布在一条直线的附近,因此气温和杯数近似成线性相关关系.(3)根据不同的标准,可以画出不同的直线来近似表示这种线性相关关系,如让画出的直线上方的点和下方的点数目相等.如图.【变式1】【解析】把数学成绩作为横坐标,把相应的物理成绩作为纵坐标,在直角坐标系中描点(x i ,y i )(i =1,2,…,5),作出散点图如图.从图中可以直观地看出数学成绩和物理成绩具有相关关系,且当数学成绩增大时,物理成绩也在由小变大,即它们正相关.【典例2】【解析】(1)由于x =16(8+8.2+8.4+8.6+8.8+9)=8.5,y =16(90+84+83+80+75+68)=80,又b ^=-20,所以a ^=y -b ^x =80+20×8.5=250, 从而回归直线方程为y ^=-20x +250.(2)设工厂获得的利润为L 元,依题意得L =x (-20x +250)-4(-20x +250)=-20x 2+330x -1 000 =-20()x -8.252+361.25.当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润.【变式2】【解析】(1)x =15×(115+110+80+135+105)=109,y =15×(24.8+21.6+18.4+29.2+22)=23.2.设所求回归直线方程为y ^=b ^x +a ^,则b ^=∑i =15(x i -x )(y i -y)∑i =15(x i -x)2=3081 570≈0.196 2, ∴a ^=y -b ^x =23.2-109×3081 570≈1.816 6.∴所求回归直线方程为y ^=0.196 2x +1.816 6.(2)由第(1)问可知,当x =150 m 2时,销售价格的估计值为 y ^=0.196 2×150+1.816 6=31.246 6(万元).【典例3】【解析】(1)2×2列联表如下:(2)假设是否晕机与性别无关,则K 2的观测值k =)256×84×56×84=359≈3.889,P (K 2≥3.841)=0.05.所以可以在犯错误的概率不超过0.05的前提下认为晕机与性别有关系. 【变式3】【解析】(1)2×2列联表如下:(2)因为K 2=30×(8-128)212×18×20×10=10>6.635,所以有99%的把握认为其亲属的饮食习惯与年龄有关.1.【答案】D【解析】样本点都在直线上时,其数据的估计值与真实值是相等的,故其相关系数为1. 2.【答案】B【解析】依题意得,x =16×(0+1+4+5+6+8)=4,y =16×(1.3+1.8+5.6+6.1+7.4+9.3)=5.25.又直线y ^=0.95x +a 必过样本中心点(x ,y ),即点(4,5.25),于是有5.25=0.95×4+a ,由此解得a =1.45,选B. 3.【答案】A【解析】由样本的中心(x ,y )落在回归直线上可知A 正确;x 和y 的相关系数表示为x 与y 之间的线性相关程度,不表示直线l 的斜率,故B 错;x 和y 的相关系数应在-1到1之间,故C 错;分布在回归直线两侧的样本点的个数并不绝对平均,无论样本点个数是奇数还是偶数,故D 错. 4.【答案】B【解析】x =4+2+3+54=3.5(万元),y =49+26+39+544=42(万元),∴a ^=y -b ^x =42-9.4×3.5=9.1, ∴回归方程为y ^=9.4x +9.1,∴当x =6(万元)时,y ^=9.4×6+9.1=65.5(万元).组全员必做题1.【答案】C【解析】由题意得x =174+176+176+176+1785=176(cm),y =175+175+176+177+1775=176(cm),由于(x ,y )一定满足线性回归方程,经验证知选C.2.【答案】B【解析】只有②错误,应该是y 平均减少5个单位. 3.【答案】正【解析】因为散点图能直观地反映两个变量是否具有相关关系,所以画出散点图如图所示:通过观察图象可知变量x 与变量y 是正相关.4.【答案】56.19【解析】根据线性回归方程y ^=1.197x -3.660,将x =50代入得y =56.19,则肱骨长度的估计值为56.19cm.5.【答案】5%【解析】∵K 2≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.组提高选做题1.解:(1)(2)将表中的数据代入公式K 2=(a +b )(c +d )(a +c )(b +d )得到K 2的观测值k =50×(18×15-8×9)226×24×27×23≈5.059>5.024,查表知P (K 2≥5.024)=0.025,即说明在犯错误的概率不超过0.025的前提下认为喜欢玩游戏与作业量的多少有关系.2.【解析】(1)由题设所给数据,可得散点图如图所示.(2)由对照数据,计算得:∑i =14x 2i =86, x =3+4+5+64=4.5(吨),y =2.5+3+4+4.54=3.5(吨). 已知∑i =14x i y i =66.5,所以,由最小二乘法确定的回归方程的系数为:b ^=∑i =14x i y i -4x ·y∑i =14x 2i -4x 2=66.5-4×4.5×3.586-4×4.52=0.7, a ^=y -b ^x =3.5-0.7×4.5=0.35.因此,所求的线性回归方程为y ^=0.7x +0.35.(3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为: 90-(0.7×100+0.35)=19.65(吨标准煤).。
完整版变量间的相关关系统计案例

完整版变量间的相关关系统计案例引言:经济学中一个重要的分支是相关关系的研究,通过统计分析不同变量之间的相关性,可以帮助我们理解变量之间的关系。
本文以汽车生产数量和国内生产总值(GDP)为例,通过统计分析两者之间的相关关系,展示相关分析在实际问题中的应用。
方法:本案例采用了经济学中常用的相关分析方法,包括Pearson相关系数和散点图。
本文使用了国在过去10年内的汽车生产数量和GDP的数据。
汽车生产数量的数据来自国家汽车协会,GDP数据来自国家统计局。
分析过程:1.数据收集和整理:将过去10年内的每年汽车生产数量和GDP数据整理成一个数据表格,便于后续分析。
2.描述统计分析:计算汽车生产数量和GDP的均值、标准差和极差等描述性统计量,以了解数据的整体情况。
3.散点图绘制:将每年的汽车生产数量和GDP数据绘制成散点图,横轴表示汽车生产数量,纵轴表示GDP,每个散点表示一个年份。
4.相关性分析:计算汽车生产数量和GDP之间的Pearson相关系数,该系数介于-1和1之间。
系数为正则表示两者正相关,系数为负则表示两者负相关,系数越接近于1或-1,则相关性越强。
结果:1.描述统计分析结果显示,过去10年内每年的汽车生产数量均值为X辆,标准差为X辆,极差为X辆;每年GDP的均值为X万元,标准差为X万元,极差为X万元。
2.散点图显示,汽车生产数量和GDP呈现出一定的正相关趋势。
随着汽车生产数量的增加,GDP也有相应增加的趋势。
3. 相关性分析结果显示,汽车生产数量和GDP之间的Pearson相关系数为X。
由于该系数为正数且接近于1,可以得出结论:汽车生产数量与GDP存在着强正相关关系。
讨论:本案例通过相关分析的方法,探讨了汽车生产数量与GDP之间的关系。
研究结果表明,两者之间存在着强正相关关系,即汽车生产数量的增加会促进GDP的增长。
可能的解释是汽车工业作为一个重要的制造业部门,对于经济的增长有着显著的贡献。
2018版高考一轮数学文科:第56讲-变量间的相关关系、统计案例ppt课件

^ c=y-d^w=563-68×6.8=100.6, ^ = 100.6 + 所以 y 关于 w 的线性回归方程为 y 68w, ^=100.6+68 x. 因此 y 关于 x 的回归方程为y
20.12, 13.6 ^ 所以当 x= 2 =6.8, 即 x=46.24 时, z取 得最大值. 故年宣传费为 46.24 千元时,年利润的预 报值最大.
真题在线
9.32 ^= (2)由 y= 7 ≈1.331 及(1)得b ^ ^t≈1.331-0.103×4≈0.92. a=y-b ^=0.92+0.10t. 所以,y 关于 t 的回归方程为y
≈0.103,
^=0.92+0.10×9=1.82, 将 2016 年对应的年份代码 t=9 代入回归方程,得y 所以预测 2016 年我国生活垃圾无害化处理量将约为 1.82 亿吨.
真题在线
附注:
^ = ^ ^ t 中 斜 率 和 截 距 的 最 小 二 乘 估 计 公 式 分 别 为 : 回 归 方 程 y a + b
真题在线
2.89 2.89 ≈ ≈0.99. 0.55× 28 0.55×2×2.646 因为 y 与 t 的相关系数近似为 0.99, 说明 y 与 t 的线性相关程度相当高, 从而可以用线性 回归模型拟合 y 与 t 的关系. r=
真题在线
4.[2012· 新课标全国卷] 在一组样本数据(x1, y1),(x2,y2),„,(xn,yn)(n≥2,x1,x2,„, xn 不全相等)的散点图中, 若所有样本点(xi, yi)(i 1 =1,2,„,n)都在直线 y=2x+1 上,则这组 样本数据的样本相关系数为( ) 1 A.-1 B.0 C.2 D.1
2018-2019届高三数学(文)一轮复习课件:第9章 统计、统计案例、概率 第3节

中a,b是待定数. n n xi- x yi- y xiyi-n x y i=1 ∧ i=1 = , b= n n 2 2 2 x - n x x - x i i i=1 i=1 ∧ ∧ a= y -b x .
(3)回归分析
②如果 k≥k0,就推断“X 与 Y 有关系”,这种推断犯错误 的概率不超过 P(K2≥k0);否则,就认为在犯错误的概率不超过 P(K2≥k0)的前提下不能推断“X 与 Y 有关系”.
质疑探究 2∶k2≥3.841 和 k2≥6.635 分别说明了什么问题?
提示:独立性检验得出的结论带有概率性质,只能说结论 成立的概率有多大,而不能完全肯定一个结论,因此才出现了 临界值,3.841 和 6.635 就是两个常用的临界值,一般认为当 k2≥3.841 时, 则有 95%的把握说事件 A 与 B 有关; 当 k2≥6.635 时,则有 99%的把握说事件 A 与 B 有关.
[ 答案] B
2.下面是 2×2 列联表: y1 x1 x2 总计 a 22 b y2 21 25 46 ) B.52,50 D.74,52 总计 73 47 120
则表中 a,b 的值分别为( A.94,72 C.52,74
[ 解析] 选 C.
[ 答案]
∵a+21=73, ∴a=52, 又 a+22=b, ∴b=74. 故
近,就称这两个变量之间具有线性相关关系,这条直线叫做回 归直线. (2)回归方程 ①最小二乘法:求回归直线使得样本数据的点到回归直线
距离的平方和 最小的方法叫做最小二乘法. 的________________
∧
∧
∧
②回归方程:方程 y =bx+a是两个具有线性相关关系的变 量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其
高考知识点变量间的相关关系与统计案例

第3节变量间的相关关系与统计案例最新考纲 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.知识梳理1.相关关系与回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(x n,y n),其回归方程为y^=b^x+a^,则^是回归方程的斜率,a^是在y轴上的截距.其中,b回归直线一定过样本点的中心(x,y).3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心:对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x ,y )称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.(4)相关指数:其中21()ni i i y y =-∑是残差平方和,其值越小,则R 2越大(接近1),模型的拟合效果越好. 4.独立性检验(1)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)为则随机变量K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d ),其中n =a +b +c +d 为样本容量.[常用结论与微点提醒]1.求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本中心点(x ,y ).2.根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.3.根据回归方程计算的y^值,仅是一个预报值,不是真实发生的值.诊断自测1.思考辨析(在括号内打“√”或“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.()(2)通过回归直线方程y^=b^x+a^可以估计预报变量的取值和变化趋势.()(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.()(4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.()答案(1)√(2)√(3)×(4)√2.(必修3P90例题改编)某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如表:则y对x的线性回归直线方程为()A.y^=2.3x-0.7B.y^=2.3x+0.7C.y^=0.7x-2.3D.y^=0.7x+2.3解析易求x=9,y=4,样本点中心(9,4)代入验证,满足y^=0.7x-2.3.答案 C3.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是()A.模型1的相关指数R2为0.98B.模型2的相关指数R2为0.80C.模型3的相关指数R2为0.50D.模型4的相关指数R2为0.25解析在两个变量y与x的回归模型中,它们的相关指数R2越近于1,模拟效果越好,在四个选项中A的相关指数最大,所以拟合效果最好的是模型1.答案 A4.(2015·全国Ⅱ卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论不正确的是()A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关解析对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,D不正确.答案 D5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案5%考点一相关关系的判断【例1】(1)已知变量x和y近似满足关系式y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关(2)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:则哪位同学的试验结果体现A,B两变量有更强的线性相关性()A.甲B.乙C.丙D.丁解析(1)由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z 正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x 与z负相关.(2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性.答案(1)C(2)D规律方法 1.散点图中如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.2.利用相关系数判定,当|r|越趋近于1相关性越强.当残差平方和越小,相关指数R2越大,相关性越强.若r>0,则正相关;r<0时,则负相关.3.线性回归直线方程中:b^>0时,正相关;b^<0时,负相关.【训练1】(1)某公司在2018年上半年的收入x(单位:万元)与月支出y(单位:万元)的统计资料如下表所示:根据统计资料,则()A.月收入的中位数是15,x与y有正线性相关关系B.月收入的中位数是17,x与y有负线性相关关系C.月收入的中位数是16,x与y有正线性相关关系D.月收入的中位数是16,x与y有负线性相关关系(2)x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.①x,y是负相关关系;②在该相关关系中,若用y=c1e c2x拟合时的相关指数为R21,用y^=b^x+a^拟合时的相关指数为R22,则R21>R22;③x,y之间不能建立线性回归方程.解析(1)从统计图表中看出,月收入的中位数是12(15+17)=16,收入增加,则支出也增加,x与y正线性相关.(2)在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y=c1e c2x拟合比用y^=b^x+a^拟合效果要好,则R21>R22,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.答案(1)C(2)①②考点二线性回归方程及应用【例2】(2015·全国Ⅰ卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.(1)根据散点图判断,y=a+bx与y=c+d x哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由)?(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:①年宣传费x=49时,年销售量及年利润的预报值是多少?②年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为:解(1)由散点图可以判断,y=c+d x适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w=x,先建立y关于w的线性回归方程,由于所以y关于w的线性回归方程为y^=100.6+68w,因此y关于x的回归方程为y^=100.6+68x.(3)①由(2)知,当x=49时,年销售量y的预报值y^=100.6+6849=576.6,年利润z的预报值z^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z的预报值z^=0.2(100.6+68x)-x=-x+13.6x+20.12.所以当x=13.62=6.8,即x=46.24时,z^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.规律方法 1.(1)正确理解计算b^,a^的公式和准确的计算是求线性回归方程的关键.(2)回归直线方程y^=b^x+a^必过样本点中心(x,y).2.(1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.(2)本例中y 与x 不具有线性相关,先作变换,转化为y 与w 具有线性相关,求出y 关于w 的线性回归方程,然后进一步求解.【训练2】 (2018·日照调研)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:表1为了研究计算的方便,工作人员将上表的数据进行了处理,t =x -2 012,z =y -5得到下表2:表2(1)求z 关于t 的线性回归方程;(2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少?b ^=45-5×3×2.255-5×9=1.2,a ^=z -b ^t -=2.2-3×1.2=-1.4, 所以z ^=1.2t -1.4.(2)将t=x-2 012,z=y-5,代入z^=1.2t-1.4,得y-5=1.2(x-2 012)-1.4,即y^=1.2x-2 410.8.(3)因为y^=1.2×2 022-2 410.8=15.6,所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.考点三独立性检验【例3】某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集了300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)解(1)利用分层抽样,300×4 50015 000=90,所以应收集90位女生的样本数据.(2)由频率分布直方图得1-2×(0.100+0.025)=0.75.所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:将2×2列联表中的数据代入公式计算,得K 2的观测值 k =300×(45×60-165×30)275×225×210×90=10021≈4.762>3.841.所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”. 规律方法 1.在2×2列联表中,如果两个变量没有关系,则应满足ad -bc ≈0.|ad -bc |越小,说明两个变量之间关系越弱;|ad -bc |越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表: (2)根据公式K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )计算K 2的观测值k ;(3)比较观测值k 与临界值的大小关系,作统计推断.【训练3】 (2018·合肥质检)某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调查. 现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少? (2)根据抽取的180名学生的调查结果,完成下面的2×2列联表.并判断能否在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解 (1)从高一年级学生中随机抽取1人,抽到男生的概率约为105180=712. (2)根据统计数据,可得2×2列联表如下:则K 2的观测值为k =180×(60×45-30×45)2105×75×90×90=367≈5.142 9>5.024,所以能在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关.基础巩固题组 (建议用时:40分钟)一、选择题1.为了判定两个分类变量X 和Y 是否有关系,应用独立性检验法算得K 2的观测值为5,又已知P (K 2≥3.841)=0.05,P (K 2≥6.635)=0.01,则下列说法正确的是( )A.有95%的把握认为“X 和Y 有关系”B.有95%的把握认为“X 和Y 没有关系”C.有99%的把握认为“X和Y有关系”D.有99%的把握认为“X和Y没有关系”解析依题意K2的观测值为k=5,且P(K2≥3.841)=0.05,因此有95%的把握认为“X和Y有关系”.答案 A2.(2018·石家庄模拟)下列说法错误的是()A.回归直线过样本点的中心(x,y).B.两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1C.对分类变量X与Y,随机变量K2的观测值k越大,则判断“X与Y有关系”的把握程度越小D.在回归直线方程y^=0.2x+0.8中,当解释变量x每增加1个单位时,预报变量y^平均增加0.2个单位解析根据相关定义分析知A,B,D正确,C中对分类变量X与Y的随机变量K2的观测值k来说,k越大,判断“X与Y有关系”的把握程度越大,故C错误. 答案 C3.(2017·汉中模拟)已知两个随机变量x,y之间的相关关系如表所示:^=b^x+a^,则大致可以判断()根据上述数据得到的回归方程为yA.a^>0,b^>0B.a^>0,b^<0C.a^<0,b^>0D.a^<0,b^<0^>0,a^<0.解析作出散点图,画出回归直线直观判定b答案 C4.通过随机询问110名性别不同的学生是否爱好某项运动,得到如下的列联表:由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )算得,K 2的观测值为k =110×(40×30-20×20)260×50×60×50≈7.8.附表:参照附表,得到的正确结论是( )A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” 解析 根据独立性检验的定义,由K 2的观测值为k ≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”. 答案 A5.(2017·山东卷)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( ) A.160B.163C.166D.170解析 由已知得x =22.5,y =160, ∵回归直线方程过样本点中心(x ,y ), 且b^=4,∴160=4×22.5+a^,解得a^=70.∴回归直线方程为y^=4x+70,当x=24时,y^=166.答案 C二、填空题6.(2017·西安模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,^为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y=0.67x+54.9.现发现表中有一个数据看不清,请你推断出该数据的值为________.解析由x=30,得y=0.67×30+54.9=75.设表中的“模糊数字”为a,则62+a+75+81+89=75×5,∴a=68.答案687.(2018·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)根据上述数据,推断视觉和空间想象能力与性别有关系,则这种推断犯错误的概率不超过________.附表:解析由列联表计算K2的观测值k=50(22×12-8×8)230×20×20×30≈5.556>5.024.∴推断犯错误的概率不超过0.025.答案0.0258.(2018·长沙雅礼中学质检)某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得回归直线方程y^=b^x+a^中的b^=-2,预测当气温为-4 ℃时,用电量约为________度.解析根据题意知x=18+13+10+(-1)4=10,y=24+34+38+644=40.所以a^=40-(-2)×10=60,y^=-2x+60.所以当x=-4时,y=(-2)×(-4)+60=68,所以用电量约为68度.答案68三、解答题9.(2018·重庆调研)某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了80人,结果如下表:(1)根据上表,现用分层抽样的方法抽取对产品满意的用户5人,在这5人中任选2人,求被选中的恰好是男、女用户各1人的概率;(2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由.注:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .解 (1)用分层抽样的方法在满意产品的用户中抽取5人,则抽取比例为550=110. 所以在满意产品的用户中应抽取女用户20×110=2(人),男用户30×110=3(人). 抽取的5人中,三名男用户记为a ,b ,c ,两名女用户记为r ,s ,则从这5人中任选2人,共有10种情况:ab ,ac ,ar ,as ,bc ,br ,bs ,cr ,cs ,rs . 其中恰好是男、女用户各1人的有6种情况:ar ,as ,br ,bs ,cr ,cs . 故所求的概率为P =610=0.6. (2)由题意,得K 2的观测值为k =80(30×20-20×10)2(30+20)(10+20)(30+10)(20+20) =163≈5.333>5.024. 又P (K 2≥5.024)=0.025.故有97.5%的把握认为“产品用户是否满意与性别有关”.10.(2018·惠州模拟)某市春节期间7家超市广告费支出x i (万元)和销售额y i (万元)数据如下表:(1)若用线性回归模型拟合y 与x 的关系,求y 与x 的线性回归方程;(2)若用二次函数回归模型拟合y 与x 的关系,可得回归方程:y ^=-0.17x 2+5x +20,经计算,二次函数回归模型和线性回归模型的R 2分别约为0.93和0.75,请用R 2说明选择哪个回归模型更合适,并用此模型预测A 超市广告费支出3万元时的销售额.∴a^=y-b^x=42-1.7×8=28.4,故y关于x的线性回归方程是y^=1.7x+28.4.(2)∵0.75<0.93,∴二次函数回归模型更合适.当x=3时,y^=33.47.故选择二次函数回归模型更合适,并且用此模型预测A超市广告费支出3万元时的销售额为33.47万元.能力提升题组(建议用时:20分钟)11.(2018·济南调研)济南市地铁R1线预计2019年年底开通运营,地铁时代的到来能否缓解济南的交通拥堵状况呢?某社团进行社会调查,得到的数据如下表:则下列结论正确的是()附:K2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)A.有95%的把握认为“对能否缓解交通拥堵的认识与性别有关”B.有95%的把握认为“对能否缓解交通拥堵的认识与性别无关”C.有99%的把握认为“对能否缓解交通拥堵的认识与性别有关”D.有99%的把握认为“对能否缓解交通拥堵的认识与性别无关”解析 由2×2列联表,可求K 2的观测值, k =(48+30+12+20)(20×48-12×30)2(48+30)(48+12)(12+20)(30+20) ≈5.288>3.841.由统计表P (K 2≥3.841)=0.05,∴有95%的把握认为“能否缓解交通拥堵的认识与性别有关”. 答案 A12.在2018年3月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x +40,且m +n =20,则其中的n =________. 解析 x =9+9.5+m +10.5+115=8+m 5, y =11+n +8+6+55=6+n 5.回归直线一定经过样本中心(x ,y ), 即6+n 5=-3.2⎝ ⎛⎭⎪⎫8+m 5+40,即3.2m +n =42.又因为m +n =20,即⎩⎪⎨⎪⎧3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.答案 1013.(2018·湖南百所重点中学阶段性诊断)已知某企业近3年的前7个月的月利润(单位:百万元)如下面的折线图所示:(1)试问这3年的前7个月中哪个月的月平均利润较高? (2)通过计算判断这3年的前7个月的总利润的发展趋势;(3)试以第3年的前4个月的数据(如下表),用线性回归的拟合模式估计第3年8月份的利润.解 (1)由折线图可知5月和6月的平均利润最高.(2)第1年前7个月的总利润为1+2+3+5+6+7+4=28(百万元), 第2年前7个月的总利润为2+5+5+4+5+5+5=31(百万元). 第3年前7个月的总利润为4+4+6+6+7+6+8=41(百万元), 所以这3年的前7个月的总利润呈上升趋势.(3)∵x =2.5,y =5,12+22+32+42=30,1×4+2×4+3×6+4×6=54, ∴b^=54-4×2.5×530-4×2.52=0.8,∴a ^=5-2.5×0.8=3. 因此线性回归方程为y ^=0.8x +3. 当x =8时,y ^=0.8×8+3=9.4.∴估计第3年8月份的利润为9.4百万元.。
第3讲 变量间的相关关系与统计案例

K
2
a b a c c d b d
n ad bc
2
[审题视点] 第(2)问由a=40,b=30,c=160,d=270,代 入公式可求K2,由K2的值与6.635比较断定.第(3)问从抽样 方法说明.
6.独立性检验 (1)用变量的不同“值”表示个体所属的不同类别,这种变量 称为分类变量.例如:是否吸烟,宗教信仰,国籍等. (2)列出的两个分类变量的频数表,称为列联表. (3)一般地,假设有两个分类变量X和Y,它们的值域分别为 {x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为: 2×2列联表 y1 y2 总计 x1 a b a+b x2 总计 c a+c c+d b+d a+b+c+d d
解析 从散点图看,散点图的分布成团状,无任 何规律,所以两个变量不具有线性相关关系.
考向二
独立性检验
【例2】(2010·全国新课标)为调查某地区老年人是否需要志愿者 提供帮助,用简单随机抽样方法从该地区调查了500位老年人, 结果如下: 性别
是否需要志愿者 需要 不需要 男 女 40 160 30 270
从散点图上看,点散布在从左下角到右上角的区域内,对 于两个变量的这种相关关系,我们将它称为正相关;点散 布在从左上角到右下角的区域内,两个变量的这种相关关 系称为负相关. 2.线性相关 从散点图上看,如果这些点从整体上看大致分布在一条 直线附近,则称这两个变量之间具有线性相关关系,这 条直线叫回归直线.
5.线性回归模型 (1)y=bx+a+e中,a、b称为模型的未知参数;e称为随机误 差. (2)相关指数 用相关指数R2来刻画回归的效果,其计算公式是:
R2
y
n i 1 n i 1
变量间的相关关系与统计案例

变量间的相关关系与统计案例一、基础知识1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.体现的不一定是因果关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关;点散布在左上角到右下角的区域内,两个变量的这种相关关系为负相关.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程为y ^=b ^x +a ^,其中(3)通过求Q =∑i =1n(y i -bx i -a )2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.(4)相关系数:当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.3.独立性检验 (1)2×2列联表设X ,Y 为两个变量,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)如下:(2)独立性检验利用随机变量K 2(也可表示为χ2)的观测值k=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c+d 为样本容量)来判断“两个变量有关系”的方法称为独立性检验.二、常用结论(1)求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本中心点 (x ,y ).(2)根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.(3)根据回归方程计算的y ^值,仅是一个预报值,不是真实发生的值.考点一 回归分析考法(一) 求线性回归方程[典例] (2019·湘东五校联考)已知具有相关关系的两个变量x ,y 的几组数据如下表所示:(1)(2)请根据上表数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^,并估计当x =20时y 的值.参考公式:b ^=∑i =1nx i y i -n x y ∑i =1nx 2i -n x2,a ^=y -b ^x .[解] (1)散点图如图所示:(2)依题意,x =15×(2+4+6+8+10)=6,y =15×(3+6+7+10+12)=7.6,∑i =15x 2i =4+16+36+64+100=220,∑i =15x i y i =6+24+42+80+120=272,∴b ^=∑i =15x i y i -5 x y∑i =15x 2i -5 x2=272-5×6×7.6220-5×62=4440=1.1, ∴a ^=7.6-1.1×6=1,∴线性回归方程为y ^=1.1x +1,故当x =20时,y =23.考法(二) 相关系数及应用[典例] 如图是我国2012年至2018年生活垃圾无害化处理量(单位:亿吨)的折线图.由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明. 参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17(y i -y )2=0.55, 7≈2.646.参考公式:相关系数r =∑i =1n(t i -t )(y i -y )∑i =1n(t i -t )2∑i =1n (y i -y )2.[解] 由折线图中数据和参考数据及公式得t =4,∑i=17(t i -t )2=28,∑i =17(y i -y )2=0.55,∑i =17(t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32=2.89,r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.[解题技法]1.线性回归分析问题的类型及解题方法 (1)求线性回归方程:①利用公式,求出回归系数b ^,a ^.②待定系数法:利用回归直线过样本点中心求系数. (2)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值.(3)利用回归直线判断正、负相关:决定正相关还是负相关的是系数b ^. 2.模型拟合效果的判断(1)残差平方和越小,模型的拟合效果越好. (2)相关指数R 2越大,模型的拟合效果越好.(3)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.[题组训练]1.(2019·惠州调研)某商场为了了解毛衣的月销售量y (件)与月平均气温x (℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表:由表中数据算出线性回归方程y =b x +a 中的b =-2,气象部门预测下个月的平均气温约为6 ℃,据此估计该商场下个月毛衣销售量约为( )A .46件B .40件C .38件D .58件解析:选A 由题中数据,得x =10,y =38,回归直线y ^=b ^x +a ^过点(x ,y ),且b ^=-2,代入得a ^=58,则回归方程y ^=-2x +58,所以当x =6时,y =46,故选A.2.近期,某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每天使用扫码支付的人次,用x 表示活动推出的天数,y 表示每天使用扫码支付的人次,统计数据如下表:根据以上数据,绘制了散点图.参考数据:其中v i =lg y i ,v =17∑i =17v i .(1)根据散点图判断,在推广期内,y =a +bx 与y =c ·d x (c ,d 均为大于零的常数)哪一个适宜作为扫码支付的人次y 关于活动推出天数x 的回归方程类型(给出判断即可,不必说明理由)?(2)根据(1)的判断结果及上表中数据,建立y 关于x 的回归方程,并预测活动推出第8天使用扫码支付的人次.参考公式:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=α^+β^μ的斜率和截距的最小二乘估计公式分别为β=∑i =1nu i v i -n u v ∑i =1nu 2i -n u2,α^=v -β^U .解:(1)根据散点图可以判断,y =c ·d x 适宜作为扫码支付的人次y 关于活动推出天数x 的回归方程类型.(2)y =c ·d x 两边同时取常用对数,得lg y =lg(c ·d x )=lg c +x lg d , 设lg y =v ,则v =lg c +x lg d . ∵x =4,v =2.54,∑i =17x 2i =140,∴lg d =∑i =17x i v i -7 x v ∑i =17x 2i -7 x2≈78.12-7×4×2.54140-7×42=0.25,把(4,2.54)代入v =lg c +x lg d ,得lg c =1.54, ∴v ^=1.54+0.25x ,∴y ^=101.54+0.25x =101.54·(100.25)x .把x =8代入上式,得y ^=101.54+0.25×8=103.54=103×100.54=3 470,∴y 关于x 的回归方程为y ^=101.54·(100.25)x ,活动推出第8天使用扫码支付的人次为3 470.考点二 独立性检验[典例] (2018·全国卷Ⅲ节选)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)求40名工人完成生产任务所需时间的中位数m ,并将完成生产任务所需时间超过m 和不超过m 的工人数填入下面的列联表:(2)根据(1)中的列联表,能否有99%的把握认为两种生产方式的效率有差异? 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),[解] (1)由茎叶图知m =79+812=80.列联表如下:(2)因为K 2=40(15×15-5×5)220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.[解题技法][题组训练]1.(2019·沧州模拟)某班主任对全班50名学生进行了作业量的调查,数据如表:已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025,P (K 2≥6.635)≈0.010.则________(填“有”或“没有”)97.5%的把握认为“学生的性别与认为作业量大 有关”.解析:因为K 2=50×(18×15-8×9)226×24×27×23≈5.059>5.024,所以有97.5%的把握认为“学生的性别与认为作业量大有关”. 答案:有2.为考察某种疫苗预防疾病的效果,进行动物试验,得到统计数据如下:现从所有试验动物中任取一只,取到“注射疫苗”动物的概率为25.(1)求2×2列联表中的数据x ,y ,A ,B 的值.(2)绘制发病率的条形统计图,并判断疫苗是否影响到了发病率?(3)能否在犯错误的概率不超过0.001的前提下认为疫苗有效? 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .临界值表:解:(1)设“从所有试验动物中任取一只,取到‘注射疫苗’动物”为事件M , 由已知得P (M )=y +30100=25,所以y =10,则B =40,x =40,A =60. (2)未注射疫苗发病率为4060=23≈0.67,注射疫苗发病率为1040=14=0.25.发病率的条形统计图如图所示,由图可以看出疫苗影响到了发病率.(3)因为K 2=100×(20×10-40×30)260×40×50×50≈16.67>10.828.所以能在犯错误的概率不超过0.001的前提下认为疫苗有效.[课时跟踪检测]A 级1.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图如图①,对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图如图②.由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关解析:选C 由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量x 与y 负相关,u 与v 正相关.2.(2019·长沙模拟)为了解某社区居民购买水果和牛奶的年支出费用与购买食品的年支出费用的关系,随机调查了该社区5户家庭,得到如下统计表:根据上表可得回归方程y =b x +a ,其中b =0.59,a =y -b x ,据此估计,该社区一户购买食品的年支出费用为3.00万元的家庭购买水果和牛奶的年支出费用约为( )A .1.795万元B .2.555万元C .1.915万元D .1.945万元解析:选A x =15×(2.09+2.15+2.50+2.84+2.92)=2.50(万元),y =15×(1.25+1.30+1.50+1.70+1.75)=1.50(万元),其中b ^=0.59,则a ^=y -b ^ x =0.025,y ^=0.59x +0.025,故年支出费用为3.00万元的家庭购买水果和牛奶的年支出费用约为y ^=0.59×3.00+0.025=1.795(万元).3.下面四个命题中,错误的是( )A .从匀速传递的产品生产流水线上,质检员每15分钟从中抽取一件产品进行某项指标检测,这样的抽样是系统抽样B .对分类变量X 与Y 的随机变量K 2的观测值k 来说,k 越大,“X 与Y 有关系”的把握程度越大C .两个随机变量相关性越强,则相关系数的绝对值越接近于0D .在回归直线方程y ^=0.4x +12中,当解释变量x 每增加一个单位时,预报变量平均增加0.4个单位解析:选C 两个随机变量的线性相关性越强,则相关系数的绝对值越接近于1,故C 错误.4.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:附表及公式:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .A .有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”B .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”D .有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”解析:选A 由列联表得到a =45,b =10,c =30,d =15,则a +b =55,c +d =45,a +c =75,b +d =25,ad =675,bc =300,n =100,计算得K 2的观测值k = n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=100×(675-300)255×45×75×25≈3.030.因为2.706<3.030<3.841,所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”.5.为了研究工人的日平均工作量是否与年龄有关,从某工厂抽取了100名工人,且规定日平均生产件数不少于80件者为“生产能手”,列出的2×2列联表如下:有________以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”. 解析:由2×2列联表可知,K 2=100×(25×30-10×35)240×60×35×65≈2.93,因为2.93>2.706,所以有90%以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”.答案:90%6.随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:则y 关于t 的回归方程是________________.解析:由表中数据得n =5,t =1n ∑i =1n t i =155=3,y =1n ∑i =1n y i =365=7.2.又∑i =1nt 2i -n t 2=55-5×32=10, ∑i =1nt i y i -n t y =120-5×3×7.2=12.从而b ^=∑i =1nt i y i -n t y ∑i =1nt 2i -n t2=1210=1.2, a ^=y -b ^t =7.2-1.2×3=3.6, 故所求回归方程为y ^=1.2t +3.6. 答案:y ^=1.2t +3.67.某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出x (万元)和销售量y (万台)的数据如下:(2)若用y =c +d x 模型拟合y 与x 的关系,可得回归方程y ^=1.63+0.99x ,经计算线性回归模型和该模型的R 2分别约为0.75和0.88,请用R 2说明选择哪个回归模型更好;(3)已知利润z 与x ,y 的关系为z =200y -x .根据(2)的结果,求当广告费x =20时,销售量及利润的预报值.参考公式:回归直线y ^=a ^+b ^x 的斜率和截距的最小二乘估计分别为b ^=∑i =1nx i y i -n x y ∑i =1nx 2i -n x2=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2,a ^=y -b ^x .参考数据:5≈2.24.解:(1)∵x =8,y =4.2,∑i =17x i y i =279.4,∑i =17x 2i =708,∴b ^=∑i =17x i y i -7x y∑i =17x 2i -7x2=279.4-7×8×4.2708-7×82=0.17,a ^=y -b ^x =4.2-0.17×8=2.84, ∴y 关于x 的线性回归方程为y ^=0.17x +2.84.(2)∵0.75<0.88且R 2越大,反映残差平方和越小,模型的拟合效果越好, ∴选用y ^=1.63+0.99x 更好.(3)由(2)知,当x =20时,销售量的预报值y ^=1.63+0.9920≈6.07(万台),利润的预报值z =200×(1.63+0.9920)-20≈1 193.04(万元).B 级1.(2018·江门一模)为探索课堂教学改革,江门某中学数学老师用“传统教学”和“导学案”两种教学方式分别在甲、乙两个平行班进行教学实验.为了解教学效果,期末考试后,分别从两个班级各随机抽取20名学生的成绩进行统计,得到如下茎叶图.记成绩不低于70分者为“成绩优良”.(1)请大致判断哪种教学方式的教学效果更佳,并说明理由;(2)构造一个教学方式与成绩优良的2×2列联表,并判断能否在犯错误的概率不超过0.05的前提下认为“成绩优良与教学方式有关”.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .临界值表:解:(1)“理由1:乙班样本数学成绩大多在70分以上,甲班样本数学成绩70分以下的明显更多. 理由2:甲班样本数学成绩的平均分为70.2;乙班样本数学成绩的平均分为79.05. 理由3:甲班样本数学成绩的中位数为68+722=70,乙班样本数学成绩的中位数为77+782=77.5. (2)2×2列联表如下:由上表数据可得K 2=40×(10×4-10×16)20×20×26×14≈3.956>3.841,所以能在犯错误的概率不超过0.05的前提下认为“成绩优良与教学方式有关”.2.(2019·广州调研)某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.过去50周的资料显示,该地周光照量X (单位:小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,该基地的西红柿增加量y (千克)与使用某种液体肥料的质量x (千克)之间的对应数据为如图所示的折线图.(1)依据折线图计算相关系数r (精确到0.01),并据此判断是否可用线性回归模型拟合y 与x 的关系;(若|r |>0.75,则线性相关程度很高,可用线性回归模型拟合)(2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X 限制,并有如下关系:元;若某台光照控制仪未运行,则该台光照控制仪周亏损1 000元.若商家安装了3台光照控制仪,求商家在过去50周的周总利润的平均值.相关系数公式:r =∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2∑i =1n(y i -y )2,参考数据:0.3≈0.55,0.9≈0.95.解:(1)由已知数据可得x =2+4+5+6+85=5,y =3+4+4+4+55=4.因为∑i =15(x i -x )(y i -y )=(-3)×(-1)+0+0+0+3×1=6,∑i =15(x i -x )2=(-3)2+(-1)2+02+12+32=25,∑i =15(y i -y )2=(-1)2+02+02+02+12=2,所以相关系数r =∑i =15(x i -x )(y i -y )∑i =15(x i -x )2∑i =15(y i -y )2=625×2=0.9≈0.95. 因为|r |>0.75,所以可用线性回归模型拟合y 与x 的关系. (2)由条件可得在过去50周里,当X >70时,共有10周,此时只有1台光照控制仪运行, 每周的周总利润为1×3 000-2×1 000=1 000(元). 当50≤X ≤70时,共有35周,此时有2台光照控制仪运行, 每周的周总利润为2×3 000-1×1 000=5 000(元). 当30<X <50时,共有5周,此时3台光照控制仪都运行, 每周的周总利润为3×3 000=9 000(元). 所以过去50周的周总利润的平均值为 1 000×10+5 000×35+9 000×550=4 600(元),所以商家在过去50周的周总利润的平均值为4 600元.。
2018版高考数学一轮总复习第9章统计统计案例及算法初步9.3变量相关关系与统计案例课件文

板块二 典例探17· 洛阳模拟]为研究语文成绩和英语成绩之间
是否具有线性相关关系, 统计某班学生的两科成绩得到如图 所示的散点图(x 轴、 y 轴的单位长度相同), 用回归直线方程 ^ y =bx+a 近似地刻画其相关关系,根据图形,以下结论最 有可能成立的是( )
考点 3
独立性检验
1.独立性检验的有关概念 (1)分类变量 可用变量的不同“值”表示个体所属的 不同类别 的 变量称为分类变量.
(2)2×2 列联表 假设有两个分类变量 X 和 Y,它们的取值分别为{x1, x2}和{y1,y2},其样本频数列联表(称为 2×2 列联表)为 y1 x1 x2 总计 a c y2 b d 总计 a+b c+d a+b+c+d
【变式训练 2】
PM2.5 是指空气中直径小于或等于 2.5
微 米 的 颗粒 物 ( 也称 可 入肺 颗 粒物 ) . 为 了探 究 车流 量 与 PM2.5 的浓度是否相关, 现采集到某城市周一至周五某一时 间段车流量与 PM2.5 浓度的数据如下表: 时间 车流量 x(万辆) PM2.5 的浓度 y(微克/立方米) 周一 周二 周三 周四 周五 100 78 102 80 108 84 114 88 116 90
[双基夯实] 一、疑难辨析 判断下列结论的正误. ( 正确的打“√”,错误的打 “×”) 1.相关关系与函数关系都是一种确定性的关系,也是 一种因果关系.( × ) 2.只有两个变量有相关关系,所得到的回归模型才有 预测价值.( √ )
3. 某同学研究卖出的热饮杯数 y 与气温 x(℃)之间的关 ^ 系,得到回归方程y=-2.352x+147.767,则气温为 2 ℃时, 一定可卖出 143 杯热饮.( × ) 4.事件 X,Y 关系越密切,则由观测数据计算得到的 K2 的观测值越大.( √ ) 5. 由独立性检验可知, 在犯错误的概率不超过 1%的前 提下认为物理成绩优秀与数学成绩有关,某人数学成绩优 秀,则他有 99%的可能物理优秀.( × )
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
解析:因为 y=-0.1x+1,x 的系数为负,故 x 与 y 负相关; 而 y 与 z 正相关,故 x 与 z 负相关. 答案:C
2.(2017· 漳州二模)下列说法错误的是( ) A.在回归模型中,预报变量 y 的值不能由解释变量 x 唯一 确定 B.在线性回归分析中,相关系数 r 的值越大,变量间的相 关性越强 C.在残差图中,残差点分布的带状区域的宽度越狭窄,其 模型拟合的精度越高 D.在回归分析中,R2 为 0.98 的模型比 R2 为 0.80 的模型拟 合的效果好
(3)能够有多大把握认为疫苗有效? 2 n ad - bc 附:K2= ,n=a+b+c+d a+ba+cc+db+d P(K2≥k0) 0.05 0.01 0.005 0.001 k0 3.841 6.635 7.879 10.828
[解析] (1)设“从所有实验动物中任取一只, 取到‘注射疫 苗’动物”为事件 A, y+30 2 由已知得 P(A)= 100 =5,所以 y=10,B=40,x=40,A =60.
解析: 由题意知 [0.254(x + 1) + 0.321] - (0.254x + 0.321) = 0.254. 答案:0.254
[知识重温] 一、必记 4●个知识点 1.两个变量的线性相关 (1)正相关 在散点图中, 点散布在从左下角到右上角的区域, 对于两个 变量的这种相关关系,我们将它称为正相关. (2)负相关 在散点图中, 点散布在从左上角到右下角的区域, 两个变量 的这种相关关系称为负相关. (3)线性相关关系、回归直线 如果散点图中点的分布从整体上看大致在①一条直线 __________附 近, 就称这两个变量之间具有线性相关关系, 这条直线叫做回归 直线.
2.回归方程 (1)最小二乘法 求回归直线, 使得样本数据的点到它的距离的平方和最小的 方法叫做最小二乘法. (2)回归方程 ^ x+a ^ 是两个具有线性相关关系的变量的一组数据 方程 ^ y =b ^ ,b ^是待定参 (x1,y1),(x2,y2),„,(xn,yn)的回归方程,其中a 数. ∑ ^ i∑ =1 xi- x yi- y i=1xiyi-n x y = n 2 , n b= 2 2 ∑ ∑ i=1 xi- x i=1xi -n x ^ ^ a= y -b x .
(3)独立性检验 利用随机变量 K2 来判断“两个分类变量有关系”的方法称 为独立性检验.
二、必明 4●个易误点 1.回归分析是对具有相关关系的两个变量进行统计分析的 方法,只有在散点图大致呈线性时,求出的回归直线方程才有实 际意义,否则,求出的回归直线方程毫无意义. 2.根据回归方程进行预报,仅是一个预报值,而不是真实 发生的值. 3.r 的大小只说明是否相关,并不能说明拟合效果的好坏, R2 才是判断拟合效果好坏的依据,必须将二者区分开来. 4.独立性检验的随机变量 K2=2.706 是判断是否有关系的 临界值,K2<2.706 应判断为没有充分依据显示 X 与 Y 有关系, 而不能作为小于 90%的量化值来作出判断.
考向三 线性回归分析及应用[互动讲练型] [例 3] (2016· 全国卷Ⅲ)下图是我国 2008 年至 2014 年生活 垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码 1-7 分别对应年份 2008-2014. (1)由折线图看出,可用线性回归模型拟合 y 与 t 的关系,请 用相关系数加以说明; (2)建立 y 关于 t 的回归方程(系数精确到 0.01),预测 2016 年我国生活垃圾无害化处理量.
——[悟· 技法]—— 解独立性检验的应用问题的关注点 (1)两个明确: ①明确两类主体; ②明确研究的两个问题. (2)两个关键: ①准确画出 2×2 列联表; ②准确理解 K2. 提醒:准确计算 K2 的值是正确判断的前提.
——[通· 一类]—— 2.(2017· 赣中南五校联考,19(1))心理学家分析发现视觉和 空间想象能力与性别有关,某数学兴趣小组为了验证这个结论, 从所在学校中按分层抽样的方法抽取 50 名同学(男 30 女 20), 给 所有同学几何题和代数题各一题, 让各位同学自由选择一道题进 行解答.选题情况如下表:(单位:人) 几何题 代数题 总计 22 8 30 男同学 8 12 20 女同学 30 20 50 总计 根据以上数据能否判断有 97.5%的把握认为视觉和空间想 象能力与性别有关?
4. 某校为了研究学生的性别和对待某一活动的态度(支持和 不支持两种态度)的关系,运用 2×2 列联表进行独立性检验,经 计算 K2=7.069,则所得到的统计学结论是:有多少的把握认为 “学生性别与支持该活动有关系”.( ) 附: P(K2≥k0) 0.100 0.050 0.025 0.010 0.001 k0 2.706 3.841 5.024 6.635 10.828 A.0.1% B.1% C.99% D.99.9%
n n
3.回归分析 (1)定义:对具有相关关系的两个变量进行统计分析的一种 常用方法. (2)样本点的中心 对于一组具有线性相关关系的数据(x1,y1),(x2,y2),„, ( x , y ) 称为样本点的中心. (xn,yn)中②__________
(3)相关系数 正相关 ; 当 r>0 时,表明两个变量③__________ 负相关 当 r<0 时,表明两个变量④__________. r 的绝对值越接近于 1 ,表明两个变量的线性相关性⑤ 越强 __________. r 的绝对值越接近于 0,表明两个变量之间几乎不存在线性 0.75 时,认为两个变量有很强的 相关关系.通常|r|大于⑥__________ 线性相关性.
——[通· 一类]—— 1.(2017· 长春一模)下列四个图各反映了两个变量的某种关 系,其中可以看作具有较强线性相关关系的是( )
A.①③ B.①④
C.②③ D.①②
解析:若在两个变量的散点图中,样本点成带状分布,则两 个变量具有线性相关关系, 故两个变量具有线性相关关系的图是 ①和④.故选 B. 答案:B
附注:
参考数据: yi=9.32, tiyi=40.17, i=1 i=1
n i=1 7 7
i=1
7 yi-
y 2=0.55, 7≈2.646.
3.已知回归直线斜率的估计值为 1.23,样本点的中心为点 (4,5),则回归直线的方程为( ) A.^ y=1.23x+4 B.^ y=1.23x+5 C.^ y=1.23x+0.08 D.^ y=0.08x+1.23
解析:回归直线经过点(4,5),故其方程为^ y-5=1.23(x-4), 即^ y=1.23x+0.08. 答案:C
[小题热身] 1.(2015· 湖北卷)已知变量 x 和 y 满足关系 y=-0.1x+1, 变量 y 与 z 正相关.下列结论中正确的是( ) A.x 与 y 正相关,x 与 z 负相关 B.x 与 y 正相关,x 与 z 正相关 C.x 与 y 负相关,x 与 z 负相关 D.z 与 y 负相关,x 与 z 正相关
[解析] 由图(1)可知,各点整体呈递减趋势,x 与 y 负相关; 由图(2)可知,各点整体呈递增趋势,u 与 v 正相关. [答案] C
——[悟· 技法]—— ^ x+a ^中,b ^ 代表 x 每增加一个单位,y 在回归直线方程^ y =b ^>0 时,说明两个 平均增加的单位数,一般来说,当回归系数b ^<0 时,说明两个变量呈负相 变量呈正相关关系;当回归系数b 关关系.
4.独立性检验 (1)分类变量:变量的不同“值”表示个体所属的不同类别, 像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.假 设有两个分类变量 X 和 Y, 它们的可能取值分别为{x1, x2}和{y1, y2},其样本频数列联表(称为 2×2 列联表)为: y1 y2 总计 x1 a b a+b x2 c d c +d 总计 a+c b+d a+b+c+d 2 n ad - bc 构造一个随机变量 K2= , 其中 n=a a+bc+da+cb+d +b+c+d 为样本容量.
解析:∵a+21=73,∴a=52. 又∵a+2=b,∴b=54. 答案:52、54
6.调查了某地若干户家庭的年收入 x(单位:万元)和年饮食 支出 y(单位:万元),调查显示年收入 x 与年饮食支出 y 具有线 ^ 性相关关系, 并由调查数据得到 y 对 x 的回归直线方程, y=0.254x +0.321.由回归直线方程可知,家庭年收入每增加 1 万元,年饮 食支出平均增加__________万元.
解析:对于 A,在回归模型中,预报变量 y 的值由解释变量 x 和随机误差 e 共同确定,即 x 只能解释部分 y 的变化,∴A 正 确. 对于 B,线性回归分析中,相关系数 r 的绝对值越接近 1, 两个变量的线性相关性越强, 反之, 线性相关性越弱, ∴B 错误; 对于 C, 在残差图中, 残差点分布的带状区域的宽度越狭窄, 其模型拟合的精度越高,C 正确; 对于 D,在回归分析中,用相关指数 R2 来刻画回归的效果 时,R2 取值越大,说明模型拟合的效果越好,∴R2 为 0.98 的模 型比 R2 为 0.80 的模型拟合的效果好,D 正确.故选 B. 答案:B
考向二 独立性检验[互动讲练型] [例 2] 为了考察某种疫苗预防疾病的效果, 进行动物实验, 得到统计数据如下: 未发病 发病 总计 20 x A 未注射疫苗 30 y B 注射疫苗 50 50 100 总计 现从所有实验动物中任取一只, 取到“注射疫苗”动物的概 2 率为5.
(1)求 2×2 列联表中的数据 x,y,A,B 的值; (2)绘制发病率的条形统计图,并判断疫苗是否有效?
40 2 10 1 (2)未注射疫苗发病率为60=3,注射疫苗发病率为40=4. 发病率的条形统计图如图所示, 由图可以看出疫苗影响到发 病率.
2 100 × 20 × 10 - 30 × 40 1 000 000 50 2 (3)K = = = 3 ≈16.67 50×50×40×60 50×20×60 >10.828. 所以至少有 99.9%的把握认为疫苗有效.