第九章 第三节 变量间的相关关系统计案例
最新高考数学总复习——第9章 第3节 变量间的相关关系与统计案例

i=1
yyii--y^yi22=1-94×118=1-18=78=0.875,
所以“污水净化量的差异”有87.5%是由年份引起的,这说明
回归方程预报的效果是良好的.
在线性回归分析中,只需利用公式求出回归直线方程 并利用其进行预测即可(注意回归直线过样本点的中心( x , y )),利 用回归方程进行预测,常把线性回归方程看作一次函数,求函数 值.
i=1
ti-
t
2∑ i=1
yi- y 2
线性回归方程y^=^a+b^t,
n
∑ b^=i=1
ti-
n
t
yi-
y
,^a=
y
-b^
t
∑
i=1
ti- t 2
n
∑ 反映回归效果的公式为:R2=1-i=n1
yi-y^i2 ,
∑
i=1
yi- y 2
其中R2越接近于1,表示回归的效果越好.
[解](1)由折线图中的数据得,
高考数学总复习
9.3 变量间的相关关 系与统计案例
1.两个变量的线性相关 (1)正相关 在散点图中,点散布在从 左下角 到 右上角 的区域,对于两个 变量的这种相关关系,我们将它称为正相关. (2)负相关 在散点图中,点散布在从 左上角 到 右下角 的区域,两个变量 的这种相关关系称为负相关.
(3)线性相关关系、回归直线 如果散点图中点的分布从整体上看大致在 一条直线
4.某同学家里开了一个小卖部,为了研究气温对某种冷饮销售
量的影响,他收集了一段时间内这种冷饮每天的销售量 y(杯)与当天
最高气温 x(℃)的有关数据,通过描绘散点图,发现 y 和 x 呈线性相
关关系,并求得其回归方程^y=2x+60.如果气象预报某天的最高气温
完整版变量间的相关关系统计案例

完整版变量间的相关关系统计案例引言:经济学中一个重要的分支是相关关系的研究,通过统计分析不同变量之间的相关性,可以帮助我们理解变量之间的关系。
本文以汽车生产数量和国内生产总值(GDP)为例,通过统计分析两者之间的相关关系,展示相关分析在实际问题中的应用。
方法:本案例采用了经济学中常用的相关分析方法,包括Pearson相关系数和散点图。
本文使用了国在过去10年内的汽车生产数量和GDP的数据。
汽车生产数量的数据来自国家汽车协会,GDP数据来自国家统计局。
分析过程:1.数据收集和整理:将过去10年内的每年汽车生产数量和GDP数据整理成一个数据表格,便于后续分析。
2.描述统计分析:计算汽车生产数量和GDP的均值、标准差和极差等描述性统计量,以了解数据的整体情况。
3.散点图绘制:将每年的汽车生产数量和GDP数据绘制成散点图,横轴表示汽车生产数量,纵轴表示GDP,每个散点表示一个年份。
4.相关性分析:计算汽车生产数量和GDP之间的Pearson相关系数,该系数介于-1和1之间。
系数为正则表示两者正相关,系数为负则表示两者负相关,系数越接近于1或-1,则相关性越强。
结果:1.描述统计分析结果显示,过去10年内每年的汽车生产数量均值为X辆,标准差为X辆,极差为X辆;每年GDP的均值为X万元,标准差为X万元,极差为X万元。
2.散点图显示,汽车生产数量和GDP呈现出一定的正相关趋势。
随着汽车生产数量的增加,GDP也有相应增加的趋势。
3. 相关性分析结果显示,汽车生产数量和GDP之间的Pearson相关系数为X。
由于该系数为正数且接近于1,可以得出结论:汽车生产数量与GDP存在着强正相关关系。
讨论:本案例通过相关分析的方法,探讨了汽车生产数量与GDP之间的关系。
研究结果表明,两者之间存在着强正相关关系,即汽车生产数量的增加会促进GDP的增长。
可能的解释是汽车工业作为一个重要的制造业部门,对于经济的增长有着显著的贡献。
第9章第3讲 变量间的相关关系与统计案例

第3讲变量间的相关关系与统计案例[考纲解读] 1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系;根据最小二乘法求出回归直线方程.(重点)2.了解独立性检验(只要求2×2列联表)的基本思想、方法及其初步应用.[考向预测]从近三年高考情况来看,本讲是高考中的一个热点考查内容.预测2021年将会考查:①回归直线方程的判断、求解及相关系数的意义,并用其解决实际问题;②独立性检验思想在实际问题中的应用.试题以解答题的形式呈现,难度为中等.此外,也可能出现在客观题中,此时试题难度不大,属中、低档题型.1.相关关系与回归方程(1)相关关系的分类02右上角的区域内,如图①正相关:从散点图上看,点散布在从□01左下角到□1;04右下角的区域内,如图②负相关:从散点图上看,点散布在从□03左上角到□2.(2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在□05一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫做□06回归直线.(3)回归方程①最小二乘法:使得样本数据的点到回归直线的□07距离的平方和最小的方法叫做最小二乘法.②回归方程:两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则b ^=∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x -)2=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x -2,a ^=y--b ^x -.其中,b ^是回归方程的□08斜率,a ^是在y 轴上的□09截距,x -=1n ∑n i =1x i ,y -=1n ∑n i =1y i ,□10(x -,y -)称为样本点的中心.说明:回归直线y ^=b ^x +a ^必过样本点的中心(x -,y -),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.(4)样本相关系数r =∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x -)2∑i =1n(y i -y -)2,用它来衡量两个变量间的线性相关关系.①当r >0时,表明两个变量□11正相关; ②当r <0时,表明两个变量□12负相关; ③r 的绝对值越接近1,表明两个变量的线性相关性□13越强;r 的绝对值接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r |>0.75时,认为两个变量有很强的线性相关关系.2.残差分析(1)残差:对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),它们的随机误差为e i =y i -bx i -a ,i =1,2,…,n ,其估计值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n ,e ^i 称为相应于点(x i ,y i )的残差.(2)残差平方和为∑ni =1(y i -y ^i )2. (3)相关指数:R 2=1-□01∑n i =1(y i -y ^i )2∑n i =1 (y i-y -)2.3.独立性检验(1)分类变量:变量的不同“值”表示个体所属的□01不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的□02频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +d构造一个随机变量K 2=□03n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =□04a +b +c +d 为样本容量.(3)独立性检验利用随机变量□05K 2来判断“两个分类变量□06有关系”的方法称为独立性检验.1.概念辨析(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( ) (2)“名师出高徒”可以解释为教师的教学水平与学生水平成正相关关系.( )(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( ) (4)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( ) (5)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( )答案 (1)× (2)√ (3)√ (4)√ (5)× 2.小题热身(1)设回归方程为y ^=3-5x ,则变量x 增加一个单位时( ) A .y 平均增加3个单位 B .y 平均减少5个单位 C .y 平均增加5个单位 D .y 平均减少3个单位答案 B解析因为-5是斜率的估计值,说明x每增加一个单位,y平均减少5个单位.故选B.(2)在下列各图中,两个变量具有相关关系的图是()A.①②B.①③C.②④D.②③答案 D解析①为函数关系;②显然成正相关;③显然成负相关;④没有明显相关性.(3)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如表.非一线一线总计愿生452065不愿生132235总计5842100 算得K2=≈9.616.58×42×35×65附表:P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828 A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C.有99%以上的把握认为“生育意愿与城市级别有关”D.有99%以上的把握认为“生育意愿与城市级别无关”答案 C解析 因为K 2≈9.616>6.635,所以有99%以上的把握认为“生育意愿与城市级别有关”.(4)已知变量x ,y 具有线性相关关系,它们之间的一组数据如下表所示,若y 关于x 的回归方程为y ^=1.3x -1,则m =________.x 1 2 3 4 y0.11.8m4答案 解析 由已知得x -=14×(1+2+3+4)=2.5, y -=14(0.1+1.8+m +4)=14×(5.9+m ).因为(x -,y -)在直线y ^=1.3x -1上,所以y -=1.3×2.5-1=2.25, 所以14×(5.9+m )=2.25,解得m =3.1.题型一 相关关系的判断1.下列两变量中不存在相关关系的是( )①人的身高与视力;②曲线上的点与该点的坐标之间的关系;③某农田的水稻产量与施肥量;④某同学考试成绩与复习时间的投入量;⑤匀速行驶的汽车的行驶距离与时间;⑥商品的销售额与广告费.A .①②⑤B .①③⑥C .④⑤⑥D .②⑥答案 A解析 根据相关关系的定义知,①②⑤中两个变量不存在相关关系. 2.下列命题中正确的为( )A.线性相关系数r越大,两个变量的线性相关性越强B.线性相关系数r越小,两个变量的线性相关性越弱C.残差平方和越小的模型,模型拟合的效果越好D.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好答案 C解析线性相关系数r的绝对值越接近于1,两个变量的线性相关性越强,故A,B错误;残差平方和越小,相关指数R2越大,越接近于1,拟合效果越好,故C正确,D错误.3.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3答案 A解析易知题中图①与图③是正相关,图②与图④是负相关,且图①与图②中的样本点集中分布在一条直线附近,则r2<r4<0<r3<r1.故选A.1.判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关.|r |越趋近于1相关性越强.见举例说明3.(3)线性回归直线方程中:b ^>0时,正相关;b ^<0时,负相关. 2.判断拟合效果的两个方法(1)残差平方和越小,拟合效果越好.见举例说明2.(2)相关指数R 2越大,越接近于1,拟合效果越好.1.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12 D .1答案 D解析 所有点均在直线上,则样本相关系数最大即为1,故选D.2.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得线性回归方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④ D .①④答案 D解析 由回归方程y ^=b ^x +a ^知当b ^>0时,y 与x 正相关,当b ^<0时,y 与x 负相关,∴①④一定错误.题型二 回归分析角度1 线性回归方程及应用1.某汽车的使用年数x 与所支出的维修总费用y 的统计数据如表:使用年数x /年 1 2 3 4 5 维修总费用y /万元0.51.22.23.34.5根据上表可得y 关于x 的线性回归方程y ^=b ^x -0.69,若该汽车维修总费用超过10万元就不再维修,直接报废,据此模型预测该汽车最多可使用(不足1年按1年计算)( )A .8年B .9年C .10年D .11年答案 D解析 由y 关于x 的线性回归直线y ^=b ^x -0.69过样本点的中心(3,2.34),得b ^=1.01,即线性回归方程为y ^=1.01x -0.69,令y ^=1.01x -0.69=10,得x ≈10.6,所以预测该汽车最多可使用11年.故选D.2.(2019·东北三省三校三模)现代社会,“鼠标手”已成为常见病.一次实验中,10名实验对象进行160分钟的连续鼠标点击游戏,每位实验对象完成的游戏关卡一样,鼠标点击频率平均为180次/分钟,实验研究人员测试了实验对象使用鼠标前后的握力变化,前臂表面肌电频率(sEMG)等指标.(1)10名实验对象实验前、后握力(单位:N)测试结果如下: 实验前:346,357,358,360,362,362,364,372,373,376. 实验后:313,321,322,324,330,332,334,343,350,361.完成茎叶图,并计算实验后握力平均值比实验前握力的平均值下降了多少N?(2)实验过程中测得时间t (分)与10名实验对象前臂表面肌电频率(sEMG)的中位数y (Hz)的九组对应数据(t ,y )为(0,87),(20,84),(40,86),(60,79),(80,78),(100,78),(120,76),(140,77),(160,75).建立y 关于时间t 的线性回归方程;(3)若肌肉肌电水平显著下降,提示肌肉明显进入疲劳状态,根据(2)中9组数据分析,使用鼠标多少分钟就该进行休息了?参考数据:∑9i =1(t i -t )(y i -y -)=-1800; 参考公式:回归方程y ^=b ^t +a ^中斜率和截距的最小二乘估计公式分别为:b ^=∑ni =1 (t i -t )(y i -y -)∑ni =1 (t i-t )2,a ^=y --b ^ t 解 (1)根据题意得到茎叶图如下图所示:由图中数据可得x -1=110×(346+357+358+360+362+362+364+372+373+376)=363,x -2=110×(313+321+322+324+330+332+334+343+350+361)=333, ∴x -1-x -2=363-333=30(N), ∴故实验前后握力的平均值下降了30 N.(2)由题意得t =19×(0+20+40+60+80+100+120+140+160)=80, y -=19×(87+84+86+79+78+78+76+77+75)=80,∑9i =1(t i -t )2=(0-80)2+(20-80)2+(40-80)2+(60-80)2+(80-80)2+(100-80)2+(120-80)2+(140-80)2+(160-80)2=24000,又∑9i =1(t i -t )(y i -y -)=-1800,∴b ^=∑9i =1(t i -t )(y i -y -)∑9i =1 (t i-t )2=-180024000=-0.075, ∴a ^=y --b ^t =80-(-0.075)×80=86, ∴y 关于时间t的线性回归方程为y ^=-0.075t +86.(3)九组数据中40分钟到60分钟y 的下降幅度最大,提示60分钟时肌肉已经进入疲劳状态,故使用鼠标60分钟就该休息了.角度2 非线性回归模型的应用3.(2019·莆田二模)某芯片公司为制定下一年的研发投入计划,需了解年研发资金投入量x i (单位:亿元)对年销售额y i (单位:亿元)的影响.该公司对历史数据进行对比分析,建立了两个函数模型:①y =α+βx 2,②y =e λx +t ,其中α,β,λ,t 均为常数,e 为自然对数的底数.现该公司收集了近12年的年研发资金投入量x i 和年销售额y i 的数据,i =1,2,…,12,并对这些数据作了初步处理,得到了如下的散点图及一些统计量的值.令u i =x 2,v i =ln y i (i =1,2,…,12),经计算得如下数据: x - y - ∑i =112(x i -x -)2 ∑i =112(y i -y -)2 u -v - 20 66770 2004604.20∑i =112(u i -u -)2 ∑i =112(u i -u -)·(y i -y -) ∑i =112(v i -v -)2 ∑i =112(x i -x -)·(v i -v -) 3125000 21500 0.308 14i i 1i i 2的角度,选择一个拟合程度更好的模型;(2)①根据(1)的选择及表中数据,建立y 关于x 的回归方程(系数精确到0.01); ②若下一年销售额y 需达到90亿元,预测下一年的研发资金投入量x 是多少亿元?附:相关系数r =∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x -)2∑i =1n(y i -y -)2,回归直线y ^=a ^+b ^x 中斜率和截距的最小二乘估计公式分别为b ^=∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x -)2,a ^=y --b ^x -;参考数据:308=4×77,90≈9.4868,e 4.4998≈90.解 (1)由题意,r 1=∑i =112(u i -u -)(y i -y -)∑i =112(u i -u -)2∑i =112(y i -y -)2=215003125000×200=2150025000=4350=0.86,r 2=∑i =112(x i -x -)(v i -v -)∑i =112(x i -x -)2∑i =112(v i -v -)2=14770×0.308=1477×0.2=1011≈0.91,则|r 1|<|r 2|,因此从相关系数的角度,模型y =e λx +t 的拟合程度更好.(2)①先建立v关于x的线性回归方程,由y=eλx+t,得ln y=t+λx,即v=t+λx;由于λ=∑i=112(x i-x-)(v i-v-)∑i=112(x i-x-)2=14770≈0.018,t=v--λx-=4.20-0.018×20=3.84,所以v关于x的线性回归方程为v^=0.02x+3.84,所以ln y^=0.02x+3.84,则y^=e0.02x+3.84.②下一年销售额y需达到90亿元,即y=90,代入y^=e0.02x+3.84,得90=e0.02x+3.84,又e4.4998≈90,所以4.4998≈0.02x+3.84,所以x≈4.4998-3.840.02=32.99,所以预测下一年的研发资金投入量约是32.99亿元.1.利用线性回归方程时的关注点(1)正确理解计算b^,a^的公式和准确的计算是求线性回归方程的关键.(2)回归直线方程y^=b^x+a^必过样本点中心(x-,y-).见举例说明1.(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.2.非线性回归方程的求法(1)根据原始数据(x,y)作出散点图.(2)根据散点图选择恰当的拟合函数.(3)作恰当的变换,将其转化成线性函数,求线性回归方程.(4)在(3)的基础上通过相应变换,即可得非线性回归方程.见举例说明3.1.(2019·南宁二模)一汽车销售公司对开业4年来某种型号的汽车“五一”优惠金额与销售量之间的关系进行分析研究并做了记录,得到如下资料.日期 第1年 第2年 第3年 第4年 优惠金额x (千元) 10 11 13 12 销售量y (辆)22243127(1)用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^;(2)若第5年优惠金额为8.5千元,估计第5年的销售量y (辆)的值.参考公式:b ^=∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x -)2=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x -2,a ^=y --b ^x -.解 (1)由题意,得x -=11.5,y -=26,∑i =14x i y i =1211,∑i =14x 2i =534,∴b ^=∑i =14x i y i -4x -y -∑i =14x 2i -4x-2=1211-4×11.5×26534-4×11.52=155=3,则a ^=y --b ^ x -=26-3×11.5=-8.5.∴y ^=3x -8.5.(2)当x =8.5时,y ^=17,∴第5年优惠金额为8.5千元时,销售量估计为17辆.2.对某地区儿童的身高与体重的一组数据,我们用两种模型①y =bx +a ,②y =c e dx拟合,得到回归方程分别为y ^(1)=0.24x -8.81,y ^(2)=1.70e 0.022x ,作残差分析,如下表:身高x (cm) 60 70 80 90 100 110 体重y (kg)6 8 10 14 15 18 e ^(1) 0.41 0.01 1.21 -0.19 0.41 e ^(2)-0.360.070.121.69-0.34-1.12(2)根据残差比较模型①②的拟合效果,决定选择哪个模型;(3)若残差大于1 kg 的样本点被认为是异常数据,应剔除,剔除后对(2)所选择的模型重新建立回归方程.(结果保留到小数点后两位)附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为b ^=∑ni =1 (x i -x -)(y i -y -)∑ni =1(x i -x -)2,a ^=y --b ^ x -. 解 (1)根据残差分析,把x =80代入y ^(1)=0.24x -8.81中,得y ^(1)=10.39. ∵10-10.39=-0.39, ∴表中空格内的值为-0.39.(2)模型①残差的绝对值的和为0.41+0.01+0.39+1.21+0.19+0.41=2.62, 模型②残差的绝对值的和为0.36+0.07+0.12+1.69+0.34+1.12=3.7. ∵2.62<3.7,∴模型①的拟合效果比较好,选择模型①.(3)残差大于1 kg 的样本点被剔除后,剩余的数据如下表: 身高x (cm) 60 70 80 100 110 体重y (kg)6 8 10 15 18 e ^(1)0.410.01-0.39-0.190.41由公式b ^=∑n i =1 (x i -x )(y i -y )∑ni =1 (x i -x -)2,a ^=y --b ^ x -, 得回归方程为y ^=0.24x -8.76.题型三 独立性检验1.假设有两个分类变量X和Y的2×2列联表如下:() A.a=45,c=15 B.a=40,c=20C.a=35,c=25 D.a=30,c=30答案 A解析根据2×2列联表与独立性检验可知,当aa+10与cc+30相差越大时,X与Y有关系的可能性越大,即a,c相差越大,aa+10与cc+30相差越大.故选A.2.(2019·南昌三模)某校高三文科(1)班共有学生45人,其中男生15人,女生30人.在一次地理考试后,对成绩作了数据分析(满分100分),成绩为85分以上的同学称为“地理之星”,得到了如下列联表:如果从全班45人中任意抽取1人,抽到“地理之星”的概率为1 3.(1)完成“地理之星”与性别的2×2列联表,并回答是否有90%以上的把握认为获得“地理之星”与“性别”有关?(2)若已知此次考试中获得“地理之星”的同学的成绩平均值为90,方差为7.2,请你判断这些同学中是否有得到满分的同学,并说明理由.(得分均为整数分)参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.临界值表:P (K 2≥k 0)0.10 0.05 0.010 0.005 0.001 k 02.7063.8416.6357.87910.828解 (1)根据题意知“地理之星”总人数为45×13=15,填写列联表如下:地理之星 非地理之星 合计男生 7 8 15 女生 8 22 30 合计153045根据表中数据,计算K 2=45×(7×22-8×8)215×30×15×30=1.8<2.706,所以没有90%的把握认为获得“地理之星”与性别有关.(2)没有得满分的同学,记各个分值由高到低分别为x 1,x 2,…,x 15; ①若有2个以上的满分,则s 2=115×[(100-90)2+(100-90)2+…+(x 15-90)2]>403>7.2,不符合题意.②若恰有1个满分,为使方差最小,则其他分值需集中分布在平均数90的附近,且为保证平均值为90,则有10个得分为89,其余4个得分为90,此时方差取得最小值,∴s 2min=115×[(100-90)2+4×(90-90)2+10×(89-90)2]=223>7.2,与题意方差为7.2不符合,所以这些同学中没有得满分的同学.独立性检验的一般步骤(1)根据样本数据列出2×2列联表;(2)计算随机变量K2的观测值k,查表确定临界值k0;(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X 与Y有关系”.1.学生会为了调查学生对2018年俄罗斯世界杯的关注是否与性别有关,抽样调查100人,得到如下数据:不关注关注总计男生301545女生451055总计7525100K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),并参考以下临界数据:P(K2≥k0)0.500.400.250.150.100.050.0250.010.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828错的概率不超过()A.0.10 B.0.05 C.0.025 D.0.01 答案 A解析由题意可得K2=100×(30×10-15×45)245×55×75×25≈3.030>2.706,由此认为“学生对2018年俄罗斯世界杯的关注与性别有关”出错的概率不超过0.10.故选A.2.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:超过m 不超过m第一种生产方式第二种生产方式附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828解(1)第二种生产方式的效率更高.理由如下:①由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.②由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.③由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.④由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可)(2)由茎叶图知m=79+812=80.列联表如下:超过m 不超过m第一种生产方式15 5 第二种生产方式515(3)由于K2的观测值k=40×(15×15-5×5)220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.组基础关1.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则()A.r2<r1<0 B.0<r2<r1C.r2<0<r1D.r2=r1答案 C解析对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r1>0;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r2<0,故选C.2.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()表1C .智商D .阅读量答案 D解析 K 21=52×(6×22-10×14)216×36×20×32,令5216×36×20×32=m ,则K 21=82m ,同理,K 22=m ×(4×20-12×16)2=1122m ,K 23=m ×(8×24-8×12)2=962m ,K 24=m ×(14×30-6×2)2=4082m ,∴K 24>K 22>K 23>K 21,则与性别有关联的可能性最大的变量是阅读量.故选D.3.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-13附近波动.经计算∑6i =1x i =11,∑6i =1y i =13,∑6i =1x 2i =21,则实数b 的值为________. 答案 57解析 令t =x 2,则曲线的回归方程变为线性的回归方程,即y =bt -13,此时t =∑6i =1x 2i6=72,y -=∑6i =1yi 6=136,代入y =bt -13,得136=b ×72-13,解得b =57.4.针对时下的“韩剧热”,某校团委对“学生性别和喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的12,男生喜欢韩剧的人数占男生人数的16,女生喜欢韩剧的人数占女生人数的23.若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有________人.k 03.841 6.635 10.828答案 解析 设男生人数为x ,由题意可得列联表如下: 喜欢韩剧不喜欢韩剧总计 男生 x 6 5x 6 x 女生 x 3 x 6 x 2 总计x 2x3x 2若有95%的把握认为是否喜欢韩剧和性别有关,则k >3.841,即k =3x 2⎝ ⎛⎭⎪⎫x 6·x 6-5x 6·x 32x ·x 2·x 2·x =3x8>3.841,解得x >10.243.因为x 6,x2为整数,所以若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有12人.5.(2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:y ^=-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^=99+17.5t .(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.解 (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y ^=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为 y ^=99+17.5×9=256.5(亿元). (2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^=99+17.5t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.(以上给出了2种理由,考生答出其中任意一种或其他合理理由均可)组 能力关1.某职称晋级评定机构对参加某次专业技术考试的100人的成绩进行了统计,绘制了频率分布直方图(如图所示),规定80分及以上者晋级成功,否则晋级失败(满分为100分).(1)求图中a 的值;(2)估计该次考试的平均分x -(同一组中的数据用该组的区间中点值代表); (3)根据已知条件完成下面的2×2列联表,并判断能否有85%的把握认为“晋级成功”与性别有关.K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解 (1)由频率分布直方图中各小长方形的面积总和为1,可知(2a +0.020+0.030+0.040)×10=1,故a =0.005.(2)由频率分布直方图知各小组的区间中点值分别为55,65,75,85,95,对应的频率分别为0.05,0.30,0.40,0.20,0.05,故可估计平均数x -=55×0.05+65×0.3+75×0.4+85×0.2+95×0.05=74. (3)由频率分布直方图知,晋级成功的频率为0.20+0.05=0.25, 故晋级成功的人数为100×0.25=25,故填表如下:K 2=100×(16×41-34×9)225×75×50×50≈2.613>2.072,所以有85%的把握认为“晋级成功”与性别有关.2.(2019·银川一中模拟)某餐厅通过查阅了最近5次食品交易会参会人数x (万人)与餐厅所用原材料数量y (袋),得到如下统计表:(1)根据所给5组数据,求出y 关于x 的线性回归方程y =b x +a ;(2)已知购买原材料的费用C (元)与数量t (袋)的关系为C =⎩⎨⎧400t -20,0<t <36(t ∈N ),380t ,t ≥36(t ∈N ),投入使用的每袋原材料相应的销售收入为700元,多余的原材料只能无偿返还,据悉本次交易大会大约有15万人参加.根据(1)中求出的线性回归方程,预测餐厅应购买多少袋原材料,才能获得最大利润,最大利润是多少?(注:利润L =销售收入-原材料费用)参考公式:b ^=∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x -)2=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x -2,a ^=y --b ^x -. 参考数据:∑i =15x i y i =1343,∑i =15x 2i =558,∑i =15y 2i =3237.解 (1)由所给数据,得x -=13+9+8+10+125=10.4,y -=32+23+18+24+285=25,b ^=∑i =15x i y i -5x -y -∑i =15x 2i -5x-2=1343-5×10.4×25558-5×10.42=2.5,a ^=y --b ^ x -=25-2.5×10.4=-1,则y 关于x 的线性回归方程为y ^=2.5x ^-1.(2)由(1)中求出的线性回归方程知,当x =15时,y =36.5,即预计需要原材料36.5袋,因为C =⎩⎨⎧400t -20,0<t <36,t ∈N ,380t ,t ≥36,t ∈N ,所以当t <36时,利润L =700t -(400t -20)=300t +20, 当t =35时,利润L =300×35+20=10520; 当t ≥36时,利润L =700t -380t ,当t =36时,利润L =700×36-380×36=11520,因为预计需要原材料36.5袋,且多余的原材料只能无偿返还,所以当t =37时,利润L =700×36.5-380×37=11490.综上所述,餐厅应该购买36袋原材料,才能使利润获得最大,最大利润为11520元.。
11.3第三节 变量间的相关关系与统计案例

________.
【解析】K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理, 应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性 约为5%. 答案:5%
核心素养 数据分析——线性回归方程应用中的数据分析能力 【素养诠释】
在现实生活中有许多问题应当先做调查研究,收集数据,通过分析作出判 断,体会数据中蕴涵的信息;对于同样的数据可以有多种分析的方法,需要根据 问题的背景选择合适的方法;通过数据分析体验随机性,一方面,对于同样的事 情每次收集到的数据可能不同;另一方面,只要有足够的数据就可能从中发现 规律.数据分析是统计的核心.
7
7
【解析】(1)由题意有
x =8,
y
=4.2,
xiyi=279.4,
x
2 i
=708,
7
i1
i1
所以
b$
xi yi-7xgy
i1
7 xi2-7x2
279.4-7 8 4.2 708-7 82
=0.17,
a$ y b$x 4.2 0.17 8 2.84,
所以y关于xi的1 线性回归方程为 y$=0.17x+2.84;
【解析】选D.由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关 关系,故A正确;又线性回归方程必过样本点的中心( x , y ),故B正确;由线性回 归方程中系数的意义知,x每增加1 cm,其体重约增加0.85 kg,故C正确;当某女生 的身高为170 cm时,其体重估计值是58.79 kg,而不是具体值,故D不正确.
【易错点索引】
序号
易错警示
1 相关系数r,相关指数R2与相关性强弱的关系
第九章 第三节 变量间的相关关系与统计案例

2.回归方程 (1)最小二乘法:
求回归直线使得样本数据的点到它的距离的平方和最小 的方法叫做最小二乘法.
返回
(2)回归方程: 方程^y =^bx+^a是两个具有线性相关关系的变量的一组数 据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中^a,^b是 待定参数.
n
xi--x yi--y
^
b
=
i=1
0.01,
^
a
=
y
-
^
b
x
=0.47,∴
^
y
=0.01x+0.47,令x=6,得
^
y
=0.53.
[答案] (1)B (2)0.5 0.53
返回
[悟一法] 1.求回归方程,关键在于正确求出系数^a,^b由于计算量较
大,所以计算时要仔细谨慎,分层进行,避免因计算产 生失误,特别注意,只有在散点图大体呈线性时,求出 的回归方程才有意义. 2.利用回归方程可以估计总体,它是回归方程所反映的规律 的延伸,可使我们对有线性相关关系的两个变量进行分 析和控制.
返回
4.独立性检验 (1)分类变量:变量的不同“值”表示个体所属的不同类别,
像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.假
设有两个分类变量X和Y,它们的可能取值分别为{x1, x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
返回
2×2列联表
x1 x2 总计
返回
1.两个变量的线性相关 (1)正相关:
在散点图中,点散布在从 左下角 到右上角的区域,对于 两个变量的这种相关关系,我们将它称为正相关.
返回
(2)负相关: 在散点图中,点散布在从 左上角 到 右下角的区域,两 个变量的这种相关关系称为负相关.
高考知识点变量间的相关关系与统计案例

第3节变量间的相关关系与统计案例最新考纲 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.知识梳理1.相关关系与回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(x n,y n),其回归方程为y^=b^x+a^,则^是回归方程的斜率,a^是在y轴上的截距.其中,b回归直线一定过样本点的中心(x,y).3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心:对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x ,y )称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.(4)相关指数:其中21()ni i i y y =-∑是残差平方和,其值越小,则R 2越大(接近1),模型的拟合效果越好. 4.独立性检验(1)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)为则随机变量K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d ),其中n =a +b +c +d 为样本容量.[常用结论与微点提醒]1.求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本中心点(x ,y ).2.根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.3.根据回归方程计算的y^值,仅是一个预报值,不是真实发生的值.诊断自测1.思考辨析(在括号内打“√”或“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.()(2)通过回归直线方程y^=b^x+a^可以估计预报变量的取值和变化趋势.()(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.()(4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.()答案(1)√(2)√(3)×(4)√2.(必修3P90例题改编)某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如表:则y对x的线性回归直线方程为()A.y^=2.3x-0.7B.y^=2.3x+0.7C.y^=0.7x-2.3D.y^=0.7x+2.3解析易求x=9,y=4,样本点中心(9,4)代入验证,满足y^=0.7x-2.3.答案 C3.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是()A.模型1的相关指数R2为0.98B.模型2的相关指数R2为0.80C.模型3的相关指数R2为0.50D.模型4的相关指数R2为0.25解析在两个变量y与x的回归模型中,它们的相关指数R2越近于1,模拟效果越好,在四个选项中A的相关指数最大,所以拟合效果最好的是模型1.答案 A4.(2015·全国Ⅱ卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论不正确的是()A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关解析对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,D不正确.答案 D5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案5%考点一相关关系的判断【例1】(1)已知变量x和y近似满足关系式y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关(2)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:则哪位同学的试验结果体现A,B两变量有更强的线性相关性()A.甲B.乙C.丙D.丁解析(1)由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z 正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x 与z负相关.(2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性.答案(1)C(2)D规律方法 1.散点图中如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.2.利用相关系数判定,当|r|越趋近于1相关性越强.当残差平方和越小,相关指数R2越大,相关性越强.若r>0,则正相关;r<0时,则负相关.3.线性回归直线方程中:b^>0时,正相关;b^<0时,负相关.【训练1】(1)某公司在2018年上半年的收入x(单位:万元)与月支出y(单位:万元)的统计资料如下表所示:根据统计资料,则()A.月收入的中位数是15,x与y有正线性相关关系B.月收入的中位数是17,x与y有负线性相关关系C.月收入的中位数是16,x与y有正线性相关关系D.月收入的中位数是16,x与y有负线性相关关系(2)x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.①x,y是负相关关系;②在该相关关系中,若用y=c1e c2x拟合时的相关指数为R21,用y^=b^x+a^拟合时的相关指数为R22,则R21>R22;③x,y之间不能建立线性回归方程.解析(1)从统计图表中看出,月收入的中位数是12(15+17)=16,收入增加,则支出也增加,x与y正线性相关.(2)在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y=c1e c2x拟合比用y^=b^x+a^拟合效果要好,则R21>R22,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.答案(1)C(2)①②考点二线性回归方程及应用【例2】(2015·全国Ⅰ卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.(1)根据散点图判断,y=a+bx与y=c+d x哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由)?(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:①年宣传费x=49时,年销售量及年利润的预报值是多少?②年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为:解(1)由散点图可以判断,y=c+d x适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w=x,先建立y关于w的线性回归方程,由于所以y关于w的线性回归方程为y^=100.6+68w,因此y关于x的回归方程为y^=100.6+68x.(3)①由(2)知,当x=49时,年销售量y的预报值y^=100.6+6849=576.6,年利润z的预报值z^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z的预报值z^=0.2(100.6+68x)-x=-x+13.6x+20.12.所以当x=13.62=6.8,即x=46.24时,z^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.规律方法 1.(1)正确理解计算b^,a^的公式和准确的计算是求线性回归方程的关键.(2)回归直线方程y^=b^x+a^必过样本点中心(x,y).2.(1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.(2)本例中y 与x 不具有线性相关,先作变换,转化为y 与w 具有线性相关,求出y 关于w 的线性回归方程,然后进一步求解.【训练2】 (2018·日照调研)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:表1为了研究计算的方便,工作人员将上表的数据进行了处理,t =x -2 012,z =y -5得到下表2:表2(1)求z 关于t 的线性回归方程;(2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少?b ^=45-5×3×2.255-5×9=1.2,a ^=z -b ^t -=2.2-3×1.2=-1.4, 所以z ^=1.2t -1.4.(2)将t=x-2 012,z=y-5,代入z^=1.2t-1.4,得y-5=1.2(x-2 012)-1.4,即y^=1.2x-2 410.8.(3)因为y^=1.2×2 022-2 410.8=15.6,所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.考点三独立性检验【例3】某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集了300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)解(1)利用分层抽样,300×4 50015 000=90,所以应收集90位女生的样本数据.(2)由频率分布直方图得1-2×(0.100+0.025)=0.75.所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:将2×2列联表中的数据代入公式计算,得K 2的观测值 k =300×(45×60-165×30)275×225×210×90=10021≈4.762>3.841.所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”. 规律方法 1.在2×2列联表中,如果两个变量没有关系,则应满足ad -bc ≈0.|ad -bc |越小,说明两个变量之间关系越弱;|ad -bc |越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表: (2)根据公式K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )计算K 2的观测值k ;(3)比较观测值k 与临界值的大小关系,作统计推断.【训练3】 (2018·合肥质检)某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调查. 现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少? (2)根据抽取的180名学生的调查结果,完成下面的2×2列联表.并判断能否在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解 (1)从高一年级学生中随机抽取1人,抽到男生的概率约为105180=712. (2)根据统计数据,可得2×2列联表如下:则K 2的观测值为k =180×(60×45-30×45)2105×75×90×90=367≈5.142 9>5.024,所以能在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关.基础巩固题组 (建议用时:40分钟)一、选择题1.为了判定两个分类变量X 和Y 是否有关系,应用独立性检验法算得K 2的观测值为5,又已知P (K 2≥3.841)=0.05,P (K 2≥6.635)=0.01,则下列说法正确的是( )A.有95%的把握认为“X 和Y 有关系”B.有95%的把握认为“X 和Y 没有关系”C.有99%的把握认为“X和Y有关系”D.有99%的把握认为“X和Y没有关系”解析依题意K2的观测值为k=5,且P(K2≥3.841)=0.05,因此有95%的把握认为“X和Y有关系”.答案 A2.(2018·石家庄模拟)下列说法错误的是()A.回归直线过样本点的中心(x,y).B.两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1C.对分类变量X与Y,随机变量K2的观测值k越大,则判断“X与Y有关系”的把握程度越小D.在回归直线方程y^=0.2x+0.8中,当解释变量x每增加1个单位时,预报变量y^平均增加0.2个单位解析根据相关定义分析知A,B,D正确,C中对分类变量X与Y的随机变量K2的观测值k来说,k越大,判断“X与Y有关系”的把握程度越大,故C错误. 答案 C3.(2017·汉中模拟)已知两个随机变量x,y之间的相关关系如表所示:^=b^x+a^,则大致可以判断()根据上述数据得到的回归方程为yA.a^>0,b^>0B.a^>0,b^<0C.a^<0,b^>0D.a^<0,b^<0^>0,a^<0.解析作出散点图,画出回归直线直观判定b答案 C4.通过随机询问110名性别不同的学生是否爱好某项运动,得到如下的列联表:由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )算得,K 2的观测值为k =110×(40×30-20×20)260×50×60×50≈7.8.附表:参照附表,得到的正确结论是( )A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” 解析 根据独立性检验的定义,由K 2的观测值为k ≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”. 答案 A5.(2017·山东卷)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( ) A.160B.163C.166D.170解析 由已知得x =22.5,y =160, ∵回归直线方程过样本点中心(x ,y ), 且b^=4,∴160=4×22.5+a^,解得a^=70.∴回归直线方程为y^=4x+70,当x=24时,y^=166.答案 C二、填空题6.(2017·西安模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,^为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y=0.67x+54.9.现发现表中有一个数据看不清,请你推断出该数据的值为________.解析由x=30,得y=0.67×30+54.9=75.设表中的“模糊数字”为a,则62+a+75+81+89=75×5,∴a=68.答案687.(2018·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)根据上述数据,推断视觉和空间想象能力与性别有关系,则这种推断犯错误的概率不超过________.附表:解析由列联表计算K2的观测值k=50(22×12-8×8)230×20×20×30≈5.556>5.024.∴推断犯错误的概率不超过0.025.答案0.0258.(2018·长沙雅礼中学质检)某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得回归直线方程y^=b^x+a^中的b^=-2,预测当气温为-4 ℃时,用电量约为________度.解析根据题意知x=18+13+10+(-1)4=10,y=24+34+38+644=40.所以a^=40-(-2)×10=60,y^=-2x+60.所以当x=-4时,y=(-2)×(-4)+60=68,所以用电量约为68度.答案68三、解答题9.(2018·重庆调研)某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了80人,结果如下表:(1)根据上表,现用分层抽样的方法抽取对产品满意的用户5人,在这5人中任选2人,求被选中的恰好是男、女用户各1人的概率;(2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由.注:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .解 (1)用分层抽样的方法在满意产品的用户中抽取5人,则抽取比例为550=110. 所以在满意产品的用户中应抽取女用户20×110=2(人),男用户30×110=3(人). 抽取的5人中,三名男用户记为a ,b ,c ,两名女用户记为r ,s ,则从这5人中任选2人,共有10种情况:ab ,ac ,ar ,as ,bc ,br ,bs ,cr ,cs ,rs . 其中恰好是男、女用户各1人的有6种情况:ar ,as ,br ,bs ,cr ,cs . 故所求的概率为P =610=0.6. (2)由题意,得K 2的观测值为k =80(30×20-20×10)2(30+20)(10+20)(30+10)(20+20) =163≈5.333>5.024. 又P (K 2≥5.024)=0.025.故有97.5%的把握认为“产品用户是否满意与性别有关”.10.(2018·惠州模拟)某市春节期间7家超市广告费支出x i (万元)和销售额y i (万元)数据如下表:(1)若用线性回归模型拟合y 与x 的关系,求y 与x 的线性回归方程;(2)若用二次函数回归模型拟合y 与x 的关系,可得回归方程:y ^=-0.17x 2+5x +20,经计算,二次函数回归模型和线性回归模型的R 2分别约为0.93和0.75,请用R 2说明选择哪个回归模型更合适,并用此模型预测A 超市广告费支出3万元时的销售额.∴a^=y-b^x=42-1.7×8=28.4,故y关于x的线性回归方程是y^=1.7x+28.4.(2)∵0.75<0.93,∴二次函数回归模型更合适.当x=3时,y^=33.47.故选择二次函数回归模型更合适,并且用此模型预测A超市广告费支出3万元时的销售额为33.47万元.能力提升题组(建议用时:20分钟)11.(2018·济南调研)济南市地铁R1线预计2019年年底开通运营,地铁时代的到来能否缓解济南的交通拥堵状况呢?某社团进行社会调查,得到的数据如下表:则下列结论正确的是()附:K2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)A.有95%的把握认为“对能否缓解交通拥堵的认识与性别有关”B.有95%的把握认为“对能否缓解交通拥堵的认识与性别无关”C.有99%的把握认为“对能否缓解交通拥堵的认识与性别有关”D.有99%的把握认为“对能否缓解交通拥堵的认识与性别无关”解析 由2×2列联表,可求K 2的观测值, k =(48+30+12+20)(20×48-12×30)2(48+30)(48+12)(12+20)(30+20) ≈5.288>3.841.由统计表P (K 2≥3.841)=0.05,∴有95%的把握认为“能否缓解交通拥堵的认识与性别有关”. 答案 A12.在2018年3月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x +40,且m +n =20,则其中的n =________. 解析 x =9+9.5+m +10.5+115=8+m 5, y =11+n +8+6+55=6+n 5.回归直线一定经过样本中心(x ,y ), 即6+n 5=-3.2⎝ ⎛⎭⎪⎫8+m 5+40,即3.2m +n =42.又因为m +n =20,即⎩⎪⎨⎪⎧3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.答案 1013.(2018·湖南百所重点中学阶段性诊断)已知某企业近3年的前7个月的月利润(单位:百万元)如下面的折线图所示:(1)试问这3年的前7个月中哪个月的月平均利润较高? (2)通过计算判断这3年的前7个月的总利润的发展趋势;(3)试以第3年的前4个月的数据(如下表),用线性回归的拟合模式估计第3年8月份的利润.解 (1)由折线图可知5月和6月的平均利润最高.(2)第1年前7个月的总利润为1+2+3+5+6+7+4=28(百万元), 第2年前7个月的总利润为2+5+5+4+5+5+5=31(百万元). 第3年前7个月的总利润为4+4+6+6+7+6+8=41(百万元), 所以这3年的前7个月的总利润呈上升趋势.(3)∵x =2.5,y =5,12+22+32+42=30,1×4+2×4+3×6+4×6=54, ∴b^=54-4×2.5×530-4×2.52=0.8,∴a ^=5-2.5×0.8=3. 因此线性回归方程为y ^=0.8x +3. 当x =8时,y ^=0.8×8+3=9.4.∴估计第3年8月份的利润为9.4百万元.。
变量间的相关关系与统计案例 PPT

(2)线性相关关系、回归直线 如果散点图中点的分布从整体上看大致在一条直线附近,就 称这两个变量之间具有线性相关关系,这条直线叫作回归直 线.
2. 回归分析
(1)最小二乘法
题型三 线性回归方程 【例3】 为了研究某种新上市产品的广告费与销售额之间的 关系,某统计局随机选取5家销售公司,由营业报告中查出其上 年度的广告费x(单位:万元)与销售额y(单位:百万元)之间有如 下的对应数据:
(1)以x为解释变量,y为预报变量,作出散点图; (2)求y与x之间的回归方程. 解析: (1)散点图如图所示:
解析:A中显然任给一个x都有唯一确定的y和它对应,是一种函数 关系;B也是一种函数关系;C中从散点图中可看出所有点看上去 都在某条直线附近波动,具有相关关系,而且是一种线性相关;D 中所有的点在散点图中没有显示任何关系,因此变量间是不相关 的. 答案: C
3. (原创题)经研究表明,学生的体重y(单位:kg)与身高x(单位: cm)有很强的线性相关关系,其回归方程为y=0.75x-68.2,如果一 个学生的身高为170 cm,则他的体重( )
A.90% B.95% C. 97.5% D. 99.9%
解析:根据题中的等高条形图,由于用药的患者50人,因
此,在用药的患者中感冒病好的人数为50* 8
10
=40;在未用药的患者中感冒病好的人数为20*
3
10
=6.于是列联表如下
由K2= 7040146102
50204624
≈15.85>10.828. 因此,有99.9%的把握认为感冒病好与用药有关,故选D.
第九章 变量间的相关关系统计案例

返回
(2)∵ xiyi=3 245, x =25, y =15.43, x2=5 075,7( x )2=4 375,7x y=2 695 i
i= 1 i= 1
7
7
--
y xiyi-7 x ·
i= 1
7
^ ∴b =
≈0.79,
xi2-7 x 2
i= 1
7
^= y -b x =-4.32,∴回归直线方程是y =0.79x-4.32. ^ a (3)进店人数80人时,商品销售的件数y=0.79×80-4.32≈59件.
^ B.y =2x+100 ^ D.y =2x-100
^ 解析:B、D为正相关,C中y 值恒为负,不符合题意.
答案: A
返回
2.两个变量y与x的回归模型中,分别选择了4个不同模
型,它们的相关指数R2如下,其中拟合效果最好的 模型是 A.模型1的相关指数R2为0.98 B.模型2的相关指数R2为0.80 C.模型3的相关指数R2为0.50 D.模型4的相关指数R2为0.25 解析:相关指数R2越大拟合效果越好. ( )
B.有99%以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过0.1%的前提下,认为“爱好该 项运动与性别有关” D.在犯错误的概率不超过0.1%的前提下,认为“爱好该 项运动与性别无关”
返回
[自主解答]
根据独立性检验的定义,由K2≈7.8>6.635
可知我们有99%以上的把握认为“爱好该项运动与性别
^= a
^ y -b x .
n
^ ^ Q= yi-b xi-a 2 的最小值而得到回归直线的方 3.通过求
i= 1
法,即求回归直线,使得样本数据的点到它的距离的平 方和最小,这一方法叫做最小二乘法.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
返回
(2)∵ xiyi=3 245, x =25, y =15.43, x2=5 075,7( x )2=4 375,7x y=2 695 i
i= 1 i= 1
7
7
--
y xiyi-7 x ·
i= 1
7
^ ∴b =
≈0.79,
xi2-7 x 2
i= 1
7
^= y -b x =-4.32,∴回归直线方程是y =0.79x-4.32. ^ a (3)进店人数80人时,商品销售的件数y=0.79×80-4.32≈59件.
本容量). 2.用K2的大小可以决定是否拒绝原来的统计假设H0,若K2 值较大,就拒绝H0,即拒绝事件A与B无关. 3.当K2≥3.841时,则有95%的把握说事件A与B有关; 当K2≥6.635时,则有99%的把握说事件A与B有关; 当K2≤2.706时,则认为事件A与B无关.
返回
返回
1.(教材习题改编)某商品销售量y(件)与销售价格x (元/件)负相关,则其回归方程可能是 ^ A.y =-2x+100 ^ C.y =-2x-100 ( )
返回
4.在一项打鼾与患心脏病的调查中,共调查了1 671人,经 过计算K2的观测值k=27.63,根据这一数据分析,我们 有理由认为打鼾与患心脏病是_______的(有关,无关). 解析:k=27.63>10.828,有99.9%的把握认为打鼾与 患心脏病有关. 答案:有关
返回
5.已知x、y的取值如下表所示: x y 0 2.2 1 4.3 3 4.8 4 6.7
^= a
^ y -b x .
n
^ ^ Q= yi-b xi-a 2 的最小值而得到回归直线的方 3.通过求
i= 1
法,即求回归直线,使得样本数据的点到它的距离的平 方和最小,这一方法叫做最小二乘法.
返回
4.相关系数 当r>0时,表明两个变量 正相关 ;
当r<0时,表明两个变量 负相关 .
r的绝对值越接近于1,表明两个变量的线性相关性 越强 .r的绝对值越接近于0时,表明两个变量之间 几乎不存在线性相关关系 .通常|r|大于0.75 时,认 为两个变量有很强的线性相关性.
返回
三、独立性检验 1.2×2列联表:假设有两个分类变量X和Y,它们的值 域分别为{x1,x2}和{y1,y2},其样本频数列联表 (称2×2列联表)为: y1 y2 总计 a+b c+d a+b+c+d
x1 x2
总计
a c
a+c
b d
b+d
返回
nad-bc2 K2= a+ba+cb+dc+d (其中n=a+b+c+d为样
返回
[冲关锦囊]
1.最小二乘法估计的一般步骤: (1)作出散点图,判断是否线性相关; ^ ^ (2)如果是,则用公式求a 、b ,写出回归方程; (3)根据方程进行估计. 2.回归直线方程恒过点( x , -). y
返回
[精析考题] [例3] (2011· 湖南高考)通过随机询问110名性别不同的大 学生是否爱好某项运动,得到如下的列联表: 男 爱好 不爱好 40 20 女 20 30 总计 60 50
有关.”
[答案] A
返回
[巧练模拟]—————(课堂突破保分题,分分必保!)
5.(2012· 郑州模拟)某中学对高二甲、乙两个同类班级 进行“加强„语文阅读理解‟训练对提高„数学应用题‟得 分率作用”的试验,其中甲班为试验班(加强语文阅读 理解训练),乙班为对比班(常规教学,无额外训练), 在试验前的测试中,甲、乙两班学生在数学应用题上
^ ^ ^ (1)利用所给数据求年需求量与年份之间的回归方程y =b x+a ; (2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.
返回
[自主解答]
(1)由所给数据看出,年需求量与年份之间
是近似直线上升,下面来配回归直线方程.为此对数据 预处理如下:
年份-2006
-4
-2
-11
0
0
B.有99%以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过0.1%的前提下,认为“爱好该 项运动与性别有关” D.在犯错误的概率不超过0.1%的前提下,认为“爱好该 项运动与性别无关”
返回
[自主解答]
根据独立性检验的定义,由K2≈7.8>6.635
可知我们有99%以上的把握认为“爱好该项运动与性别
返回
[巧练模拟]——————(课堂突破保分题,分分必保!) 1.(2012· 潮州月考)观察下列各图形:
返回
其中两个变量x、y具有相关关系的图是 A.①② B.①④
(
)
C.③④
D.②③
解析:由散点图知③④具有相关关系. 答案: C
返回
2.(2012· 镇江联考)如图所示,有5组 (x,y)数据,去掉________组数据 后,剩下的4组数据具有较强的线 性相关关系.
返回
解析:由散点图知呈带状区域时有较强的线性相关关系,
故去掉D. 答案: D
返回
[冲关锦囊] 相关关系的直观判断方法就是作出散点图,若散 点图呈带状且区域较窄,说明两个变量有一定的线性相 关性,若呈曲线型也是有相关性,若呈图形区域且分布
较乱则不具备相关性.
返回
[精析考题] [例2] (2011· 安徽高考)某地最近十年粮食需求量逐年上升,下表 是部分统计数据: 年份 需求量(万吨) 2002 2004 2006 2008 2010 236 246 257 276 286
考查基本思想的应用及基本运算.
返回
返回
一、变量间的相关关系
1.常见的两变量之间的关系有两类:一类是函数关系, 另一类是 相关关系 ;与函数关系不同, 相关关系 是 一种非确定性关系. 2.从散点图上看,点分布在从左下角到右上角的区域 内,两个变量的这种相关关系称为 正相关 ,点分布 在左上角到右下角的区域内,两个变量的相关关系 为 负相关 . 返回
二、两个变量的线性相关 1.从散点图上看,如果这些点从整体上看大致分布在通 过散点图中心的一条直线附近,称两个变量之间具有 线性相关关系 ,这条直线叫 回归直线 .
返回
xiyi-n x y
i= 1 ^=b x+a ^ y ^ ^ 2.回归直线方程为 ,其中b =
n
,
n
x2-n x 2 i
i= 1
(2)利用直线方程①,可预测2012年的粮食需求量为 6.5×(2 012-2 006)+260.2=6.5×6+260.2=299.2 (万吨)≈300(万吨).
返回
[巧练模拟]———————(课堂突破保分题,分分必保!)
3.(2012· 盐城调研)已知x,y之间的一组数据如下表: x 2 3 4 5 6
出它们之间贴近的数学表达式;
(2)根据一组观察值,预测变量的取值及判断变量取 值的变化趋势; (3)求出回归方程. 返回
2.独立性检验思想的理解 独立性检验的思想类似于反证法,即要确定“两个变量X与Y 有关系”这一结论成立的可信度,首先假设结论不成立,即它 们之间没有关系,也就是它们是相互独立的,利用概率的乘法 公式可推知,(ad-bc)接近于零,也就是随机变量K2= nad-bc2 应该很小,如果计算出来的K2的观测 a+bc+da+cb+d 值k不是很小,通过查表P(K2≥k0)的概率很小.又根据小概率事 件不可能发生,由此判断假设不成立,从而可以肯定地断言X 与Y之间有关系.
答案: A
返回
3.已知x,y之间的数据如表所示,则回归直线过点( x y A.(0,0) C.(3,2.5) 1 1.2 2 1.8 3 2.5 B.(2,1.8) D.(4,3.2) 4 3.2 5 3.8
)
返回
解析:回归直线恒过定点( x , y ),故 x =3, y =2.5.
答案: C
的得分率基本一致,试验结束后,统计几次数学应用
数公式建立线性回归方程.
3.了解下列常见的统计方法,并能应用这些方法解决一些 实际问题.
(1)了解独立性检验(只要求2×2列联表)的基本思想、方
法及其简单应用. (2)了解回归的基本思想、方法及其简单应用. 返回
怎 么 考 1.回归分析与独立性检验的考查呈现逐年升温的趋势. 2.题型多为客观试题,部分地区考查的答题(如安徽卷)多
第 九 章 统 计、 统 计 案 例 及 算 法 初 步
第 三 节 变 量 间 的 相 关 关 系 统 计 案 例
抓 基 础 明 考 向
教 你 一 招 我 来 演 练
提 能 力
[备考方向要明了]
考 什 么 1.会作两个有关联变量数据的散点图,会利用散点图认识 变量间的相关关系. 2.了解最小二乘法的思想,能根据给出的线性回归方程系
y
3
4
6
8
9
对于表中数据,现给出如下拟合直线:①y=x+1;②y=2x-1; 8 2 3 ③y=5x-5;④y=2x,则根据最小二乘法的思想得拟合程度最好 的直线是________(填序号).
返回
^=8 解析:由题知 x =4, y =6.∴b 5 2 ^ ^ ∴a = y -b x =-5. 2 ^ 8 ∴y =5x-5.故选③
量V与U之间的线性相关系数,则 ( A.r2<r1<0 C.r2<0<r1 ) B.0<r2<r1 D.r2=r1 返回
[自主解答] 对于变量Y与X而言,Y随X的增大而增大,
故Y与X正相关,即r1>0;对于变量V与U而言,V随U的
增大而减小,故V与U负相关,即r2<0,所以有r2<0<r1. [答案] C
^ B.y =2x+100 ^ D.y =2x-100
^ 解析:B、D为正相关,C中y 值恒为负,不符合题意.
答案: A
返回