相关系数和回归直线
线性相关与回归(简单线性相关与回归、多重线性回归、Spearman等级相关)

4.剔除强影响点(Influential cases;或称为突出点, outliers)
通过标准化残差(Standardized Residuals)、学生氏残 差(Studentlized Residuals)来判断强影响点 。当指标 的绝对值大于3时,可以认为样本存在强影响点。
删除强影响点应该慎重,需要结合专业知识。以下两种情 况可以考虑删除强影响点:1.强影响点是由于数据记录错 误造成的;2.强影响点来自不同的总体。
r r t sr 1 r2 n2
只有当0时,才能根据|r|的大小判断相关 的密切程度。
4.相关与回归的区别和联系 (1)相关与回归的意义不同 相关表达两个变量 之间相互关系的密切程度和方向。回归表达两个变 量之间的数量关系,已知X值可以预测Y值。从散点 图上,散点围绕回归直线的分布越密集,则两变量 相关系数越大;回归直线的斜率越大,则回归系数 越大。 (2)r与b的符号一致 同正同负。
5.自变量之间不应存在共线性(Collinear)
当一个(或几个)自变量可以由其他自变量线性表示时,称 该自变量与其他自变量间存在共线性关系。常见于:1.一个 变量是由其他变量派生出来的,如:BMI由身高和体重计算 得出 ;2.一个变量与其他变量存在很强的相关性。 当自变量之间存在共线性时,会使回归系数的估计不确定、 预测值的精度降低以及对y有影响的重要自变量不能选入模 型。
P值
截距a 回归系数b sb 标准化回归系数 t值 P值
3.直线回归的预测及置信区间估计
给定X=X0, 预测Y
3.直线回归的预测及置信区间估计
因变量
自变量
保存(产生新变量,保 存在当前数据库) 统计
3.直线回归的预测及置信区间估计
医学统计学PPT:直线相关和回归

r X X Y Y
l XY
X X 2 Y Y 2
l XX lYY
X 的离均差平方和:
2
lXX X X
Y 的离均差平方和:
2
lYY Y Y
X与Y 间的离均差积和: lXY X X Y Y
离均差平方和、离均差积和的展开:
lXX
2
XX
X2
相关系数的抽样分布( = 0)
300 200 100
0 -1.0 -0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8 1.0
相关系数的抽样分布( =0.8)
300 200 100
0 0 0.2 0.4 0.6 0.8 1.0
R.A. Fisher(1921) 的 z 变换
150
100
50
0
-2
-1
0
1
2
相关系数的z 值的抽样分布( = 0.8)
200
150
100
50
0
0
1
2
3
4
相关系数的可信区间估计
➢ (1) 将 r 变换为 z ; ➢ (2) 根据 z 服从正态分布,估计 z 的可信区间;
1 z u sz z u n 3
➢ (3) 再将 z 变换回 r 。
1 1
0.7221
lup
e2z 1 e2z +1
e22.6650 e22.6650
1该可0信.99区0间4 有1 什么含义?
7.3 直线回归
直线回归是把两个变量之间的关系用适当的方 程式表达出来,可以从一个自变量推算另一个 应变量。
直线回归的定义
➢ Y 因变量,响应变量 (dependent variable, response variable)
2020年高考数学一轮复习专题6.5相关系数及回归方程练习(含解析)

6.5 相关系数及回归方程两个变量间的相关关系:①有关概念:相关关系与函数关系不同.函数关系中的两个变量间是一种确定性关系.相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系.如果一个变量的值由小变大时另一个变量的值由小变大,这种相关称为正相关;如果一个变量的值由小变大时另一个变量的值由大变小,这种相关称为负相关;如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系.②回归方程: 是两个具有线性相关关系的变量的一组数据的回归方程,其中是待定参数. 的计算公式.考向一 样本中心【例1-1】某种产品的广告费支出与销售额之间有如下对应数据(单位:百万元),根据下表求出关于的线性回归方程为,则表中的值为( )A. B. C. D.y bx a =+1122()()()n n x y x y x y ,,,,,,a b 、a b 、1122211()()()()nni i i ii i nni ii i x x y y x y nx yb x x xn x a y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑x y y x 6.5175ˆ.yx =+a 505456.564【答案】B【解析】根据规律知道回归直线一定过样本中心,故得到,将坐标代入方程得到的值为.故答案为:B. 【例1-2】已知表中数据y 与x 有较好的线性关系,通过计算得到y 关于x 的线性回归方程为ˆˆ1.05yx a =+,则相应于下列各点的残差中绝对值最小的是( )A .(2,4)B .(4,6)C .(8,10)D .(10,12.5)【答案】D【解析】ˆˆˆ6,8.3,8.3 1.056,2, 1.052x y aa y x ==∴=⨯+∴=∴=+, 相应于点(2,4),(4,6),(8,10),(10,12.5)的残差分别为0.1,0.2,0.4,0---,故选D.【举一反三】1.“关注夕阳、爱老敬老”—某马拉松协会从2013年开始每年向敬老院捐赠物资和现金.下表记录了第x 年(2013年是第一年)与捐赠的现金y (万元)的对应数据,由此表中的数据得到了y 关于x 的线性回归方程.ˆ035ymx =+,则预测2019年捐赠的现金大约是( ) A .5万元B .5.2万元C .5.25万元D .5.5万元【答案】C5,196x y a ==+6.5175ˆ.yx =+a 54【解析】由已知得,29t =, 所以样本点的中心点的坐标为(4.5,3.5),代入.ˆ035ymx =+, 得3.5 4.50.35m =+,即0.7m =,所以0.7035ˆ.x y=+, 取7x =,得ˆ0.770.35 5.25y=⨯+=, 预测2019年捐赠的现金大约是5.25万元.2.某同学将收集到的6组数据对,制作成如图所示的散点图(各点旁的数据为该点坐标),并由这6组数据计算得到回归直线l :y bx a =+$$$和相关系数r .现给出以下3个结论:①0r >;②直线l 恰过点D ;③1b >. 其中正确结论的序号是( )A .①②B .①③C .②③D .①②③【答案】A【解析】由图像可得,从左到右各点是上升排列的,变量具有正相关性,所以0r >,①正确; 由题中数据可得: 1.5 2.4 3.54 5.8 6.846x +++++==, 2.1 2.8 3.3 3.5 4.35 3.56y +++++==,所以回归直线过点(4,3.5)D ,②正确;又61621()()10.360.514120.14()iii ii x x yy b x x ==--==≈<-∑∑,③错误.故选A 3.有一散点图如图所示,在5个(,)x y 数据中去掉(3,10)D 后,下列说法正确的是( )A .残差平方和变小B .相关系数r 变小C .相关指数2R 变小D .解释变量x 与预报变量y 的相关性变弱【答案】A【解析】∵从散点图可分析得出:只有D 点偏离直线远,去掉D 点,变量x 与变量y 的线性相关性变强, ∴相关系数变大,相关指数变大,残差的平方和变小,故选:A.考向二回归方程【例2】某人经营淡水池塘养草鱼,根据过去40期的养殖档案,该池塘的养殖重量X (百斤)都在20百斤以上,其中不足40百斤的有8期,不低于40百斤且不超过60百斤的有20期,超过60百斤的有12期.根据统计,该池塘的草鱼重量的增加量y (百斤)与使用某种饵料的质量x (百斤)之间的关系如图所示.(1)根据数据可知y 与x 具有线性相关关系,请建立y 关于x 的回归方程ˆˆˆybx a =+;如果此人设想使用某种饵料10百斤时,草鱼重量的增加量须多于5百斤,请根据回归方程计算,确定此方案是否可行?并说明理由.(2)养鱼的池塘对水质含氧量与新鲜度要求较高,某商家为该养殖户提供收费服务,即提供不超过3台增氧冲水机,每期养殖使用的冲水机运行台数与鱼塘的鱼重量X 有如下关系:若某台增氧冲水机运行,则商家每期可获利5千元;若某台冲水机未运行,则商家每期亏损2千元.视频率为概率,商家欲使每期冲水机总利润的均值达到最大,应提供几台增氧冲水机? 附:对于一组数据()()()1122,,,,n n x y x y x y ,其回归方程ˆˆˆybx a =+的斜率和截距的最小二乘估计公式分别为1221ˆni ii ni i x y nxy bx nx ==-=-∑∑()()()121,niii ni i x x y y x x ==--=-∑∑ˆˆay bx =- 【答案】(1)337y 1313x =+$当10x =时,此方案可行.(2)应提供2台增氧冲水机 【解析】(1)依题意,5,4,x y ==()()5126iii x x y x =--=∑()()()515213ˆ,13iii i i x x y y bx x ==--∴==-∑∑337ˆ451313a y bx =-=-⨯=$所以3371313y x =+$当10x =时,67ˆ513y=>,故此方案可行. (2)设盈利为Y ,安装1台时,盈利5000Y =, 安装2台时,12040,3000,5X Y p <<==;440,10000,5X Y p ==…. 14()300010000860055E Y ∴=⨯+⨯=安装3台时,12040,1000,5X Y p <<==; 4060,8000,X Y =剟3;5P =160,15000,5X Y P >==. 13()1000800055E Y ∴=⨯+⨯11500080005+⨯=.86008000>,故应提供2台增氧冲水机.【举一反三】1.李克强总理在2018年政府工作报告指出,要加快建设创新型国家,把握世界新一轮科技革命和产业变革大势,深入实施创新驱动发展战略,不断增强经济创新力和竞争力.某手机生产企业积极响应政府号召,大力研发新产品,争创世界名牌.为了对研发的一批最新款手机进行合理定价,将该款手机按事先拟定的价格进行试销,得到一组销售数据(),(1,2,,6)i i x y i =,如表所示:已知611606i i y y ===∑.(1)若变量,x y 具有线性相关关系,求产品销量y (百件)关于试销单价x (千元)的线性回归方程ˆˆˆy bx a =+;(2)用(1)中所求的线性回归方程得到与i x 对应的产品销量的估计值i y .当销售数据(),i i x y 对应的残差的绝对值ˆ1i i y y -≤时,则将销售数据(),i i x y 称为一个“好数据”.现从6个销售数据中任取3个子,求“好数据”个数ξ的分布列和数学期望()E ξ.(参考公式:线性回归方程中ˆˆ,ba 的估计值分别为1221ˆˆˆ,)ni ii nii x y nxyb ay bx xnx =-=-==--∑∑. 【答案】(1) ˆ482yx =-+ (2)见解析 【解析】(1)由611606i i y y ===∑,可求得48t =,故11910ni ii x y==∑,=1980nx y ,21199ni i x ==∑,2=181.5nx ,代入可得122119101980704199181.517.5ni ii ni i x y nx yb x nx==---====---∑∑,ˆˆ604 5.582ay bx =-=+⨯=, 所以所求的线性回归方程为ˆ482yx =-+. (2)利用(1)中所求的线性回归方程ˆ482yx =-+可得,当13x =时,170y =;当24x = 时,266y =;当35x =时,362y =;当46x =时,458y =;当57x =时,554y =;当68x =时,650y =.与销售数据对比可知满足||1(1,2,,6)i i y y i -≤=的共有4个“好数据”:(3,70)、(4,65)、(5,62)、(6,59) 于是ξ的所有可能取值为1,2,31242361(1)5C C P C ξ===,2142363(2)5C C P C ξ===,3042361(3)5C C P C ξ===, ∴ξ 的分布列为:所以1232555E ξ=⨯+⨯+⨯=.考向三 非线性回归【例3】近期,某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用x 表示活动推出的天数,y 表示每天使用扫码支付的人次(单位:十人次),统计数据如表所示:根据以上数据,绘制了如图所示的散点图.(1)根据散点图判断,在推广期内,y a bx =+与(,xy c d c d =⋅均为大于零的常数)哪一个适宜作为扫码支付的人次y 关于活动推出天数x 的回归方程类型?(给出判断即可,不必说明理由);(2)根据(1)的判断结果及表l 中的数据,求y 关于x 的回归方程,并预测活动推出第8天使用扫码支付的人次;(3)推广期结束后,车队对乘客的支付方式进行统计,结果如表所示:已知该线路公交车票价为2元,使用现金支付的乘客无优惠,使用乘车卡支付的乘客享受8折优惠,扫码支付的乘客随机优惠,根据统计结果得知,使用扫码支付的乘客,享受7折优惠的概率为16,享受8折优惠的概率为13,享受9折优惠的概率为12.根据所给数据以事件发生的频率作为相应事件发生的概率,估计一名乘客一次乘车的平均费用. 参考数据:其中lg i i u y =,7117i i u u ==∑.【答案】(1)xy c d =⋅适宜作为扫码支付的人数y 关于活动推出天数x 的回归方程类型;(2)y 关于x 的回归方程式为:0.25ˆ 3.4710xy=⨯,第8天使用扫码支付的人次为347人次;(3)1.66元.【解析】(1)根据散点图判断,x y c d =⋅适宜作为扫码支付的人数y 关于活动推出天数x 的回归方程类型;(2)由(1)知回归方程为x y c d =⋅,两边同时取常用对数得:()lg lg lg lg xy c dc d x =⋅=+⋅,设lg y u =,lg lg u c d x ∴=+⋅,又4x =, 1.54u =,721140i i x ==∑,7172221750.1274 1.547lg 0.2514074287i ii i i x u xu d x x==--⨯⨯∴====-⨯-∑∑,把样本中心点()4,1.54代入lg lg u c d x =+⋅,即1.54lg 0.254c =+∙,解得:4ˆl 0.5gc=, 0.5405ˆ.2ux ∴=+, lg 0.540.25y x ∴=+,y ∴关于x 的回归方程式为:()0.540.250.540.250.2510101040ˆ 3.71xx x y +==⨯=⨯,把8x =代入上式得,23.4734ˆ107y=⨯=, 活动推出第8天使用扫码支付的人次为347人次;(3)记一名乘客乘车支付的费用为Z ,则Z 的取值可能为:2,1.8,1.6,1.4, 则()20.1P Z==,()11.80.30.152P Z ==⨯=, ()11.60.60.30.73P Z ==+⨯=,()11.40.30.056P Z ==⨯=; 分布列为:所以,一名乘客一次乘车的平均费用为:20.1 1.80.15 1.60.7 1.40.05 1.66⨯+⨯+⨯+⨯=(元). 【举一反三】1.为方便市民出行,倡导低碳出行.某市公交公司推出利用支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,在推广期内采用随机优惠鼓励市民扫码支付乘车.该公司某线路公交车队统计了活动推广期第一周内使用扫码支付的情况,其中 (单位:天)表示活动推出的天次, (单位:十人次)表示当天使用扫码支付的人次,整理后得到如图所示的统计表1和散点图. 表1:(1)由散点图分析后,可用作为该线路公交车在活动推广期使用扫码支付的人次关于活动推出天次的回归方程,根据表2的数据,求此回归方程,并预报第8天使用扫码支付的人次(精确到整数).表2:表中,.(2)推广期结束后,该车队对此期间乘客的支付情况进行统计,结果如表3.表3:统计结果显示,扫码支付中享受5折支付的频率为,享受7折支付的频率为,享受9折支付的频率为.已知该线路公交车票价为1元,将上述频率作为相应事件发生的概率,记随机变量为在活动期间该线路公交车搭载乘客一次的收入(单位:元),求的分布列和期望.参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为参考数据:,,.【答案】(1) ,人次为2447 (2)见解析【解析】(1)由题意得,,,关于的线性回归方程为,关于的回归方程为,当时,,第8天使用扫码支付的人次为2447;(2)由题意得的所有取值为0.5,0.7,0.9,1,,,,,的分布列为:1.有下列说法:①若某商品的销售量y (件)关于销售价格x (元/件)的线性回归方程为5350y x =-+,当销售价格为10元时,销售量一定为300件;②线性回归直线y bx a =+$$$一定过样本点中心(,)x y ;③若两个随机变量的线性相关性越强,则相关系数r 的值越接近于1;④在残差图中,残差点比较均匀落在水平的带状区域中即可说明选用的模型比较合适,与带状区域的宽度无关;⑤在线性回归模型中,相关指数2R 表示解释变量对于预报变量变化的贡献率,2R 越接近于1,表示回归的效果越好;其中正确的结论有几个( ) A .1 B .2C .3D .4【答案】B【解析】①当销售价格为10时,销售量的预估值为300件,但预估值与实际值未必相同,①错误; ②由最小二乘法可知,回归直线必过(),x y ,②正确;③若两个随机变量为负相关,若线性相关性越强,相关系数r 越接近1-,③错误; ④残差图中,带状区域越窄,模型拟合度越高,④错误;⑤相关指数2R 越接近1,拟合度越高,则在线性回归模型中,回归效果越好,⑤正确. 可知正确的结论为:②⑤,共2个本题正确选项:B2.已知下表为x 与y 之间的一组数据,若y 与x 线性相关,则y 与x 的回归直线y bx a =+必过点( )A .(2,2)B .(1.5,0)C .(1,2)D .(1.5,4)【答案】D【解析】由题可得32x =,4y =, 22223333(0)(14)(1)(34)(2)(54)(3)(74)102222ˆ233335(0)(1)(2)(3)2222b --+--+--+--===-+-+-+-,3ˆ4212a=-⨯=,则回归方程为ˆ21yx =+,将A ,B ,C ,D 四项分别代入方程,只有(1.5,4)这个点在直线上,故选D 。
相关

2. 应用的情况不同 相关分析用于说明两 变量间的相互关系,描述两变量 X,Y 相互 之间呈线性关系的密切程度和方向;回归分 析用于说明两变量间的依存关系,可以用一 个变量的数值推算另一个变量的数值。
(二)联系 1. 正负符号相同: 在同一资料中,计算 r与 正负符号相同: b值的符号应该相同。 2. 假设检验等价: 在同一资料中,r与 b值 假设检验等价: 的假设检验的统计量 t值相等,即 t r=t b。 3. 对于不同组资料来说,相关系数 r 与 回归 系数 b 二者的数值大小之间无直接联系,且 二者含义不同。 4. r与 b换算关系: 换算关系: 与 换算关系
(三)个体Y值的容许区间 个体 值的容许区间 给定X=X0时,个体Y值的(1-α)容许区间为:
ˆ Y ± tα / 2,v SY −Yˆ
SY −Yˆ = SY ⋅ X 1 (X0 − X ) 1+ + 2 n ∑( X − X )
2
例7-6:X0=1.5时,个体Y值的95%容许区间为: (3.69,5.29)
第七章
回归与相关
回归与相关是用来研究两个变量(或多个变量) 之间数量变化关系的的一种统计分析方法。 本章主要介绍直线回归与直线相关。
第一节
直线回归
一、直线回归的概念
我们以例7-1母婴TSH之间的关系予以说明:
由散点图可以看出,Y 随着 X 的增大而增 大且呈直线变化趋势,但各点并非完全在一条 直线上,这与严格的直线函数关系不同,将X和 Y之间的这类数量变化关系称直线回归。
3. 在回归分析时应正确选定自变量和应 变量。 变量。 若两变量间有明显的依存关系,该问
题很易解决;若两变量间无明显的依存关系, 一般以较易测定者或变异较小者作为自变量 X, 否则可能加大误差。而在相关分析时,不存在 自变量与应变量的关系,它所分析的两个变量 之地位是完全等价的,一般称为第一变量和第 二变量。
线性回归中的相关系数

线性回归中的相关系数山东 胡大波线性回归问题在生活中应用广泛,求解回归直线方程时,应该先判断两个变量就是否就是线性相关,若相关再求其直线方程,判断两个变量有无相关关系的一种常用的简便方法就是绘制散点图;另外一种方法就是量化的检验法,即相关系数法.下面为同学们介绍相关系数法. 一、关于相关系数法统计中常用相关系数r 来衡量两个变量之间的线性相关的强弱,当i x 不全为零,y i 也不全为零时,则两个变量的相关系数的计算公式就是:()()nnii i ixx y y x ynx yr ---==∑∑r 就叫做变量y 与x 的相关系数(简称相关系数).说明:(1)对于相关系数r ,首先值得注意的就是它的符号,当r 为正数时,表示变量x ,y 正相关;当r 为负数时,表示两个变量x ,y 负相关;(2)另外注意r 的大小,如果[]0.751r ∈,,那么正相关很强;如果[]10.75r ∈--,,那么负相关很强;如果(]0.750.30r ∈--,或[)0.300.75r ∈,,那么相关性一般;如果[]0.250.25r ∈-,,那么相关性较弱.下面我们就用相关系数法来分析身边的问题,确定两个变量就是否相关,并且求出两个变量间的回归直线. 二、典型例题剖析(1)对变量y 与x 进行相关性检验;(2)如果y 与x 之间具有线性相关关系,求回归直线方程; (3)如果父亲的身高为73英寸,估计儿子身高.解:(1)66.8x =,67y =,102144794i i x ==∑,102144929.22i i y ==∑,4475.6x y =,24462.24x =,24489y =,10144836.4i i i x y ==∑,所以10i ix ynx yr -∑44836.4104475.6(4479444622.4)(44929.2244890)-⨯=--80.40.9882.04≈≈, 所以y 与x 之间具有线性相关关系. (2)设回归直线方程为y a bx =+,则101102211010i ii i i x yxyb x x==-=-∑∑44836.4447560.46854479444622.4-=≈-,670.468566.835.7042a y bx =-=-⨯=.故所求的回归直线方程为0.468535.7042y x =+. (3)当73x =英寸时,0.46857335.704269.9047y =⨯+=, 所以当父亲身高为73英寸时,估计儿子的身高约为69、9英寸.点评:回归直线就是对两个变量线性相关关系的定量描述,利用回归直线,可以对一些实际问题进行分析、预测,由一个变量的变化可以推测出另一个变量的变化.这就是此类问题常见题型.例2 10其中x 为高一数学成绩,y 为高二数学成绩. (1)y 与x 就是否具有相关关系;(2)如果y 与x 就是相关关系,求回归直线方程. 解:(1)由已知表格中的数据,利用计算器进行计算得 101710ii x==∑,101723i i y ==∑,71x =,72.3y =,10151467i i i x y ==∑.102150520ii x==∑,102152541i i y ==∑.1010i ix yx yr -=∑0.78=≈.由于0.78r ≈,由0.780.75>知,有很大的把握认为x 与y 之间具有线性相关关系. (2)y 与x 具有线性相关关系,设回归直线方程为y a bx =+,则1011022211051467107172.31.2250520107110i ii i i x yx yb x x==--⨯⨯==≈-⨯-∑∑,72.3 1.227114.32a y bx =-=-⨯=-.所以y 关于x 的回归直线方程为 1.2214.32y x =-.点评:通过以上两例可以瞧出,回归方程在生活中应用广泛,要明确这类问题的计算公式、解题步骤,并会通过计算确定两个变量就是否具有相关关系.。
相关分析:直线回归相关及假设检验

zhengjinlai@
在待产妇尿中雌三醇含量和产儿体重之间 的关系中,知道了二者之间成正相关。 那么,如果我们知道了一位待产妇的尿雌 三醇含量,能推断出产儿的体重吗?或产 儿的体重可能在什么范围内呢? 这要用直线回归的方法来解决。zhengjinlai@
相关与偏相关
16
zhengjinlai@
问题:我们能否得出结论? 待产妇尿中雌三醇含量与产儿体重 之间成正相关,相关系数是0.61? 为什么?
相关与偏相关
17
zhengjinlai@
三、相关系数的假设检验
上例中的相关系数r等于0.61,说明了31例样本中雌三醇含 量与出生体重之间存在相关关系。但是,这31例只是总 体中的一个样本,由此得到的相关系数会存在抽样误差。
相关与偏相关
13
zhengjinlai@
孕妇尿中雌三醇含量与产儿体重之间的关系
4.5
4.0
3.5
3.0
产儿体重
2.5
2.0 0 10 20 30
尿雌三醇
相关与偏相关
14
zhengjinlai@
Correlations 尿 雌 三醇 Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N 尿 雌 三醇 产 儿 体重 1 .610** . .000 31 31 .610** 1 .000 . 31 31
相关与偏相关
8
zhengjinlai@
一、相关的类型
★正相关 ★负相关 ★完全正相关 ★完全负相关 ★零相关
zhengjinlai@
二、相关系数
线性回归中的相关系数

线性回归中的相关系数 Prepared on 24 November 2020线性回归中的相关系数山东 胡大波线性回归问题在生活中应用广泛,求解回归直线方程时,应该先判断两个变量是否是线性相关,若相关再求其直线方程,判断两个变量有无相关关系的一种常用的简便方法是绘制散点图;另外一种方法是量化的检验法,即相关系数法.下面为同学们介绍相关系数法.一、关于相关系数法统计中常用相关系数r 来衡量两个变量之间的线性相关的强弱,当i x 不全为零,y i 也不全为零时,则两个变量的相关系数的计算公式是:()()n n i i i i x x y y x y nx y r ---==∑∑r 就叫做变量y 与x 的相关系数(简称相关系数).说明:(1)对于相关系数r ,首先值得注意的是它的符号,当r 为正数时,表示变量x ,y 正相关;当r 为负数时,表示两个变量x ,y 负相关;(2)另外注意r 的大小,如果[]0.751r ∈,,那么正相关很强;如果[]10.75r ∈--,,那么负相关很强;如果(]0.750.30r ∈--,或[)0.300.75r ∈,,那么相关性一般;如果[]0.250.25r ∈-,,那么相关性较弱. 下面我们就用相关系数法来分析身边的问题,确定两个变量是否相关,并且求出两个变量间的回归直线.二、典型例题剖析例1 测得某国10对父子身高(单位:英寸)如下:(1)对变量y 与x 进行相关性检验;(2)如果y 与x 之间具有线性相关关系,求回归直线方程;(3)如果父亲的身高为73英寸,估计儿子身高.解:(1)66.8x =,67y =,102144794ii x ==∑,102144929.22i i y ==∑,4475.6x y =,24462.24x =, 24489y =,10144836.4i i i x y ==∑,所以10ii x y nx y r -=∑44836.4104475.6(4479444622.4)(44929.2244890)-⨯=--80.40.9882.04=≈≈, 所以y 与x 之间具有线性相关关系.(2)设回归直线方程为y a bx =+,则101102211010ii i i i x y xy b x x ==-=-∑∑44836.4447560.46854479444622.4-=≈-, 670.468566.835.7042a y bx =-=-⨯=.故所求的回归直线方程为0.468535.7042y x =+.(3)当73x =英寸时,0.46857335.704269.9047y =⨯+=,所以当父亲身高为73英寸时,估计儿子的身高约为英寸.点评:回归直线是对两个变量线性相关关系的定量描述,利用回归直线,可以对一些实际问题进行分析、预测,由一个变量的变化可以推测出另一个变量的变化.这是此类问题常见题型. 例2 10名同学在高一和高二的数学成绩如下表:其中x 为高一数学成绩,y 为高二数学成绩.(1)y 与x 是否具有相关关系;(2)如果y 与x 是相关关系,求回归直线方程.解:(1)由已知表格中的数据,利用计算器进行计算得101710i i x ==∑,101723i i y ==∑,71x =,72.3y =,10151467i i i x y ==∑. 102150520i i x ==∑,102152541i i y ==∑.1010ii x y x y r -=∑0.78=≈.由于0.78r ≈,由0.780.75>知,有很大的把握认为x 与y 之间具有线性相关关系.(2)y 与x 具有线性相关关系,设回归直线方程为y a bx =+,则1011022211051467107172.3 1.2250520107110ii i i i x y x y b x x ==--⨯⨯==≈-⨯-∑∑, 72.3 1.227114.32a y bx =-=-⨯=-.所以y 关于x 的回归直线方程为 1.2214.32y x =-.点评:通过以上两例可以看出,回归方程在生活中应用广泛,要明确这类问题的计算公式、解题步骤,并会通过计算确定两个变量是否具有相关关系.。
直线相关和回归分析

第二节 直线回归
一、线性回归的概念
目的:
在因变量Y和自变量X之间建立一个数 学模型,根据这个模型可以根据自变量的变 动预测因变量的变动。
区别于函数关系和统计关系
❖函数关系: 两变量的数量表现在一定条件下是完全确 定的。
如: 圆的面积和半径的关系S r2
❖统计关系(相关关系):两变量的数量表 现尽管存在着密切关系,但却不是完全确 定的。 如:成本和利润的关系
简单线性回归模型
样本线性回归方程
Yˆ a bX
Yˆ 为给定X 时Y 的估计值。
a 为回归直线在 Y 轴上的截距
即x 取0时,y 的平均估计值
➢ a >0,表示直线与纵轴的交点在原点的上方 ➢ a < 0,则交点在原点的下方 ➢ a = 0,则回归直线通过原点
b为回归系数,即直线的斜率
➢ b>0,直线从左下方走向右上方,Y 随 X 增大
16
0.206
0.317 0.400 0.468 0.542 0.590 0.631 0.678
17
0.197
0.308 0.389 0.456 0.529 0.575.378 0.444 0.515 0.561 0.602 0.648
…
…
…
…
…
…
而增大
➢ b<0,直线从左上方走向右下方,Y 随 X 增大
而减小
➢ b=0,表示直线与 X 轴平行,X 与Y 无直线关
系
b 的统计学意义是:X 每增加(减)一个单位,Yˆ
平均改变b个单位
建立 线性回归模型的步骤
1、确定研究的问题
2、设样本回归模型(如: Y a )bx
3、搜集样本资料(数据资料) 4、估计未知参数(计算统计量) 5、得到样本回归方程 6、用模型预测因变量
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
上表显示,大学以上文化程度和大学以下文化程度同样 各有60%的人参与投票,40%的人弃权,并没有因为受教育 程度不同,而使参与投票的行为有所不同。因此,此时的两 个变量是不相关的,或者说是独立的。我们不难发现,此时 反映全体投票情况的相对频数的边际分布( )也各有60% 的人参与投票,40%的人弃权。
3. 因果关系与对称关系 因果关系中两个变量有自变量(independent Variable)和因变量(dependent Variable)之分: (1)两个变量有共变关系; (2)因变量的变化是由自变量的变化引起的; (3)两个变量的产生和变化有明确的时间顺序,前者 称为自变量,后者称为因变量。 表现为对称关系的相关关系,互为根据,不能区分自 变量和因变量,或者说自变量和因变量可以根据研究目的 任意选定,例如身高和体重之间的关系。
本书第十章提出了两总体的检验及估计的问题,这 意味着我们开始与双变量统计方法打交道了。双变量 统计与单变量统计最大的不同之处是,客观事物间的 关联性开始披露出来。这一章我们将把相关关系的讨 论深入下去,不仅要对相关关系的存在给出判断,更 要对相关关系的强度给出测量,同时要披露两变量间 的因果联系,其内容分为相关分析和回归分析这两个 大的方面。
[例A2]试把下表所示的频数分布列联表,转
化为相对频数条件分布列联表和自变量受到控制 的相对频数条件分布列联表,并加以相关分析。 投票行为 Y
受教育程度X 大学以 上 100 67 167 大学以 下 114 76 190 214 143 357
投票 弃权 合计:
投票行为Y 投票 弃权
受教育程度X 大学以上 60.0%(100/167) 40.0%(67/167) 100.0% (167)) 大学以下 60.0%(114/190) 40.0%(76/190) 100.0% (190) 60.0%(214/357) 40.0%(143/357) 100.0% (357)
4. 单相关和复相关
从变量的多少上看,单相关只涉及两个变量,亦称二元 相关;三个或三个以上变量之间的关系称为复相关,亦称多 元相关。 5.直线相关和曲线相关 从变量变化的形式上看,如果关系近似地表现为一条直 线,称为直线相关或线性相关;如果关系近似地表现为一条 曲线,则称为曲线相关或称为非线性相关。 由于数学手段的局限性,我们以学习线性相关为主。在 统计学中,通过分段处理线性相关也可以用于处理曲线相 关。
2. 相关方向:正相关和负相关 所谓正相关关系是指一个变量的值增加时,另一变 量的值也增加。例如,受教育水平越高找到高薪水工作的 机会也越大。而负相关关系是指一个变量的值增加时,另 一变量的值却减少。例如,受教育水平越高,理想子女数 目越少。要强调的是,只有定序以上测量层次的变量才分 析相关方向,因为只有这些变量的值有高低或多少之分。 至于定类变量,由于变量的值并无大小、高低之分,故定 类变量与其他变量相关时就没有正负方向了。
低
高 合计
60
120 180
150
70 220
210
190 40与其知心朋友的志愿,条 件次数分布如下:计算知心朋友的志愿与自己志 愿之间的相关关系,并提出研究结论。 知心朋友志愿
自己志愿
快乐家庭 理想工作 增广见闻 总数
快乐 家庭 28 2 2 32
理想工 增广 作 见闻 9 3 41 7 4 4 54 14
化为自变量受到控制的相对频数条件分布列联 表,并加以相关分析。 投票行为 Y 投票 弃权 合计: 受教育程度X 大学以上 160 7 167 大学以下 129 61 190 289 68 357
投票行为Y 投票 弃权
受教育程度X 大学以上 95.8%(160/167) 4.2%(7/167) 100.0% (167)) 大学以下 67.9%(129/190) 32.1%(61/190) 100.0% (190) 81.0%(289/357) 19.0%(68/357) 100.0% (357)
4.τ 系数 τ 系数的统计值域是[0,1],其特点是在计
算时考虑所有的边际频数和条件频数 。
注意:当众数很突出且众数分布不在同一行,同一 列时,用λ 系数较好;但当众数不突出时,用τ 系数更 好;若众数集中在某一行或某一列,一定用τ 系数。
[例] 对下表所示资料,用τ系数反映性别与 收入高低的相关关系,并对系数的PRE意义加以 解释。 收入Y 性别X 男 女 合计
上表显示,当两个变量不相关时有 如0.532× 0.40=0.213。
。
[例B]某社区调查了120名市民,考察性别与 对吸烟态度之间的关系,试将所得资料作成相对 频数的联合分布、边际分布和条件分布列联表, 并进行相关分析。
性别与对吸烟的态度
态度Y 性别X 男 女 合计
容忍
反对 合计
48
20 68
8
第十二章
相关与回归分析
相关关系及种类 定类变量的相关分析 定序变量的相关分析 定距变量的相关分析 回归分析
第一节 第二节 第三节 第四节 第五节
社会上,许多现象之间也都有相互联系,例如: 身高与体重、教育程度和收入、学业成就和家庭环境、 智商与父母智力等。在这些有关系的现象中,它们之 间联系的程度和性质也各不相同。
第二节
定类变量的相关分析
本节内容: 1. 列联表 2. 消减误差比例 3. λ系数 4. τ系数
1. 列联表
列联表,是按品质标志把两个变量的频数分布进 行交互分类,由于表内的每一个频数都需同时满足两个 变量的要求,所以列联表又称条件频数表。 例如,某区调查了357名选民,考察受教育程度与投 票行为之间的关系,将所得资料作成下表,便是一种关 于频数的列联表。
44 52
56
64 120
相对频数联合分布列联表 态度Y 容忍Y1 反对Y2 性别X 男( X1 ) 女( X2 ) 40.0% 16.7 % 56.7 % 6.7 % 36.6 % 43.3% 46.7 % 53.3 % 100 % (120)
相对频数条件分布列联表 性别X 态度Y 男( ) 女( )
投票行为Y 投票 弃权
受教育程度X
大学以上 28.0%(100/357) 18.8%(67/357) 46.8% (167/357) 大学以下 31.9%(114/357) 21.3%(76/357) 53.2% (190/357) 60.0%(214/357) 40.0%(143/357) 100.0% (357)
职工的工作种类与工作价值 工作种类 X 工作价值 Y
工人 100 30 20 150 管理/行 技术人员 政人员 70 60 10 140 50 20 40 110
合计
经济取向型 成就取向型 人际关系取向 型 合计:FX
220 110 70 400
性质: (1)0≤λ≤1 (2)具有PRE意义。 (3)对称与不对称情况下,有不同的公式。 (4)以众数作为预测的准则,对条件频数分 布列联表中众数频数以外的条件频数不予理会。 (5)如果众数频数集中在条件频数分布列联 表的同一行时,λ=0,从而无法显示两变量之间 的相关性。
子女智力
一般
子女智力
低下
71.6
33.6 18.6
25.4
42.7 66.9
3.0
23.7 14.5
劣+劣
5.4
34.4
60.2
通过列联表研究定类变量之间的关联性,这 实际上是通过相对频数条件分布的比较进行的。 如果对不同的X,Y的相对频数条件分布不同,且 和Y的相对频数边际分布不同,则两变量之间是 相关的。而如果变量间是相互独立的话,必然存 在着Y的相对频数条件分布相同,且和它的相对 频数边际分布相同。后者用数学式表示就是 或者
收入Y
低 高 合计
合计
(2)对称的λ系数
[例] 研究工作类别与工作价值的关系,工 作类别可分为三类:工人、技术人员、管理/行 政人员;工作价值也可分为三类:以收入/福利 为最重要的职业选择标准的称为经济取向型,以 工作的创造性、挑战性为最重要的职业选择标准 的称为成就取向型,以工作中的人际关系为最重 要的职业选择标准的称为人际关系取向型。对下 表所示资料,用λ系数反映工作类别与工作价值 的相关关系 。
从上表可知,受过大学以上教育的被调查者绝大多 数(占95.8%)是投票的,受教育程度在大学以下的被调 查者虽多数也参与投票(占67.9%),但后者参与投票的百 分比远小于前者;前者只有4.2%弃权,而后者则有32.1% 弃权。两相比较可知,受教育程度不同,参与投票的行 为不同,因此两个变量是相关的。
PRE=(56-28)/56=0.5
3. λ 系数 在定类尺度上测量集中趋势只能用众数。
λ 系数就是利用此性质来构造相关系数的。 (1)不对称的λ 系数
[例] 对下表所示资料,用λ系数反映性别与收 入高低的相关关系。 性别X 男 60 120 180 女 150 70 220 210 190 400
容忍
反对
70.6%
29.4 % 100 % (68)
15.4 %
84.6 % 100 % (52)
46.7 %(56)
53.3 %(64) 100 % (120)
2675名双亲和他们10071个子女 的智力的关系(%)(相对频数条件分布列联表) 父母智力
组合 优+优 优+劣 一般+一般
子女智力
优秀
第一节
1. 相关程度
变量之间的相互关系
完全相关,指变量之间为函数关系;完全不相关指变 量之间不存在任何依存关系,彼此独立。不完全相关介于 两者之间。不完全相关是本章讨论的重点。
由于数学手段上的局限性,统计学探讨的最多的是定 距—定距变量间能近似地表现为一条直线的线性相关。在 统计中,对于线性相关,采用相关系数(记作r)这一指标 来量度相关关系程度或强度。就线性相关来说,当r =l 时,表示为完全相关;当r =0时,表现为无相关或零相 关;当0< r <1时,表现为不完全相关。