简单线性相关(一元线性回归分析)
简单回归分析

一、线性回归分析若是自变数与依变数都是一个,且Y 和X 呈线性关系,这就称为一元线性回归。
例如,以X 表示小麦每667m 2有效穗数,Y 表示小麦每667m 2的产量,有效穗数即属于自变数,产量即属于依变数。
在这种情形下,可求出产量依有效穗数而变更的线性回归方程。
在另一种情形下,两类变数是平行关系很难分出哪个是自变数,哪个是依变数。
例如,大豆脂肪含量与蛋白质含量的关系,依照需要确信求脂肪含量依蛋白质含量而变更的回归方程,或求蛋白质含量依脂肪含量而变更的回归方程。
回归分析要解决的问题要紧有四个方面:一是依如实验观看值成立适当的回归方程;二是查验回归方程是不是适用,或对回归方程中的回归系数的进行估量;三是对未知参数进行假设考试;四是利用成立起的方程进行预测和操纵。
(一)成立线性回归方程用来归纳两类变数互变关系的线性方程称为线性回归方程。
若是两个变数在散点图上呈线性,其数量关系可能用一个线性方程来表示。
这一方程的通式为:上式叫做y 依x 的直线回归。
其中x 是自变数,y ˆ是依变数y 的估量值,a 是x =0时的y ˆ值,即回归直线在y 轴上的截距,称为回归截距,b 是x 每增加一个单位时,y 将平均地增加(b >0时)或减少(b <0时) b 个单位数,称为回归系数或斜率(regression coefficient or slope )。
要使 能够最好地代表Y 和X 在数量上的互变关系,依照最小平方式原理,必需使将Q 看成两个变数a 与b 的函数,应该选择a 与b ,使Q 取得最小值,必需求Q 对a ,b 的一阶偏导数,且令其等于零,即得:()()⎩⎨⎧∑=∑+∑∑=∑+212xyx b x a yx b an ()()∑∑=--=-=nn Q bx a y yy Q 1min212ˆbx a y +=ˆ()1.7ˆbx a y+=由上述(1)解得:将()代入(2),那么得:()的分子 是x 的离均差与y 的离均差乘积总和,简称乘积和(sum of products ),可记为SP ,分母是x 的离均差平方和,也可记为SS x 。
一元线性回归分析

C=α+βy + µ
其中, µ是随机误差项。 是随机误差项。 其中, 是随机误差项 根据该方程, 的值, 根据该方程,每给定一个收入 y 的值,消 并不是唯一确定的, 费C并不是唯一确定的,而是有许多值, 并不是唯一确定的 而是有许多值, 他们的概率分布与µ的概率分布相同 的概率分布相同。 他们的概率分布与 的概率分布相同。 线性回归模型的特征: 线性回归模型的特征: 有随机误差项! 有随机误差项!
21
说
明
一、严格地说,只有通过了线性关系的检验,才 严格地说,只有通过了线性关系的检验, 能进行回归参数显著性的检验。 能进行回归参数显著性的检验。 有些教科书在介绍回归参数的检验时没有考虑线 性关系的检验,这是不正确的。 性关系的检验,这是不正确的。因为当变量之间 的关系没有通过线性检验时, 的关系没有通过线性检验时,进行回归参数显著 性的检验是没有意义的。 性的检验是没有意义的。 在一元线性回归分析中, 二、在一元线性回归分析中,即只有一个解释变 量时,这两种检验是统一的。 量时,这两种检验是统一的。但在多元回归分析 这两种检验的意义是不同的。 中,这两种检验的意义是不同的。 为了说明该问题, 为了说明该问题,我们在本章中依然把两种检验 分开论述。 分开论述。
13
为了达到上述目的, 为了达到上述目的,我们直观上会采 用以下准则: 用以下准则: 选择这样的SRF,使得: 选择这样的 ,使得:
残差和∑ ε i = ∑ ( yi − yi )尽可能小! ˆ
但这个直观上的准则是否是一个很好 的准则呢?我们通过以下图示说明: 的准则呢?我们通过以下图示说明:
14
12
ˆx i + ε i yi = α + β ˆ ˆ 即:y i = y i + ε i ˆ ∴ ε i = yi − yi
线性相关与回归(简单线性相关与回归、多重线性回归、Spearman等级相关)

何平平
北大医学部流行病与卫生统计学系 Tel:82801619
线性相关与回归
内容:
多重线性回归分析 简单线性相关与回归
特例
Spearman等级相关
一、简单线性相关与回归 (一)直线回归(linear regression)
1.定义:用直线方程表达X(自变量,independent variable;解释变量,explanatory variable;预测变量, predictor variable )和Y (因变量,dependent variable;响应变量,response variable;结局变量, outcome variable )之间的数量关系。
ˆ 0.05/ 2, n 2 Y Y
(二)直线相关(linear correlation)
1.定义
描述具有直线关系的两个变量之间的相互关系。 r:相关系数,correlation coefficient 用来衡量有直线关系的两个变量之间相关的密切程度和 方向。-1r1 r>0,正相关;r=1为完全正相关 r <0,负相关;r=-1为完全负相关
变量说明:X:体重指数;Y:收缩压(mmHg)。 1.绘制散点图
散点图显示:收 缩压与体重指数 之间有线性相关 趋势,因此可以 进一步做直线回 归与相关
2.直线回归与相关分析
Regression, 回归
Linear, 线性
2.直线回归与相关分析
因变量
自变量
相关 系数r
调整r2 决定 系数r2
F值
4.b的假设检验: b为样本回归系数,由于抽样误差, 实际工作中b一般都不为0。要判断直线回归方程是否成 立,需要检验总体回归系数是否为0。 H0:=0 H1:0 方法一:t检验
一元回归及简单相关分析

⑴ 检验MSe1和MSe2有无显著差异:
H0: σ12=σ12
HA: σ12≠σ12
检验统计量为: F MSe大
MS e小
(df: n大-2, n小-2)
F >Fα/2时,拒绝H0,说明两回归线的总体方差不一致, 差异显著;
F<Fα/2时,接受H0,说明两回归线有一共同的总体方 差,估计值为:
M e S n 12 n 1 M 2 e1 S n n 2 2 2 2 M e2S
df=n-2
| t |>tn-2,α/2时,拒绝H0,接受HA;
| t |<tn-2,α/2时,接受H0。
【例10.5】以例10.1中的数据为例,检验a是
解: 否抽自α = 100的总体 。
t a 0
sa
sa2 MSe1nSxX2X
se2MeSSYnYb2X SY
M e S Y n S Y b 2 X S Y 2.7 5 5 1 1 8 .1 1 2 5 6 0 7 .7 0 0 4
一、b、a和e的数学期望值与方差
Eb varb SXX
sb2
MS e S XX
Ea vara1nSxX2X sa2 MSe1nSxX2X
Ee 0 vaer se2MeSSYnYb2X SY
二、b和a的显著性检验——t检验
1、b的显著性检验 N ( , 2 )
S XX
H0: β = 0(β0)
一、 散散点点图图 (scatter diagram):
1、概念
用自变量X为横轴,因变量Y为纵轴,在XY
平面内标出(x1, y1),(x2, y2),…,(xn, yn) 这
些点,就构成一幅散点图。
2、常见类型的散点图
简单线性回归

注意: 这里将样本回归线看成总体回归线的近似替代
则
样本回归函数的随机形式/样本回归模型:
同样地,样本回归函数也有如下的随机形式: Yi Yˆi ˆi ˆ0 ˆ1 X i ei
式中,ei 称为(样本)残差(或剩余)项(residual),代表
回归函数在坐标系中用图形表示出来就 是回归线。它表示了应变量和解释变量 之间的平均关系。
回归线图示
概率密度函数 f(Yi)
Y
x1 xi Xk
PRF
X
注意:
一般地,在重复抽样中解释变量被假定 为固定的。所以回归分析中,解释变量 一般当作非随机变量处理。
1.4 总体回归函数
由于变量间关系的随机性,回归分析关心的是 根据解释变量的已知或给定值,考察被解释变量的总 体均值,即当解释变量取某个确定值时,与之统计相 关的被解释变量所有可能出现的对应值的平均值。
1.3.1 回归分析 是对一个应变量对若干解释变量依存 关系的研究; 其目的是:由固定的解释变量去估计 和预测应变量的平均值等。
1.3.2 回归函数、回归线
应变量Y的条件期望E(Y/X i )随着解释变量 X的变化而有规律地变化。把这种变化关 系用函数表示出来,就是回归函数:
E(Y/X i ) f(X i )
列入模型的那些次要因素的综合影响。
由中心极限定理μ服从的均值
不妨假设
m
rj 1
j 1
则有
m
rj zj Z j 1
因此,由中心极限定理,无论Zj原来的分布形式如何,只要它们 相互独立,m足够大,就会有μ趋于正态分布。
而且正态分布简单易用,且数理统计学中研究的成果很多,可以 借鉴。
试讲 简单线性回归模型

● 从变量相关关系的表现形式看
线性相关——散布图接近一条直线 非线性相关——散布图接近一条曲线
● 从变量相关关系变化的方向看
正相关——变量同方向变化,同增同减 负相关——变量反方向变化,一增一减 不相关
7
3.相关程度的度量—相关系数
总体线性相关系数: Cov( X , Y ) Var( X )Var(Y )
33
Y 的分布性质
由于
Yi 1 2 X i ui
u i 的分布性质决定了 Yi 的分布性质。 对 u i 的一些假定可以等价地表示为对Yi 的假定:
Yi
ui
X
(2)个别值表现形式
对于一定的 X i , Y 的各个别值 Yi 分布
Xi
在 E(Y X i ) 的周围,若令各个 Yi 与条件 均值 E(Y X i ) 的偏差为 u i , 显然 u i 是随机变量,则有 或
Yi 1 2 X i ui
ui Yi E(Yi X i ) Yi 1 2 X i
●只有具备一定的假定条件,所作出的估计才
具有较好的统计性质。
29
2、基本假定的内容
(1)对模型和变量的假定
如
Yi 1 2 X i ui
假定解释变量 X是非随机的,或者虽然是随机的,但与扰动
项
u是不相关的
假定解释变量 X 在重复抽样中为固定值
假定变量和模型无设定误差
30
(2)对随机扰动项 u 的假定
每 月 家 庭 消 费 支 出
1489 1538
1600 1702
1712 1778
1841 1886
2078 2179
2298 2316
从统计学看线性回归(1)——一元线性回归

从统计学看线性回归(1)——⼀元线性回归⽬录1. ⼀元线性回归模型的数学形式2. 回归参数β0 , β1的估计3. 最⼩⼆乘估计的性质 线性性 ⽆偏性 最⼩⽅差性⼀、⼀元线性回归模型的数学形式 ⼀元线性回归是描述两个变量之间相关关系的最简单的回归模型。
⾃变量与因变量间的线性关系的数学结构通常⽤式(1)的形式:y = β0 + β1x + ε (1)其中两个变量y与x之间的关系⽤两部分描述。
⼀部分是由于x的变化引起y线性变化的部分,即β0+ β1x,另⼀部分是由其他⼀切随机因素引起的,记为ε。
该式确切的表达了变量x与y之间密切关系,但密切的程度⼜没有到x唯⼀确定y的这种特殊关系。
式(1)称为变量y对x的⼀元线性回归理论模型。
⼀般称y为被解释变量(因变量),x为解释变量(⾃变量),β0和β1是未知参数,成β0为回归常数,β1为回归系数。
ε表⽰其他随机因素的影响。
⼀般假定ε是不可观测的随机误差,它是⼀个随机变量,通常假定ε满⾜:(2)对式(1)两边求期望,得E(y) = β0 + β1x, (3)称式(3)为回归⽅程。
E(ε) = 0 可以理解为ε对 y 的总体影响期望为 0,也就是说在给定 x 下,由x确定的线性部分β0 + β1x 已经确定,现在只有ε对 y 产⽣影响,在 x = x0,ε = 0即除x以外其他⼀切因素对 y 的影响为0时,设 y = y0,经过多次采样,y 的值在 y0 上下波动(因为采样中ε不恒等于0),若 E(ε) = 0 则说明综合多次采样的结果,ε对 y 的综合影响为0,则可以很好的分析 x 对 y 的影响(因为其他⼀切因素的综合影响为0,但要保证样本量不能太少);若 E(ε) = c ≠ 0,即ε对 y 的综合影响是⼀个不为0的常数,则E(y) = β0 + β1x + E(ε),那么 E(ε) 这个常数可以直接被β0 捕获,从⽽变为公式(3);若 E(ε) = 变量,则说明ε在不同的 x 下对 y 的影响不同,那么说明存在其他变量也对 y 有显著作⽤。
线性回归分析

r 2 SSR / SST 1 SSE / SST L2xy Lxx Lyy
❖
两个变量之间线性相关的强弱可以用相关系数r(Correlation
coefficient)度量。
❖ 相关系数(样本中 x与y的线性关系强度)计算公式如下:
❖ 统计学检验,它是利用统计学中的抽样理论来检验样本 回归方程的可靠性,具体又可分为拟合程度评价和显著 性检验。
1、拟合程度的评价
❖ 拟合程度,是指样本观察值聚集在估计回归线周围的紧密 程度。
❖ 评价拟合程度最常用的方法是测定系数或判定系数。 ❖ 对于任何观察值y总有:( y y) ( yˆ y) ( y yˆ)
当根据样本研究二个自变量x1,x2与y的关系时,则有
估计二元回归方程: yˆ b0 b1x1 b2 x2
求估计回归方程中的参数,可运用标准方程如下:
L11b1+L12b2=L1y
L12b1+L22b2=L2y b0 y b1 x1 b2 x2
例6:根据表中数据拟合因变量的二元线性回归方程。
21040
x2
4 36 64 64 144 256 400 400 484 676
2528
练习3:以下是采集到的有关女子游泳运动员的身高(英寸)和体
重(磅)的数据: a、用身高作自变量,画出散点图 b、根据散点图表明两变量之间存在什么关系? c、试着画一条穿过这些数据的直线,来近似身高和体重之间的关 系
测定系数与相关系数之间的区别
第一,二者的应用场合不同。当我们只对测量两个变量之间线性关系的 强度感兴趣时,采用相关系数;当我们想要确定最小二乘直线模型同数据符 合的程度时,应用测定系数。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十三讲 简单线性相关(一元线性回归分析)对于两个或更多变量之间的关系,相关分析考虑的只是变量之间是否相关、相关的程度,而回归分析关心的问题是:变量之间的因果关系如何。
回归分析是处理一个或多个自变量与因变量间线性因果关系的统计方法。
如婚姻状况与子女生育数量,相关分析可以求出两者的相关强度以及是否具有统计学意义,但不对谁决定谁作出预设,即可以相互解释,回归分析则必须预先假定谁是因谁是果,谁明确谁为因与谁为果的前提下展开进一步的分析。
一、一元线性回归模型及其对变量的要求 (一)一元线性回归模型 1、一元线性回归模型示例两个变量之间的真实关系一般可以用以下方程来表示: Y=A + BX + ε方程中的A 、B 是待定的常数,称为模型系数,ε是残差,是以X 预测Y 产生的误差。
两个变量之间拟合的直线是:y a bx ∧=+y ∧是 y 的拟合值或预测值,它是在X 条件下Y 条件均值的估计a 、b 是回归直线的系数,是总体真实直线A 、B 的估计值,a 即 constant 是截距,当自变量的值为0时,因变量的值。
b 称为回归系数,指在其他所有的因素不变时,每一单位自变量的变化引起的因变量的变化。
可以对回归方程进行标准化,得到标准回归方程:y x ∧=ββ 为标准回归系数,表示其他变量不变时,自变量变化一个标准差单位(Z X X S j jj=-),因变量Y 的标准差的平均变化。
由于标准化消除了原来自变量不同的测量单位,标准回归系数之间是可以比较的,绝对值的大小代表了对因变量作用的大小,反映自变量对Y的重要性。
(二)对变量的要求:回归分析的假定条件回归分析对变量的要求是:自变量可以是随机变量,也可以是非随机变量。
自变量X值的测量可以认为是没有误差的,或者说误差可以忽略不计。
回归分析对于因变量有较多的要求,这些要求与其它的因素一起,构成了回归分析的基本条件:独立、线性、正态、等方差。
(三)数据要求模型中要求一个因变量,一个或多个自变量(一元时为1个自变量)。
因变量:要求间距测度,即定距变量。
自变量:间距测度(或虚拟变量)。
二、在对话框中做一元线性回归模型例1:试用一元线性回归模型,分析大专及以上人口占6岁及以上人口的比例(edudazh)与人均国内生产总值(agdp)之间的关系。
本例使用的数据为st2004.sav,操作步骤及其解释如下:(一)对两个变量进行描述性分析在进行回归分析以前,一个比较好的习惯是看一下两个变量的均值、标准差、最大值、最小值和正态分布情况,观察数据的质量、缺少值和异常值等,缺少值和异常值经常对线性回归分析产生重要影响。
最简单的,我们可以先做出散点图,观察变量之间的趋势及其特征。
通过散点图,考察是否存在线性关系,如果不是,看是否通过变量处理使得能够进行回归分析。
如果进行了变量转换,那么应当重新绘制散点图,以确保在变量转换以后,线性趋势依然存在。
打开st2004.sav数据→单击Graphs → S catter →打开Scatterplot对话框→单击Simple →单击 Define →打开 Simple Scatterplot对话框→点选 agdp到 Y Axis框→点选 edudazh到 X Aaxis框内→单击 OK 按钮→在SPSS的Output窗口输出所需图形。
图12-1 大专及以上人口占6岁及以上人口比例与人均国内生产总值的散点图判断:线性趋势较明显。
(二)SPSS线性回归主对话框介绍打开线性回归主对话框的操作方法是:在st2004.sav数据界面上单击Analyze → Regression→Linear→打开Linear Regression主对话框图12-2 Linear Regression 命令位置图12-3 Linear Regression主对话框Linear Regression 主对话框的功能有:1、选择因变量Dependent框:放置因变量,一次只能放一个因变量。
本例点选agdp进入Dependent框。
2、选择自变量Independent框:放置自变量,可以放置多个自变量。
本例点选edudazh 进入Independent框。
3、对自变量进行分组Block按钮组:由Previous 和Next两个按钮组成,用来对自变量框中的自变量进行分组,在多元回归时会用到。
4、变量进入方式Method框:Enter:一元回归时,只选择这种方法,强行进入。
所有变量依次进入。
Stepwise:逐步回归,将所有满足条件的都进入方程,不满足的剔除。
Remove:强行移出法,这一方法必须在这一组自变量在前面一步已经纳入到回归时才用,否则没有可以剔除的。
Backward:自后消除法,将满足剔除标准的剔除Forward:向前加入法,所有满足进入回归方程的变量都可以进入。
在一元回归时,只用Enter即可。
本例选择变量进入的方式为Enter。
5、选择筛选变量Selection Variable框:选入一个筛选变量,并利用右侧的Rules建立条件,这样,只有满足这个条件的记录才会进入回归分析,当然,我们也可以用Data菜单中的Select Case过程来做,效果相同。
6、个案标签Case Labels 选择一个变量,其取值作为每条记录的标签,最典型的是使用记录ID个案号的变量。
7、加权最小二乘法计算WLS Weight框;利用该按钮可进行加权最小二乘法的计算。
选入权重变量进入该框即可。
使用条件:当应变量的变异程度具有某种趋势,即不是等方差时,通过加权,进行分析,是一种有偏估计。
8、选择统计量Statistics框:可以选择回归系数、残差诊断、模型拟合度等多种回归分析非常重要的统计量,在下文将详细介绍。
9、输出图形Plots框:可输出多种用于检验回归分析假定条件的图形,在下文将将详细介绍。
10、保存回归分析结果Save框:可以把回归分析的结果存起来,然后用得到的残差、预测值等做进一步的分析。
单击图12-3中的Save…按钮,打开Linear Regression的Save 对话框(见图12-4),研究者可以根据自己的需要进行选择。
图12-4 Linear Regression的Save对话框图12-4中:可以保持的回归分析结果主要有:Predicated values:各种预测值.#Unstandardized 保存模型对因变量的原始预测值.#Standardized:保存进行标准化后的预测值,均数0,方差1.#Adjusted:保存调整后的残差。
#S.E. #of mean predictions:保存预测值的标准差.Residuals:残差。
#Unstandardized :保存非标准化的残差,#Standardized:保存进行标准化后的残差#Studentlized:保存学生化残差#Deleted:它保存被排除进入相关系数计算的观察量的残差,是因变量与预测值之间的差值,通过它可以发现可疑的强影响点#Studentlized Deleted:对上一个预测值进行t变换Distances:用来测量数据点离拟合模型距离的指标#Mahalanobis:个案值离样本平均值的距离,如果某个个案多个自变量出现大的这种距离,可以认为它是离群值#Cook’s 表示去除这个个案后,模型的残差会发生多大的变化,一般认为如果这个值大于1,则有离群值或强影响点#Leverage values:用来测量数据点的影响强度,如中心杠杠值的变动范围是0―――(N-1)/NInfluence statistics:用来判断强影响点的统计量#DfBeta :Difference in Beta 去除某个观测值后回归系数的变化#standardized DfBeta 标准化的DfBeta 值,当它大于1/Sqrt(N)时,该点为强影响点,#DfFit. :Difference in fit value 去除这个观测值后预测值的变化值#Covariance ratio 去除这个观测值后,斜方差阵与包含全部观测值的斜方差阵的比率,如果绝对值大于3*P/N,这个观测值为强影响点或离群值。
11、置信水平和缺少值处理方式选择Options框:当自变量进入方式采取逐步回归时,打开Options对话框可以设定选择变量进入的和剔除的条件。
可以对缺少值的处理方式进行选择。
(三)回归分析统计量选择单击图12-3中的Statistics…按钮,打开一个Linear Regression的Statistics对话框(见图12-5),研究者可以根据自己的需要进行选择。
图12-5 Linear Regression的Statistics对话框1、回归系数及其基本含义图12-5中的Regression Coefficients,提供了关于回归系数的三种选项。
Estimates选项:点选后可输出回归方程中关于回归系数的基本情况,输出的数值有:B值、 Beta、 t值、t值的双尾检验。
来看例1关于“大专及以上人口占6岁及以上人口比例与人均国内生产总值”线性回归方程的回归系数(见表12-1)。
2、置信区间点选图12-5中的Confidence intervals ,可以求得回归系数的95%置信区间,在置信度95%时,置信区间为:b t s b t s j j j j -+αα/,/22式中s j 为样本标准差,j b 为回归系数。
来看例1关于“大专及以上人口占6岁及以上人口比例与人均国内生产总值”线性回归方程的回归系数(见表12-2)。
表13-2给出了回归系数B 的95%的置信区间,置信区间的下限为1593.071,上限为2849.639。
3、模型拟合度点选图12-5中的 Model Fit ,可以输出对模型拟合度进行评价的统计量。
模型拟合统计量主要有:R 、 RRsquare 、 R adj 。
这些值主要用来判断模型的拟合度或解释力怎么样。
表13-3和表13-4为“大专及以上人口占6岁及以上人口比例与人均国内生产总值”线性回归方程模型的拟合度统计量。
(1)相关系数 R表13-3中的相关系数R =0.802,反映了真实数据与回归直线靠近的程度,直接反映了一元线性回归或多元性回归预测效果的好坏程度。
(2)判定系数 R SquareR Square 也叫判定系数或确定系数(Coefficient of Determination ),它等于(总平方和- 余差平方和)/总平方和 总平方和(Total Sum of Square )的计算公式是; TSS= ()y y -∑2表示观察值围绕均值的情况,表示总的分散程度。
TSS 相当于PRE 中的E1,因为当不知道自变量 x 和因变量y 有关系时,对因变量的最好的估计就是因变量的均值,而每一个真实的因变量的观察值和因变量的均值的差,就构成了每次估计的误差。