一元线性回归总结分析
第十一章 一元线性回归
本章主要介绍数值型自变量和数值型因变量之间关系的分析方法,这就是相关与回归分析。如果研究的是两个变量之间的关系,称为简单相关与简单回归分析;如果研究的是两个以上变量之间的关系,称为多元相关与多元回归分析。本章主要讨论简单线性相关和简单线性回归的基本方法。
本章知识结构如下:
主要知识点:
变量间关系的度量
变量之间的关系可分为两种类型,即函数关系和相关关系。 变量之间存在的不确定的数量关系,称为相关关系。
相关关系的特点:一个变量的取值不能由另一个变量唯一确定,当变量y 的取值可能有几个。对这种关系不确定的变量显然不能用函数关系来描述,但也不是无规律可循。相关与回归分析正是描述与探索这类变量之间关系及其规律的统计方法。
判断相关性的方法:
方法一:散点图法
1、判断变量间的相关性
2、相关关系的显著性检验 r 的显著性检验 步骤:○1提出假设○2计算检验的统计量t ○3进行决策(即比较t 与
t 2
α
)
3、一元线性回归
4、回归方程拟合优度的判断
主要方法 5、回归方程的显著性检验
6、利用回归方程进行预测
7、残差分析
残差、残差图及标准化残差 一
元 线 性 回 归
主要方法 a)散点图法
b)相关系数法
方法及步骤 1、建立模型εββ++=x y 11
2、写出回归方程()x y E 110ββ+=
3、利用最小二乘法对参数进行估计 a) 判定系数法R
2
b) 估计标准误差S
e 主要方法
a) 线性关系的检验——模型的检验,即F 检验 b) 回归系数的检验,即t 检验 类型 a) 点估计
b) 区间估计
散点图是描述变量之间关系的一种直观方法,从中可以大体上看出变量之间的关系形态及关系强度。
方法二:相关系数法
()
()
∑∑∑∑∑∑∑-*--=
2
2
2
2
y n x n y
x xy n r y x
利用相关系数可以准确度量两个变量之间的关系强度。 利用Excel 软件计算相关系数:
“工具” → “数据分析”→“相关系数” → “选入数据” → “确定”即可。
相关关系的显著性检验
考察样本相关系数的可靠性,也就是进行显著性检验。 r 的显著性检验
1、提出假设
0:;0:10
≠=ρρH H
2、计算检验统计量 ()2~122
---=n t n r
t r
3、进行决策
根据给定的显著性水平α和自由度2-=n df 查t 分布表,得出
()22
-n t α的临界值。若t t α
>,则拒绝原假设H 0,表明总体的两个变
量之间存在显著的线性关系。
一元线性回归
回归模型:εββ++=x y 110
)1,0(=i i
β
称为模型的参数。
ε称为误差项,反映了除x 与y 之间的线性关系之外的随机因素
对y 的影响。
一元线性回归方程的形式: ()x y E 110ββ+=
β
1
表示当自变量每变化一个单位时,因变量变化β1
个单位。
β
不赋予任何意义。
参数的最小二乘估计:
用Excel 软件进行操作:
“工具” → “数据分析” → “回归” → “选入数据” → “确
定”即可。
回归直线的拟合优度检验:
回归直线与各观测点的接近程度称为回归直线对数据的拟合优度。
判定拟合优度的方法: 方法一:判定系数法
1012
2≤≤-==R R SST
SSE SST SSR
回归平方和占总平方和的比例称为判定系数。
R 2
表示在因变量y 的总变差中被估计的回归方程所解释的比
例;
故R 2
越大越好。
方法二:估计标准误差
1
()?2
e
---
=
∑k n y
y S
i
i
S
e
表示根据所建立的回归方程,用自变量来预测因变量时,
平均预测误差的大小;
故S e 越小越好,越小说明波动性越小。
显著性检验
线性关系的检验——模型的检验 用软件进行线性关系检验的方法:
在Excel 中,在“工具”→“数据分析” →“回归” →方
差分析一栏中有“SignificanceF ”值(即P 值),当α
p 时,接受原假设。
回归系数的检验:
检验单个自变量对因变量的影响是否显著,检验步骤同线性关系的检验,检验过程中可能会因为“多重共线性”问题导致某些自变量无法通过检验。
检验步骤:第1步:提出假设。对于任意参数)2,1(k i i
K =β有
0:0
=β
i
H
0:1
≠β
i
H
第2步:计算检验的统计量t 。
)1(~?
?--=
k n t S t
i
i
i
ββ
第3步:做出统计决策。 给定显著性水平α,根据自由度=n-k-1查t 分布表,
得t 2α的值。若t t 2α>,则拒绝原假设;若t t 2α<,
则不拒绝原假设。 利用回归方程进行预测:
所谓预测是指通过自变量x 的取值来预测因变量y 的取值。
预测类型有:点估计法和区间估计法,这个利用软件在进行回归分析的时候都能直接得出来。 残差分析:
确定有关ε的假设是否成立的方法之一就是进行残差分析。
残差:y
y e i
i
i ?-=
残差反映了用估计的回归方程去预测y i
而引起的误差。
标准化残差是残差除以它的标准差后得到的数据。 第i 个观察值的标准化残差可以表示为:
s
y y s
e z e
i i
e
i
e i
?-=
= 如果误差项ε服从正态分布的假设成立的话,那么标准化残差的分布也应服从正态分布。
本章例题
从某一行业中随机抽取14家企业,所得产量与生产费用的数据如下:
要求:
(1) 绘制产量与生产费用的散点图,判断二者之间的关系形态。 (2) 计算产量与生产费用之间的线性相关系数。 (3) 对相关系数的显著性进行检验(05.0=α),并说明二者之间的关
系强度。
(4) 利用最小二乘法求出估计的回归方程,并解释回归系数的实际意
义。
(5) 计算判定系数,并解释其意义。
(6) 检验回归方程线性关系的显著性(05.0=α)。
解:设产量为自变量,生产费用为因变量; (1)散点图如下:
从图中可以看出:产量和生产费用之间存在明显的线性关系。 (2)
从表中可以看出:产量与生产费用之间的线性相关系数0.9468=r (3)第1步:提出假设。 0:0
=ρH
0:1
≠ρH
第2步:计算检验统计量。 810.187885012149468.0129468
.02
2
=--?
=--=r
n r
t
第3步:进行决策。
根据给定的显著性水平05.0=α和自由度12=df 查t 分
布表,得出()1788.222=-n t α。则有t t α>,所以拒绝原假设H 0,表明产量与生产费用之间存在显著的线性关系。
(4)利用Excel 进行回归分析输出以下数据:
产量(台) 生产费用(万元)
产量(台) 1
生产费用(万元) 0.946766494 1