回归分析及预测

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

回归平方和 R 总离差平方和 SSR SST
2
或
残差平方和 R 1 总离差平方和 SSE 1 SST
2

ˆ y y
n
2
y y
i 1 i
i 1 n
i
ˆ2
1 n
(x x )
i 1 i 2 i
n
2
1
ˆ y y
i 1 n i i 1
回归分析法预测 (Regression Analysis)
YOUR SITE HERE
LOGO
主要内容
第一节引
言
第二节一元线性回归
第三节多元线性回归
第四节逐步回归
YOUR SITE HERE
第一节引
言
YOUR SITE HERE
wk.baidu.com量间的关系
函数关系——变量间的确定性关系，有精确的数学表达式。统计关系——大量观测或试验以后建立起来的一种经验关系，并不一定包含这因果关系。
YOUR SITE HERE
一、一元线性回归模型和回归方程
yi 0 1 xi i i 1, 2,..., n 2 ~ N (0, ) 回归模型 i （强假定条件） 1 , 2, , n相互独立 x 为非随机变量 i
y i 0 1 xi i
ˆ ˆ x ... ˆ x ˆ y 0 1 1 p p ˆ ˆx j j 0
j 1
YOUR SITE HERE
p
二、参数估计
1. 回归系数的最小二乘估计
定义离差平方和(p+1)元函数（非负二次函数）：
Q( 0 , 1 ,..., p ) i yi ( 0 1 xi1 2 xi 2 ... p xip )
YOUR SITE HERE
0 , 1,..., p
为待估回归参数，在多元线性回归中称为偏回归系数（partial regression coefficient），表示各个回归系数在回归方程中其它自变量保持不变情况下，自变量xj每增加一个单位时因变量y的平均增加程度。
多元线性回归模型的回归方程为：
YOUR SITE HERE
为（经验）回归方程。
标准误差无偏估计
ˆ
SST = SSR + SSE
SSE n p 1 n ee 1 2 ei n p 1 n p 1 i 1
2
YOUR SITE HERE
三、显著性检验
回归方程的显著性检验
（线性关系的检验） 1. 检验因变量与所有的自变量和之间的是否存在一个显著的线性关系，也被称为总体的显著性检验
2 2 i 1 i 1 i 1
n
n
n
2
普通最小二乘法（Ordinary Least Square Estimation，OLSE）基本思想：对于样本观测值(xi;yi)(i=1,2,…,n)，寻找参数 0 , 1 的 ˆ , ˆ ，使得随机扰动误差项的平方和达到最估计值 0 1 小，满足如下条件： n n n 2 2 2 ˆ , ˆ ) y ( ˆ ˆ x ) y y ˆ Q( e 0 1 i 0 1 i i i i →min i 1 i 1 i 1
min yi ( 0 1 xi )
0 , 1
i 1
n
2
(也即残差平方和达到最小 YOUR ) SITE HERE
ˆ , ˆ 满足下列方程组 0 1
n Q ˆ ˆx)0 2 ( y ei 0 i 0 1 i ˆ i 1 i 1 0 → n n xe 0 Q ˆ ˆ x )x 0 2 ( y i i ˆ i 0 1 i i i 1 i 1 1
YOUR SITE HERE
SST = SSR + SSE
SSR和SSE是此消彼长的关系， SSR从正面来衡量线性模型的拟合优度， SSE则可从反面判定线性模型的拟合优度。
对于一元线性回归模型

2 的无偏估计量，有
SSE n2
2
YOUR SITE HERE
拟合程度——样本观测值聚集在拟合优度系数R2 样本回归线周围的紧密程度。（又称样本决定系数、测定系数、判定系数，Coefficient of Determination）
2 i 1 n n 2 i 1

0 , 1 , 2 ,..., p
min
y (
i 1 i
n
0
1 xi1 2 xi 2 ... p xip )
2
矩阵表示
2 ˆ ˆ ˆ ˆ ˆ ˆ ˆi ee y Xβ y Xβ Q(0 , 1 , 2 ,..., p ) yi y n i 1
名称性质因变量被解释变量已知随机可观测因素回归系数未知随机自变量随机扰动误差项解释变量已知未知非随机随机可观测因素不可观测因素不确定性部分
确定性部分
一元线性回归模型的回归方程为：
ˆ ˆx ˆ y 0 1
YOUR SITE HERE
二、参数估计
1. 回归系数 0 和 1 的最小二乘估计

YOUR SITE HERE

上式整理后可得用矩阵形式表示的正规方程组（Normal Equations）
ˆ) 0 X(y Xβ
移项得
ˆ Xy XXβ
1
当 XX 存在时，即得回归参数的最小二乘估计为
ˆ XX Xy β
1
称
ˆ ˆ ˆ ˆ y 0 1 x1 2 x2 ... p x p
Lxy ( xi x )( yi y )
Lxx ( xi x )2
i 1
YOUR SITE HERE
n
解之，得
ˆ Lxy 1 Lxx ˆ ˆx y 1 0
于是可得回归方程为：
ˆ ˆ ˆ y 0 1 x
1 n x xi n i 1
n i 1
还可等价表示为：
1 n y yi n i 1
ˆ (x x ) ˆ y y
1 (回归直线过样本数据点重心)
Lxy ( xi x )( yi y )
Lxx ( xi x )2
i 1
YOUR SITE HERE
n
标准误差无偏估计
ˆ
n 2 n 2
一、回归分析的定义
一般来说，回归分析是研究自变量（解释变量）与因变量（被解释变量）之间相依关系（因果关系）的一种统计分析方法。
回归分析是一种由因索果的定量分析、预测技术。
YOUR SITE HERE
二、回归分析主要解决问题
①确定回归方程
确定一个变量与另一个或其它几个变量之间是否存在相关关系，如果存在的话，可以找出它们之间合适的数学表达式；
三个平方和之间的关系：
ˆ y) ( y y ˆ) ( y y) ( y
2 i 1 i i 1 i i 1 i i 总离差平方和（总变差） Total 回归平方和（回归变差） Regression
n
残差（剩余）平方和（残差（剩余）变差） Error
SST = SSR + SSE
②预测
根据一个或几个变量值（自变量，相对而言较易测定），来预测另一个变量（因变量）的估计值，并确定预测精度；
③判断自变量与因变量的亲疏关系
在共同影响某个特定变量（因变量）的许多变量（自变量）之中，找出哪些是重要的，哪些是次要的，以及它们之间有什么关系。
YOUR SITE HERE
第二节一元线性回归
函数关系
统计关系
YOUR SITE HERE
相关系数
◆样本的相关系数用r
(correlation coefficient) ◆相关系数r的值在-1和1之间。正相关时，r值在 0和1之间，这时一个变量增加，另一个变量也增加；负相关时，r值在-1和0之间，此时一个变量增加，另一个变量将减少。 ◆r的绝对值越接近1，两变量的关联程度越强，r 的绝对值越接近0，两变量的关联程度越弱。
2
Lxy Lxx Lyy
r2
计算R2不能代替对回归方程总体线性关系的F检验。
YOUR SITE HERE
第三节多元线性回归
YOUR SITE HERE
一、多元线性回归模型和回归方程
y = Xβ + ε 2 (i=1, 2, …, n) ~ N (0, ) i 回归模型 (强假定条件) 1 , 2, , n相互独立 xi为非随机变量 rank(X) p 1 n 0 1 x11 x12 ... x1 p y1 1 1 x y x ... x 21 22 2p 1 2 2 y X β ε ... ... ... ... ... ... ... ... yn n 1 xn1 xn 2 ... xnp p
3. 确定显著性水平和分子自由度p、分母自由度n-p-1 找出临界值F (上侧分位数) 4. 作出决策若FF ，拒绝H0；若F<F，接受H0
YOUR SITE HERE
回归系数的显著性检验要点
1. 如果F检验已经表明了回归模型总体上是显著的，那么回归系数的检验就是用来确定每一个单个的自变量 xi 对因变量 y 的影响是否显著 2. 对每一个自变量都要单独进行检验
2 i 1 i 1
n
n
2
普通最小二乘法（Ordinary Least Square Estimation，OLSE）基本思想：
ˆ , ˆ , ˆ ,..., ˆ ) y y ˆ ˆ x ˆ x ... ˆ x ) Q( y ( i ˆi 0 1 2 p i 0 1 i 1 2 i 2 p ip
2. 检验方法是将回归离差平方和 (SSR) 同剩余离差平方和 (SSE)加以比较，应用 F 检验来分析二者之间的差别是否显著如果是显著的，因变量与自变量之间存在线性关系如果不显著，因变量与自变量之间不存在线性关系
YOUR SITE HERE
回归方程的显著性检验步骤
1. 提出假设 H0：12p=0 线性关系不显著 H1：1，2，，p 至少有一个不等于0 2. 计算检验统计量F
n
0 0 1 1
上式整理后可得正规方程组（Normal Equations）
1 n x xi n i 1
n i 1
1 n y yi n i 1
ˆ x ˆ y 0 1 n n ˆ n 2 ˆ xi 0 xi 1 xi yi i 1 i 1 i 1
n
2
2
y y
i 1
yi y
1
2
e
i 1 n i 1
n
2
i
2 2 y ny i
YOUR SITE HERE
R2性质：
①R2度量了由回归模型作出的解释的y变差在 y总变差中所占的比例（或百分数），由于在总变差恒定，故R2越大，回归效果越好。 ②反映回归直线（回归方程）拟合程度 ③取值范围是 0≤R2≤1 R2=1表示完全拟合； R2=0表示自变量和因变量之间没有任何线性关系。 ④测定系数等于相关系数的平方。 R
ˆ e y y
i 1
n
n
n
i
i 1
n
i
i
e
i 1
2
i
ˆi yi y
i 1
2
YOUR SITE HERE
定义离差平方和（二元）函数（非负二次函数）：
Q( 0 , 1 ) i yi E ( yi ) yi ( 0 1 xi )