回归分析及预测

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

回归平方和 R 总离差平方和 SSR SST
2

残差平方和 R 1 总离差平方和 SSE 1 SST
2

ˆ y y
n
2
y y
i 1 i
i 1 n
i
ˆ2
1 n
(x x )
i 1 i 2 i
n
2
1
ˆ y y
i 1 n i i 1
回归分析法预测 (Regression Analysis)
YOUR SITE HERE
LOGO
主要内容
第一节 引

第二节 一元线性回归
第三节 多元线性回归
第四节 逐步回归
YOUR SITE HERE
第一节 引

YOUR SITE HERE
wk.baidu.com量间的关系
函数关系——变量间的确定性关系,有精确的数学 表达式。 统计关系——大量观测或试验以后建立起来的一种 经验关系,并不一定包含这因果关系。
YOUR SITE HERE
一、一元线性回归模型和回归方程
yi 0 1 xi i i 1, 2,..., n 2 ~ N (0, ) 回归模型 i (强假定条件) 1 , 2, , n相互独立 x 为非随机变量 i
y i 0 1 xi i
ˆ ˆ x ... ˆ x ˆ y 0 1 1 p p ˆ ˆx j j 0
j 1
YOUR SITE HERE
p
二、参数估计
1. 回归系数的最小二乘估计
定义离差平方和(p+1)元函数(非负二次函数):
Q( 0 , 1 ,..., p ) i yi ( 0 1 xi1 2 xi 2 ... p xip )
YOUR SITE HERE
0 , 1,..., p
为待估回归参数,在多元线性回归中称 为偏回归系数(partial regression coefficient),表示各个回归系数在回归 方程中其它自变量保持不变情况下,自 变量xj每增加一个单位时因变量y的平均 增加程度。
多元线性回归模型 的回归方程为:
YOUR SITE HERE
为(经验)回归方程。
标准误差无偏估计
ˆ
SST = SSR + SSE
SSE n p 1 n ee 1 2 ei n p 1 n p 1 i 1
2
YOUR SITE HERE
三、显著性检验
回归方程的显著性检验
(线性关系的检验 ) 1. 检验因变量与所有的自变量和之间的是否存在 一个显著的线性关系,也被称为总体的显著性 检验
2 2 i 1 i 1 i 1
n
n
n
2
普通最小二乘法(Ordinary Least Square Estimation,OLSE)基本思想: 对于样本观测值(xi;yi)(i=1,2,…,n),寻找参数 0 , 1 的 ˆ , ˆ ,使得随机扰动误差项的平方和达到最 估计值 0 1 小,满足如下条件: n n n 2 2 2 ˆ , ˆ ) y ( ˆ ˆ x ) y y ˆ Q( e 0 1 i 0 1 i i i i →min i 1 i 1 i 1
min yi ( 0 1 xi )
0 , 1
i 1
n
2
(也即残差平方和 达到最小 YOUR ) SITE HERE
ˆ , ˆ 满足下列方程组 0 1
n Q ˆ ˆx)0 2 ( y ei 0 i 0 1 i ˆ i 1 i 1 0 → n n xe 0 Q ˆ ˆ x )x 0 2 ( y i i ˆ i 0 1 i i i 1 i 1 1
YOUR SITE HERE
SST = SSR + SSE
SSR和SSE是此消彼长的关系, SSR从正面来衡量线性模型的拟合优度, SSE则可从反面判定线性模型的拟合优度。
对于一元线性回归模型

2 的无偏估计量,有
SSE n2
2
YOUR SITE HERE
拟合程度——样本观测值聚集在 拟合优度系数R2 样本回归线周围的紧密程度。 (又称样本决定系数、测定系数、判定 系数,Coefficient of Determination)
2 i 1 n n 2 i 1

0 , 1 , 2 ,..., p
min
y (
i 1 i
n
0
1 xi1 2 xi 2 ... p xip )
2
矩阵表示
2 ˆ ˆ ˆ ˆ ˆ ˆ ˆi ee y Xβ y Xβ Q(0 , 1 , 2 ,..., p ) yi y n i 1
名称 性质 因变量 被解释变量 已知 随机 可观测因素 回归系数 未知 随机 自变量 随机扰动误差项 解释变量 已知 未知 非随机 随机 可观测因素 不可观测因素 不确定性部分
确定性部分
一元线性回归模型 的回归方程为:
ˆ ˆx ˆ y 0 1
YOUR SITE HERE
二、参数估计
1. 回归系数 0 和 1 的最小二乘估计


YOUR SITE HERE

上式整理后可得用矩阵形式表示的 正规方程组(Normal Equations)
ˆ) 0 X(y Xβ
移项得
ˆ Xy XXβ
1
当 XX 存在时,即得回归参数的最小二乘估计为
ˆ XX Xy β
1

ˆ ˆ ˆ ˆ y 0 1 x1 2 x2 ... p x p
Lxy ( xi x )( yi y )
Lxx ( xi x )2
i 1
YOUR SITE HERE
n
解之,得
ˆ Lxy 1 Lxx ˆ ˆx y 1 0
于是可得 回归方程为:
ˆ ˆ ˆ y 0 1 x
1 n x xi n i 1
n i 1
还可等价表示为 :
1 n y yi n i 1
ˆ (x x ) ˆ y y
1 (回归直线过样本数据点重心)
Lxy ( xi x )( yi y )
Lxx ( xi x )2
i 1
YOUR SITE HERE
n
标准误差无偏估计
ˆ
n 2 n 2
一、回归分析的定义
一般来说,回归分析是研究自变量(解释变量) 与因变量(被解释变量)之间相依关系(因果关 系)的一种统计分析方法。
回归分析是一种由因索果的定量分析、预测技术。
YOUR SITE HERE
二、回归分析主要解决问题
①确定回归方程
确定一个变量与另一个或其它几个变量之间是否存在相关关系, 如果存在的话,可以找出它们之间合适的数学表达式;
三个平方和之间的关系:
ˆ y) ( y y ˆ) ( y y) ( y
2 i 1 i i 1 i i 1 i i 总离差平方和 (总变差) Total 回归平方和 (回归变差) Regression
n
残差(剩余)平方和 (残差(剩余)变差) Error
SST = SSR + SSE
②预测
根据一个或几个变量值(自变量,相对而言较易测定),来预测 另一个变量(因变量)的估计值,并确定预测精度;
③判断自变量与因变量的亲疏关系
在共同影响某个特定变量(因变量)的许多变量(自变量)之中 ,找出哪些是重要的,哪些是次要的,以及它们之间有什么关系 。
YOUR SITE HERE
第二节 一元线性回归
函数关系
统计关系
YOUR SITE HERE
相关系数
◆样本的相关系数用r
(correlation coefficient) ◆相关系数r的值在-1和1之间。正相关时,r值在 0和1之间,这时一个变量增加,另一个变量也 增加;负相关时,r值在-1和0之间,此时一个 变量增加,另一个变量将减少。 ◆r的绝对值越接近1,两变量的关联程度越强,r 的绝对值越接近0,两变量的关联程度越弱。
2
Lxy Lxx Lyy
r2
计算R2不能代替对回归方程总体线性关系的F检验。
YOUR SITE HERE
第三节 多元线性回归
YOUR SITE HERE
一、多元线性回归模型和回归方程
y = Xβ + ε 2 (i=1, 2, …, n) ~ N (0, ) i 回归模型 (强假定条件) 1 , 2, , n相互独立 xi为非随机变量 rank(X) p 1 n 0 1 x11 x12 ... x1 p y1 1 1 x y x ... x 21 22 2p 1 2 2 y X β ε ... ... ... ... ... ... ... ... yn n 1 xn1 xn 2 ... xnp p
3. 确定显著性水平和分子自由度p、分母自由度n-p-1 找出临界值F (上侧分位数) 4. 作出决策 若FF ,拒绝H0;若F<F,接受H0
YOUR SITE HERE
回归系数的显著性检验要点
1. 如果F检验已经表明了回归模型总体上是显著的, 那么回归系数的检验就是用来确定每一个单个 的自变量 xi 对因变量 y 的影响是否显著 2. 对每一个自变量都要单独进行检验
2 i 1 i 1
n
n
2
普通最小二乘法(Ordinary Least Square Estimation,OLSE)基本思想:
ˆ , ˆ , ˆ ,..., ˆ ) y y ˆ ˆ x ˆ x ... ˆ x ) Q( y ( i ˆi 0 1 2 p i 0 1 i 1 2 i 2 p ip
2. 检验方法是将回归离差平方和 (SSR) 同剩余离 差平方和 (SSE)加以比较,应用 F 检验来分析 二者之间的差别是否显著 如果是显著的,因变量与自变量之间存在 线性关系 如果不显著,因变量与自变量之间不存在 线性关系
YOUR SITE HERE
回归方程的显著性检验步骤
1. 提出假设 H0:12p=0 线性关系不显著 H1:1,2,,p 至少有一个不等于0 2. 计算检验统计量F
n
0 0 1 1
上式整理后可得正规方程组 (Normal Equations)
1 n x xi n i 1
n i 1
1 n y yi n i 1
ˆ x ˆ y 0 1 n n ˆ n 2 ˆ xi 0 xi 1 xi yi i 1 i 1 i 1
n
2
2
y y
i 1
yi y
1
2
e
i 1 n i 1
n
2
i
2 2 y ny i
YOUR SITE HERE
R2性质:
①R2度量了由回归模型作出的解释的y变差在 y总变差中所占的比例(或百分数),由于在 总变差恒定,故R2越大,回归效果越好。 ②反映回归直线(回归方程)拟合程度 ③取值范围是 0≤R2≤1 R2=1表示完全拟合; R2=0表示自变量和因变量之间没有任何线性 关系。 ④测定系数等于相关系数的平方。 R
ˆ e y y
i 1
n
n
n
i
i 1
n
i
i
e
i 1
2
i
ˆi yi y
i 1
2
YOUR SITE HERE
定义离差平方和(二元)函数(非负二次函数):
Q( 0 , 1 ) i yi E ( yi ) yi ( 0 1 xi )
相关文档
最新文档