第二课 从非线性回归到多元回归
实验三_多元线性回归模型及非线性回归(1)

实验三_多元线性回归模型及⾮线性回归(1)实验三多元线性回归模型及⾮线性回归⼀、多元线性回归模型例题3.2.2 建⽴2006年中国城镇居民⼈均消费⽀出的多元线性回归模型。
数据:地区 2006年消费⽀出Y 2006年可⽀配收⼊X12005年消费⽀出X2北京 14825.41 19977.52 13244.2 天津 10548.05 14283.09 9653.3 河北 7343.49 10304.56 6699.7 ⼭西 7170.94 10027.70 6342.6 内蒙古 7666.61 10357.99 6928.6 辽宁 7987.49 10369.61 7369.3 吉林 7352.64 9775.07 6794.7 ⿊龙江 6655.43 9182.31 6178.0 上海 14761.75 20667.91 13773.4 江苏 9628.59 14084.26 8621.8 浙江 13348.51 18265.10 12253.7 安徽7294.73 9771.05 6367.7 福建 9807.71 13753.28 8794.4 江西 6645.54 9551.12 6109.4 ⼭东 8468.40 12192.24 7457.3 河南6685.18 9810.26 6038.0 湖北 7397.32 9802.65 6736.6 湖南 8169.30 10504.67 7505.0 ⼴东 12432.22 16105.58 11809.9 ⼴西 6791.95 9898.75 7032.8 海南 7126.78 9395.13 5928.8 重庆 9398.69 11569.74 8623.3 四川 7524.81 9350.11 6891.3 贵州6848.39 9116.61 6159.3 云南 7379.81 10069.89 6996.9 西藏 6192.57 8941.08 8617.1 陕西 7553.28 9267.70 6656.5 ⽢肃6974.21 8920.59 6529.2 青海 6530.11 9000.35 6245.3 宁夏 7205.57 9177.26 6404.3 新疆 6730.018871.276207.51、建⽴模型01122Y X X βββµ=+++2、估计模型(1)录⼊数据打开EViews6,点“File ”→“New ”→“Workfile ”选择“Unstructured/Undated”,在Observations 后输⼊31,如下所⽰:点“ok”。
02 第二课 函数拟合

多元线性回归
多元线性回归用于分析多个自变量(X1,X2… Xn )
与一个因变量( Y)之间的线性关系。 函数形式:Y = A + B1 X1 + B2 X2 +…+ Bn Xn
例 8
某湖八年来水中含氧量(Y)与工业产值(X1)、人口数
(X2)、捕鱼量(X3)、降水量(X4)见下表,建立含氧量与影
响因素之间的关系模型。
12
1.2
多元线性回归
① 在工作表中输入数据,注意Y值放在首列; ② 在工作表中选中所要拟合的数据点,点击菜单命令 【Analysis】→【Fitting】→【Multiple Linear Regression】, 打开Multiple Regression对话框;
因变量
自变量
13
1.2
结果:
15
1.3
多项式回归
② 在图中选定数据,点击菜单 命令【Analysis】 → 【Fitting】 → 【Polynomial Fit】,打开 Polynomial Fit 对话框;
③ 方程级数(Polynomial Order) 的设定依据经验或多次实验。
《回归分析课程教案》课件

《回归分析课程教案》课件第一章:引言1.1 课程目标让学生了解回归分析的基本概念和应用领域。
让学生掌握回归分析的基本原理和方法。
培养学生应用回归分析解决实际问题的能力。
1.2 教学内容回归分析的定义和分类回归分析的应用领域回归分析的基本原理和方法1.3 教学方法讲授法:讲解回归分析的基本概念和原理。
案例分析法:分析实际案例,让学生了解回归分析的应用。
1.4 教学资源课件:介绍回归分析的基本概念和原理。
案例:提供实际案例,让学生进行分析。
1.5 教学评估课堂讨论:学生参与课堂讨论,回答问题。
第二章:一元线性回归分析2.1 教学目标让学生了解一元线性回归分析的基本概念和原理。
让学生掌握一元线性回归模型的建立和估计方法。
培养学生应用一元线性回归分析解决实际问题的能力。
2.2 教学内容一元线性回归分析的定义和特点一元线性回归模型的建立和估计方法一元线性回归模型的检验和预测2.3 教学方法讲授法:讲解一元线性回归分析的基本概念和原理。
数据分析法:分析实际数据,让学生了解一元线性回归模型的建立和估计方法。
2.4 教学资源课件:介绍一元线性回归分析的基本概念和原理。
数据分析软件:用于一元线性回归模型的建立和估计。
2.5 教学评估课堂练习:学生进行课堂练习,应用一元线性回归分析解决实际问题。
第三章:多元线性回归分析3.1 教学目标让学生了解多元线性回归分析的基本概念和原理。
让学生掌握多元线性回归模型的建立和估计方法。
培养学生应用多元线性回归分析解决实际问题的能力。
3.2 教学内容多元线性回归分析的定义和特点多元线性回归模型的建立和估计方法多元线性回归模型的检验和预测3.3 教学方法讲授法:讲解多元线性回归分析的基本概念和原理。
数据分析法:分析实际数据,让学生了解多元线性回归模型的建立和估计方法。
3.4 教学资源课件:介绍多元线性回归分析的基本概念和原理。
数据分析软件:用于多元线性回归模型的建立和估计。
3.5 教学评估课堂练习:学生进行课堂练习,应用多元线性回归分析解决实际问题。
3多元回归模型说课讲解

四、例题
地区城镇居民消费模型
• 被解释变量:地区城镇居民人均消费Y • 解释变量:
– 地区城镇居民人均可支配收入X1 – 前一年地区城镇居民人均消费X2
• 样本:2006年,31个地区
数据
地区
北京 天津 河北 山西 内蒙 古 辽宁 吉林 黑龙 江 上海 江苏 浙江 安徽 福建 江西 山东 河南
3、关于拟合优度检验与方程显著性检验关 系的讨论
R2 1RS/S(nk1) F ES/Sk
TS/S(n1)
RS/S(nk1)
R21 n1 nk1kF
F
R2 /k
(1R2)/(nk1)
对于一般的实际问题,在5%的显著性水平下,F
统计量的临界值所对应的R2的水平是较低的。所以,
不宜过分注重R2值,应注重模型的经济意义;在进
15000 X1
20000
25000
变量间关系
Y
16000
14000
12000
10000
8000
6000 4000
6000
8000 10000 12000 14000
X2
OLS估计
OLS估计结果
经济意义:
X1的回归系数为0.56,表 示在其他变量不变的情况 下,人均可支配收入每增 加1元,人均消费支出可 增加0.56元。
13773.4 云 南 8621.8 西 藏
12253.7 陕 西 6367.7 甘 肃 8794.4 青 海 6109.4 宁 夏 7457.3 新 疆 6038.0
2006年消费 2006年可 2005年消 支出 支配收入 费支出
Y
7397.3
X1
9802.7
多元回归分析原理及例子

多元回归分析原理回归分析是一种处理变量的统计相关关系的一种数理统计方法。
回归分析的基本思想是: 虽然自变量和因变量之间没有严格的、确定性的函数关系, 但可以设法找出最能代表它们之间关系的数学表达形式。
回归分析主要解决以下几个方面的问题:(1) 确定几个特定的变量之间是否存在相关关系, 如果存在的话, 找出它们之间合适的数学表达式;(2) 根据一个或几个变量的值, 预测或控制另一个变量的取值, 并且可以知道这种预测或控制能达到什么样的精确度;(3) 进行因素分析。
例如在对于共同影响一个变量的许多变量(因素)之间, 找出哪些是重要因素, 哪些是次要因素, 这些因素之间又有什么关系等等。
回归分析有很广泛的应用, 例如实验数据的一般处理, 经验公式的求得, 因素分析, 产品质量的控制, 气象及地震预报, 自动控制中数学模型的制定等等。
多元回归分析是研究多个变量之间关系的回归分析方法, 按因变量和自变量的数量对应关系可划分为一个因变量对多个自变量的回归分析(简称为“一对多”回归分析)及多个因变量对多个自变量的回归分析(简称为“多对多”回归分析), 按回归模型类型可划分为线性回归分析和非线性回归分析。
本“多元回归分析原理”是针对均匀设计3.00软件的使用而编制的, 它不是多元回归分析的全面内容, 欲了解多元回归分析的其他内容请参阅回归分析方面的书籍。
本部分内容分七个部分, §1~§4介绍“一对多”线性回归分析, 包括数学模型、回归系数估计、回归方程及回归系数的显著性检验、逐步回归分析方法。
“一对多”线性回归分析是多元回归分析的基础, “多对多”回归分析的内容与“一对多”的相应内容类似, §5介绍“多对多”线性回归的数学模型, §6介绍“多对多”回归的双重筛选逐步回归法。
§7简要介绍非线性回归分析。
§1 一对多线性回归分析的数学模型§2 回归系数的最小二乘估计§3 回归方程及回归系数的显著性检验§4 逐步回归分析§5 多对多线性回归数学模型§6 双重筛选逐步回归§7 非线性回归模型§1 一对多线性回归分析的数学模型设随机变量与个自变量存在线性关系:, (1.1)(1.1)式称为回归方程, 式中为回归系数, 为随机误差。
多元线性回归

ˆ0 ei ˆ1 ei X1i ˆk ei X ki Y ei
=0
所以有:
TSS (Yi Yˆi )2
(Yˆi
2
Y)
RSS
ESS
注意:一个有趣的现象
Yi Y Yi Yˆi Yˆi Y
Yi
Y
2
Yi Yˆi
2
Yˆi
Y
2
Yi Y 2
Yˆi ˆ0 ˆ1 X1i ˆ2 X 2i ˆki X Ki i=1,2…n
• 根据最 小二乘原 理,参数 估计值应
该是右列
方程组的 解
ˆ
0
Q
0
ˆ1
Q
0
ˆ
2
Q
0
ˆ k
Q
0
n
n
其 Q ei2 (Yi Yˆi )2
中
i 1
n
i 1
2
(Yi (ˆ0 ˆ1 X1i ˆ2 X 2i ˆk X ki ))
1 X 12 Xk2
1 Y1
X 1n Y2
X kn
Yn
即
(XX)βˆ XY
由于X’X满秩,故有 βˆ (XX)1 XY
17
用含两个解释变量的矩阵形式来表示X’X:
1 1
X X
11
X X 21
12
22
1
XX XX 1
1
X 13
X X X 23
1
11 12
1n
21
20
XY
1 X1
1 X2
Y1
1 X n
Y2 Yn
Yi X iYi
3914506608877424091000
可求得:
多元线性回归模型
统计学第4章 多元线性回归模型第1节 多元线性回归模型概述(一)多元线性回归模型形式一般来说,我们研究的变量往往受多个因素的影响,如作物的收成会受气温,施肥量,降雨量等等的影响,对某中商品的消费需求会受该商品价格,收入,其他商品价格等的影响。
因此,我们要讨论一个变量对两个以上变量的统计依赖关系。
1)多元线性回归模型的一般表现形式:122i i k ik i Y X X βββε=++++,1,2,,i n =其中,k 为解释变量的数目,(1,2,,)j j k β= 习惯上,把常数项看成为取值恒为1的变量的系数,上述表达式也被称为总体回归函数的随机表达形式。
其非随机形式为:12122(,,,)i i ik i k ik E Y X X X X X βββ=+++表示各变量X 值固定时Y 的平均响应j β 也称为偏回归系数,表示在其他解释变量保持不变的情况下,j X 每变化一个单位时,Y 的均值()E Y 的变化。
或者说j β给出了j X 单位变化对Y 均值的“直接”或“净”(不含其它变量)影响。
总体线性回归模型n 个随机方程的矩阵表达式为:11212112122222122Y X ...k k k k n n k nk nX Y X X Y X X βββεβββεβββε=++++⎧⎪=++++⎪⎪⎪⎨⎪⎪⎪=++++⎪⎩将此方程组写成矩阵形式:112131122223222231...1.................................1...k k n n n nk k n Y X X X Y XX X Y X X X βεβεβε⎡⎤⎡⎤⎡⎤⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥=+⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦⎣⎦⎣⎦简写为:11n n k n Y XB ε⨯⨯⨯=+2)样本回归函数及其矩阵表达用一定的方法对1β,2β,…,k β估计后,122ˆˆˆˆ...i i k ik Y X X βββ=+++ 残差:ˆi i iY Y e -= 样本回归方程的随机形式可表示为:122ˆˆˆ...i i k ik i Y X X e βββ=++++ 则其矩阵表达为:ˆˆYXB = 或ˆY XB e =+ 其中12ˆˆ.ˆ..ˆn Y Y YY ⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦ , 12ˆˆ.ˆ..ˆk B βββ⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦, 12...n e e e e ⎡⎤⎢⎥⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦(二) 多元线性回归模型的基本假定 1. X 与Y 之间的关系是线性的121...i i k ik i Y X X βββε=++++, N i ,...,2,1= 即12(,,,)i i ik E Y X X X 是参数的线性函数。
06非线性回归模型-PPT课件
9
例6.2.1:设某商店1991—2000年的商品流通费用率和商 品零售额资料如表6.2.2所示。根据表中资料,配合适当 的回归模型分析商品零售额与流通费用率的关系,若 2019年该商店商品零售额为36.33万元,试预测2019年的 商品流通费用额。
解:
第一步,绘制散点图(见图6.2.1)。从图中可以清楚地看到:随着商品零
►由于这类模型的因变量没有变形,所以可以直接采用最小二
乘法估计回归系数并进行检验和预测。
– 第二类,间接代换型
►这类非线性回归模型经常通过对数变形代换间接地化为线性 回归模型。如式(6.1.5)、式(6.1.6)和式(6.1.7)。
6
►由于这类模型在对数变形代换过程中改变了因变量的形态, 使得变形后模型的最小二乘估计失去了原模型的残差平方和为
2
曲线的形式也因实际情况不同而有多种形式。配曲线问题 主要包括:
– 1、选配拟合曲线(即确定变量间函数的类型): ►可以根据理论分析或过去的实际经验事先确定; ►不能根据理论或过去积累的经验确定时,根据实际资 料作散点图,从其分布形状选择适当的曲线来配合。 – 2、确定相关函数中的未知参数
►最小二乘法是确定未知参数最常用的方法。
– (3)对数模型,其方程式为
y l n x u i 1 2 i i
– (4)三角函数模型,其方程式为
( 6 . 1 . 3 )
y s i n xu ( 6 . 1 . 4 ) i 1 2方程式为
x x u 0 1 1 i 2 2 i i y e i
– (6)幂函数模型,其方程式为
b y a x u i i i
i y = a b u i
《回归分析 》课件
通过t检验或z检验等方法,检验模型中各个参数的显著性,以确定 哪些参数对模型有显著影响。
拟合优度检验
通过残差分析、R方值等方法,检验模型的拟合优度,以评估模型是 否能够很好地描述数据。
非线性回归模型的预测
预测的重要性
非线性回归模型的预测可以帮助我们了解未来趋势和进行 决策。
预测的步骤
线性回归模型是一种预测模型,用于描述因变 量和自变量之间的线性关系。
线性回归模型的公式
Y = β0 + β1X1 + β2X2 + ... + βpXp + ε
线性回归模型的适用范围
适用于因变量和自变量之间存在线性关系的情况。
线性回归模型的参数估计
最小二乘法
最小二乘法是一种常用的参数估计方法,通过最小化预测值与实 际值之间的平方误差来估计参数。
最大似然估计法
最大似然估计法是一种基于概率的参数估计方法,通过最大化似 然函数来估计参数。
梯度下降法
梯度下降法是一种迭代优化算法,通过不断迭代更新参数来最小 化损失函数。
线性回归模型的假设检验
线性假设检验
检验自变量与因变量之间是否存在线性关系 。
参数显著性检验
检验模型中的每个参数是否显著不为零。
残差分析
岭回归和套索回归
使用岭回归和套索回归等方法来处理多重共线性问题。
THANKS
感谢观看
04
回归分析的应用场景
经济学
研究经济指标之间的关系,如GDP与消费、 投资之间的关系。
市场营销
预测产品销量、客户行为等,帮助制定营销 策略。
生物统计学
研究生物学特征与疾病、健康状况之间的关 系。
多元线性回归的计算方法
受约束回归在建立回归模型时,有时根据经济理论需对模型中变量的参数施加一定的约束条件。
如:0阶齐次性条件的消费需求函数1阶齐次性条件的C-D生产函数模型施加约束条件后进行回归,称为受约束回归(restricted regression);不加任何约束的回归称为无约束回归(unrestricted regression)。
受约束回归一、模型参数的线性约束二、对回归模型增加或减少解释变量三、参数的稳定性*四、非线性约束讨论:如果约束条件无效,RSSR 与RSSU的差异较大,计算的F值也较大。
于是,可用计算的F统计量的值与所给定的显著性水平下的临界值作比较,对约束条件的真实性进行检验。
注意,kU-k R恰为约束条件的个数。
合并两个时间序列为( 1,2,…,n 1,n 1+1,…,n 1+n 2),则可写出如下无约束回归模型⎟⎟⎠⎞⎜⎜⎝⎛+⎟⎟⎠⎞⎜⎜⎝⎛⎟⎟⎠⎞⎜⎜⎝⎛=⎟⎟⎠⎞⎜⎜⎝⎛212121μμαβX 00X Y Y 如果α=β,表示没有发生结构变化,因此可针对如下假设进行检验:H 0: α=β(*)式施加上述约束后变换为受约束回归模型(*)⎟⎟⎠⎞⎜⎜⎝⎛+⎟⎟⎠⎞⎜⎜⎝⎛=⎟⎟⎠⎞⎜⎜⎝⎛212121μμβX X Y Y (**)例中国城镇居民食品人均消费需求的邹氏检验。
1、参数稳定性检验1981~1994:)ln(92.0)ln(08.0)ln(05.163.3)ˆln(01P P X Q −−+=RSS 1=0.0032401995~2001:1ln 71.0ln 06.3ln 55.078.13ln P P X Q +−+=(9.96) (7.14) (-5.13) (1.81)1981~2001:1ln 39.1ln 14.0ln 21.100.5ln P P X Q −−+=(14.83) (27.26) (-3.24) (-11.17)在中国城镇居民人均食品消费需求例中,对零阶齐次性的检验:LR= -2(38.57-38.73)=0.32(1)=3.84,给出α=5%、查得临界值χ20.05判断:LR< χ2(1),不拒绝原约束的假设,0.05表明:中国城镇居民对食品的人均消费需求函数满足零阶齐次性条件。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
从非线性回归到多元回归 11_曲线回归 首先,可以建立最一般的线性回归方程 发现,x增大之后,y的增加幅度变小了。可以通过ln变换来减慢x的增加速度。 对x进行ln变换得到新的属性列 也可以转换为一般的线性回归方程 继续基于x自变量 变换出新的 x^2 和 x^3 属性列 二次 和 三次 的回归方程 仍然用建立一般线性回归方程的方法来解决
一般,方程越复杂,模型能够解释的总体变异也就越大,R^2越大。调整的R^2可以权衡方程的复杂程度和总体变异的解释比例。 三次曲线方程的R^2略大于对数曲线的R^2,但是调整后的R^2值,对数曲线较大。因此,最终选择对数曲线模型。 12_非线性回归 前面例子中,各种模型的构成形式已经确定了。 如果希望,更加灵活地建立用户自定义的模型,就要用到非线性回归。
这里的情况是,y较大时,增长幅度太快了,可以通过lny变换来生成新的属性列。 通过x-lny的散点图 非常好的线性关系 是否可以建立lny 与 x 之间的线性回归模型 试一下
但是这样不能保证y的残差(exp(a+bxi)-yi)平方和最小,只能保证(a+bxi-lnyi)的平方和最小。 但是 得到的回归系数可以记下来 看作近似值 决定系数 R^2 = 0.955
非线性回归 得到了 新的 回归系数 决定系数 R^2 = 0.987 也得到了提高
这里得到了每一个样本个体的残差值 还需要计算得到 标准化的残差 通过 y-标准化残差值 散点图 判断 残差是否与y值无关 是否有异常点
这里讲到的回归方程中,虽然包括了自变量x的不同变换的形式,但仍然只是一个自变量。现实中我们关注的因变量,常常同时受多个自变量的影响。
多元线性回归分析 多元线性回归是简单线性回归的直接推广,其包含一个因变量和二个或二个以上的自变量。简单线性回归是研究一个因变量(Y)和一个自变量(X)之间数量上相互依存的线性关系。而多元线性回归是研究一个因变量(Y)和多个自变量(Xi)之间数量上相互依存的线性关系。 简单线性回归的大部分内容可用于多元回归,因其基本概念是一样的。
多元线性回归模型与参数估计 设有自变量x1,x2,…,xp和因变量Y以及一份由n个个体构成的随机样本(x1i,x2i,…,xpi,,,Yi),且有如下关系:E(y) =B0+B1x1+B2x2+…+Bp xp (模型) B0、B1、B2和Bp为待估参数 对于不同的x1 x2 … xp取值,y 的期望值不同,但方差要求是一样的。
参数的最小二乘估计 与简单回归类似,我们寻求参数B0、B1、B2和Bp的适宜估计数值b0、b1、b2和bp,,使实际观察值和回归方程估计值之间残差平方和最小。 由一组样本数据,可求出等估参数的估计值b0、b1、b2和bp,,得到如下回归方程: ŷi =b0+b1x1+b2x2+…+bp xp 由此可见,建立回归方程的过程就是对回归模型中的参数(常数项和偏回归系数)进行估计的过程。
回归方程和偏回归系数的假设检验 回归方程的假设检验: 建立回归方程后,须分析因变量Y与这p个自变量之间是否确有线性回归关系,可用F分析。 H0:B1=B2=….=Bp=0 H1:H0不正确 F = MS回归 / MS误差 MS回归 =SS回归/p MS误差 =SS误差/(n-p-1) SS误差为残差平方和
偏回归系数的假设检验 方程整体有统计显著性,不一定每个自变量也有统计显著性。回归方程的假设检验若拒绝H0,则可分别对每一个偏回归系数bj作统计检验,实质是考察在固定其它变量后,该变量对因变量 Y 的影响有无显著性。 H0:Bj=0 H1:Bj不为零 F = (Xj 的偏回归平方和/1) / MS误差 Xj 的偏回归平方和:某一个自变量的集合中去掉Xj后回归平方和的减少量,MS误差为包含Xj的原自变量集合的残差均方差。 若无法拒绝H0,可把Xj从回归方程中剔除,余下变量重新构建新的方程。
标准化偏回归系数: 在比较各自变量对因变量相对贡献大小时,由于各自变量自身的可能变化幅度(方差)不同,不能直接用偏回归系数的大小作比较,须用标准化偏回归系数。 例如,y=2x1+5x2+…… X1的变化幅度从(5,25),x2的变化幅度从(100,102)。虽然x2的偏回归系数较大,但是对于y的变化影响幅度较小。说明,一般的偏回归系数大小,并不能反映该自变量对y的影响程度大小。 需要将所有自变量和因变量标准化之后,建立的回归方程系数,标准化偏回归系数: bj ´ = bj (sj / sy)
决定系数: 简记为R^2,即回归平方和 SS回归 与总离均差平方和 SS总 的比例。 R^2 = SS回归/ SS总 可用来定量评价在Y的总变异中,由P个自变量建立的线性回归方程所能解释的比例。 复相关系数:R = sqrt(R^2) Y与多个自变量之间的线性相关程度,亦即观察值Y与估计值ŷ之间的相关程度。
回归分析中的若干问题 样本量n足够大,至少应是自变量个数的5-10倍。 资料要求:总体服从多元正态分布。但实际工作中分类变量也可做分析。 分类变量在回归分析中的处理方法 有序分类:例如治疗效果,用一个自变量即可:x=0(无效) x=1(有效) x=2(治愈) 无序分类:则每一个无序k分类变量,要用k-1个自变量(0-1变量)(伪变量)来描述 如职业,分四类可用三个伪变量描述: x1 x2 x3 工人 1 0 0 农民 0 1 0 干部 0 0 1 学生 0 0 0
回归方程中自变量的选择 虽然引入方程的自变量越多,即使没有统计显著性,也一定可以提高决定系数R^2的值,但是,多元线性回归方程中并非自变量越多越好,原因是自变量越多,同时也增加收集资料的难度;同时无关的自变量,会影响对其他自变量的偏回归系数值的正确估计。故需寻求“最佳”回归方程,逐步回归分析是寻求“较佳”回归方程的一种方法。
选择变量的统计学标准 R^2最大 R^2 = SS回归/ SS总 调整的R^2最大 调整的R^2=1-MS误差/ MS总 Cp值最接近p+1 Cp=(n-p-1)(MS误差.p/MS误差.全部 - 1)+(p+1) 当p个自变量拟合的回归方程在理论上最好时,Cp的期望值是p+1
选择变量的方法 最优子集回归分析法: p个变量会有2^p-1个候选的方程 逐步回归分析 向前引入法(forward selection) 向后剔除法(backward selection) 逐步引入-剔除法(stepwise selection)
向前引入法(forward selection) 自变量由少到多一个一个引入回归方程。要求对新引入的变量进行偏回归系数假设检验时,统计显著性p值,是所有候选变量中最小的,且小于预先给定的阈值。 向后剔除法(backward selection) 自变量先全部选入方程,每次剔除一个使上述检验最不能拒绝H0者,p值最大者,直到不能剔除为止(所有p值都小于预先给定的某阈值)。
逐步引入-剔除法(stepwise selection) 先规定两个检验水准alpha引入和alpha剔除,当候选变量中最小P值<=alpha引入时,引入相应变量;已进入方程的变量最大P值>=alpha剔除时,剔除相应变量。如此交替进行直到无引入和无剔除为止。
13_14 测量了27名糖尿病人的血清总胆固醇x1、甘油三酯x2、空腹胰岛素x3、糖化血红蛋白x4、空腹血糖y,试建立空腹血糖与其他4个指标的多元线性回归方程。
Spss 样本量较大时 用 0.05 0.10 样本量不太大时 用 0.10 0.15 Y与x1有较高的相关性,但仍然被剔除掉了。 模型5比模型4,R^2略微减少,但是调整的R^2增大了。 标准化的偏回归系数 说明影响程度
sas 全部变量引入方程 R^2=0.6 adj R^2=0.528 整体模型有统计显著性 但是 x1 变量的偏回归系数 无显著性 Std 显示 标准化的 偏回归系数 筛选变量之后 R^2稍微减少了 但是 adj R^2增大了 模型的R^2 单独每个自变量的偏R^2 C(p) 模型5 最接近 p+1
剔除方式 x1的p 值为0.70 大于了0.10 剔除 剔除之后 x2 x3 x4 重新建立回归方程 得到各自的统计显著性p值 都小于0.10
前进方式 第二步就纳入了x1自变量 再纳入x3 x2之后 x1的统计显著性p值变大了
多重共线性问题 例如 理论上应该的回归方程为 y = 2x1 + 3x2 现在引入了一个x3,与x2高度共线性,x3近似等于2x2 则 样本测量值的微小变动,可能产生 Y = 2x1 + x2 +x3 Y=2x1 + 1.5x3 Y=2x1 – x2 + 2x3 等几种不同的回归方程 15_16 多元回归 共线性 spss 全部变量纳入 决定系数 R^2 = 0.855 调整R^2=0.819 X2 x4 没有显著性 但是 x5 x6 都有显著性 看最后一行 条件指数 远大于 10 而且有两个变量的方差比例都非常大 接近1 X6 的 方差比例最大 可以剔除
此时的自变量之间 已经没有很大的相关系数了 去除共线 筛选变量 决定系数 R^2 = 0.820 调整R^2=0.800
如果把x6纳入自变量 进行筛选 注意 x5 x6 的 偏回归系数 tolerance 和 VIF 的值 对比 正确回归方程的 系数 而且 x6 与 y 的正相关关系 也与专业知识相违背
相比于其他变量 Y 与 x4 有着较大的相关系数 为什么没能进入回归方程 在计算y-x4的相关系数时,y 的值还同时受到了其他变量的影响 还需要考察 去除其他变量影响之后的 y-x4之间的偏相关系数