岭回归研究分析

岭回归研究分析
岭回归研究分析

岭回归分析

————————————————————————————————作者:————————————————————————————————日期:

岭回归分析

一、普通最小二乘估计带来的问题

当设计矩阵X 呈病态时,X 的列向量之间有较强的线性相关性,即解释变量间出现严重的多重共线性,在这种情况下,用普通最小二乘法估计模型参数,往往参

数估计的方差太大,即jj jj j L C 2)?var(σβ=很大,j β?就很不稳定,在具体取值上与真值有较大的偏差,有时会出现与实际经济意义不符的正负号。下面看一个例子,可以说明这一点。

假设已知1x ,2x 与y 的关系服从线性回归模型:ε+++=213210x x y ,给定

1x ,2x 的10个值,如下表1,2行所示:

表7.1

序号 1 2 3 4 5 6 7 8 9 10 (1) x 1 1.1 1.4 1.7 1.7 1.8 1.8 1.9 2.0 2.3 2.4 (2) x 2 1.1 1.5 1.8 1.7 1.9 1.8 1.8 2.1 2.4 2.5 (3) εi 0.8 -0.5 0.4 -0.5 0.2 1.9 1.9 0.6 -1.5 -1.5 (4)

y i

16.3 16.8 19.2 18.0 19.5 20.9 21.1 20.9 20.3 22.0

然后用模拟的方法产生10个正态随机数,作为误差项ε,见表第3行。然后再由回归模型i i i i x x y ε+++=213210计算出10个i y 值,见表第4行。现在假设回归

系数与误差项是未知的,用普通最小二乘法求回归系数的估计得:0

?β=11.292, 1?β=11.307,2?β=-6.591,而原模型的参数0β=10,1

β=2,2β=3看来相差太大。计算1x ,2x 的样本相关系数得12r =0.986,表明1x 与2x 之间高度相关。通过这个例子可以看到解释变量之间高度相关时,普通最小二乘估计明显变坏。 二、岭回归的定义

当自变量间存在多重共线性,|X X '|≈0时,设想给X X '加上一个正常数矩阵kI (k>0)那么X X '+kI 接近奇异的程度就会比X X '接近奇异的程度小得多。考虑到变量的量纲问题,先要对数据标准化,标准化后的设计矩阵仍用X 表示,定义

y X kI X X k '+'=-1)()(?β

称为β的岭回归估计,其中,k 称为岭参数。由于假设X 已经标准化,所以X X '就是自变量样本相关阵。y 可以标准化也可以未标准化,

如果y 也经过标准化,那么计算的实际是标准化岭回归估计。)(?k β

作为β的估计应比最小二乘估计β

?稳定,当k=0时的岭回归估计)0(?β就是普通的最小二乘估计。因为岭参数k 不是唯一确定的,所以得到的岭回归估计)(?k β

实际是回归参数β的一个估计族。

三、岭回归估计的性质

性质1,)(?k β

是回归参数β的有偏估计。 证明:ββ

X X kI X X y E X kI X X y X kI X X E k E '+'='+'='+'=---111)()()())(()](?[显然只有当k=0时,ββ

?)]0(?[=E ;当k ≠0时,)(?k β是β的有偏估计。 性质2,在认为岭参数k 是与y 无关的常数时,)(?k β=y X kI X X '+'-1)(是最小二乘估计β

?的一个线性变换。也是y ?的线性函数。 证明:ββ

?)()()()()(?1111X X kI X X y X X X X X kI X X y X kI X X k '+'='''+'='+'=---- 性质3,对任意k>0,0?≠β

,总有ββ?)(?

看看成由β?进行某种向原点的压缩。从)(?k β的表达式可以看到,当k →∞时,)(?k β→0,即)(?k β

化为零向量。

性质4,以MSE 表示估计向量的均方误差,则存在k>0,使得)?()](?[ββMSE k MSE <。

四、岭迹分析

当岭参数k 在(0,∞)内变化时,)(?k β是k 的函数,在平面坐标系上把函数)(?k β

描画出来,画出的曲线称为岭迹。

在图a 中,)0(?j β=j β?>0,且比较大。从古典回归分析的观点看,应将j x 看作是对y 有重要影响的因素。但)(?k j β的图形显示出相当的不稳定,当k 从零开始略增加时, )(?k j β显著地下降,而且迅速趋于零,因而失去预测能力。从岭回归的观点看,j x 对y 不起重要作用,甚至可以去掉这个变量。

在图b 中,j β?=)0(?j β>0,但很接近0。从古典回归分析看,j x 对y 的作用不大。但随着k 略增加,)0(?j β骤然变为负值,从岭回归观点看,j x 对y 有显著影响。 在图c 中,j β?=)0(?j β>0,说明j x 还比较显著,但当k 增加时,迅速下降,且稳定为负值,从古典回归分析看j x 对y 有正影响的显著因素,而从岭回归分析角度看,j x 要被看作是对y 有负影响的因素。

在图d 中,)(?1k β和)(?2

k β都很不稳定,但其和却大体上稳定。这种情况往往发生在自变量1x 和2x 的相关性很大的场合,即1x 和2x 之间存在多重共线性的情形。因此,从变量选择的观点看,两者只要保存一个就够了。这种情况可用来解释某些回归系数估计的符号不合理的情形,从实际观点看,1β和2β不应该有相反符号。岭回归分析的结果对这一点提供了解释。

从全局考虑,岭迹分析可用来估计在某一具体实例中最小二乘估计是否适用,把所有回归系数的岭迹都描在一张图上,如果这些岭迹线“不稳定度”很大,整个系统呈现比较“乱”的局面,往往就会怀疑最小二乘估计是否很好地反映了真实情况。如图e 那样。如果情况如图f 那样,则对最小二乘估计可以有更大的信心。

五、岭参数k 的选择

岭参数选择的目的是要选择使MSE ()(?k β

)达到最小的k ,最优k 值依赖于未知参数β和2σ。

1、岭迹法

岭迹法的直观考虑是,如果最小二乘估计看来有不合理之外,如估计值以及

正负号不符合经济意义,希望能通过采用适当的岭估计)(?k β

来加以一定程度的改善,岭参数k 值的选择就是尤为重要。选择k 值的一般原则是:

(1)各回归系数的岭估计基本稳定;

(2)用最小二乘估计时符号不合理的回归系数,其岭估计的符号变得合理。 (3)回归系数没有不合乎经济意义的绝对值;

(4)残差平方和增大不太多。

岭迹法与传统的基于残差方法相比,在概念上来说是完全不同的,岭迹法对于分析各变量之间的作用和关系是有帮助的。 2、方差扩大因子法

应用方差扩大因子法选择k 的经验做法是:选择k 使所有方差扩大因子

10≤jj c ,当10≤jj c 时,所对应的k 值的岭估计)(?k β

就会相对稳定。 3、由残差平方和来确定k 值

岭估计)(?k β在减小均方误差的同时增大了残差平方和,我们希望岭回归的残

差平方和)(k SSE 的增加幅度控制在一定的限度以内,从而可以给定一个大于1的c 值,要求cSSE k SSE <)(,寻找使该式成立的最大的k 值。

六、用岭回归选择变量

岭回归选择变量的原则:

1、在岭回归的计算中,假定设计矩阵X 已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。

2、当k 值较小时,标准化岭回归系数的绝对值并不是很小,但是不稳定,随着k 的增加迅速趋于零,像这样岭回归系数不稳定,震动趋于零的自变量可以予以剔除。

3.去掉标准化岭回归系数很不稳定的自变量。如果有若干个岭回归系数不稳定,究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。 七、实例分析——用岭回归选择变量

例1:空气污染问题,研究死亡率与空气污染、气候以及社会经济状况等因素的关系。考虑了15个解释变量,收集了60组样本数据。

x1— 平均年降雨量;x2—1月份平均气温;x3—7月份平均气温 x4— 年龄65岁以上的人口占总人口的百分比;x5—每家人口数 x6— 年龄在22岁以上的人受教育年限的中位数

x7—住房符合标准的家庭比例数;x8—每平方公里人口数 x9—非白种人占总人口的比例;x10—白领阶层人口比例

x11— 收入在3000美元以下的家庭比例;x12—碳氢化合物的相对污染势 x13—氮氧化合物的相对污染势;x14—二氧化硫的相对污染势 x15—年平均相对湿度;y —每十万人中的死亡人数

这个问题收集了60组样本数据。根据样本数据,计算X X '的15个特征根为: 4.5272,2.7547,2.0545,1.3487,1.2227 0.9605,0.6124, 0.4729,0.3708,0.2163 0.1665,0.1275,0.1142,0.0460,0.0049

后面两个特征根很快接近零,由条件数可知:151λλλλ==j m j k =30.396,说明设计矩阵X 含较严重的多重共线性。

进行岭迹分析,把15个回归系数的岭迹绘成下图,从图中看到,当k=0.2

时,岭迹大体上达到稳定。按照岭迹法,应取k=0.2。若用方差扩大因子法,当k 在0.02~0.08时,方差扩大因子小于10,故应在此范围选取k ,由此可以看到不同的方法选取的k 值是不同的。

在用岭回归进行变量选择时,因为从岭迹看到自变量x4,x7,x10,x11和x15有较稳定且绝对值较小的岭回归系数,根据变量选择的第一条原则,这些自变量可以去掉。又因为,自变量x12和x13的岭回归系数很不稳定,且随着k 的增加很快趋于零,根据上面的第二条原则这些自变量也应该去掉。还可根据第三条原则去掉变量x3,x5。这个问题最后剩的变量是x1,x2,x6,x8,x9,x14即可用这些自变量去建立一个回归方程。

例2.本例共有10个自变量,X 已经中心化和标准化了,X X '的特征根为: 3.692,1.542,1.293,1.046,0.972, 0.659,0.357,0.220,0.152,0.068

最后一个特征根10λ=0.068,较接近于零==101λλk 7.368,条件数k=7.368<10从条件数的角度看,似乎设计矩阵X 没有多重共线性。但下面的研究表明,作岭回归还是必要的。关于条件数,这里附带说明它的一个缺陷,就是当X X '所有特征根都较小时,虽然条件数不大,但多重共线性却存在。

下面作岭回归分析。对15个k 值算出)(?k β

,画出岭迹,如下图所示,从图中可以看到,最小二乘估计的稳定性很差,这反映在当k 与0略有偏离时,)(?k β与β?=)0(?β就有较大的差距,特别是|5?β|和|6

?β|下降最多。当k 从0上升到0.1

时,2)(?k β

下降到2

)0(?β的59%,而在正交设计的情形只下降17%。这些现象在直观上就使人怀疑最小二乘估计β

?是否反映了β的真实情况。

另外,因素x5的回归系数的最小二乘估计5?β为负回归系数中绝对值最大的,但当k 增加时,)(?5k β迅速上升且变为正的,与此相反,对因素x6,6?β为正的,且绝对值最大,但当k 增加时,)(?6k β迅速下降。再考虑到x5,x6样本相关系数达到0.84,因此这两个因素可近似地合并为一个因素。

再看x7,它的回归系数估计7?β绝对值偏高,当k 增加时,)(?7k β很快接近于0,这意味着x7实际上对y 无多大影响。至于x1,其回归系数的最小二乘估计

绝对值看来有点偏低,当k 增加时,|)(?1k β|首先迅速上升,成为对因变量有负影响的最重要的自变量。当k 较大时,|)(?1

k β|稳定地缓慢趋于零。这意味着,通常的最小二乘估计对x1的重要性估计过低了。

从整体上看,当k 达到0.2~0.3的范围时,各个)(?k j

β已大体上趋于稳定,因此,在这区间上取一个k 值作岭回归可能得到较好的效果。本例中)(?5k β和)(?7k β当k 从0略增加时,很快趋于0,于是它们很自然是应该剔除的。去掉它们之后,重作岭回归分析,岭迹基本稳定。因此去掉x5和x7是合理的。

八、实例分析——用岭回归处理多重共线性问题

(注!如果希望回归方程中保留一些自变量,那么岭回归方法是很有用的方法。)

例:用岭回归方法处理民航客运数据的多重共线性问题。

岭回归解决多重共线性

一、引言 回归分析是一种比较成熟的预测模型,也是在预测过程中使用较多的模型,在自然科学管理科学和社会经济中有着非常广泛的应用,但是经典的最小二乘估计,必需满足一些假设条件,多重共线性就是其中的一种。实际上,解释变量间完全不相关的情形是非常少见的,大多数变量都在某种程度上存在着一定的共线性,而存在着共线性会给模型带来许多不确定性的结果。 二、认识多重共线性 (一)多重共线性的定义 设回归模型01122p p y x x x ββββε=+++?++如果矩阵X 的列向量存在一组不全 为零的数012,,p k k k k ?使得011220i i p i p k k x k x k x +++?+=, i =1,2,…n ,则称其存在完全共线性,如果022110≈+?+++p i p i i x k x k x k k , i =1,2,…n ,则称其存在 近似的多重共线性。 (二)多重共线性的后果 1.理论后果 对于多元线性回归来讲,大多数学者都关注其估计精度不高,但是多重共线性不可 能完全消除,而是要用一定的方法来减少变量之间的相关程度。多重共线性其实是由样本容量太小所造成的后果,在理论上称作“微数缺测性”,所以当样本容量n 很小的时候,多重共线性才是非常严重的。 多重共线性的理论后果有以下几点: (1)保持OLS 估计量的BLUE 性质; (2) 戈德伯格提出了近似多重共线性其实是样本观测数刚好超过待估参数个数时出现的 情况。所以多重共线性并不是简单的自变量之间存在的相关性,也包括样本容量的大小问题。 (3)近似的多重共线性中,OLS 估计仍然是无偏估计。无偏性是一种多维样本或重复抽样 的性质;如果X 变量的取值固定情况下,反复对样本进行取样,并对每个样本计算OLS 估计量,随着样本个数的增加,估计量的样本值的均值将收敛于真实值。 (4)多重共线性是由于样本引起的。即使总体中每一个X 之间都没有线性关系,但在具体 取样时仍存在样本间的共线性。 2.现实后果 (1)虽然存在多重共线性的情况下,得到的OLS 估计是BLUE 的,但有较大的方差和协方差, 估计精度不高; (2)置信区间比原本宽,使得接受0H 假设的概率更大;

岭回归1

1、做多自变量的线性回归,在统计量面板内选:共线性诊断(L); 2、如结果中的方差膨胀系数(VIF)>5,则可做岭回归分析; 3、新建语法编辑器,输入如下命令: INCLUDE '安装目录\Ridge regression.sps'. RIDGEREG DEP=因变量名 /ENTER = 自变量名(用空格分开) /START=0 /STOP=1[或其它数值] /INC=0.05[或其它搜索步长] /K=999 . 4、选择运行全部,得到各自变量岭迹图和决定系数R2与K值的关系图,在 图上作参考线,取一岭迹平稳并且R2值较大的平衡点的K值; 5、将语法编辑器中的K值改为所选K值,再运行全部,得到详细的最终模型 参数。 岭回归分析实际上是一种改良的最小二乘法,是一种专门用于共线性数据分析的有偏估计回归方法。岭回归分析的基本思想是当自变量间存在共线性时,解释变量的相关矩阵行列式近似为零,X'X是奇异的,也就是说它的行列式的值也接近于零,此时OLS估计将失效。此时可采用岭回归估计。岭回归就是用X'X+KI代替正规方程中的X'X,人为地把最小特征根由minλi提高到min(λi+k),希望这样有助于降低均方误差。SAS可以用来做岭回归分析 岭回归分析 1 岭回归估计量 岭回归分析是一种修正的最小二乘估计法,当自变量系统中存在多重相关性时,它可以提供一个比最小二乘法更为稳定的估计,并且回归系数的标准差也比最小二乘估计的要小。 根据高斯——马尔科夫定理,多重相关性并不影响最小二乘估计量的无偏性和最小方差性。但是,虽然最小二乘估计量在所有线性无偏估计量中是方差最小的,但是这个方差却不一定小。于是可以找一个有偏估计量,这个估计量虽然有微小的偏差,但它的精度却能够大大高于无偏的估计量。 在应用岭回归分析时,它的计算大多从标准化数据出发。对于标准化变量,最小二乘的正规方程为 rXXb=ryX 式中,rXX是X的相关系数矩阵,ryX是y与所有自变量的相关系数向量。 岭回归估计量是通过在正规方程中引入有偏常数c(c≥0)而求得的。它的正规方程为+

岭回归分析

岭回归分析 一、普通最小二乘估计带来的问题 当设计矩阵X 呈病态时,X 的列向量之间有较强的线性相关性,即解释变量间出现严重的多重共线性,在这种情况下,用普通最小二乘法估计模型参数,往往参 数估计的方差太大,即jj jj j L C 2)?var(σβ=很大,j β?就很不稳定,在具体取值上与真值有较大的偏差,有时会出现与实际经济意义不符的正负号。下面看一个例子,可以说明这一点。 假设已知1x ,2x 与y 的关系服从线性回归模型:ε+++=213210x x y ,给定1x ,2x 的10个值,如下表1,2行所示: 表7.1 然后用模拟的方法产生10个正态随机数,作为误差项ε,见表第3行。然后再由回归模型i i i i x x y ε+++=213210计算出10个i y 值,见表第4行。现在假设回归系数与误差项是未知的,用普通最小二乘法求回归系数的估计得:0 ?β=11.292,1?β=11.307,2 ?β=-6.591,而原模型的参数0β=10,1β=2,2β=3看来相差太大。计算1x ,2x 的样本相关系数得12r =0.986,表明1x 与2x 之间高度相关。通过这个例子可以看到解释变量之间高度相关时,普通最小二乘估计明显变坏。 二、岭回归的定义 当自变量间存在多重共线性,|X X '|≈0时,设想给X X '加上一个正常数矩阵kI (k>0)那么X X '+kI 接近奇异的程度就会比X X '接近奇异的程度小得多。考虑到变量的量纲问题,先要对数据标准化,标准化后的设计矩阵仍用X 表示,定义y X kI X X k '+'=-1)()(?β称为β的岭回归估计,其中,k 称为岭参数。由于假设X 已经标准化,所以X X '就是自变量样本相关阵。y 可以标准化也可以未标准化, 如果y 也经过标准化,那么计算的实际是标准化岭回归估计。)(?k β 作为β的估计应比最小二乘估计β ?稳定,当k=0时的岭回归估计)0(?β就是普通的最小二乘估计。因为岭参数k 不是唯一确定的,所以得到的岭回归估计)(?k β 实际是回归参数β的一个估计族。

岭回归理论知识

一、普通最小二乘估计带来的问题 当自变量间存在多重共线性时,回归系数估计的方差就很大,估计值就很不稳定。此时模型或数据的微小变化有可能造成系数估计的较大变化,对预测值产生较大影响。下面进一步用一个模拟的例子来说明这一点。 例1 假设已知1x ,2x 与y 的关系服从线性回归模型 ε+++=213210y x x 给定1x ,2x 的10个值,如下表: 表1. 二.、岭回归提出的背景 岭回归是1970年由Hoerl 和Kennard 提出的, 它是一种有偏估计,是对最小二乘估计的改进。 设有多重线性回归模型εβ+=X y ,参数β的最小二乘估计为 y )(?1X X X ''=-β

则 122)()?(-'=-X X tr E σββ 242)(2)?(-'=-X X tr D σββ 当自变量出现多重共线性时,普通最小二乘估计明显变坏。当0≈'X X 时,i λ1 就会变得很大,这时,尽管β ?是β的无偏估计,但β?很不稳定,在具体取值上与真值有较大的偏差,甚至会出现与实际意义不符的正负号。 设想给X X '加上一个正常数矩阵kI (0>k ),那么kI X X +'接近奇异的程度就会变小。先对数据作标准化,标准化后的设计阵仍用X 表示。 称 为岭回归估计。这里的k 成为岭参数。当0=k 时的岭回归估计就是普通的最小二乘估计。 因为岭参数k 不是唯一确定的,所以我们得到的岭回归估计)(?k β实际是回归参数β的一个估计族,取不同的k 值时)(?k β的取值不同。以k 为横坐标,) (?k β为纵坐标的直角坐标系,可分析β估计族的稳定性。 优点:比最小二乘估计更稳定 三、岭迹分析 在岭回归中,岭迹分析可用来了解各自变量的作用及自变量之间的相互关系。下图所反映的几种有代表性的情况来说明岭迹分析的作用。 y )()(?1X kI X X k '+'=-β

岭回归研究分析

岭回归分析

————————————————————————————————作者:————————————————————————————————日期:

岭回归分析 一、普通最小二乘估计带来的问题 当设计矩阵X 呈病态时,X 的列向量之间有较强的线性相关性,即解释变量间出现严重的多重共线性,在这种情况下,用普通最小二乘法估计模型参数,往往参 数估计的方差太大,即jj jj j L C 2)?var(σβ=很大,j β?就很不稳定,在具体取值上与真值有较大的偏差,有时会出现与实际经济意义不符的正负号。下面看一个例子,可以说明这一点。 假设已知1x ,2x 与y 的关系服从线性回归模型:ε+++=213210x x y ,给定 1x ,2x 的10个值,如下表1,2行所示: 表7.1 序号 1 2 3 4 5 6 7 8 9 10 (1) x 1 1.1 1.4 1.7 1.7 1.8 1.8 1.9 2.0 2.3 2.4 (2) x 2 1.1 1.5 1.8 1.7 1.9 1.8 1.8 2.1 2.4 2.5 (3) εi 0.8 -0.5 0.4 -0.5 0.2 1.9 1.9 0.6 -1.5 -1.5 (4) y i 16.3 16.8 19.2 18.0 19.5 20.9 21.1 20.9 20.3 22.0 然后用模拟的方法产生10个正态随机数,作为误差项ε,见表第3行。然后再由回归模型i i i i x x y ε+++=213210计算出10个i y 值,见表第4行。现在假设回归 系数与误差项是未知的,用普通最小二乘法求回归系数的估计得:0 ?β=11.292, 1?β=11.307,2?β=-6.591,而原模型的参数0β=10,1 β=2,2β=3看来相差太大。计算1x ,2x 的样本相关系数得12r =0.986,表明1x 与2x 之间高度相关。通过这个例子可以看到解释变量之间高度相关时,普通最小二乘估计明显变坏。 二、岭回归的定义 当自变量间存在多重共线性,|X X '|≈0时,设想给X X '加上一个正常数矩阵kI (k>0)那么X X '+kI 接近奇异的程度就会比X X '接近奇异的程度小得多。考虑到变量的量纲问题,先要对数据标准化,标准化后的设计矩阵仍用X 表示,定义 y X kI X X k '+'=-1)()(?β 称为β的岭回归估计,其中,k 称为岭参数。由于假设X 已经标准化,所以X X '就是自变量样本相关阵。y 可以标准化也可以未标准化, 如果y 也经过标准化,那么计算的实际是标准化岭回归估计。)(?k β 作为β的估计应比最小二乘估计β ?稳定,当k=0时的岭回归估计)0(?β就是普通的最小二乘估计。因为岭参数k 不是唯一确定的,所以得到的岭回归估计)(?k β 实际是回归参数β的一个估计族。

岭回归数据

数据整理 时间进口贸易量 (万美元)国内生产总 值(亿元) 汇率消费者物价 指数 关税税收(亿 元) 2000 22510000 99214.6 8.28 100.4 750.48 2001 24360000 109655.2 8.27 100.7 840.52 2002 29520000 120332.7 8.27 99.2 704.27 2003 41276000 135822.8 8.27 101.2 923.13 2004 56123000 159878.3 8.27 103.9 1043.77 2005 65995000 184937.4 8.2 101.8 1066.17 2006 79146000 216314.4 7.98 101.5 1141.78 2007 95611000 265810.3 7.61 104.8 1432.57 2008 113309000 314045.4 6.95 105.9 1769.95 2009 100592320 340902.8 6.84 99.3 1483.81 2010 139624000 401512.8 6.77 103.3 2027.83 2011 174350000 473104 6.46 105.4 2559.12 2012 181783000 518942.1 6.31 102.6 2783.93 2013 195000000 568845.2 6.19 102.624 2630.61 2014 196000000 636463 6.14 102 2843.41 表1----进口贸易量与各项经济指标 Source | SS df MS Number of obs = 15 ----------------------------------------------------------------------------- F( 4, 10) = 492.61 Model | 7.96904648 4 1.99226162 Prob > F = 0.0000 Residual | .040442772 10 .004044277 R-squared = 0.9950 ------------------------------------------------------------------------------ Adj R-squared = 0.9929 Total | 8.00948925 14 .572106375 Root MSE = .06359 ------------------------------------------------------------------------------------------------------------------------------- lnimp | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+----------------------------------------------------------------------------------------------------------------- lngdp | 1.687917 .1619808 10.42 0.000 1.327001 2.048833 lncpi | 3.142361 1.429341 2.20 0.053 -.0424086 6.327131 lnrate | 2.999613 .7138562 4.20 0.002 1.409042 4.590183 lntax | -.0057671 .2836861 -0.02 0.984 -.6378591 .6263248 _cons | -23.28291 5.423609 -4.29 0.002 -35.36746 -11.19835 -------------------------------------------------------------------------------------------------------------------------------- 表2计量模型的stata结果

岭回归3

岭回归的共线性的处理 语法: INCLUDE ' C:\Program Files\SPSS\Ridge Regression.sps' ridgereg enter=自变量列表 /dep=因变量名 /start=K值起始值,默认为0 /stop= K值终止值,默认为1 /inc=K值搜索步长,默认为0.05 /k=允许搜索的K值个数,默认为999 步骤: 1、打开需要处理的数据文件; 2、执行file/new/syntax,并根据上述的语法格式写入程序; 3、点击“syntax”窗口上的播放箭头,或者执行“Run/all” 例题分析(摘自张文彤《高级教程》) 例 6.3现测得22例胎儿的身长、头围、体重和胎儿受精周龄,具体数据见文件ridgereg.sav。研究者希望能建立由前三个外形指标推测胎儿周龄的回归方程。(陈峰《医用多元统计分析方法》P46) 程序: INCLUDE ' C:\Program Files\SPSS\Ridge Regression.sps' ridgereg enter=long touwei weight /dep=y /inc=0.01. 结果分析:

可见当k=O.04~O.06时,回归系数开始趋于稳定。如选择k=0.05,则三个变量的系数分别为0.317746、O.1 113和0.537 699,可写出方程如下:zy=0.311 746 x zlong+0.111 3 x ztouwei+0.537 699 x zweight相应的决定系数为0.949 32,虽然没有原方程的0.975 42高,但方程中三个变量的系数均为正,符合专业知识。也就是说,岭回归通过丢弃少量的信息,换来了方程系数的合理估计。 图6.6为将不同k值时各变量的回归系数连成的曲线,该曲线被形象地称为岭迹(Ridge Trace),这就是岭回归名称的由来。可见当k到达0.05附近时,三条岭迹都开始变得平稳,这和前面的结论相一致。 图6.7为不同k值时决定系数的下降情况,为了便于观察,笔者在k=0.05处添加了一条参考线,可见决定系数一开始明显下降,但当k超过0.05后,决定系数一直处于缓慢下降中,没有出现明显的波动。图6.7反映出的信息也支持前面做出的结论。

SPSS岭回归方法

岭回归程序调用语法(蔡国雄) 2011-12-7 1、运行:include'C:\Documents and Settings\Administrator\桌面\cgxridge.sps'. ridgereg dep=y/enter x1 x2 x3 x4 x5. ************************************** 输出结果如下:

2、运行:ridgereg dep=y/enter x2 x3 x4 x5/start=0.0/stop=0.2/INC=0.02. ******************************* 输出结果如下:

3、运行:ridgereg dep=y/enter x2 x3 x4 x5/k=0.08. ********************************************* 输出结果如下: 到此结束 附上数据: y x1 x2 x3 x4 x5 231 3010 1888 81491 14.89 180.92 298 3350 2195 86389 16 420.39 343 3688 2531 92204 19.53 570.25 401 3941 2799 95300 21.82 776.71 445 4258 3054 99922 23.27 792.43 391 4736 3358 106044 22.91 947.7 554 5652 3905 110353 26.02 1285.22 744 7020 4879 112110 27.72 1783.3

997 7859 5552 108579 32.43 2281.95 1310 9313 6386 112429 38.91 2690.23 1442 11738 8038 122645 37.38 3169.48 1283 13176 9005 113807 47.19 2450.14 1660 14384 9663 95712 50.68 2746.2 2178 16557 10969 95081 55.91 3335.65 2886 20223 12985 99693 83.66 3311.5 3383 24882 15949 105458 96.08 4152.7

6、岭回归

6、岭回归(1)简单相关系数 相关性 不良贷款各项贷款余额本年累计应收贷 款贷款项目个数 本年固定资产投 资额 Pearson 相关性不良贷款 1.000 .844 .732 .700 .519 各项贷款余额.844 1.000 .679 .848 .780 本年累计应收贷款.732 .679 1.000 .586 .472 贷款项目个数.700 .848 .586 1.000 .747 本年固定资产投资额.519 .780 .472 .747 1.000 Sig. (单侧)不良贷款. .000 .000 .000 .004 各项贷款余额.000 . .000 .000 .000 本年累计应收贷款.000 .000 . .001 .009 贷款项目个数.000 .000 .001 . .000 本年固定资产投资额.004 .000 .009 .000 . N 不良贷款25 25 25 25 25 各项贷款余额25 25 25 25 25 本年累计应收贷款25 25 25 25 25 贷款项目个数25 25 25 25 25 本年固定资产投资额25 25 25 25 25 Y与四个自变量x1、x2、x3、x4的相关系数为0.844、0.732、0.700、0.519。说明y与4个变量是显著线性相关的,自变量之间也存在一定的相关性。 (2) 系数a 模型非标准化系数标准系数 t Sig. B 的 95.0% 置信区间相关性 B 标准误差试用版下限上限零阶偏部分 1 (常量) -1.02 2 .782 -1.306 .206 -2.654 .610 各项贷款余额.040 .010 .891 3.837 .001 .018 .062 .844 .651 .386 本年累计应收贷款.148 .079 .260 1.879 .075 -.016 .312 .732 .387 .189 贷款项目个数.015 .083 .034 .175 .863 -.159 .188 .700 .039 .018 本年固定资产投资额-.029 .015 -.325 -1.937 .067 -.061 .002 .519 -.397 -.195 回归方程: y=-1.022+0.040x1+0.148x2+0.015x3-0.029x4。在0.05的水平下,自变量x2、x3、 x4没有通过t检验,x4的回归系数不合理。

相关主题
相关文档
最新文档