通过LASSO回归压缩和选择

合集下载

最小绝对收缩和选择算子(lasso)回归法

最小绝对收缩和选择算子(lasso)回归法

最小绝对收缩和选择算子(lasso)回归法
LASSO是线性回归模型的一种变体,它的目的是代替模型中的部分变量,采用L1正则化,使一些奇异系数归零,从而产生稀疏模型。

虽然LASSO的稀疏解决方案可以降低变量的数量,但是LASSO模型实际上可以被用作特征选择。

Lasso使用规则
1. 在开始建立必要的Lasso之前,要做好数据的预处理,这样在模型建立过程中就不会出现预处理错误。

2. 选择一个合适的参数λ,一般来说,较小的λ会将欠拟合变得更加严重,而较大的λ会使过拟合变得更加严重。

3. 通过不断改变λ的值,观察结果,以确定最佳模型。

4. 向量内积可以用来辨认各项因变量的实用性,通过判断系数的正负和大小,以此来决定哪些变量属于因变量,从而获取最佳结果。

lasso

lasso

回归收缩以及通过LASSO选择变量ROBERT TIBSHIRANI加拿大多伦多大学(1994.1 接收。

1995.1修订)摘要在线性模型预测中,我们再次提出一个新的方法——LASSO,其最小残差平方和服从系数的绝对值的总和小于一个常数。

由于这个特性,这种方法倾向于减少一些精确为0的系数而因此给出可解释的模型。

我们的模拟研究显示LASSO 在岭回归的子集选择中有一些有利的方面,其提出的可解释的模型就像子集的选择而且显示出了岭回归的稳定性。

LASSO也与Donoho和Johnstone提出的自适函数估计有着令人感兴趣的关系。

这种方法可以相当普遍的应用于很多数据模型中,例如:扩展广义回归模型和基于树的模型可以简略的描述。

关键字:二次规划,回归,收缩,子集选择法1.介绍考虑到一般的回归情况:我们有数据),(i i y x ,i=1,2,3........N,T ip i i x x x ),...,(1 和i y 分别是第i 组观测值的自变量和因变量。

原始的最小二乘估计是通过最小残差平方和获得的,所以有两个原因使得数据的分析往往和最小二乘估计不符。

第一,就是剩余方差最小化。

最小二乘估计通常斜率较小,方差较大,预测精度有时可以通过收缩或将某些系数设为0而提高。

通过这样做,我们通过牺牲一点斜率来减少预测结果的方差。

第二,就是模型的解释。

对于大量的预测值,我们更愿意判断模型在一个更小的子集当中显示出来的最好的结果。

为了提高最小二乘估计的两个技术标准,子集选择法和岭回归都有缺陷。

子集选择法可以得出一个可以解释的模型,但是给出的模型过于多变,而回归过程本身是离散的——因变量既不能被保留,也不能从模型中剔除。

数据中的小变动会影响由子集选择法得出的不同模型而且还会降低模型的预测精度。

岭回归是一个连续的过程,由于其不断收缩系数,因此较平稳。

然而,他并没有将任何系数收缩为0,因而这个方法不能给出一个简单的可解释的模型。

Lasso回归

Lasso回归

Lasso回归Lasso 是⼀个线性模型,它给出的模型具有稀疏的系数(sparse coefficients)。

它在⼀些场景中是很有⽤的,因为它倾向于使⽤较少参数的情况,能够有效减少给定解决⽅案所依赖变量的个数。

因此,Lasso 及其变体是压缩感知(compressed sensing)领域的基础。

在某些特定条件下,它能够恢复⾮零权重的精确解。

在数学公式表达上,它由⼀个带有l1先验的正则项的线性模型组成。

其最⼩化的⽬标函数是:min w12n samples||Xw−y||22+α||w||1lasso estimator 解决了加上惩罚项α||ω||1的最⼩⼆乘的最⼩化,其中,α是⼀个常数,||ω||1是参数向量l1-norm的范数。

from sklearn.linear_model import Lassolasso = Lasso()lasso.fit([[0, 0], [1, 1]], [0,1])print("coef: {}".format(lasso.coef_))print(lasso.predict([[1, 1]]))coef: [0. 0.][0.5]from sklearn.linear_model import Lassolasso01 = Lasso(alpha=0.1)lasso01.fit([[0, 0], [1, 1]], [0,1])print("coef: {}".format(lasso01.coef_))print(lasso01.predict([[1, 1]]))coef: [0.6 0. ][0.8]在⼈⼯产⽣的被加性噪声污染的稀疏信号上估计Lasso和Elastic-Net回归模型。

估计出的稀疏与真实的稀疏进⾏⽐较。

print(__doc__)import numpy as npimport matplotlib.pyplot as pltfrom sklearn.metrics import r2_score%matplotlib notebook# 产⽣⼀些稀疏数据np.random.seed(42)n_samples, n_features = 50, 200X = np.random.randn(n_samples, n_features) # randn(...)产⽣的是正态分布的数据coef = 3 * np.random.randn(n_features) # 每个特征对应⼀个系数inds = np.arange(n_features)np.random.shuffle(inds)coef[inds[10:]] = 0 # 稀疏化系数--随机地把系数向量1x200的其中190个值变为0y = np.dot(X, coef) # 线性运算--y = X .*w# 添加噪声:零均值,标准差为0.01的⾼斯噪声y += 0.01 * np.random.normal(size=n_samples)# 将数据划分为训练集和测试集n_samples = X.shape[0]X_train, y_train = X[: n_samples // 2], y[: n_samples // 2]X_test, y_test = X[n_samples // 2: ], y[n_samples // 2: ]# 训练 Lasso 模型from sklearn.linear_model import Lassoalpha = 0.1lasso = Lasso(alpha=alpha)y_pred_lasso = lasso.fit(X_train, y_train).predict(X_test)r2_score_lasso = r2_score(y_test, y_pred_lasso)print(lasso)print("r^2 on test data:\n{:.2f}".format(r2_score_lasso))# 训练 ElasticNet 模型from sklearn.linear_model import ElasticNetenet = ElasticNet(alpha=alpha, l1_ratio=0.7)y_pred_enet = enet.fit(X_train, y_train).predict(X_test)r2_score_enet = r2_score(y_test, y_pred_enet)print(enet)print("r^2 on test data:\n{:.2f}".format(r2_score_enet))# 画图plt.plot(enet.coef_, color='lightgreen', linewidth=2, label='Elastic net coefficients')plt.plot(lasso.coef_, color='gold', linewidth=2, label='Lasso coefficients')plt.plot(coef, '--', color='navy', label='original coefficient')plt.legend(loc='best')plt.title("Lasso r^2: {:.2f}, ElasticNet r^2: {:.2f}".format(r2_score_lasso, r2_score_enet))Automatically created module for IPython interactive environmentLasso(alpha=0.1, copy_X=True, fit_intercept=True, max_iter=1000,normalize=False, positive=False, precompute=False, random_state=None,selection='cyclic', tol=0.0001, warm_start=False)r^2 on test data:0.39ElasticNet(alpha=0.1, copy_X=True, fit_intercept=True, l1_ratio=0.7,max_iter=1000, normalize=False, positive=False, precompute=False,random_state=None, selection='cyclic', tol=0.0001, warm_start=False)r^2 on test data:0.24<IPython.core.display.Javascript object>Text(0.5,1,'Lasso r^2: 0.39, ElasticNet r^2: 0.24')设置正则化参数alpha 参数控制着估计出的模型的系数的稀疏度使⽤交叉验证scikit-learn 通过交叉验证来公开设置 Lasso alpha 参数的对象:LassoCV 和 LassoLarsCV。

lasso系数解释

lasso系数解释

lasso系数解释
Lasso回归是一种常用的变量选择方法,它通过对系数的稀疏性进行惩罚实现特征的选择和模型的压缩。

在Lasso回归中,系数可以解释为对应特征对目标变量的贡献。

Lasso回归的目标函数为:
$min frac{1}{2n} sum_{i=1}^n (y_i - sum_{j=1}^p
x_{ij}beta_j)^2 + lambda sum_{j=1}^p |beta_j|$
其中,$n$表示样本数量,$p$表示特征数量,$y_i$表示第$i$个样本的目标变量值,$x_{ij}$表示第$i$个样本的第$j$个特征值,$beta_j$表示第$j$个特征的系数,$lambda$表示正则化系数。

Lasso回归通过在目标函数中增加一个L1正则化项,实现系数的稀疏性,即让一部分系数为0,从而实现特征的选择。

Lasso回归的系数解释如下:
1. 系数为正,表示对应特征对目标变量有正向的影响,即特征值越大,目标变量的值也越大。

2. 系数为负,表示对应特征对目标变量有负向的影响,即特征值越大,目标变量的值越小。

3. 系数为0,表示对应的特征在模型中被忽略,即该特征对目标变量没有影响。

需要注意的是,当Lasso回归中存在高度相关的特征时,可能会出现系数不稳定的情况。

此时,可以通过增加正则化系数来减少系数的波动,或者通过岭回归等其他方法来解决问题。

总之,Lasso回归系数的解释非常直观,能够帮助我们理解特征对目标变量的影响,从而帮助我们进行特征选择和模型优化。

lasso回归方法参数

lasso回归方法参数

lasso回归方法参数(实用版3篇)目录(篇1)sso 回归方法概述sso 回归方法的参数3.参数的应用与选择4.参数对模型效果的影响5.总结正文(篇1)一、Lasso 回归方法概述Lasso(Least Absolute Shrinkage and Selection Operator)回归是一种能够实现变量选择和系数估计的统计方法。

它通过最小化绝对惩罚和残差平方和来选择最优的模型参数,从而实现对相关变量的筛选和系数估计。

二、Lasso 回归方法的参数Lasso 回归方法的主要参数包括:1.惩罚参数α(Alpha):控制 Lasso 回归中 L1 惩罚项的强度。

较小的α值会导致更严格的变量选择,较大的α值则允许更多的变量进入模型。

2.梯度下降步长β(Beta):影响梯度下降算法在每次迭代时更新参数的幅度。

较小的β值会使收敛速度较慢,较大的β值可能导致参数更新过大而影响收敛稳定性。

3.最大迭代次数γ(Gamma):控制梯度下降算法的迭代次数。

较小的γ值可能导致收敛速度较慢,较大的γ值则可能增加计算复杂度。

三、参数的应用与选择在实际应用中,根据问题的具体情况和数据特点来选择合适的参数是关键。

可以采用交叉验证等方法来选择最优参数,以达到最佳的模型效果。

1.惩罚参数α的选择:根据问题中的变量数量和相关性,选择合适的α值。

当变量数量较多或相关性较高时,可以选择较小的α值,以实现更严格的变量选择。

2.梯度下降步长β的选择:通常情况下,可以采用较小的β值,如0.01 或 0.05 等,以保证收敛速度和稳定性。

3.最大迭代次数γ的选择:根据问题的复杂性和计算资源,选择合适的γ值。

当问题复杂度较高时,可以适当增加γ值,以提高收敛概率;当计算资源有限时,可以适当减少γ值,以减少计算时间。

四、参数对模型效果的影响参数的选择对 Lasso 回归模型的效果具有重要影响。

合适的参数能够使得模型具有较好的预测能力和变量选择效果,而过小或过大的参数可能导致模型效果不佳。

lasso回归筛选变量 基因

lasso回归筛选变量 基因

lasso回归筛选变量基因"lasso回归筛选变量基因"——用于基因研究中的变量筛选技术引言:随着高通量技术的发展,基因组数据的获取变得越来越容易。

然而,对于这些大规模数据的分析和挖掘,研究人员面临一个重要的问题:如何从众多的基因中筛选出与所研究现象相关的变量。

lasso回归作为一种变量筛选的统计方法,已经被广泛应用于基因研究领域。

本文将详细介绍lasso 回归在基因研究中的应用过程,逐步回答相关问题。

一、什么是lasso回归?lasso回归(Least Absolute Shrinkage and Selection Operator)是一种融合了正则化和回归分析的统计方法。

它通过对目标变量与相关自变量之间的关系进行建模,从而筛选出与目标变量相关性较强的自变量。

lasso 回归在模型拟合过程中引入了L1正则化项,可以将某些自变量的系数收缩到零,从而实现变量筛选的目的。

二、基因研究中的lasso回归筛选变量在基因研究中,我们常常需要通过分析基因表达数据等信息,来确定哪些基因与某个生理现象或疾病有关。

lasso回归可以帮助我们从海量的基因中筛选出与目标现象相关的变量(基因),以便进一步深入研究。

三、lasso回归流程1. 数据准备:收集相关的基因表达数据或其他基因相关数据,并对数据进行预处理,如去除异常值、标准化等。

2. 构建模型:将所研究的现象(如疾病发生与否)作为目标变量,将基因表达数据等作为自变量,使用lasso回归建立预测模型。

3. 模型训练:使用训练数据集对模型进行训练,通过最小化loss function 来确定模型的系数。

4. 变量筛选:通过调节模型中的正则化参数,使得一些基因的系数为零,即被筛选出来。

这些系数为零的基因即为与目标现象不相关的变量。

5. 模型评估:使用测试数据集对模型进行评估,计算其预测准确率等指标,评估模型的性能。

四、优势与局限性1. 优势:- 变量筛选:通过lasso回归可以从众多的基因中筛选出与目标现象相关的变量,减少研究的复杂性。

lasso cox regression analysis

lasso cox regression analysis

Lasso Cox回归分析是一种结合了Lasso回归和Cox回归分析的统计方法。

这种方法在生物信息学、医学和其他领域中被广泛应用,用于研究多个变量对生存时间的影响,尤其是在存在多重共线性和变量个数大于样本量的情况下。

Lasso回归是一种线性模型,通过添加一个惩罚项来压缩模型系数,从而实现变量选择和降低模型复杂度。

这个惩罚项是一个绝对值之和的函数,使得一些系数被压缩为零,从而达到变量选择的目的。

在Lasso回归分析中,通过调整惩罚项的系数λ,可以控制变量选择的严格程度。

Cox回归是一种生存分析方法,用于研究多个变量对生存时间的影响。

Cox回归模型是一种半参数模型,不需要对生存时间分布做出假设,因此在实际应用中比较灵活。

Cox回归模型通过最大化部分似然函数来估计模型系数,从而得到每个变量对生存时间的影响。

将Lasso回归和Cox回归结合起来,可以形成一种新的分析方法——Lasso Cox回归分析。

这种方法首先利用Lasso回归进行变量选择,将不重要的变量压缩为零,然后利用Cox回归模型分析筛选后的变量对生存时间的影响。

这种方法可以克服传统Cox回归在变量个数大于样本量或存在多重共线性时的局限性,提高模型的稳定性和预测能力。

在进行Lasso Cox回归分析时,需要注意选择合适的λ值,以便在变量选择和模型复杂度之间取得平衡。

常用的方法是通过交叉验证等方式来评估不同λ值下模型的性能,选择最优的λ值进行建模。

此外,还需要注意模型的假设条件和适用范围,以确保分析结果的准确性和可靠性。

Lasso回归总结

Lasso回归总结

Lasso回归总结Ridge回归由于直接套⽤线性回归可能产⽣过拟合,我们需要加⼊正则化项,如果加⼊的是L2正则化项,就是Ridge回归,有时也翻译为岭回归。

它和⼀般线性回归的区别是在损失函数上增加了⼀个L2正则化的项,和⼀个调节线性回归项和正则化项权重的系数α。

损失函数表达式如下:J(θ)=1/2(Xθ−Y)T(Xθ−Y)+1/2α||θ||22其中α为常数系数,需要进⾏调优。

||θ||2为L2范数。

Ridge回归的解法和⼀般线性回归⼤同⼩异。

如果采⽤梯度下降法,则每⼀轮θ迭代的表达式是:θ=θ−(βX T(Xθ−Y)+αθ)其中β为步长。

如果⽤最⼩⼆乘法,则θ的结果是:θ=(X T X+αE)−1X T Y其中E为单位矩阵。

Ridge回归在不抛弃任何⼀个变量的情况下,缩⼩了回归系数,使得模型相对⽽⾔⽐较的稳定,但这会使得模型的变量特别多,模型解释性差。

有没有折中⼀点的办法呢?即⼜可以防⽌过拟合,同时克服Ridge回归模型变量多的缺点呢?有,这就是下⾯说的Lasso回归。

Lasso回归概述Lasso回归有时也叫做线性回归的L1正则化,和Ridge回归的主要区别就是在正则化项,Ridge回归⽤的是L2正则化,⽽Lasso回归⽤的是L1正则化。

Lasso回归的损失函数表达式如下:J(θ)=1/2n(Xθ−Y)T(Xθ−Y)+α||θ||1其中n为样本个数,α为常数系数,需要进⾏调优。

||θ||1为L1范数。

Lasso回归使得⼀些系数变⼩,甚⾄还是⼀些绝对值较⼩的系数直接变为0,因此特别适⽤于参数数⽬缩减与参数的选择,因⽽⽤来估计稀疏参数的线性模型。

但是Lasso回归有⼀个很⼤的问题,导致我们需要把它单独拎出来讲,就是它的损失函数不是连续可导的,由于L1范数⽤的是绝对值之和,导致损失函数有不可导的点。

也就是说,我们的最⼩⼆乘法,梯度下降法,⽜顿法与拟⽜顿法对它统统失效了。

那我们怎么才能求有这个L1范数的损失函数极⼩值呢?接下来介绍两种全新的求极值解法:坐标轴下降法(coordinate descent)和最⼩⾓回归法(Least Angle Regression, LARS)。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

通过LASSO 回归压缩和选择Robert ·Tibshirani加拿大多伦多大学【1994年1月收到,1995年1月修订】【摘要】本文提出一个线性模型估计的新方法。

LASSO 最小化残差平方和使得系数绝对值之和小于一个常数。

由于此约束的性质倾向于产生一些为0的系数,从而给出了解释模型。

我们的仿真研究表明,LASSO 具有一些子集选择和岭回归的有利特性。

它产生了例如子集选择的解释模型并展示了岭回归的稳定性。

在最近的工作中关于多诺霍和约翰斯通的自适应函数估计也有一些有趣的关系。

LASSO 思想是相当广泛的并可用于各种统计模型:本文简要介绍了广义的回归模型和基于树的模型的扩展。

关键词:二次规划;回归;压缩;子集选择1.引言考虑通常的回归情况:已知数据(,),1,2,...,,i i X y i N =其中1(,...,)i T i ip X x x =和i y 分别是观察数据的第i 个回归因子和响应量。

通过最小化残差平方的误差得到普通最小二乘法(OLS)估计。

数据分析师经常不满意OLS 估计值有两个原因。

第一是预测精度:OLS 估计经常是低偏压高方差;预测精度有时可以通过压缩或设置一些系数为0进行改善。

通过这样,牺牲一些偏压,减少预测值的方差,从而提高可以总体的预测精度。

第二个原因是解释。

拥有大量的经常想要决定更小子集的预测值,我们表现出强烈的影响。

改进OLS 估计的子集选择和岭回归这两种标准标准技术都有缺点。

子集选择提供可解释模型,但是由于它是一个从模型中保留或删除的离散过程变量,它可能极其易变。

数据的一点更改可能导致选中非常不同的模型,这样可以减少其预测精度。

岭回归是一个系数收缩的连续的过程,并且因此更加稳定:然而,它的任何系数都不为0,因此没有给出一个容易解释的模型。

我们提出一个新技术,LASSO 即最小绝对收缩和选择算子。

它将一些系数收缩,其他的系数设置为0,从而试图保持子集选择和岭回归的良好特征。

第2节给出LASSO 的定义,看一些特殊情况。

第3节给出真实数据示例,而在第4节我们讨论预测误差与LASSO 收缩参数估计的方法。

第5节简要介绍LASSO 的贝叶斯模型。

第6节描述LASSO 算法。

第7节描述仿真研究。

第8、9节讨论广义回归模型的扩展和其他问题。

一些关于soft thresholding 和与LASSO 的关系的结果在第10节中进行了讨论,第11节包括一些讨论和总结。

SSO 方法2.1定义假设已知数据,),1,2,...,,i i X y i N =(其中1(,...,)i T i ip X x x =是预测变量,i y 是响应变量。

在一般的回归设置中,我们假设观测值独立或者对给定的ij x s ,i y s 是条件独立的。

假设ij x 是标准化的,那么0iji x N =∑,21iji x N =∑。

令1ˆˆˆ(,...,)T pβββ=,LASSO 估计ˆˆ(,)αβ的定义如下: 21ˆˆ(,)arg min ()..N i j iji j j jy x s t tαβαββ=⎧⎫=-⎨⎬⎩⎭≤∑∑∑ (1)其中,调优参数0t ≥ 。

现在对于所有t ,α的解决方案是ˆy α=。

我们可以假设不是一般性0y =,因此省略α。

方程(1)的解决方案的计算是具有线性不等式约束的二次规划问题。

在第6节,针对这个问题,我们描述了一些高效、稳定的算法。

参数0t ≥控制了应用于估计的收缩量。

令ˆo jβ为完全最小二乘估计,0ˆo jt β=∑。

0t t <将导致方案的收缩趋向于0,并且一些系数可能刚好等于0。

例如,如果02t t =,效果会大致类似于寻找大小为2p 的最优特征子集。

还要注意,设置的矩阵不一定需要满秩。

在第4节,我们给出基于数据的估计t 的方法。

LASSO 的动机来自于布赖曼(1993)的一个提议。

布赖曼的非负garotte 最小化。

21ˆ()..0,.N o i j j ij i j j j yc x s t c c t αβ=--≥≤∑∑∑ (2)garotte 始于普通最小二乘估计,通过总和被限制的非负因素进行收缩。

在广泛的仿真研究中,布赖曼显示,除非真正的模型中有许多小的非零系数,garotte 具有保持比子集选择更低的预测误差且与岭回归具有竞争力。

garotte 的一个缺点是它的解决方案取决于标志和OLS 估计量。

在OLS 表现不佳的过拟合或高度相关的设置中,garotte 可能会深受其害。

相比之下,LASSO 避免显示使用OLS 估计。

弗兰克和弗里德曼(1993)提出了使用绑定的参数q 范数,q 是一个大于等于0的数;LASSO 方法中1q =。

在第10节中简要讨论了这个问题。

2.2正交设计深入了解收缩的性质可以从正交设计案例中进行收集。

令X 为既定n p ⨯矩阵,元素为ij x ,假定T X X I =,I 为单位矩阵。

方程(1)的解很容易证明是ˆˆˆ()()o o j j jsign βββγ+=- (3) 其中,γ由ˆjt β=∑决定。

有趣的是,这与多诺霍和约翰斯通(1994)和多诺霍等人(1995)提出的软收缩建议具有相同的形式,应用于小波系数的函数估计。

软收缩和最低1l 范数惩罚的关系也由多诺霍等人(1992)在非负参数信号和图像恢复中指出。

我们将在第10节进行详细的解释说明。

在正交设计的情况下,大小为k 的最佳子集的选择减少到最大系数k 的绝对值,将其余的设置为0。

对λ的一些选择相当于如果ˆo j βλ>,设置ˆˆo j jββ=;否则设置为0。

岭回归使得下面式子最小221()N i j ijj i j jy x βλβ=-+∑∑∑ 或者等价地,使得如下最小212()...N i j iji j j y x s t t ββ=-≤∑∑∑ (4)岭回归的解是:1ˆ1+o j βγ其中γ取决于λ或t 。

garotte 估计是2ˆ(1).ˆo j o jγββ+- 图1显示了这些函数的曲线。

岭回归用一个常数因子衡量系数,然而LASSO 通过常数因子转换,截断为0。

garotte 函数与LASSO 十分相近,都是系数愈大收缩愈小。

我们的仿真程序显示,当设计不是正交时,garotte 与LASSO 差异可能会很大。

2.3LASSO 几何从图1中很明显的看出为什么LASSO 产生的系数经常是0。

为什么这种情况会出现在一般(非正交)的设置中?并且为什么这种现象在岭回归中没有出现,其中岭回归使用的约束条件是2j t β≤∑而不是j t β≤∑?图2提供了当2p =时的试图。

21()Ni j ij i j y x β=-∑∑标准与ˆˆ()()o T T o X X ββββ--加上一个常数相等。

由图2(a),函数的椭圆轮廓由全曲线显示出来;它们集中于OLS 估计周围;约束区域是个旋转的正方形。

LASSO 解决方案是首先轮廓触摸了广场,并且有时这也会发生在一个角落,该角落对应于系数为0的地方。

图2(b)显示了岭回归的图像,没有有角的轮廓,因此很少有零解。

这个图片中出现了一个有趣的问题:LASSO 估计的符号可以与最小二乘估计ˆo jβ不同吗?由于变量是标准化的,当2p =时,主要的轮廓线轴线与坐标轴成45o ±,并且我们可以表明,轮廓必需与包含ˆo β的正方形在同一个象限中。

然而,当2p >时,在数据上至少是中度相关,这不必是真的。

图3在三维空间中进行举例。

图3(b)中的视图证实:椭圆与约束区域在第八象限的接触与它中心所在的象限不同。

图1. (a)子集选择,(b)岭回归,(c)LASSO和(d)garotte:—,正交设计情况下,系数压缩的形式;·········倾斜角为45°的线作为参考图2. (a)是LASSO的预估图像,(b)是岭回归的预估图像图3. (a )不同于总体最小二乘估计LASSO 估计落在第八区的例子;(b )俯视图然而,garotte 保留了每个ˆo jβ的符号,LASSO 可以改变符号。

甚至在LASSO 估计与garotte 有相同符号的矢量的情况下,garotte 中OLS 估计得存在也会使结果不同。

带有约束条件j c t ≤∑的模型ˆo j j ijc x β∑可以表示成约束条件是ˆo j j t ββ≤∑,模型为j ij x β∑。

举例,如果2p =且12ˆˆ0o o ββ>>,效果将会横向拉伸图2(a)的正方形。

结果,garotte 青睐于较大的1β和较小的2β。

2.4关于两个预测的其他信息假设2p =,并且不失一般性,最小二乘估计ˆo jβ都是正的。

那么我们可以展示LASSO 估计是图4. 对于两个预测值的例子,实线表示LASSO ,虚线表示岭回归:曲线说明,作为LASSO 或者岭回归参数的数据对()12ββ,是变化的;从底部的虚线开始并向上移动,相关系数ρ是0,0.23,0.45,0.68和0.90ˆˆ()o jββγ+=- (5)其中选定γ使得12ˆˆt ββ+=。

这个公式适用于12ˆˆo o t ββ≤+时,并且及时预测值是相关的这个公式也是有效的。

解γ得出 121122ˆˆˆ(),22ˆˆˆ().22o oo o t t ββββββ++-=+-=- (6) 相反,岭回归收缩的形式取决于预测值的相关性。

图4给出了一个例子。

在没有干扰的情况下,我们从模型1263y x x =+中产生100个数据点。

这里1x 和2x 是标准正常变量,两者的相关系数为ρ。

图4的曲线表明岭回归和LASSO 估计得边界2212ββ+和12ββ+是变化的。

对ρ的所有值,LASSO 估计均遵循全曲线。

岭回归估计(间断的曲线)取决于ρ。

当0p =时,岭回归成比例收缩。

然而,对于更大的p 值岭估计收缩变得不同并且边界降低是甚至可以增加一点。

杰罗姆·弗里德曼指出,这是由于岭回归试图使系数等于他们最小平方范数的趋势。

2.5标准误差由于LASSO 估计是响应值的一个非线性、非可微函数,即使对应固定的t ,所以很难得到标准误差的一个准确估计。

一种方法是通过自助法;要么t 可以固定,要么为每个样本对t 进行优化。

固定t 类似于选择一个最佳子集,然后对每个子集使用最小二乘标准误差。

一个近似封闭的形式估计可能通过把惩罚j β∑写成2j j ββ∑得到。

因此,对于LASSO 估计β,我们可以通过*1(+)T T X X W X y βλ--=形式的岭回归近似解决,其中W 是一个对角矩阵,对角元素为ˆjβ,W -是W 的广义逆矩阵并且λ的选定使得*j t β=∑成立。

相关文档
最新文档