第1页通过LASSO回归压缩和选择Robert·Tibshirani加拿大多伦多大学【1994年1月收到,1995年1月修订】【摘要】本文提出一个线性模型估计的新方法
LASSO最小化残差平方和使得系数绝对值之和小于一个常数
由于此约束的性质倾向于产生一些为0的系数,从而给出了解释模型
我们的仿真研究表明,LASSO具有一些子集选择和岭回归的有利特性
它产生了例如子集选择的解释模型并展示了岭回归的稳定性
在最近的工作中关于多诺霍和约翰斯通的自适应函数估计也有一些有趣的关系
LASSO思想是相当广泛的并可用于各种统计模型:本文简要介绍了广义的回归模型和基于树的模型的扩展
关键词:二次规划;回归;压缩;子集选择1
引言考虑通常的回归情况:已知数据其中和分别是观察数据的第个回归因子和响应量
通过最小化残差平方的误差得到普通最小二乘法(OLS)估计
数据分析师经常不满意OLS估计值有两个原因
第一是预测精度:OLS估计经常是低偏压高方差;预测精度有时可以通过压缩或设置一些系数为0进行改善
通过这样,牺牲一些偏压,减少预测值的方差,从而提高可以总体的预测精度
第二个原因是解释
拥有大量的经常想要决定更小子集的预测值,我们表现出强烈的影响
改进OLS估计的子集选择和岭回归这两种标准标准技术都有缺点
子集选择提供可解释模型,但是由于它是一个从模型中保留或删除的离散过程变量,它可能极其易变
数据的一点更改可能导致选中非常不同的模型,这样可以减少其预测精度
岭回归是一个系数收缩的连续的过程,并且因此更加稳定:然而,它的任何系数都不为0,因此没有给出一个容易解释的模型
我们提出一个新技术,LASSO即最小绝对收缩和选择算子
它将一些系数收缩,其他的系数设置为0,从而试图保持子集选择和岭回归的良好特征
第2节给出LASSO的定义,看一些特殊情况
第3节给出真实数据示例,而在第4节我们讨论预测误差