回归压缩以及通过Lasso选择变量由 ROBERT TIBSHIRANIT著加拿大多伦多大学1994 年 1 月接收1995 年 1 月修订摘要我们提出了一个估计线性模型的新方法
Lasso最小化残差平方和使得系数绝对值之和小于一个常数
由于这种约束的性质,它倾向于产生一些恰好为0的系数,从而给出了解释模型
我们的模拟研究表明,Lasso具有一些子集选择和岭回归的良好特性
它产生像子集选择一样的可以解释的模型并且展示了岭回归的稳定性
Lasso与 Donoho 和 Johnstone 近期提出的关于自适函数估计的工作有着有趣的联系
Lasso想法是相当广泛的,并且可以运用在各种统计模型中:本文简要介绍了广义的回归模型和基于树的模型的扩展
关键词:二次规划;回归;压缩;子集选择1
引言考虑一般的回归情况:我们有数据Niyxii,
,2,1),,(,Tipiixxx),
,(1和iy分别是第 i 组观测的自变量和因变量值
普通最小二乘估计(OLS)是通过残差平方和最小化得到的
有两个原因来解释为什么数据分析常常不适合用OLS估计
第一个原因是预测精度:OLS估计通常偏压较小,方差较大;预测精度有时可以通过压缩或将一些系数设置为0 而提高
通过这样做, 我们牺牲一点偏压以减少所预测值的方差, 并且可以提高整体的预测精度
第二个原因是模型的解释
对于大批预测值, 我们更愿意判断模型在一个更小的子集当中显示出来的最好的结果
两个可以改善 OLS估计的基本方法, 子集选择法和岭回归都有缺陷
子集选择法提供了可解释的模型, 但是由于它是一个从模型中保留或删除的离散过程变量,它可能极其易变
数据的微小变动会影响由子集选择法得出不同模型,这可以降低其预测精度
岭回归是一个系数收缩的连续的过程,并且因此更加稳定:然而,它的任何系数都不为0,因此不能给出容易解释的模型