通过Lasso进行回归压缩和选择汇总

下载本文档

阅读 71
下载 4
格式 pdf
大小 456.21 KB
约9页
2025-01-09 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/9页

2/9页

3/9页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

文本预览下载提示常见问题

回归压缩以及通过Lasso选择变量由 ROBERT TIBSHIRANIT著加拿大多伦多大学1994 年 1 月接收1995 年 1 月修订摘要我们提出了一个估计线性模型的新方法。Lasso最小化残差平方和使得系数绝对值之和小于一个常数。由于这种约束的性质，它倾向于产生一些恰好为0的系数，从而给出了解释模型。我们的模拟研究表明，Lasso具有一些子集选择和岭回归的良好特性。它产生像子集选择一样的可以解释的模型并且展示了岭回归的稳定性。 Lasso与 Donoho 和 Johnstone 近期提出的关于自适函数估计的工作有着有趣的联系。 Lasso想法是相当广泛的，并且可以运用在各种统计模型中：本文简要介绍了广义的回归模型和基于树的模型的扩展。关键词：二次规划；回归；压缩；子集选择1. 引言考虑一般的回归情况：我们有数据Niyxii,...,2,1),,(，Tipiixxx),...,(1和iy分别是第 i 组观测的自变量和因变量值。普通最小二乘估计（OLS）是通过残差平方和最小化得到的。有两个原因来解释为什么数据分析常常不适合用OLS估计。第一个原因是预测精度：OLS估计通常偏压较小，方差较大；预测精度有时可以通过压缩或将一些系数设置为0 而提高。通过这样做，我们牺牲一点偏压以减少所预测值的方差，并且可以提高整体的预测精度。第二个原因是模型的解释。对于大批预测值，我们更愿意判断模型在一个更小的子集当中显示出来的最好的结果。两个可以改善 OLS估计的基本方法，子集选择法和岭回归都有缺陷。子集选择法提供了可解释的模型，但是由于它是一个从模型中保留或删除的离散过程变量，它可能极其易变。数据的微小变动会影响由子集选择法得出不同模型，这可以降低其预测精度。岭回归是一个系数收缩的连续的过程，并且因此更加稳定：然而，它的任何系数都不为0，因此不能给出容易解释的模型。我们提出一个新方法，叫作Lasso，意思是最小绝对收缩和选择算法。它缩小了一些系数，并将其他的系数设置为0，从而试图保留子集选择法和岭回归的优良特性。在第 2 节我们给出了 Lasso的定义，并且寻找一些特例。在第3 节中给出一个真实的数据例子，在第 4 节我们研究了预测误差与Lasso收缩参数估计的方法。在第 5 节简单提及 Lasso中的一个贝叶斯方法。我们在第 6 节描述了 Lasso算法。第 7 节是模拟研究和介绍。第 8 节和第 9 节研究了广义回归模型的拓展和其他问题。第 10 节讨论了 Lasso软阈值的一些结论以及关系，第 11 节包括...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

通过Lasso进行回归压缩和选择汇总

通过Lasso进行回归压缩和选择汇总

您可能关注的文档

热门下载

相关标签