Best Subset, Forward Stepwise or Lasso? Analysis and Recommendations Based on Extensive Comparisons

Trevor Hastie; Robert Tibshirani; Ryan Tibshirani

doi:10.1214/19-STS733

2020年11月最佳子集，向前逐步还是拉索？基于广泛比较的分析和建议

黑斯蒂,罗伯特·蒂施莱尼,瑞安·蒂布西拉尼

统计师。科学。 35(4): 579-592 （2020年11月）。内政部：10.1214/19-STS733

摘要

在最近令人兴奋的工作中，伯西马斯、金和马祖德(安。统计师。 44（2016）813–852）表明，回归建模中的经典最佳子集选择问题可以表述为混合整数优化（MIO）问题。利用MIO算法的最新进展，他们证明了最佳子集选择现在可以在比统计界认为的更大的问题规模下解决。他们对最佳子集与其他流行的变量选择程序进行了实证比较，特别是套索和正向逐步选择。令人惊讶的是（对我们来说），他们的模拟表明，最佳子集在预测准确性方面始终优于这两种方法。在这里，我们提供了一组扩展的模拟，以更好地了解这些比较。总结大致如下：

•最佳子集和套索都不统一地支配另一个，最佳子集在非常高的信噪比（SNR）条件下通常表现更好，套索在低SNR条件下表现更好；

•对于所考虑的大部分设置，最佳子集和正向逐步执行相似，但在某些情况下，在高信噪比情况下，最佳子集执行更好；

•向前逐步和最佳子集往往会产生更稀疏的模型（在验证集上调整时），尤其是在高信噪比情况下；

•放松套索（实际上是Meinshausen中定义的原始放松估计器的简化版本(计算。统计师。数据分析。 52（2007）374–393））是总赢家，在低信噪比场景中表现与套索差不多，在高信噪比情景中表现几乎与最佳子集一样。

引用

下载引文

特雷弗·哈斯蒂。罗伯特·提比拉尼（Robert Tibshirani）。瑞安·蒂布西拉尼（Ryan Tibshirani）。 “基于广泛比较的最佳子集、正向逐步或Lasso？分析和建议。” 统计师。科学。 35 (4) 579 - 592, 2020年11月。 https://doi.org/10.1214/19-STS733