On Over-fitting in Model Selection and Subsequent Selection Bias in Performance Evaluation

Gavin C. Cawley; Nicola L. C. Talbot

机器学习算法的模型选择策略通常包括适当模型选择标准的数值优化，通常基于泛化性能的估计，例如k-折叠交叉验证。这种估计的误差可以分解为偏差和方差分量。虽然公正经常被认为是有益的模型选择标准的质量，我们证明低方差是至少同样重要的是，一个不可忽略的方差会带来潜在的用于模型选择和模型训练中的过拟合。While期间事后来看，这一观察结果可能相当明显由于过度拟合模型选择标准而导致的性能令人惊讶的是，这一观察结果似乎收效甚微迄今为止机器学习文献中的注意力。在本文中，我们展示了这种过度拟合的效果通常是相当的学习算法之间性能差异的大小，因此在实证评价中不容忽视。此外，我们还表明常见的绩效评估实践容易受到某种形式的选择这种过拟合导致的偏差是不可靠的。我们探讨模型选择和后续操作中避免过拟合的方法我们希望将绩效评估中的选择偏差纳入其中成为最佳实践。本研究集中于基于交叉验证的研究模型选择，结果相当普遍，适用于任何模型涉及模型选择标准优化的选择实践对有限样本数据进行评估，包括贝叶斯最大化性能界限的证据和优化。

模型选择中的过度填充和性能评估中的后续选择偏差

摘要