Adaptive model selection using empirical complexities

Gábor Lugosi; Andrew B. Nobel

doi:10.1214/aos/1017939241

1999年12月基于经验复杂性的自适应模型选择

加博尔·卢戈西,安德鲁·诺贝尔

安。统计师。 27(6): 1830-1864 （1999年12月）。内政部：10.1214/aos/1017939241

摘要

给定联合分布对$（X，Y）\in\mathscr{R}^d\times\mathscr}R}$的$n$个独立副本，我们希望从模型类$\mathscr的固定序列中进行选择{F} _1个，\mathscr{F} _2，\dots$一个风险较小的确定性预测规则$f:\mathscr{R}^d\to\mathscr{R}$。我们研究了实证评估每个模型类复杂性的可能性，即每个类中估计问题的实际难度。估计的复杂性反过来用于定义自适应模型选择程序，该程序基于复杂性惩罚的经验风险。

可用数据分为两部分。第一个用于形成每个模型类的经验覆盖，第二个用于根据经验风险从每个覆盖中选择候选规则。覆盖半径是通过经验确定的，以优化估计误差的严格上限。从候选列表中选择一个估计值，以最小化类复杂度和经验风险的总和。该方法的一个显著特点是，每个模型类的复杂性都是根据其经验覆盖的大小进行经验评估的。

建立了估计的有限样本性能界，并将这些界应用于几个非参数估计问题。结果表明，这些估计在近似值和估计误差之间取得了良好的平衡，并且在预先知道模型类的分布相关复杂性的情况下也能实现良好的性能。此外，当每个模型类具有无穷维VC或伪维时，估计可以是一致的，甚至具有接近最优的收敛速度。

对于具有平方损失的回归估计，我们修改我们的估计以实现更快的收敛速度。