总结

我们从一致性、计算性和灵活性三个方面研究了非负garrotte估计。我们认为,非负garrotte是一个通用程序,可以与估计量结合使用,而不是与原始形式的最小二乘估计量结合。特别是,我们考虑使用套索,在非负garrotte中,用弹性网和岭回归以及普通最小二乘作为初始估计。我们证明了非负garrotte具有良好的性质,即当概率趋于1时,解路径包含正确识别重要变量集的估计,并且对于重要变量的系数是一致的,而这种性质对于初始估计可能无效。一般来说,我们证明了非负garrotte可以将一致性估计转化为不仅在估计方面而且在变量选择方面一致的估计。我们还证明了非负garrotte具有分段线性解路径。利用这一事实,我们提出了一种计算非负garrotte的整个解路径的有效算法。仿真和实例表明,非负garrotte在变量选择和估计精度方面对初始估计量的改进非常有效。

1.简介

考虑一个多元线性回归问题,其中n个因变量的观测Y(Y)预测因子X(X)1,X(X)2,…,X(X)、和

Y(Y)=X(X)β+ε,
1

哪里X(X)=(X(X)1,X(X)2,…,X(X)),ɛ𝒩(0,σ2n个)和β=(β1,…,β)在本文中,我们将每个输入变量居中,使观测平均值为0,并缩放每个预测值,使样本标准偏差为1。变量选择背后的基本概念是,一些预测因子是冗余的,因此只有未知的β-系数不为零。通过有效识别重要预测因子子集,变量选择可以提高估计的准确性,增强模型的可解释性。

经典变量选择方法,例如C类Akaike的信息准则AIC和Bayes信息准则BIC,通过使用惩罚平方和准则在可能的模型之间进行选择,惩罚是模型维数的递增函数。然而,这些方法在计算上不适用于中等数量的预测因子,因为随着预测因子数量的增加,候选模型的数量呈指数级增加。实际上,这种方法是通过正向选择或反向消除逐步实现的。由于逐步算法的短视性,这些实现在许多应用中都是次优的(Chen等。,1998). 近年来引入了各种其他变量选择方法(George和McCulloch,1993; 福斯特和乔治,1994; 布雷曼,1995; 提比什拉尼,1996; 乔治和福斯特,2000; 范和李,2001; 沈和叶,2002; 埃夫隆等。,2004; 袁和林,2005; 邹和哈斯蒂,2005). 尤其是布雷曼(1995,1996)提出了非负garrotte估计,他证明了该估计是一种稳定的变量选择方法,通常优于其竞争对手,包括子集回归和岭回归。

Breiman引入的原始非负garrotte估计(1995)是最小二乘估计的缩放版本。收缩系数d日(λ)=(d日1(λ),…,d日(λ))作为最小值

12Y(Y)Zd日2+n个λj个=1d日j个,服从d日j个>0,j个,
2

哪里Z=(Z1,…,Z),Zj个=X(X)j个β^LS(负载感应)β^LS(负载感应)是基于等式的最小二乘估计(1).在这里λ>0是一个调整参数。回归系数的非负garrotte估计随后定义为β^j个天然气(λ)=d日j个(λ)β^j个LS(负载感应),j个=1,…,。在下文中,我们省略下标或/和上标n个如果没有发生混淆。

非负绞绳的机理可以在正交设计下进行说明,其中X(X)X(X)=n个在这种情况下,表达式的极小值(2)具有明确的形式:

d日j个(λ)=(1λβ^j个LS(负载感应)2)+,j个=1,,

因此,对于完全最小二乘估计值较大的系数,收缩因子将接近1。但是,对于冗余预测器,最小二乘估计可能很小,因此收缩因子很有可能精确到0。

原始非负garrotte的一个缺点是它明显依赖于完全最小二乘估计。显然,在样本量较小的情况下,最小二乘法可能表现不佳,而非负加洛特估计也会受到影响。特别是Breiman提出的原始非负性绞绳(1995)当样本大小小于预测数时,无法应用。然而,我们认为非负garrotte的概念也可以与最小二乘法以外的估计量结合使用。我们特别考虑使用套索(Tibshirani,1996)山脊回归和弹性网(Zou和Hastie,2005)作为非负garrotte的替代初始估计。我们证明,只要初始估计在估计方面是一致的,非负garrotte估计在估计和模型选择方面都是一致的λ选择得当。换句话说,非负加洛特可以将一致性估计转化为不仅在估计方面而且在变量选择方面一致的估计。相反,这种路径一致性属性并不总是适用于初始估计。

在大规模问题中使用非负garrotte估计量时,一个潜在的障碍是计算成本。到目前为止,非负garrotte是通过使用给定调谐参数的标准二次规划技术来计算的,这对于高维问题来说可能需要计算,尤其是在考虑调谐参数的精细网格的情况下。在本文中,我们证明了非负garrotte解的路径是分段线性的,与初始估计无关,并利用这一点构造了一个更有效的算法来构建非负garlotte解路径。该算法以与普通最小二乘法相同的计算量计算非负garrotte的整个解路径。

论文的其余部分组织如下。在下一节中,我们研究了非负garrotte估计的路径一致性以及其他几种流行的变量选择和估计方法。第节介绍了一种计算非负garrotte解路径的有效算法.章节45给出了一些仿真和实际数据示例来支持理论结果。我们在第节中总结了本文6.所有技术证明均归入附录A.

2.路径一致性

在获得初步估计后,非负加洛特在实践中分两步进行。首先是由优化参数索引的解决方案路径λ已构造。第二步(通常称为调优)选择解决方案路径上的最终估计值。由于最终估计来自解路径,因此确保解路径确实包含至少一个“理想的”候选估计非常重要。在我们的背景下β^如果它在系数估计和变量选择方面是一致的,则被认为是可取的。如果一个解路径包含至少一个这样的期望估计,我们称其为“路径一致”。在本节中,我们研究了非负garrotte的路径一致性,以及其他几种流行的变量选择方法,即套索最小角度回归选择(LARS)(Efron等。,2004)以及弹性网。

2.1. 非阴性绞绳

以下定理表明,如果初始估计在估计中是一致的,那么非负garrotte总是路径一致的。

定理1。假设

  • (a)

    初步估计为δn个一致,即。最大值j个|β^j个初始化βj个|=O(运行)(δn个)对一些人来说δn个0和

  • (b)

    设计矩阵是非退化的,即X(X)X(X)/n个由概率趋向于1的正常数从下方限定。

如果λ以这样的方式0δn个=o个(λ),然后P(P){β^j个天然气(λ)=0}1对于任何j个ℐ, β^j个天然气(λ)=βj个+O(运行)(λ)对于任何j个哪里ℐ={j个:βj个≠0}.

在本文的编写过程中,我们注意到邹(2006)还独立地得到了以最小二乘估计作为初始估计的原始非负garrotte在变量选择中是一致的,如果固定为n个→∞. 他的结果可以看作是定理1的一个特例δn个=√n个定理1更一般,因为它还表明非负garrotte估计在估计中是一致的。更重要的是,值得指出的是,我们不需要保持不变,并允许在定理1中进行更一般的初始估计。

为了实现变量选择的一致性,我们在定理1中证明了非零系数的非负garrotte估计的收敛速度比其初始估计慢。我们不清楚这是否是我们必须为变量选择支付的不可避免的代价。第节中给出的数值结果5显然,我们还没有得到理论上的证明。作为部分答案,以下引理表明,至少在某些特殊情况下,系数估计可以获得更高的收敛速度。

引理1。假设设计矩阵满足X(X)'c(c)X(X)=0.在定理1的条件下,如果λ以这样的方式0δn个2=o个(λ),然后P(P){β^j个天然气(λ)=0}1对于任何j个ℐ, β^j个天然气(λ)=βj个+O(运行){最大值(δn个,λ)}对于任何j个ℐ.

将非负garrotte的路径一致性与其他几种现代变量选择方法的以下结果进行对比。

2.2. 拉索

Tibshirani提出的流行套索(1996)定义为

β^拉索(λ)=参数最小值β(12Y(Y)X(X)β2+n个λβ1),
4

哪里λ是一个调谐参数,‖·‖1代表矢量1-规范。通过使用1-惩罚,最小化方程(4)得出的稀疏估计β如果λ选择得当。因此,方程的子模型(1)它只包含对应于中非零分量的协变量β^拉索(λ)被选为最终模型。由于套索在广泛的应用中取得了巨大的成功,自其推出以来,它就迅速流行起来。

尽管套索在预测方面具有优越的性能,但以下定理表明,作为变量选择方法,必须谨慎使用套索。只有在设计矩阵的限制条件下,套索的路径一致性属性才成立。

定理2。套索保持路径一致的充分必要条件是

最大值j个{覆盖(cov)(X(X)j个,X(X))覆盖(cov)(X(X))1}<1,
5

哪里是一个-带j个第个元素为sgn(βj个).

事实上,套索在变量选择中可能并不一致,这一点最早是在Meinshausen和Bühlmann中发现的(2006)世卫组织在高斯图形模型选择的背景下,认为需要类似于不等式(5)的条件来确保拉索型程序变量选择的一致性。在本文的准备过程中,其他几位研究人员也独立地发现了类似于定理2的结果。特别是邹(2006)表明套索在变量选择中保持一致的必要条件是

最大值j个{覆盖(cov)(X(X)j个,X(X))覆盖(cov)(X(X))1}*1,
6

对于某个符号向量*。此处报告的必要性结果更强,因为它意味着条件(6). 赵和余(2006)也考虑了类似于不等式(5)的条件,但其重点是符号一致性,即。(β^j个)与真实回归系数的符号一致。条件的必要性(5)在我们的定理2中,符号一致性直接继承了它们的定理2,因为在变量选择和估计中符号一致性弱于一致性。类似地,它们的符号一致性的充分性结果也紧跟在条件的充分性之后(5)在我们的定理2中。出于这个原因,我们省略了必要性的证明,而只给出了充分性的证明附录A.

定理2表明,如果条件(5)如果不满意,即使可以自由选择调整参数,我们也不能使用套索来选择正确的变量λ因此,能够在实践中确定套索何时可用于变量选择显然很重要。当然,定理2中给出的条件无法检查,因为它涉及真实的回归系数β。为此,可以强制使用更强的条件以确保套索的路径一致性:

最大值j个覆盖(cov)(X(X)j个,X(X))覆盖(cov)(X(X))1<1
7

事实上,遵循与定理2相同的证明,可以证明不等式(7)是套索解路径包含估计的充分条件β^这样的话β^j个0当且仅当j个ℐ. 相反,很容易看出,如果条件(7)违反了,那么总是有一个β这样的条件(5)不满意。根据定理2,套索至少在这种情况下不是路径一致的β.

2.3. 最小角度回归选择

Efron提出的LARS方法等。(2004)是一种与套索密切相关的方法。LARS方法使用与正向选择类似的变量选择策略。从所有系数等于0开始,该算法找到与响应变量最相关的预测器,并朝着这个方向前进。而不是朝着Y(Y)对于变量,正如在正向选择中所做的那样,LARS算法只在这个方向上采取尽可能大的步骤,直到其他变量与当前残差有尽可能多的相关性。然后输入新的预测器并继续该过程。读者可参考Efron等。(2004)和奥斯本等。(2000)详细的LARS算法。LARS的巨大计算优势来自这样一个事实,即LARS路径是分段线性的,而我们所需要做的只是定位变化点。一旦变量进入LARS解决方案路径,它将保留在解决方案路径上。因此,如果首先选择冗余变量,则LARS方法不能保持路径一致。

定理3。如果

最大值j个|覆盖(cov)(X(X)j个,X(X))β|最大值j个|冠状病毒(X(X)j个,X(X))β|,
8

则LARS方法与非消失概率的路径不一致。

2.4. 弹性网

弹性网是Zou和Hastie最近提出的(2005)结合套索和脊线回归的强度。弹性净估计定义为

β^以太网(λ)=参数最小值β(12Y(Y)X(X)β2+n个λβ1+n个2τβ22),
9

哪里λτ是调谐参数和‖·‖2代表矢量2-规范。显然,弹性网有两个套索(τ=0)和岭回归(λ=0)作为特殊情况。与套索类似1-惩罚鼓励稀疏估计β,和平方2-惩罚鼓励高度相关的预测者进行相似的系数估计。在邹和哈斯蒂已经证明了这一点(2005)在仿真中,弹性网的预测性能往往优于拉索回归和岭回归。像套索和LARS一样,弹性网并不总是路径一致的。

定理4。弹性网保持路径一致的一个充要条件是

最大值j个(inf公司c(c)1,c(c)20+[覆盖(cov)(X(X)j个,X(X)){覆盖(cov)(X(X))+c(c)1}1(+c(c)1c(c)2β)])<1
10

为了进一步了解条件(10),请考虑当cov(X(X))=β=英国标准对于某些标量b条>不等式(10)的左侧变为

最大值j个(inf公司c(c)1,c(c)20+[覆盖(cov)(X(X)j个,X(X)){覆盖(cov)(X(X))+c(c)1}1(+c(c)1c(c)2β)])=最大值j个{inf公司c(c)1,c(c)20+(1+b条c(c)1/c(c)21+c(c)2)覆盖(cov)(X(X)j个,X(X))覆盖(cov)(X(X))1}=最大值j个{覆盖(cov)(X(X)j个,X(X))冠状病毒(X(X))1}.
11

现在的状况(10)与条件相同(5).

3.算法

对于大多数正则化方法,计算精确的解路径是非常昂贵的,如果不是不可能的话。我们必须通过评估微调参数网格的估计值来近似求解路径,并且在确定要考虑的微调参数网格有多精细时,在近似精度和计算成本之间存在权衡。特别是,在给定初始估计的情况下,可以通过求解二次规划问题来近似非负garrotte解的路径(2)对于一系列λs、 正如在布雷曼所做的那样(1995). 我们证明了,与套索类似,非负garrotte解的路径是分段线性的,并且我们利用它构造了一个高效的算法来构建精确的非负garlotte解路径。

β^天然气(λ)=(d日1(λ)β1初始化,d日2(λ)β2初始化,...,d日(λ)β初始化)是方程的解(2)哪里β初始化是初步估计。Karush–Kuhn–Tucker条件的简单应用产生

1n个βj个初始化X(X)j个{Y(Y)X(X)β^天然气(λ)}=λ,如果β^j个天然气(λ)0,
12
1n个βj个初始化X(X)j个{Y(Y)X(X)β^天然气(λ)}<λ,如果β^j个天然气(λ)=0
13

解决方案路径的这些特征类似于LARS的特征,可以用于构建解决方案路径。从所有系数都等于0开始,算法找到预测器,使得X(X)j个βj个初始化响应变量最大化并朝这个方向前进。然后,我们可以朝着这个方向迈出最大的一步,直到出现以下情况之一:

  • (a)

    其他一些变量进入该模型,因为它还最大化了X(X)j个βj个初始化和当前残差;

  • (b)

    由于非负约束,应删除变量d日j个如果我们继续朝这个方向走,就会违反0。

事实证明,这两种情况都可以轻松处理。前者可以通过将此变量添加到模型中并使用更新的变量集重新计算方向来处理,以便条件(12)和(13)继续保持不变。如果非零系数达到0,则会出现后者。在这种情况下,我们只需删除变量,然后使用更新的变量集重新计算方向。总之,我们提出了以下算法来计算非负garrotte解路径。

3.1. 算法-非负garrotte

  • 第1步:开始于d日[0]=0,k个=1和第页[0]=Y(Y).

  • 第2步:计算当前激活集
    C类1=参数最大值j个(Zj个第页[k个1]),
    哪里Zj个=X(X)j个βj个初始化.
  • 步骤3:计算当前方向γ,这是一个-维度向量定义为γck个c(c)=0
    γC类k个=(ZC类k个ZC类k个)1ZC类k个第页[k个1],
  • 第4步:对于每j个\不在中𝒞k个,计算非负加洛特组朝着方向前进的距离γ之前X(X)j个进入激活集。这可以通过αj个这样的话
    Zj个(第页[k个1]αj个Zγ)=Zj个(第页[k个1]αj个Zγ)
    14
    哪里j个是从中任意选择的𝒞k个.
  • 第5步:对于每j个𝒞k个,计算αj个=最小值(βj个,1)其中βj个=d日j个[k个1]/γj个,如果非负,则衡量非负加洛特团队的进步程度d日j个变为0。

  • 第6步:如果αj个0, ∀j个或最小值j个:αj个>0(αj个)>1台α=1.否则,表示α=最小值j个:αj个>0(αj个)≡αj个*.设置d日[k个]=d日[k个−1]+αγ.如果j个*\不在中𝒞k个,更新𝒞k个+1个=𝒞k个∪{j个*}; 否则更新𝒞k个+1个=𝒞k个−{j个*}.

  • 第7步:套第页[k个]=Y(Y)Zd公司[k个]k个=k个+1.返回步骤3,直到α=1.

这种算法与LARS或改进的LARS算法(Efron等。,2004)对于LASSO,并且具有与普通最小二乘相同大小的计算成本。非负garrotte的一个复杂因素是模型中的非负约束(2)。我们将在下一个定理中表明,这些约束是自动执行的,并且确实可以使用上面描述的过程来构造非负garrotte的整个解路径。

定理5。在下面讨论的“一次一个”条件下,该算法的轨迹与非负garrotte解路径一致。

Efron在推导套索和LARS之间的关系时,使用了与我们在定理1中假设的条件相同的条件(一次一个)等。(2004). 使用当前的符号,条件表明j个*在步骤6中唯一地定义。这个假设基本上意味着

  • (a)

    在上述算法的任何阶段,每次只对一个变量进行加法运算,

  • (b)

    添加时没有变量消失

  • (c)

    没有两个变量同时消失。

这在实践中通常是正确的,可以通过稍微扰动响应来强制执行。有关更详细的讨论,请读者参阅Efron等。(2004).

4.仿真

在本节中,我们研究了非负garrotte估计的有限样本性质。我们在前几节中的讨论适用于作为初始估计的任何一致估计。在实践中,非负garrotte估计的准确性取决于初始估计的选择。本文考虑了初始估计的四种选择:普通最小二乘估计、岭估计、套索和弹性网。除了普通最小二乘估计外,其他初始估计都涉及调谐参数,这些参数在我们的数值示例中是通过十倍交叉验证选择的。

4.1. 示例1

在第一组模拟中,我们对比了套索、LARS和弹性网,证明了非负garrotte过程的路径一致性。我们考虑一个简单的模型:

Y(Y)=X(X)1+X(X)2+0X(X)+ε,
15

哪里ɛ𝒩(0,1). 两个积极的预测因素X(X)1X(X)2根据标准正态分布独立模拟。额外的噪声变量X(X)也包括在分析中。有条件地打开X(X)1X(X)2,X(X)由平均值的正态分布生成α(X(X)1+X(X)2)和方差1−2α2因此X(X)也是𝒩(0,1). 我们认为有四种不同的αs: 0.35、0.45、0.55和0.65。对于每个α-值,我们考虑20个等距样本大小:25,50,…,500。对于每种组合α我们模拟了100个数据集,计算了不同的解路径覆盖真实模型的次数,即路径包含至少一个估计值的次数β^这样的话β^10,β^20β^=0为了修正这些想法,我们只考虑普通最小二乘估计作为本例中非负加洛特的初始估计。图。1描述了覆盖真实模型的每种方法的频率。值得注意的是,在本例中,弹性网和套索具有无法区分的性能,这可以从本例中条件(5)和(10)之间的等价性中得到预期。

图1

非负garrotte与其他方法的路径一致性比较(○, 非负garrotte;+,套索或弹性网,LARS):(a)α=0.35; (b)α=0.45; (c)α=0.55; (d)α=0.65

什么时候?α=0.35,所有估算程序在变量选择方面是一致的。但是,对于较小的样本量,非负加洛特选择正确模型的频率高于其他模型。什么时候?α增大时,非负garrotte和其他方法的覆盖概率收敛速度都会减慢。对于α=0.55或α=0.65,套索、LARS和弹性网在变量选择中似乎不再一致。相比之下,非消极的加洛特仍然能够为α高达0.65。值得指出的是,这些经验证据与我们之前提出的理论结果相一致。根据定理2–4,只有当α<0.5.

4.2. 示例2

在第二组模拟中,我们考虑了Tibshirani中使用的模型(1996). 从模型中模拟了20、50或100个观测值(1)哪里=8,β=(3,1.5,0,0,2,0,0,0)σ=3.两者之间的相关性X(X)X(X)j个ρ|j个|具有ρ=0.5。对于非负garrotte,我们使用第节中给出的算法构建非负garrotte解决路径,并遵循袁和林(2006),我们使用以下内容C类-要确定的类型标准λ:

C类(μ^)=Y(Y)μ^2σ2n个+2d日˜(f)μ,σ2,
16

哪里

d日~(f)=2j个(d日j个>0)j个d日j个.

对于套索、LARS和弹性网,使用十倍交叉验证来确定相应的调谐参数。对于每个样本大小,我们重复实验200次,比较不同方法在模型误差、模型大小以及变量选择中的假阳性和假阴性结果方面的差异。估计的模型误差β^由提供

我(β^)=(β^β)'(β^β),

哪里=E类(X(X)X(X))是的人口协方差矩阵X(X).

1总结了仿真结果。我们用ENET表示弹性网,用前缀G表示具有某些初始估计的非负garrotte估计。括号中的数字是标准误差。可以从表中进行一些观察1真实模型包含中等数量的中等大小效应,信噪比约为5.7。在估计的准确性方面,所有版本的非负加洛特改进了初始估计。从表中也可以看出1非负garrotte在减少假阳性和假阴性结果方面更有效。

表1

模拟示例2-基于200次运行的平均模型误差ME、模型大小size、假阳性结果FP和假阴性结果FN

方法以下n值的结果:
n个=20n个=50n个=100
尺寸FP公司FN公司尺寸FP公司FN公司尺寸FP公司FN公司
拉索4.414.221.560.341.524.921.9200.675.242.240
(0.21)(0.12)(0.10)(0.04)(0.06)(0.11)(0.11)(0.00)(0.03)(0.11)(0.11)(0.00)
格拉索4.072.980.640.661.213.480.640.160.553.640.640
(0.21)(0.09)(0.07)(0.05)(0.06)(0.06)(0.06)(0.03)(0.03)(0.07)(0.07)(0.00)
屋脊5.768501.838500.88850
(0.29)(0.00)(0.00)(0.00)(0.06)(0.00)(0.00)(0.00)(0.03)(0.00)(0.00)(0.00)
砂砾5.094.261.740.481.364.101.220.120.614.021.020
(0.31)(0.14)(0.13)(0.05)(0.07)(0.11)(0.11)(0.02)(0.02)(0.09)(0.09)(0.00)
ENET公司4.054.701.980.281.605.182.1800.745.202.200
(0.19)(0.12)(0.11)(0.04)(0.08)(0.11)(0.11)(0.00)(0.04)(0.11)(0.11)(0.00)
基因3.943.340.900.561.223.921.020.100.563.800.800
(0.19)(0.10)(0.08)(0.05)(0.06)(0.10)(0.10)(0.02)(0.03)(0.08)(0.08)(0.00)
OLS公司5.838501.838500.88850
(0.29)(0.00)(0.00)(0.00)(0.06)(0.00)(0.00)(0.00)(0.03)(0.00)(0.00)(0.00)
高尔夫5.074.241.720.481.364.101.220.120.614.021.020
(0.31)(0.15)(0.13)(0.05)(0.07)(0.11)(0.11)(0.02)(0.02)(0.09)(0.09)(0.00)
方法以下n值的结果:
n个=20n个=50n个=100
尺寸FP公司FN公司尺寸FP公司FN公司尺寸FP公司FN公司
拉索4.414.221.560.341.524.921.9200.675.242.240
(0.21)(0.12)(0.10)(0.04)(0.06)(0.11)(0.11)(0.00)(0.03)(0.11)(0.11)(0.00)
格拉索4.072.980.640.661.213.480.640.160.553.640.640
(0.21)(0.09)(0.07)(0.05)(0.06)(0.06)(0.06)(0.03)(0.03)(0.07)(0.07)(0.00)
屋脊5.768501.838500.88850
(0.29)(0.00)(0.00)(0.00)(0.06)(0.00)(0.00)(0.00)(0.03)(0.00)(0.00)(0.00)
砂砾5.094.261.740.481.364.101.220.120.614.021.020
(0.31)(0.14)(0.13)(0.05)(0.07)(0.11)(0.11)(0.02)(0.02)(0.09)(0.09)(0.00)
ENET公司4.054.701.980.281.605.182.1800.745.202.200
(0.19)(0.12)(0.11)(0.04)(0.08)(0.11)(0.11)(0.00)(0.04)(0.11)(0.11)(0.00)
基因3.943.340.900.561.223.921.020.100.563.800.800
(0.19)(0.10)(0.08)(0.05)(0.06)(0.10)(0.10)(0.02)(0.03)(0.08)(0.08)(0.00)
OLS公司5.838501.838500.88850
(0.29)(0.00)(0.00)(0.00)(0.06)(0.00)(0.00)(0.00)(0.03)(0.00)(0.00)(0.00)
高尔夫5.074.241.720.481.364.101.220.120.614.021.020
(0.31)(0.15)(0.13)(0.05)(0.07)(0.11)(0.11)(0.02)(0.02)(0.09)(0.09)(0.00)

OLS,普通最小二乘法。

表1

模拟示例2-基于200次运行的平均模型误差ME、模型大小size、假阳性结果FP和假阴性结果FN

方法以下n值的结果:
n个=20n个=50n个=100
尺寸FP公司FN公司尺寸FP公司FN公司尺寸FP公司FN公司
拉索4.414.221.560.341.524.921.9200.675.242.240
(0.21)(0.12)(0.10)(0.04)(0.06)(0.11)(0.11)(0.00)(0.03)(0.11)(0.11)(0.00)
玻璃纤维4.072.980.640.661.213.480.640.160.553.640.640
(0.21)(0.09)(0.07)(0.05)(0.06)(0.06)(0.06)(0.03)(0.03)(0.07)(0.07)(0.00)
屋脊5.768501.838500.88850
(0.29)(0.00)(0.00)(0.00)(0.06)(0.00)(0.00)(0.00)(0.03)(0.00)(0.00)(0.00)
格栅5.094.261.740.481.364.101.220.120.614.021.020
(0.31)(0.14)(0.13)(0.05)(0.07)(0.11)(0.11)(0.02)(0.02)(0.09)(0.09)(0.00)
ENET公司4.054.701.980.281.605.182.1800.745.202.200
(0.19)(0.12)(0.11)(0.04)(0.08)(0.11)(0.11)(0.00)(0.04)(0.11)(0.11)(0.00)
GENET公司3.943.340.900.561.223.921.020.100.563.800.800
(0.19)(0.10)(0.08)(0.05)(0.06)(0.10)(0.10)(0.02)(0.03)(0.08)(0.08)(0.00)
OLS公司5.838501.838500.88850
(0.29)(0.00)(0.00)(0.00)(0.06)(0.00)(0.00)(0.00)(0.03)(0.00)(0.00)(0.00)
高尔夫5.074.241.720.481.364.101.220.120.614.021.020
(0.31)(0.15)(0.13)(0.05)(0.07)(0.11)(0.11)(0.02)(0.02)(0.09)(0.09)(0.00)
方法以下n值的结果:
n个=20n个=50n个=100
尺寸FP公司FN公司尺寸FP公司FN公司尺寸FP公司FN公司
拉索4.414.221.560.341.524.921.9200.675.242.240
(0.21)(0.12)(0.10)(0.04)(0.06)(0.11)(0.11)(0.00)(0.03)(0.11)(0.11)(0.00)
玻璃纤维4.072.980.640.661.213.480.640.160.553.640.640
(0.21)(0.09)(0.07)(0.05)(0.06)(0.06)(0.06)(0.03)(0.03)(0.07)(0.07)(0.00)
屋脊5.768501.838500.88850
(0.29)(0.00)(0.00)(0.00)(0.06)(0.00)(0.00)(0.00)(0.03)(0.00)(0.00)(0.00)
格栅5.094.261.740.481.364.101.220.120.614.021.020
(0.31)(0.14)(0.13)(0.05)(0.07)(0.11)(0.11)(0.02)(0.02)(0.09)(0.09)(0.00)
ENET公司4.054.701.980.281.605.182.1800.745.202.200
(0.19)(0.12)(0.11)(0.04)(0.08)(0.11)(0.11)(0.00)(0.04)(0.11)(0.11)(0.00)
GENET公司3.943.340.900.561.223.921.020.100.563.800.800
(0.19)(0.10)(0.08)(0.05)(0.06)(0.10)(0.10)(0.02)(0.03)(0.08)(0.08)(0.00)
OLS公司5.838501.838500.88850
(0.29)(0.00)(0.00)(0.00)(0.06)(0.00)(0.00)(0.00)(0.03)(0.00)(0.00)(0.00)
高尔夫5.074.241.720.481.364.101.220.120.614.021.020
(0.31)(0.15)(0.13)(0.05)(0.07)(0.11)(0.11)(0.02)(0.02)(0.09)(0.09)(0.00)

OLS,普通最小二乘法。

4.3. 示例3

除了真实回归系数为βj个=0.85,j个=1,2,…,8. 真实模型包含所有变量,每个变量的影响都很小,信噪比约为1.7。2记录仿真结果。根据表2非负garrotte往往不如最初的估计准确,因为它经常选择尺寸太小的模型。值得指出的是,这种次优性能与我们的理论结果并不矛盾,可能部分归因于调谐标准的无效性。

表2

仿真示例3-基于200次运行的平均模型误差ME、模型大小size、假阳性结果FP和假阴性结果FN

方法以下n值的结果:
n个=20n个=50n个=100
尺寸FP公司FN公司尺寸FP公司FN公司尺寸FP公司FN公司
拉索5.354.9803.021.827.1400.860.867.9000.10
(0.24)(0.15)(0.00)(0.15)(0.07)(0.07)(0.00)(0.07)(0.03)(0.02)(0.00)(0.02)
格拉索5.953.1604.842.425.3402.661.067.0800.92
(0.21)(0.12)(0.00)(0.12)(0.07)(0.09)(0.00)(0.09)(0.05)(0.08)(0.00)(0.08)
屋脊5.678001.758000.83800
(0.27)(0.00)(0.00)(0.00)(0.06)(0.00)(0.00)(0.00)(0.03)(0.00)(0.00)(0.00)
格栅5.694.1603.842.385.6002.401.037.1200.88
(0.19)(0.14)(0.00)(0.14)(0.08)(0.09)(0.00)(0.09)(0.04)(0.07)(0.00)(0.07)
ENET公司4.575.7002.301.737.2600.740.887.8600.14
(0.20)(0.15)(0.00)(0.15)(0.07)(0.06)(0.00)(0.06)(0.03)(0.02)(0.00)(0.02)
GENET公司5.863.7404.262.225.7402.261.047.2000.80
(0.20)(0.14)(0.00)(0.14)(0.07)(0.09)(0.00)(0.09)(0.04)(0.07)(0.00)(0.07)
OLS公司5.748001.758000.83800
(0.27)(0.00)(0.00)(0.00)(0.06)(0.00)(0.00)(0.00)(0.03)(0.00)(0.00)(0.00)
高尔夫5.694.1403.862.385.6002.401.037.1200.88
(0.19)(0.14)(0.00)(0.14)(0.08)(0.09)(0.00)(0.09)(0.04)(0.07)(0.00)(0.07)
方法以下n值的结果:
n个=20n个=50n个=100
尺寸FP公司FN公司尺寸FP公司FN公司尺寸FP公司FN公司
拉索5.354.9803.021.827.1400.860.867.9000.10
(0.24)(0.15)(0.00)(0.15)(0.07)(0.07)(0.00)(0.07)(0.03)(0.02)(0.00)(0.02)
格拉索5.953.1604.842.425.3402.661.067.0800.92
(0.21)(0.12)(0.00)(0.12)(0.07)(0.09)(0.00)(0.09)(0.05)(0.08)(0.00)(0.08)
屋脊5.678001.758000.83800
(0.27)(0.00)(0.00)(0.00)(0.06)(0.00)(0.00)(0.00)(0.03)(0.00)(0.00)(0.00)
格栅5.694.1603.842.385.6002.401.037.1200.88
(0.19)(0.14)(0.00)(0.14)(0.08)(0.09)(0.00)(0.09)(0.04)(0.07)(0.00)(0.07)
ENET公司4.575.7002.301.737.2600.740.887.8600.14
(0.20)(0.15)(0.00)(0.15)(0.07)(0.06)(0.00)(0.06)(0.03)(0.02)(0.00)(0.02)
GENET公司5.863.7404.262.225.7402.261.047.2000.80
(0.20)(0.14)(0.00)(0.14)(0.07)(0.09)(0.00)(0.09)(0.04)(0.07)(0.00)(0.07)
OLS公司5.748001.758000.83800
(0.27)(0.00)(0.00)(0.00)(0.06)(0.00)(0.00)(0.00)(0.03)(0.00)(0.00)(0.00)
高尔夫球5.694.1403.862.385.6002.401.037.1200.88
(0.19)(0.14)(0.00)(0.14)(0.08)(0.09)(0.00)(0.09)(0.04)(0.07)(0.00)(0.07)

OLS,普通最小二乘法。

表2

仿真示例3-基于200次运行的平均模型误差ME、模型大小size、假阳性结果FP和假阴性结果FN

方法以下n值的结果:
n个=20n个=50n个=100
尺寸FP公司FN公司尺寸FP公司FN公司尺寸FP公司FN公司
拉索5.354.9803.021.827.1400.860.867.9000.10
(0.24)(0.15)(0.00)(0.15)(0.07)(0.07)(0.00)(0.07)(0.03)(0.02)(0.00)(0.02)
格拉索5.953.1604.842.425.3402.661.067.0800.92
(0.21)(0.12)(0.00)(0.12)(0.07)(0.09)(0.00)(0.09)(0.05)(0.08)(0.00)(0.08)
屋脊5.678001.758000.83800
(0.27)(0.00)(0.00)(0.00)(0.06)(0.00)(0.00)(0.00)(0.03)(0.00)(0.00)(0.00)
砂砾5.694.1603.842.385.6002.401.037.1200.88
(0.19)(0.14)(0.00)(0.14)(0.08)(0.09)(0.00)(0.09)(0.04)(0.07)(0.00)(0.07)
ENET公司4.575.7002.301.737.2600.740.887.8600.14
(0.20)(0.15)(0.00)(0.15)(0.07)(0.06)(0.00)(0.06)(0.03)(0.02)(0.00)(0.02)
基因5.863.7404.262.225.7402.261.047.2000.80
(0.20)(0.14)(0.00)(0.14)(0.07)(0.09)(0.00)(0.09)(0.04)(0.07)(0.00)(0.07)
OLS公司5.748001.758000.83800
(0.27)(0.00)(0.00)(0.00)(0.06)(0.00)(0.00)(0.00)(0.03)(0.00)(0.00)(0.00)
高尔夫球5.694.1403.862.385.6002.401.037.1200.88
(0.19)(0.14)(0.00)(0.14)(0.08)(0.09)(0.00)(0.09)(0.04)(0.07)(0.00)(0.07)
方法以下n值的结果:
n个=20n个=50n个=100
尺寸FP公司FN公司尺寸FP公司FN公司尺寸FP公司FN公司
拉索5.354.9803.021.827.1400.860.867.9000.10
(0.24)(0.15)(0.00)(0.15)(0.07)(0.07)(0.00)(0.07)(0.03)(0.02)(0.00)(0.02)
玻璃纤维5.953.1604.842.425.3402.661.067.0800.92
(0.21)(0.12)(0.00)(0.12)(0.07)(0.09)(0.00)(0.09)(0.05)(0.08)(0.00)(0.08)
屋脊5.678001.758000.83800
(0.27)(0.00)(0.00)(0.00)(0.06)(0.00)(0.00)(0.00)(0.03)(0.00)(0.00)(0.00)
格栅5.694.1603.842.385.6002.401.037.1200.88
(0.19)(0.14)(0.00)(0.14)(0.08)(0.09)(0.00)(0.09)(0.04)(0.07)(0.00)(0.07)
ENET公司4.575.7002.301.737.2600.740.887.8600.14
(0.20)(0.15)(0.00)(0.15)(0.07)(0.06)(0.00)(0.06)(0.03)(0.02)(0.00)(0.02)
GENET公司5.863.7404.262.225.7402.261.047.2000.80
(0.20)(0.14)(0.00)(0.14)(0.07)(0.09)(0.00)(0.09)(0.04)(0.07)(0.00)(0.07)
OLS公司5.748001.758000.83800
(0.27)(0.00)(0.00)(0.00)(0.06)(0.00)(0.00)(0.00)(0.03)(0.00)(0.00)(0.00)
高尔夫5.694.1403.862.385.6002.401.037.1200.88
(0.19)(0.14)(0.00)(0.14)(0.08)(0.09)(0.00)(0.09)(0.04)(0.07)(0.00)(0.07)

OLS,普通最小二乘法。

4.4. 示例4

除真实回归系数为β=(5,0.5,0.5,0.5,0,0,0,0)。真实模型包含一个大效果和几个小效果。对仿真结果进行了总结。可以观察到非负garrotte相对于其初始估计的明显优势。注意,随着样本量的增加,非负garrotte产生的假阴性结果的数量会减少。

表3

模拟示例4-基于200次运行的平均模型误差ME、模型大小size、假阳性结果FP和假阴性结果FN

方法以下n值的结果:
n个=20n个=50n个=100
尺寸FP公司FN公司尺寸FP公司FN公司尺寸FP公司FN公司
拉索4.083.341.041.701.624.041.281.240.724.981.500.52
(0.20)(0.13)(0.09)(0.06)(0.08)(0.13)(0.09)(0.06)(0.03)(0.10)(0.08)(0.04)
格拉索2.722.120.442.321.322.540.562.020.652.940.401.46
(0.15)(0.10)(0.06)(0.05)(0.06)(0.09)(0.06)(0.05)(0.02)(0.08)(0.05)(0.05)
屋脊5.968401.968400.89840
(0.28)(0.00)(0.00)(0.00)(0.07)(0.00)(0.00)(0.00)(0.03)(0.00)(0.00)(0.00)
格栅3.533.541.421.881.343.080.901.820.693.480.781.30
(0.23)(0.18)(0.11)(0.08)(0.06)(0.13)(0.09)(0.06)(0.02)(0.11)(0.08)(0.06)
ENET公司4.353.741.321.581.7041.141.140.804.941.400.46
(0.22)(0.14)(0.10)(0.07)(0.09)(0.11)(0.08)(0.06)(0.03)(0.12)(0.10)(0.04)
基因2.702.240.542.301.292.640.541.900.663.040.401.36
(0.16)(0.10)(0.07)(0.05)(0.05)(0.10)(0.06)(0.05)(0.02)(0.09)(0.05)(0.05)
OLS公司6.028401.968400.89840
(0.29)(0.00)(0.00)(0.00)(0.07)(0.00)(0.00)(0.00)(0.03)(0.00)(0.00)(0.00)
高尔夫3.473.521.421.901.343.080.901.820.693.480.781.30
(0.23)(0.17)(0.11)(0.07)(0.06)(0.13)(0.09)(0.06)(0.02)(0.11)(0.08)(0.06)
方法以下n值的结果:
n个=20n个=50n个=100
尺寸FP公司FN公司尺寸FP公司FN公司尺寸FP公司FN公司
拉索4.083.341.041.701.624.041.281.240.724.981.500.52
(0.20)(0.13)(0.09)(0.06)(0.08)(0.13)(0.09)(0.06)(0.03)(0.10)(0.08)(0.04)
格拉索2.722.120.442.321.322.540.562.020.652.940.401.46
(0.15)(0.10)(0.06)(0.05)(0.06)(0.09)(0.06)(0.05)(0.02)(0.08)(0.05)(0.05)
屋脊5.968401.968400.89840
(0.28)(0.00)(0.00)(0.00)(0.07)(0.00)(0.00)(0.00)(0.03)(0.00)(0.00)(0.00)
格栅3.533.541.421.881.343.080.901.820.693.480.781.30
(0.23)(0.18)(0.11)(0.08)(0.06)(0.13)(0.09)(0.06)(0.02)(0.11)(0.08)(0.06)
ENET公司4.353.741.321.581.7041.141.140.804.941.400.46
(0.22)(0.14)(0.10)(0.07)(0.09)(0.11)(0.08)(0.06)(0.03)(0.12)(0.10)(0.04)
GENET公司2.702.240.542.301.292.640.541.900.663.040.401.36
(0.16)(0.10)(0.07)(0.05)(0.05)(0.10)(0.06)(0.05)(0.02)(0.09)(0.05)(0.05)
OLS公司6.028401.968400.89840
(0.29)(0.00)(0.00)(0.00)(0.07)(0.00)(0.00)(0.00)(0.03)(0.00)(0.00)(0.00)
高尔夫3.473.521.421.901.343.080.901.820.693.480.781.30
(0.23)(0.17)(0.11)(0.07)(0.06)(0.13)(0.09)(0.06)(0.02)(0.11)(0.08)(0.06)

OLS,普通最小二乘法。

表3

模拟示例4-基于200次运行的平均模型误差ME、模型大小size、假阳性结果FP和假阴性结果FN

方法以下n值的结果:
n个=20n个=50n个=100
尺寸FP公司FN公司尺寸FP公司FN公司尺寸FP公司FN公司
拉索4.083.341.041.701.624.041.281.240.724.981.500.52
(0.20)(0.13)(0.09)(0.06)(0.08)(0.13)(0.09)(0.06)(0.03)(0.10)(0.08)(0.04)
格拉索2.722.120.442.321.322.540.562.020.652.940.401.46
(0.15)(0.10)(0.06)(0.05)(0.06)(0.09)(0.06)(0.05)(0.02)(0.08)(0.05)(0.05)
屋脊5.968401.968400.89840
(0.28)(0.00)(0.00)(0.00)(0.07)(0.00)(0.00)(0.00)(0.03)(0.00)(0.00)(0.00)
格栅3.533.541.421.881.343.080.901.820.693.480.781.30
(0.23)(0.18)(0.11)(0.08)(0.06)(0.13)(0.09)(0.06)(0.02)(0.11)(0.08)(0.06)
ENET公司4.353.741.321.581.7041.141.140.804.941.400.46
(0.22)(0.14)(0.10)(0.07)(0.09)(0.11)(0.08)(0.06)(0.03)(0.12)(0.10)(0.04)
GENET公司2.702.240.542.301.292.640.541.900.663.040.401.36
(0.16)(0.10)(0.07)(0.05)(0.05)(0.10)(0.06)(0.05)(0.02)(0.09)(0.05)(0.05)
OLS公司6.028401.968400.89840
(0.29)(0.00)(0.00)(0.00)(0.07)(0.00)(0.00)(0.00)(0.03)(0.00)(0.00)(0.00)
高尔夫3.473.521.421.901.343.080.901.820.693.480.781.30
(0.23)(0.17)(0.11)(0.07)(0.06)(0.13)(0.09)(0.06)(0.02)(0.11)(0.08)(0.06)
方法以下n值的结果:
n个=20n个=50n个=100
尺寸FP公司FN公司尺寸FP公司FN公司尺寸FP公司FN公司
拉索4.083.341.041.701.624.041.281.240.724.981.500.52
(0.20)(0.13)(0.09)(0.06)(0.08)(0.13)(0.09)(0.06)(0.03)(0.10)(0.08)(0.04)
格拉索2.722.120.442.321.322.540.562.020.652.940.401.46
(0.15)(0.10)(0.06)(0.05)(0.06)(0.09)(0.06)(0.05)(0.02)(0.08)(0.05)(0.05)
屋脊5.968401.968400.89840
(0.28)(0.00)(0.00)(0.00)(0.07)(0.00)(0.00)(0.00)(0.03)(0.00)(0.00)(0.00)
格栅3.533.541.421.881.343.080.901.820.693.480.781.30
(0.23)(0.18)(0.11)(0.08)(0.06)(0.13)(0.09)(0.06)(0.02)(0.11)(0.08)(0.06)
ENET公司4.353.741.321.581.7041.141.140.804.941.400.46
(0.22)(0.14)(0.10)(0.07)(0.09)(0.11)(0.08)(0.06)(0.03)(0.12)(0.10)(0.04)
GENET公司2.702.240.542.301.292.640.541.900.663.040.401.36
(0.16)(0.10)(0.07)(0.05)(0.05)(0.10)(0.06)(0.05)(0.02)(0.09)(0.05)(0.05)
OLS公司6.028401.968400.89840
(0.29)(0.00)(0.00)(0.00)(0.07)(0.00)(0.00)(0.00)(0.03)(0.00)(0.00)(0.00)
高尔夫3.473.521.421.901.343.080.901.820.693.480.781.30
(0.23)(0.17)(0.11)(0.07)(0.06)(0.13)(0.09)(0.06)(0.02)(0.11)(0.08)(0.06)

OLS,普通最小二乘法。

总之,我们从示例2-4中发现,当真实模型相对稀疏时,非负garrotte表现得很好,并且根据Friedman倡导的bet-on-sparsity原则,它在许多应用中都应该是有利的等。(2004).

5.真实数据

为了进一步说明我们的结果,我们重新分析了Stamey研究中的前列腺癌数据集等。(1989). 该数据集以前用于Tibshirani(1996)包括97名即将接受根治性前列腺切除术的男性患者的医疗记录。反应变量是前列腺特异性抗原的水平。预测因子为八项临床指标:log(癌症体积)(lcavol)、log(前列腺重量)(lweight)、年龄、log值(良性前列腺增生量)(lbph)、精囊浸润(svi)、log值(包膜穿透)(lcp)、Gleason评分(Gleason)和Gleason百分比评分4或5(pgg45)。

这里的主要兴趣之一是确定哪些预测因子在预测反应时更重要。2(a) ,2(c) 和2(e) 给出了套索和LARS的解路径(本例中套索与LARS共享同一解路径)、非负garrotte和弹性网。为了举例说明,我们使用普通最小二乘估计作为非负garrotte的初始估计。对于弹性网,如Zou和Hastie所建议的(2005),我们修复在1000时,解路径对应于不同的值λ。在每个面板中,垂直虚线表示通过十倍交叉验证选择的调整参数。所有方法都表明,gleason可能是一个不重要的预测因子,而lcavol是最重要的预测者。演示第节中的路径一致性结果2,我们用人工变量2lcavol+gleason替换gleason。这个新变量再次包含很少的额外信息来预测响应,路径一致性方法应该能够识别这一事实。图中给出了新数据集上四种方法的求解路径2(b) ,2(d) 和2(f) 。与原始求解路径相比,非负garrotte路径受到的干扰最小。套索、LARS和弹性网均选择人工变量作为重要预测因子。这一观察结果支持了第节的理论2套索、LARS和弹性网的路径一致性取决于设计矩阵的相关性,而非负garrotte总是路径一致的。

图2

前列腺癌的解决途径示例:(a),(b)套索;(c) (d)非负向绞绳;(e) ,(f)弹性网

为了获得进一步的见解,我们使用五倍交叉验证来估计每种方法在原始数据集和扰动数据集上的预测误差。在原始数据上,套索和LARS、非负绞绳和弹性网的预测误差分别为0.571、0.558和0.623。修正gleason变量后,套索和LARS、非负加洛特和弹性网的预测误差分别为0.579、0.560和0.666。这与我们在图。2.

6.结论

本文证明了在适当的初始估计下,非负garrotte估计是路径一致的。它可以将一致性估计转化为在变量选择和系数估计方面一致的估计。我们证明了非负garrotte解的路径是分段线性的,并且整个路径可以快速计算出来。我们还通过仿真和实例表明,非负garrotte是一种有效的工具,可以提高给定估计器的变量选择和估计精度。这里呈现的令人鼓舞的结果表明,非负性绞绳的想法可能在更广泛的应用中有用。例如,可以考虑对多元非参数回归的扩展,并使用非负garrotte设计变量选择和估计程序。需要进一步研究来探索这一可能性和其他可能性。

致谢

袁的研究部分得到了国家科学基金资助DMS-0624841。林的研究部分得到了国家科学基金会拨款DMS-0134987的支持。

参考文献

1

布雷曼
,
L。
(
1995
)
使用非负garrote进行更好的子集回归
.
技术计量学
,
37
,
373
384
.

2

布雷曼
,
L。
(
1996
)
模型选择中不稳定性和稳定性的启发式方法
.
安。统计师。
,
24
,
2350
2383
.

,
S.S.公司。
,
多诺霍
,
D.L.公司。
桑德斯
,
文学硕士。
(
1998
)
基追踪原子分解
.
SIAM J.科学计算。
,
20
,
33
61
.

4

埃夫隆
,
B。
,
约翰斯通
,
一、。
,
哈斯蒂
,
T。
提比什拉尼
,
R。
(
2004
)
最小角度回归
.
安。统计师。
,
32
,
407
499
.

5

风扇
,
J。
,
R。
(
2001
)
基于非冲突惩罚似然的变量选择及其oracle性质
.
《美国统计杂志》。助理。
,
96
,
1348
1360
.

6

福斯特
,
D.P.公司。
乔治
,
即。
(
1994
)
多元回归的风险通货膨胀准则
.
安。统计师。
,
22
,
1947
1975
.

7

弗里德曼
,
J。
,
哈斯蒂
,
T。
,
罗塞
,
美国。
,
提比什拉尼
,
R。
,
J。
(
2004
)
关于助推论文的讨论
.
安。统计师。
,
32
,
102
107
.

8

乔治
,
E.I.公司。
福斯特
,
D.P.公司。
(
2000
)
校准和经验贝叶斯变量选择
.
生物特征
,
87
,
731
747
.

9

乔治
,
E.I.公司。
麦卡洛赫
,
R.E.公司。
(
1993
)
通过吉布斯采样选择变量
.
《美国统计杂志》。助理。
,
88
,
881
889
.

10

明绍森
,
N。
布尔曼
,
第页。
(
2006
)
高维图和拉索变量选择
.
安。统计师。
,
34
,
1436
1462
.

11

奥斯本
,
M。
,
普雷斯内尔
,
B。
图拉赫
,
B。
(
2000
)
关于LASSO及其对偶。
J.计算图表。统计师。
,
9
,
319
337
.

12

,
十、。
Ye(是)
,
J。
(
2002
)
自适应模型选择
.
《美国统计杂志》。助理。
,
97
,
210
221
.

13

斯塔米
,
T。
,
卡巴林
,
J。
,
麦克尼尔
,
J。
,
约翰斯顿
,
一、。
,
弗雷哈
,
F、。
,
红葡萄酒
,
E.公司。
,
N。
(
1989
)
前列腺特异性抗原在前列腺癌诊断和治疗中的应用Ⅱ:前列腺癌根治术患者
.
J.乌洛尔。
,
16
,
1076
1083
.

14

提比什拉尼
,
R。
(
1996
)
通过套索回归收缩和选择
.
J.R.统计。Soc.B公司
,
58
,
267
288
.

15

,
M。
,
年。
(
2005
)
线性模型中有效的经验贝叶斯变量选择和估计
.
《美国统计杂志》。助理。
,
100
,
1215
1225
.

16

,
M。
,
年。
(
2006
)
分组变量回归中的模型选择与估计
.
J.R.统计。Soc.B公司
,
68
,
49
67
.

17

,
第页。
,
B。
(
2006
)
关于拉索模型选择的一致性
.
J.马赫。学习。研究。
,
7
,
2481
2514
.

18

,
H。
(
2006
)
自适应Lasso及其oracle属性
.
《美国统计杂志》。助理。
,
101
,
1418
1429
.

19

,
H。
哈斯蒂
,
T。
(
2005
)
通过弹性网进行正则化和变量选择
.
J.R.统计。Soc.B公司
,
67
,
301
320
.

附录A

A.1、。定理1的证明

为了简单起见,我们抑制了对λ在证据中。

01={j个:d日j个=0,βj个0},Λ00={j个:d日j个=0,βj个=0},Λ11={j个:d日j个>0,βj个0},Λ10={j个:d日j个>0,βj个=0},

ij公司=#(Λij公司). 表示事件𝒜={10>0}. 首先我们展示一下P(P)(𝒜)→0作为n个→∞. 写入d日ij公司=d日Λij公司,,j个=0,1,并以相同的方式定义其他向量和矩阵,除非另有说明。请注意d日也是无约束的最小值

12Y(Y)Z1γ2+n个λj个γj个,
17

哪里γR(右).因此

(d日11d日10)=(Z11Z11/n个Z11Z10/n个Z10Z11/n个Z10Z10/n个)(Z11Y(Y)/n个λ111Z10Y(Y)/n个λ110).

表示

A类=Z1Z1,A类j个=Z1Z1j个,,j个=0.1,A类0.1=A类00A类01A类11A类10.

然后

A类=(**A类0.1A类01A类11A类0.1).

这意味着

d日10=A类0.1A类01A类11(Z11Y(Y)/n个λ111)+A类0.1(Z10Y(Y)/n个λ110)A类0.1.
18

重写作为

=Z10{11Z11(Z11Z11)Z11}Y(Y)/n个λ110+λA类01A类11111.
19

因为β^初始化δn个一致,对于任何,j个∈ {1,…,},

|β^初始化β^j个初始化ββj个|=|β^初始化(β^j个初始化βj个)+βj个(β^初始化β)|(|β^初始化|+|βj个|)|β^j个初始化βj个|=O(运行)(δn个).
20

这需要

A类11=1n个Δ11X(X)11X(X)11Δ11+O(运行)(δn个),
21
A类01=O(运行)(δn个),
22

其中Δ是带对角元素的对角矩阵β。因此,

=Z10{11Z11(Z11Z11)Z11}Y(Y)/n个λ{1+O(运行)(δn个)}110.
23

现在请注意

{11Z11(Z11Z11)Z11}Y(Y)2Y(Y)Y(Y)=O(运行)(n个),
24

自从Z11(Z'11Z11)Z'11是一个投影矩阵。因此,根据柯西–施瓦茨不等式,

Z10{11Z11(Z11Z11)Z11}Y(Y)Z10{11Z11(Z11Z11)Z11}Y(Y)=O(运行)(n个Z10)=O(运行)(n个最大值|βj个整数|)=O(运行)(n个δn个)=o个(n个λ).
25

这导致=−λ{1+o个(1)}110。自d日j个>0代表任何j个∈ Λ10,我们有d日10<0.这与方程式相矛盾(18),这意味着'd日10='A类0.10因此,当n个→∞,P(P)(𝒜)→0

表示ℬ={10=0}. 现在足以表明P(P)(ℬ|𝒜c(c))1.假设10=0.让d日单位是的无约束极小值

12Y(Y)Z.1γ2+n个λγ1.1,
26

哪里γR(右)·1。请注意

d日单位=(Z.1Z.1/n个)(Z.1Y(Y)/n个λ1.1).
27

遵循与方程式相同的参数(21),我们有

1n个Z.1Z第1条=1n个Δ.1X(X).1X(X)第1条Δ.1+O(运行)(δn个).
28

因此,

d日单位=(Δ.1X(X)第1条X(X).1Δ.1/n个)(Z.1Y(Y)/n个λ1.1){1+O(运行)(δn个)}.
29

此外,对于任何j个∈ Λ.1,

|1n个((Z.1X(X).1Δ.1)Y(Y))j个|=O(运行){|(β^.1初始化β.1)j个|}=O(运行)(δn个).
30

因此,

d日单位=(Δ.1X(X).1X(X).1Δ.1/n个)(Δ.1X(X).1Y(Y)/n个λ1.1){1+O(运行)(δn个)}.
31

组合方程(31)事实上

(Δ.1X(X).1X(X).1Δ.1/n个)Δ.1X(X).1Y(Y)/n个=1.1,

我们获得

d日单位=1.1λ(Δ第1条X(X).1X(X).1Δ第1条/n个)1.1+O(运行)(δn个)=1.1{1+O(运行)(λ)}.
32

因此在概率趋于1的情况下,d日单位1.换句话说β^j个天然气(λ)=β^j个初始化{1+O(运行)(λ)}对于j个作为n个→∞. 现在证明已经完成β^j个初始化βj个.

A.2、。引理1的证明

在引理1的证明中,方程左侧的第一项(23)可以表示为Z'10Y(Y)=Δ10(X(X)'10X(X)10)Δ10=O(运行)(δn个2)=o个(λ)因此,=−λ{1+o个(1)}. 其余的证明与定理1的证明完全相同。

答3。定理2的证明

回想一下,带有调谐参数的套索λ作为最小值

12Y(Y)X(X)γ2+n个λj个=1|γj个|.
33

卡鲁什-库恩-塔克定理表明-量纲向量β^在LASSO解决方案路径上是

1n个X(X)j个(Y(Y)X(X)β˜)=λsgn公司(β˜j个),如果β˜j个0,
34
|1n个X(X)j个(Y(Y)X(X)β˜)λ,如果β˜j个=0
35

现在假设这个条件(5)持有。β˜成为

12Y(Y)X(X)γ2+n个λj个|γj个|,
36

哪里λ=1/英寸(n个). 很容易看出这一点β^j个βj个对于任何j个因此,概率趋于1,β^j个0对于任何j个ℐ. β^c(c)=0现在足以证明,在概率趋于1的情况下β^也位于表达式(33)的解路径上。注意,根据表达式(36),

1n个X(X)(Y(Y)X(X)β˜)=λsgn公司(β˜).
37

然而,因为X(X)X(X)/n个=覆盖(X(X))+O(运行)(1/√n个)和β^LS(负载感应)=β+O(运行)(1/n个),

1n个X(X)(Y(Y)X(X)β˜)=1n个X(X)X(X)(β^LS(负载感应)β˜)+1n个X(X)X(X)c(c)β^c(c)LS(负载感应)=覆盖(cov)(X(X))(ββ˜)+O(运行)(n个1/2).
38

组合方程式(37)(38),

β˜=βλ覆盖(cov)(X(X))1sgn公司(β˜)+O(运行)(n个1/2).
39

因此,

1n个X(X)c(c)(Y(Y)X(X)β˜)=1n个X(X)c(c)X(X)(βLS(负载感应)β˜)+1n个X(X)c(c)X(X)c(c)βc(c)LS(负载感应)=覆盖(cov)(X(X)c(c),X(X))(ββ˜)+O(运行)(n个1/2)=λ覆盖(cov)(X(X)c(c),X(X))覆盖(cov)(X(X))1sgn公司(β˜)+O(运行)(n个1/2).
40

根据方程式(40),对于任何正常数ɛ和∀j个\不在中ℐ, 然后概率趋于1

|1n个X(X)j个(Y(Y)X(X)β˜)|c(c)λ+ε
41

哪里c(c)<1是方程左侧的量(7)。通过选择ɛ<(1−c(c))λ在不等式(41)中,连同等式(37),概率趋于1β~满足条件(34)和(35)。因此,它位于套索解算路径上。

条件的必要性(5)直接遵循赵和余的定理2(2006)因此此处省略。

A.4、。定理3的证明

定理3的证明显而易见,因为

1n个X(X)j个Y(Y)覆盖(cov)(X(X)j个,X(X))β.

答5。定理4的证明

定理4的证明过程与定理2的证明过程相同。卡鲁什-库恩-塔克定理表明-量纲向量β˜在弹性网解路径上是

1n个X(X)j个(Y(Y)X(X)β˜)τβ˜j个=λsgn公司(β˜j个),如果β˜j个0
42
1n个X(X)j个(Y(Y)X(X)β˜)λ,如果β˜j个0
43

我们首先证明不等式(10)是弹性网路径一致的充分条件。为此,请定义β˜c(c)=0β˜作为

12Y(Y)X(X)γ2+n个λj个|γj个|+n个τj个γj个2,
44

哪里λ,τ0满足n个1/2λ→∞ c(c)1=τc(c)2=λ是这样的

最大值j个(n个[覆盖(cov)(X(X)j个,X(X)){冠状病毒(X(X))+τ}1(+τλβ)])<1
45

检查这一点并不难

β˜=β冠状病毒(X(X)c(c),X(X)){覆盖(cov)(X(X))+τ}1{λsgn公司(β~)+τβ}+O(运行)(n个1/2).
46

现在足以表明β˜满足条件(43). 与方程式类似(40),我们有

1n个X(X)c(c)(Y(Y)X(X)β˜)=λ覆盖(cov)(X(X)c(c)){覆盖(cov)(X(X))+τ}1{sgn公司(β˜)+β}+O(运行)(n个1/2),
47

小于λ概率趋于1。

接下来,我们证明了如果条件满足,则弹性网不是路径一致的(10)违反了。在不失一般性的情况下,假设β1=0和

inf公司c(c)1,c(c)20+[覆盖(cov)(X(X)1,X(X)){覆盖(cov)(X(X))+c(c)1}1(+c(c)1c(c)2β)]1
48

假设相反,当概率趋于1时,我们可以在弹性网解路径上找到一个理想的估计。表示β˜满足条件(42)和(43)的理想估计。然后,概率趋于1,sgn公司(β˜j个)=n个(βj个)对于任何j个ℐ. From条件(42),

β˜=β覆盖(cov)(X(X)c(c),X(X)){覆盖(cov)(X(X))+τ}1{λsgn公司(β~)+τβ}+O(运行)(n个1/2).
49

再加上事实β˜c(c)=0,我们有,概率趋向于1,

1n个X(X)1(Y(Y)X(X)β˜)=λ覆盖(cov)(X(X)1,X(X)){冠状病毒(X(X))+τ}1{sgn公司(β˜)+τλβ}+ξ
50

哪里P(P)(ξ>0)由一个正常量限定。这意味着,在非消失概率下,β˜无法满足条件(43),这与β˜.

A.6、。定理5的证明

卡鲁什-库恩-塔克定理表明了一个点的充要条件d日处于模型的求解路径上(2)是有一个λ0这样,对于任何j个=1,…,,

{Zj个(Y(Y)Zd日)+λ}d日j个=0,
51
Zj个(Y(Y)Zd日)+λ0,
52
d日j个0
53

在下面的内容中,我们证明了由算法构造的解路径上的任意点满足条件(51)–(53),并且对于某些情况,条件的任何解(51)-(53)λ0也位于构造的解决方案路径上。

我们通过归纳法验证了求解路径的条件(51)–(53)。显然,他们满足于d日[0]现在假设他们之前坚持任何观点d日[k个]。这足以表明它们对于介于d日[k个]d日[k个+1].步骤中有三种可能的操作k个:

  • (a)

    变量被添加到活动集,j个*\不在中𝒞k个;

  • (b)

    从激活集删除变量,j个*𝒞k个;

  • (c)

    α=1.

很容易看出,条件(51)-(53)将继续保持在d日[k个]d日[k个+1]如果α现在我们考虑另外两种可能性。

首先考虑添加。在不失一般性的情况下,假设𝒞k个𝒞k个−1={1}. 请注意d日[k个]d日[k个+1]可以表示为d日αd日[k个]+αγ,其中α∈ (0,α1]和γ是由定义的向量γC类k个c(c)=0

γC类k个=(ZC类k个ZC类k个)1ZC类k个第页[k个].
54

不难证明条件(51)和(52)对d日α。现在只需检查条件即可(53). 通过构造算法,它可以归结为验证γ1>0.

根据的定义𝒞k个𝒞k个−1我们都知道j个𝒞k个−1,

Zj个第页[k个1]>Z1第页[k个1],
55
Zj个第页[k个]=Z1第页[k个].
56

因此,

Z1(第页[k个1]第页[k个])<Zj个(第页[k个1]第页[k个]).

因为有一个正常数b条这样的话

第页[k个1]第页[k个]=b条ZC类k个1(ZC类k个1ZC类k个1)1ZC类k个1第页[k个1],

我们的结论是

Z1ZC类k个1(ZC类k个1ZC类k个1)1ZC类k个1第页[k个1]<Zj个ZC类k个1(ZC类k个1ZC类k个1)1ZC类k个1第页[k个1].

写入=1。自Z'C类k个1第页[k个1]=(Z'j个第页[k个1])S公司C类k个1,我们有

Z1ZC类k个1(ZC类k个1ZC类k个1)1C类k个1<1
57

连同方程式(54),

γ1={1Z1ZC类k个1(ZC类k个1ZC类k个1)1C类k个1}Zj个第页[k个]Z1{n个ZC类k个1(ZC类k个1ZC类k个1)1ZC类k个1}Z1>0
58

现在让我们考虑删除的情况。在不失一般性的情况下,假设𝒞k个−1𝒞k个={1}. 在这种情况下,介于d日[k个]d日[k个+1]仍然可以表示为d日αd日[k个]+αγ,其中α∈ (0,α1]和γ仍由方程式定义(54)。很容易证明条件(51)和(53)适用于λ=Z’j个(Y(Y)Zd日α)哪里j个从中任意选择𝒞k个.足以验证条件(52). 通过构造解路径,就足以证明该条件(52)等待j个=1.

请注意d日[k个−1]d日[k个]可以写为d日[k个1]+c(c)γ~,其中c(c)>0和γ˜由提供γ˜C类k个1c(c)=0

γ˜C类k个1=(ZC类k个1ZC类k个1)1ZC类k个1第页[k个1].
59

显然,γ˜1<0类似于方程式(58),我们有

γ1˜={1Z1ZC类k个(ZC类k个ZC类k个)1C类k个}Zj个第页[k个]Z1{n个ZC类k个(ZC类k个ZC类k个)1ZC类k个}Z1,
60

哪里j个是从中任意选择的𝒞k个因此,

Z1ZC类k个(ZC类k个ZC类k个)1C类k个=(j个/Zj个第页[k个])Z1Zγ<1

换句话说,Z'1Zγ<Z'j个第页[k个]=Z'j个Zγ。自Z'1j个第页[k个]=Z'j个第页[k个],我们得出结论Z'1(Y(Y)Zd日α)<Z'j个(Y(Y)Zd日α)=λ.

接下来,我们需要证明,对于任何λ0,条件(51)–(53)的解位于解路径上。通过解路径的连续性和方程解的唯一性(2)显然,对于任何λ[0,最大值j个(Z'j个Y(Y))],条件(51)–(53)的解在路径上。证据现在已经完成了,对于任何λ>最大值j个(Z'j个Y(Y)),条件(51)-(53)的解是0,它也在解决方案路径上。

本文根据牛津大学出版社标准期刊出版模式的条款出版和发行(https://academic.oup.com/journals/pages/open_access/funder_policies/chorus/standard_publication_model)