总结

套索通过绝对值之和惩罚最小二乘回归(L(左)1-范数)。这种惩罚的形式鼓励稀疏解(许多系数等于0)。我们提出了“融合套索”,这是一种泛化,旨在解决具有可以以某种有意义的方式排序的特征的问题。融合套索惩罚L(左)1-系数及其连续差异的范数。因此,它鼓励系数的稀疏性以及它们之间差异的稀疏性,即系数剖面的局部恒定性。当特征数量较多时,融合套索特别有用第页远大于N个,样本大小。该技术还扩展到支持向量分类器的“铰链”损失函数。我们以蛋白质质谱和基因表达数据为例说明了这些方法。

1.简介

我们考虑一个预测问题N个有结果的案例1,2,…,N个和功能x个ij公司,=1,2,…,N个,j个=1,2,…,第页。结果可以是定量的,或者等于0或1,代表“健康”和“患病”两类。我们还假设x个ij公司是功能的实现X(X)j个可以订购为X(X)1,X(X)2,…,X(X)第页以某种有意义的方式。我们的目标是预测X(X)1,X(X)2,…,X(X)第页。我们对以下问题特别感兴趣第页»N个一个令人鼓舞的例子来自蛋白质质谱,我们在其中观察到每个血清样本,强度x个ij公司对许多人来说飞行时间t吨j个.飞行时间与质量过载比有关/z(z)血液中的组成蛋白质。图。1显示了一个取自Adam的示例. (2003):健康患者和前列腺癌患者的平均光谱。有48538个/z(z)-站点总数。完整的数据集包括157名健康患者和167名癌症患者,目标是/z(z)-区分这两个群体的网站。在过去几年里,人们对这个问题很感兴趣;参见Petricoin示例. (2002)和Adam. (2003).

蛋白质质谱数据:正常(--)和前列腺癌患者的平均谱
图1

蛋白质质谱数据:正常(--)和前列腺癌患者的平均谱

在其他示例中,功能的顺序可能不固定先验的但可以根据数据进行估算。一个例子是从微阵列测量的基因表达数据。层次聚类可用于估计基因的顺序,将相关基因放在列表中相邻的位置。在本文中,我们对蛋白质质谱和微阵列数据的方法进行了说明。

在节中2我们定义了融合套索,并用一个简单的例子加以说明。章节描述了解的计算。章节4探索渐近性质。在节中5我们将融合套索与软阈值方法和小波相联系。熔融套索配合的自由度在第节中讨论6前列腺癌的蛋白质质谱数据集在第节中进行了分析7,而节8进行模拟研究。第节讨论了该方法在无序特征中的应用9并在第节中的微阵列数据集上进行了说明9.1第节介绍了铰链损失函数和支持向量分类器10.

2.套索和融合

我们从标准线性模型开始

=j个x个j个βj个+ε
(1)

包含错误ɛ具有平均值0和恒定方差。我们还假设预测值标准化为平均值0和单位方差,以及结果表示0。因此,我们不需要模型(1)中的截距。

我们注意到第页可能会大于N个,通常比N个在我们考虑的应用程序中。已经提出了许多用于正则化或惩罚回归的方法,包括岭回归(Hoerl和Kennard,1970),偏最小二乘法(Wold,1975)主成分回归。子集选择更为离散,包括或排除模型中的预测因素。套索(Tibshirani,1996)与岭回归类似,但使用系数的绝对值而不是其平方。套索找到系数β^=(β^1,β^2,,β^第页)令人满意的

β^=参数最小值{(负极j个x个j个βj个)2}                   主题j个|βj个|.
(2)

绑定是一个调谐参数:足够大我们得到了最小二乘解,或者是许多可能的最小二乘解之一,如果第页>N个。对于较小的值,解是稀疏的,即某些组件正好为0。从数据分析的角度来看,这是很有吸引力的,因为它选择了重要的预测因子,而丢弃了其余的预测因子。此外,由于条件(2)中的标准和约束是凸的,所以即使在很大程度上,这个问题也可以解决第页(例如。第页=40 000)。我们将在第节中详细讨论计算.

与套索不同,岭回归、偏最小二乘和主成分回归不产生稀疏模型。子集选择确实产生稀疏模型,但不是凸操作;最佳子集选择是组合的,对于第页>30左右。

即使在以下情况下也可以使用套索第页>N个它有一个唯一的解,假设没有两个预测因子完全共线。该解的一个有趣特性是,非零系数的数量最多为min(N个,第页). 因此,如果第页=40 000和N个=100,则解中最多有100个系数为非零。陈的“基追踪”信号估计方法. (2001)使用与套索相同的思想,但应用于小波或其他域。

在当前上下文中套索的一个缺点是,它忽略了我们在本文中假设的类型的特征的排序。为此,我们建议熔断套索由定义

β^=参数最小值{(负极j个x个j个βj个)2}                      主题j个=1第页|βj个|1以及j个=2第页|βj个负极βj个负极1|2.
(3)

第一个约束鼓励系数的稀疏性;第二种方法鼓励差异的稀疏性,即系数剖面的平坦性βj个作为的函数j个“融合”一词借用自兰德和弗里德曼(1996),他建议使用形式为∑的罚款j个|βj个负极βj个−1|α2对于各种值α尤其是α=0,1,2. 他们没有考虑对两个∑都使用罚款j个|βj个负极βj个−1|Σj个|βj个|如条件(3)所示。图。2给出了示意图。

融合套索的示意图,对于N>p=2的情况:我们首次寻求平方和损失函数()的轮廓满足∑j|βj|=s1()和∑j|βj-βj−1|=s2()
图2

融合套索示意图N个>第页=2:我们首次寻求平方和损失函数的轮廓(图解的)满足∑j个|βj个|=1(图解的)和∑j个|βj个负极βj个−1|=2(图解的)

图。通过一个模拟示例说明了这些想法。第页=100个预测因子和N个=20个样本。数据是从模型中生成的j个x个ij公司βj个+ɛ其中x个ij公司是标准高斯,ɛN个(0,σ2)带有σ=0.75,并且有三个连续的非零块βj个由每个面板中的黑点显示。图。(a) 显示了单变量回归系数(红色)和软阈值版本(绿色)。图。(b) 显示套索解决方案(红色),使用1=35.6和2=∞,图。(c) 显示融合估计值(使用1=∞和2=26). 这些值12是使估计的测试集误差最小化的值。最后,图。(d) 显示融合套索,使用1=∑j个|βj个|和2j个|βj个负极βj个−1|,其中β是真正的系数集。融合套索在估计真实基础系数方面做得最好。然而,融合方法(图。(c) )的性能与本例中的融合套索相同。

模拟示例,p=100预测因子的系数用黑线表示:(a)一元回归系数(红色)和软阈值版本(绿色);(b) 套索解(红色),使用s1=35.6和s2=∞;(c) 融合估计,使用s1=∞和s2=26(s1和s2的这些值最小化了估计的测试集误差);(d) 融合套索,使用s1=∑j|βj|和s2=∑jβj-βj−1|,其中β是系数的真实集合
图3

模拟示例,带有第页=100个预测因子,其系数用黑线表示:(a)单变量回归系数(红色)及其软阈值版本(绿色);(b) 套索溶液(红色),使用1=35.6和2=∞; (c) 融合估计,使用1=∞和2=26(这些值12最小化估计测试集误差);(d) 融合套索,使用1=∑j个|βj个|和2j个|βj个负极βj个−1|,其中β是真正的系数集

图。4显示了另一个示例,其设置与图中相同。除了那个σ=0.05和β有两个非零区域-峰值/z(z)=10,平坦的高原在70到90之间。与前面的示例一样,边界12在每种情况下都进行了选择,以最小化预测误差。套索表现不佳;融合捕捉到了平台,但没有明确地将峰值隔离在/z(z)=10.融合套索整体表现良好。

只有两个非零系数区域的模拟示例(黑点和线条;红点,每种方法的估计系数):(a)套索,s1=4.2;(b) 融合,s2=5.2;(c) 融合套索,s1=56.5,s2=13
图4

只有两个非零系数区域的模拟示例(黑点和线条;红点,每种方法的估计系数):(a)套索,1=4.2;(b) 融合,2=5.2; (c) 融合套索,1=56.5,2=13

另一种形式是使用形式为∑的第二种惩罚j个(βj个负极βj个−1)22代替∑j个|βj个负极βj个−1|2(这也是一位裁判建议的)。然而,这也有类似的缺点Σβj个2与∑相比j个|βj个|:它不会产生稀疏的解决方案,其中稀疏性指的是第一个差异βj个负极βj个−1.罚款∑j个(βj个负极βj个−1)22不产生简单的分段常数解,而是产生一个对解释吸引力较小的“摆动”解。罚款∑j个|βj个负极βj个−1|2给出了分段常数解,这对应于特征的简单平均。

3.计算方法

3.1. 固定的12

准则(3)导致了一个二次规划问题。对于大型第页,问题很难解决,必须特别小心,避免使用第页2存储元件。我们使用Gill的两阶段主动集算法SQOPT. (1997),它是为具有稀疏线性约束的二次规划问题设计的。

βj个=βj个+负极βj个负极具有βj个+,βj个负极0.定义θj个=βj个负极βj个−1对于j个>1和θ1=β1.让θj个=θj个+负极θj个负极具有θj个+,θj个负极0.让L(左)成为第页×第页矩阵,带有L(左)ii(ii)=1,L(左)+1,=-1和L(左)ij公司=0,否则θ=L(左)β.让e(电子)成为一列第页-1s的矢量,以及成为第页×第页单位矩阵。

X(X)成为N个×第页特征矩阵和βN个-和第页-结果向量和系数向量。我们可以把问题(3)写成

β^=参数最小值{(负极X(X)β)T型(负极X(X)β)}
(4)

从属于

(负极0000)(J型00负极负极000e(电子)T型e(电子)T型00000e(电子)0T型e(电子)0T型)(ββ+β负极θ+θ负极)(0012),
(5)

除了非负约束β+,β负极,θ+,θ负极0.大矩阵的维数为(2第页+ 2)×5第页但只有11个第页−1个非零元素。在这里0=(∞,0,0,…,0). β1=θ1,将其边界设置为±∞可以避免对|β1|. 类似地e(电子)0=e(电子)第一个组件设置为0。

SQOPT包要求用户编写一个计算X(X)T型Xv公司对于第页-向量v(v)正在考虑中。对于边界的许多选择12,向量v(v)非常稀疏,因此X(X)T型(Xv公司)可以有效计算。该算法也非常适合“热启动”:从给定的解决方案开始12,可以相对快速地找到这些边界附近值的解。

3.2. 搜索策略

对于中等规模的问题(第页≃1000和N个≃100),上述程序足够快,可以应用于1-和2-值。对于较大的问题,需要进行更严格的搜索。我们首先利用了这样一个事实,即使用最小角度回归(LAR)程序(Efron)可以有效地解决套索和融合问题的完整序列.,2002). 融合问题通过第一次变换解决X(X)Z轴=特大号−1具有θ=L(左)β,应用LAR,然后转换回来。

对于给定的问题,只有边界的一些值(1,2)即解向量满足这两个条件Σj个|β^j个|=1Σj个|β^j个负极β^j个负极1|=2.图。5(a) 显示了模拟数据示例的可实现值。

图3的模拟示例:(a)边界s1和s2的可达到值;(b) 文本中描述的融合套索搜索过程示意图
图5

图的模拟示例。:(a)可达到的界限值12; (b) 文本中描述的融合套索搜索过程示意图

图。5(b) 是搜索策略的示意图。使用上述LAR过程,我们获得了边界的解(1(),∞),其中1()边界是否给出了一个解自由度。(我们在第节中讨论了融合套索配合的“自由度”6.)我们使用解的套索序列和交叉验证或测试集来估计最佳自由度^。现在让我们

2最大值{1(^)}=j个|β^j个{1(^)}负极β^j个负极1{1(^)}|.

这是界限的最大值2它会影响解决方案。重点c(c)2在图中。5(b) 是[1(^),2最大值{1(^)}]。我们从开始c(c)2并通过向(1,−2)方向移动来融合解决方案。同样,我们定义点c(c)1是具有自由度的解^/2c(c)有自由度{^+最小值(N个,第页)}/2我们从这些方面融合了解决方案。通过实验选择特定方向(1,−2)。我们通常对接近纯融合模型(右下边界)的解不感兴趣,此搜索策略试图(大致)覆盖(1,2). 该策略用于本文后面讨论的实际示例和模拟研究。

对于实际数据集,我们将此搜索策略应用于训练集,然后在验证集上评估预测误差。这可以通过一次培训完成——验证分割,或通过五倍或十倍的交叉验证。本文后面的示例中对此进行了说明。

1显示了2.4 GHz Xeon Linux计算机上各种维度问题的一些典型计算时间。有关计算问题的进一步讨论,请参阅第节11.

表1

融合套索程序典型运行的时间

第页N个起点时间(s)
100200.09
50020寒冷1
100020寒冷2
1000200寒冷30.4
2000200寒冷120
2000200温暖16.6
第页N个起点时间(s)
10020寒冷0.09
50020寒冷1
100020寒冷2
1000200寒冷30.4
2000200寒冷120
2000200温暖16.6
表1

融合套索程序典型运行的时间

第页N个起点时间(s)
100200.09
50020寒冷1
100020寒冷2
1000200寒冷30.4
2000200寒冷120
2000200温暖16.6
第页N个起点时间(s)
10020寒冷0.09
50020寒冷1
100020寒冷2
1000200寒冷30.4
2000200寒冷120
2000200温暖16.6

4.渐近性质

在本节中,我们导出了融合套索的结果,其与套索(Knight和Fu,2000). 受惩罚的最小二乘准则为

=1N个(负极x个T型β)2+λN个(1)j个=1第页|βj个|+λN个(2)j个=2第页|βj个负极βj个负极1|
(6)

具有β=(β1,β2,…,β第页)T型x个=(x个1,x个2,…x个知识产权)T型和拉格朗日乘数λN个(1)λN个(2)是样本大小的函数N个.

为了简单起见,我们假设第页已修复为N个→∞. 这些不是特别现实的渐近条件:我们希望第页=第页N个→∞ 作为N个→∞. 沿着这些路线的结果可能是可以实现的。然而,以下定理充分说明了融合套索的基本动力学。

定理1。如果λN个()/N个λ0()0(=1,2)(=1,2)和

C类=N个(1N个=1N个x个x个T型)

那么是非奇异的

N个(β^N个负极β)d日参数最小值(V(V)),

哪里

V(V)(u个)=负极2u个T型W公司+u个T型C类u个+λ0(1)j个=1第页{u个j个sgn公司(βj个)(βj个0)+|u个j个|(βj个=0)}

W公司有一个𝒩(0,σ2C类)分配。

证明。定义V(V)N个(u个)由

V(V)N个(u个)==1N个{(ε负极u个T型x个/N个)2负极ε2}+λN个(1)j个=1第页(|βj个+u个j个/N个|负极|βj个|)                    +λN个(2)j个=2第页{|βj个负极βj个负极1+(u个j个负极u个j个负极1)/N个|负极|βj个负极βj个负极1|}

具有u个=(u个0,u个1,…,u个第页)T型,并注意V(V)N个在最小化N个(β^N个负极β)>. 首先要注意的是

=1N个{(ε负极u个T型x个/N个)2负极ε2}d日负极2u个T型W公司+u个T型C类u个

具有有限维收敛性。我们也有

λN个(1)j个=1第页(|βj个+u个j个/N个|负极|βj个|)λ0(1)j个=1第页{u个j个sgn公司(βj个)(βj个0)+|u个j个|(βj个=0)}

λN个(2)j个=2第页{|βj个负极βj个负极1+(u个j个负极u个j个负极1)/N个|负极|βj个负极βj个负极1|}          λ0(2)j个=2第页{(u个j个负极u个j个负极1)sgn公司(βj个负极βj个负极1)(βj个βj个负极1)}+λ0(2)j个=2第页{|u个j个负极u个j个负极1|(βj个=βj个负极1)}

因此V(V)N个(u个)→d日V(V)(u个)(如上所述),有限维收敛保持平凡。V(V)N个是凸的,并且V(V)有一个独特的最小值,如下所示(Geyer,1996)那个

参数最小值(V(V)N个)=N个(β^N个负极β)d日参数最小值(V(V))

作为一个简单的例子,假设β1=β2≠0。那么

(N个(β^1N个负极β1),N个(β^2N个负极β2))

概率集中在线路上u个1=u个2什么时候λ0(2)>0.何时λ0(1)>0,我们会看到一个拉索型效应对单变量极限分布的影响,如果β1=β2>0和概率向正方向移动,如果β1=β2< 0.

5.软阈值和小波

5.1. 软阈值估计

首先考虑具有正交特征的套索问题N个>第页,即在融合套索问题(3)中,我们取2=∞,我们假设X(X)T型X(X)=然后,如果β˜j个是单变量最小二乘估计,套索解是软阈值估计:

β^j个(γ1)=sgn公司(β˜j个)(|β˜j个|负极γ1)+,
(7)

哪里γ1满足Σj个|β^j个(γ1)|=1.

与此相对应的是,融合问题有一个特例,它也有一个明确的解决方案。我们接受1=∞,并让θ=L(左)βZ轴=特大号−1。请注意L(左)−1是1s的下三角矩阵,因此Z轴x个ij公司穿过j个。这给了一个套索问题(Z轴,)解决方案是

θ^j个(γ2)=sgn公司(θ˜j个)(|θ˜j个|负极γ2)+,
(8)

前提是Z轴T型Z轴=,或同等X(X)T型X(X)=L(左)T型L(左).在这里γ2满足Σj个|θ^j个(γ2)|=2.矩阵L(左)T型L(左)为三对角线,对角线上为2s,非对角线为−1s。

当然我们不能两者兼得X(X)T型X(X)=X(X)T型X(X)=L(左)T型L(左)同时。但我们可以构建一个场景,使融合套索问题有一个明确的解决方案。我们接受X(X)=美国保险商实验室−1具有U型T型U型=并假设完全最小二乘估计β'=(X(X)T型X(X))−1X(X)T型非递减:0β1β2...β第页。最后,我们设置1=2=然后,融合套索解软阈值完全最小二乘估计β'从右侧:

β^=(β1,β2,βk个,λ,0,0,0),
(9)

哪里Σ1k个βj个+λ=然而,这种设置在实践中似乎并不十分有用,因为其假设非常不现实。

5.2. 基础转换

本文问题的转换方法大致如下。我们建模β=W公司γ,其中的列W公司是合适的基础。例如,在我们的模拟示例中,我们可以使用Haar小波,然后我们可以编写X(X)β=X(X)(W公司γ)=(XW公司)γ。在运营方面,我们将功能转变为Z轴=XW公司和配合Z轴γ通过软阈值或套索γ˜。最后,我们映射回以获取β˜=W公司γ˜注意,软阈值隐式假设Z轴-基础是正交:Z轴T型Z轴=.

此过程寻求βs在变换空间中。相反,套索和简单的软阈值估计(7)寻求的是βs在原始基础上。

融合套索更具野心:它使用两种基本表示法X(X)Z轴=特大号−1并寻求在两个空间中都稀疏的表示。它不假设正交性,因为这不能在两种表示中同时保持。这一雄心壮志的代价是增加了计算负担。

图。6显示了应用软阈值的结果(图。6(a) )或套索(图。6(b) ),然后转换回原始空间。对于软阈值,我们使用了与级别相关的阈值σ√{2对数(N个j个)},其中N个j个是给定尺度下的小波系数数σ被选择来最小化测试误差(例如参见Donoho和Johnstone(1994)). 对于套索,我们选择了界限1以最小化测试误差。由此得出的估计并不十分准确,尤其是套索的估计。这可能部分是由于小波基不是平移不变量。因此,如果非零系数沿特征轴不在2的幂附近,则小波基将难以表示它。

图3的模拟示例:(a)通过变换为Haar小波基、阈值化和反变换获得的真系数(黑色)和估计系数(红色);(b) 相同的程序,除了套索用于Haar系数(而不是软阈值)
图6

图的模拟示例。:(a)真系数(黑色)和估计系数(红色),通过变换为Haar小波基、阈值化和反变换获得;(b) 相同的程序,除了套索用于Haar系数(而不是软阈值)

6.融合套索配合的自由度

考虑融合套索配合中使用了多少“自由度”是有用的^=X(X)β^作为12变化多样。埃夫隆. (2002)考虑使用Stein公式定义自由度(1981):

数据流(^)=1σ2=1N个覆盖(cov)(,^),
(10)

哪里σ2是的方差具有X(X)fixed和cov表示协方差X(X)固定的。对于标准多元线性回归第页<N个预测因素,数据流(^)减少到第页现在,在正交设计的特殊情况下(X(X)T型X(X)=),套索估计量只是软阈值估计量(7),Efron. (2002)表明自由度等于非零系数的数量。他们还证明了在“正锥条件”下LAR和lasso估计的这一点,这意味着估计是单调的,与L(左)1-绑定1.正交规范情形下的证明很简单:它使用了Stein公式

1σ2=1N个覆盖(cov)(,)=E类{()},
(11)

哪里=(1,2,…,N个)是具有平均值的多元正态向量μ和协方差、和()是一个估计量,一个与ℝ几乎可微的函数N个至ℝN个.对于正交设计的套索,我们旋转基础,以便X(X)=,因此从方程式(7)()=sgn()(||−γ1). 导数ψ()/⏴======================================================================等于1,如果th分量为非零,否则为0。因此,自由度是非零系数的数量。

对于融合套索,自由度的自然估计为

数据流(^)=#{非零系数块β^}.
(12)

换句话说,我们计算一个或多个连续非零且相等的序列β^j个-值为1个自由度。等效地,我们可以定义

数据流(^)=第页负极#{βj个=0}负极#{βj个负极βj个负极1=0,βj个,βj个负极10}.
(13)

很容易看出这两个定义是相同的。此外,当数据流(^)最小值(N个,第页),因此min(N个,第页)是自由度的有效上限。我们没有证据(^)一般来说,这是一个很好的估计,但它是根据场景(7)-(9)中的Stein结果(11)得出的。

图。7比较融合套索和套索的估计自由度和实际自由度。融合套索的近似值相当粗糙,但并不比套索差多少。我们仅将此定义用于描述性目的,以大致了解拟合模型的复杂性。

模拟示例:(a)融合套索和(b)套索的实际和估计自由度(--,45°-线;––––-,最小二乘回归拟合)
图7

模拟示例:(a)融合套索和(b)套索的实际和估计自由度(--,45°-线;––––-,最小二乘回归拟合)

6.1. 融合套索解的稀疏性

如第节所述2,套索在高维建模中具有稀疏解,即,如果第页>N个,套索解决方案最多有N个非零系数,在温和(“非冗余”)条件下。这个性质推广到任何带有套索惩罚的凸损失函数。它已被明确证明,所需的非冗余条件已在Rosset中详细说明. (2004),附录A。

融合的套索具有类似的稀疏特性。然而,稀疏性不适用于非零系数的数量,而适用于相同非零系数序列的数量。所以,如果我们考虑一下第7和图。8,套索的稀疏意味着图中最多可以有216个红点。8(b) 。融合套索的稀疏性意味着我们最多可以有216个连续的黑色序列/z(z)-具有相同系数的值。

前列腺癌示例的结果:--,•,融合拉索非零系数,套索非零系数
图8

前列腺癌示例的结果:——,•,融合拉索非零系数;图解的,图解的,套索非零系数

融合套索稀疏性结果的形式声明如下。

定理2。设置β0=0.让n个序列号(β)=Σj个=1第页1{βj个βj个负极1}然后,在设计矩阵上的“非冗余”条件下X(X),融合套索问题(3)有一个唯一的解决方案β^具有n个序列(β^)N个.

该证明与Rosset中套索的稀疏性证明非常相似. (2004),并基于检查约束问题解的最优性的Karush–Kuhn–Tucker条件(3)。上述非冗余条件可定性总结如下。

  • (a)

    N个设计矩阵的列X(X)线性相关。

  • (b)

    都不是有限的N个+1线性方程N个变量(其系数取决于具体问题)有一个解决方案。

7.前列腺癌数据分析

如第节所述1前列腺癌数据集包括324名患者的48538个测量值:157名健康患者和167名癌症患者。平均剖面(质心)如图所示。1。根据最初的研究人员,我们忽略了/z(z)-2000年以下的地点可能会出现化学制品。我们随机创建了大小分别为216和108名患者的训练和验证集。为了便于计算,我们将20个连续块中的数据平均化,得到总共2181个站点。(我们确实在全套站点上运行了套索,它产生的错误率与此处报告的套索错误率大致相同。)各种方法的结果如表所示2在这个两类设置中,“最近的收缩质心”方法(Tibshirani等。,2001)本质上等价于一元回归系数的软阈值。

表2

前列腺数据结果

方法验证错误/108自由度站点数量12
最近的收缩质心30227
拉索16604083164
融合1810221711632
熔接套索16103218113103
方法验证错误/108自由度站点数量12
最近的收缩质心30227
拉索16604083164
融合1810221711632
熔接套索16103218113103
表2

前列腺数据结果

方法验证错误/108自由度站点数量12
最近收缩的质心30227
拉索16604083164
融合1810221711632
熔接套索16103218113103
方法验证错误/108自由度站点数量12
最近的收缩质心30227
拉索16604083164
融合1810221711632
熔接套索16103218113103

亚当. (2003)对于这个问题的四级版本,报告的错误率约为5%,使用峰值查找过程和决策树算法。然而,我们(至少还有一个我们知道的其他小组)很难复制他们的结果,即使使用他们提取的峰值。

图。8显示了两种方法的非零系数。我们看到,融合套索将非零权重放在更多位置,尤其是在较高位置分散权重/z(z)-值。更仔细的分析将使用交叉验证来选择边界,然后报告这些边界的测试错误。我们对第节中的白血病数据进行了这样的分析9.1.

8.模拟研究

我们进行了一个小型的仿真研究,以比较套索和融合套索的性能。为了确保我们的特征集具有真实的蛋白质质谱相关结构,我们使用了前一节描述的数据集中的前1000个特征。我们还使用了100名患者的随机子集,以使特征与样本大小的比率接近真实水平。然后我们生成系数向量β通过选择1–10个非重叠/z(z)-随机位置和长度非零系数相等的定义块在1到100之间一致。系数的值生成为N个(0,1)。最后,根据

=X(X)β+Z轴,2.5Z轴~N个(0,1).
(14)

这种设置使得模型解释的测试方差约为50%。

对于每个数据集,我们找到了测试误差最小的套索解。然后我们使用了第节中概述的搜索策略用于融合套索。总结了该模型的20个仿真结果。灵敏度和特异性是指每种方法检测到的真非零系数和真零系数的比例。所示为融合套索的最小测试误差解以及边界真值12.

表3

模拟研究结果

方法测试错误敏感特异性
拉索265.194 (7.957)0.055 (0.009)0.985 (0.003)
带保险丝的套索256.117 (7.450)0.478 (0.082)0.693(0.072)
融合套索(真1,2)261.380 (8.724)0.446 (0.045)0.832 (0.018)
方法测试错误敏感特异性
拉索265.194 (7.957)0.055 (0.009)0.985 (0.003)
熔接套索256.117 (7.450)0.478 (0.082)0.693 (0.072)
融合套索(真1,2)261.380 (8.724)0.446 (0.045)0.832 (0.018)

括号中给出了标准错误。

表3

模拟研究结果

方法测试错误敏感特异性
拉索265.194 (7.957)0.055(0.009)0.985 (0.003)
熔接套索256.117 (7.450)0.478 (0.082)0.693 (0.072)
融合套索(真1,2)261.380 (8.724)0.446 (0.045)0.832 (0.018)
方法测试错误敏感特异性
拉索265.194 (7.957)0.055 (0.009)0.985 (0.003)
带保险丝的套索256.117 (7.450)0.478 (0.082)0.693(0.072)
融合套索(真1,2)261.380 (8.724)0.446 (0.045)0.832 (0.018)

括号中给出了标准错误。

我们看到,融合套索略微改善了套索的测试误差,并检测到了很大比例的真实非零系数。在这个过程中,它具有较低的特异性。即使是真的1-和2-边界,融合套索检测到不到一半的真实非零系数。这表明了第页N个.

9.无序特征的应用

融合套索定义(3)假设特征x个ij公司,因此相应的参数βj个,有一个自然的顺序j个然而,在一些问题中,特征没有预先指定的顺序,例如微阵列实验中的基因。在这种情况下,至少有两种方法可以使用融合套索。首先,我们可以估计特征的顺序,例如使用多维缩放或层次聚类。后者通常用于创建微阵列数据的热图显示。

或者,我们注意到定义(3)不需要对特征进行完整排序,而只需要指定每个特征的最近邻居,即k个(j个)是最接近要素的要素索引j个例如,就最小欧几里得距离或最大相关性而言。然后我们可以使用带差分约束的融合套索

j个|βj个负极βk个(j个)|2.

从计算上看,这只是改变了第页用矩阵表示的线性约束L(左)在表达式(5)中。请注意,更复杂的方案,例如使用多个近邻,将增加线性约束的数量,可能会达到第页2。我们在下面的示例中说明了第一种方法。

9.1. 使用微阵列进行白血病分类

白血病数据在Golub介绍. (1999). 共有7129个基因和38个样本:第一类27个(急性淋巴细胞白血病),第二类11个(急性骨髓源性白血病)。此外,还有一个34号试样。预测结果见表4.

表4

白血病微阵列示例的结果

方法10倍交叉验证错误测试错误基因数量
(1) 格鲁布等。(1999)(50个基因)3/384/3450
(2) 最近的收缩质心(21个基因)1/382/3421
(3) 拉索,37度自由度(1=0.65,2=1.32)1/381/3437
(4) 熔合套索,38度自由度(1=1.08,2=0.71)1/382/34135
(5) 融合套索,20度自由度(1=1.35,2=1.01)1/384/34737
(6) 融合,1自由度1/3812/34975
方法10倍交叉验证错误测试错误基因数量
(1) 格鲁布等。(1999)(50个基因)3/384/3450
(2) 最近的收缩质心(21个基因)1/382/3421
(3) 拉索,37自由度(1=0.65,2=1.32)第1页,共38页1/3437
(4) 熔合套索,38度自由度(1=1.08,2=0.71)1/382/34135
(5) 融合套索,20度自由度(1=1.35,2=1.01)1/384/34737
(6) 融合,1自由度1/3812/34975
表4

白血病微阵列示例的结果

方法10倍交叉验证错误测试错误基因数量
(1) 格鲁布等。(1999)(50个基因)3/384/3450
(2) 最近的收缩质心(21个基因)1/382/3421
(3) 拉索,37度自由度(1=0.65,2=1.32)1/381/3437
(4) 熔合套索,38度自由度(1=1.08,2=0.71)第1页,共38页2/34135
(5) 融合套索,20度自由度(1=1.35,2=1.01)1/384/34737
(6) 融合,1自由度1/3812/34975
方法10倍交叉验证错误测试错误基因数量
(1) 格鲁布等。(1999)(50个基因)3/384/3450
(2) 最近的收缩质心(21个基因)1/382/3421
(3) 拉索,37度自由度(1=0.65,2=1.32)第1页,共38页1/3437
(4) 熔合套索,38度自由度(1=1.08,2=0.71)1/382/34135
(5) 融合套索,20度自由度(1=1.35,2=1.01)1/384/34737
(6) 融合,1自由度第1页,共38页12/34975

前两行基于所有7129个基因。Golub的程序等。(1999)类似于最近的收缩质心,但它使用硬阈值。对于套索和融合方法,我们首先根据总方差筛选出前1000个基因。然后我们对基因进行平均连锁层次聚类,为融合过程提供基因顺序。

通过使用交叉验证优化调谐参数,然后将这些值应用于测试集,对所有套索和融合模型进行拟合。纯融合估计方法(6)在测试误差中表现不佳:对于任何界限值,该误差从未低于32.

我们看到,在第(4)行中,融合套索解决方案会产生相同的错误率,使用的基因数量大约是原来的四倍。第(5)行中的进一步融合似乎会增加测试错误率。5显示了套索解和融合套索解方法的估计系数示例(4)。我们看到,在许多情况下,融合过程将非零拉索系数的系数扩散到相邻基因上。

表5

白血病数据示例:套索和融合套索的非零系数样本,划定相邻区块

基因拉索熔接套索基因拉索熔接套索基因拉索熔接套索
900.00203421−0.08874−0.0250676500.00361
1000.004954220−0.0011076600.00361
1100.0049576700.00361
1200.00495475−0.01734076800.00361
1300.004957690.001020.00361
1400.004955220−0.0090777000.00361
1500.004955230−0.0090777100.00361
5240−0.0090777200.00361
220.019230.007455250−0.00907
2300.007455260−0.009077880.043170.03327
2400.007455270−0.00907
2500.007455280−0.009077980.024760.01514
2600.0074579900.01514
270.011570.002945300.01062080000.01514
31−0.0022705630−0.02018815−0.002390
5640−0.02018
39−0.0099205650−0.020188350−0.01996
5660−0.020188360−0.01996
44−0.0018105670−0.020188370−0.01996
8380−0.00408
基因拉索熔接套索基因拉索带保险丝的套索基因拉索熔接套索
900.00203421−0.08874−0.0250676500.00361
1000.004954220−0.0011076600.00361
1100.0049576700.00361
1200.00495475−0.01734076800.00361
1300.004957690.001020.00361
1400.004955220−0.0090777000.00361
1500.004955230−0.0090777100.00361
5240−0.0090777200.00361
220.019230.007455250−0.00907
2300.007455260−0.009077880.043170.03327
2400.007455270−0.00907
2500.007455280−0.009077980.024760.01514
2600.0074579900.01514
270.011570.002945300.01062080000.01514
31−0.0022705630−0.02018815−0.002390
5640−0.02018
39−0.0099205650−0.020188350−0.01996
5660−0.020188360−0.01996
44−0.0018105670−0.020188370−0.01996
8380−0.00408

完整的表格显示为Tibshirani. (2004).

表5

白血病数据示例:套索和融合套索的非零系数样本,划定相邻区块

基因拉索熔接套索基因拉索熔接套索基因拉索熔接套索
900.00203421−0.08874−0.0250676500.00361
1000.004954220−0.0011076600.00361
1100.0049576700.00361
1200.00495475−0.01734076800.00361
1300.004957690.001020.00361
1400.004955220−0.0090777000.00361
1500.004955230−0.0090777100.00361
5240−0.0090777200.00361
220.019230.007455250−0.00907
2300.007455260−0.009077880.043170.03327
2400.007455270−0.00907
2500.007455280−0.009077980.024760.01514
2600.0074579900.01514
270.011570.002945300.01062080000.01514
31−0.0022705630−0.02018815−0.002390
5640−0.02018
39−0.0099205650−0.020188350−0.01996
5660−0.020188360−0.01996
44−0.0018105670−0.020188370−0.01996
8380−0.00408
基因拉索熔接套索基因拉索熔接套索基因拉索熔接套索
900.00203421−0.08874−0.0250676500.00361
1000.004954220−0.0011076600.00361
1100.0049576700.00361
1200.00495475−0.01734076800.00361
1300.004957690.001020.00361
1400.004955220−0.0090777000.00361
1500.004955230−0.0090777100.00361
5240−0.0090777200.00361
220.019230.007455250−0.00907
2300.007455260−0.009077880.043170.03327
2400.007455270−0.00907
2500.007455280−0.009077980.024760.01514
2600.0074579900.01514
270.011570.002945300.01062080000.01514
31−0.0022705630−0.02018815−0.002390
5640−0.02018
39−0.0099205650−0.020188350−0.01996
5660−0.020188360−0.01996
44−0.0018105670−0.020188370−0.01996
8380−0.00408

完整的表格显示为Tibshirani. (2004).

10.铰链损失

对于两类问题,支持向量分类器(Boser)中使用的最大裕度方法.,1992; Vapnik、,1996)是最小二乘法的一个有吸引力的替代方法。最大裕度法可以用“铰链”损失函数表示(参见示例Hastie. (2001),第11章)。我们最小化

J型(β0,β,ξ)==1N个ξ
(15)

从属于

(β0+βT型x个)1负极ξ,ξ0,为所有人

原始支持向量分类器包括L(左)2-约束Σj个=1第页βj个2。最近,人们对L(左)1-约束(lasso)支持向量分类器。. (2003)开发了一种类LAR算法,用于解决边界所有值的问题.

我们可以通过施加约束来推广到融合的套索支持向量分类器

j个=1第页|βj个|1,j个=2第页|βj个负极βj个负极1|2.
(16)

完整的约束集可以写成

(1负极0000)(T型X(X)000000L(左)00负极00负极00000e(电子)T型e(电子)T型0000000e(电子)T型e(电子)T型)(ξβ0ββ+β负极θ+θ负极)(0012),
(17)

除了边界之外ξ,βj个+,βj个负极,θj个+,θj个负极0由于目标函数(15)是线性的,因此该优化是线性(而不是二次)规划问题。我们的实现再次使用SQOPT包,因为它处理线性和二次规划问题。

我们将融合的lasso支持向量分类器应用于微阵列白血病数据。使用1=2和2=4给出了一个具有90个非零系数和38个自由度的解。它在十倍交叉验证和测试集中都产生了一个错误分类,使其与表中的最佳分类器竞争4.表6比较融合套索系数(行)和融合套索支持向量系数(列)的符号。这项协议是实质性的,但远非十全十美。

表6

融合套索系数的符号(行)融合套索支持向量系数的符号(列)

−101
−112280
01782226
106035
−101
−112280
01782226
106035
表6

融合套索系数的符号(行)融合套索支持向量系数的符号(列)

−101
−112280
01782226
106035
−101
−112280
01782226
106035

支持向量公式的一个优点是它相当容易扩展到多类问题:参见Lee的示例. (2002).

11.讨论

在特征具有自然顺序的环境中,融合套索似乎是一种很有前途的回归和分类方法。

使用融合套索的一个困难是计算速度。表中的计时结果1显示,当第页>2000年和N个>200,速度可能成为实际限制。如果进行五倍或十倍的交叉验证,情况尤其如此。热启动有帮助:从大值开始(1,2),我们在恒定(短)时间内获得较小值的解。(最初我们使用增加的的值(1,2)因为每个解决方案都肯定是下一个值的可行起点。然而,随着(1,2),SQOPT很快实现了可行性,并且往往以这种方式更高效。)

Efron的LAR算法. (2002)有效解决套索问题的整个序列L(左)1-绑定1它通过利用解决方案轮廓是L(左)1-界,并且有效系数集以可预测的方式变化。可以证明,当我们沿直线移动时,融合套索解是分段线性函数(λ1,λ2)平面图(见Rosset和Zhu(2003)). 这里(λ1,λ2)拉格朗日乘子与边界相对应吗12因此,有可能开发一种LAR型算法,用于沿这些直线快速解决融合套索问题。然而,这种算法比LAR复杂得多,因为活动约束集可以通过许多可能的方式进行更改。在LAR中,我们只能在给定的步骤中添加或删除变量。在融合套索中,我们可以添加或删除变量,或融合或消除一组变量。我们还没有成功地为这个过程开发出一个有效的算法,但这将是一个未来研究的主题。

融合套索也可能推广到更高维的排序。假设功能x个j个,j个排列在双向网格上,如图中所示。然后我们可以约束在任何方向上相距1个单位的系数,即形式约束

|βj个,j个|1,|k个负极|=1|βj个,k个负极βj个,|+|k个负极|=1|βk个,j个负极β,j个|2.
(18)

这将带来有趣的计算挑战,因为约束的数量是按顺序排列的第页2.

致谢

Tibshirani得到了国家科学基金会拨款DMS-9971405和国家卫生研究院合同N01-HV-28183的部分支持。桑德斯获得了国家科学基金会拨款CCR-0306662和海军研究办公室拨款N00014-02-1-0076的部分支持。菲利普·吉尔(Philip Gill)继续致力于二次规划求解器SQOPT的研究,我们对此表示感谢。

工具书类

1

亚当
,
B.升。
,
,
年。
,
戴维斯
,
J·W·。
,
病房
,
医学博士。
,
克莱门茨
,
文学硕士。
,
卡泽尔
,
L.H.公司。
,
塞姆斯
,
O.J.公司。
,
舍尔哈默
,
P.F.公司。
,
雅水
,
年。
,
,
Z.公司。
小赖特
,
G·L·W。
(
2003
)
血清蛋白指纹结合模式匹配算法区分前列腺癌、良性前列腺增生和健康平均值
.
癌症研究。
,
63
,
3609
3614
.

2

Boser公司
,
B。
,
盖恩
,
一、。
瓦普尼克
,
五、。
(
1992
)一种最优边缘分类器的训练算法。
程序。计算学习理论II,费城
纽约:
施普林格
.

,
S.S.公司。
,
多诺霍
,
D.升。
桑德斯
,
文学硕士。
(
2001
)
基追踪原子分解
.
SIAM版本。
,
43
,
129
159
.

4

多诺霍
,
D。
约翰斯通
,
一、。
(
1994
)
基于小波收缩的理想空间自适应
.
生物特征
,
81
,
425
455
.

5

埃夫隆
,
B。
,
哈斯蒂
,
T。
,
约翰斯通
,
一、。
提比什拉尼
,
R。
(
2002
)最小角度回归。
技术报告
.
斯坦福大学
斯坦福大学。

6

盖尔
,
C、。
(
1996
)
凸随机优化的渐近性
.
技术报告
.
明尼苏达大学
明尼阿波利斯。

7

,
体育。
,
默里
,
西。
桑德斯
,
文学硕士。
(
1997
)SQOPT 5.3用户指南:一个用于大规模线性和二次编程的Fortran软件包。
技术报告NA 97-4
.
加利福尼亚大学
,圣地亚哥。

8

格鲁布
,
T。
,
斯隆尼姆
,
D。
,
塔马约
,
第页。
,
华德
,
C、。
,
加森贝克
,
M。
,
梅西洛夫
,
J。
,
Coller公司
,
H。
,
,
M。
,
唐宁
,
J。
,
卡利朱里
,
M。
,
布隆菲尔德
,
C、。
着陆器
,
E.公司。
(
1999
)
癌症的分子分类:通过基因表达监测进行分类发现和分类预测
.
科学类
,
286
,
531
536
.

9

哈斯蒂
,
T。
,
提比什拉尼
,
R。
弗里德曼
,
J。
(
2001
)
统计学习的要素;数据挖掘、推理和预测
纽约:
施普林格
.

10

霍尔
,
答:E。
肯纳德
,
R。
(
1970
)
岭回归:非正交问题的有偏估计
.
技术指标
,
12
,
55
67
.

11

奈特
,
英国。
,
西。
(
2000
)
lasso型估计的渐近性
.
安。统计师。
,
28
,
1356
1378
.

12

土地
,
美国。
弗里德曼
,
J。
(
1996
)变量融合:一种新的自适应信号回归方法。
技术报告
.
统计部
斯坦福大学。

13

,
年。
,
,
年。
瓦赫巴
,
G.公司。
(
2002
)多类别支持向量机、理论和在微阵列数据和卫星辐射数据分类中的应用。
技术报告
.
威斯康星大学
麦迪逊。

14

彼得里康
,
E.F.公司。
,
阿尔德卡尼
,
上午。
,
点击
,
学士。
,
莱文
,
P.J.公司。
,
福萨罗
,
五、。
,
斯坦伯格
,
S.M.公司。
,
米尔斯
,
G.B.公司。
,
西蒙
,
C、。
,
菲什曼
,
D.A.博士。
,
科恩
,
E.公司。
廖塔
,
L.A.公司。
(
2002
)
血清蛋白质组模式在卵巢癌鉴定中的应用
.
柳叶刀
,
359
,
572
577
.

15

罗塞
,
美国。
,
J。
(
2003
)
基于分段线性正则化系数路径的适应性、有效性和鲁棒性回归和分类方法
.
斯坦福大学
斯坦福大学。

16

罗塞
,
美国。
,
,
J。
哈斯蒂
,
T。
(
2004
)
作为最大边缘分类器的正则化路径进行提升
.
J.马赫。学习。物件。
,
5
,
941
973
.

17

斯坦因
,
C、。
(
1981
)
多元正态分布均值的估计
.
安。统计师。
,
9
,
1131
1151
.

18

提比什拉尼
,
R。
(
1996
)
通过套索回归收缩和选择
.
J.R.统计。Soc公司。
B、,
58
,
267
288
.

19

提比什拉尼
,
R。
,
哈斯蒂
,
T。
,
多复变函数
,
B。
Chu公司
,
G.公司。
(
2001
)
通过基因表达的收缩质心诊断多种癌症类型
.
程序。国家。阿卡德。科学。美国
,
99
,
6567
6572
.

20

提比什拉尼
,
R。
,
桑德斯
,
M。
,
罗塞
,
美国。
,
,
J。
骑士
,
英国。
(
2004
)
通过融合套索实现轻盈流畅
.
技术报告
.
斯坦福大学
斯坦福大学。

21

瓦普尼克
,
五、。
(
1996
)
统计学习理论的本质
纽约:
施普林格
.

22

沃尔德
,
H。
(
1975
)潜在变量软建模:非线性迭代偏最小二乘(NIPALS)方法。
概率论和统计学的观点,纪念M.S.Bartlett
,页。
117
144
.

23

,
J。
,
罗塞
,
美国。
,
哈斯蒂
,
T。
提比什拉尼
,
R。
(
2003
)L1范数支持向量机。
技术报告
.
斯坦福大学
斯坦福大学。

本文根据牛津大学出版社标准期刊出版模式的条款出版和分发(https://academic.oup.com/journals/pages/open_access/funder_policies/chorus/standard_publication_model)