总结
套索通过绝对值之和惩罚最小二乘回归(L(左)1-范数)。这种惩罚的形式鼓励稀疏解(许多系数等于0)。我们提出了“融合套索”,这是一种泛化,旨在解决具有可以以某种有意义的方式排序的特征的问题。融合套索惩罚L(左)1-系数及其连续差异的范数。因此,它鼓励系数的稀疏性以及它们之间差异的稀疏性,即系数剖面的局部恒定性。当特征数量较多时,融合套索特别有用第页远大于N个,样本大小。该技术还扩展到支持向量分类器的“铰链”损失函数。我们以蛋白质质谱和基因表达数据为例说明了这些方法。
1.简介
我们考虑一个预测问题N个有结果的案例年1,年2,…,年N个和功能x个ij公司,我=1,2,…,N个,j个=1,2,…,第页。结果可以是定量的,或者等于0或1,代表“健康”和“患病”两类。我们还假设x个ij公司是功能的实现X(X)j个可以订购为X(X)1,X(X)2,…,X(X)第页以某种有意义的方式。我们的目标是预测年从X(X)1,X(X)2,…,X(X)第页。我们对以下问题特别感兴趣第页»N个一个令人鼓舞的例子来自蛋白质质谱,我们在其中观察到每个血清样本我,强度x个ij公司对许多人来说飞行时间值t吨j个.飞行时间与质量过载比有关米/z(z)血液中的组成蛋白质。图。1显示了一个取自Adam的示例等. (2003):健康患者和前列腺癌患者的平均光谱。有48538个米/z(z)-站点总数。完整的数据集包括157名健康患者和167名癌症患者,目标是米/z(z)-区分这两个群体的网站。在过去几年里,人们对这个问题很感兴趣;参见Petricoin示例等. (2002)和Adam等. (2003).
图1
蛋白质质谱数据:正常(--)和前列腺癌患者的平均谱
在其他示例中,功能的顺序可能不固定先验的但可以根据数据进行估算。一个例子是从微阵列测量的基因表达数据。层次聚类可用于估计基因的顺序,将相关基因放在列表中相邻的位置。在本文中,我们对蛋白质质谱和微阵列数据的方法进行了说明。
在节中2我们定义了融合套索,并用一个简单的例子加以说明。章节三描述了解的计算。章节4探索渐近性质。在节中5我们将融合套索与软阈值方法和小波相联系。熔融套索配合的自由度在第节中讨论6前列腺癌的蛋白质质谱数据集在第节中进行了分析7,而节8进行模拟研究。第节讨论了该方法在无序特征中的应用9并在第节中的微阵列数据集上进行了说明9.1第节介绍了铰链损失函数和支持向量分类器10.
2.套索和融合
我们从标准线性模型开始
(1)
包含错误ɛ我具有平均值0和恒定方差。我们还假设预测值标准化为平均值0和单位方差,以及结果年我表示0。因此,我们不需要模型(1)中的截距。
我们注意到第页可能会大于N个,通常比N个在我们考虑的应用程序中。已经提出了许多用于正则化或惩罚回归的方法,包括岭回归(Hoerl和Kennard,1970),偏最小二乘法(Wold,1975)主成分回归。子集选择更为离散,包括或排除模型中的预测因素。套索(Tibshirani,1996)与岭回归类似,但使用系数的绝对值而不是其平方。套索找到系数令人满意的
(2)
绑定秒是一个调谐参数:足够大秒我们得到了最小二乘解,或者是许多可能的最小二乘解之一,如果第页>N个。对于较小的值秒,解是稀疏的,即某些组件正好为0。从数据分析的角度来看,这是很有吸引力的,因为它选择了重要的预测因子,而丢弃了其余的预测因子。此外,由于条件(2)中的标准和约束是凸的,所以即使在很大程度上,这个问题也可以解决第页(例如。第页=40 000)。我们将在第节中详细讨论计算三.
与套索不同,岭回归、偏最小二乘和主成分回归不产生稀疏模型。子集选择确实产生稀疏模型,但不是凸操作;最佳子集选择是组合的,对于第页>30左右。
即使在以下情况下也可以使用套索第页>N个它有一个唯一的解,假设没有两个预测因子完全共线。该解的一个有趣特性是,非零系数的数量最多为min(N个,第页). 因此,如果第页=40 000和N个=100,则解中最多有100个系数为非零。陈的“基追踪”信号估计方法等. (2001)使用与套索相同的思想,但应用于小波或其他域。
在当前上下文中套索的一个缺点是,它忽略了我们在本文中假设的类型的特征的排序。为此,我们建议熔断套索由定义
(3)
第一个约束鼓励系数的稀疏性;第二种方法鼓励差异的稀疏性,即系数剖面的平坦性βj个作为的函数j个“融合”一词借用自兰德和弗里德曼(1996),他建议使用形式为∑的罚款j个|βj个负极βj个−1|α秒2对于各种值α尤其是α=0,1,2. 他们没有考虑对两个∑都使用罚款j个|βj个负极βj个−1|和Σj个|βj个|如条件(3)所示。图。2给出了示意图。
图。三通过一个模拟示例说明了这些想法。有第页=100个预测因子和N个=20个样本。数据是从模型中生成的年我=Σj个x个ij公司βj个+ɛ我其中x个ij公司是标准高斯,ɛ我∼N个(0,σ2)带有σ=0.75,并且有三个连续的非零块βj个由每个面板中的黑点显示。图。三(a) 显示了单变量回归系数(红色)和软阈值版本(绿色)。图。三(b) 显示套索解决方案(红色),使用秒1=35.6和秒2=∞,图。三(c) 显示融合估计值(使用秒1=∞和秒2=26). 这些值秒1和秒2是使估计的测试集误差最小化的值。最后,图。三(d) 显示融合套索,使用秒1=∑j个|βj个|和秒2=Σj个|βj个负极βj个−1|,其中β是真正的系数集。融合套索在估计真实基础系数方面做得最好。然而,融合方法(图。三(c) )的性能与本例中的融合套索相同。
图3
模拟示例,带有第页=100个预测因子,其系数用黑线表示:(a)单变量回归系数(红色)及其软阈值版本(绿色);(b) 套索溶液(红色),使用秒1=35.6和秒2=∞; (c) 融合估计,使用秒1=∞和秒2=26(这些值秒1和秒2最小化估计测试集误差);(d) 融合套索,使用秒1=∑j个|βj个|和秒2=Σj个|βj个负极βj个−1|,其中β是真正的系数集
图。4显示了另一个示例,其设置与图中相同。三除了那个σ=0.05和β有两个非零区域-峰值米/z(z)=10,平坦的高原在70到90之间。与前面的示例一样,边界秒1和秒2在每种情况下都进行了选择,以最小化预测误差。套索表现不佳;融合捕捉到了平台,但没有明确地将峰值隔离在米/z(z)=10.融合套索整体表现良好。
图4
只有两个非零系数区域的模拟示例(黑点和线条;红点,每种方法的估计系数):(a)套索,秒1=4.2;(b) 融合,秒2=5.2; (c) 融合套索,秒1=56.5,秒2=13
另一种形式是使用形式为∑的第二种惩罚j个(βj个负极βj个−1)2秒2代替∑j个|βj个负极βj个−1|秒2(这也是一位裁判建议的)。然而,这也有类似的缺点与∑相比j个|βj个|:它不会产生稀疏的解决方案,其中稀疏性指的是第一个差异βj个负极βj个−1.罚款∑j个(βj个负极βj个−1)2秒2不产生简单的分段常数解,而是产生一个对解释吸引力较小的“摆动”解。罚款∑j个|βj个负极βj个−1|秒2给出了分段常数解,这对应于特征的简单平均。
3.计算方法
3.1. 固定的秒1和秒2
准则(3)导致了一个二次规划问题。对于大型第页,问题很难解决,必须特别小心,避免使用第页2存储元件。我们使用Gill的两阶段主动集算法SQOPT等. (1997),它是为具有稀疏线性约束的二次规划问题设计的。
让具有.定义θj个=βj个负极βj个−1对于j个>1和θ1=β1.让具有.让L(左)成为第页×第页矩阵,带有L(左)ii(ii)=1,L(左)我+1,我=-1和L(左)ij公司=0,否则θ=L(左)β.让e(电子)成为一列第页-1s的矢量,以及我成为第页×第页单位矩阵。
让X(X)成为N个×第页特征矩阵和年和β是N个-和第页-结果向量和系数向量。我们可以把问题(3)写成
(4)
从属于
(5)
除了非负约束β+,β负极,θ+,θ负极0.大矩阵的维数为(2第页+ 2)×5第页但只有11个第页−1个非零元素。在这里一0=(∞,0,0,…,0). 自β1=θ1,将其边界设置为±∞可以避免对|β1|. 类似地e(电子)0=e(电子)第一个组件设置为0。
SQOPT包要求用户编写一个计算X(X)T型Xv公司对于第页-向量v(v)正在考虑中。对于边界的许多选择秒1和秒2,向量v(v)非常稀疏,因此X(X)T型(Xv公司)可以有效计算。该算法也非常适合“热启动”:从给定的解决方案开始秒1和秒2,可以相对快速地找到这些边界附近值的解。
3.2. 搜索策略
对于中等规模的问题(第页≃1000和N个≃100),上述程序足够快,可以应用于秒1-和秒2-值。对于较大的问题,需要进行更严格的搜索。我们首先利用了这样一个事实,即使用最小角度回归(LAR)程序(Efron)可以有效地解决套索和融合问题的完整序列等.,2002). 融合问题通过第一次变换解决X(X)到Z轴=特大号−1具有θ=L(左)β,应用LAR,然后转换回来。
对于给定的问题,只有边界的一些值(秒1,秒2)即解向量满足这两个条件和.图。5(a) 显示了模拟数据示例的可实现值。
图5
图的模拟示例。三:(a)可达到的界限值秒1和秒2; (b) 文本中描述的融合套索搜索过程示意图
图。5(b) 是搜索策略的示意图。使用上述LAR过程,我们获得了边界的解(秒1(我),∞),其中秒1(我)边界是否给出了一个解我自由度。(我们在第节中讨论了融合套索配合的“自由度”6.)我们使用解的套索序列和交叉验证或测试集来估计最佳自由度。现在让我们
这是界限的最大值秒2它会影响解决方案。重点c(c)2在图中。5(b) 是。我们从开始c(c)2并通过向(1,−2)方向移动来融合解决方案。同样,我们定义点c(c)1是具有自由度的解和c(c)三有自由度我们从这些方面融合了解决方案。通过实验选择特定方向(1,−2)。我们通常对接近纯融合模型(右下边界)的解不感兴趣,此搜索策略试图(大致)覆盖(秒1,秒2). 该策略用于本文后面讨论的实际示例和模拟研究。
对于实际数据集,我们将此搜索策略应用于训练集,然后在验证集上评估预测误差。这可以通过一次培训完成——验证分割,或通过五倍或十倍的交叉验证。本文后面的示例中对此进行了说明。
表1显示了2.4 GHz Xeon Linux计算机上各种维度问题的一些典型计算时间。有关计算问题的进一步讨论,请参阅第节11.
第页. | N个. | 起点. | 时间(s). |
---|
100 | 20 | 冷 | 0.09 |
500 | 20 | 寒冷 | 1 |
1000 | 20 | 寒冷 | 2 |
1000 | 200 | 寒冷 | 30.4 |
2000 | 200 | 寒冷 | 120 |
2000 | 200 | 温暖 | 16.6 |
第页. | N个. | 起点. | 时间(s). |
---|
100 | 20 | 寒冷 | 0.09 |
500 | 20 | 寒冷 | 1 |
1000 | 20 | 寒冷 | 2 |
1000 | 200 | 寒冷 | 30.4 |
2000 | 200 | 寒冷 | 120 |
2000 | 200 | 温暖 | 16.6 |
第页. | N个. | 起点. | 时间(s). |
---|
100 | 20 | 冷 | 0.09 |
500 | 20 | 寒冷 | 1 |
1000 | 20 | 寒冷 | 2 |
1000 | 200 | 寒冷 | 30.4 |
2000 | 200 | 寒冷 | 120 |
2000 | 200 | 温暖 | 16.6 |
第页. | N个. | 起点. | 时间(s). |
---|
100 | 20 | 寒冷 | 0.09 |
500 | 20 | 寒冷 | 1 |
1000 | 20 | 寒冷 | 2 |
1000 | 200 | 寒冷 | 30.4 |
2000 | 200 | 寒冷 | 120 |
2000 | 200 | 温暖 | 16.6 |
4.渐近性质
在本节中,我们导出了融合套索的结果,其与套索(Knight和Fu,2000). 受惩罚的最小二乘准则为
(6)
具有β=(β1,β2,…,β第页)T型和x个我=(x个我1,x个我2,…x个知识产权)T型和拉格朗日乘数和是样本大小的函数N个.
为了简单起见,我们假设第页已修复为N个→∞. 这些不是特别现实的渐近条件:我们希望第页=第页N个→∞ 作为N个→∞. 沿着这些路线的结果可能是可以实现的。然而,以下定理充分说明了融合套索的基本动力学。
定理1。如果(我=1,2)和
那么是非奇异的
哪里
和W公司有一个𝒩(0,σ2C类)分配。
证明。定义V(V)N个(u个)由
具有u个=(u个0,u个1,…,u个第页)T型,并注意V(V)N个在最小化>. 首先要注意的是
具有有限维收敛性。我们也有
和
因此V(V)N个(u个)→d日V(V)(u个)(如上所述),有限维收敛保持平凡。自V(V)N个是凸的,并且V(V)有一个独特的最小值,如下所示(Geyer,1996)那个
□
作为一个简单的例子,假设β1=β2≠0。那么
概率集中在线路上u个1=u个2什么时候.何时,我们会看到一个拉索型效应对单变量极限分布的影响,如果β1=β2>0和概率向正方向移动,如果β1=β2< 0.
5.软阈值和小波
5.1. 软阈值估计
首先考虑具有正交特征的套索问题N个>第页,即在融合套索问题(3)中,我们取秒2=∞,我们假设X(X)T型X(X)=我然后,如果是单变量最小二乘估计,套索解是软阈值估计:
(7)
哪里γ1满足.
与此相对应的是,融合问题有一个特例,它也有一个明确的解决方案。我们接受秒1=∞,并让θ=L(左)β和Z轴=特大号−1。请注意L(左)−1是1s的下三角矩阵,因此Z轴是x个ij公司穿过j个。这给了一个套索问题(Z轴,年)解决方案是
(8)
前提是Z轴T型Z轴=我,或同等X(X)T型X(X)=L(左)T型L(左).在这里γ2满足.矩阵L(左)T型L(左)为三对角线,对角线上为2s,非对角线为−1s。
当然我们不能两者兼得X(X)T型X(X)=我和X(X)T型X(X)=L(左)T型L(左)同时。但我们可以构建一个场景,使融合套索问题有一个明确的解决方案。我们接受X(X)=美国保险商实验室−1具有U型T型U型=我并假设完全最小二乘估计β'=(X(X)T型X(X))−1X(X)T型年非递减:0β′1β′2...β′第页。最后,我们设置秒1=秒2=秒然后,融合套索解软阈值完全最小二乘估计β'从右侧:
(9)
哪里然而,这种设置在实践中似乎并不十分有用,因为其假设非常不现实。
5.2. 基础转换
本文问题的转换方法大致如下。我们建模β=W公司γ,其中的列W公司是合适的基础。例如,在我们的模拟示例中,我们可以使用Haar小波,然后我们可以编写X(X)β=X(X)(W公司γ)=(XW公司)γ。在运营方面,我们将功能转变为Z轴=XW公司和配合年到Z轴γ通过软阈值或套索。最后,我们映射回以获取注意,软阈值隐式假设Z轴-基础是正交:Z轴T型Z轴=我.
此过程寻求βs在变换空间中。相反,套索和简单的软阈值估计(7)寻求的是βs在原始基础上。
融合套索更具野心:它使用两种基本表示法X(X)和Z轴=特大号−1并寻求在两个空间中都稀疏的表示。它不假设正交性,因为这不能在两种表示中同时保持。这一雄心壮志的代价是增加了计算负担。
图。6显示了应用软阈值的结果(图。6(a) )或套索(图。6(b) ),然后转换回原始空间。对于软阈值,我们使用了与级别相关的阈值σ√{2对数(N个j个)},其中N个j个是给定尺度下的小波系数数σ被选择来最小化测试误差(例如参见Donoho和Johnstone(1994)). 对于套索,我们选择了界限秒1以最小化测试误差。由此得出的估计并不十分准确,尤其是套索的估计。这可能部分是由于小波基不是平移不变量。因此,如果非零系数沿特征轴不在2的幂附近,则小波基将难以表示它。
图6
图的模拟示例。三:(a)真系数(黑色)和估计系数(红色),通过变换为Haar小波基、阈值化和反变换获得;(b) 相同的程序,除了套索用于Haar系数(而不是软阈值)
6.融合套索配合的自由度
考虑融合套索配合中使用了多少“自由度”是有用的作为秒1和秒2变化多样。埃夫隆等. (2002)考虑使用Stein公式定义自由度(1981):
(10)
哪里σ2是的方差年我具有X(X)fixed和cov表示协方差X(X)固定的。对于标准多元线性回归第页<N个预测因素,减少到第页现在,在正交设计的特殊情况下(X(X)T型X(X)=我),套索估计量只是软阈值估计量(7),Efron等. (2002)表明自由度等于非零系数的数量。他们还证明了在“正锥条件”下LAR和lasso估计的这一点,这意味着估计是单调的,与L(左)1-绑定秒1.正交规范情形下的证明很简单:它使用了Stein公式
(11)
哪里年=(年1,年2,…,年N个)是具有平均值的多元正态向量μ和协方差我、和克(年)是一个估计量,一个与ℝ几乎可微的函数N个至ℝN个.对于正交设计的套索,我们旋转基础,以便X(X)=我,因此从方程式(7)克(年)=sgn(年我)(|年我|−γ1). 导数ψ克(年)/⏴======================================================================年我等于1,如果我th分量为非零,否则为0。因此,自由度是非零系数的数量。
对于融合套索,自由度的自然估计为
(12)
换句话说,我们计算一个或多个连续非零且相等的序列-值为1个自由度。等效地,我们可以定义
(13)
很容易看出这两个定义是相同的。此外,当,因此min(N个,第页)是自由度的有效上限。我们没有证据一般来说,这是一个很好的估计,但它是根据场景(7)-(9)中的Stein结果(11)得出的。
图。7比较融合套索和套索的估计自由度和实际自由度。融合套索的近似值相当粗糙,但并不比套索差多少。我们仅将此定义用于描述性目的,以大致了解拟合模型的复杂性。
图7
模拟示例:(a)融合套索和(b)套索的实际和估计自由度(--,45°-线;––––-,最小二乘回归拟合)
6.1. 融合套索解的稀疏性
如第节所述2,套索在高维建模中具有稀疏解,即,如果第页>N个,套索解决方案最多有N个非零系数,在温和(“非冗余”)条件下。这个性质推广到任何带有套索惩罚的凸损失函数。它已被明确证明,所需的非冗余条件已在Rosset中详细说明等. (2004),附录A。
融合的套索具有类似的稀疏特性。然而,稀疏性不适用于非零系数的数量,而适用于相同非零系数序列的数量。所以,如果我们考虑一下第7和图。8,套索的稀疏意味着图中最多可以有216个红点。8(b) 。融合套索的稀疏性意味着我们最多可以有216个连续的黑色序列米/z(z)-具有相同系数的值。
图8
前列腺癌示例的结果:——,•,融合拉索非零系数;,,套索非零系数
融合套索稀疏性结果的形式声明如下。
定理2。设置β0=0.让然后,在设计矩阵上的“非冗余”条件下X(X),融合套索问题(3)有一个唯一的解决方案具有.
该证明与Rosset中套索的稀疏性证明非常相似等. (2004),并基于检查约束问题解的最优性的Karush–Kuhn–Tucker条件(3)。上述非冗余条件可定性总结如下。
7.前列腺癌数据分析
如第节所述1前列腺癌数据集包括324名患者的48538个测量值:157名健康患者和167名癌症患者。平均剖面(质心)如图所示。1。根据最初的研究人员,我们忽略了米/z(z)-2000年以下的地点可能会出现化学制品。我们随机创建了大小分别为216和108名患者的训练和验证集。为了便于计算,我们将20个连续块中的数据平均化,得到总共2181个站点。(我们确实在全套站点上运行了套索,它产生的错误率与此处报告的套索错误率大致相同。)各种方法的结果如表所示2在这个两类设置中,“最近的收缩质心”方法(Tibshirani等。,2001)本质上等价于一元回归系数的软阈值。
方法. | 验证错误/108. | 自由度. | 站点数量. | 秒1. | 秒2. |
---|
最近的收缩质心 | 30 | | 227 | | |
拉索 | 16 | 60 | 40 | 83 | 164 |
融合 | 18 | 102 | 2171 | 16 | 32 |
熔接套索 | 16 | 103 | 218 | 113 | 103 |
方法. | 验证错误/108. | 自由度. | 站点数量. | 秒1. | 秒2. |
---|
最近的收缩质心 | 30 | | 227 | | |
拉索 | 16 | 60 | 40 | 83 | 164 |
融合 | 18 | 102 | 2171 | 16 | 32 |
熔接套索 | 16 | 103 | 218 | 113 | 103 |
方法. | 验证错误/108. | 自由度. | 站点数量. | 秒1. | 秒2. |
---|
最近收缩的质心 | 30 | | 227 | | |
拉索 | 16 | 60 | 40 | 83 | 164 |
融合 | 18 | 102 | 2171 | 16 | 32 |
熔接套索 | 16 | 103 | 218 | 113 | 103 |
方法. | 验证错误/108. | 自由度. | 站点数量. | 秒1. | 秒2. |
---|
最近的收缩质心 | 30 | | 227 | | |
拉索 | 16 | 60 | 40 | 83 | 164 |
融合 | 18 | 102 | 2171 | 16 | 32 |
熔接套索 | 16 | 103 | 218 | 113 | 103 |
亚当等. (2003)对于这个问题的四级版本,报告的错误率约为5%,使用峰值查找过程和决策树算法。然而,我们(至少还有一个我们知道的其他小组)很难复制他们的结果,即使使用他们提取的峰值。
图。8显示了两种方法的非零系数。我们看到,融合套索将非零权重放在更多位置,尤其是在较高位置分散权重米/z(z)-值。更仔细的分析将使用交叉验证来选择边界,然后报告这些边界的测试错误。我们对第节中的白血病数据进行了这样的分析9.1.
8.模拟研究
我们进行了一个小型的仿真研究,以比较套索和融合套索的性能。为了确保我们的特征集具有真实的蛋白质质谱相关结构,我们使用了前一节描述的数据集中的前1000个特征。我们还使用了100名患者的随机子集,以使特征与样本大小的比率接近真实水平。然后我们生成系数向量β通过选择1–10个非重叠米/z(z)-随机位置和长度非零系数相等的定义块在1到100之间一致。系数的值生成为N个(0,1)。最后,根据
(14)
这种设置使得模型解释的测试方差约为50%。
对于每个数据集,我们找到了测试误差最小的套索解。然后我们使用了第节中概述的搜索策略三用于融合套索。表三总结了该模型的20个仿真结果。灵敏度和特异性是指每种方法检测到的真非零系数和真零系数的比例。所示为融合套索的最小测试误差解以及边界真值秒1和秒2.
方法. | 测试错误. | 敏感. | 特异性. |
---|
拉索 | 265.194 (7.957) | 0.055 (0.009) | 0.985 (0.003) |
带保险丝的套索 | 256.117 (7.450) | 0.478 (0.082) | 0.693(0.072) |
融合套索(真秒1,秒2) | 261.380 (8.724) | 0.446 (0.045) | 0.832 (0.018) |
方法. | 测试错误. | 敏感. | 特异性. |
---|
拉索 | 265.194 (7.957) | 0.055 (0.009) | 0.985 (0.003) |
熔接套索 | 256.117 (7.450) | 0.478 (0.082) | 0.693 (0.072) |
融合套索(真秒1,秒2) | 261.380 (8.724) | 0.446 (0.045) | 0.832 (0.018) |
方法. | 测试错误. | 敏感. | 特异性. |
---|
拉索 | 265.194 (7.957) | 0.055(0.009) | 0.985 (0.003) |
熔接套索 | 256.117 (7.450) | 0.478 (0.082) | 0.693 (0.072) |
融合套索(真秒1,秒2) | 261.380 (8.724) | 0.446 (0.045) | 0.832 (0.018) |
方法. | 测试错误. | 敏感. | 特异性. |
---|
拉索 | 265.194 (7.957) | 0.055 (0.009) | 0.985 (0.003) |
带保险丝的套索 | 256.117 (7.450) | 0.478 (0.082) | 0.693(0.072) |
融合套索(真秒1,秒2) | 261.380 (8.724) | 0.446 (0.045) | 0.832 (0.018) |
我们看到,融合套索略微改善了套索的测试误差,并检测到了很大比例的真实非零系数。在这个过程中,它具有较低的特异性。即使是真的秒1-和秒2-边界,融合套索检测到不到一半的真实非零系数。这表明了第页≫N个.
9.无序特征的应用
融合套索定义(3)假设特征x个ij公司,因此相应的参数βj个,有一个自然的顺序j个然而,在一些问题中,特征没有预先指定的顺序,例如微阵列实验中的基因。在这种情况下,至少有两种方法可以使用融合套索。首先,我们可以估计特征的顺序,例如使用多维缩放或层次聚类。后者通常用于创建微阵列数据的热图显示。
或者,我们注意到定义(3)不需要对特征进行完整排序,而只需要指定每个特征的最近邻居,即k个(j个)是最接近要素的要素索引j个例如,就最小欧几里得距离或最大相关性而言。然后我们可以使用带差分约束的融合套索
从计算上看,这只是改变了第页用矩阵表示的线性约束L(左)在表达式(5)中。请注意,更复杂的方案,例如使用多个近邻,将增加线性约束的数量,可能会达到第页2。我们在下面的示例中说明了第一种方法。
9.1. 使用微阵列进行白血病分类
白血病数据在Golub介绍等. (1999). 共有7129个基因和38个样本:第一类27个(急性淋巴细胞白血病),第二类11个(急性骨髓源性白血病)。此外,还有一个34号试样。预测结果见表4.
方法. | 10倍交叉验证错误. | 测试错误. | 基因数量. |
---|
(1) 格鲁布等。(1999)(50个基因) | 3/38 | 4/34 | 50 |
(2) 最近的收缩质心(21个基因) | 1/38 | 2/34 | 21 |
(3) 拉索,37度自由度(秒1=0.65,秒2=1.32) | 1/38 | 1/34 | 37 |
(4) 熔合套索,38度自由度(秒1=1.08,秒2=0.71) | 1/38 | 2/34 | 135 |
(5) 融合套索,20度自由度(秒1=1.35,秒2=1.01) | 1/38 | 4/34 | 737 |
(6) 融合,1自由度 | 1/38 | 12/34 | 975 |
方法. | 10倍交叉验证错误. | 测试错误. | 基因数量. |
---|
(1) 格鲁布等。(1999)(50个基因) | 3/38 | 4/34 | 50 |
(2) 最近的收缩质心(21个基因) | 1/38 | 2/34 | 21 |
(3) 拉索,37自由度(秒1=0.65,秒2=1.32) | 第1页,共38页 | 1/34 | 37 |
(4) 熔合套索,38度自由度(秒1=1.08,秒2=0.71) | 1/38 | 2/34 | 135 |
(5) 融合套索,20度自由度(秒1=1.35,秒2=1.01) | 1/38 | 4/34 | 737 |
(6) 融合,1自由度 | 1/38 | 12/34 | 975 |
方法. | 10倍交叉验证错误. | 测试错误. | 基因数量. |
---|
(1) 格鲁布等。(1999)(50个基因) | 3/38 | 4/34 | 50 |
(2) 最近的收缩质心(21个基因) | 1/38 | 2/34 | 21 |
(3) 拉索,37度自由度(秒1=0.65,秒2=1.32) | 1/38 | 1/34 | 37 |
(4) 熔合套索,38度自由度(秒1=1.08,秒2=0.71) | 第1页,共38页 | 2/34 | 135 |
(5) 融合套索,20度自由度(秒1=1.35,秒2=1.01) | 1/38 | 4/34 | 737 |
(6) 融合,1自由度 | 1/38 | 12/34 | 975 |
方法. | 10倍交叉验证错误. | 测试错误. | 基因数量. |
---|
(1) 格鲁布等。(1999)(50个基因) | 3/38 | 4/34 | 50 |
(2) 最近的收缩质心(21个基因) | 1/38 | 2/34 | 21 |
(3) 拉索,37度自由度(秒1=0.65,秒2=1.32) | 第1页,共38页 | 1/34 | 37 |
(4) 熔合套索,38度自由度(秒1=1.08,秒2=0.71) | 1/38 | 2/34 | 135 |
(5) 融合套索,20度自由度(秒1=1.35,秒2=1.01) | 1/38 | 4/34 | 737 |
(6) 融合,1自由度 | 第1页,共38页 | 12/34 | 975 |
前两行基于所有7129个基因。Golub的程序等。(1999)类似于最近的收缩质心,但它使用硬阈值。对于套索和融合方法,我们首先根据总方差筛选出前1000个基因。然后我们对基因进行平均连锁层次聚类,为融合过程提供基因顺序。
通过使用交叉验证优化调谐参数,然后将这些值应用于测试集,对所有套索和融合模型进行拟合。纯融合估计方法(6)在测试误差中表现不佳:对于任何界限值,该误差从未低于3秒2.
我们看到,在第(4)行中,融合套索解决方案会产生相同的错误率,使用的基因数量大约是原来的四倍。第(5)行中的进一步融合似乎会增加测试错误率。表5显示了套索解和融合套索解方法的估计系数示例(4)。我们看到,在许多情况下,融合过程将非零拉索系数的系数扩散到相邻基因上。
基因. | 拉索. | 熔接套索. | 基因. | 拉索. | 熔接套索. | 基因. | 拉索. | 熔接套索. |
---|
9 | 0 | 0.00203 | 421 | −0.08874 | −0.02506 | 765 | 0 | 0.00361 |
10 | 0 | 0.00495 | 422 | 0 | −0.00110 | 766 | 0 | 0.00361 |
11 | 0 | 0.00495 | | | | 767 | 0 | 0.00361 |
12 | 0 | 0.00495 | 475 | −0.01734 | 0 | 768 | 0 | 0.00361 |
13 | 0 | 0.00495 | | | | 769 | 0.00102 | 0.00361 |
14 | 0 | 0.00495 | 522 | 0 | −0.00907 | 770 | 0 | 0.00361 |
15 | 0 | 0.00495 | 523 | 0 | −0.00907 | 771 | 0 | 0.00361 |
| | | 524 | 0 | −0.00907 | 772 | 0 | 0.00361 |
22 | 0.01923 | 0.00745 | 525 | 0 | −0.00907 | | | |
23 | 0 | 0.00745 | 526 | 0 | −0.00907 | 788 | 0.04317 | 0.03327 |
24 | 0 | 0.00745 | 527 | 0 | −0.00907 | | | |
25 | 0 | 0.00745 | 528 | 0 | −0.00907 | 798 | 0.02476 | 0.01514 |
26 | 0 | 0.00745 | | | | 799 | 0 | 0.01514 |
27 | 0.01157 | 0.00294 | 530 | 0.01062 | 0 | 800 | 0 | 0.01514 |
31 | −0.00227 | 0 | 563 | 0 | −0.02018 | 815 | −0.00239 | 0 |
| | | 564 | 0 | −0.02018 | | | |
39 | −0.00992 | 0 | 565 | 0 | −0.02018 | 835 | 0 | −0.01996 |
| | | 566 | 0 | −0.02018 | 836 | 0 | −0.01996 |
44 | −0.00181 | 0 | 567 | 0 | −0.02018 | 837 | 0 | −0.01996 |
| | | | | | 838 | 0 | −0.00408 |
基因. | 拉索. | 熔接套索. | 基因. | 拉索. | 带保险丝的套索. | 基因. | 拉索. | 熔接套索. |
---|
9 | 0 | 0.00203 | 421 | −0.08874 | −0.02506 | 765 | 0 | 0.00361 |
10 | 0 | 0.00495 | 422 | 0 | −0.00110 | 766 | 0 | 0.00361 |
11 | 0 | 0.00495 | | | | 767 | 0 | 0.00361 |
12 | 0 | 0.00495 | 475 | −0.01734 | 0 | 768 | 0 | 0.00361 |
13 | 0 | 0.00495 | | | | 769 | 0.00102 | 0.00361 |
14 | 0 | 0.00495 | 522 | 0 | −0.00907 | 770 | 0 | 0.00361 |
15 | 0 | 0.00495 | 523 | 0 | −0.00907 | 771 | 0 | 0.00361 |
| | | 524 | 0 | −0.00907 | 772 | 0 | 0.00361 |
22 | 0.01923 | 0.00745 | 525 | 0 | −0.00907 | | | |
23 | 0 | 0.00745 | 526 | 0 | −0.00907 | 788 | 0.04317 | 0.03327 |
24 | 0 | 0.00745 | 527 | 0 | −0.00907 | | | |
25 | 0 | 0.00745 | 528 | 0 | −0.00907 | 798 | 0.02476 | 0.01514 |
26 | 0 | 0.00745 | | | | 799 | 0 | 0.01514 |
27 | 0.01157 | 0.00294 | 530 | 0.01062 | 0 | 800 | 0 | 0.01514 |
31 | −0.00227 | 0 | 563 | 0 | −0.02018 | 815 | −0.00239 | 0 |
| | | 564 | 0 | −0.02018 | | | |
39 | −0.00992 | 0 | 565 | 0 | −0.02018 | 835 | 0 | −0.01996 |
| | | 566 | 0 | −0.02018 | 836 | 0 | −0.01996 |
44 | −0.00181 | 0 | 567 | 0 | −0.02018 | 837 | 0 | −0.01996 |
| | | | | | 838 | 0 | −0.00408 |
基因. | 拉索. | 熔接套索. | 基因. | 拉索. | 熔接套索. | 基因. | 拉索. | 熔接套索. |
---|
9 | 0 | 0.00203 | 421 | −0.08874 | −0.02506 | 765 | 0 | 0.00361 |
10 | 0 | 0.00495 | 422 | 0 | −0.00110 | 766 | 0 | 0.00361 |
11 | 0 | 0.00495 | | | | 767 | 0 | 0.00361 |
12 | 0 | 0.00495 | 475 | −0.01734 | 0 | 768 | 0 | 0.00361 |
13 | 0 | 0.00495 | | | | 769 | 0.00102 | 0.00361 |
14 | 0 | 0.00495 | 522 | 0 | −0.00907 | 770 | 0 | 0.00361 |
15 | 0 | 0.00495 | 523 | 0 | −0.00907 | 771 | 0 | 0.00361 |
| | | 524 | 0 | −0.00907 | 772 | 0 | 0.00361 |
22 | 0.01923 | 0.00745 | 525 | 0 | −0.00907 | | | |
23 | 0 | 0.00745 | 526 | 0 | −0.00907 | 788 | 0.04317 | 0.03327 |
24 | 0 | 0.00745 | 527 | 0 | −0.00907 | | | |
25 | 0 | 0.00745 | 528 | 0 | −0.00907 | 798 | 0.02476 | 0.01514 |
26 | 0 | 0.00745 | | | | 799 | 0 | 0.01514 |
27 | 0.01157 | 0.00294 | 530 | 0.01062 | 0 | 800 | 0 | 0.01514 |
31 | −0.00227 | 0 | 563 | 0 | −0.02018 | 815 | −0.00239 | 0 |
| | | 564 | 0 | −0.02018 | | | |
39 | −0.00992 | 0 | 565 | 0 | −0.02018 | 835 | 0 | −0.01996 |
| | | 566 | 0 | −0.02018 | 836 | 0 | −0.01996 |
44 | −0.00181 | 0 | 567 | 0 | −0.02018 | 837 | 0 | −0.01996 |
| | | | | | 838 | 0 | −0.00408 |
基因. | 拉索. | 熔接套索. | 基因. | 拉索. | 熔接套索. | 基因. | 拉索. | 熔接套索. |
---|
9 | 0 | 0.00203 | 421 | −0.08874 | −0.02506 | 765 | 0 | 0.00361 |
10 | 0 | 0.00495 | 422 | 0 | −0.00110 | 766 | 0 | 0.00361 |
11 | 0 | 0.00495 | | | | 767 | 0 | 0.00361 |
12 | 0 | 0.00495 | 475 | −0.01734 | 0 | 768 | 0 | 0.00361 |
13 | 0 | 0.00495 | | | | 769 | 0.00102 | 0.00361 |
14 | 0 | 0.00495 | 522 | 0 | −0.00907 | 770 | 0 | 0.00361 |
15 | 0 | 0.00495 | 523 | 0 | −0.00907 | 771 | 0 | 0.00361 |
| | | 524 | 0 | −0.00907 | 772 | 0 | 0.00361 |
22 | 0.01923 | 0.00745 | 525 | 0 | −0.00907 | | | |
23 | 0 | 0.00745 | 526 | 0 | −0.00907 | 788 | 0.04317 | 0.03327 |
24 | 0 | 0.00745 | 527 | 0 | −0.00907 | | | |
25 | 0 | 0.00745 | 528 | 0 | −0.00907 | 798 | 0.02476 | 0.01514 |
26 | 0 | 0.00745 | | | | 799 | 0 | 0.01514 |
27 | 0.01157 | 0.00294 | 530 | 0.01062 | 0 | 800 | 0 | 0.01514 |
31 | −0.00227 | 0 | 563 | 0 | −0.02018 | 815 | −0.00239 | 0 |
| | | 564 | 0 | −0.02018 | | | |
39 | −0.00992 | 0 | 565 | 0 | −0.02018 | 835 | 0 | −0.01996 |
| | | 566 | 0 | −0.02018 | 836 | 0 | −0.01996 |
44 | −0.00181 | 0 | 567 | 0 | −0.02018 | 837 | 0 | −0.01996 |
| | | | | | 838 | 0 | −0.00408 |
10.铰链损失
对于两类问题,支持向量分类器(Boser)中使用的最大裕度方法等.,1992; Vapnik、,1996)是最小二乘法的一个有吸引力的替代方法。最大裕度法可以用“铰链”损失函数表示(参见示例Hastie等. (2001),第11章)。我们最小化
(15)
从属于
原始支持向量分类器包括L(左)2-约束。最近,人们对L(左)1-约束(lasso)支持向量分类器。朱等. (2003)开发了一种类LAR算法,用于解决边界所有值的问题秒.
我们可以通过施加约束来推广到融合的套索支持向量分类器
(16)
完整的约束集可以写成
(17)
除了边界之外由于目标函数(15)是线性的,因此该优化是线性(而不是二次)规划问题。我们的实现再次使用SQOPT包,因为它处理线性和二次规划问题。
我们将融合的lasso支持向量分类器应用于微阵列白血病数据。使用秒1=2和秒2=4给出了一个具有90个非零系数和38个自由度的解。它在十倍交叉验证和测试集中都产生了一个错误分类,使其与表中的最佳分类器竞争4.表6比较融合套索系数(行)和融合套索支持向量系数(列)的符号。这项协议是实质性的,但远非十全十美。
. | −1. | 0. | 1. |
---|
−1 | 12 | 28 | 0 |
0 | 17 | 822 | 26 |
1 | 0 | 60 | 35 |
. | −1. | 0. | 1. |
---|
−1 | 12 | 28 | 0 |
0 | 17 | 822 | 26 |
1 | 0 | 60 | 35 |
. | −1. | 0. | 1. |
---|
−1 | 12 | 28 | 0 |
0 | 17 | 822 | 26 |
1 | 0 | 60 | 35 |
. | −1. | 0. | 1. |
---|
−1 | 12 | 28 | 0 |
0 | 17 | 822 | 26 |
1 | 0 | 60 | 35 |
支持向量公式的一个优点是它相当容易扩展到多类问题:参见Lee的示例等. (2002).
11.讨论
在特征具有自然顺序的环境中,融合套索似乎是一种很有前途的回归和分类方法。
使用融合套索的一个困难是计算速度。表中的计时结果1显示,当第页>2000年和N个>200,速度可能成为实际限制。如果进行五倍或十倍的交叉验证,情况尤其如此。热启动有帮助:从大值开始(秒1,秒2),我们在恒定(短)时间内获得较小值的解。(最初我们使用增加的的值(秒1,秒2)因为每个解决方案都肯定是下一个值的可行起点。然而,随着(秒1,秒2),SQOPT很快实现了可行性,并且往往以这种方式更高效。)
Efron的LAR算法等. (2002)有效解决套索问题的整个序列L(左)1-绑定秒1它通过利用解决方案轮廓是L(左)1-界,并且有效系数集以可预测的方式变化。可以证明,当我们沿直线移动时,融合套索解是分段线性函数(λ1,λ2)平面图(见Rosset和Zhu(2003)). 这里(λ1,λ2)拉格朗日乘子与边界相对应吗秒1和秒2因此,有可能开发一种LAR型算法,用于沿这些直线快速解决融合套索问题。然而,这种算法比LAR复杂得多,因为活动约束集可以通过许多可能的方式进行更改。在LAR中,我们只能在给定的步骤中添加或删除变量。在融合套索中,我们可以添加或删除变量,或融合或消除一组变量。我们还没有成功地为这个过程开发出一个有效的算法,但这将是一个未来研究的主题。
融合套索也可能推广到更高维的排序。假设功能x个j个,j个′排列在双向网格上,如图中所示。然后我们可以约束在任何方向上相距1个单位的系数,即形式约束
(18)
这将带来有趣的计算挑战,因为约束的数量是按顺序排列的第页2.
致谢
Tibshirani得到了国家科学基金会拨款DMS-9971405和国家卫生研究院合同N01-HV-28183的部分支持。桑德斯获得了国家科学基金会拨款CCR-0306662和海军研究办公室拨款N00014-02-1-0076的部分支持。菲利普·吉尔(Philip Gill)继续致力于二次规划求解器SQOPT的研究,我们对此表示感谢。
工具书类
©2005皇家统计学会