通过融合套索实现稀疏平滑

在其他示例中，功能的顺序可能不固定先验的但可以根据数据进行估算。一个例子是从微阵列测量的基因表达数据。层次聚类可用于估计基因的顺序，将相关基因放在列表中相邻的位置。在本文中，我们对蛋白质质谱和微阵列数据的方法进行了说明。

在节中2我们定义了融合套索，并用一个简单的例子加以说明。章节三描述了解的计算。章节4探索渐近性质。在节中5我们将融合套索与软阈值方法和小波相联系。熔融套索配合的自由度在第节中讨论6前列腺癌的蛋白质质谱数据集在第节中进行了分析7，而节8进行模拟研究。第节讨论了该方法在无序特征中的应用9并在第节中的微阵列数据集上进行了说明9.1第节介绍了铰链损失函数和支持向量分类器10.

2.套索和融合

我们从标准线性模型开始

年_{我} = \sum_{j个} {x个}_{我 j个} β_{j个} + ε_{我}

(1)

包含错误ɛ_我具有平均值0和恒定方差。我们还假设预测值标准化为平均值0和单位方差，以及结果年_我表示0。因此，我们不需要模型（1）中的截距。

我们注意到第页可能会大于N个，通常比N个在我们考虑的应用程序中。已经提出了许多用于正则化或惩罚回归的方法，包括岭回归（Hoerl和Kennard，1970)，偏最小二乘法（Wold，1975)主成分回归。子集选择更为离散，包括或排除模型中的预测因素。套索（Tibshirani，1996)与岭回归类似，但使用系数的绝对值而不是其平方。套索找到系数 $\hat{β} = ({\hat{β}}_{1}, {\hat{β}}_{2}, \dots, {\hat{β}}_{第页})$ 令人满意的

\hat{β} = 参数 最小值 {\sum_{我} {(年_{我} 负极 \sum_{j个} {x个}_{我 j个} β_{j个})}^{2}} 主题 \sum_{j个} | β_{j个} | ⩽ 秒 .

（2）

绑定秒是一个调谐参数：足够大秒我们得到了最小二乘解，或者是许多可能的最小二乘解之一，如果第页>N个。对于较小的值秒，解是稀疏的，即某些组件正好为0。从数据分析的角度来看，这是很有吸引力的，因为它选择了重要的预测因子，而丢弃了其余的预测因子。此外，由于条件（2）中的标准和约束是凸的，所以即使在很大程度上，这个问题也可以解决第页（例如。第页=40 000）。我们将在第节中详细讨论计算三.

与套索不同，岭回归、偏最小二乘和主成分回归不产生稀疏模型。子集选择确实产生稀疏模型，但不是凸操作；最佳子集选择是组合的，对于第页>30左右。

即使在以下情况下也可以使用套索第页>N个它有一个唯一的解，假设没有两个预测因子完全共线。该解的一个有趣特性是，非零系数的数量最多为min(N个,第页). 因此，如果第页=40 000和N个=100，则解中最多有100个系数为非零。陈的“基追踪”信号估计方法等. (2001)使用与套索相同的思想，但应用于小波或其他域。

在当前上下文中套索的一个缺点是，它忽略了我们在本文中假设的类型的特征的排序。为此，我们建议熔断套索由定义

\hat{β} = 参数 最小值 {\sum_{我} {(年_{我} 负极 \sum_{j个} {x个}_{我 j个} β_{j个})}^{2}} 主题 \sum_{j个 = 1}^{第页} | β_{j个} | ⩽ 秒_{1} 以及 \sum_{j个 = 2}^{第页} | β_{j个} 负极 β_{j个 负极 1} | ⩽ 秒_{2} .

(3)

融合套索的示意图，对于N>p=2的情况：我们首次寻求平方和损失函数（）的轮廓满足∑j|βj|=s1（）和∑j|βj-βj−1|=s2（）

图2

融合套索示意图N个>第页=2：我们首次寻求平方和损失函数的轮廓( 图解的 )满足∑_j个|β_j个|=秒₁()和∑_j个|β_j个负极β_j个−1|=秒₂()

图。三通过一个模拟示例说明了这些想法。有第页=100个预测因子和N个=20个样本。数据是从模型中生成的年_我=Σ_j个x个_ij公司β_j个+ɛ_我其中x个_ij公司是标准高斯，ɛ_我∼N个(0,σ²)带有σ=0.75，并且有三个连续的非零块β_j个由每个面板中的黑点显示。图。三（a）显示了单变量回归系数（红色）和软阈值版本（绿色）。图。三（b）显示套索解决方案（红色），使用秒₁=35.6和秒₂=∞，图。三（c）显示融合估计值（使用秒₁=∞和秒₂=26). 这些值秒₁和秒₂是使估计的测试集误差最小化的值。最后，图。三（d）显示融合套索，使用秒₁=∑_j个|β_j个|和秒₂=Σ_j个|β_j个负极β_j个−1|，其中β是真正的系数集。融合套索在估计真实基础系数方面做得最好。然而，融合方法（图。三（c））的性能与本例中的融合套索相同。

模拟示例，p=100预测因子的系数用黑线表示：（a）一元回归系数（红色）和软阈值版本（绿色）；（b）套索解（红色），使用s1=35.6和s2=∞；（c）融合估计，使用s1=∞和s2=26（s1和s2的这些值最小化了估计的测试集误差）；（d）融合套索，使用s1=∑j|βj|和s2=∑jβj-βj−1|，其中β是系数的真实集合

图3

模拟示例，带有第页=100个预测因子，其系数用黑线表示：（a）单变量回归系数（红色）及其软阈值版本（绿色）；（b）套索溶液（红色），使用秒₁=35.6和秒₂=∞; （c）融合估计，使用秒₁=∞和秒₂=26（这些值秒₁和秒₂最小化估计测试集误差）；（d）融合套索，使用秒₁=∑_j个|β_j个|和秒₂=Σ_j个|β_j个负极β_j个−1|，其中β是真正的系数集

图。4显示了另一个示例，其设置与图中相同。三除了那个σ=0.05和β有两个非零区域-峰值米/z（z）=10，平坦的高原在70到90之间。与前面的示例一样，边界秒₁和秒₂在每种情况下都进行了选择，以最小化预测误差。套索表现不佳；融合捕捉到了平台，但没有明确地将峰值隔离在米/z（z）=10.融合套索整体表现良好。

只有两个非零系数区域的模拟示例（黑点和线条；红点，每种方法的估计系数）：（a）套索，s1=4.2；（b）融合，s2=5.2；（c）融合套索，s1=56.5，s2=13

图4

只有两个非零系数区域的模拟示例（黑点和线条；红点，每种方法的估计系数）：（a）套索，秒₁=4.2；（b）融合，秒₂=5.2; （c）融合套索，秒₁=56.5,秒₂=13

另一种形式是使用形式为∑的第二种惩罚_j个(β_j个负极β_j个−1)² $⩽$ 秒₂代替∑_j个|β_j个负极β_j个−1| $⩽$ 秒₂（这也是一位裁判建议的）。然而，这也有类似的缺点 $Σ β_{j个}^{2}$ 与∑相比_j个|β_j个|：它不会产生稀疏的解决方案，其中稀疏性指的是第一个差异β_j个负极β_j个−1.罚款∑_j个(β_j个负极β_j个−1)² $⩽$ 秒₂不产生简单的分段常数解，而是产生一个对解释吸引力较小的“摆动”解。罚款∑_j个|β_j个负极β_j个−1| $⩽$ 秒₂给出了分段常数解，这对应于特征的简单平均。

3.计算方法

3.1. 固定的秒₁和秒₂

准则（3）导致了一个二次规划问题。对于大型第页，问题很难解决，必须特别小心，避免使用第页²存储元件。我们使用Gill的两阶段主动集算法SQOPT等. (1997)，它是为具有稀疏线性约束的二次规划问题设计的。

让 $β_{j个} = β_{j个}^{+} 负极 β_{j个}^{负极}$ 具有 $β_{j个}^{+}, β_{j个}^{负极} ⩾ 0$ ⁠.定义θ_j个=β_j个负极β_j个−1对于j个>1和θ₁=β₁.让 $θ_{j个} = θ_{j个}^{+} 负极 θ_{j个}^{负极}$ 具有 $θ_{j个}^{+}, θ_{j个}^{负极} ⩾ 0$ ⁠.让L（左）成为第页×第页矩阵，带有L（左）_ii（ii）=1,L（左）_我+1,我=-1和L（左）_ij公司=0，否则θ=L（左）β.让e（电子）成为一列第页-1s的矢量，以及我成为第页×第页单位矩阵。

让X（X）成为N个×第页特征矩阵和年和β是N个-和第页-结果向量和系数向量。我们可以把问题（3）写成

\hat{β} = 参数 最小值 {{(年 负极 X（X） β)}^{T型} 秒 (年 负极 X（X） β)}

(4)

从属于

(\begin{matrix} 负极 一_{0} \\ 0 \\ 0 \\ 0 \end{matrix}) ⩽ (\begin{matrix} J型 & 0 & 0 & 负极 我 & 我 \\ 我 & 负极 我 & 我 & 0 & 0 \\ 0 & {e（电子）}^{T型} & {e（电子）}^{T型} & 0 & 0 \\ 0 & 0 & 0 & {e（电子）}_{0}^{T型} & {e（电子）}_{0}^{T型} \end{matrix}) (\begin{matrix} β \\ β^{+} \\ β^{负极} \\ θ^{+} \\ θ^{负极} \end{matrix}) ⩽ (\begin{matrix} 一_{0} \\ 0 \\ 秒_{1} \\ 秒_{2} \end{matrix}),

(5)

除了非负约束β⁺,β^负极,θ⁺,θ^负极 $⩾$ 0.大矩阵的维数为（2第页+ 2)×5第页但只有11个第页−1个非零元素。在这里一₀=(∞,0,0,…,0). 自β₁=θ₁，将其边界设置为±∞可以避免对|β₁|. 类似地e（电子）₀=e（电子）第一个组件设置为0。

SQOPT包要求用户编写一个计算X（X）^T型Xv公司对于第页-向量v（v）正在考虑中。对于边界的许多选择秒₁和秒₂，向量v（v）非常稀疏，因此X（X）^T型(Xv公司)可以有效计算。该算法也非常适合“热启动”：从给定的解决方案开始秒₁和秒₂，可以相对快速地找到这些边界附近值的解。

3.2. 搜索策略

对于中等规模的问题(第页≃1000和N个≃100），上述程序足够快，可以应用于秒₁-和秒₂-值。对于较大的问题，需要进行更严格的搜索。我们首先利用了这样一个事实，即使用最小角度回归（LAR）程序（Efron）可以有效地解决套索和融合问题的完整序列等.,2002). 融合问题通过第一次变换解决X（X）到Z轴=特大号⁻¹具有θ=L（左）β，应用LAR，然后转换回来。

对于给定的问题，只有边界的一些值(秒₁,秒₂)即解向量满足这两个条件 $Σ_{j个} | {\hat{β}}_{j个} | = 秒_{1}$ 和 $Σ_{j个} | {\hat{β}}_{j个} 负极 {\hat{β}}_{j个负极 1} | = 秒_{2}$ ⁠.图。5（a）显示了模拟数据示例的可实现值。

图3的模拟示例：（a）边界s1和s2的可达到值；（b）文本中描述的融合套索搜索过程示意图

图5

图的模拟示例。三：（a）可达到的界限值秒₁和秒₂; （b）文本中描述的融合套索搜索过程示意图

图。5（b）是搜索策略的示意图。使用上述LAR过程，我们获得了边界的解(秒₁(我)，∞），其中秒₁(我)边界是否给出了一个解我自由度。（我们在第节中讨论了融合套索配合的“自由度”6.）我们使用解的套索序列和交叉验证或测试集来估计最佳自由度 $\hat{我}$ ⁠。现在让我们

秒_{2 最大值} {秒_{1} (\hat{我})} = \sum_{j个} | {\hat{β}}_{j个} {秒_{1} (\hat{我})} 负极 {\hat{β}}_{j个 负极 1} {秒_{1} (\hat{我})} | .

这是界限的最大值秒₂它会影响解决方案。重点c（c）₂在图中。5（b）是 $[秒_{1} (\hat{我}), 秒_{2 最大值} {秒_{1} (\hat{我})}]$ ⁠。我们从开始c（c）₂并通过向（1，−2）方向移动来融合解决方案。同样，我们定义点c（c）₁是具有自由度的解 $\hat{我} / 2$ 和c（c）_三有自由度 ${\hat{我} + 最小值 (N个, 第页)} / 2$ ⁠我们从这些方面融合了解决方案。通过实验选择特定方向（1，−2）。我们通常对接近纯融合模型（右下边界）的解不感兴趣，此搜索策略试图（大致）覆盖(秒₁,秒₂). 该策略用于本文后面讨论的实际示例和模拟研究。

对于实际数据集，我们将此搜索策略应用于训练集，然后在验证集上评估预测误差。这可以通过一次培训完成——验证分割，或通过五倍或十倍的交叉验证。本文后面的示例中对此进行了说明。

表1显示了2.4 GHz Xeon Linux计算机上各种维度问题的一些典型计算时间。有关计算问题的进一步讨论，请参阅第节11.

表1

融合套索程序典型运行的时间

第页	N个	起点	时间（s）
100	20	冷	0.09
500	20	寒冷	1
1000	20	寒冷	2
1000	200	寒冷	30.4
2000	200	寒冷	120
2000	200	温暖	16.6

表1

融合套索程序典型运行的时间

第页	N个	起点	时间（s）
100	20	冷	0.09
500	20	寒冷	1
1000	20	寒冷	2
1000	200	寒冷	30.4
2000	200	寒冷	120
2000	200	温暖	16.6

4.渐近性质

在本节中，我们导出了融合套索的结果，其与套索（Knight和Fu，2000). 受惩罚的最小二乘准则为

\sum_{我 = 1}^{N个} {(年_{我} 负极 {x个}_{我}^{T型} β)}^{2} + λ_{N个}^{(1)} \sum_{j个 = 1}^{第页} | β_{j个} | + λ_{N个}^{(2)} \sum_{j个 = 2}^{第页} | β_{j个} 负极 β_{j个 负极 1} |

（6）

具有β=(β₁,β₂,…,β_第页)^T型和x个_我=(x个_我1,x个_我2,…x个_知识产权)^T型和拉格朗日乘数 $λ_{N个}^{(1)}$ 和 $λ_{N个}^{(2)}$ 是样本大小的函数N个.

为了简单起见，我们假设第页已修复为N个→∞. 这些不是特别现实的渐近条件：我们希望第页=第页_N个→∞ 作为N个→∞. 沿着这些路线的结果可能是可以实现的。然而，以下定理充分说明了融合套索的基本动力学。

定理1。如果 $λ_{N个}^{(我)} / \sqrt N个 \to λ_{0}^{(我)} ⩾ 0 (我 = 1, 2)$ (我=1,2）和

C类 = \underset{N个 \to \infty}{林} (\frac{1}{N个} \sum_{我 = 1}^{N个} {x个}_{我} {x个}_{我}^{T型})

那么是非奇异的

\sqrt N个 ({\hat{β}}_{N个} 负极 β) \underset{d日}{\to} 参数 最小值 (V（V）),

哪里

V（V） (u个) = 负极 2 {u个}^{T型} W公司 + {u个}^{T型} C类 u个 + λ_{0}^{(1)} \sum_{j个 = 1}^{第页} {{u个}_{j个} sgn公司 (β_{j个}) 我 (β_{j个} \neq 0) + | {u个}_{j个} | 我 (β_{j个} = 0)}

和W公司有一个𝒩(0,σ²C类)分配。

证明。定义V（V）_N个(u个)由

\begin{array}{l} {V（V）}_{N个} (u个) = \sum_{我 = 1}^{N个} {{(ε_{我} 负极 {u个}^{T型} {x个}_{我} / \sqrt{} N个)}^{2} 负极 ε_{我}^{2}} + λ_{N个}^{(1)} \sum_{j个 = 1}^{第页} (| β_{j个} + {u个}_{j个} / \sqrt{} N个 | 负极 | β_{j个} |) \\ + λ_{N个}^{(2)} \sum_{j个 = 2}^{第页} {| β_{j个} 负极 β_{j个 负极 1} + ({u个}_{j个} 负极 {u个}_{j个 负极 1}) / \sqrt{} N个 | 负极 | β_{j个} 负极 β_{j个 负极 1} |} \end{array}

具有u个=(u个₀,u个₁,…,u个_第页)^T型，并注意V（V）_N个在最小化 $\sqrt N个 ({\hat{β}}_{N个} 负极 β)$ >. 首先要注意的是

\sum_{我 = 1}^{N个} {{(ε_{我} 负极 {u个}^{T型} {x个}_{我} / \sqrt N个)}^{2} 负极 ε_{我}^{2}} \underset{d日}{\to} 负极 2 {u个}^{T型} W公司 + {u个}^{T型} C类 u个

具有有限维收敛性。我们也有

λ_{N个}^{(1)} \sum_{j个 = 1}^{第页} (| β_{j个} + {u个}_{j个} / \sqrt N个 | 负极 | β_{j个} |) \to λ_{0}^{(1)} \sum_{j个 = 1}^{第页} {{u个}_{j个} sgn公司 (β_{j个}) 我 (β_{j个} \neq 0) + | {u个}_{j个} | 我 (β_{j个} = 0)}

和

\begin{array}{l} λ_{N个}^{(2)} \sum_{j个 = 2}^{第页} {| β_{j个} 负极 β_{j个 负极 1} + ({u个}_{j个} 负极 {u个}_{j个 负极 1}) / \sqrt N个 | 负极 | β_{j个} 负极 β_{j个 负极 1} |} \to \\ λ_{0}^{(2)} \sum_{j个 = 2}^{第页} {({u个}_{j个} 负极 {u个}_{j个 负极 1}) sgn公司 (β_{j个} 负极 β_{j个 负极 1}) 我 (β_{j个} \neq β_{j个 负极 1})} + λ_{0}^{(2)} \sum_{j个 = 2}^{第页} {| {u个}_{j个} 负极 {u个}_{j个 负极 1} | 我 (β_{j个} = β_{j个 负极 1})} \end{array}

因此V（V）_N个(u个)→_d日V（V）(u个)（如上所述），有限维收敛保持平凡。自V（V）_N个是凸的，并且V（V）有一个独特的最小值，如下所示（Geyer，1996)那个

参数 最小值 ({V（V）}_{N个}) = \sqrt N个 ({\hat{β}}_{N个} 负极 β) \underset{d日}{\to} 参数 最小值 (V（V）)

□

作为一个简单的例子，假设β₁=β₂≠0。那么

(\sqrt N个 ({\hat{β}}_{1 N个} 负极 β_{1}), \sqrt N个 ({\hat{β}}_{2 N个} 负极 β_{2}))

概率集中在线路上u个₁=u个₂什么时候 $λ_{0}^{(2)} > 0$ ⁠.何时 $λ_{0}^{(1)} > 0$ ⁠，我们会看到一个拉索型效应对单变量极限分布的影响，如果β₁=β₂>0和概率向正方向移动，如果β₁=β₂< 0.

5.软阈值和小波

5.1. 软阈值估计

首先考虑具有正交特征的套索问题N个>第页，即在融合套索问题（3）中，我们取秒₂=∞，我们假设X（X）^T型X（X）=我然后，如果 ${\tilde{β}}_{j个}$ 是单变量最小二乘估计，套索解是软阈值估计：

{\hat{β}}_{j个} (γ_{1}) = sgn公司 ({\tilde{β}}_{j个}) \cdot (| {\tilde{β}}_{j个} | 负极 γ_{1}) +,

(7)

哪里γ₁满足 $Σ_{j个} | {\hat{β}}_{j个} (γ_{1}) | = 秒_{1}$ ⁠.

与此相对应的是，融合问题有一个特例，它也有一个明确的解决方案。我们接受秒₁=∞，并让θ=L（左）β和Z轴=特大号⁻¹。请注意L（左）⁻¹是1s的下三角矩阵，因此Z轴是x个_ij公司穿过j个。这给了一个套索问题(Z轴,年)解决方案是

{\hat{θ}}_{j个} (γ_{2}) = sgn公司 ({\tilde{θ}}_{j个}) \cdot (| {\tilde{θ}}_{j个} | 负极 γ_{2}) +,

(8)

前提是Z轴^T型Z轴=我，或同等X（X）^T型X（X）=L（左）^T型L（左）.在这里γ₂满足 $Σ_{j个} | {\hat{θ}}_{j个} (γ_{2}) | = 秒_{2}$ ⁠.矩阵L（左）^T型L（左）为三对角线，对角线上为2s，非对角线为−1s。

当然我们不能两者兼得X（X）^T型X（X）=我和X（X）^T型X（X）=L（左）^T型L（左）同时。但我们可以构建一个场景，使融合套索问题有一个明确的解决方案。我们接受X（X）=美国保险商实验室⁻¹具有U型^T型U型=我并假设完全最小二乘估计β'=(X（X）^T型X（X）)⁻¹X（X）^T型年非递减：0 $⩽$ β′₁ $⩽$ β′₂ $⩽$ ⁠... $⩽$ β′_第页。最后，我们设置秒₁=秒₂=秒然后，融合套索解软阈值完全最小二乘估计β'从右侧：

\hat{β} = (β_{1}^{'}, β_{2}^{'}, \dots β_{k个}^{'}, λ, 0, 0, \dots 0),

(9)

哪里 $Σ_{1}^{k个} β_{j个}^{'} + λ = 秒$ ⁠然而，这种设置在实践中似乎并不十分有用，因为其假设非常不现实。

5.2. 基础转换

本文问题的转换方法大致如下。我们建模β=W公司γ，其中的列W公司是合适的基础。例如，在我们的模拟示例中，我们可以使用Haar小波，然后我们可以编写X（X）β=X（X）(W公司γ)=(XW公司)γ。在运营方面，我们将功能转变为Z轴=XW公司和配合年到Z轴γ通过软阈值或套索 $\tilde{γ}$ ⁠。最后，我们映射回以获取 $\tilde{β} = W公司 \tilde{γ}$ ⁠注意，软阈值隐式假设Z轴-基础是正交：Z轴^T型Z轴=我.

此过程寻求βs在变换空间中。相反，套索和简单的软阈值估计（7）寻求的是βs在原始基础上。

融合套索更具野心：它使用两种基本表示法X（X）和Z轴=特大号⁻¹并寻求在两个空间中都稀疏的表示。它不假设正交性，因为这不能在两种表示中同时保持。这一雄心壮志的代价是增加了计算负担。

图。6显示了应用软阈值的结果（图。6（a））或套索（图。6（b）），然后转换回原始空间。对于软阈值，我们使用了与级别相关的阈值σ√{2对数(N个_j个)}，其中N个_j个是给定尺度下的小波系数数σ被选择来最小化测试误差（例如参见Donoho和Johnstone(1994)). 对于套索，我们选择了界限秒₁以最小化测试误差。由此得出的估计并不十分准确，尤其是套索的估计。这可能部分是由于小波基不是平移不变量。因此，如果非零系数沿特征轴不在2的幂附近，则小波基将难以表示它。

图3的模拟示例：（a）通过变换为Haar小波基、阈值化和反变换获得的真系数（黑色）和估计系数（红色）；（b）相同的程序，除了套索用于Haar系数（而不是软阈值）

图6

图的模拟示例。三：（a）真系数（黑色）和估计系数（红色），通过变换为Haar小波基、阈值化和反变换获得；（b）相同的程序，除了套索用于Haar系数（而不是软阈值）

6.融合套索配合的自由度

考虑融合套索配合中使用了多少“自由度”是有用的 $\hat{年} = X（X） \hat{β}$ 作为秒₁和秒₂变化多样。埃夫隆等. (2002)考虑使用Stein公式定义自由度(1981):

数据流 (\hat{年}) = \frac{1}{σ^{2}} \sum_{我 = 1}^{N个} 覆盖（cov） (年_{我}, {\hat{年}}_{我}),

(10)

哪里σ²是的方差年_我具有X（X）fixed和cov表示协方差X（X）固定的。对于标准多元线性回归第页<N个预测因素， $数据流 (\hat{年})$ 减少到第页现在，在正交设计的特殊情况下(X（X）^T型X（X）=我)，套索估计量只是软阈值估计量（7），Efron等. (2002)表明自由度等于非零系数的数量。他们还证明了在“正锥条件”下LAR和lasso估计的这一点，这意味着估计是单调的，与L（左）₁-绑定秒₁.正交规范情形下的证明很简单：它使用了Stein公式

\frac{1}{σ^{2}} \sum_{我 = 1}^{N个} 覆盖（cov） (年_{我}, 克_{我}) = E类 {\sum_{我} \frac{\partial 克 (年)}{\partial 年_{我}}},

(11)

哪里年=(年₁,年₂,…,年_N个)是具有平均值的多元正态向量μ和协方差我、和克(年)是一个估计量，一个与ℝ几乎可微的函数^N个至ℝ^N个.对于正交设计的套索，我们旋转基础，以便X（X）=我，因此从方程式(7)克(年)=sgn(年_我)(|年_我|−γ₁). 导数ψ克(年)/⏴======================================================================年_我等于1，如果我th分量为非零，否则为0。因此，自由度是非零系数的数量。

对于融合套索，自由度的自然估计为

数据流 (\hat{年}) = # {非零系数块 \hat{β}} .

(12)

换句话说，我们计算一个或多个连续非零且相等的序列 ${\hat{β}}_{j个}$ -值为1个自由度。等效地，我们可以定义

数据流 (\hat{年}) = 第页 负极 # {β_{j个} = 0} 负极 # {β_{j个} 负极 β_{j个 负极 1} = 0, β_{j个}, β_{j个 负极 1} \neq 0} .

(13)

很容易看出这两个定义是相同的。此外，当 $数据流 (\hat{年}) ⩾ 最小值 (N个, 第页)$ ⁠，因此min(N个,第页)是自由度的有效上限。我们没有证据 $(\hat{年})$ 一般来说，这是一个很好的估计，但它是根据场景（7）-（9）中的Stein结果（11）得出的。

图。7比较融合套索和套索的估计自由度和实际自由度。融合套索的近似值相当粗糙，但并不比套索差多少。我们仅将此定义用于描述性目的，以大致了解拟合模型的复杂性。

图7

模拟示例：（a）融合套索和（b）套索的实际和估计自由度（--，45°-线；––––-，最小二乘回归拟合）

6.1. 融合套索解的稀疏性

如第节所述2，套索在高维建模中具有稀疏解，即，如果第页>N个，套索解决方案最多有N个非零系数，在温和（“非冗余”）条件下。这个性质推广到任何带有套索惩罚的凸损失函数。它已被明确证明，所需的非冗余条件已在Rosset中详细说明等. (2004)，附录A。

融合的套索具有类似的稀疏特性。然而，稀疏性不适用于非零系数的数量，而适用于相同非零系数序列的数量。所以，如果我们考虑一下第7和图。8，套索的稀疏意味着图中最多可以有216个红点。8（b）。融合套索的稀疏性意味着我们最多可以有216个连续的黑色序列米/z（z）-具有相同系数的值。

图8

前列腺癌示例的结果：——，•，融合拉索非零系数；图解的 ,，套索非零系数

融合套索稀疏性结果的形式声明如下。

定理2。设置β₀=0.让 ${n个}_{序列号} (β) = Σ_{j个 = 1}^{第页} 1 {β_{j个} \neq β_{j个负极 1}}$ ⁠然后，在设计矩阵上的“非冗余”条件下X（X），融合套索问题（3）有一个唯一的解决方案 $\hat{β}$ 具有 ${n个}_{序列} (\hat{β}) ⩽ N个$ ⁠.

该证明与Rosset中套索的稀疏性证明非常相似等. (2004)，并基于检查约束问题解的最优性的Karush–Kuhn–Tucker条件（3）。上述非冗余条件可定性总结如下。

（a）
不N个设计矩阵的列X（X）线性相关。
（b）
都不是有限的N个+1线性方程N个变量（其系数取决于具体问题）有一个解决方案。

7.前列腺癌数据分析

如第节所述1前列腺癌数据集包括324名患者的48538个测量值：157名健康患者和167名癌症患者。平均剖面（质心）如图所示。1。根据最初的研究人员，我们忽略了米/z（z）-2000年以下的地点可能会出现化学制品。我们随机创建了大小分别为216和108名患者的训练和验证集。为了便于计算，我们将20个连续块中的数据平均化，得到总共2181个站点。（我们确实在全套站点上运行了套索，它产生的错误率与此处报告的套索错误率大致相同。）各种方法的结果如表所示2在这个两类设置中，“最近的收缩质心”方法（Tibshirani等。,2001)本质上等价于一元回归系数的软阈值。

表2

前列腺数据结果

方法	验证错误/108	自由度	站点数量	秒₁	秒₂
最近的收缩质心	30		227
拉索	16	60	40	83	164
融合	18	102	2171	16	32
熔接套索	16	103	218	113	103

表2

前列腺数据结果

方法	验证错误/108	自由度	站点数量	秒₁	秒₂
最近收缩的质心	30		227
拉索	16	60	40	83	164
融合	18	102	2171	16	32
熔接套索	16	103	218	113	103

亚当等. (2003)对于这个问题的四级版本，报告的错误率约为5%，使用峰值查找过程和决策树算法。然而，我们（至少还有一个我们知道的其他小组）很难复制他们的结果，即使使用他们提取的峰值。

图。8显示了两种方法的非零系数。我们看到，融合套索将非零权重放在更多位置，尤其是在较高位置分散权重米/z（z）-值。更仔细的分析将使用交叉验证来选择边界，然后报告这些边界的测试错误。我们对第节中的白血病数据进行了这样的分析9.1.

8.模拟研究

我们进行了一个小型的仿真研究，以比较套索和融合套索的性能。为了确保我们的特征集具有真实的蛋白质质谱相关结构，我们使用了前一节描述的数据集中的前1000个特征。我们还使用了100名患者的随机子集，以使特征与样本大小的比率接近真实水平。然后我们生成系数向量β通过选择1–10个非重叠米/z（z）-随机位置和长度非零系数相等的定义块在1到100之间一致。系数的值生成为N个（0,1）。最后，根据

\begin{matrix} 年 = X（X） β + Z轴, \\ 2.5 Z轴 ~ N个 (0, 1) . \end{matrix}

(14)

这种设置使得模型解释的测试方差约为50%。

对于每个数据集，我们找到了测试误差最小的套索解。然后我们使用了第节中概述的搜索策略三用于融合套索。表三总结了该模型的20个仿真结果。灵敏度和特异性是指每种方法检测到的真非零系数和真零系数的比例。所示为融合套索的最小测试误差解以及边界真值秒₁和秒₂.

表3

模拟研究结果†

方法	测试错误	敏感	特异性
拉索	265.194 (7.957)	0.055 (0.009)	0.985 (0.003)
带保险丝的套索	256.117 (7.450)	0.478 (0.082)	0.693（0.072）
融合套索（真秒₁,秒₂)	261.380 (8.724)	0.446 (0.045)	0.832 (0.018)

方法	测试错误	敏感	特异性
拉索	265.194 (7.957)	0.055 (0.009)	0.985 (0.003)
熔接套索	256.117 (7.450)	0.478 (0.082)	0.693 (0.072)
融合套索（真秒₁,秒₂)	261.380 (8.724)	0.446 (0.045)	0.832 (0.018)

†

括号中给出了标准错误。

表3

模拟研究结果†

方法	测试错误	敏感	特异性
拉索	265.194 (7.957)	0.055（0.009）	0.985 (0.003)
熔接套索	256.117 (7.450)	0.478 (0.082)	0.693 (0.072)
融合套索（真秒₁,秒₂)	261.380 (8.724)	0.446 (0.045)	0.832 (0.018)

方法	测试错误	敏感	特异性
拉索	265.194 (7.957)	0.055 (0.009)	0.985 (0.003)
带保险丝的套索	256.117 (7.450)	0.478 (0.082)	0.693（0.072）
融合套索（真秒₁,秒₂)	261.380 (8.724)	0.446 (0.045)	0.832 (0.018)

†

括号中给出了标准错误。

我们看到，融合套索略微改善了套索的测试误差，并检测到了很大比例的真实非零系数。在这个过程中，它具有较低的特异性。即使是真的秒₁-和秒₂-边界，融合套索检测到不到一半的真实非零系数。这表明了第页≫N个.

9.无序特征的应用

融合套索定义（3）假设特征x个_ij公司，因此相应的参数β_j个，有一个自然的顺序j个然而，在一些问题中，特征没有预先指定的顺序，例如微阵列实验中的基因。在这种情况下，至少有两种方法可以使用融合套索。首先，我们可以估计特征的顺序，例如使用多维缩放或层次聚类。后者通常用于创建微阵列数据的热图显示。

或者，我们注意到定义（3）不需要对特征进行完整排序，而只需要指定每个特征的最近邻居，即k个(j个)是最接近要素的要素索引j个例如，就最小欧几里得距离或最大相关性而言。然后我们可以使用带差分约束的融合套索

\sum_{j个} | β_{j个} 负极 β_{k个 (j个)} | ⩽ 秒_{2} .

从计算上看，这只是改变了第页用矩阵表示的线性约束L（左）在表达式（5）中。请注意，更复杂的方案，例如使用多个近邻，将增加线性约束的数量，可能会达到第页²。我们在下面的示例中说明了第一种方法。

9.1. 使用微阵列进行白血病分类

白血病数据在Golub介绍等. (1999). 共有7129个基因和38个样本：第一类27个（急性淋巴细胞白血病），第二类11个（急性骨髓源性白血病）。此外，还有一个34号试样。预测结果见表4.

表4

白血病微阵列示例的结果

方法	10倍交叉验证错误	测试错误	基因数量
（1）格鲁布等。(1999)（50个基因）	3/38	4/34	50
（2）最近的收缩质心（21个基因）	1/38	2/34	21
（3）拉索，37度自由度(秒₁=0.65,秒₂=1.32)	1/38	1/34	37
（4）熔合套索，38度自由度(秒₁=1.08,秒₂=0.71)	1/38	2/34	135
（5）融合套索，20度自由度(秒₁=1.35,秒₂=1.01)	1/38	4/34	737
（6）融合，1自由度	1/38	12/34	975

方法	10倍交叉验证错误	测试错误	基因数量
（1）格鲁布等。(1999)（50个基因）	3/38	4/34	50
（2）最近的收缩质心（21个基因）	1/38	2/34	21
（3）拉索，37自由度(秒₁=0.65,秒₂=1.32)	第1页，共38页	1/34	37
（4）熔合套索，38度自由度(秒₁=1.08,秒₂=0.71)	1/38	2/34	135
（5）融合套索，20度自由度(秒₁=1.35,秒₂=1.01)	1/38	4/34	737
（6）融合，1自由度	1/38	12/34	975

表4

白血病微阵列示例的结果

方法	10倍交叉验证错误	测试错误	基因数量
（1）格鲁布等。(1999)（50个基因）	3/38	4/34	50
（2）最近的收缩质心（21个基因）	1/38	2/34	21
（3）拉索，37度自由度(秒₁=0.65,秒₂=1.32)	1/38	1/34	37
（4）熔合套索，38度自由度(秒₁=1.08,秒₂=0.71)	第1页，共38页	2/34	135
（5）融合套索，20度自由度(秒₁=1.35，秒₂=1.01)	1/38	4/34	737
（6）融合，1自由度	1/38	12/34	975

方法	10倍交叉验证错误	测试错误	基因数量
（1）格鲁布等。(1999)（50个基因）	3/38	4/34	50
（2）最近的收缩质心（21个基因）	1/38	2/34	21
（3）拉索，37度自由度(秒₁=0.65,秒₂=1.32)	第1页，共38页	1/34	37
（4）熔合套索，38度自由度(秒₁=1.08,秒₂=0.71)	1/38	2/34	135
（5）融合套索，20度自由度(秒₁=1.35,秒₂=1.01)	1/38	4/34	737
（6）融合，1自由度	第1页，共38页	12/34	975

前两行基于所有7129个基因。Golub的程序等。(1999)类似于最近的收缩质心，但它使用硬阈值。对于套索和融合方法，我们首先根据总方差筛选出前1000个基因。然后我们对基因进行平均连锁层次聚类，为融合过程提供基因顺序。

通过使用交叉验证优化调谐参数，然后将这些值应用于测试集，对所有套索和融合模型进行拟合。纯融合估计方法（6）在测试误差中表现不佳：对于任何界限值，该误差从未低于3秒₂.

我们看到，在第（4）行中，融合套索解决方案会产生相同的错误率，使用的基因数量大约是原来的四倍。第（5）行中的进一步融合似乎会增加测试错误率。表5显示了套索解和融合套索解方法的估计系数示例（4）。我们看到，在许多情况下，融合过程将非零拉索系数的系数扩散到相邻基因上。

表5

白血病数据示例：套索和融合套索的非零系数样本，划定相邻区块†

基因	拉索	熔接套索	基因	拉索	熔接套索	基因	拉索	熔接套索
9	0	0.00203	421	−0.08874	−0.02506	765	0	0.00361
10	0	0.00495	422	0	−0.00110	766	0	0.00361
11	0	0.00495				767	0	0.00361
12	0	0.00495	475	−0.01734	0	768	0	0.00361
13	0	0.00495				769	0.00102	0.00361
14	0	0.00495	522	0	−0.00907	770	0	0.00361
15	0	0.00495	523	0	−0.00907	771	0	0.00361
			524	0	−0.00907	772	0	0.00361
22	0.01923	0.00745	525	0	−0.00907
23	0	0.00745	526	0	−0.00907	788	0.04317	0.03327
24	0	0.00745	527	0	−0.00907
25	0	0.00745	528	0	−0.00907	798	0.02476	0.01514
26	0	0.00745				799	0	0.01514
27	0.01157	0.00294	530	0.01062	0	800	0	0.01514
31	−0.00227	0	563	0	−0.02018	815	−0.00239	0
			564	0	−0.02018
39	−0.00992	0	565	0	−0.02018	835	0	−0.01996
			566	0	−0.02018	836	0	−0.01996
44	−0.00181	0	567	0	−0.02018	837	0	−0.01996
						838	0	−0.00408

基因	拉索	熔接套索	基因	拉索	带保险丝的套索	基因	拉索	熔接套索
9	0	0.00203	421	−0.08874	−0.02506	765	0	0.00361
10	0	0.00495	422	0	−0.00110	766	0	0.00361
11	0	0.00495				767	0	0.00361
12	0	0.00495	475	−0.01734	0	768	0	0.00361
13	0	0.00495				769	0.00102	0.00361
14	0	0.00495	522	0	−0.00907	770	0	0.00361
15	0	0.00495	523	0	−0.00907	771	0	0.00361
			524	0	−0.00907	772	0	0.00361
22	0.01923	0.00745	525	0	−0.00907
23	0	0.00745	526	0	−0.00907	788	0.04317	0.03327
24	0	0.00745	527	0	−0.00907
25	0	0.00745	528	0	−0.00907	798	0.02476	0.01514
26	0	0.00745				799	0	0.01514
27	0.01157	0.00294	530	0.01062	0	800	0	0.01514
31	−0.00227	0	563	0	−0.02018	815	−0.00239	0
			564	0	−0.02018
39	−0.00992	0	565	0	−0.02018	835	0	−0.01996
			566	0	−0.02018	836	0	−0.01996
44	−0.00181	0	567	0	−0.02018	837	0	−0.01996
						838	0	−0.00408

†

完整的表格显示为Tibshirani等. (2004).

表5

白血病数据示例：套索和融合套索的非零系数样本，划定相邻区块†

基因	拉索	熔接套索	基因	拉索	熔接套索	基因	拉索	熔接套索
9	0	0.00203	421	−0.08874	−0.02506	765	0	0.00361
10	0	0.00495	422	0	−0.00110	766	0	0.00361
11	0	0.00495				767	0	0.00361
12	0	0.00495	475	−0.01734	0	768	0	0.00361
13	0	0.00495				769	0.00102	0.00361
14	0	0.00495	522	0	−0.00907	770	0	0.00361
15	0	0.00495	523	0	−0.00907	771	0	0.00361
			524	0	−0.00907	772	0	0.00361
22	0.01923	0.00745	525	0	−0.00907
23	0	0.00745	526	0	−0.00907	788	0.04317	0.03327
24	0	0.00745	527	0	−0.00907
25	0	0.00745	528	0	−0.00907	798	0.02476	0.01514
26	0	0.00745				799	0	0.01514
27	0.01157	0.00294	530	0.01062	0	800	0	0.01514
31	−0.00227	0	563	0	−0.02018	815	−0.00239	0
			564	0	−0.02018
39	−0.00992	0	565	0	−0.02018	835	0	−0.01996
			566	0	−0.02018	836	0	−0.01996
44	−0.00181	0	567	0	−0.02018	837	0	−0.01996
						838	0	−0.00408

基因	拉索	熔接套索	基因	拉索	熔接套索	基因	拉索	熔接套索
9	0	0.00203	421	−0.08874	−0.02506	765	0	0.00361
10	0	0.00495	422	0	−0.00110	766	0	0.00361
11	0	0.00495				767	0	0.00361
12	0	0.00495	475	−0.01734	0	768	0	0.00361
13	0	0.00495				769	0.00102	0.00361
14	0	0.00495	522	0	−0.00907	770	0	0.00361
15	0	0.00495	523	0	−0.00907	771	0	0.00361
			524	0	−0.00907	772	0	0.00361
22	0.01923	0.00745	525	0	−0.00907
23	0	0.00745	526	0	−0.00907	788	0.04317	0.03327
24	0	0.00745	527	0	−0.00907
25	0	0.00745	528	0	−0.00907	798	0.02476	0.01514
26	0	0.00745				799	0	0.01514
27	0.01157	0.00294	530	0.01062	0	800	0	0.01514
31	−0.00227	0	563	0	−0.02018	815	−0.00239	0
			564	0	−0.02018
39	−0.00992	0	565	0	−0.02018	835	0	−0.01996
			566	0	−0.02018	836	0	−0.01996
44	−0.00181	0	567	0	−0.02018	837	0	−0.01996
						838	0	−0.00408

†

完整的表格显示为Tibshirani等. (2004).

10.铰链损失

对于两类问题，支持向量分类器（Boser）中使用的最大裕度方法等.,1992; Vapnik、，1996)是最小二乘法的一个有吸引力的替代方法。最大裕度法可以用“铰链”损失函数表示（参见示例Hastie等. (2001)，第11章）。我们最小化

J型 (β_{0}, β, ξ) = \sum_{我 = 1}^{N个} ξ_{我}

(15)

从属于

年_{我} (β_{0} + β^{T型} {x个}_{我}) ⩾ 1 负极 ξ_{我}, ξ_{我} ⩾ 0, 为所有人 我

原始支持向量分类器包括L（左）₂-约束 $Σ_{j个 = 1}^{第页} β_{j个}^{2} ⩽ 秒$ ⁠。最近，人们对L（左）₁-约束（lasso）支持向量分类器。朱等. (2003)开发了一种类LAR算法，用于解决边界所有值的问题秒.

我们可以通过施加约束来推广到融合的套索支持向量分类器

\begin{matrix} \sum_{j个 = 1}^{第页} | β_{j个} | ⩽ 秒_{1}, \\ \sum_{j个 = 2}^{第页} | β_{j个} 负极 β_{j个 负极 1} | ⩽ 秒_{2} . \end{matrix}

(16)

完整的约束集可以写成

(\begin{matrix} 1 \\ 负极 一_{0} \\ 0 \\ 0 \\ 0 \end{matrix}) ⩽ (\begin{matrix} 我 & 年 & 年^{T型} X（X） & 0 & 0 & 0 & 0 \\ 0 & 0 & L（左） & 0 & 0 & 负极 我 & 我 \\ 0 & 0 & 我 & 负极 我 & 我 & 0 & 0 \\ 0 & 0 & 0 & {e（电子）}^{T型} & {e（电子）}^{T型} & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & {e（电子）}^{T型} & {e（电子）}^{T型} \end{matrix}) (\begin{matrix} ξ \\ β_{0} \\ β \\ β^{+} \\ β^{负极} \\ θ^{+} \\ θ^{负极} \end{matrix}) ⩽ (\begin{matrix} \infty \\ 一_{0} \\ 0 \\ 秒_{1} \\ 秒_{2} \end{matrix}),

(17)

除了边界之外 $ξ_{我}, β_{j个}^{+}, β_{j个}^{负极}, θ_{j个}^{+}, θ_{j个}^{负极} ⩾ 0$ ⁠由于目标函数（15）是线性的，因此该优化是线性（而不是二次）规划问题。我们的实现再次使用SQOPT包，因为它处理线性和二次规划问题。

我们将融合的lasso支持向量分类器应用于微阵列白血病数据。使用秒₁=2和秒₂=4给出了一个具有90个非零系数和38个自由度的解。它在十倍交叉验证和测试集中都产生了一个错误分类，使其与表中的最佳分类器竞争4.表6比较融合套索系数（行）和融合套索支持向量系数（列）的符号。这项协议是实质性的，但远非十全十美。

表6

融合套索系数的符号（行）对融合套索支持向量系数的符号（列）

	−1	0	1
−1	12	28	0
0	17	822	26
1	0	60	35

支持向量公式的一个优点是它相当容易扩展到多类问题：参见Lee的示例等. (2002).

11.讨论

在特征具有自然顺序的环境中，融合套索似乎是一种很有前途的回归和分类方法。

使用融合套索的一个困难是计算速度。表中的计时结果1显示，当第页>2000年和N个>200，速度可能成为实际限制。如果进行五倍或十倍的交叉验证，情况尤其如此。热启动有帮助：从大值开始(秒₁,秒₂)，我们在恒定（短）时间内获得较小值的解。（最初我们使用增加的的值(秒₁,秒₂)因为每个解决方案都肯定是下一个值的可行起点。然而，随着(秒₁,秒₂)，SQOPT很快实现了可行性，并且往往以这种方式更高效。）

Efron的LAR算法等. (2002)有效解决套索问题的整个序列L（左）₁-绑定秒₁它通过利用解决方案轮廓是L（左）₁-界，并且有效系数集以可预测的方式变化。可以证明，当我们沿直线移动时，融合套索解是分段线性函数(λ₁,λ₂)平面图（见Rosset和Zhu(2003)). 这里(λ₁,λ₂)拉格朗日乘子与边界相对应吗秒₁和秒₂因此，有可能开发一种LAR型算法，用于沿这些直线快速解决融合套索问题。然而，这种算法比LAR复杂得多，因为活动约束集可以通过许多可能的方式进行更改。在LAR中，我们只能在给定的步骤中添加或删除变量。在融合套索中，我们可以添加或删除变量，或融合或消除一组变量。我们还没有成功地为这个过程开发出一个有效的算法，但这将是一个未来研究的主题。

融合套索也可能推广到更高维的排序。假设功能x个_j个,j个′排列在双向网格上，如图中所示。然后我们可以约束在任何方向上相距1个单位的系数，即形式约束

\begin{matrix} \sum | β_{j个, {j个}^{'}} | ⩽ 秒_{1}, \\ \sum_{| k个 负极 我 | = 1} | β_{j个, k个} 负极 β_{j个, 我} | + \sum_{| k个 负极 我 | = 1} | β_{k个, j个} 负极 β_{我, j个} | ⩽ 秒_{2} . \end{matrix}

(18)

这将带来有趣的计算挑战，因为约束的数量是按顺序排列的第页².

致谢

Tibshirani得到了国家科学基金会拨款DMS-9971405和国家卫生研究院合同N01-HV-28183的部分支持。桑德斯获得了国家科学基金会拨款CCR-0306662和海军研究办公室拨款N00014-02-1-0076的部分支持。菲利普·吉尔（Philip Gill）继续致力于二次规划求解器SQOPT的研究，我们对此表示感谢。

工具书类

1

亚当

,

B.升。

,

曲

,

年。

,

戴维斯

,

J·W·。

,

病房

,

医学博士。

,

克莱门茨

,

文学硕士。

,

卡泽尔

,

L.H.公司。

,

塞姆斯

,

O.J.公司。

,

舍尔哈默

,

P.F.公司。

,

雅水

,

年。

,

冯

,

Z.公司。

和

小赖特

,

G·L·W。

(

2003

)

血清蛋白指纹结合模式匹配算法区分前列腺癌、良性前列腺增生和健康平均值

.

癌症研究。

,

63

,

3609

–

3614

.

2

Boser公司

,

B。

,

盖恩

,

一、。

和

瓦普尼克

,

五、。

(

1992

)一种最优边缘分类器的训练算法。在

程序。计算学习理论II，费城

纽约：

施普林格

.

三

陈

,

S.S.公司。

,

多诺霍

,

D.升。

和

桑德斯

,

文学硕士。

(

2001

)

基追踪原子分解

.

SIAM版本。

,

43

,

129

–

159

.

4

多诺霍

,

D。

和

约翰斯通

,

一、。

(

1994

)

基于小波收缩的理想空间自适应

.

生物特征

,

81

,

425

–

455

.

5

埃夫隆

,

B。

,

哈斯蒂

,

T。

,

约翰斯通

,

一、。

和

提比什拉尼

,

R。

(

2002

)最小角度回归。

技术报告

.

斯坦福大学

斯坦福大学。

6

盖尔

,

C、。

(

1996

)

凸随机优化的渐近性

.

技术报告

.

明尼苏达大学

明尼阿波利斯。

7

腮

,

体育。

,

默里

,

西。

和

桑德斯

,

文学硕士。

(

1997

)SQOPT 5.3用户指南：一个用于大规模线性和二次编程的Fortran软件包。

技术报告NA 97-4

.

加利福尼亚大学

，圣地亚哥。

8

格鲁布

,

T。

,

斯隆尼姆

,

D。

,

塔马约

,

第页。

,

华德

,

C、。

,

加森贝克

,

M。

,

梅西洛夫

,

J。

,

Coller公司

,

H。

,

卢

,

M。

,

唐宁

,

J。

,

卡利朱里

,

M。

,

布隆菲尔德

,

C、。

和

着陆器

,

E.公司。

(

1999

)

癌症的分子分类：通过基因表达监测进行分类发现和分类预测

.

科学类

,

286

,

531

–

536

.

9

哈斯蒂

,

T。

,

提比什拉尼

,

R。

和

弗里德曼

,

J。

(

2001

)

统计学习的要素；数据挖掘、推理和预测

纽约：

施普林格

.

10

霍尔

,

答：E。

和

肯纳德

,

R。

(

1970

)

岭回归：非正交问题的有偏估计

.

技术指标

,

12

,

55

–

67

.

11

奈特

,

英国。

和

傅

,

西。

(

2000

)

lasso型估计的渐近性

.

安。统计师。

,

28

,

1356

–

1378

.

12

土地

,

美国。

和

弗里德曼

,

J。

(

1996

)变量融合：一种新的自适应信号回归方法。

技术报告

.

统计部

斯坦福大学。

13

李

,

年。

,

林

,

年。

和

瓦赫巴

,

G.公司。

(

2002

)多类别支持向量机、理论和在微阵列数据和卫星辐射数据分类中的应用。

技术报告

.

威斯康星大学

麦迪逊。

14

彼得里康

,

E.F.公司。

,

阿尔德卡尼

,

上午。

,

点击

,

学士。

,

莱文

,

P.J.公司。

,

福萨罗

,

五、。

,

斯坦伯格

,

S.M.公司。

,

米尔斯

,

G.B.公司。

,

西蒙

,

C、。

,

菲什曼

,

D.A.博士。

,

科恩

,

E.公司。

和

廖塔

,

L.A.公司。

(

2002

)

血清蛋白质组模式在卵巢癌鉴定中的应用

.

柳叶刀

,

359

,

572

–

577

.

15

罗塞

,

美国。

和

朱

,

J。

(

2003

)

基于分段线性正则化系数路径的适应性、有效性和鲁棒性回归和分类方法

.

斯坦福大学

斯坦福大学。

16

罗塞

,

美国。

,

朱

,

J。

和

哈斯蒂

,

T。

(

2004

)

作为最大边缘分类器的正则化路径进行提升

.

J.马赫。学习。物件。

,

5

,

941

–

973

.

17

斯坦因

,

C、。

(

1981

)

多元正态分布均值的估计

.

安。统计师。

,

9

,

1131

–

1151

.

18

提比什拉尼

,

R。

(

1996

)

通过套索回归收缩和选择

.

J.R.统计。Soc公司。

B、，

58

,

267

–

288

.

19

提比什拉尼

,

R。

,

哈斯蒂

,

T。

,

多复变函数

,

B。

和

Chu公司

,

G.公司。

(

2001

)

通过基因表达的收缩质心诊断多种癌症类型

.

程序。国家。阿卡德。科学。美国

,

99

,

6567

–

6572

.