总结

在高维数据分析中,追求稀疏性和/或低秩的正则化方法最近受到了广泛关注。为了提供适当的收缩量,通常使用网格搜索和模型比较准则来找到最佳正则化参数。然而,我们表明,固定所有褶皱的参数可能会导致不一致问题,更适合交叉验证投影-选择模式以获得最佳系数估计。我们在联合稀疏模型和秩亏模型中的样本内误差研究导致了一类新的信息准则,具有四种无标度形式,以绕过噪声水平的估计。通过使用恒等式,我们提出了一种新的无标度校准,以帮助交叉验证以非渐进地获得最小最大的最佳错误率。实验证明了所提方法的有效性。

1背景

现代统计技术严重依赖收缩率估计,因此参数调整成为一项重要任务。这项工作假设一个多元回归设置,Y(Y)=XB公司*+E类适用于机器学习、经济学和遗传学研究中的各种现实应用(Stock和Watson,2002; 哈斯蒂。,2009; Vounou公司。,2012). 在这里,Y(Y)R(右)n个×表示响应矩阵,X(X)R(右)n个×第页设计矩阵是否包含第页预测因子或特征和噪声E类假设为高斯(或亚高斯)。这个j个第行,共行B*包含与j个th预测值,以及k个第列,共列B*对应于与k个第个响应Y(Y)因此,当某些功能与Y(Y),B*具有行稀疏性。在单一响应的情况下,问题变成了标准变量选择。但当> 1. 假设第一个J型*中的行B*非零,即。B*=(β1*βJ型**00)T型.未知数,×J型*,仍然可能很大,并超过观测的总数。在矩阵估计中,添加低秩约束是常见且有效的(Candès和Plan,2011; 罗德和茨巴科夫,2011). 具体来说,进一步假设B*有等级第页*<J型*,这意味着B*=C类1*(C类2*)T型对一些人来说C类1*R(右)第页×第页*C类2*R(右)×第页*然后,可以将模型重写为Y(Y)=(X(X)C类1*)(C类2*)T型+E类,其中X(X)C类1*由以下部分组成第页*因素是以下因素的线性组合J型*要解释的相关预测因素全部的响应变量。这是稀疏主成分分析的扩展,其中X(X)是单位矩阵(Zou。,2006; 沈和黄,2008; 维滕。,2009; 约翰斯通和卢,2009; 妈妈,2013). 关于联合秩亏回归和稀疏回归的更多细节,我们参考Bunea. (2012)、陈和黄(2012),陈. (2012)和她(2017)。

虽然联合正则化可以保证有效的降维,但在实际数据中自适应控制收缩量可能是一个挑战。λ表示要调整的正则化参数。在文献中,经常使用网格搜索,它对λ因此,问题归结为设计适当的模型比较准则。

有两大类比较标准:信息标准,对训练错误的模型复杂性附加各种惩罚,以及基于数据重采样的交叉验证。这些标准提供了与数据相关(或自适应)的参数,与假设非相干设计得出的一些理论选择相反。

用于普通变量选择(=1),信息标准的一些示例是Akaike信息标准(AIC),1974)贝叶斯信息准则(BIC)(Schwarz,1978),风险通胀标准(Foster和George,1994)以及扩展的贝叶斯信息准则EBIC(Chen和Chen,2008). 我们指的是邵(1997)和Yang(2005)对于经典体制下的渐近研究n个→ ∞ 第页固定的。然而,在实际的数据分析中,对于使用哪种标准似乎没有明确的结论,有些结果甚至似乎相互矛盾。关于排名选择的理论工作更少第页n个(安德森,1999; 布内亚。,2011)更不用说联合变量选择和秩缩减了。许多从业者没有试图在特定的环境中找出适当的信息标准惩罚,而是倾向于通用K(K)-折叠交叉验证(Geisser,1975). 这要求我们将数据集随机拆分为K(K)大小大致相等的子集,然后适合套索模型(Tibshirani,1996)任何给定值λ在没有k个th子集(1⩽k个K(K)),并评估遗漏子集上的预测误差。我们指的是阿洛和塞利斯(2010)用于交叉验证的现代调查。人们普遍认为,汇总的交叉验证误差可以很好地反映模型的拟合优度。选择K(K)通常是随意的,但可能会产生重大影响。

本文的主要贡献有三方面。首先,我们认为K(K)传统交叉验证中的培训可能与不一致的模型,特别是在使用非凸惩罚时,我们引入了基于选择-投影模式的结构交叉验证(SCV)。其次,我们开发了一类新的预测信息准则(PIC),它可以在没有任何设计不相干或信号强度条件的情况下实现最小最大错误率。第三,我们证明K(K)-折叠交叉验证是在追求稀疏性的情况下,速率是最优的,我们提出了一种新的交叉验证误差的无标度校准,以匹配最优速率。实验表明,该SCV具有良好的性能。

这项工作的大部分将假定该模型同时具有行稀疏性和秩亏性。例如,在揭示添加剂自由度和通货膨胀之间的关系,这在单反应回归中可能很难察觉。但我们的所有结果和讨论都适用于纯变量选择和低阶建模。

将使用以下符号和符号。鉴于BR(右)第页×,我们将使用第页(B)表示…的等级B,J型(B)={1j个第页:B[j个,]20}表示的行支持B、和J型(B)=|J型(B)|。我们使用B[,J型]表示的子矩阵B行和列的索引由J型分别和缩写B[1:第页,J型]B[,J型].让O(运行)×n个={一个R(右)×n个:一个T型一个=}表示一类正交矩阵。符号““意味着不等式支持乘法常数(类似于”“≲”“)。我们使用|一个|F类表示的Frobenius范数一个最后,P(P)一个是列空间上的正交投影矩阵一个,即。P(P)一个=一个(一个T型一个)一个T型其中''表示摩尔-彭罗斯逆;当没有歧义时,我们也使用P(P)一个表示的列空间一个.

2结构交叉验证

在使用交叉验证进行参数调整时,通常λ固定以给定的值跨越所有褶皱。最近的一些理论研究部分支持这一观点。例如,考虑一下最小化的套索X(X)β22+λβ1具有X(X)R(右)n个×第页,R(右)n个.在设计矩阵上的一些非相干条件下,λ具有通用费率选择O(运行)[σ√{n个日志(第页)}]; 例如,参见Bickel. (2009). 该速率仅依赖于问题的维数,使套索以较高的概率达到接近最优的预测错误率。对于低秩矩阵估计中的奇异值阈值存在类似的结论;例如,参见Candès and Plan(2011)和布尼亚. (2011). 只要不同训练中的设计具有相同的大小,这些通用速率结果可能有助于在交叉验证中固定正则化参数。

然而,在实际数据分析中,速率的选择以及以高概率获得的误差界过于粗糙和限制。此外,设计矩阵需要满足,例如,限制特征值条件(Bickel。,2009),受限等距属性(Candès,2008)稀疏Riesz条件(Zhang和Huang,2008)或比较条件(她,2016),所有这些都对Gram矩阵提出了严格的要求X(X)T型X(X)在实践中容易被违反。目前还没有一种理论能够足够精细地考虑到数据的所有特征,从而得出精确的公式λ从拉格朗日的角度来看,这个问题可能更容易理解。事实上λ套索中是约束问题的拉格朗日乘子最小值βX(X)β22从属于β1c(c)。与约束参数相比c(c)直接定义于β,λ=λ(X(X),,c(c)),作为的双重参数c(c),取决于X(X)此外,这种数据依赖性不仅限于问题的维度。因此,在不同的数据集上(与相同的β),可能必须更改惩罚参数以保持相同的约束值。因此λ在交叉验证中保持不变K(K)拟合模型可能不一致,基于总交叉验证误差的判断可能是虚假的。图。1是该问题的说明,其中对于给定的值λ经过训练的模型的基数随着褶皱的不同而变化(例如,在λ=1.2非零的数量从9到16不等)。这个问题最早是在她(2012)和她. (2013)。

图1

交叉验证中的训练不一致λ(非零系数估计值的数量根据λ每次训练中(由套索计算);每个垂直条显示给定的基数范围λ断裂的曲线连接了中间带;在理想情况下K(K)拟合是关于相同的候选模型,图中的垂直变化将消失(我们将看到类似于折线的解决方案路径):图解的,褶皱1;图解的,褶皱2;图解的,褶皱3;图解的,褶皱4;图解的,折叠5

如果我们要交叉验证呢c(c)? 这种约束形式正是Tibshirani(1996)用于定义拉索准则并调用交叉验证。但该思想对计算带来了一些限制,尤其是在使用非凸正则化时。解决一个约束问题通常并不容易;例如,将平滑剪裁的绝对偏差惩罚更改为约束形式会导致更困难的问题(Fan和Li,2001). 此外,众所周知,与非凸惩罚或约束相关联的解路径是不连续的,算法很容易陷入局部极小值。这些问题只会加剧培训不一致的问题。

有一个简单的想法来解决这个问题。我们的目标应该是获得最佳系数矩阵估计,而不是找到最佳正则化参数。因此,我们可以交叉验证因子载荷而不是正则化参数,以在K(K)培训和验证。下面我们描述如何在给定任意非零估计的联合行稀疏和秩亏设置中提取选择-投影模式B,其中第页=第页(B),J型=J型(B)J型=J型(B)。

  • (a)

    S公司(B)=[,J型],由索引的列构成的子矩阵J型在一个第页×第页单位矩阵。

  • (b)

    如果第页<J型,查找单位(B)O(运行)J型×第页跨越的列空间B[J型,](可通过奇异值分解或R(右)分解)。否则,设置单位(B) =,大小的单位矩阵J型×J型.

  • (c)

    这个结构型式由正交矩阵给出S公司(B)单位(B)。

根据程序,当B具有行稀疏性,非零行的索引集,J型,确定稀疏性模式。如果B[J型,]有进一步的等级不足,其范围提供了投影模式。这可以通过书写看到XB公司作为
X(X)B=X(X)[,J型]B[J型,]=X(X)S公司(B){单位(B)单位(B)T型B[J型,]}={X(X)S公司(B)单位(B)}{单位(B)T型S公司(B)T型B}.
通过构造,所有结构模式S公司(B)单位(B)是正交的。
在我们的联合稀疏模型中,XS公司(B)单位(B)是一个新的设计矩阵,只有第页构成因子J型原始预测因子。显式地提取因子消除了正则化估计中的估计偏差。鉴于J型第页,让Bub公司表示求解的无偏估计
最小值BY(Y)X(X)BF类2从属于第页(B)第页,B[J型c(c),]=0.
(2.1)
假设Bub公司0然后让SU公司是相关的结构模式Bub公司那么就不难证明Bub公司总是可以分解为SU公司·C类,使用C类回归的普通最小二乘估计Y(Y)XSU公司.

然后,对与每个估算相关的结构模式进行交叉验证的程序如下,这称为SCV公司.

  • (a)

    拆分的行索引(Y(Y),X(X))到K(K)子集。表示k个th(1≤k个K(K))数据的(Y(Y)k个,X(X)k个),其余由(Y(Y)k个,X(X)k个)。

  • (b)

    对于每个结构模式SU公司,计算C类^k个,这是回归的OLS估计值Y(Y)k个X(X)k个SU公司.让B^k个=S公司单位C类^k个.评估的预测误差B^k个上的(Y(Y)k个,X(X)k个). 对所有人重复此过程k个, 1 ⩽k个K(K).

  • (c)

    总结每个候选模型的总验证错误。

显然K(K)SCV中的模型是可比较的,因为模式只作用于X(X)并在(重采样)行中保持一致。拟合步骤是成本效益导向的,每个训练只适用于限制在选定和/或预测尺寸的低维OLS模型。鉴于问题(2.1),这相当于稀疏低秩估计和偏差校准。相比之下,普通K(K)-fold交叉验证运行了一个更复杂的学习算法K(K)时间。在结构交叉验证中,学习算法只对总体数据调用一次,以生成候选模式。

值得一提的是,SCV适用于任何导致稀疏性的惩罚,包括那些非凸的惩罚。它还适用于单变量选择或秩选择,并可以扩展到非高斯模型,如广义线性模型;看,她(2012)。

3采样内最佳复杂度惩罚

另一个问题是如果K(K)-折叠SCV是速率最优的,或者如果它对过于复杂的模型应用了足够大的惩罚。固定不足第页n个→ ∞, 得到了一些渐近结论(Shao,1997; 杨,2005),但很难确定其大小n个应该是将结果应用于实践。注意到该问题类似于在信息标准中选择适当的复杂性惩罚,本节研究了给定模型的样本内误差(哈斯蒂。,2009). 样本内误差是以设计矩阵为条件的预测误差的一种形式(Hastie。,2009). 我们的目标是找到一个非渐近的实现预测中最佳错误率的信息准则没有设置任何信噪比或设计不相干限制,或要求真实模型在候选模型中。预测学习原理允许数据通知最佳简约模型。

假设Y(Y)=XB公司*+E类具有E类[E类E类T型]=σ2.给定任意结构模式SU公司具有第页¯=第页(S公司单位),相关的限制性估计为B^=S公司单位(X(X)SU公司T型X(X)SU公司)1X(X)SU公司T型Y(Y),我们写的地方XSU公司作为X(X)SU公司为了简单起见。独立副本的样本内测试错误Y(Y)属于Y(Y)可以计算如下:
E类[Y(Y)X(X)B^F类2]=n个σ2+E类[X(X)B^X(X)B*F类2]=n个σ2+E类[P(P)X(X)SU公司Y(Y)P(P)X(X)SU公司X(X)B*F类2]]+E类[(P(P)X(X)SU公司)X(X)B*F类2]=E类[(n个+第页¯)σ2]+E类[(P(P)X(X)SU公司)X(X)B*F类2]=E类[Y(Y)X(X)B^F类2+2σ2第页¯].
(3.1)
似乎标准
Y(Y)X(X)B^F类2+2σ2第页¯
(3.2)
可用于模型比较。什么时候?= 1,第页¯=J型,表达式(3.2)是AIC(但不是当> 1). 然而,上述推导仅显示了标准(3.2)对于鉴于模型。虽然我们正在搜索第页-所有可能模型的维空间,模型复杂性惩罚2σ2第页¯不涉及第页事实上,在稀疏情况下,最小化表达式(3.2)不会导致预测误差最小的估计器。
为了激励正确的复杂度惩罚,我们研究了一类同时具有行稀疏性和低秩的模型的最小最大错误率。鉴于J型第页,定义信号类
S公司(J型,第页)={BR(右)第页×:J型(B)J型,第页(B)第页}.
(3.3)
类(3.3)中的任何模型在其秩和行支持方面都是联合节约型的。(·)是任意非递减损失函数(0) = 0,≢ 0. =第页(X(X)). 定义
P(P)o(o)(B)=[J型(B)+第页(B)]第页(B)+J型(B)日志{e(电子)第页/J型(B)}.
(3.4)
我们还写P(P)o(o)(J型,第页)因为P(P)o(o)取决于B通过J型(B)和第页(B)。

定理1

Y(Y)=XB公司*+E类哪里E类= [e(电子)伊克]带有e(电子)伊克IID公司N个(0,σ2)、和B*S公司(J型,第页)对一些人来说J型第页满足1⩽J型第页/2的情况下,第页⩾2,以及第页(J型+第页)16,1⩽第页⩽最小值{(J型+)/2, 2J型}. 假设以下限制条件编号条件:

  • (a)

    什么时候J型,有κ,κ>0,这样κ̲BF类2X(X)BF类2κ¯BF类2对于任何B:J型(B) ⩽J型,第页(B) ⩽第页κ/κ为正常数;

  • (b)

    什么时候J型>,σ最小值2(X(X))/σ最大2(X(X))是一个正常数,其中σ最小值(X(X))和σ最大(X(X))是的最小和最大非零奇异值X(X)分别是。

然后是正常数c(c)c(c),取决于(·)仅当J型,
inf公司B^啜饮B*S公司(J型,第页)E类X(X)B*X(X)B^F类2c(c)σ2P(P)o(o)(J型,第页)c(c)>0.
(3.5)
以及,何时J型>,inf公司B^啜饮B*S公司(J型,第页)E类([X(X)B*X(X)B^F类2/{c(c)σ2(+第页)第页}])c(c)>0.

注意,当J型>并允许第页大于n个.设置(t吨) =t吨,定理1表明风险的最小最大最优率E类X(X)B*X(X)B^F类2σ2P(P)o(o)(J型,第页). 此外,使用(t吨) =1t吨⩾ 1,对于任何估计器B^,有一个B*S公司(J型,第页)使得X(X)B*X(X)B^F类2σ2P(P)o(o)(J型,第页)具有正概率。极小极大下限表明P(P)o(o)是一种理想的模型复杂性惩罚,它为模型比较提供了一种新的信息准则。

定理2
假设Y(Y)=XB公司*+E类其中vec(E类)为亚高斯平均值0和刻度以σ对于(可能是随机的)非零矩阵的任何集合B1,B2,…,通过选择最佳矩阵
B^=参数最小值B12Y(Y)X(X)BF类2+一个σ2P(P)o(o)(B),
使用常量一个适当大。然后B^满足
E类[X(X)B^X(X)B*F类2]inf公司E类[X(X)BX(X)B*F类2+σ2P(P)o(o)(B)].
(3.6)

我们将此新信息标准称为照片条件(3.6)不要求B(⩾1)涵盖真实模型。但是,当B*在候选矩阵中或有一些B接近B*,风险B^上边界为σ2P(P)o(o)(B*)最多为乘法常数。什么时候?=1,PIC中的复杂性惩罚为σ2J型日志(电动自行车/J型)与风险通货膨胀标准中的利率相似(但比)(Foster和George,1994). 然而,我们并不认为n个第页必须像推导风险通货膨胀标准时那样大。事实上,PIC本质上是非渐近的,不需要很大的n个假设。此外,确实如此需要文献中通常假设的任何非相干条件。根据不等式(3.6)右侧的偏差-方差权衡,设置B=B*无噪声真值可能无法产生最准确和最简约的模型,尤其是当噪声水平较大时。这在小波研究中是众所周知的(Donoho和Johnstone,1994). 当信号适当大时,最小化PIC也会恢复B*在某些正则性条件下具有高概率;参见在线附录.

在方程式中(3.4),{J型(B)+第页(B)}第页(B)对应于模型的自由参数数量或自由度DF,通常小于,而J型(B)日志{电动自行车/J型(B)}表征由于在第页预测因素。然后可以将模型复杂性惩罚写为一个1σ2DF公司+一个2σ2{{IF}},其中一个1一个2是常量。加法形式与乘法形式相反c(c)(n个,第页) ×σ2文献中广泛使用的DF,例如。c(c)(n个,第页)=对数(第页)在BIC中。

未知噪声等级仍然是监督学习中的一个问题,因为第页设置估计σ可能与估计平均值一样具有挑战性。以下定理是She中定理3的推广(2017),提出了四种无标度形式的PIC旁路模型稀疏假设下的尺度估计。

定理3
Y(Y)=XB公司*+E类哪里E类= [e(电子)伊克]带有e(电子)伊克IID公司N个(0,σ2)假设真正的模型在以下意义上是节俭的P(P)o(o)(B*) </一个0对于一些常量一个0>0.让δ(B) =AP公司o(o)(B)/()对于一些常量一个,一个<一个0等等δ(B*) < 1. 考虑以下标准:
Y(Y)X(X)BF类2/{1δ(B)},
(3.7)
 
Y(Y)X(X)BF类2/{1δ(B)}2,
(3.8)
 
日志(Y(Y)X(X)BF类2)+δ(B),
(3.9)
 
Y(Y)X(X)BF类2+δ(B)Y(Y)X(X)BF类2.
(3.10)
然后,对于足够大的值一个0一个,任何B^使表达式(3.7)、(3.8)、δ(B)<1满足X(X)B^X(X)B*F类2σ2P(P)o(o)(B*)概率至少为1−内容提供商c(c)C类经验(−c(c))对于某些常数C类,C类,c(c),c(c)>0.

我们将表达式(3.7)、(3.8)、、(3.9)和(3.10)分别称为PIC的分数形式、广义交叉验证形式、对数形式和插件形式。去掉通货膨胀项后,表达式(3.8)与广义交叉验证(Wahba,1990); 当应用未知的AIC或BIC时,通常会看到日志形式σ2; 表达式(3.10)中的惩罚可以写成一个σ^2P(P)o(o)(B)具有σ^2=Y(Y)X(X)BF类2/(n个)类似于Mallows的C类第页(马尔洛,1973). 稀疏性假设和约束不能被放弃,这反过来又排除了过复杂模型。

与大多数非渐近分析一样,我们显示了最佳速率,但没有显示最佳数值常数。绝对常数可以通过蒙特卡罗实验确定,例如,在分数形式中,我们建议使用Y(Y)X(X)BF类2/{1(2DF公司+1.8国际单项体育联合会)/(n个)}.

4交叉验证的速率校准

本节研究样本外误差交叉验证方法试图估计(Hastie. (2009),第7章)。事实证明,样本内误差和样本外误差之间存在联系,可以用来指导交叉验证。

为了定义样本外误差,我们假设设计中的行观测值是独立且同分布的(IID),并且与噪声分量无关。具体来说,假设Y(Y)=XB公司*+E类,其中E类= [e(电子)伊克]满足E类[E类E类T型]=σ2,X(X)=(x个~1x个~n个)T型独立于E类并具有带有的IID行Σ(正定)作为协方差矩阵B*表示为S公司*单位*.让SU公司是一个给定的候选结构模式第页¯=第页{S公司(B)单位(B)}.回忆培训错误和SCV错误
Trn错误Y(Y)X(X)B^F类2,CV-Err公司k个=1K(K)Y(Y)k个X(X)k个B^k个F类2,
哪里B^B^k个是与给定结构模式相关的受限OLS估计值,根据总体数据和不含k个第个子集。具体来说,B^=SU公司(X(X)SU公司T型X(X)SU公司)1X(X)SU公司T型Y(Y)B^k个=SU公司{(X(X)SU公司k个)T型X(X)SU公司k个}1(X(X)SU公司k个)T型Y(Y)k个具有X(X)SU公司=XSU公司X(X)SU公司k个=X(X)k个SU公司,其中假设所有受限OLS问题都是非退化的。假设n个=丹麦对于某个整数d日(等等d日=n个/K(K)). 以下定理给出了交叉验证误差的恒等式。

定理4
给定任何结构模式SU公司具有第页¯=第页(SU公司),以下标识保持不变:
E类[CV-Err公司]=E类[事务-错误]++单位,
(4.1)
哪里
=第页¯σ21+n个第页¯E类[信托收据{(Z轴n个d日T型Z轴n个d日)1}],
(4.2)
单位=E类[X(X)SU公司(B¯SU公司,S公司*单位*E类[BSU公司,S公司*单位*])F类2]+E类[ΣSU公司1/2(BSU公司,S公司*单位*E类[BSU公司,S公司*单位*])F类2].
(4.3)

在这里,Z轴n个d日R(右)(n个d日)×第页¯是由(任意)组成的子矩阵n个d日行,共行Z轴=X(X)SU公司(SU公司)T型Σ−1/2SU公司,ΣSU公司=(SU公司)T型(n个Σ)S公司单位,BSU公司,S公司*单位*{(X(X)SU公司k个)T型X(X)SU公司k个}1(X(X)SU公司k个)T型(X(X)k个P(P)o(o)B*)用sayk个= 1,B¯SU公司,S公司*单位*=(X(X)SU公司T型X(X)SU公司)1X(X)SU公司T型(X(X)P(P)o(o)B*)、和P(P)o(o)是正交投影到P(P)S公司*单位*\(P(P)S公司*单位*P(P)S公司单位),即的正交补码P(P)S公司*单位*P(P)S公司单位在子空间中P(P)S公司*单位*.

根据方程式(4.3),单位总是非负的。在样本量趋于∞且第页是固定的,BSU公司,S公司*单位*,以及B¯SU公司,S公司*单位*,将接近E类[BSU公司,S公司*单位*]因为大数定律。然而,在有限的样本中,单位模型拟合不足会带来额外成本,这可能是某些信息标准的优势P(P)o(o),单位满足以下条件的过拟合模型为零B*P(P)SU公司,因此不适用于“大型”模型。

术语惩罚模式的等级并且与模型的自由度相关。定义基于Z轴,这只是XSU公司去相关。因为Z轴各向同性(即每行向量的协方差为),不难显示利用随机矩阵理论。我们在假设X(X)是IIDN个(0,Σ)(此类设计广泛用于仿真研究)。

推论1
在定理4的设置和设计的高斯假设下,
E类[CV-Err公司]=E类事务-错误+{2(第页¯+1)/n个}K(K)1{1(第页¯+1)/n个}K(K)1第页¯σ2+单位,
(4.4)
哪里单位如定理4所定义。特别是,对于普通变量选择=1,任何给定支持的标识J型读取
E类[CV-Err公司]=E类事务-错误+{2(J型+1)/n个}K(K)1{1(J型+1)/n个}K(K)1J型σ2+E类[X(X)J型(β¯J型,J型*E类[βJ型,J型*])22]+E类[ΣJ型1/2(βJ型,J型*E类[βJ型,J型*])22],
哪里J型=|J型|,ΣJ型=n个Σ[J型,J型],X(X)J型=X(X)[J型,],β¯J型,J型*=(X(X)J型T型X(X)J型)1X(X)J型T型X(X)J型*J型c(c)βJ型*J型c(c)*βJ型,J型*={(X(X)J型k个)T型X(X)J型k个}1(X(X)J型k个)T型X(X)J型*J型c(c)k个βJ型*J型c(c)*.

在方程式中(4.4),是中的递减函数K(K).何时K(K)=n个,本质上是2第页¯σ2; 即使在K(K)小到2,{+4θ/(12θ)}第页¯σ2在下面(第页¯+1)/n个θ等等,对于n个过拟合模型的CV Err不大于
变压器-错误+一个第页¯σ2.
(4.5)
这意味着K(K)-折叠交叉验证与样本内误差公式(3.1)中的验证没有显著差异,但这可能是自然的。
返回联合稀疏模型(其中第页¯=第页{S公司(B)单位(B)}=第页(B)=第页),将身份与PIC相结合可以选择K(K)要匹配表达式(3.4)中的最小最大速率:
K(K)=一个P(P)o(o)(J型,第页)第页一个P(P)o(o)(J型,第页)2第页{一个P(P)o(o)(J型,第页)第页}(第页+1)/n个.
大型第页但存在问题,该值低于2且无法实现;因此,K(K)-折叠交叉验证(K(K)⩾2)不能足够严重地惩罚模型的复杂性。

一个可能的修复方法是使用删除d日交叉验证(Shao,1993)这将删除d日每次培训中的观察结果d日可以大于n个/2.对于这种形式的交叉验证,以及为了匹配PIC率和训练样本大小,与定理4中的相似性成立n个d日应该是正常的mnr公司/{AP公司o(o)(J型,第页) −先生} +第页+1或O(运行)[核磁共振/{年少者+J型日志(第页)}]. 删除d日交叉验证可以通过枚举大小的所有子集来实现d日或以随机方式将整个数据集随机拆分多次。但对于大型计算机来说,这两种方法的计算效率都不高n个在这项工作中,我们将不再进一步追求这一点。

相比之下,通常使用的五倍交叉验证和十倍交叉验证的成本要低得多,而且这些折叠选择的方差很小(Hastie。,2009). 尽管K(K)-折叠交叉验证(2⩽K(K)n个)从表达式(4.5)和(3.4)中可以看出,是次优的,我们可以像在样本误差情况下一样进行速率校准。R(右)=(J型第页)第页并回顾IF=J型日志(电动自行车/J型). 根据定理2和4,如果σ2已知,我们可以附加一个阶数的偏差校正项σ2R(右)+σ2IF至CV-Err。什么时候?σ未知,其动机是σ-如果没有PIC(见定理3),我们可以使用以下校准的SCV误差作为模型选择标准:
SCV错误:=CV-Err公司+α1{事务-错误/(n个)}R(右)+α2{事务-错误/(n个)}国际单项体育联合会,
(4.6)
哪里α1α2是常量。从恒等式中可以明显看出速率修正:校准的交叉验证误差(4.6)具有形式的复杂性惩罚σ2DF公司+σ2IF,符合第节中的研究.根据约束条件δ(B)<1在定理3中,候选模型过于复杂(比如α1DF公司+α2如果>)应排除在外;等价地,我们将其SCV-Err设置为∞。对于K(K)=5,我们建议α1=4.6和α2=3.5,基于蒙特卡罗实验。(SCV的速率修正适用于K(K),但数值常数可能不同。)当然,也可能有其他形式,例如分数形式,CV-Err/{1−α1R(右)/(+αmr) −α2国际单项体育联合会/(+αmr)},或者简单地说
CV-Err公司1α1R(右)/(n个)α2国际单项体育联合会/(n个)
具有α1=2和α2=2.4也给出了令人满意的性能。我们应用插件形式(4.6)作为回归设置中的SCV错误。

5个实验

5.1模拟

我们使用以下设置进行模拟研究。设计矩阵X(X)具有来自的IID行N个(0,Σ)带∑jk公司=ρ|j个k个|,ρ> 0, 1 ≤j个,k个第页.系数矩阵具有以下形式B*= (b条(一个0一个1)T型0)T型哪里b条是一个常量,一个0是一个J型×第页矩阵和一个1是一个第页×矩阵。中的条目一个0一个1是IID标准高斯。中的条目B*通过J型第行都是0。矩阵E类具有IID标准高斯项,响应矩阵为Y(Y)=XB公司*+σE类.

我们考虑以下情况第页>n个n个>第页,在生成设计时具有两种不同的相关性水平和信号强度X(X):

  • (a)

    n个>第页;n个= 100,J型=30,第页= 60,= 15,第页= 5,σ= 1,ρ=0.1、0.5和b条= 0.1, 0.5;

  • (b)

    第页>n个;n个= 30,J型= 15,第页= 100,= 10,第页= 2,σ= 1,ρ=0.1、0.5和b条= 0.2, 1.

我们为每个设置运行了200个模拟。与其他高维参数调谐研究一样(Chen和Chen,2008),我们称之为学习算法(参见Bunea. (2012)陈和黄(2012))在每个合成数据集上计算候选估计的解路径。然后根据第节中的程序提取相关的投影选择模式2.

比较了六个模型选择标准:AIC、BIC和EBIC,由于未知噪声水平,均采用对数形式,PIC如表达式(3.7)所示,K(K)-折叠交叉验证K(K)=2、5、10和5倍SCV-see表达式(4.6)。(我们发现K(K)-折叠SCV与K(K)=2、5、10,因此我们关注五倍的SCV。)预测精度通过均方误差(MSE)进行评估:E类[信托收据{(B^B*)T型Σ(B^B*)}]/然后计算所有模拟的MSE的中值以表示模型的拟合优度。选择绩效通过预测因子的中位数进行评估,J型^,和中值秩估计第页^在所有模拟中。还报告了所有运行中平均的无噪声遗漏真变量(M表示缺失)和错误包含变量(FA表示假警报)的比率。当信号强度较高时,一种成功的变量选择方法将M和FA比率最小化,并优先选择低误码率,因为不希望遗漏真正的特征。相反,当噪音水平很高时,没有理由相信没有噪音模拟真值从观测数据中得出最佳预测模型。因此,在低信噪比(SNR)情况下,我们最关心的是预测误差。六种模型比较标准的结果如表所示1,2,,4和总结如下。

表1

AIC、BIC、EBIC、PIC、双重交叉验证、十倍交叉验证、五倍交叉验证和五倍SCV之间的性能比较n个>第页较小信号强度的实验(b条= 0.1)

方法ρ的结果= 0.1ρ的结果= 0.5
MSE公司J型^第页^M(%)固定资产(%)MSE公司J型^第页^M(%)固定资产(%)
AIC公司4337642944386735
比克45203304218411
EBIC公司1048174010371750
照片2629411728274189
两倍CV99501016899501069
Tenfold简历99501016899501069
五倍简历96501016896501069
五倍SCV2829510930275199
方法ρ的结果= 0.1ρ的结果= 0.5
MSE公司J型^第页^M(%)固定资产(%)MSE公司J型^第页^M(%)固定资产(%)
AIC公司4337642944386735
比克45203304218411
EBIC公司1048174010371750
照片2629411728274189
两倍CV99501016899501069
Tenfold简历99501016899501069
五倍简历96501016896501069
五倍SCV2829510930275199

MSE被缩放以便于比较。

表1

AIC、BIC、EBIC、PIC、双重交叉验证、十倍交叉验证、五倍交叉验证和五倍SCV在n个>第页较小信号强度的实验(b条= 0.1)

方法ρ的结果= 0.1ρ的结果= 0.5
MSE公司J型^第页^M(%)固定资产(%)MSE公司J型^第页^M(%)固定资产(%)
AIC公司4337642944386735
比克45203304218411
EBIC公司1048174010371750
照片2629411728274189
两倍CV99501016899501069
Tenfold简历99501016899501069
五倍简历96501016896501069
五倍SCV2829510930275199
方法ρ的结果= 0.1ρ的结果= 0.5
MSE公司J型^第页^M(%)固定资产(%)MSE公司J型^第页^M(%)固定资产(%)
AIC公司4337642944386735
比克45203304218411
EBIC公司1048174010371750
照片2629411728274189
两倍CV99501016899501069
Tenfold简历99501016899501069
五倍简历96501016896501069
五倍SCV2829510930275199

为便于比较,对中小企业进行了缩放。

表2

AIC、BIC、EBIC、PIC、双重交叉验证、十倍交叉验证、五倍交叉验证和五倍SCV之间的性能比较n个>第页大信号强度实验(b条= 0.5)

方法ρ的结果= 0.1ρ的结果= 0.5
MSE公司J型^第页^M(%)固定资产(%)MSE公司J型^第页^M(%)固定资产(%)
伊拉克语1334601712336017
比克730500730500
EBIC公司730500730500
照片730501730500
两个旧CV405010067405010067
Tenfold简历405010067405010067
五倍简历405010066405010066
五倍SCV730502730501
方法ρ的结果= 0.1ρ的结果= 0.5
MSE公司J型^第页^M(%)固定资产(%)MSE公司J型^第页^M(%)FA(%)
AIC公司1334601712336017
比克730500730500
EBIC公司730500730500
照片730501730500
两倍CV405010067405010067
Tenfold简历405010067405010067
五倍简历405010066405010066
五倍SCV730502730501

为便于比较,对中小企业进行了缩放。

表2

AIC、BIC、EBIC、PIC、双重交叉验证、十倍交叉验证、五倍交叉验证和五倍SCV之间的性能比较n个>第页大信号强度实验(b条= 0.5)

方法ρ的结果= 0.1ρ的结果= 0.5
MSE公司J型^第页^M(%)固定资产(%)MSE公司J型^第页^M(%)固定资产(%)
AIC公司1334601712336017
比克730500730500
EBIC公司730500730500
照片730501730500
两倍CV405010067405010067
Tenfold简历405010067405010067
五倍简历405010066405010066
五倍SCV730502730501
方法ρ的结果= 0.1ρ的结果= 0.5
MSE公司J型^第页^M(%)FA(%)MSE公司J型^第页^M(%)固定资产(%)
伊拉克语1334601712336017
比克730500730500
EBIC公司730500730500
照片730501730500
两倍CV405010067405010067
Tenfold简历405010067405010067
五倍简历405010066405010066
五倍SCV730502730501

为便于比较,对中小企业进行了缩放。

表3

AIC、BIC、EBIC、PIC、双重交叉验证、十倍交叉验证、五倍交叉验证和五倍SCV之间的性能比较第页>n个较小信号强度的实验(b条=0.2)

方法ρ的结果= 0.1ρ的结果= 0.5
MSE公司J型^第页^M(%)固定资产(%)MSE公司J型^第页^M(%)固定资产(%)
AIC公司932444417792443616
比克4212159731102565
EBIC公司4371713641741
照片40102625289259
两倍CV1222544319972543518
Tenfold简历1302544319992543518
五倍简历1282544319992543518
五倍SCV41102625298261
方法ρ的结果= 0.1ρ的结果= 0.5
MSE公司J型^第页^M(%)固定资产(%)MSE公司J型^第页^M(%)固定资产(%)
AIC公司932444417792443616
比克4212159731102565
EBIC公司4371713641741
照片40102625289259
两倍CV1222544319972543518
Tenfold简历1302544319992543518
五倍简历1282544319992543518
五倍SCV41102625298261

为便于比较,对中小企业进行了缩放。

表3

AIC、BIC、EBIC、PIC、双重交叉验证、十倍交叉验证、五倍交叉验证和五倍SCV之间的性能比较第页>n个较小信号强度的实验(b条= 0.2)

方法ρ的结果= 0.1ρ的结果= 0.5
MSE公司J型^第页^M(%)固定资产(%)MSE公司J型^第页^M(%)固定资产(%)
AIC公司932444417792443616
比克4212159731102565
EBIC公司4371713641741
照片40102625289259
两倍CV1222544319972543518
十倍CV1302544319992543518
五倍简历1282544319992543518
五倍SCV41102625298261
方法ρ的结果= 0.1ρ的结果= 0.5
MSE公司J型^第页^M(%)固定资产(%)MSE公司J型^第页^M(%)固定资产(%)
AIC公司932444417792443616
比克4212159731102565
EBIC公司4371713641741
照片40102625289259
两倍CV1222544319972543518
Tenfold简历1302544319992543518
五倍简历1282544319992543518
五倍SCV41102625298261

为便于比较,对中小企业进行了缩放。

表4

AIC、BIC、EBIC、PIC双重交叉验证、十倍交叉验证、五倍交叉验证和五倍SCV之间的性能比较第页>n个大信号强度实验(b条= 1)

方法ρ的结果= 0.1ρ的结果= 0.5
MSE公司J型^第页^M(%)固定资产(%)MSE公司J型^第页^M(%)固定资产(%)
AIC公司472524018312523216
比克432424017302423315
EBIC公司342124312261923811
照片412324015282123513
两个旧CV47252401834253117
Tenfold简历4825401834253117
五倍CV502523918352543117
五倍SCV3411258522112534
方法ρ的结果= 0.1ρ的结果= 0.5
MSE公司J型^第页^M(%)固定资产(%)MSE公司J型^第页^M(%)固定资产(%)
AIC公司472524018312523216
比克432424017302423315
EBIC公司342124312261923811
照片412324015282123513
两倍CV47252401834253117
Tenfold简历4825401834253117
五倍简历502523918352543117
五倍SCV3411258522112534

为便于比较,对中小企业进行了缩放。

表4

AIC、BIC、EBIC、PIC双重交叉验证、十倍交叉验证、五倍交叉验证和五倍SCV之间的性能比较第页>n个大信号强度实验(b条= 1)

方法ρ的结果= 0.1ρ的结果= 0.5
MSE公司J型^第页^M(%)固定资产(%)MSE公司J型^第页^M(%)固定资产(%)
AIC公司472524018312523216
比克432424017302423315
EBIC公司342124312261923811
照片412324015282123513
两倍CV47252401834253117
Tenfold简历4825401834253117
五倍简历502523918352543117
五倍SCV3411258522112534
方法ρ的结果= 0.1ρ的结果= 0.5
MSE公司J型^第页^M(%)固定资产(%)MSE公司J型^第页^M(%)固定资产(%)
伊拉克语472524018312523216
比克432424017302423315
EBIC公司342124312261923811
照片412324015282123513
两个旧CV47252401834253117
Tenfold简历4825401834253117
五倍简历502523918352543117
五倍SCV3411258522112534

为便于比较,对中小企业进行了缩放。

PIC和SCV方法在这里考虑的几乎所有信号强度和相关性组合中都具有优越的预测性能。EBIC在低信噪比实验中的预测(例如,参见表1)有证据表明,其相对较高的复杂性惩罚导致了对这些特定设置进行过多的规范化。相反,在较大的信噪比实验中,EBIC的预测性能与PIC和SCV的预测性能相当(见表24). 第页>n个在所有信息标准中,AIC的MSE最高,这并不令人惊讶,因为众所周知,AIC在很大程度上低估了第页.

交叉验证通常具有所有方法中最高的MSE,这表明速率校正是绝对必要的。在所有实验中,交叉验证的预测性能K(K)=2、5、10相似,验证了推论1后面的讨论。K(K)=5与K(K)= 2, 10.

有趣的是,当信号强度较弱时,PIC和SCV忽略了在无噪声情况下指定的一些变量(见表1),但这可能是自然的,因为可能需要更多的正则化才能实现较低的预测误差。在这些小的SNR实验中,AIC往往会漏掉这些无噪声变量中最少的一个,但这是以较高的FA比率为代价的,正如前面所述,它的预测精度通常较差。在弱信号强度和强信号强度情况下,BIC,尤其是EBIC与AIC相比往往具有较高的丢失率,因为它们的惩罚条款更大,但与PIC和SCV不同,它们很少能够选择具有简约性的模型弱信噪比和强信噪比情况下的预测误差都很低。

n个>第页信号强度相对较强的实验(表2)PIC和SCV的变量选择性能几乎等于或超过所有其他方法。事实上,他们的M和FA比率在表中几乎为02这表明真实的变量也具有高度的预测性。事实上,在如此大的信噪比情况下(见定理5),PIC可以很高的概率恢复无噪声行支持。

与其他方法相比,PIC和SCV的中位数秩值与真实值最为一致。几乎在每个实验中,AIC和交叉验证都高估了第页而当信号强度相对较弱时,BIC,尤其是EBIC低估了等级。

PIC和SCV的预测性能在n个>第页实验(见表12),但SCV在表中显示了一些优势4。我们通过改变第页>n个实验;参见表5SCV产生的标准误差最低,似乎更能成功地选择MSE最低的模型,并减少不稳定性。

表5

中PIC和SCV的预测误差比较第页>n个各种信号强度的实验

方法ρ的结果=0.1ρ的结果= 0.5
b条= 2b条= 3b条= 4b条= 2b条= 3b条= 4
照片42 (22)42 (23)43 (23)28 (19)29 (19)29 (19)
SCV公司34(16)33 (17)33 (17)21 (10)21 (10)21 (10)
方法ρ的结果= 0.1ρ的结果= 0.5
b条= 2b条= 3b条= 4b条= 2b条= 3b条= 4
照片42 (22)42 (23)43 (23)28 (19)29 (19)29 (19)
SCV公司34 (16)33 (17)33 (17)21 (10)21 (10)21 (10)

报告的数字是小微企业,括号中有标准错误(为了便于比较,按比例缩放)。

表5

中PIC和SCV的预测误差比较第页>n个不同信号强度的实验

方法ρ的结果= 0.1ρ的结果= 0.5
b条= 2b条= 3b条= 4b条= 2b条= 3b条= 4
照片42(22)42 (23)43 (23)28 (19)29 (19)29 (19)
SCV公司34 (16)33 (17)33 (17)21(10)21 (10)21 (10)
方法ρ的结果= 0.1ρ的结果= 0.5
b条= 2b条= 3b条= 4b条= 2b条= 3b条= 4
照片42 (22)42 (23)43 (23)28 (19)29 (19)29 (19)
SCV公司34 (16)33 (17)33 (17)21 (10)21 (10)21 (10)

报告的数字是小微企业,括号中有标准错误(为了便于比较,按比例缩放)。

总的来说,在几乎所有情况下,PIC或SCV的预测误差都最小,这是本工作的最终目标。在弱信号强度情况下,可以认为AIC的选择更好,因为它在无噪声模拟真实性方面遗漏了最少的变量。然而,如前所述,由于低信噪比数据受到噪声的严重污染,根据M-和FA-比率测量的变量选择可能没有意义;更加节俭预测模型可能与生成合成数据时使用的零噪模型不同。

5.2酵母细胞周期数据

在斯佩尔曼进行的一项实验中. (1998)收集了106个转录因子(TF)(也称为DNA结合蛋白),用于800个酵母基因,这些基因在真核生物周期内调节核糖核酸(RNA)水平。通过使用α-因子抑制法。在该数据分析中,我们使用从R(R核心团队,2017)包spls(Chun和Keleš,2010). 这个X(X)-基质由收集在542个基因上的106个TF组成;这个Y(Y)-基质包含在18个时间点在相同基因子集上测量的RNA水平。对于数据集,有21个实验验证的TF与细胞周期调节有关(Wang。,2007). 它们可以作为一个生物真理,应该通过变量选择技术不断地选择。为此,我们集中并缩放了两者X(X)Y(Y),进行选择性降秩回归(She,2017)并比较了普通交叉验证和SCV的选择性能。(交叉验证和SCV的预测性能在200多次重复训练中非常相似,其中50%用于训练,50%用于测试。)

我们对数据进行了200次引导,以测量这两种方法在秩和变量选择方面的稳定性。估计秩和基数的自举分布如图所示。2SCV中值J型^第页^分别为86和4以及交叉验证的中位数J型^第页^分别为46和7。显然,交叉验证选择的最优秩和基数的分布远大于SCV,这表明交叉验证在模型选择方面是不稳定的。尽管交叉验证的中值J型^较小,其较大的方差表明该方法以比SCV更随机的方式挑选和剔除TF。确定自由参数的数量联合通过第页J型; SCV的自由度中位数为400,交叉验证的自由度为410,这表明SCV倾向于选择较小的模型。此外,交叉验证表明,与SCV相比,计算时间增加了五倍。

图2

(a) 引导数据的秩和(b)基数分布

为了评估21个实验验证TF的选择性能,图。(a) 显示了选择每个TF的引导数据库复制的百分比。每个点对应一个TF,虚线标记所有相同的选择频率。尤其是,每一个TF位于直线上或直线上方,表明SCV对已确认TF的选择频率均匀大于交叉验证的频率。很明显,交叉验证往往无法选择所有被证实与细胞周期调控相关的TF。例如,BAS1可能是酵母细胞周期(Cokus。,2006)SCV在近75%的重复中选择了TF,但交叉验证在不到25%的重复中选中了TF。图。(b) 将在引导复制的不同百分比截止时选择的已确认TF的数量制成表格。SCV和交叉验证之间的巨大差距表明,SCV在选择验证TF方面要成功得多任何截止点。例如,大约50%的已确认TF是通过至少50%的重复中的交叉验证选择的,但SCV在相同截止点的成功率接近100%。SCV还确定了一些不属于已确认子集的TF。例如,SCV选择SKO1的次数为194次,而交叉验证选择该TF的次数少于50%;. (2008)实验确定该TF的过度表达与细胞周期进展有关。

图3

21个经过实验验证的TF的自举选择频率

6讨论

交叉验证的传统方法包括将数据拆分为K(K)子集和调用学习算法K(K)次。此过程可能代价高昂且不稳定,因为它可能导致K(K)无法直接比较的拟合模型。为了解决这个问题,我们提出了SCV,它在数据重采样中保持相同的模型,并且计算效率高。理论上,我们证明了联合变量和秩选择的最优复杂度是通过PIC非渐近实现的。基于为交叉验证误差建立的恒等式,我们针对常用的K(K)-折叠SCV以匹配最佳错误率。据我们所知,这种经过校准的交叉验证是新颖的。

SCV和PIC的概念适用于纯变量选择或纯秩选择。例如,对于单个响应变量,SCV(4.6)的形式为CV-Err+α(事务-错误/n个)J型日志(电动自行车/J型)对于某些正常数α而在纯脊型问题中,通货膨胀项消失了。结构模式的提取扩展到追求稀疏性的广义套索问题T型β对于薄的T型-矩阵(她,2010; Tibshirani和Taylor,2011). 例如,给定一个估计β^令人满意的T型[j个,]β≠0表示全部j个J型,或T型[J型c(c),]β^=0,我们可以构建一个结构模式O(运行)O(运行)第页×第页,使用第页=第页第页(T型[J型c(c),]),它跨越的行空间的正交补码T型[J型c(c),].

该框架追求预测准确性作为其最终原则,并导出了一些没有大的普遍定理n个假设或非相干设计条件(见定理1-4)。如果信噪比不太小,采用预测学习观点也会自动意味着可靠的支持恢复(见定理5)。事实上,当噪声污染相对较小时,我们的模拟表明所提出的方法具有较低的预测误差令人满意的选择性能。但我们的实验也表明,当信噪比较小时,参考无噪声仿真真实值评估变量选择可能是无效的。这些研究表明,格言“所有模型都是错误的,但有些模型是有用的”(Box,1979)似乎适用于小型SNR场景。

支持信息

其他“支持信息”可在联机本文版本:

“关于稀疏降秩回归的交叉验证”的补充材料。

致谢

作者感谢联合主编、副主编和审稿人提出的建议,这些建议大大改进了论文。这项工作得到了美国国家科学基金会DMS-1352259和CCF-1617801的部分资助。

工具书类

Akaike公司
,
H。
(
1974
)
统计模型识别的新视角
.
IEEE传输。自动。控制
,
19
,
716
723
.

安德森
,
总重量。
(
1999
)
一般条件下降秩回归估计的渐近分布
.
安。统计师。
,
27
,
1141
1154
.

阿洛牌汽车
,
美国。
塞利斯
,
答:。
(
2010
)
模型选择的交叉验证程序综述
.
统计师。Surv公司。
,
4
,
40
79
.

比克尔
,
第J页。
,
里托夫
,
年。
齐巴科夫
,
答:B。
(
2009
)
Lasso和Dantzig选择器的同时分析
.
安。统计师。
,
37
,
1705
1732
.

盒子
,
通用电气设备。
(
1979
)
科学建模策略中的稳健性
.英寸
统计学中的稳健性
,第1卷,pp。
201
236
.
纽约
:
学术出版社
.

布内亚
,
F、。
,
,
年。
韦坎普
,
M。
(
2011
)
高维矩阵降秩估计的最优选择
.
安。统计师。
,
39
,
1282
1309
.

布内亚
,
F、。
,
,
年。
韦坎普
,
M。
(
2012
)
高维矩阵简约估计的联合变量及其选择
.
安。统计师。
,
40
,
2359
2388
.

坎迪斯
,
E.J.公司。
(
2008
)
受限等距特性及其对压缩传感的影响
.
Compt.公司。伦德。数学。
,
346
,
589
592
.

坎迪斯
,
E.J.公司。
计划
,
年。
(
2011
)
从最少数量的随机测量中恢复低秩矩阵的严格预言界
.
IEEE传输。通知。理论
,
57
,
2342
2359
.

,
英国。
,
,
K.-S.公司。
斯坦塞斯
,
N.Chr.公司。
(
2012
)
稀疏奇异值分解的降秩随机回归
.
J.R.统计。Soc公司。
B、,
74
,
203
221
.

,
J。
,
Z.公司。
(
2008
)
大模型空间模型选择的扩展贝叶斯信息准则
.
生物特征
,
95
,
759
771
.

,
L。
,
J·Z。
(
2012
)
同时降维和变量选择的稀疏降秩回归
.
《美国统计杂志》。助理。
,
107
,
1533
1545
.

,
H。
凯莱什
,
美国。
(
2010
)
同时降维和变量选择的稀疏偏最小二乘回归
.
J.R.统计。Soc公司。
B、,
72
,
25
.

科库斯
,
美国。
,
玫瑰色
,
美国。
,
海诺
,
D。
,
Gr⊘nbech-Jensen公司
,
N。
佩莱格里尼
,
M。
(
2006
)
酿酒酵母细胞周期转录因子网络的建模
.
BMC生物信息。
,
7
,编号1,文章
381
.

多诺霍
,
D。
约翰斯通
,
一、。
(
1994
)
基于小波收缩的理想空间自适应
.
生物特征
,
81
,
425
455
.

风扇
,
J。
,
R。
(
2001
)
基于非洞穴惩罚似然的变量选择及其预言性质
.
《美国统计杂志》。助理。
,
96
,
1348
1360
.

培养
,
D.P.公司。
乔治
,
即。
(
1994
)
多元回归的风险通货膨胀准则
.
安。统计师。
,
22
,
1947
1975
.

盖塞尔
,
美国。
(
1975
)
预测样本重用方法及其应用
.
《美国统计杂志》。助理。
,
70
,
320
328
.

哈斯蒂
,
T。
,
提比什拉尼
,
R。
弗里德曼
,
J。
(
2009
)
统计学习的要素
,第2版。
纽约
:
施普林格
.

约翰斯通
,
国际货币基金组织。
,
A.年。
(
2009
)
高维主成分分析的一致性和稀疏性
.
《美国统计杂志》。助理。
,
104
,
682
693
.

妈妈
,
Z.公司。
(
2013
)
稀疏主成分分析与迭代阈值
.
安。统计师。
,
41
,
772
801
.

锦葵
,
C.L.公司。
(
1973
)
关于的一些评论C类第页
.
技术计量学
,
15
,
661
675
.

,
西。
,
,
Z.公司。
,
詹(音译)
,
西。
,
Iyer公司
,
V.R.公司。
马科特
,
电子显微镜。
(
2008
)
酿酒酵母系统定量过表达筛选揭示的细胞周期控制机制
.
PLOS基因。
,
4
,第7号,文章
e1000120号
.

R核心团队
(
2017
)
R: 统计计算语言与环境
.
维也纳
:
R统计计算基金会
.

罗德
,
答:。
齐巴科夫
,
答:B。
(
2011
)
高维低秩矩阵的估计
.
安。统计师。
,
39
,
887
930
.

施瓦兹
,
G.公司。
(
1978
)
估算模型的维数
.
安。统计师。
,
6
,
461
464
.

,
J。
(
1993
)
通过交叉验证选择线性模型
.
《美国统计杂志》。助理。
,
88
,
486
494
.

,
J。
(
1997
)
线性模型选择的渐近理论
.
统计师。罪。
,
7
,
221
242
.

,
年。
(
2010
)
精确聚类的稀疏回归
.
电子。J.统计。
,
4
,
1055
1096
.

,
年。
(
2012
)
用分组预测器拟合非凸惩罚广义线性模型的迭代算法
.
计算统计。数据分析。
,
9
,
2976
2990
.

,
年。
(
2016
)
关于的有限样本分析Θ-估计员
.
电子。J.统计。
,
10
,
1874
1895
.

,
年。
(
2017
)
高维选择性因子提取
.
生物特征
,
104
,
97
110
.

,
年。
,
,
H。
,
,
J。
,
D。
(
2013
)
基于分组迭代谱阈值的超分辨率稀疏谱选择
.
IEEE传输。Signl流程。
,
61
,
6371
6386
.

,
H。
,
J。
(
2008
)
基于正则化低秩矩阵逼近的稀疏主成分分析
.
J.Multiv.公司。分析。
,
99
,
1015
1034
.

斯皮尔曼
,
体育。
,
夏洛克
,
G.公司。
,
,
M.Q.先生。
,
Iyer公司
,
V.R.公司。
,
安德斯
,
英国。
,
艾森
,
医学学士。
,
棕色
,
采购订单。
,
博斯坦
,
D。
Futcher公司
,
B。
(
1998
)
基因芯片杂交综合鉴定酿酒酵母细胞周期调控基因
.
摩尔。生物细胞
,
9
,
3273
3297
.

股票
,
J.H。
沃森
,
M.W.公司。
(
2002
)
使用大量预测因子的主成分进行预测
.
《美国统计杂志》。助理。
,
97
,
1167
1179
.

提比什拉尼
,
R。
(
1996
)
通过套索回归收缩和选择
.
J.R.统计。Soc公司。
B、,
58
,
267
288
.

提比什拉尼
,
R·J。
泰勒
,
J。
(
2011
)
广义套索的解路径
.
安。统计师。
,
39
,
1335
1371
.

Vounou公司
,
M。
,
贾努索夫
,
E.公司。
,
沃尔兹
,
R。
,
斯坦因
,
J·L·。
,
汤普森
,
下午。
,
吕克特
,
D。
蒙大拿
,
G.公司。
(
2012
)
稀疏缩减秩回归检测阿尔茨海默病中与体素纵向表型的遗传关联
.
神经影像
,
60
,
700
716
.

瓦赫巴
,
G.公司。
(
1990
)
观测数据的样条模型
.
费城
:
工业和应用数学学会
.

,
L。
,
,
G.公司。
,
H。
(
2007
)
微阵列时间进程基因表达数据的组SCAD回归分析
.
生物信息学
,
23
,
1486
1494
.

威滕
,
D。
,
提比什拉尼
,
R。
哈斯蒂
,
T。
(
2009
)
惩罚矩阵分解及其在稀疏主成分和典型相关分析中的应用
.
J.Multiv.公司。分析。
,
10
,
515
534
.

,
年。
(
2005
)
能否分享AIC和BIC的优势模型辨识与回归估计的冲突
.
生物特征
,
92
,
937
950
.

,
中心-中心。
,
J。
(
2008
)
高维线性回归中拉索选择的稀疏性和偏差
.
安。统计师。
,
36
,
1567
1594
.

,
H。
,
哈斯蒂
,
T。
提比什拉尼
,
R。
(
2006
)
稀疏主成分分析
.
J.计算图表。统计人员。
,
15
,
265
286
.

本文根据牛津大学出版社标准期刊出版模式的条款出版和发行(https://academic.oup.com/journals/pages/open_access/funder_policies/chorus/standard_publication_model)