Regularized estimation in sparse high-dimensional multivariate regression, with application to a DNA methylation study

Haixiang Zhang; Yinan Zheng; Grace Yoon; Zhou Zhang; Tao Gao; Brian Joyce; Wei Zhang; Joel Schwartz; Pantel Vokonas; Elena Colicino; Andrea Baccarelli; Lifang Hou; Lei Liu

doi:10.1515/sagmb-2016-0073

公开可用发布人：德古意特出版社 2017年7月22日

稀疏高维多元回归的正则化估计及其在DNA甲基化研究中的应用

张海翔 , 郑一男（音） , 格雷斯·尹 , 周章 , 陶高 , 布莱恩·乔伊斯 , 张伟（音译） , 乔尔·施瓦茨 , 潘特尔·沃科纳斯 , 埃琳娜·科利奇诺 , 安德烈亚·巴卡雷利 , 侯丽芳和刘雷（Lei Liu）

来自日志遗传学和分子生物学中的统计应用

https://doi.org/10.1515/sagmb-2016-0073

摘要

在本文中，我们将相关高维DNA甲基化标记的变量选择视为多变量结果。提出了一种新的加权平方根LASSO方法来估计回归系数矩阵。该方法的一个关键特点是调谐灵敏度，通过避免惩罚参数选择的交叉验证，大大简化了计算。通过约束的▽获得的精度矩阵₁最小化方法用于解释多变量结果之间的主题内相关性。导出了正则化估计的Oracle不等式。通过大量的仿真研究说明了我们提出的方法的性能。我们应用我们的方法在正常年龄研究（NAS）中研究吸烟与高维DNA甲基化标记物之间的关系。

关键词：高维响应;多元回归;oracle不等式;调谐不敏感;加权正方形LASSO

1引言

随着现代数据收集技术的发展，高维数据在许多科学研究领域变得越来越普遍，例如全基因组研究(Lin等人，2015年)，生物医学(Mukherjee等人，2015年)、经济和金融(巴苏和米查利迪斯，2015年). 在这些情况下，参数的数量大于样本量，这使得传统的统计程序不合适。最近，在组学研究中经常会遇到具有高维多元反应的相关数据。我们的鼓舞人心的例子是标准老化研究，其中甲基化标记物被视为多变量结果。DNA的甲基化，即在通常被称为胞嘧啶磷酸鸟嘌呤（CpG）岛的结合位点将甲基添加到DNA中，可能会影响DNA的表达。相邻探针测得的DNA甲基化水平是相关的(Moen等人，2013年)导致高维多元结果。具有类似功能的DNA甲基化标记也可能存在相关性，例如与吸烟等接触有关。因此，有必要在评估过程中考虑受试者之间的相关性。

我们的目的是在高维多元DNA甲基化标记中选择回归系数。这项研究有两个具有挑战性的问题：（1）如何在高维环境中进行变量选择；（2）如何处理多变量结果之间的相关性。对于第一个挑战，许多研究集中于惩罚方法，例如最小绝对收缩和选择算子（LASSO，Tibshirani，1996年)，平滑剪裁的绝对偏差（SCAD，范和李，2001)、弹性网(Zou和Hastie，2005年)、自适应LASSO(邹，2006)和最小最大凹罚（MCP，张，2010). 惩罚方法已应用于许多研究主题，例如线性模型(王和冷，2007;Huang等人，2011年;Fan和Lv，2014年)，广义线性模型(范德格尔，2008;Jiang等人，2016年)，生存模型(范和李，2002;Bradic等人，2011年;林和吕，2013). 最近，Belloni等人（2011年）提出了一种关键的平方根LASSO方法，该方法不依赖于误差项的标准偏差知识。稍后，Belloni等人（2014）在高维非参数回归分析中开发了一种自校正平方根LASSO方法。刘和王（2017）提出了一种利用平方根LASSO优化估计高维高斯图形模型的新方法。有关变量选择的更多主题，请参阅Bühlmann和van de Geer（2011）.

解决第二个挑战的研究非常有限，尤其是当反应是高维的时候。Rothman等人（2010年）提出了一种基于LASSO惩罚的高维多元回归变量选择和估计的迭代算法。Sofer等人（2014）使用惩罚似然法考虑了高维多元回归的变量选择，但多重响应的维数仍远小于样本量。Liu等人（2015）针对高维多元回归模型提出了一种校正的多元回归方法，但它们只考虑了不相关的误差结构。Li等人（2015b）和Wilms和Croux（2017年）研究了LASSO组的高维多元线性回归模型。大多数现有方法都使用交叉验证在完整正则化路径上选择调整参数，这是一种计算昂贵的方法，可能会浪费宝贵的训练数据。为了解决这个问题，我们将延长Belloni等人（2011年）’s（未加权）平方根LASSO关于单结果到加权平方根LASSO的多变量结果。与现有方法相比，我们的过程的主要优势在于调谐不敏感特性，这比交叉验证快得多。另一个优点是我们可以使用整个数据集进行变量选择，这可能会学习到更好的模型(Bishop等人，2003年).

论文的其余部分组织如下。在节中2，我们介绍了具有高维响应的多元线性回归的模型和加权平方根LASSO程序。在节中三，我们为所提出的估计量建立了一个误差界。在节中4，我们开发了一种有效的算法，并进行了蒙特卡罗模拟，以评估我们的方法的性能。关于DNA甲基化在正常年龄研究中的实证分析，见第节5第节给出了一些结论6所有技术证明均归入附录。

2模型和估算

考虑稀疏的高维多元线性回归模型

(1)Y（Y）我=B类X（X）我+ϵ我,我=1,⋯,n个,

哪里Y（Y）我=(Y（Y）我1,⋯,Y（Y）我第页)′是一个第页-维度反应，例如DNA甲基化标记；X（X）我=(X（X）我1,⋯,X（X）我q个)′是一个q个-维协变量向量；B类=(B类1,⋯,B类第页)′∈ℝ第页×q个是稀疏回归系数矩阵B类k=(βk1,⋯,βkq个)′∈ℝq个,k= 1, ⋯,第页;ϵ我=(ϵ我1,⋯,ϵ我第页)′∈ℝ第页是均值为0、协方差矩阵为∑的随机误差项_第页。在本文中，我们假设预测器的维度q个是固定的，但反应的维度第页可能大于n个.稀疏回归系数矩阵B类表明只有少数系数是非零的。我们的兴趣是估计系数矩阵B类并建立相应估计量的oracle不等式，同时考虑相关结果。

假设(Y（Y）_我,X（X）_我)是独立且相同分布的（i.i.d.）观测值，我= 1, ⋯,n个.如果ϵ_我∼N个(0, Σ_第页)，负对数似然函数由下式给出

(2)ℒ(B类,Ω第页)=12n个{n个日志(2π)+n个日志|Ω第页−1|+∑我=1n个(Y（Y）我−B类X（X）我)′Ω第页(Y（Y）我−B类X（X）我)},

哪里Ω第页=Σ第页−1是精度矩阵(Cai等人，2011年). 表示(B类1′,⋯,B类第页′)′作为β=(β1,⋯,βd日)′，其中d日=pq值.让𝒮={j;βj≠0}成为具有尺寸的真实模型秒=|𝒮|.我们使用Ω_第页解释主题内相关性(Sofer等人，2014年)，并提出以下准则函数：

(3)问(β;Ω第页)=1n个∑我=1n个(Y（Y）我−B类X（X）我)′Ω第页(Y（Y）我−B类X（X）我).

实际上，精度矩阵Ω_第页可以使用约束的▽进行估计₁最小化方法(Cai等人，2011年)已在R包中实现闪耀(Li等人，2015a). 基本上，稀疏逆协方差矩阵（精度矩阵）Ω的估计_第页可以通过以下优化问题得到：

最小值∥Ω第页∥,

从属于：

|Σn个Ω第页−我|∞≤γ,

哪里γ>0是一个调整参数Σn个=1n个∑我=1n个(Y（Y）我−B类~X（X）我)′(Y（Y）我−B类~X（X）我)具有B类~是一致估计量（例如岭估计量）。

Belloni等人（2011年）建议为β具有标量结果。他们表明，惩罚（调整参数）是关键的，即它不依赖于误差方差的知识，也不需要预先估计它β对调谐参数不敏感，大大简化了计算，而调谐参数的选择往往需要交叉验证。此外，平方根LASSO方法在估计β相比之下，普通LASSO需要估计误差方差(Belloni等人，2011年)实现近oracle性能，这在高维数据中是一个非常具有挑战性的问题。

动机Belloni等人（2011年），模型中相关结果的相应加权平方根LASSO版本(1)定义为

(4)β^=参数最小值β∈ℝd日{问(β;Ω第页)+λ∑j=1d日w个j|βj|},

哪里λ>0是调谐参数，w个_j是已知重量，j= 1, ⋯,d日.我们可以设置w个j=1/|β~j|沿着…的路线邹（2006）具有β~_j是岭估计量，j= 1, ⋯,d日注意，在自适应LASSO中，我们选择岭估计而不是普通的最小二乘估计，因为第页可能大于n个在模型中(1). 为了获得β^英寸(4)，我们考虑优化问题，

(5)β^=参数最小值β∈ℝd日,ρ≥0{问(β;Ω第页)2ρ+ρ2+λ∑j=1d日w个j|βj|}.

对于ρ≥0，我们有问(β;Ω第页)2ρ+ρ2≥问(β;Ω第页)，所以中的目标函数(5)是中的上界(4). 当且仅当ρ=问(β;Ω第页)类似于刘和王（2017），中的优化(4)和(5)产生相同的溶液β^。这两者之间的关系(4)和(5)提供了如下所述的高效算法。

对于给定的λ，我们有以下步骤：

步骤0。计算精度矩阵Ω^第页（使用R包闪耀;Li等人，2015a)和β^第页我d日克e（电子）（使用R包格尔姆奈特;Friedman等人，2010年). 设置β(0)=β^第页我d日克e（电子）和ρ(0)=问(β(0);Ω^第页).

步骤1。用坐标下降算法求解优化问题(Friedman等人，2010年)

β(k+1)=参数最小值β∈ℝd日{问(β;Ω^第页)2ρ(k)+ρ(k)2+λ∑j=1d日w个j|βj|}.

步骤2。更新

ρ(k+1)=问(β(k+1);Ω^第页).

步骤3。重复步骤1和2，直到收敛。

值得注意的是，Ω^_第页是一致的(Cai等人，2011年)并且在迭代更新过程中保持不变，因此步骤1中的目标函数对于β，保证了算法的快速收敛。以下内容引理1将显示的显式表达式λ，而中调谐参数的最佳值(4)将在第节中进行评估4通过实证研究。估算程序已在R中实施（可根据要求提供）。

3理论结果

在本节中，我们将为β^定义于(4). 以下引理为加权平方罗LASSO过程的调谐不敏感特性奠定了基础，其动机是Bickel等人（2009年）他对LASSO的处罚级别的选择。表示W公司最小值=最小值{w个1,⋯,w个d日},W公司最大值=最大值{w个1,⋯,w个d日}和N个=净现值我们首先有以下引理。

引理1

让λ=c（c）W公司最小值⁢2⁢一⁢日志⁡d日N个c>1和a>2。定义

(6)Ω={λ≥c（c）W公司最小值∥∇问1/2(β;Ω第页)∥∞},

那么我们有

P（P）(Ω)≥1−2π一日志d日⋅d日1−一(1−2(一−1)日志d日N个)−d日1−一,

其中，+是梯度。

类似Belloni等人（2011年），预测范数如下所示||e（电子）||2,N个2=1N个e（电子）′𝕏′𝕏e（电子），其中𝕏定义见附录和e（电子）∈ℝ^d日为了推导oracle不等式，我们定义了相容因子(Huang等人，2013年)以及限制本征值（RE，Bickel等人，2009年)作为

κ(ξ,𝒮)=inf公司0≠e（电子）∈𝒞(ξ,𝒮)秒1/2||e（电子）||2,N个||e（电子）𝒮||1和RE(ξ,𝒮)=inf公司0≠e（电子）∈𝒞(ξ,𝒮)||e（电子）||2,N个||e（电子）||2,

分别，其中𝒞(ξ,𝒮)={e（电子）∈ℝd日:||e（电子）𝒮c（c）||1≤ξ||e（电子）𝒮||1}具有ξ=c（c）W公司最大值+W公司最小值W公司最小值(c（c）−1).此后，𝒜^c（c）表示集合的补码𝒜;v（v）𝒜=(v（v）j:j∈𝒜)对于向量v（v）然后，我们得出以下结论。

引理2

表示e（电子）^=β^−β，那么关于事件Ω，我们有e（电子）^∈C类⁢(ξ,S公司)也就是L₁不相关变量的范数应该小于相关变量的倍数。

以下定理给出了估计误差的上界。

定理1

设c>1，ξ=c（c）⁢W公司最大值+W公司最小值W公司最小值⁢(c（c）−1)，假设是这样W公司最大值⁢λ⁢秒1/2κ⁢(ξ,S公司)≤ζ<1和问⁢(β;Ω第页)≤K（K）2K>0时。然后在事件Ω上，

重新(ξ,𝒮)||β^−β||2≤||β^−β||2,N个≤2(W公司最大值+W公司最小值c（c）)λ秒1/2K（K）(1−ζ2)κ(ξ,𝒮).

备注1

条件Q(β; Ω_第页)≤K²K>0是温和的，因为Q(β; Ω_第页)以n→∞的概率收敛到1。

备注2

这个结果和引理1通过选择显示λ=ηW公司米⁢我⁢n个⁢日志⁡d日N个和一些η=c2⁢一>2，获得β^实现接近oracle的收敛速度(Belloni等人，2011年). 自从选择η不依赖于任何未知参数或数量，我们称之为特性调谐不敏感。经验表明，设置η=8在我们遇到的大多数情况下都能很好地工作，这将通过仿真进行验证。

4模拟研究

在本节中，我们将进行仿真研究以验证所提出的方法。我们假设X（X）来自N个_q个(0, Σ_X（X）)，其中q个=2和∑_X（X）= (σ_ij公司)由提供σ_ij公司= 0.7^|i−j|。随机误差项由N个_第页(0, Σ_E类)，我们考虑以下两种误差协方差设置：

案例（a）。AR（1）误差协方差：∑_E类,标准= 0.8^|秒-吨|.

案例（b）。分数高斯噪声（FGN）误差协方差：

ΣE类,秒t吨=0.5((|秒−t吨|+1)2H（H）−2|秒−t吨|2H（H）+|(|秒−t吨|−1)|2H（H）)

使用Hurst参数H（H）=0.9，因此距离的相关性为（0.74、0.63、0.58、0.55、0.52、0.50、0.49、0.48、0.46、0.45）|秒−t吨|=1:10值得注意的是，情形（a）的逆误差协方差是一个三对角稀疏矩阵，而情形（b）具有稠密的逆误差方差。设置β= (1, 0.6, 0.3, 1.2, 0.8, 0.5, 0, ⋯, 0)^′即，前六个元素为非零，而其余元素均为0。我们接受第页分别为200和300。所有模拟结果均基于100次复制n个=100和200。

根据定理1，调谐参数λ=ηW公司米我n个日志d日N个和一些η> 2. 选择合适的λ，我们考虑η，相应的性能如图所示1–4可以看出，当η∈ [6, 10]. 因此，我们建议η在模拟和实际应用中，加权平方根LASSO（WSR-LASSO）方法均为8。为了进行比较，我们还考虑了LASSO和具有权重的平方根LASSO（SR-LASSO）w个_j=1英寸(4).

图1

具有AR（1）误差协方差的WSR-LASSO模型修正率。

图2

具有AR（1）误差协方差的WSR-LASSO模型误差。

图3

具有FGN误差协方差的WSR-LASSO模型修正率。

图4

具有FGN误差协方差的WSR-LASSO模型误差。

桌子1和2报告结果，包括选择正确模型（CMR）的比率我{𝒮^=𝒮}、假阳性率（FPR）|𝒮^\𝒮|/|𝒮^|、假阴性率（FNR）|𝒮\𝒮^|/(d日−|𝒮^|)和模型错误（ME）信托收据[(B类^−B类)ΣX（X）(B类^−B类)′](袁和林，2007). 可以看出，LASSO和SR-LASSO具有相似的性能，这与Belloni等人（2011年）此外，与LASSO和SR-LASSO相比，WSR-LASSO方法具有更高的正确模型选择率和更小的模型误差。假阳性率和阴性率的结果也表明，该方法在实际应用中优于LASSO和SR-LASSO。

表1

AR（1）误差协方差模型选择的仿真结果。

		n=100				n=200
第页	方法	CMR公司	FPR公司	FNR公司	我	CMR公司	FPR公司	FNR公司	我
200	拉索	0.02	0.6121	0.0006	0.4203	0.10	0.5806	<10⁻⁴	0.2435
	SR-LASSO公司	0.02	0.5924	0.0005	0.4282	0.07	0.5973	<10⁻⁴	0.2405
	WSR-LASSO公司	0.41	0.1437	0.0008	0.2213	0.69	0.0708	0.0004	0.1337
300	拉索	0	0.6072	0.0004	0.4747	0.02	0.6205	0.0001	0.2534
	SR-LASSO公司	0.01	0.5857	0.0005	0.4795	0.01	0.6468	0.0001	0.2476
	WSR-LASSO公司	0.38	0.2956	0.0002	0.2389	0.68	0.0634	0.0003	0.1178

CMR：选择了正确的型号我{𝒮^=𝒮}; FPR：假阳性率|𝒮^\𝒮|/|𝒮^|; FNR：假阴性率|𝒮\𝒮^|/(d日−|𝒮^|); 和ME：模型错误信托收据[(B类^−B类)ΣX（X）(B类^−B类)′].

表2

基于FGN误差协方差的模型选择仿真结果。

		n=100				n=200
		第页	方法	CMR公司	FPR公司	FNR公司	我	CMR公司	FPR公司	FNR公司	我
200	拉索	0.02	0.5360	0.0003	0.6467	0.06	0.4504	0.0002	0.2891
	SR-LASSO公司	0.03	0.5696	0.0004	0.6287	0.05	0.4508	0.0001	0.2869
	WSR-LASSO公司	0.33	0.1055	0.0014	0.3242	0.60	0.0692	0.0007	0.1769
300	拉索	0.03	0.5436	0.0004	0.6887	0.09	0.4922	<10⁻⁴	0.3762
	SR-拉索	0.02	0.5239	0.0003	0.6741	0.07	0.4980	<10⁻⁴	0.3640
	WSR-LASSO公司	0.33	0.2634	0.0006	0.2828	0.55	0.0917	0.0006	0.2356

CMR：选择了正确的型号我{𝒮^=𝒮}; FPR：假阳性率|𝒮^\𝒮|/|𝒮^|; FNR：假阴性率|𝒮\𝒮^|/(d日−|𝒮^|); 和ME：模型错误信托收据[(B类^−B类)ΣX（X）(B类^−B类)′].

5应用

我们将我们提出的方法应用于来自美国退伍军人事务部标准老化研究（NAS）的DNA甲基化（DNAm）数据。我们排除了（i）非白人或缺少种族信息的参与者，以尽量减少遗传血统的潜在混杂影响，或（ii）因其血液甲基化谱可能受到影响而被诊断出任何癌症和有中风或冠心病史的参与者。共有169人在第一次抽血时采集了样本，目前仍在等待分析。

我们对吸烟对DNA甲基化的影响感兴趣。Gao等人（2015）对成人主动吸烟暴露引起的DNA甲基化变化进行了文献综述。从中，我们考虑了总共151个胞嘧啶-磷酸-鸟嘌呤（CpG）二核苷酸的甲基化标记，这些二核苷酸在文献中已被多次报道（≥2次）。在我们的研究中，151个CpG位点之间的相关性范围为[-0.6440，0.9369]，表明这些CpG之间具有高度相关性。

我们对吸烟包年（packyr）对这些DNAm标记物的影响很感兴趣。我们还将年龄和BMI纳入模型。总的来说，我们需要估计453（151×3）个回归系数。我们在第节中使用了建议的方法2带调谐参数λ= 0.0026.

在表中三，我们将我们的结果与下面列出的原始151个CpG进行了比较Gao等人（2015）。在表中4我们报告了选定的CpG和系数估计值。通过我们的方法在NAS数据中选择了151个CpG中的33个。我们可以看到，文献中报告得更频繁的CpG也更有可能被我们在NAS数据中的方法所选择。例如，在至少7次报告的8个CpG中，我们的方法从NAS数据中选择了5个（62.5%），而在文献中两次报告的89个CpGs中，只有15个（16.9%）是通过我们的方法选择的。表中的下降趋势三显示了我们的方法与文献的一致性。值得注意的是，我们的方法正确识别了前两个CpG–cg03636183和cg05575921（位于F2RL3和AHRR基因中），这两个基因在文献中分别报道了12次和11次。

表3

与的选型比较Gao等人（2015）.

报告的频率CpG	≥7	5–6	3–4	2
CpG总数	8	12	42	89
NAS中确定的N（%）	5 (62.5%)	4 (33.3%)	10 (23.8%)	15 (16.9%)

文献中确定的CpG频率，根据Gao等人（2015）; CpGs总数：文献中报告的CpG总数；N（%）：我们的方法在NAS数据中选择的CpG数量（百分比）。

表4

CpG的变量选择和估计结果。

CpG公司	基因名称	瑞士法郎	β^₁	β^₂	β^_三
cg03636183号	二层RL3	19	−0.0021	0.0029	0.0067
cg05575921号	AHRR公司	5	−0.0056	0.0111	0.0083
cg06126421号	*	6	−0.0014	0.0006	0.0094
cg21566642号	*	2	−0.0019	0	−0.0058
cg06644428号	*	2	−0.0037	−0.0085	−0.0306
cg03991871号	AHRR公司	5	−0.0021	0.0146	0.0237
cg23576855号	AHRR公司	5	−0.0013	0	0.0145
cg25189904号	GNG12号机组	1	−0.0027	0	−0.0092
cg08709672号	AVPR1B型	1	0.0011	0.0008	0
cg12803068号	MYO1G公司	7	0.00164	0	0.0267
cg01692968号	*	9	−3 × 10⁻⁵	−0.0104	−0.0051
cg06060868号	SDHA公司	5	4 × 10⁻⁶	0.0116	0.0078
邮编11207515	CNTNAP2公司	7	0.0004	−0.0049	0
cg11231349号	NOS1AP号	1	0.0005	0.0080	0.0149
cg22851561号	C14或43	14	0.0003	0	0
cg23771366号	减贫战略23	11	−0.0007	−0.0015	−0.0111
cg23916896号	AHRR公司	5	−0.0010	−0.0092	−0.0135
cg26963277号	KCNQ1号机组	11	−0.0003	0.0133	0.0141
计算01500140	直线电机2	19	0.0008	0.0072	0.0113
cg03274391号	*	三	0.0027	0	0.0001
cg03604011号	AHRR公司	5	0.0035	−0.0202	−0.0143
cg04716530号	ITGAL公司	16	3 × 10⁻⁵	0.0111	0.0056
cg07465627号	STXBP4型	17	0.0002	−0.0052	−0.0092
cg11902777号	啊，呃	5	−0.0011	−0.0209	−0.0204
cg13039251号	PDZD2型	5	0.0031	0	0.0185
cg15187398号	莫比尔2a	19	−0.0001	−0.0038	0
cg16201146号	*	20	3 × 10⁻⁵	0.0032	0.0129
cg17619755	VARS公司	6	0.0006	0	0.0082
cg17924476号	AHRR公司	5	0.0011	0	−0.0102
cg23480021号	*	三	0.0012	0	0.0157
cg23667432	ALPP公司	2	0.0002	0.0009	0.0092
cg23973524号	阴极射线管1	19	0.0009	0	0.0057
cg26764244号	GNG12号机组	1	−0.0007	−0.0101	−0.0183

β^₁，packyr；β^₂，年龄；β^_三，BMI*表示基因间区的CpGs

6结束语

我们提出了一种用于高维多元回归模型的加权平方根LASSO方法。我们通过CLIME方法估计了精度矩阵，以说明响应之间的相关性，并获得了估计量的oracle不等式。提供了模拟研究来说明所建议的程序。我们应用该方法研究吸烟与高维DNA甲基化标记的关系。

未来有几个课题需要研究。首先，高维高斯图形模型的估计是一个活跃的研究领域(Cai等人，2011年;蔡和元，2012;Fan等人，2013年). 考虑回归系数和精度矩阵的联合估计在(1). 一个可能的解决方案是在(4)第二，尽管假设协变量的维数是q个是固定的，将所提出的方法直接扩展到高维协变量设置，主要困难在于超高维参数带来的计算负担。第三，关于加权平方根LASSO的统计推断是一个重要而有趣的话题。第四，由于我们的方法消除了交叉验证的负担，我们的方法在计算上是有效的：对于第节中的DNA甲基化数据5，R软件在个人电脑中聚合大约需要10.3秒。正如一位评论员所建议的那样，使所提出的算法可扩展到全基因组响应和预测标记，这将很有意义，因为这可以在高性能计算设施中实现。第五，我们对高维中介分析感兴趣(Zhang等人，2016年)确定高维DNA甲基化标记物是否介导从干预（如饮食、体育锻炼）到健康结果的途径。

确认

我们要感谢主编、副主编和两位审稿人的宝贵意见和建议，这些意见和建议帮助我们大幅改进了文章。

基金：这项工作得到了AHA 14SFRN20480260、12GRNT12070254的支持，国家环境健康科学研究所（National Institute of Environmental Health Sciences）资助R01ES021357、R01ES01733和R01ES01172，国家自然科学基金（No.11301212）和中国博士后科学基金（No 2014M550861）。VA标准老龄化研究由美国退伍军人事务部合作研究计划/流行病学研究和信息中心支持。

附录

为了简化符号，让𝕐=(Y（Y）1′,⋯,Y（Y）n个′)′∈ℝN个和ℰ=(ϵ1′,⋯,ϵn个′)′∈ℝN个具有N个=净现值。对于𝒜=(一我j)∈ℝ米×n个和ℬ=(b条我j)∈ℝ第页×q个Kronecker产品𝒜⊗ℬ∈ℝ米第页×n个q个定义为

𝒜⊗ℬ=[一11ℬ一12ℬ⋯一1n个ℬ一21ℬ一22ℬ⋯一2n个ℬ⋮⋮⋮⋮一米1ℬ一米2ℬ⋯一米n个ℬ].

让𝕏=(𝒳1′,⋯,𝒳n个′)′具有𝒳k=我第页⊗X（X）k′,k= 1, ⋯,n个.将∧表示为N个×N个块对角矩阵我-第个对角线分量Ω_第页,我= 1, ⋯,n个.然后(三)可以重写为

（A.1）问(β;Λ)=1N个(𝕐−𝕏β)′Λ(𝕐−𝕏β).

在下面，我们表示问(β; ∧）作为问(β). 我们首先需要以下引理。

引理3

(劳伦特和马萨特，2000年).让X（X）∼χd日2，则对于0≤t<1/2，我们有

P（P）(X（X）≤{1−t吨}d日)≤经验(−14d日t吨2).

引理1的证明

表示Λ1/2𝕐=Λ1/2𝕏′β+Λ1/2ℰ作为𝕐~=𝕏~′β+ℰ~，其中ℰ~遵循N个-多维均值正态分布0和协方差矩阵I_N×N然后，根据问(β)英寸(A.1款)，我们有

（A.2）N个||∇问1/2(β)||∞=||∑我=1N个𝕏~我′(𝕐~我−𝕏~我′β)||∞∑我=1N个(𝕐~我−𝕏~我′β)2=||∑我=1N个𝕏~我′ℰ~我||∞∑我=1N个ℰ~我2.

请注意∑我=1N个𝕏~我jℰ~我∼N个(0,N个)和∑我=1N个ℰ~我2∼χN个2，其中j= 1, ⋯,d日。然后它从引理3那个

P（P）(∑我=1N个ℰ~我2≤N个(1−第页N个))≤经验(−N个第页N个24),

其中0≤第页_N个≤ 1/2. 此外，我们可以导出以下不等式

P（P）(||∑我=1N个𝕏~我′ℰ~我||∞∑我=1N个ℰ~我2>2一日志d日)≤P（P）(||∑我=1N个𝕏~我′ℰ~我||∞>1−第页N个⋅2N个一日志d日)+P（P）(∑我=1N个ℰ~我2≤N个(1−第页N个))≤∑j=1d日P（P）(|∑我=1N个𝕏~我jℰ~我|>1−第页N个⋅2N个一日志d日)+经验(−N个第页N个24)≤2d日{1−Φ(1−第页N个⋅2一日志d日)}+经验(−N个第页N个24)≤2d日⋅d日−一(1−第页N个)2π⋅1−第页N个⋅2一日志d日+经验(−N个第页N个24)=d日−一(1−第页N个)π(1−第页N个)一日志d日+经验(−N个第页N个24),

最后一个不等式来自1−Φ(t吨)≤12πt吨经验(−t吨22).

让第页N个=2(一−1)日志d日N个，何时n个足够大了，我们有

P（P）(N个||∇问1/2(β)||∞≤2一日志d日)≥1−2π一日志d日⋅d日1−一(1−2(一−1)日志d日N个)−d日1−一.

⊡

引理2的证明

首先，从β^英寸(4)，我们注意到

（A.3）问1/2(β^)−问1/2(β)≤λ∑j=1d日w个j|βj|−λ∑j=1d日w个j|β^j|≤λW公司最大值||(β^−β)𝒮||1−λW公司最小值||(β^−β)𝒮c（c）||1.

其次，在事件Ω上，有c（c）∥∇问1/2(β)∥∞≤λW公司最小值因此，利用以下事实问(β)是一个凸函数，我们有

（A.4）问1/2(β^)−问1/2(β)≥−∇问1/2(β)(β−β^)≥−∥∇问1/2(β)∥∞⋅||β^−β||1≥−λc（c）W公司最小值||β^−β||1=−λc（c）W公司最小值(||(β^−β)𝒮||1+||(β^−β)𝒮c（c）||1).

组合(答3)和(A.4款)，我们可以获得

||(β^−β)𝒮c（c）||1≤c（c）W公司最大值+W公司最小值W公司最小值(c（c）−1)||(β^−β)𝒮||1.

⊡

定理证明1

我们注意到以下关系：

（A.5）问(β^)−问(β)=||e（电子）^||2,N个2−2N个∑我=1N个(𝕐~我−𝕏~我′β)𝕏~我′e（电子）^≥||e（电子）^||2,N个2−2问1/2(β)||∇问1/2(β)||∞||e（电子）^||1,

其中(A.5)由Hölder不等式持有。然后根据κ(ξ,𝒮)那个

（A.6）||e（电子）^||2,N个2≤2问1/2(β)||∇问1/2(β)||∞||e（电子）^||1+[问1/2(β^)+问1/2(β)]⋅λ[W公司最大值秒1/2||e（电子）^||2,N个κ(ξ,𝒮)−W公司最小值||e（电子）^𝒮c（c）||1].

此外，我们注意到

（A.7）问1/2(β^)≤问1/2(β)+λW公司最大值(秒1/2||e（电子）^||2,N个κ(ξ,𝒮)).

发件人(答6)和(答7)，我们有

||e（电子）^||2,N个2≤2问1/2(β)||∇问1/2(β)||∞||e（电子）^||1+2问1/2(β)λW公司最大值(秒1/2||e（电子）^||2,N个κ(ξ,𝒮))+{λW公司最大值(秒1/2||e（电子）^||2,N个κ(ξ,𝒮))}2−2问1/2(β)λW公司最小值||e（电子）^𝒮c（c）||1.

自c（c）∥∇问1/2(β)∥∞≤λW公司最小值，我们有

||e（电子）^||2,N个2≤2问1/2(β)||∇问1/2(β)||∞||e（电子）^𝒮||1+2问1/2(β)λW公司最大值(秒1/2||e（电子）^||2,N个κ(ξ,𝒮))+{λW公司最大值(秒1/2||e（电子）^||2,N个κ(ξ,𝒮))}2.

然后，

（A.8）{1−(W公司最大值λ秒1/2κ(ξ,𝒮))2}||e（电子）^||2,N个2≤2(W公司最大值+W公司最小值c（c）)问1/2(β)λ秒1/2κ(ξ,𝒮)||e（电子）^||2,N个.

自W公司最大值λ秒1/2κ(ξ,𝒮)≤ζ<1和问(β; Ω_第页) ≤K（K）²保持，通过求解上述不等式(答8)，我们可以得到定理中所述的误差界

工具书类

Basu，S.和G.Michailidis（2015）：“稀疏高维时间序列模型中的正则化估计”，《Ann.Stat.》，43，1535-1567。10.1214/15-AOS1315在谷歌学者中搜索

Belloni，A.、V.Chernozhukov和L.Wang（2011）：“正方形LASSO：通过圆锥编程实现稀疏信号的关键恢复”，《生物统计学》，98，791–806。10.1093/biomet/asr043在谷歌学者中搜索

Belloni，A.、V.Chernozhukov和L.Wang（2014）：“通过非参数回归中的平方根LASSO进行枢轴估计”，《Ann.Stat.》，42，757-788。10.1214/14-AOS1204在谷歌学者中搜索

Bickel，P.J.、Y.Ritov和A.Tsybakov（2009）：“LASSO和Dantzig选择器的同时分析”，《Ann.Stat.》，第37期，第1705–1732页。2008年4月10日-AOS620在谷歌学者中搜索

Bishop，C.，D.Spiegelholter和J.Winn（2003）：“VIBES：贝叶斯网络的变分推理引擎。”《神经信息处理系统进展》15（S.Becker，S.Thrun和K.Obermayer编辑）。麻省理工学院出版社，马萨诸塞州剑桥，777-784。在谷歌学者中搜索

Bradic，J.，J.Fan和J.Jiang（2011年）：“具有NP维的考克斯比例风险模型的正则化”，《美国统计年鉴》，39，3092–3120。10.1214/11-AOS911在谷歌学者中搜索公共医学公共医学中心

Bühlmann，P.和S.van de Geer（2011）：高维数据统计：方法、理论和应用，Springer。10.1007/978-3-642-20192-9在谷歌学者中搜索

Cai，T.和M.Yuan（2012）：“通过块阈值进行自适应协方差矩阵估计”，《统计年鉴》，2014年第40期–2042年。10.1214/12-AOS999在谷歌学者中搜索

Cai，T.，W.Liu和X.Luo（2011）：“一个受限的₁稀疏精度矩阵估计的最小化方法”，《美国统计协会期刊》，106，594–607。10.1198/jasa.2011.tm10155在谷歌学者中搜索

Fan，J.和R.Li（2001）：“通过非一致惩罚可能性及其预言属性进行变量选择”，《美国统计协会期刊》，96，1348-1360。10.1198/016214501753382273在谷歌学者中搜索

Fan，J.和R.Li（2002）：“考克斯比例风险模型和脆弱性模型的变量选择”，《美国统计年鉴》，第30、74–99页。10.1214/aos/1015362185在谷歌学者中搜索

Fan，Y.和J.Lv（2014）：“组合的渐近性质L（左）₁和凹正则化，“生物统计学，101，57–70。10.1093/biomet/ast047在谷歌学者中搜索

Fan，J.，Y.Liao和M.Mincheva（2013）：“通过阈值化主正交补码进行大协方差估计（讨论）”，J.R.Stat.Soci。序列号。B、 75、603–680。2011年10月11日/2016年12月12日在谷歌学者中搜索公共医学公共医学中心

Friedman，J.、T.Hastie和R.Tibshirani（2010）：“通过坐标下降法实现广义线性模型的正则化路径”，J.Stat.Software，33，1-22。10.18637/jss.v033.i01在谷歌学者中搜索

Gao，X.，M.Jia，Y.Zhang，L.Breitling和H.Brenner（2015）：“成人主动吸烟暴露后全血细胞的DNA甲基化变化：DNA甲基化研究的系统综述”，《临床表观遗传学》，第7113页。10.1186/s13148-015-0148-3在谷歌学者中搜索公共医学公共医学中心

Huang，J.，S.Ma，H.Li和C.-H.Zhang（2011）：“高维回归的稀疏拉普拉斯收缩估计量”，《Ann.Stat.》，第39期，2021-2046页。10.1214/11-AOS897在谷歌学者中搜索

Huang，J.，T.Sun，Z.Ying，Y.Yu和C.-H Zhang（2013）：“考克斯模型中LASSO的Oracle不等式”，Ann.Stat.，411142–1165。10.1214/13-AOS1098在谷歌学者中搜索公共医学公共医学中心

姜瑜、何瑜和张浩（2016）：“基于先验套索方法的广义线性模型的先验信息变量选择”，美国统计协会，111，355–376。10.1080/01621459.2015.1008363在谷歌学者中搜索公共医学公共医学中心

Laurent，B.和P.Massart（2000）：“通过模型选择对二次函数的自适应估计”，《Ann.Stat.》，第28期，第1302–1338页。在谷歌学者中搜索

Li，X.，T.Zhao，X.Yuan和H.Liu（2015a）：“R中高维线性回归和精确矩阵估计的flare包”，J.Mach。学习。决议，16，553–557。在谷歌学者中搜索

Li，Y.，B.Nan和J.Zhu（2015b）：“具有任意群结构的多元多元线性回归的多元稀疏群套索”，《生物计量学》，71，354–363。10.1111/生物.12292在谷歌学者中搜索公共医学公共医学中心

Lin，W.和J.Lv（2013）：“高维稀疏加性风险回归”，美国统计协会，108，247–264。10.1080/01621459.2012.746068在谷歌学者中搜索

Lin，W.，R.Feng和H.Li（2015）：“高维工具变量回归的正则化方法及其在遗传基因组学中的应用”，J.Am.Stat.Assoc.，110270-288。10.1080/01621459.2014.908125在谷歌学者中搜索公共医学公共医学中心

Liu，H.和L.Wang（2017）：“TIGER：优化估计高斯图形模型的调谐敏感方法”，电子。J.Stat.，第11、241–294页。10.1214/16-EJS1195在谷歌学者中搜索

Liu，H.，L.Wang和T.Zhao（2015）：“应用于神经语义基础发现的校准多元回归”，J.Mach。学习。第16号决议，1579–1606。在谷歌学者中搜索

Moen，E.，X.Zhang，W.Mu，S.Delaney，C.Wing，J.McQuade，J.Myers，L.Godley，M.Dolan和W.Zhanng（2013）：“欧洲和非洲人群之间胞嘧啶修饰的基因组范围变异及其对复杂性状的影响”，《遗传学》，194，987-996。10.1534/遗传学113.151381在谷歌学者中搜索公共医学公共医学中心

Mukherjee，R.、N.Pillai和X.Lin（2015）：“高维稀疏二元回归的假设检验”，《Ann.Stat.》，43，352–381。10.1214/14-AOS1279在谷歌学者中搜索公共医学公共医学中心

Rothman，A.、E.Levina和J.Zhu（2010）：“具有协方差估计的稀疏多元回归”，J.Compute。图表。《统计》，第19卷，第947–962页。10.1198/jcgs.2010.09188在谷歌学者中搜索公共医学公共医学中心

Sofer，T.，L.Dicker和X.Lin（2014）：“高维多元结果的变量选择”，《统计》，中国，241633-1654。10.5705/ss.2013.019在谷歌学者中搜索公共医学公共医学中心

Tibshirani，R.（1996）：“通过LASSO进行回归收缩和选择”，J.Royal Stat.Soci。序列号。B、 58、267–288页。10.1111/j.2517-6161.1996.tb02080.x在谷歌学者中搜索

van de Geer，S.（2008）：“高维广义线性模型和套索”，《Ann.Stat.》，第36期，第614-645页。10.1214/009053607000000929在谷歌学者中搜索

Wang，H.和C.Leng（2007）：“通过最小二乘近似法进行统一LASSO估计”，《美国统计协会期刊》，1021039–1048。10.1198/016214507000000509在谷歌学者中搜索

Wilms，I.和C.Croux（2017）：“具有协方差估计的多元群套索算法”，J.Appl。状态，已接受。10.1080/02664763.2017.1289503在谷歌学者中搜索

Yuan，M.和Y.Lin（2007）：“高斯图形模型中的模型选择和估计”，《生物统计学》，95，19-35。10.1093/生物技术/asm018在谷歌学者中搜索

Zhang，C.-H.（2010）：“最小最大凹惩罚下的几乎无偏变量选择”，《美国统计年鉴》，38，894-942。2009年4月10日-AOS729在谷歌学者中搜索

Zhang，H.、Y.Zheng、Z.Zhang、T.Gao、B.Joyce、G.Yoon、W.Zhang-、J.Schwartz、A.Just、E.Colicino、P.Vokonas、L.Zhao、J.Lv、A.Baccarelli、L.Hou和L.Liu（2016）：“在表观遗传学研究中评估和测试高维中介效应”，生物信息学，32，3150–3154。10.1093/生物信息学/btw351在谷歌学者中搜索公共医学公共医学中心

Zou，H.（2006）：“自适应LASSO及其预言属性”，《美国统计协会期刊》，第101期，第1418–1429页。10.1198/016214506000000735在谷歌学者中搜索

Zou，H.和T.Hastie（2005）：“通过弹性网进行规则化和可变选择”，《皇家统计学会期刊》。序列号。B、 67、301–320。10.1111/j.1467-9868.2005.005.x号在谷歌学者中搜索

在线发布：2017-7-22

印刷出版：2017-7-26