Performance of a blockwise approach in variable selection using linkage disequilibrium information

Dehman, Alia; Ambroise, Christophe; Neuvial, Pierre

doi:10.1186/s12859-015-0556-6

研究文章
开放式访问
出版：2015年5月8日

利用连锁不平衡信息的分块变量选择方法的性能

BMC生物信息学 体积 16，物品编号：148(2015)引用本文

3583访问
17引文
1海拔高度
韵律学细节

摘要

背景

全基因组关联研究（GWAS）旨在寻找与感兴趣的表型显著相关的遗传标记。收集了数千个SNP标记的全基因组单核苷酸多态性（SNP）数据，导致了高维回归问题，预测因子的数量大大超过了观察值的数量。此外，这些预测因子在统计上具有相关性，特别是由于连锁不平衡（LD）。

我们提出了一种三步方法，明确利用LD诱导的分组结构来识别可能被单标记分析（SMA）遗漏的常见变体。在第一步中，我们使用LD作为相似性度量，对具有邻接约束的SNP进行分层聚类。在第二步中，我们将模型选择方法应用于获得的层次结构，以便定义LD块。最后，我们对推断的LD块执行群Lasso回归。我们将此方法与最先进的回归方法（单倍型关联测试、SMA、Lasso和Elastic-Net回归）进行比较，以研究其效率。

结果

我们在模拟数据上的结果表明，只要LD块中的因果SNP数量超过2，所提出的方法就会比最新的方法表现更好。我们在半模拟数据和之前发布的HIV数据集上的结果说明了所提方法的相关性及其对实际LD结构的鲁棒性。该方法在R（右）包裹BALD公司（使用联动不平衡的分块方法），可从http://www.math-evry.cnrs.fr/publications/logiciels.

结论

我们的结果表明，该方法不仅在LD块级别上有效，可以很好地推断出底层块结构，而且在单个SNP级别上也是有效的。因此，本研究证明了在高维基因组研究（如GWAS）中量身定制地整合生物学知识的重要性。

背景

随着高通量基因分型技术的最新进展，全基因组关联研究（GWAS）已成为识别特定表型变异（通常是复杂的人类疾病和特征）背后的遗传标记的首选工具。在GWAS中，基因多态性的信息是在整个基因组中收集的，而单核苷酸多态性（SNP）由于其在基因组中的丰富性而通常被使用。然而，GWAS鉴定的常见遗传变异仅占疾病遗传力的相对较小比例[1].

选择因果SNP最常用的方法是对感兴趣的表型和每个标记的基因型之间的关联进行单变量测试[2，三]. 以下[4]这种方法称为单标记分析（SMA）。SMA的结果通常通过两种方式进行细化。首先，由于SNP之间的连锁不平衡（LD），结合对-SMA获得的基因级统计值可能会产生更具解释性的结果[5]. 其次，SMA选择的候选标记物可以被纳入多变量线性关联模型最近的研究表明，拉索等不利的回归方法[6]和Elastic-Net[7]可能适合于确定几个遗传标记的加性效应[4，8-10]. 这种方法允许在高维情况下（如GWAS）估计多变量线性模型，其中对变量（即SNP标记）数量超过n个观察结果（即个体）的数量级。在本文中，我们提出了一种惩罚回归方法，专门针对连锁不平衡（LD）诱导的GWAS中标记物之间的依赖性。我们的目标是确定SMA可能遗漏的常见变异，因为它们的个体效应大小不足以通过全基因组显著性阈值。

作为我们贡献的激励示例，图1代表LD(第页 ²在605名HIV感染患者的研究中，6号染色体前256个SNP之间的系数（上三角部分）和样本基因型相关性（下三角部分）[11]. 可以区分块结构，其中12到15个SNP的块内的平均LD约为第页 ²=0.2. LD值的对比度明显高于相关值第页 ²系数非常接近于0。为了考虑并利用相邻或附近SNP之间的这种强依赖结构，有必要关注LD块的规模，并明确寻找与感兴趣表型联合相关的LD阻滞组.

为此，我们提出了一种三步方法，包括：（i）使用空间约束的层次聚类算法推断SNP组（即LD块），（ii）应用模型选择方法估计组的数量，以及（iii）使用Group Lasso回归模型识别SNP的相关组[12]. 该方法在“GWAS的三步方法’. 章节实施’, ‘竞争方法’, ‘绩效评估'和'SNP和区块级评估'包括对其实施和用于绩效评估的评估方法的描述。在节中模拟数据结果'和'半模拟数据结果在模拟和半模拟数据上，将所提出的方法与最先进的竞争对手进行了比较。章节'艾滋病毒数据分析“描述了拟议方法在来自特定GWA艾滋病毒研究的微阵列数据上的应用。

方法

GWAS的三步方法

选择因果SNP的问题可以归结为高维变量选择问题。我们考虑预测连续响应的问题\（\mathbf{y}\in\mathbb{R}^{n}\）从协变量\（\mathbf{X}\in\mathbb{R}^{n\timesp}\）。对于我∈{1,…,n个},X（X） _我·是一个对-观测协变量的维向量我和用于j个∈{1,…,对},X（X） _·j个是一个n个-协变量的观测维向量j个在GWAS中，协变量是有序的，对应于SNP基因型：X（X） _伊吉∈{0,1,2}对应于位点上的次要等位基因数j个用于观察我.对于每个我∈{1,…,n个}，我们假设X（X） _我·具有块结构G公司大小不重叠的块对 ₁,…对 _G公司，使用\（总和{g=1}^{g}{p{g}}=p\）.因此\（\mathbf{X}（X）_{i\cdot}=（\mathbf{X}（X）_{i\cdot}^{1}，\dots，\mathbf{X}（X）_{i\cdot}^{G}）\）具有\（\mathbf{X}（X）_{i\cdot}^{g}\in\mathbb{R}^{p_{g}}\）对于克=1,…,G公司.

我们提出了一种三步方法，包括（i）对协变量进行空间约束的层次聚类X（X），（ii）使用Gap统计（修改版）估计组数[13]和（iii）进行组拉索回归，以确定哪些推断组与反应相关年.

从基因型推断LD阻滞

所提出的方法的第一步包括使用空间约束的分层聚类算法来推断LD块。只有基因型数据X（X）在此步骤中使用。

所提出的聚类过程基于最广泛使用的聚类分析方法之一：Ward的增量平方和算法[14]. 平方和聚类的一般目标是最小化组内总离散度W公司 _G公司对于给定数量的组G公司.表示方式\（S_{gg'}\幻影{\dot{i}\！}\）组中所有项目对之间的总平方相似性（通常是由欧几里德距离引起的相似性）克和克 ^′，和依据对 _克小组的规模克，W公司 _G公司可以写成

$$\开始{array}{@{}rcl@{}}W_{G}=p-\sum_{G=1}^{G}{\frac{S_{gg}}{p_{G}}\，。\结束{数组}$$

标准的聚集层次聚类始于对大小为1的组，并依次合并这对组克和克 ^′导致组内离散度的最小增加。等效地，这相当于合并两个最近的组克和克 ^′使以下距离最小化：

$$开始{数组}{@{}rcl@{}}d_{g，g'}&=&\frac{p{g}p{g'}}{p_{g}+p_{c'}}\左（\frac}S_{gg}{{p_}g}^{2}}+\ frac{S_g'}{p_p{g'g'}}{p_a{g''}}{g}p{g'}}\右）\，。\结束{数组}$$

重复此合并过程，直到形成一个单一大小的组对保留。

我们提出的聚类算法在两个方面有所不同。首先，我们不使用标准的欧几里德距离，而是使用两个SNP之间的差异性度量j个和j个 ^′基于LD:1−第页 ²(j个，j个 ^′). 这是因为上述算法依赖于基因型数据X（X）只有通过变量之间成对相似性矩阵（通过定义\（幻影{\dot{i}\！}S_{gg'}\）); 这可以看作是内核技巧[15]. 其次，我们利用了这样一个事实，即LD矩阵可以建模为块二对角（见图1)只允许以下变量组与基因组相邻待合并。

组数估计

组数的选择G公司通常是不明确的，并且取决于数据集的许多参数。任何选择G公司对应于将数据压缩为几个组或通过增加组的数量来减少错误量之间的折衷。为了做出这样的决定，已经研究了几个模型选择标准[13，16-18]. 所有这些方法都基于上述组内分散度的定义(W公司 _G公司)_{G公司=1…对}.

我们选择使用Gap统计的修改版本[13]作为模型选择标准。差距统计比较W公司 _G公司在适当的参考空分布数据下达到其预期。对于群集到G公司组，我们计算以下数量：

$$\开始{array}{@{}rcl@{}}\text{Gap}^{star}（G）=\frac{1}{B}\sum_{B=1}^{B}\left（{W^{b}_{G} }-W_{G}\右），\结束{数组}$$

((1))

在哪里b条=1…B，\（{W^{b}_{G} }\）表示对参考数据集进行聚类的簇内离散度b条在里面G公司组。对于每个参考数据集，每个列都是独立于此列的观测值范围内的均匀分布绘制的。在GWAS的应用中，这对应于在观察到的基因型{0,1,2}的离散集合上的均匀分布。因此，参考数据集对应于变量之间没有结构的数据。我们定义最佳组数\（什么｛G｝\）作为最小的G公司这样Gap^⋆(G公司)≥间隙^⋆(G公司+ 1)−秒 _G公司+1，其中秒 _G公司是标准误差估计值，计算如下秒 _G公司=(1+B)^−1/2标准偏差_G公司，其中sd_G公司表示的标准偏差\（（{W{G}^{b}}）{1\leqb\leqB}\）在Gap统计的经典版本中W公司 _G公司使用而不是W公司 _G公司，并且最近对该原始定义的几种替代方案进行了研究[19]. 我们决定使用方程式中的定义1正如我们注意到的那样，这使得我们能够更好地估计在各种参数和多个数据集下进行的模拟研究中的组数。对于参考分布，我们遵循了原始Gap统计文件中提出的初始策略[13]并根据离散集{0,1,2}上的均匀分布模拟每个参考特征。我们选择模拟B=100个参考样本，因为我们根据经验观察到，这足以提供组数的稳定估计。

选择与响应相关的组

一旦识别出LD块，我们就使用群拉索回归[12]鉴定与表型相关的区块。group Lasso估计器适用于群体结构变量，定义为：

$$\begin｛array｝｛rcl｝｛\widehat｛\boldsymbol｛\beta｝｝｝｝_｛\mathrm｛GL｝｝&=｛arg\；min｝_｛\beta\in｛\mathbb｛R｝｝^p｝\left（\left | \right | \mathbf{y}（y）-\mathbf{X}\boldsymbol{\beta}\left|\right|{}_2^2+\lambda\sum_{g=1}^g\sqrt{p_g}\left |\right |{\boldsymbol{\ beta}}^g\left| \right|{}_2\right），\end{array}$$

其中||||₂表示欧几里得范数，λ是一个惩罚参数，并且β ^克表示对 _克-对应于克 ^第个组，以便β=(β ¹,…β ^G公司). 拉索组是一种组选择方法：通过构造，组内的估计系数要么全部为零，要么全部为非零。实际上，设计矩阵的列X（X）在执行群拉索回归之前进行缩放。

实施

提出的三步方法已在R（右）包已调用BALD公司用于“利用联系不平衡的分块方法”。此软件包可从http://www.math-evry.cnrs.fr/publications/logiciels。我们已经使用了包裹格普拉索用于组Lasso回归和四足动物Lasso和Elastic-Net回归[20]CRAN网站上提供了这两种产品http://cran.r-project.org.

第节中描述的约束聚类的简单实现从基因型推断LD阻滞'包括（i）计算对(对−1）/2每对SNP的LD度量和（ii）对获得的相似矩阵进行约束层次聚类对通常约为10⁴到10⁵对于标准GWAS中的单个染色体，这种实现的空间复杂度为O（运行）(对 ²)不合适。事实上，对于一条长度为对=10⁵，此算法需要存储10个数量级¹⁰应用聚类算法之前的LD数值。为了克服这个困难，我们的实现将n个×对基因型矩阵X（X），并根据聚类的需要逐步计算LD测量值。LD测量值使用Bioconductor直接从基因型中计算R（右）包裹snpStats（snpStat）[21，22]，它处理缺少的值。举例来说，分析500个全基因组需要4.5个小时（在标准的2.2 Ghz单CPU上）k个模拟SNP（用于Affymetrix 500k个阵列）100个个体的基因型。请注意，这一步被设计为逐条染色体应用，因为它使用LD度量作为相似性。

该算法的第二步是通过Gap统计选择模型。使用Gap统计来估计组的数量需要应用约束层次聚类算法B与相同大小的参考数据集X（X）因此，间隙步骤为B时间比约束聚类算法长，并且是该方法的计算瓶颈，因为聚类的复杂性在标记数上是二次的。然而，模型选择过程的并行化很简单。

竞争方法

已经提出了各种方法来从GWAS数据中选择因果SNP。第节所述方法GWAS的三步方法'与两组方法进行比较：

没有明确考虑块结构信息的三种方法：SMA和两种受惩罚的回归方法：Lasso[6]和Elastic-Net[7].
明确考虑区块结构信息的两种方法：PLINK基因组关联分析工具的单倍型关联模块[23]，并且Group Lasso应用于真正的SNP组。后一种方法不能在实际中应用，但对于分析所提方法的不同步骤的贡献非常有用。我们将此方法称为“oracle Group Lasso”。

单标记分析在标准SMA中，针对每个变量X（X） _.j个，我们拟合一个单预测方程年=β ₀+β _j个 X（X） _·j个和a对-值来自t吨-计算了对只截获模型的测试。

多变量方法拉索[6]是一种有效的高维稀疏变量选择模型。拉索的估计量，表示为\（\hat{\boldsymbol{\beta}}{{text{lasso}}\）定义为：

$$\begin｛array｝｛rcl｝｛\widehat｛\boldsymbol｛\beta｝｝｝_｛\mathrm｛Lasso｝｝&=&\arg\｛\mamin｝_｛\beta\in｛\mathbb｛R｝｝^p｝\left|\right|\mathbf{y}（y）-\mathbf{X}\boldsymbol{\beta}\left|\right|{}_2^2+\lambda\left| \right| \boldsymbol{\teba}\left | \right |{}_1，\end{array}$$

其中||||₁表示ℓ ₁规范和λ是一个正则化参数。多亏了ℓ ₁惩罚，Lasso通过将不相关SNP的许多回归系数设置为零来鼓励稀疏性。然而，该方法没有包含任何关于预测因子之间相关性结构的信息，并且倾向于在每组相关变量中只选择一个变量。为了克服这一局限性，提出了其他方法，包括Elastic-Net[7]. Elastic-Net的估计值表示为\（\hat{\boldsymbol{\beta}}_{\text{EN}}\）定义为：

$$\begin{array}{rcl}{\widehat{\boldsymbol{\beta}}}_{\mathrm{EN}}&=&\arg\{\min}_{\ beta\in{\mathbb{R}}^p}\left|\right|\mathbf{y}（y）-\mathbf{X}\boldsymbol{\beta}\left|\right|{}_2^2+{\lambda}_1\left| \right| \boldsymbol{\ beta}\ left|\ right|}_1+{\lambda}_2\left|1\right|1\boldsimbol{\taba}\left | \right |{}_2 \end{array}$$

哪里λ ₁和λ ₂是两个正则化参数。与拉索一样，Elastic-Net同时执行自动变量选择和连续收缩。与套索不同，Elastic-Net包括一个脊(ℓ ₂)倾向于选择相关变量组的惩罚。因此，Elastic-Net包含了一些关于数据块结构的先验信息。然而，与所提出的方法不同，它没有利用这样一个事实，即在GWAS的特定情况下，LD块沿基因组相邻。在本文中，我们为山脊参数选择了一个较大的值(λ ₂=0.8），以使Elastic-Net估计值与Lasso估计值（对应于λ ₂=0).

单倍型关联这种竞争性分组策略包括4个步骤，前3个步骤使用PLINK基因组关联分析工具执行。第一步是根据置信区间程序推断LD块[24]. 然后在每个LD块中，使用类似于分割/连接方法的加速EM算法估计单倍型[25]. 在第三步中，使用PLINK选项对数量性状进行单倍型特异性测试（1自由度）–hap-assoc公司最后，我们定义了块调整对-通过在每个块内执行（Bonferroni）Family Wise Error Rate校正来获得值。这个对-SNP值定义为调整后的对-它所属的块的值。

绩效评估

我们的性能评估旨在评估我们提出的方法检索因果SNP的能力。使用接收机操作员特性（ROC）曲线的部分曲线下面积（AUC）评估性能。该测量值将用pAUC表示。我们首先评估每种方法的真阳性率（TPR）和假阳性率（FPR），以获得基本正则化参数值网格和每个模拟的ROC曲线。然后我们计算FPR范围内的pAUC∈[0,我我米]对于每个ROC曲线，其中林定义为FPR的最大值，低于该值时，所有方法的ROC坐标都已明确定义。

SNP和区块级评估

SNP可以通过给定的方法检测到，因为它是一个与表型真正相关的因果SNP，或者因为它在LD中具有这种因果SNP。这个问题是GWAS设计的固有问题，因此需要调整真阳性和假阳性的定义。最近的一个相关贡献是最近引入的“特定阈值FDR”（tFDR）概念[4]. tFDR依赖于真阳性的另一个定义，该定义不仅包含“因果真阳性”，还包含“相关真阳性”。本着类似的精神，我们在模拟环境中考虑了相关SNP的两种定义。我们定义了一个因果SNP作为用非零回归参数模拟的SNP，以及区块相关SNP作为不是因果标记但在与因果SNP相同的LD块中模拟的预测器。如图所示2重要的是，与tFDR相反，我们对块相关SNP的定义并不依赖于相关阈值。

因此，我们考虑两种不同的评估目标。在SNP级评估中（图中左侧面板2)，所考虑的统计单位是SNP，真正阳性（红色）是发现因果SNP；任何其他SNP（蓝色）的发现都被视为假阳性。在区块级评估中（图中的右面板2)，所考虑的统计单位是LD块，真正阳性（红色）是发现块相关SNP；任何其他SNP（蓝色）的发现都被视为假阳性。给定这些定义，我们预计三种经典方法（SMA、Lasso和Elastic Net）对SNP水平的评估会有更好的结果，而基于组的方法对块水平的评估会有更好的结果。

模拟设置

我们的模拟设置改编自[26]. 对于所有人我∈{1,…,n个},X（X） _我·由协方差矩阵为块对角的p维多元正态分布生成。如果j个≠j个 ^′属于同一组，\（幻影{\dot{i}\！}cov（\mathbf{X}（X）_{\cdot j}，\mathbf{X}（X）_{\cdot j’}）=\rho\）其他的\（幻影{\dot{i}\！}cov（\mathbf{X}（X）_{\cdot j}，\mathbf{X}（X）_{\cdot j’}）=0\）.然后，我们设置X（X） _ij公司根据是否为0,1或2X（X） _ij公司<−c（c）, −c（c）≤X（X） _ij公司≤c（c）或X（X） _伊吉>c（c），其中c（c）是产生给定次要等位基因频率的阈值。例如，选择c（c）因为标准正态分布的第一个四分位数对应于将相应SNP的次要等位基因频率固定为0.5。根据线性回归模型，最终生成相关的连续表型向量：

$$\mathbf{y}=\mathbf{X}\boldsymbol{beta}+\boldsymbol{epsilon}$$

哪里\（\boldsymbol{\epsilon}\in\mathbb{R}^{n}\）是高斯误差项。

结果和讨论

模拟数据结果

我们设置了n个=100和对=2048，192组大小为2、2、4、8、16和32，重复32次。对于每个模拟，随机绘制组的顺序。图三说明了在此设置中使用与图中相同的表示类型获得的依赖关系结构的类型1.

在我们的模拟中，问题的难度根据确定系数进行了校准R（右） ²即模型解释的方差与总方差的比值。该系数量化了多变量模型利用所有相关标记的联合效应解释表型的能力。它也被称为总遗传力小时 ²在遗传学的背景下[4]. 该系数不得与平方皮尔逊线性相关系数混淆第页 ²单个标记的表型和基因型之间。因此，在我们的模拟设置中，因果SNP回归系数的绝对值不会影响方法的性能。在下面报告的实验中，因果SNP的回归系数被随机设置为1或-1，对于所有其他SNP，回归系数被设置为0；R（右） ²设为0.2，与个体数量相比，这似乎是GWA研究的现实值n个=100。模拟的其他参数是LD块内相关系数ρ，数字因果SNP因果SNP和大小sig块关联块的。

我们进行了广泛的模拟研究，其中因果SNP ∈{1,2,4,6,8}和sig块 ∈{2,4,8,16,32}. 我们报告了300次模拟运行的平均pAUC。我们主要关注相关系数ρ∈{0.2,0.4}，因为这些值在一个块内产生了一个平均LD，与实际数据中通常观察到的结果一致（见图1).

区块级与SNP级评估

我们考虑单个SNP与表型真正相关的环境。图4显示pAUC与大小sig块SNP和区块级评估的“相关区块”（即包含因果SNP的LD区块）。通过SNP级评估（左面板），基于组的方法的表现优于三个竞争对手，并且随着相关块的大小增加，表现也越来越明显。这主要是由于群体选择产生的假阳性SNP数量较多。事实上，选择一个只有一个因果SNP的组会导致该组的所有其他SNP被宣布为假阳性。相反，使用组级评估（图的右面板4)，基于组的方法显示出明显的优势，表明基于多变量SNP的方法（Lasso或Elastic-Net）由于块的SNP之间存在相关性，通常无法选择所有因果SNP。Lasso在相关设计下表现不佳并非新鲜事[7]，但图4表明该方法甚至优于Elastic-Net。虽然Elastic-Net是专门为相关设计设计的，最近已经证明在GWAS中具有良好的性能[4]似乎没有充分利用GWAS中预测因子的特征块结构。

随着关联块的大小增加，所有方法的性能都会降低。实际上，对于给定水平的块内相关性（这里，ρ=0.4），块的大小越大，有关因果SNP的信息越稀。因此，在我们的模拟设置中，较大的LD块会导致更困难的问题。复杂性的增加解释了性能的总体下降。这种性能下降对集体套索来说更为严重。实际上，它倾向于选择小组SNP，因为它的默认惩罚随块大小而增加。与“oracle”Group Lasso相比，该方法的性能下降sig块 ∈{2,4}将在下一小节评估块推理步骤的效率时进行讨论。

在本节的其余部分中，我们重点讨论SNP级评估，即先验的SNP选择方法比群体选择方法更有利。我们有兴趣比较这种评估设置下的方法，这对于所提议的方法来说尤其具有挑战性。

LD块推理的效率

本节的目标是量化LD块的推断（第节中的前两个步骤GWAS的三步方法’）关于所提出的方法的全局性能。为了做到这一点，我们将所提方法的性能与“oracle”版本的性能进行了比较，该版本将Group Lasso应用于真实的LD块，即那些由模拟设置定义的块。图5显示了两种方法的平均pAUC与相关性水平。当相关性水平小于0.4时，我们注意到所提出的方法优于“oracle”Group Lasso。事实上，对于低相关性水平，块推理过程往往低估了块的数量，从而导致估计出具有大块的组结构，从而导致Lasso组选择了大量误报。然而，当相关性水平高于0.4且相关块的大小大于4时，两种基于组的方法的性能差异变得不显著。这表明，所提出的LD块推理方法结合了约束聚类和模型选择，有效地捕获了这种情况下的潜在依赖结构。

每个区块因果SNP数量的影响

我们研究了5种方法对参数的鲁棒性因果SNP，即大小为8的块中相关变量的数量。图6将pAUC显示为的函数因果SNP对于ρ=0.4.

这些结果说明了所提出的群体方法对越来越多的因果SNP的稳健性，而其3个竞争对手的情况并非如此。事实上，当区块内相关SNP数量超过2时，经典方法的性能显著恶化时，组策略的性能保持不变。更具体地，对于两个相关性水平，Group Lasso选择8个SNP的相关块。相反，如果变量之间存在相关性，拉索无法恢复真正的相关SNP。正如预期的那样，当相关性结构足够强，使该模型的分组效应有效时，Elastic-Net的性能略优于Lasso(ρ≥0.4).

小等位基因频率分布的影响

我们的模拟模型改编自[26]允许再现GWAS数据的群体结构相关性（见图三). 然而，正如一位评论员所指出的，修复了截止参数c（c）标准正态分布的第一个分位数，如[26]产生不切实际的微小等位基因频率（MAF）分布。为了解决这一点，我们模拟了基因型矩阵，其中SNP的MAF在0.05到0.5之间均匀采样。这大致对应于实际GWA研究中观察到的MAF分布[11]MAF=0.05是一个常用阈值，用于将变体划分为罕见和常见变体。

然后，我们进行了上述相同的模拟研究，将尺寸参数调整到MAF的新范围。具体来说，我们使用了n个=1000，以便能够足够频繁地观察到MAF较低的变体。因此R（右） ²为了使问题的难度相似，比率降低到0.01。标记的数量增加到对=4096，以保持对»n个最后，将大小为2、2、4、8、16和32的组重复64次，共产生384组。

结果和结论与前几小节的结果和结论几乎相同（参见附加文件1和2). 首先，对于第节中具有孤立因果SNP的场景区块级与SNP级评估“以及第节中因果标记数量增加的情况”每个区块因果SNP数量的影响'，所有方法的性能顺序保持不变，由于高维比不太严格，所有方法都普遍增加n个/对与前面小节中使用的比率相比。其次，该方法的前两步能够完美地检索出底层块结构，即使相关性值很低。相反，场景中的性能曲线LD块推理的效率'仅为叠加ρ≥0.4. 这种差异可以通过以下事实来解释：个体数量的增加n个导致了更显著的LD块结构。

半模拟数据结果

为了控制因果SNP，同时考虑SNP之间的现实依赖结构，我们使用了半模拟数据，其中基因型来自真实的GWA研究，表型使用第模拟设置'带有预先确定的因果SNP。这种模拟允许研究具有真实链接不平衡结构的数据集，同时具有基本事实。基因型数据对应于第一个对=22号染色体的2048个SNPn个=GWA HIV研究中的100人[11]. 该数据集在“艾滋病毒数据分析’. 首先使用两种基于组的方法的第一步推断LD块结构：

CHC-Gap：提出的约束层次聚类，然后是Gap统计。
CI：PLINK中使用的默认置信区间方法。

CHC-Gap程序估计了225个区块，CI程序推断了993个区块，包括555个大小为1的区块（单个SNP）。与之前的模拟研究类似，通过增加相关变量的数量，产生了300个连续表型因果SNP在大小为8的块中。图7将pAUC显示为的函数因果SNP.

考虑到用CHC-Gap估计的块，我们将所提方法的性能与非分组方法的性能进行了比较（图的左面板7). 如第节所述区块级与SNP级评估'，用于因果SNP ∈{1,2}，由于组选择产生的误报数量很高，因此所提出的方法优于其竞争对手。相反，竞争方法的性能在因果SNP>2拉索集团并非如此。这一结果也与第节中获得的结果一致每个区块因果SNP数量的影响’.

类似地，给定用CI推断的块结构，我们研究了oracle Group Lasso、单倍型关联方法和3种非分组方法对参数的鲁棒性因果SNP（图的右面板7). 比较单倍型关联和群拉索方法，我们观察到当一个区块中包含一个独特的因果SNP时，表现的差异。拉索集团业绩下滑是由于区块结构的差异造成的：如第节所述区块级与SNP级评估'，组套索惩罚随块大小增加而增加，使得此方法很难在存在许多较小块的情况下选择正确的块。在实践中，这并不成问题，因为拟议方法中的块选择步骤产生较大的块。相反，单倍型关联方法执行对-将块结构考虑在内的值校正，但对-因果SNP的值非常小，调整几乎不会降低区块的重要性。此外，如“模拟设置“值得注意的是，拉索集团的业绩在第一时间就超过了竞争方法因果SNP>2甚至用于SNP级评估。

章节结果之间的一致性模拟数据结果'和'半模拟数据结果'建议第节中使用的模拟设置'模拟数据结果“有效模拟真实的基因分型数据集。

HIV数据分析

数据集

HIV数据集包括对=20811个SNP基因型n个=605名白人受试者，血浆HIV-RNA水平为表型。它对应于GWA研究中与6号染色体相关的表型和基因型数据[11]. 少数SNP被从研究中剔除，因为它们产生了未定义的LD值。因此，过滤后的数据集包含20756个SNP。使用Bioconductor R包对缺失值进行插补snpStats（snpStat）[21]. 对于提议的方法，该插补是在第从基因型推断LD阻断'和'组数估计'，因为所建议的约束聚类算法处理缺少的值。使用相同的数据集进行单倍型关联方法。每个比较模型都根据患者的性别进行了调整。

块推理

推断应用于HIV数据的LD区块的第一步是估计1756个区块B=间隙统计算法中生成的500个空参考数据集。获得的块的大小分布如图的直方图所示8（左侧面板）。中间块大小接近10，绝大多数块的大小小于30。单倍型关联方法的第一步估计了9003个单倍型区块，包括4699个单核苷酸多态性。获得的块的大小分布如图右侧面板上的直方图所示8与通过所提出的方法推断的LD结构不同，单倍型块要小得多，平均块大小为2。

HIV数据结果

我们能够重现[11]：SMA识别的SNP对应于[11]目标错误发现率（FDR）为25%大多数SNP位于主要组织相容性复合体（MHC）区域6p21。该地区68个相邻SNP的连锁不平衡图如图所示9.标有红星的SNP(*)是SMA选择的。除了3个SNP外，Lasso选择的前20个SNP与单变量模型选择的相同；这三个SNP的名称用蓝色破折号标记(-)在图的左侧面板中9.

该图（等高线）还突出显示了由所提方法的聚类和模型选择步骤以及竞争单倍型关联方法推断出的局部块结构。左面板最大两个块内的平均LD为第页 ²=0.41和第页 ²分别=0.55。Lasso能够恢复由[11]在第一个区块中，由[11]在第二个街区。这与Lasso的设计不是为了选择相关变量这一事实相一致，正如第节中已经讨论的那样竞争性方法’.

在该区域中，通过建议方法推断出的四个区块中，具有红色等高线的三个区块是拉索集团选择的前15个区块之一（参见附加文件三曼哈顿阴谋）。几乎所有这些SNP的大小都超过10个，除了包含3个和4个SNP的两个区块已经由[11]，如图所示9SMA选择的其余8个SNP中的每一个都位于平均大小约为18个SNP的不同LD块中。事实上，拉索集团尚未检测到这些SNP，这与我们的模拟数据的结果一致。的确，图4显示，拉索组倾向于选择小组SNP，因为其默认惩罚。

与Lasso或Elastic-Net相反，所提出的方法检测到的SNP组尚未通过[11]. 这些SNP组中的一些可能包含有趣的候选者，如下面图中的描述所述10.

与提出的方法类似，我们重点关注单倍型关联方法选择的前15个区块（包括单个SNP）。在图中所示的同一区域中，通过单倍型关联方法选择的5个区块9用红色轮廓线表示。竞争方法能够恢复[11]并且位于这个地区。然而，它检测到了一组SNPs，这些SNPs在之前的研究中没有被发现。这种差异可能是由于强烈的LD(第页 ²=0.81）。

由两种分组策略选择的前15个LD块中的每一个都表示为图中的彩色水平段10，其中x个轴对应于（−log10-转换）SMA对-通过以下方式获得的值[11].

对于单倍型关联方法（图的右面板10)，15个区块中有6个由单个SNP组成，该SNP已在[11]. 此外，对于所建议方法选择的15个LD块中的几个（图的左面板10),块的所有SMA p值小于（非乘数修正）0.05水平（−log10处的垂直虚线标记线(对)=1.3). 因此，尽管我们并不是说所有这些SNP组都与HIV相关，但我们相信其中一些可能包含有趣的候选基因。垂直虚线突出显示了用于[11]. 因此，4^第个和14^第个穿过垂直虚线的块对应于图左侧面板中最大的两个块10，其分别包含先前由[11]. 我们还认为10是一个有趣的诊断图，用于确定与疾病相关的候选SNP组。需要进一步的复制或荟萃分析工作来确认这些新候选基因与表型之间的关联。

结论

在本文中，我们提出了一种三步方法，该方法通过首先推断LD块，然后估计此类块的数量，最后对这些推断的组进行群Lasso回归，从而考虑变量间连锁不平衡的生物信息。此方法实现为R（右）包裹。虽然我们在模拟和应用中使用了连续表型，但通过使用每个回归模型的逻辑版本，本文描述的方法可以扩展到分类表型的研究。

我们已经通过仿真证明，该方法可以有效地检索SNP之间真实LD水平的底层块结构。此外，为了识别，我们提出的方法优于最先进的SMA和惩罚回归方法Lasso和Elastic-Net包含因果SNP的区块。我们认为选择阻碍在GWAS背景下，与表型相关的（而非单个SNP）是一个明智的目标，其中单个SNP解释的遗传率比例通常较低。有趣的是，尽管所提出的方法只能选择一组SNP，而不能选择单个SNP，但我们对模拟数据的结果表明，只要同一LD块中相关SNP的数量超过2，该方法在选择因果SNP方面就比最新方法表现得更好。

我们还将这种方法应用于具有真实基因型矩阵和模拟表型的半模拟数据。当一个区块内的因果标记数量超过2个时，与非分组经典策略和明确考虑区块结构信息的单倍型关联方法相比，该方法显示出显著的性能。这一结果表明，该方法适用于实际的连锁非均衡结构。

最后，将该方法应用于HIV数据表明，该方法能够（i）部分恢复通过单基因座方法识别的信号，以及（ii）查明以前忽略的关联。我们相信，这些结果证明了该方法的相关性，从而说明了在GWAS等高维基因组研究中定制生物知识整合的重要性。

我们提出的方法的一个局限性是，它没有为选定的组提供显著性评估。导出可靠的对-一般来说，在机器学习和统计领域，高维相关设置中回归系数的值是一个具有挑战性的研究领域[27，28].

然而，即使如此对-通过我们提出的方法可以获得各组的值，我们想强调的是，在GWAS中提供可解释的多重测试风险评估仍然是一个困难的问题。虽然已经提出了一些多SNP测试来评估SNP组的重要性[5，29]，没有完全令人满意的策略允许控制标准的多重测试错误率，例如家族错误率（FWER）或错误发现率（FDR）。事实上，解释变量之间的相关性使得因果SNP无法与其“邻居”区分开来。此问题并非特定于特定的推理方法，而是GWAS设计的固有问题。因此，我们认为应该通过调整真阳性和假阳性的定义来解决这一问题。在本文中，我们考虑了两种不同的风险评估基因组尺度：SNP级和区块级评估。最近提出了一种类似精神的替代战略[4]. 这两种策略都依赖于对兴趣信号规模的事先定义。对于未来的工作，我们希望制定一种评估策略和一种适用于该量表的相关推理方法。一个可能的方向是采用可变重要性的分层测试的概念[30，31]GWAS的具体背景。

缩写

资产负债表：: 曲线下面积
光头：: 利用联系不平衡的分块方法
财务总监：: 错误发现率
转发：: 家庭错误率
GWAS：: 全基因组关联研究
艾滋病毒：: 人类免疫缺陷病毒
劳埃德：: 连锁不平衡
最大允许流量：: 次等位基因频率
座椅模块组件：: 单标记分析
SNP公司：: 单核苷酸多态性

参考文献

Manolio TA、Collins FS、Cox NJ、Goldstein DB、Hindorff LA、Hunter DJ等。寻找复杂疾病的缺失遗传力。自然。2009; 461(7265):747–53.
第条中国科学院公共医学公共医学中心谷歌学者
Burton PR、Clayton DG、Cardon LR、Craddock N、Deloukas P、Duncanson A等。对14000例七种常见疾病和3000例共享对照的全基因组关联研究。自然。2007; 447(7145):661–78.
第条中国科学院谷歌学者
Sham PC，Purcell SM。大规模遗传研究中的统计能力和显著性测试。Nat Rev基因。2014; 15（5）：335–46。
第条中国科学院公共医学谷歌学者
Yi H，Breheny P，Imam N，Liu Y，Hoeschele I。数量性状全基因组关联研究的惩罚多标记与单标记回归方法。遗传学。2015年；199(1):205–22.
第条公共医学谷歌学者
Li M-X，Gui H-S，Kwan JS，Sham PC.Gates：一种使用扩展simes程序的快速而强大的基于基因的关联测试。美国人类遗传学杂志。2011; 88(3):283–93.
第条中国科学院谷歌学者
Tibshirani R.通过套索回归收缩和选择。J R Stat Soc Ser B（方法学）。1996; 58(1):267–88.
谷歌学者
邹H，Hastie T.通过弹性网进行正则化和变量选择。J R Stat Soc Ser B（统计方法）。2005; 67(2):301–20.
第条谷歌学者
Abraham G，Kowalczyk A，Zobel J，Inouye M.复杂人类疾病遗传预测中惩罚和非惩罚方法的性能和稳健性。基因流行病学。2013; 37(2):184–95.
第条公共医学谷歌学者
Waldmann P，Mészáros G，Gredler B，Fuerst C，Sölkner J.基因组关联研究中套索和弹性网的评估。前发电机。2013; 4:4–270.
第条中国科学院谷歌学者
de Maturana EL、Ibáñez-Escriche N、González-Recio Oh、Marenne G、Mehrban H、Chanock SJ等。GWAS中的下一代建模：比较不同的遗传结构。人类遗传学。2014; 133(10):1235–53.
第条谷歌学者
Dalmasso C、Carpentier W、Meyer L、Rouzioux C、Goujard C、Chaix M-L等。不同遗传位点控制HIV-1感染中的血浆HIV-RNA和细胞HIV-DNA水平：ANRS基因组广泛关联01研究。公共科学图书馆一号。2008; 3(12):3907.
第条中国科学院谷歌学者
袁明，林毅。分组变量回归中的模型选择和估计。J R Stat Soc Ser B（统计方法）。2005; 68(1):49–67.
第条谷歌学者
Tibshirani R，Walther G，Hastie T。通过间隙统计估计数据集中的簇数。J R Stat Soc Ser B（统计方法）。2001; 63(2):411–23.
第条谷歌学者
JH小病房。分层分组以优化目标函数。《美国统计学会杂志》，1963年；58(301):236–44.
第条谷歌学者
Schölkopf B，Smola AJ。使用内核学习：支持向量机、正则化、优化等（自适应计算和机器学习）。伦敦剑桥：麻省理工学院出版社；2001
谷歌学者
Caliáski T，Harabasz J.聚类分析的枝晶方法。公共统计理论方法。1974; 3(1):1–27.
第条谷歌学者
Hartigan JA公司。聚类算法。纽约州纽约市：Wiley；1975
谷歌学者
Krzanowski WJ，Lai Y.使用平方和聚类确定数据集中组数的标准。生物统计学。1988; 44(1):23–34.
第条谷歌学者
Mohajer M、Englemeier K-H、Schmid VJ。带对数函数和不带对数函数的Gap统计定义的比较。2011http://arxiv.org/abs/103.4767.
Grandvalet Y、Chiquet J、Ambroise C.以最坏情况下的二次罚分稀疏比赛。2012网址：http://arxiv.org/abs/1210-2077.
Clayton D.snpStats：SnpMatrix和XSnpMatrix-类和方法。R软件包版本1.12.0。2013
Clayton D，Leung H-T.全基因组关联研究分析的R包。人类遗传。2007; 64(1):45–51.
第条公共医学谷歌学者
Purcell S、Neale B、Todd-Brown K、Thomas L、Ferreira MA、Bender D等.PLINK：全基因组关联和基于群体的连锁分析的工具集。美国人类遗传学杂志。2007; 81(3):559–75.
第条中国科学院谷歌学者
Gabriel SB、Schaffner SF、Nguyen H、Moore JM、Roy J、Blumenstiel B等。人类基因组中单倍型块的结构。科学。2002; 296(5576):2225–9.
第条中国科学院公共医学谷歌学者
秦志胜，牛涛，刘建生。分区-期望最大化算法，用于单核苷酸多态性单倍型推断。美国人类遗传学杂志。2002; 71(5):1242.
第条中国科学院谷歌学者
Wu TT，Chen YF，Hastie T，Sobel E，Lange K。通过套索惩罚逻辑回归进行全基因组关联分析。生物信息学。2009; 25(6):714–21.
第条中国科学院公共医学公共医学中心谷歌学者
Bühlmann P.高维线性模型的统计意义。伯努利。2013; 19:1212–42.
第条谷歌学者
Chatterjee A，Lahiri SN.引导套索估值器。2011年美国统计协会；106(494):608–25.
第条中国科学院谷歌学者
Kwee LC，Liu D，Lin X，Ghosh D，Epstein MP。数量性状的强大而灵活的多点关联测试。Am J人类基因。2008; 82(2):386–97.
第条中国科学院谷歌学者
Meinshausen N.变量重要性的层次测试。生物特征。2008; 95(2):265–78.
第条谷歌学者
Mandozzi J，Bühlmann P.相关变量高维回归的序贯拒绝检验方法。2015http://arxiv.org/abs/1502.03300.

下载参考资料

致谢

这项工作部分由国家癌症研究所（INCa）和Cancéropóle Ile-de-France资助。作者衷心感谢Cyril Dalmasso对该方法的讨论以及对HIV数据及其分析的帮助。

作者信息

作者和附属机构

埃夫里大学数学与数学模型实验室（LaMME），埃夫里-瓦尔-德埃松大学/UMR CNRS 8071/ENSIIE/USC INRA，法国埃夫里
Alia Dehman、Christophe Ambroise和Pierre Neuvial

作者

阿里亚·德曼
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
克里斯托夫·安布罗斯
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
皮埃尔·诺维亚尔
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者

通讯作者

与的通信阿利娅·德赫曼.

其他信息

竞争性利益

作者声明，他们没有相互竞争的利益。

作者的贡献

AD、CA和PN构思了这项研究，进行了分析并撰写了论文。AD和PN编写了软件。所有作者阅读并批准了最终手稿。

权利和权限

这是一篇根据知识共享署名许可条款发布的开放存取文章(http://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品，前提是正确引用了原始作品。知识共享公共领域专用豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据，除非另有说明。

重印和许可

关于本文

引用本文

Dehman，A.，Ambroise，C.&Neuvial，P.使用连锁不平衡信息进行变量选择的分块方法的性能。BMC生物信息学 16, 148 (2015). https://doi.org/10.1186/s12859-015-0556-6

下载引文

收到:2014年7月30日
认可的:2015年3月30日
已发布:2015年5月8日
内政部:https://doi.org/10.1186/s12859-015-0556-6