Efficient Bayesian mixed model analysis increases association power in large cohorts

Po-Ru Loh; George Tucker; Brendan K Bulik-Sullivan; Bjarni J Vilhjálmsson; Hilary K Finucane; Rany M Salem; Daniel I Chasman; Paul M Ridker; Benjamin M Neale; Bonnie Berger; Nick Patterson; Alkes L Price

doi:10.1038/ng.3190

自然遗传学。作者手稿；PMC 2015年9月1日提供。

以最终编辑形式发布为：

自然遗传学。2015年3月；47(3): 284–290.

2015年2月2日在线发布。数字对象标识：10.1038/ng.3190

预防性维修识别码：项目经理4342297

NIHMSID公司：NIHMS650284标准

PMID：25642633

有效的贝叶斯混合模型分析提高了大规模队列中的关联能力

波鲁洛,^1,² 乔治·塔克,^1,^三，⁴ 布伦丹·布利克·苏利凡,^2,⁵ 比亚尼·J·维尔姆森,^1,² 希拉里·科·菲努凯恩,^三拉尼·M·塞勒姆,^2,⁶ 丹尼尔·查斯曼,⁷ 保罗·M·里德克,⁷ 本杰明·M·尼尔,^2,⁵ 邦妮·伯杰,^三，⁴ 尼克·帕特森,²和阿尔克斯L价格^1,^2,⁸

宝汝路

¹美国马萨诸塞州波士顿哈佛大学公共卫生学院流行病学系。

²美国马萨诸塞州剑桥市哈佛大学和麻省理工学院广泛研究所医学和人口遗传学项目。

查找文章依据波鲁洛

乔治·塔克

¹美国马萨诸塞州波士顿哈佛公共卫生学院流行病学系。

^三美国马萨诸塞州剑桥市麻省理工学院数学系。

⁴计算机科学和人工智能实验室，美国马萨诸塞州剑桥。

查找文章依据乔治·塔克

布伦丹·布利克·苏利凡

²美国马萨诸塞州剑桥市哈佛大学和麻省理工学院广泛研究所医学和人口遗传学项目。

⁵美国马萨诸塞州波士顿市马萨诸塞总医院分析和转化遗传学室。

查找文章依据布伦丹·K·布利克·沙利文

比亚尼·J·维尔姆森

¹美国马萨诸塞州波士顿哈佛公共卫生学院流行病学系。

²美国马萨诸塞州剑桥市哈佛大学和麻省理工学院广泛研究所医学和人口遗传学项目。

查找文章依据比亚尼·J·维尔姆森

希拉里·科·菲努凯恩

^三美国马萨诸塞州剑桥市麻省理工学院数学系。

查找文章依据希拉里·科·菲努凯恩

拉尼·M·塞勒姆

²美国马萨诸塞州剑桥市哈佛大学和麻省理工学院广泛研究所医学和人口遗传学项目。

⁶美国马萨诸塞州波士顿儿童医院内分泌科。

查找文章依据拉尼·M·塞勒姆

丹尼尔·查斯曼

⁷美国马萨诸塞州波士顿市百翰女子医院预防医学科。

查找文章依据丹尼尔·查斯曼

保罗·M·里德克

⁷美国马萨诸塞州波士顿市百翰女子医院预防医学科。

查找文章依据保罗·M·里德克

本杰明·M·尼尔

²美国马萨诸塞州剑桥市哈佛大学和麻省理工学院广泛研究所医学和人口遗传学项目。

⁵美国马萨诸塞州波士顿市马萨诸塞总医院分析和转化遗传学室。

查找文章依据本杰明·M·尼尔

邦妮·伯杰

^三美国马萨诸塞州剑桥市麻省理工学院数学系。

⁴计算机科学和人工智能实验室，美国马萨诸塞州剑桥。

查找文章依据邦妮·伯杰

尼克·帕特森

²美国马萨诸塞州剑桥市哈佛大学和麻省理工学院广泛研究所医学和人口遗传学项目。

查找文章依据尼克·帕特森

阿尔克斯L价格

¹美国马萨诸塞州波士顿哈佛大学公共卫生学院流行病学系。

²美国马萨诸塞州剑桥市哈佛大学布罗德研究所和麻省理工学院医学和群体遗传学项目。

⁸美国马萨诸塞州波士顿哈佛公共卫生学院生物统计学系。

查找文章依据阿尔克斯L价格

作者信息版权和许可信息 PMC免责声明

关联数据

补充资料: 1
NIHMS650284-补充-1.pdf（632K）
GUID:1E8FBCF4-4DDE-4380-A6AD-E2D45668BB8B

摘要

线性混合模型是一种强大的统计工具，用于识别遗传关联并避免混淆。然而，现有方法在大规模队列中计算困难，可能无法优化功率。所有现有方法都需要时间成本O（MN²)（其中N=#samples和M=#SNP），并隐式假设一个无限小的遗传结构，其中效应大小是正态分布的，这可能会限制功率。在这里，我们提出了一种效率更高的混合模型关联方法，即BOLT-LMM，它只需要少量的O（MN）时间迭代，并通过在标记效应大小之前通过贝叶斯混合建模更真实、非有限的遗传结构来增加功率。我们将BOLT-LMM应用于来自女性基因组健康研究（WGHS）的23294个样本中的9个数量性状，并观察到功率显著增加，与模拟结果一致。理论和模拟表明，随着队列规模的增加，功率的增加，使得BOLT-LMM在大规模队列中对GWAS具有吸引力。

线性混合模型正在成为全基因组关联研究（GWAS）中关联测试的首选方法，因为它们同时考虑了群体分层和隐性关联性，并通过联合建模所有基因型标记来提高统计能力^1–12然而，现有的混合模型方法仍有局限性。首先，混合模型分析的计算成本很高。尽管最近在算法方面取得了一系列进步，但当前的算法需要O（运行）(明尼苏达州²)或O（运行）(M（M）²N个)总运行时间，其中M（M）是标记的数量和N个是样本大小。这一成本对于大型队列来说变得难以承受，迫使现有方法对标记进行二次抽样，以便M（M）<N个（参考。⁵). 第二，由于关于表型的遗传结构的次优建模假设，当前的混合模型方法无法实现最大的统计能力。标准线性混合模型隐含地假设所有变异都是因果的，小效应大小来自独立的高斯分布，即“无穷小模型”，而实际上，复杂性状估计大约有几千个因果位点^13,14.

在方法论上，更准确地建模非有限遗传结构的努力遵循了两个主要方向。一种方法是应用标准的无穷小混合模型，但要调整输入数据。例如，大效应基因座可以被明确地识别出来，并被限制为固定效应⁷，或者混合模型只能应用于选定的标记子集^9,11,15,16一种更灵活的替代方法是采用贝叶斯观点调整混合模型，并用非高斯先验分布建模SNP效应，以更好地适应小效应和大效应基因座。这种方法在家畜遗传学中首创，以改进遗传值的预测¹⁷并在植物和动物育种文献中广泛开发用于基因组选择¹⁸这些技术在关联测试环境中很有意义，因为改进预测的模型在理论上应该能够相应地提高关联能力（通过测试候选标记时对其他相关位点进行调节^9,12). 在这里，我们提出了一种算法，可以在少量O（运行）(明尼苏达州)-时间迭代并通过建模非有限的遗传结构来增加能量。我们的算法符合SNP效应的高斯混合模型¹⁹，使用快速变分近似^20–22计算近似表型残差，并通过回顾性得分统计测试残差与候选标记的关联²³这为表型预测的贝叶斯建模和频率学家关联测试框架之间提供了一座桥梁。我们使用基于最近开发的LD Score回归技术的方法来校准我们的统计数据²⁴整个过程直接对存储在内存中的原始基因型进行操作，不需要计算或存储遗传关系矩阵。在无穷小模型的特殊情况下，我们以显著降低的时间和内存成本获得了与现有方法等效的结果。

我们为我们的算法BOLT-LMM提供了一个有效的软件实现，并在多达48万人的模拟数据集上证明了其计算效率。我们的模拟还表明，与由数千个因果SNP驱动的性状的标准无穷小混合模型分析相比，BOLT-LMM实现了更强的关联能力。我们应用BOLT-LMM对来自女性基因组健康研究（WGHS）的23294个样本中的9个数量性状进行混合模型分析²⁵并且观察到关联能力的增加相当于有效样本量增加了10%。我们通过理论和仿真证明，功率提升随着队列规模的增加而增加，这使得BOLT-LMM成为大规模GWAS的一种有前途的方法。

结果

方法概述

BOLT-LMM算法由四个主要步骤组成，每个步骤都需要少量的O（运行）(明尼苏达州)-时间迭代。这些步骤是：（1a）估计方差参数；（1b）计算无穷小混合模型关联统计（表示为BOLT-LMM-inf）；（2a）估计高斯混合参数；（2b）计算高斯混合模型关联统计（BOLT-LMM）。步骤1a计算的结果与标准方差分量分析几乎相同，但应用了随机近似算法^26,27这可以通过避免光谱分解来减少时间和内存成本，而光谱分解对于大样本来说是很昂贵的。相反，近似算法只需要求解混合模型方程的线性系统，这可以通过共轭梯度迭代有效地实现^28,29步骤1b同样通过引入一个类似于GRAMMAR-Gamma的新的回顾性混合模型关联统计来规避谱分解¹⁰和MASTOR²³，我们用线性方程组的唯一解计算出校准常数。我们通过计算和比较SNP随机子集上的新统计量和标准预期混合模型统计量来估计校准常数，这同样可以使用共轭梯度迭代有效地完成。该程序在精神上与GRAMMAR-Gamma校准类似，但只需要O（运行）(明尼苏达州)-时间迭代。

步骤2a和2b是步骤1a和1b的高斯混合平行线。BOLT-LMM的非有限模型相当于标准混合模型的推广，从贝叶斯的角度来看，该模型对SNP效应大小施加了高斯先验分布。BOLT-LMM通过使用两个高斯的混合物作为先验来放宽这一假设，使模型具有更大的灵活性，以适应大效应SNP，同时保持基因组范围效应（例如祖先）的有效建模。在广义模型下，精确的后验推理不再可行，因此BOLT-LMM计算变分近似^20–22在一小部分O（运行）(明尼苏达州)-时间迭代。步骤2a在5倍交叉验证中应用此方法，根据样本外预测精度估计先验分布的最佳拟合参数（考虑步骤1a中估计的方差参数）。如果最佳拟合高斯混合模型的预测精度超过无穷小模型的预测准确性至少规定数量，然后运行步骤2b，根据高斯混合模型获得的剩余表型测试每个SNP，并使用LD得分回归，根据步骤1b的结果校准测试统计数据，从而计算关联统计数据²⁴否则，BOLT-LMM关联统计与BOLT-LMM-inf相同。步骤1b和步骤2b都是使用leave-on-chromosome-out（LOCO）方案执行的，以避免近端污染^5,9,12（该软件还支持将染色体细分为更多片段；参见在线方法。）将BOLT-LMM关于速度和建模假设的关键属性与表1.

表1

对所有SNP建模的快速混合模型关联方法进行比较。

方法^一	需要O（MN²)时间	避免接近污染	型号非无穷小遗传建筑学
EMMAX公司[3]	X（X）
FaST-LMM【5】	X（X）^b条	X（X）
FaST-LMM-选择[9，11，15]	X（X）^b条	X（X）	X（X）^c（c）
GEMMA公司[6]	X（X）
语法-语法[10]	X（X）^d日
GCTA-LOCO[12]	X（X）	X（X）
LMM螺栓		X（X）	X（X）

在单独的窗口中打开

^一对于在多个出版物上更新过的方法，我们引用并列出了最新发布版本的特征。

^b条如果M（M）<N个，FaST-LMM和FaST-LMM-Select可以在中完成O（运行）(M（M）²N个)时间。

^c（c）FaST-LMM-通过将混合模型限制为SNP子集来选择非有限遗传结构模型；这种方法的一个警告是，它可能会引起分层混淆的敏感性¹².

^d日GRAMMAR-Gamma需要O（运行）(明尼苏达州²)时间仅用于遗传关系矩阵的初始计算，而不用于计算关联测试统计。有关每个算法步骤的计算复杂性的详细分类，请参阅参考文献的表1。¹².

BOLT-LMM与现有方法的计算成本

为了分析BOLT-LMM的计算性能，我们模拟了大小从N个=3750至480000人M（M）=300000 SNP。我们使用WTCCC2数据集中的基因型³⁰参考文献分析。¹²包含15633个欧洲血统个体，以形成镶嵌染色体，我们使用了一个表型模型，其中5000个SNP解释了20%的表型变异(补充说明).

我们根据现有的混合模型关联方法对BOLT-LMM进行了基准测试，每个方法在内存为96GB的机器上最多运行10天。BOLT-LMM通过N个=48000人在这些限制范围内，而以前的方法最多只能分析N个=7500-30000人(图1和补充表1). 所有以前的方法都需要O（运行）(明尼苏达州²)运行时间（对于M（M）>N个)，而BOLT-LMM的运行时间大致与明尼苏达州^1.5(图1a和补充图1a). 我们还观察到使用BOLT-LMM可以显著节省内存使用(图1b和补充图1b)，只需要明尼苏达州/存储原始基因型所需的4字节内存（如GenABEL软件中所示³¹).

在单独的窗口中打开

图1

混合模型关联方法的计算性能

对数长度图(一)运行时间和(b条)记忆作为样本大小的函数(N个). 曲线斜率对应于幂律缩放指数N个对模拟数据集进行基准测试，其中每个样本都是从WTCCC2数据集中的2个随机“父母”中生成的基因型数据的马赛克(N个=15,633,M（M）=360K），表型用M（M）_{因果关系的}=5000名SNP解释小时²_{因果关系的}=0.2的表型方差。报告的运行时间是使用2.27 GHz Intel Xeon L5640处理器的一个内核的五次相同运行的中位数。我们注意到，运行时间比较可能会随着计算环境的变化而变化一个小的常数因子。FaST-LMM-Select（分别是GCTA-LOCO、EMMAX）内存使用超过96GBN个=15K（分别为30K和60K）。GEMMA在处遇到运行时错误（分段错误）N个=30公里。软件版本：FaST-LMM-Select，v2.07；GCTA-LOCO，v1.24；EMMAX，v20120210；GEMMA，v0.94。数值数据见补充表1.

BOLT-LMM的运行时间不仅取决于矩阵运算的成本，矩阵运算的成本与M（M）和N个，还有O（运行）(明尼苏达州)-收敛所需的时间迭代，经验上大致按N个^0.5(补充图1)也因遗传力、亲缘关系和人口结构而异(补充说明和补充图2). 这些观察结果既适用于BOLT-LMM执行的全高斯混合建模，也适用于计算BOLT-LMM-inf无穷小混合模型关联统计所需的计算子集（步骤1a和1b(图1a和补充图1a). 我们的结果表明，即使在非常大的数据集上，BOLT-LMM也足够有效，可以使用高斯混合先验进行混合模型分析，我们推荐使用高斯混合优先权，因为它可能会增加功率。

仿真中BOLT-LMM的功率和误报控制

为了评估BOLT-LMM检测相关基因座的能力，我们使用WTCCC2数据集的真实基因型进行了额外的模拟，该数据集是一个包含北欧和南欧样本的祖先分层样本。我们用1250-10000个因果SNP模拟了表型^13,14解释了50%的表型变异，另外60个标准化效应SNPs解释了2%的变异。我们包括后一类SNP，以便在不同的模拟设置之间进行直接功率比较，因为无论其他模拟参数如何，60个标准化效应SNP总是解释相同的总方差。我们进一步引入了祖先的环境差异，包括与顶级主成分一致的表型成分，这解释了额外1%的差异。（我们注意到主成分分析不是BOLT-LMM的一部分；在运行混合模型关联方法时，不需要执行PCA¹².）我们从染色体的前半部分随机选择了因果SNP，留下染色体的后半部分仅包含非因果SNP(补充说明).

我们计算了χ²使用10个主成分线性回归（PCA）的关联统计³²、GCTA-LOCO¹²、螺栓-LMM-inf和螺栓-LMM。我们无法测试FaST-LMM-Select¹⁵由于其内存需求(图1). 对于每种方法，我们计算其χ的平均值²标准化效应SNP的统计数据，并在涉及不同数量因果SNP的模拟中比较这些平均值(图2a和补充表2). 我们观察到，BOLT-LMM通过建模非有限结构实现了功率增益。对于最稀疏的遗传结构（1250个因果SNPs加上60个标准化效应SNPs），我们观察到平均BOLT-LMMχ增加了25%²与GCTA-LOCO和BOLT-LMM-inf无穷小混合模型χ相比，标准化效应SNP的统计数据²统计数据。这个指标很容易解释为有效样本量增加了25%；为了完整性，我们还计算了两个显著性阈值下的传统功率曲线(补充图3). 高斯混合模型的功率增益随着因果SNP数量的增加而降低(图2a). 这种行为是意料之中的，因为高斯混合的优点在于它能够更准确地对大多数具有近零效应的SNP中影响较大的一小部分SNP进行建模。解释固定方差比例的因果SNP数量越多，每个因果SNP的效应大小越小，BOLT-LMM获得功率增益的机会越少。相比之下，除BOLT-LMM以外的所有方法的性能都与因果SNP的数量无关，这与这些方法都没有建模非有限遗传结构的事实一致。GCTA-LOCO和BOLT-LMM-inf平均值χ²标准化效应SNP的统计数据基本相同，略高于PCA，与理论一致¹²。我们还测试了EMMAX^三和GEMMA⁶易受近距离污染^5,9,12; 相对于PCA，这些方法的功率损失(补充图4a)，与理论相符¹².

在单独的窗口中打开

图2

BOLT-LMM增加了在仿真中检测关联的能力

平均值χ²标准化效应下SNP作为(一)因果SNP的数量(b条)由因果SNP解释的方差比例(c（c）)样本数量。模拟使用WTCCC2数据集中的真实基因型(N个=15,633,M（M）=360K）和具有特定数量的因果SNP的模拟表型解释了特定比例的表型方差，60个以上的标准化效应SNP解释了额外2%的方差。误差条，s.e.m.，100个模拟。我们在前5个模拟中验证了BOLT-LMM-inf和GCTA-LOCO统计几乎相同(补充表7). 数值数据见补充表2.

为了进一步探讨高斯混合模型功率增益的大小与数据集其他参数之间的关系，我们还改变了因果SNP解释的方差比例(图2b)以及个人数量(图2c). 我们观察到，在无穷小混合模型分析（GCTA-LOCO、BOLT-LMM-inf）中，BOLT-LMM的功率提升随着每个参数的增加而增加。在使用大小数据集的进一步模拟中N个=30000和N个=60,000 (补充说明)和模拟表型M（M）_{因果关系的}=250–15000个因果SNP解释了15–35%的方差，我们观察到高斯混合模型的有效性与小时_克²不适用_{因果关系的}（其中小时_克²是用BOLT-LMM估计的遗传力参数；解释见在线方法）；直观地说，这个数量测量每个因果SNP的有效样本数(补充图5). 这些结果与理论相符(补充说明和补充表2第页，共页。¹²)，这解释了即使在没有混淆的情况下，混合模型分析在测试候选SNP时，也会以其他SNP的估计效果为条件，从而提供优于边际回归的功率增益^9,12随着样本量的增加，两种方法的功率增益均接近渐近线，对应于有效样本量的1/（1−小时_克²)但对于稀疏的遗传结构，高斯混合模型更接近这种渐近线。

为了验证BOLT-LMM的正确校准和对混杂的鲁棒性，我们还计算了平均χ²模拟到所有染色体第二部分的SNP统计数据都没有影响（“零SNP”）。由于我们模拟的表型包括祖先效应，没有校正人口分层的线性回归遭受了35%的通货膨胀。相比之下，BOLT-LMM和BOLT-LMM-inf统计数据都经过了很好的校准(补充图4b、补充表3和补充表4). 我们进一步验证了I型错误得到了适当控制（在线方法和补充表5)零SNP的统计分布没有明显偏离1 d.o.f.chi-square分布(补充图6a，b). 基因组通货膨胀因素³³对于BOLT-LMM和BOLT-LMM-inf，在这些模拟中超过1(补充图6c、d)与模拟表型的多基因性和成功避免近端污染的混合模型统计相一致^12,13相反，EMMAX和GEMMA缩减了测试统计数据(补充图4b).

为了检验BOLT-LMM用于贝叶斯模型拟合的变分近似的紧密性，并与FaST-LMM-Select进行比较，我们使用了与上述相同的设置，但只有三分之一的样本进行了小规模模拟(N个=5,211). 我们用1250个因果SNP模拟遗传结构，解释70%的表型方差（和之前一样，60个额外的标准化效应SNP解释2%的方差，而祖先解释1%）。我们运行了主成分分析、BOLT-LMM-inf、BOLT-LMM、FaST-LMM-Select和BOLT-LMM的修改版本，其中我们用马尔可夫链蒙特卡罗（MCMC）吉布斯采样器替换了步骤2b的变分迭代。在无限采样迭代的限制下，MCMC将生成由BOLT-LMM计算的后验近似的精确版本。在这些模拟中，变分迭代（即标准BOLT-LMM）获得了与MCMC在统计上相同的结果(补充表6a)，支持为BOLT-LMM选择可变贝叶斯。我们还观察到，虽然BOLT-LMM-inf实现了超过PCA的功率增益，而BOLT-LMM实现了超过BOLT-LMT-inf的进一步功率增益（与之前的模拟一致），但FaST-LMM-Select实现了低于BOLT-LMM-inf和BOLT-LSM的功率增益(补充表6a). 在将因果SNP的数量减少到500个的情况下重复此实验后，我们观察到FaST-LMM-Select在BOLT-LMM-inf和BOLT-LMM之间实现了功率增益(补充表6b). 最后，我们观察到BOLT-LMM使用的LD Score校准方法在应用于FaST-LMM-Select时也运行良好，验证了该校准方法(补充表6).

最后，我们研究了BOLT-LMM-inf混合模型统计与现有方法在单个SNP水平上的相似性。尽管使用了无穷小模型，但BOLT-LMM-inf统计与任何现有的混合模型统计并不相同，因为它是一个近似的测试统计，并避免了近端污染（在线方法和表1). 尽管如此，我们观察到BOLT-LMM-inf统计数据与GCTA-LOCO统计数据（使用标准前瞻模型）非常接近R（右）²>0.999 (补充表7和补充图7).

BOLT-LMM在WGHS表型中的应用

为了评估高斯混合模型分析在增加真实表型上的功效，我们分析了女性基因组健康研究中的九种表型(N个=23294个样本，M（M）=324488个SNP（QC后）（在线方法）。这些表型包括五种脂质表型、身高、体重指数和两种血压表型；由于大规模GWAS结果的可用性，我们选择分析这些表型。

我们比较了三种关联检验的功效：带有10个主成分的线性回归（PCA）³²使用BOLT-LMM-inf进行无穷小混合模型分析，使用BOLT-LMM进行高斯混合建模。由于内存限制(图1)，我们无法运行GCTA-LOCO¹²、FaST-LMM⁵，或FaST-LMM-Select¹⁵，这是以前唯一避免近端污染的方法(表1); 然而，GCTA-LOCO和BOLT-LMM-inf统计数据几乎相同(补充表7和补充图7). 为了比较这些方法的功效，我们计算了两个大致等效的指标：平均χ²已知相关基因座的统计数据，这是一种直接但有点杂乱的方法，因为每个性状只有19–180个基因座(补充表8)和样本外预测R（右）²（交叉验证中测量）混合模型方法使用所有SNP，线性回归仅使用PC。对于混合模型分析，后一个指标估计了混合模型在测试候选SNP时对其他SNP的影响进行调节的能力，这推动了它的威力（在线方法）^12,34.

对于所研究的所有性状，BOLT-LMM获得了比PCA更高的功效(图3和补充表9). 大多数增加是由于通过无限小混合模型分析获得的收益，这种功率增益的大小随着在少数基因座上推断的遗传效应浓度的增加而增加(补充表10). 评估改进的直接方法的标准误差（平均χ²在已知基因座上）较高（0.6-2.2%；图3a和补充表9)因此，9个性状中只有6个性状的改良具有统计学意义（p<0.05）。根据预测R（右）²在测量中，所有性状的改善都具有统计学意义（p<0.0002）(图3b和补充表9). 脂肪性状获得的收益最大；对于与LDL胆固醇密切相关的脂蛋白ApoB，BOLT-LMM分析的平均χ²统计数据与PCA比较，与已知位点的无限小混合模型分析相比，增加了9%。为了验证这些增加不仅仅是由几个影响最大的基因座驱动的，我们还计算了χ²统计数据（仅限于在WGHS中复制的至少具有标称值的基因座第页<0.05显著降低统计噪声）并获得一致的结果(补充表8). 模拟表明，这些改进将随着样本量的增加而增加(图2c和补充图5).

在单独的窗口中打开

图3

BOLT-LMM增强了检测WGHS表型关联的能力

我们使用10个主成分、标准（无穷小）混合模型分析和BOLT-LMM高斯混合模型分析来比较线性回归的功率（使用两个大致等效的指标测量）。（a）χ增加百分比²使用混合模型方法对已知基因座的统计与主成分分析：χ和比率²统计最高LD的类型SNP和已发表的相关SNP。（b）预测R（右）²5倍交叉验证的值：依次省略每个倍，通过同时拟合所有SNP效应（对于混合模型方法）或使用训练倍估计协变量效应（对于PCA）来计算预测。（注意，BOLT-LMM-inf在这里等价于BLUP预测。）我们在中显示了PCA（b）因为PC解释的少量差异（由于人口分层）提供了一个基线，可以转换预测R（右）²混合模型关联与PC协变量回归的功率增益。也就是说，关联能力和预测准确性之间的对应关系是（a）大致对应于（b）和类似的蓝色条（在线方法）。错误栏，折弯s.e.超过（a）已知位点(补充表8);（b）5次交叉验证折叠。数值数据见补充表9.

我们还观察到，无穷小混合模型分析比主成分分析获得了统计上显著的功率增益，功率增益的大小随着遗传力参数的增加而增加小时_克²(图3和补充表9). 对于高度(小时_克²=0.47（WGHS），WGHS的中等大样本量(N个=23294）足以使BOLT-LMM-infχ增加6%²统计与主成分分析，符合理论^12,34同样，更大的样本量将带来更多收益^12,34.

为了验证BOLT-LMM成功纠正了人口结构的混杂，我们计算了平均χ²上述三种方法的所有类型SNP和基因组膨胀因子的统计数据以及未修正的边际线性回归。我们观察到，PCA、BOLT-LMM-inf和BOLT-LMM统计数据得到一致校准，而未修正的线性回归统计数据被夸大，尤其是身高(补充表11). 我们进一步验证了乳糖酶基因的遗传变异与全基因组假阳性高度的显著关联，这是使用未修正的边际回归³⁵使用PCA、BOLT-LMM-inf和BOLT-LMM时消失(补充表12).

讨论

我们描述了一种新的快速贝叶斯混合模型关联算法BOLT-LMM，并证明其运行时间仅与≈有关明尼苏达州^1.5其内存使用量仅≈明尼苏达州/4字节，与现有的大数据集方法相比，计算效率提高了几个数量级。我们在WGHS表型的模拟和分析中进一步表明，BOLT-LMM的高斯混合建模能力能够在控制假阳性的同时提高标准混合模型分析的关联能力。在WGHS脂质特征中，我们观察到，功率增加相当于有效样本量的增加，比PCA增加了10%，比标准混合模型分析增加了9%。

BOLT-LMM的进步主要有两个原因。首先，随着样本量的不断增加，混合模型分析同时变得越来越重要，以纠正超大数据集中的人口结构和隐含相关性，但现有方法的实用性较差，所有这些方法都≥O（运行）(明尼苏达州²)时间复杂性（对于M（M）>N个)和高内存需求。BOLT-LMM的算法创新克服了这个计算障碍(图1). （我们的实现使用≈明尼苏达州/4字节的内存，实际上已经比现有方法少得多。理论上，现有算法的内存复杂度为O（运行）(N个²)，而BOLT-LMM的内存复杂度可以降低到O（运行）(M（M）+N个)通过数据迭代。）第二，BOLT-LMM能够更好地建模非有限的遗传结构，相对于标准混合模型分析，能够获得功率增益。最近在这方面的方法学进展包括多位点混合模型（MLMM）⁷，将大效应基因座识别为固定效应并将其条件化，以及FaST-LMM-Select和相关方法^{9,11,15,16,36}该模型采用稀疏回归框架，将混合模型限制为标记子集。然而，这些方法都面临相同的问题O（运行）(明尼苏达州²)计算障碍作为标准混合模型分析。

贝叶斯方法以前已经被开发出来，应用非限定模型来提高遗传风险预测的准确性。这些方法原则上扩展到关联测试，尽管贝叶斯分析自然产生的贝叶斯因子和后验包含概率并不直接转化为常规GWAS频率测试统计数据³⁷变分贝叶斯尖峰回归（vBsr）方法³⁸是解决这个问题的最近一步，提出了一个z统计量，该统计量通过假设绝大多数变体是无关联的（如在基因组控制中³³)，但当大样本量由于多基因性导致通货膨胀时，这种技术容易出现通货紧缩^13,24.BOLT-LMM通过其混合方法避开了这一困难，该方法依次去掉每个染色体，在剩余SNP上拟合贝叶斯模型，然后应用回顾性假设检验，以确定缺失SNP与剩余表型的关联。与同时建模所有SNP和使用贝叶斯后验推断评估关联证据相反³⁷，我们的方法概括了广泛使用的现有混合模型方法，并且我们相信它能够利用贝叶斯分析的威力，同时仍然计算频率统计数据，这将对GWAS从业者有用。此外，这种混合方法有助于有效测试数百万估算SNP剂量的关联性，同时在混合模型中仅包括类型化SNP，我们建议限制计算成本。

虽然BOLT-LMM在速度和功率方面都改进了现有的混合模型关联方法，但BOLT-LSM仍有局限性。首先，BOLT-LMM通过其更灵活的SNP效应大小先验优势，相对于现有方法提供的功率增益取决于真正的遗传结构是否足够非有限，样本大小是否足够大(补充图5). 其次，BOLT-LMM与现有的混合模型方法一样，在分析低流行性疾病的大量已确定病例对照数据集时，很容易发生功率损失¹²我们推荐BOLT-LMM用于随机确定的数量性状，确定患病率≥5%的疾病的病例对照研究(补充表13)-例如，2型糖尿病、心脏病、常见癌症、高血压、哮喘以及在大量未确定人群中对罕见疾病的研究^39,40对于罕见疾病的大型确定病例对照研究，我们正在开发一种使用后验平均负债（LTMLM）进行建模确定的方法；将BOLT-LMM技术应用于这些后验平均负债是未来研究的一条途径。第三，虽然混合模型分析可以有效地纠正多种形式的混淆，但执行仔细的数据质量控制对于避免误报仍然至关重要。第四，我们的工作没有试图估计BOLT-LMM估计的遗传力参数（表示为小时_克²)可能受到种群结构或亲缘关系的影响，也不在来自独立队列的外部验证样本中进行或评估基因预测³⁴第五，我们没有研究混合模型方法在以族结构为主的数据集中的性能²³第六，BOLT-LMM量表的运行时间和分析的表型数；对于具有大量表型（P）的数据集，GRAMMAR-Gamma方法¹⁰，有运行时间O（运行）(明尼苏达州²+MNP公司)（参考文献中审查。¹²)可能会更快。第七，我们只在人类数据集中测试了BOLT-LMM，这些数据集具有与动植物数据非常不同的连锁不平衡模式和遗传结构。特别是，考虑到我们得出的一些近似值在非人类数据集中可能会被违反（例如，将预期测试统计的分母视为近常数¹⁰)，我们不确定BOLT-LMM统计在这些场景中是否有效。同样，在测试非常罕见的变体时，应谨慎看待这些假设。最后，我们对具有一个随机遗传效应的混合模型进行了快速混合模型分析；将算法扩展到多方差分量模型⁴¹是未来工作的方向。

联机方法

标准混合模型关联方法

标准方法采用模型

年= x个_测试β_测试+ 克+ 电子,

(1)

哪里年是表型，x个_测试是否测试候选SNP，克是遗传效应，以及电子是环境影响。我们假设现在所有的都是以平均值为中心的，没有协变量；我们通过从基因型和表型中投影协变量来处理协变量，这相当于将它们作为固定效应包括在内(补充说明). 遗传和环境效应被建模为随机效应，而候选SNP被建模为系数为β的固定效应_测试，目的是测试无效假设β_测试=0.在标准无穷小模型下，遗传效应建模为

克= X（X）_GRM公司β_GRM公司,

(2)

哪里X（X）_GRM公司是一个N个×M（M）_GRM公司矩阵，其中每列包含与模型中包含的SNP相对应的标准化基因型，以及β_GRM公司是一个M（M）_GRM公司-随机SNP效应大小的向量都来自相同的正态分布，因此克具有协方差Cov的多元正态分布(克) ∝X（X）_GRM公司X（X）_GRM公司'. 注意，为了避免近距离污染^5,9,12，的M（M）_GRM公司SNP用于X（X）_GRM公司应根据SNP的不同而有所不同x个_测试正在测试：候选SNPx个_测试（和与其不平衡连锁的SNP）应排除在X（X）_GRM公司以避免对其效果进行两次建模。BOLT-LMM采用离开染色体（LOCO）方案^5,12在哪儿X（X）_GRM公司删除同一染色体上的SNPx个_测试.

矩阵X（X）_GRM公司X（X）_GRM公司'/M（M）_GRM公司通常称为遗传关系矩阵（GRM）或经验亲属关系矩阵K（K），然后我们写

Cov公司(克) = σ_克²X（X）_GRM公司X（X）_GRM公司'/M（M）_GRM公司= σ_克²K（K）,

(3)

其中σ_克²是方差参数。假设环境影响正常，因此电子也是多元正态的

Cov公司(电子) = σ_电子²我,

(4)

哪里我表示N个×N个单位矩阵与σ_电子²是另一个方差参数。

实际上，方差参数σ_克²和σ_电子²未知。几种现有方法^三,10,12因此，采用两步方法计算关联统计：首先估计方差参数（使用SNPx个_测试使用限制最大似然法（REML），然后计算预期的chi-squared（1 d.o.f.）检验统计量（如之前在基于家庭的检验中提出的那样⁴²)

χ_{我 M（M） M（M）}^{2} = \frac{{({x个}_{测试}^{'} 五^{- 1} 年)}^{2}}{{x个}_{测试}^{'} 五^{- 1} {x个}_{测试}},

(5)

哪里

五=Cov公司(年) = σ_克²K（K）+ σ_电子²我,

(6)

设置方差参数σ_克²和σ_电子²在零假设β下的估计_测试=0.在LOCO方案中，测试统计变成

χ_{我 M（M） M（M） - 我 O（运行） C类 O（运行）}^{2} = \frac{{({x个}_{测试}^{'} 五_{我 O（运行） C类 O（运行）}^{- 1} 年)}^{2}}{{x个}_{测试}^{'} 五_{我 O（运行） C类 O（运行）}^{- 1} {x个}_{测试}},

(7)

我们写的地方五_机车对于五明确表示染色体包含x个_测试被排除在GRM之外。

最近的计算进展也使精确似然比测试统计数据的计算成为可能，该统计数据在测试候选SNP时对方差参数建模^5,6虽然精确统计在具有非常大影响SNP的情况下更加准确，但近似方法在典型的人类遗传学场景中产生几乎相同的结果^三,10,12.

BOLT-LMM-inf混合模型统计

BOLT-LMM-inf无穷小混合模型统计略有不同：

χ_{B类 O（运行） 我 T型 - 我 M（M） M（M） - inf公司}^{2} = \frac{{({x个}_{测试}^{'} 五_{我 O（运行） C类 O（运行）}^{- 1} 年)}^{2}}{{c（c）}_{inf公司}},

(8)

哪里c（c）_inf公司是一个估计为

{c（c）}_{inf公司} = \frac{平均值 {({x个}_{测试}^{'} 五_{我 O（运行） C类 O（运行）}^{- 1} 年)}^{2}}{平均值 χ_{我 M（M） M（M） - 我 O（运行） C类 O（运行）}^{2}}

(9)

以便

平均值 χ_{B类 O（运行） 我 T型 - 我 M（M） M（M） - inf公司}^{2} = 平均值 χ_{我 M（M） M（M） - 我 O（运行） C类 O（运行）}^{2} .

(10)

实际上，为了计算效率，我们取了30个与表型（χ²<5用GRAMMAR统计估计⁴³). 我们从经验上观察到，30个随机SNP足以将校准因子估计到1%以内(补充表14).

我们可以将BOLT-LMM-inf统计视为标准前瞻性统计的近似值（将表型视为随机）或回顾性统计（将基因型视为随机，并在SNP上建立空模型）。第一种观点的动机是观察到在人类遗传学应用中，预期统计的分母方程式（5）,x个_测试'五⁻¹x个_测试，几乎独立于SNPx个_测试正在测试¹⁰从这个角度来看，BOLT-LMM-inf与GRAMMAR-Gamma类似¹⁰，有两个关键区别：（1）BOLT-LMM-inf是通过更快的算法（如下所述）计算的，用于执行初始方差参数估计和估计校准常数，以及（2）BOLT-LMM-inf通过LOCO分析避免了近端污染。或者，我们也可以将BOLT-LMM-inf视为类似于T型^评分–R（参考。⁴⁴)和MASTOR²³(补充说明).

BOLT-LMM高斯混合模型关联统计量

我们现在通过观察向量五_机车⁻¹年出现在方程式（8）是剩余表型向量σ的标量倍数_电子²五_LOCO公司⁻¹年最佳线性无偏预测（BLUP）。因此，χ²_{LMM-inf螺栓}统计相当于计算（然后校准）SNP之间的平方相关性x个_测试和BLUP残差。混合模型关联的力量是由SNP这一事实驱动的x个_测试根据这些“去噪”残留表型进行测试，混合模型估计的其他SNP效应已从中排除^9,12.

我们可以通过定义

χ_{B类 O（运行） 我 T型 - 我 M（M） M（M）}^{2} = \frac{{({x个}_{测试}^{'} 年_{渣油 - 我 O（运行） C类 O（运行）})}^{2}}{c（c）},

(11)

哪里年_残渣-LOCO表示在拟合标准LMM的高斯混合扩展后获得的广义剩余表型向量（使用不在同一染色体上的SNPx个_测试)和c（c）表示校准系数，估计为LD分数回归截距²⁴χ的²_LMM螺栓与（正确校准的）χ相匹配²_{LMM-inf螺栓}统计的。在无穷小模型下，年_残渣-LOCO与…成比例五_LOCO公司⁻¹年，所以χ²_LMM螺栓减少到χ²_{LMM-inf螺栓}.一般χ²_LMM螺栓统计数据仍然可以被解释为一种回顾性准似然分数测试，因此是渐近齐次分布的。

要定义高斯混合LMM扩展，首先在贝叶斯公式中框架标准LMM是有帮助的。BOLT-LMM-inf的零模型为

年= X（X）_LOCO公司β_LOCO公司+ 电子,

(12)

其中SNP影响β_米(米索引不在遗漏染色体上的SNPs）是从高斯先验分布中独立得出的

β_米~N个（0，σ_克²)/M（M）_LOCO公司

(13)

和环境影响电子_n个(n个索引样本）独立于电子_n个~N个(0, σ_电子²). 执行最佳线性无偏预测相当于计算遗传效应的后验均值X（X）_LOCO公司β_LOCO公司.

为了将该模型推广到非有限遗传结构，我们用更一般的分布替换了SNP效应大小的高斯先验；这种方法已被动物育种文献中基因组预测方法的“贝叶斯字母表”广泛应用^17–19.在BOLT-LMM中，我们使用两个高斯函数的尖峰和尖峰混合物¹⁹如前所述：

β_米~N个(0, σ_β,1²)概率p。β_米~N个(0, σ_β,2²)概率为1−p。

(14)

这种混合物更灵活地模拟了典型（非限定）表型遗传效应的厚尾分布。明确地说，如果第页≪1和σ_β,1²≫ σ_β,2²，混合物的第一个成分是一个“平板”，它模拟了少量相对大效应位点的存在，而第二个成分是“尖峰”，它建模了大多数SNP对表型具有近零效应但不完全为零的假设。（然而，请注意，所有SNP之前都分配了相同的混合物；即，SNP没有单独分配给一个或另一个组分。）重要的是，穗部组分具有非零方差，以便捕获基因组范围内对表型的影响，例如祖先或亲缘关系；然后，当测试SNP的关联性时，这些全基因组的影响是从残留表型中筛选出来的，以防止混淆。优先权原则上可以进一步推广；我们选择使用两个高斯分布的混合来保持模型相当简单，因为高斯分布在建模过程中产生了方便的分析公式。

在这个广义模型下，后验均值不再对应于BLUP，但我们仍然可以近似地拟合贝叶斯模型（每个缺失染色体一次）并获得残差

年_{残渣−LOCO}= 年 − X（X）_LOCO公司β_LOCO公司,

(15)

其中β_LOCO公司是估计的后验平均效应大小。将这些残余沉积物插入方程式（11）给出了BOLT-LMM高斯混合模型的关联检验统计量。

快速迭代算法

BOLT-LMM软件执行混合模型关联分析的四步计算，当专用于无穷小模型时，在前两步之后停止。我们在这里概述了算法，并在补充说明.

步骤1a：估计方差参数

BOLT-LMM的一个关键特征是方差参数σ的估计_克²和σ_电子²只使用线性时间迭代，而不构建或分解任何协方差矩阵。我们使用蒙特卡洛REML方法^26,27消除了所有O（运行）(明尼苏达州²)和O（运行）(N个^三)-时间矩阵计算，只需要求解混合模型方程的线性系统。我们使用共轭梯度迭代来求解混合模型方程，这只需要O（运行）(明尼苏达州)-时间矩阵向量积^28,29(补充说明).

步骤1b：计算并校准BOLT-LMM-inf统计数据

通过步骤1a中的方差参数估计，可以直接计算（针对每个LOCO代表）数量五_LOCO公司⁻¹年在BOLT-LMM-inf统计的分子中，方程式（8），如上所述使用共轭梯度迭代。完成χ分子的计算²_{LMM-inf螺栓}然后就相当于计算每个SNP的一个点积x个_测试，只需要O（运行）(明尼苏达州)所有SNP的额外成本。此外，对于混合模型中未包含但需要关联统计的附加SNP，可以轻松进行此计算；BOLT-LMM以这种方式处理估算的“剂量”数据。计算校准常数c（c）_inf公司在里面方程式（9），BOLT-LMM快速计算前瞻性统计χ²_{LMM-LOCO公司}从方程式（7）通过应用共轭梯度迭代计算30个随机SNP五_LOCO公司⁻¹x个_测试针对30个选定SNP中的每一个x个_测试最后，除了计算χ²关联统计，BOLT-LMM还计算所有测试SNP的效应大小估计(补充说明).

在步骤1a中估计的方差参数与理论上最优的参数估计之间存在轻微的不匹配，在步骤1a中，BOLT-LMM使用不遗漏任何染色体的所有SNPs计算一次方差参数，而理论上最优的参数估计将通过对每个遗漏的染色体重新装配一次而获得。然而，我们在模拟中观察到，方差参数的轻微错误规范对BOLT LMM inf和BOLT-LMM统计的校准影响可以忽略不计（＜0.5%）(补充表4). 因为极轻微的校准错误不涉及高分化标记的人群分层混淆(补充表12)对I型错误影响很小(补充表5)默认情况下，BOLT-LMM软件不会重新调整每个LOCO代表的方差参数。如果需要非常精确的校准，我们提供了一个运行时选项，以2–3倍的运行时间为代价重新调整每个LOCO代表的变异参数。我们认为，LOCO在保持运行时间下降的同时，在实现≈95%的潜在功率增益（通过联合拟合≈95%不在LD中的标记与候选标记）方面取得了良好的平衡¹²，但我们也提供了一个运行时选项，以更精细地划分基因组（例如，分成100个片段，而不是22个片段），同样以2-3倍的运行时间为代价。

步骤2a：估计高斯混合先验参数

BOLT-LMM高斯混合模型关联分析的第一步是估计SNP效应大小的广义先验参数。如中所述方程（14），该混合物有三个参数：σ_β,1²和σ_β,2²两个高斯人的方差第页，从第一个高斯函数中提取的概率。为了降低参数估计的复杂性，我们将混合物的总方差约束为等于方差σ_克²/M（M）在步骤1a中的无穷小模型下估计：

第页σ_β,1²+（1−p）σ_β,2²= σ_克²/M（M）.

（16）

我们使用参数重新参数化剩下的两个自由度第页和（f）₂，其中（f）₂表示第二个高斯函数（模拟小全基因组效应的“尖峰”分量）内总混合方差的比例：

{（f）}_{2} = \frac{(1 - 第页) σ_{β, 2}^{2}}{第页 σ_{β, 1}^{2} + (1 - 第页) σ_{β, 2}^{2}} .

(17)

由于模型拟合对混合物参数的精确值不敏感，我们测试了一组离散的模型参数组合：（f）₂∈{0.5,0.3,0.1},第页∈{0.5,0.2.0.1,0.05,0.02,0.01}. 请注意（f）₂=0.5,第页=0.5对应于无穷小模型：当（f）₂=1−第页，两个高斯函数是相同的，并且混合物是退化的。我们绑定（f）₂以确保至少有少量（10%）的混合方差分配给spike分量，防止全基因组效应的混淆。我们绑定第页以防止模型过于强烈地拟合少数SNP，这使得模型填充计算困难，也增加了混淆的敏感性。BOLT-LMM在18个可能的参数对中进行模型选择(（f）₂,第页)通过执行交叉验证来优化均方预测R（右）².

BOLT-LMM使用变分近似来拟合具有高斯混合先验的贝叶斯线性回归。在这种情况下，近似方法对于贝叶斯推断是必要的，因为精确的后验均值涉及到难以处理的积分。我们采用全因子变分近似^21,22,38它反复循环SNP，根据所有其他SNP效应的当前估计值，用其后验平均值更新每个SNP的估计效应大小。这个迭代以前也被称为“迭代条件期望（ICE）”²⁰.变分贝叶斯框架将此迭代作为近似对数似然函数的优化，奠定了坚实的理论基础；迭代单调地增加了这个函数，并保证收敛⁴⁵事实上，我们证明了优化可以重新表述为循环坐标下降，应用于由贝叶斯线性回归产生的惩罚回归问题，该问题使用转换的先验(补充说明). 近似日志似然也可以作为一个方便的收敛标准：当一个完整更新周期内近似日志似似度的增加值低于0.01时，BOLT-LMM停止迭代。

而BOLT-LMM使用的核心变分迭代与以前的方法相同^20–22,38在选择SNP效应大小之前，BOLT-LMM使用交叉验证来估计超参数¹⁵而不是在变分迭代中这样做^22,38或基于变分近似对数似然²¹我们发现，这种方法对由连杆不平衡引起的变分近似松弛更具鲁棒性。

步骤2b：计算并校准BOLT-LMM高斯混合模型统计

在步骤2a之前推断出混合物的参数后，BOLT-LMM使用相同的变分迭代来估计后验平均残差年_残渣-LOCO（独立于每个被遗漏的染色体）。BOLT-LMM高斯混合模型统计的分子方程式（11）然后很容易获得具有测试SNP的点积，只留下恒定的校准因子c（c）在要计算的分母中。与无穷小模型的情况不同，这里我们没有要校准的前瞻性统计数据，因此我们使用LD Score回归²⁴(补充说明). 实际上，校准系数通常非常接近1（例如，所有WGHS性状的1.00至两位小数；参见补充表15).

WGHS数据集

女性基因组健康研究（WGHS）是一项北美健康女性保健专业人员的前瞻性队列研究。我们分析了23294名自报欧洲血统的个体，在QC后进行了324488个SNP的基因分型(补充说明).

遗传力参数解释

遗传力参数（表示为小时_克²)一般来说，BOLT-LMM估计的可能包括隐相关或种群结构的一些贡献⁴⁶，因此可能与基因型SNP解释的遗传力不完全相符⁴⁷.参考。^三为此，将此参数称为“伪可靠性”。因为我们在这里主要分析的WGHS样本不包含实质性的相关性或种群结构，所以我们只使用了符号小时_克²以避免使讨论复杂化。

补充材料

1

单击此处查看。^{（632K，pdf）}

致谢

我们感谢M.Lipson、S.Simmons、A.Gusev、K.Galinsky、J.Yang、P.Visscher、Z.Zhu和D.Gudbjartsson的有益讨论。本研究得到了NIH拨款R01 HG006399和NIH奖学金F32 HG007805的支持。香港金融由房利美和约翰·赫兹基金会支持。WGHS由国家心脏、肺和血液研究所的HL043851和HL080467以及国家癌症研究所、唐纳德·雷诺兹基金会和勒杜克基金会的CA047988支持，安进为基因分型提供了合作科学支持和资金。

脚注

URL。

BOLT-LMM软件和源代码，http://www.hsph.harvard.edu/alkes-price/software/.

LTMLM方法，http://biorxiv.org/content/early/2014/09/04/008755.

作者贡献

P.L.、N.P.和A.L.P.设计了实验。P.L.进行了实验。P.L.、G.T.、B.K.B.、B.J.V、H.K.F.和A.L.P.分析了数据。D.I.C.和P.M.R.提供了数据。所有作者都写了这篇论文。

竞争性财务利益

作者声明没有竞争性的经济利益。

参考文献

1Yu J等。一种用于关联映射的统一混合模型方法，用于解释多个层次的关联性。自然遗传学。2006;38:203–208.[公共医学][谷歌学者]

2Kang HM等。模型生物关联映射中种群结构的有效控制。遗传学。2008;178:1709–1723. [PMC免费文章][公共医学][谷歌学者]

三。Kang HM等。用于解释全基因组关联研究中样本结构的方差分量模型。自然遗传学。2010;42:348–354. [PMC免费文章][公共医学][谷歌学者]

4Zhang Z等。适用于全基因组关联研究的混合线性模型方法。自然遗传学。2010;42:355–360. [PMC免费文章][公共医学][谷歌学者]

5Lippert C等。全基因组关联研究的FaST线性混合模型。自然方法。2011;8:833–835.[公共医学][谷歌学者]

6Zhou X，Stephens M.关联研究的全基因组高效混合模型分析。自然遗传学。2012;44:821–824. [PMC免费文章][公共医学][谷歌学者]

7Segura V等人。一种有效的多基因座混合模型方法，用于结构化群体的全基因组关联研究。自然遗传学。2012;44:825–830. [PMC免费文章][公共医学][谷歌学者]

8Korte A等人。一种混合模型方法，用于结构化群体中相关性状的全基因组关联研究。自然遗传学。2012;44:1066–1071. [PMC免费文章][公共医学][谷歌学者]

9Listgarten J等人，全基因组关联研究的改进线性混合模型。自然方法。2012;9:525–526. [PMC免费文章][公共医学][谷歌学者]

10Svishcheva GR、Axenovich TI、Belonogova NM、van Duijn CM、Aulchenko YS。基于快速方差分量的全基因组关联分析方法。自然遗传学。2012[公共医学][谷歌学者]

11Listgarten J、Lippert C、Heckerman D.FaST-LMM-选择用于解决空间结构和罕见变体的混淆。自然遗传学。2013;45:470–471.[公共医学][谷歌学者]

12Yang J，Zaitlen NA，Goddard ME，Visscher PM，Price AL。混合模型关联方法应用的优点和缺点。自然遗传学。2014;46：100–106。 [PMC免费文章][公共医学][谷歌学者]

13杨杰等。多基因遗传下的基因组通货膨胀因素。欧洲人类遗传学杂志。2011;19:807–812. [PMC免费文章][公共医学][谷歌学者]

14Stahl EA等。类风湿关节炎多基因结构的贝叶斯推断分析。自然遗传学。2012;44:483–489. [PMC免费文章][公共医学][谷歌学者]

15Lippert C等。选择表型特异性变体用于基因组学混合模型应用的益处。科学报告。2013;三 [PMC免费文章][公共医学][谷歌学者]

16Rakitsch B，Lippert C，Stegle O，Borgwardt K。拉索多标记混合模型，用于人口结构校正关联映射。生物信息学。2013;29:206–214.[公共医学][谷歌学者]

17Meuwissen T，Hayes B，Goddard M.使用全基因组密集标记图预测总遗传价值。遗传学。2001;157：1819年至1829年。 [PMC免费文章][公共医学][谷歌学者]

18de los Campos G、Hickey JM、Pong-Wong R、Daetwyler HD、Calus MP。全基因组回归和预测方法在动植物育种中的应用。遗传学。2013;193:327–345. [PMC免费文章][公共医学][谷歌学者]

19Zhou X，Carbonetto P，Stephens M.贝叶斯稀疏线性混合模型的多基因建模。公共科学图书馆遗传学。2013;9：e1003264。 [PMC免费文章][公共医学][谷歌学者]

20Meuwissen T、Solberg TR、Shepherd R、Woolliams JA。全基因组遗传价值估计的BayesB型预测的快速算法。基因选择进化。2009;41 [PMC免费文章][公共医学][谷歌学者]

21Carbonetto P，Stephens M.回归中贝叶斯变量选择的可缩放变分推理及其在遗传关联研究中的准确性。贝叶斯分析。2012;7:73–108. [谷歌学者]

22Logsdon BA、Hoffman GE、Mezey JG。快速准确的多基因座全基因组关联分析的变分贝叶斯算法。BMC生物信息学。2010;11:58. [PMC免费文章][公共医学][谷歌学者]

23Jakobsdottir J，McPeek MS.MASTOR：样本数量性状与相关个体的混合模型关联映射。美国人类遗传学杂志。2013;92:652–666. [PMC免费文章][公共医学][谷歌学者]

24Bulik-Sullivan B等人。LD评分回归将全基因组关联研究中的混杂与多基因性区分开来。自然遗传学。（印刷中）。[PMC免费文章][公共医学][谷歌学者]

25Ridker PM等人，《女性基因组健康研究的基本原理、设计和方法：一项针对25000多名最初健康的美国女性的全基因组关联研究》。临床化学。2008;54:249–255.[公共医学][谷歌学者]

26García-Cortés LA、Moreno C、Varona L、Altarriba J.通过重采样进行方差分量估计。动物育种与遗传学杂志。1992年；109：358–363。 [谷歌学者]

27Matilainen K，Mäntysaari EA，Lidauer MH，Strandén I，Thompson R.在Newton型方法中使用蒙特卡罗算法进行遗传参数的限制最大似然估计。《公共科学图书馆·综合》。2013;8：e80821。 [PMC免费文章][公共医学][谷歌学者]

28Legarra A，Misztal I.全基因组选择中的计算策略。乳制品科学杂志。2008;91:360–366.[公共医学][谷歌学者]

29VanRaden P.计算基因组预测的有效方法。乳制品科学杂志。2008;91:4414–4423.[公共医学][谷歌学者]

30Sawcer S等人。多发性硬化症中细胞介导免疫机制的遗传风险和主要作用。自然。2011;476:214. [PMC免费文章][公共医学][谷歌学者]

31Aulchenko YS，Ripke S，Isaacs A，Van Duijn CM。GenABEL：用于全基因组关联分析的R文库。生物信息学。2007;23:1294–1296.[公共医学][谷歌学者]

32Price AL等。主成分分析纠正了全基因组关联研究中的分层。自然遗传学。2006;38:904–909.[公共医学][谷歌学者]

33Devlin B，Roeder K。关联研究的基因组控制。生物计量学。1999;55:997–1004.[公共医学][谷歌学者]

34Wray NR等，从SNP预测复杂性状的陷阱。《自然评论遗传学》。2013;14:507–515. [PMC免费文章][公共医学][谷歌学者]

35Campbell CD等人。证明欧美人口的分层。自然遗传学。2005;37:868–872.[公共医学][谷歌学者]

36塔克·G、普莱斯·AL、伯杰·BA。提高GWAS的能力，避免人口分层与PC-Select的混淆。遗传学。2014 [PMC免费文章][公共医学][谷歌学者]

37Stephens M，Balding DJ。遗传关联研究的贝叶斯统计方法。《自然评论遗传学》。2009;10:681–690.[公共医学][谷歌学者]

38Logsdon BA，Carty CL，Reiner AP，Dai JY，Kooperberg C.一种新的变分贝叶斯多基因座Z统计量，用于贝叶斯模型平均的全基因组关联研究。生物信息学。2012;28:1738–1744. [PMC免费文章][公共医学][谷歌学者]

39Styrkarsdottir U等。LGR4基因的无义突变与几种人类疾病和其他性状相关。自然。2013[公共医学][谷歌学者]

40Do CB等基于网络的全基因组关联研究确定了帕金森病的两个新基因座和一个重要的遗传成分。公共科学图书馆遗传学。2011;7：e1002141。 [PMC免费文章][公共医学][谷歌学者]

41Speed D，Balding DJ。MultiBLUP：改进的基于SNP的复杂性状预测。基因组研究。2014克–169375。[PMC免费文章][公共医学][谷歌学者]

参考文献（在线方法）

42Chen W-M，Abecasis GR.全基因组关联扫描的家族关联测试。美国人类遗传学杂志。2007;81：913–926。 [PMC免费文章][公共医学][谷歌学者]

43Aulchenko YS，De Koning D-J，Haley C.使用混合模型和回归的全基因组快速关联：基于全基因组系谱的数量性状位点关联分析的快速简便方法。遗传学。2007;177:577–585. [PMC免费文章][公共医学][谷歌学者]

44Chen W-M、Manichaikul A、Rich SS。二分性状的广义家族关联检验。美国人类遗传学杂志。2009;85:364–376. [PMC免费文章][公共医学][谷歌学者]

45Boyd SP，Vandenberghe L。凸优化。剑桥大学出版社；2004[谷歌学者]

46Yang J等。使用常见SNPs对复杂性状的遗传变异进行基因组划分。自然遗传学。2011;43:519–525. [PMC免费文章][公共医学][谷歌学者]

47杨杰等。常见SNP解释了人类身高遗传率的很大一部分。自然遗传学。2010;42:565–569. [PMC免费文章][公共医学][谷歌学者]