线性混合模型正在成为全基因组关联研究(GWAS)中关联测试的首选方法,因为它们同时考虑了群体分层和隐性关联性,并通过联合建模所有基因型标记来提高统计能力1–12然而,现有的混合模型方法仍有局限性。首先,混合模型分析的计算成本很高。尽管最近在算法方面取得了一系列进步,但当前的算法需要O(运行)(明尼苏达州2)或O(运行)(M(M)2N个)总运行时间,其中M(M)是标记的数量和N个是样本大小。这一成本对于大型队列来说变得难以承受,迫使现有方法对标记进行二次抽样,以便M(M)<N个(参考。5). 第二,由于关于表型的遗传结构的次优建模假设,当前的混合模型方法无法实现最大的统计能力。标准线性混合模型隐含地假设所有变异都是因果的,小效应大小来自独立的高斯分布,即“无穷小模型”,而实际上,复杂性状估计大约有几千个因果位点13,14.
在方法论上,更准确地建模非有限遗传结构的努力遵循了两个主要方向。一种方法是应用标准的无穷小混合模型,但要调整输入数据。例如,大效应基因座可以被明确地识别出来,并被限制为固定效应7,或者混合模型只能应用于选定的标记子集9,11,15,16一种更灵活的替代方法是采用贝叶斯观点调整混合模型,并用非高斯先验分布建模SNP效应,以更好地适应小效应和大效应基因座。这种方法在家畜遗传学中首创,以改进遗传值的预测17并在植物和动物育种文献中广泛开发用于基因组选择18这些技术在关联测试环境中很有意义,因为改进预测的模型在理论上应该能够相应地提高关联能力(通过测试候选标记时对其他相关位点进行调节9,12). 在这里,我们提出了一种算法,可以在少量O(运行)(明尼苏达州)-时间迭代并通过建模非有限的遗传结构来增加能量。我们的算法符合SNP效应的高斯混合模型19,使用快速变分近似20–22计算近似表型残差,并通过回顾性得分统计测试残差与候选标记的关联23这为表型预测的贝叶斯建模和频率学家关联测试框架之间提供了一座桥梁。我们使用基于最近开发的LD Score回归技术的方法来校准我们的统计数据24整个过程直接对存储在内存中的原始基因型进行操作,不需要计算或存储遗传关系矩阵。在无穷小模型的特殊情况下,我们以显著降低的时间和内存成本获得了与现有方法等效的结果。
我们为我们的算法BOLT-LMM提供了一个有效的软件实现,并在多达48万人的模拟数据集上证明了其计算效率。我们的模拟还表明,与由数千个因果SNP驱动的性状的标准无穷小混合模型分析相比,BOLT-LMM实现了更强的关联能力。我们应用BOLT-LMM对来自女性基因组健康研究(WGHS)的23294个样本中的9个数量性状进行混合模型分析25并且观察到关联能力的增加相当于有效样本量增加了10%。我们通过理论和仿真证明,功率提升随着队列规模的增加而增加,这使得BOLT-LMM成为大规模GWAS的一种有前途的方法。
结果
方法概述
BOLT-LMM算法由四个主要步骤组成,每个步骤都需要少量的O(运行)(明尼苏达州)-时间迭代。这些步骤是:(1a)估计方差参数;(1b)计算无穷小混合模型关联统计(表示为BOLT-LMM-inf);(2a)估计高斯混合参数;(2b)计算高斯混合模型关联统计(BOLT-LMM)。步骤1a计算的结果与标准方差分量分析几乎相同,但应用了随机近似算法26,27这可以通过避免光谱分解来减少时间和内存成本,而光谱分解对于大样本来说是很昂贵的。相反,近似算法只需要求解混合模型方程的线性系统,这可以通过共轭梯度迭代有效地实现28,29步骤1b同样通过引入一个类似于GRAMMAR-Gamma的新的回顾性混合模型关联统计来规避谱分解10和MASTOR23,我们用线性方程组的唯一解计算出校准常数。我们通过计算和比较SNP随机子集上的新统计量和标准预期混合模型统计量来估计校准常数,这同样可以使用共轭梯度迭代有效地完成。该程序在精神上与GRAMMAR-Gamma校准类似,但只需要O(运行)(明尼苏达州)-时间迭代。
步骤2a和2b是步骤1a和1b的高斯混合平行线。BOLT-LMM的非有限模型相当于标准混合模型的推广,从贝叶斯的角度来看,该模型对SNP效应大小施加了高斯先验分布。BOLT-LMM通过使用两个高斯的混合物作为先验来放宽这一假设,使模型具有更大的灵活性,以适应大效应SNP,同时保持基因组范围效应(例如祖先)的有效建模。在广义模型下,精确的后验推理不再可行,因此BOLT-LMM计算变分近似20–22在一小部分O(运行)(明尼苏达州)-时间迭代。步骤2a在5倍交叉验证中应用此方法,根据样本外预测精度估计先验分布的最佳拟合参数(考虑步骤1a中估计的方差参数)。如果最佳拟合高斯混合模型的预测精度超过无穷小模型的预测准确性至少规定数量,然后运行步骤2b,根据高斯混合模型获得的剩余表型测试每个SNP,并使用LD得分回归,根据步骤1b的结果校准测试统计数据,从而计算关联统计数据24否则,BOLT-LMM关联统计与BOLT-LMM-inf相同。步骤1b和步骤2b都是使用leave-on-chromosome-out(LOCO)方案执行的,以避免近端污染5,9,12(该软件还支持将染色体细分为更多片段;参见在线方法。)将BOLT-LMM关于速度和建模假设的关键属性与.
表1
方法一 | 需要O(MN2)时间 | 避免接近 污染 | 型号 非无穷小 遗传建筑学 |
---|
EMMAX公司[3] | X(X) | | |
FaST-LMM【5】 | X(X)b条 | X(X) | |
FaST-LMM-选择[9,11,15] | X(X)b条 | X(X) | X(X)c(c) |
GEMMA公司[6] | X(X) | | |
语法-语法[10] | X(X)d日 | | |
GCTA-LOCO[12] | X(X) | X(X) | |
LMM螺栓 | | X(X) | X(X) |
BOLT-LMM与现有方法的计算成本
为了分析BOLT-LMM的计算性能,我们模拟了大小从N个=3750至480000人M(M)=300000 SNP。我们使用WTCCC2数据集中的基因型30参考文献分析。12包含15633个欧洲血统个体,以形成镶嵌染色体,我们使用了一个表型模型,其中5000个SNP解释了20%的表型变异(补充说明).
我们根据现有的混合模型关联方法对BOLT-LMM进行了基准测试,每个方法在内存为96GB的机器上最多运行10天。BOLT-LMM通过N个=48000人在这些限制范围内,而以前的方法最多只能分析N个=7500-30000人(和补充表1). 所有以前的方法都需要O(运行)(明尼苏达州2)运行时间(对于M(M)>N个),而BOLT-LMM的运行时间大致与明尼苏达州1.5(和补充图1a). 我们还观察到使用BOLT-LMM可以显著节省内存使用(和补充图1b),只需要明尼苏达州/存储原始基因型所需的4字节内存(如GenABEL软件中所示31).
混合模型关联方法的计算性能对数长度图(一)运行时间和(b条)记忆作为样本大小的函数(N个). 曲线斜率对应于幂律缩放指数N个对模拟数据集进行基准测试,其中每个样本都是从WTCCC2数据集中的2个随机“父母”中生成的基因型数据的马赛克(N个=15,633,M(M)=360K),表型用M(M)因果关系的=5000名SNP解释小时2因果关系的=0.2的表型方差。报告的运行时间是使用2.27 GHz Intel Xeon L5640处理器的一个内核的五次相同运行的中位数。我们注意到,运行时间比较可能会随着计算环境的变化而变化一个小的常数因子。FaST-LMM-Select(分别是GCTA-LOCO、EMMAX)内存使用超过96GBN个=15K(分别为30K和60K)。GEMMA在处遇到运行时错误(分段错误)N个=30公里。软件版本:FaST-LMM-Select,v2.07;GCTA-LOCO,v1.24;EMMAX,v20120210;GEMMA,v0.94。数值数据见补充表1.
BOLT-LMM的运行时间不仅取决于矩阵运算的成本,矩阵运算的成本与M(M)和N个,还有O(运行)(明尼苏达州)-收敛所需的时间迭代,经验上大致按N个0.5(补充图1)也因遗传力、亲缘关系和人口结构而异(补充说明和补充图2). 这些观察结果既适用于BOLT-LMM执行的全高斯混合建模,也适用于计算BOLT-LMM-inf无穷小混合模型关联统计所需的计算子集(步骤1a和1b(和补充图1a). 我们的结果表明,即使在非常大的数据集上,BOLT-LMM也足够有效,可以使用高斯混合先验进行混合模型分析,我们推荐使用高斯混合优先权,因为它可能会增加功率。
仿真中BOLT-LMM的功率和误报控制
为了评估BOLT-LMM检测相关基因座的能力,我们使用WTCCC2数据集的真实基因型进行了额外的模拟,该数据集是一个包含北欧和南欧样本的祖先分层样本。我们用1250-10000个因果SNP模拟了表型13,14解释了50%的表型变异,另外60个标准化效应SNPs解释了2%的变异。我们包括后一类SNP,以便在不同的模拟设置之间进行直接功率比较,因为无论其他模拟参数如何,60个标准化效应SNP总是解释相同的总方差。我们进一步引入了祖先的环境差异,包括与顶级主成分一致的表型成分,这解释了额外1%的差异。(我们注意到主成分分析不是BOLT-LMM的一部分;在运行混合模型关联方法时,不需要执行PCA12.)我们从染色体的前半部分随机选择了因果SNP,留下染色体的后半部分仅包含非因果SNP(补充说明).
我们计算了χ2使用10个主成分线性回归(PCA)的关联统计32、GCTA-LOCO12、螺栓-LMM-inf和螺栓-LMM。我们无法测试FaST-LMM-Select15由于其内存需求(). 对于每种方法,我们计算其χ的平均值2标准化效应SNP的统计数据,并在涉及不同数量因果SNP的模拟中比较这些平均值(和补充表2). 我们观察到,BOLT-LMM通过建模非有限结构实现了功率增益。对于最稀疏的遗传结构(1250个因果SNPs加上60个标准化效应SNPs),我们观察到平均BOLT-LMMχ增加了25%2与GCTA-LOCO和BOLT-LMM-inf无穷小混合模型χ相比,标准化效应SNP的统计数据2统计数据。这个指标很容易解释为有效样本量增加了25%;为了完整性,我们还计算了两个显著性阈值下的传统功率曲线(补充图3). 高斯混合模型的功率增益随着因果SNP数量的增加而降低(). 这种行为是意料之中的,因为高斯混合的优点在于它能够更准确地对大多数具有近零效应的SNP中影响较大的一小部分SNP进行建模。解释固定方差比例的因果SNP数量越多,每个因果SNP的效应大小越小,BOLT-LMM获得功率增益的机会越少。相比之下,除BOLT-LMM以外的所有方法的性能都与因果SNP的数量无关,这与这些方法都没有建模非有限遗传结构的事实一致。GCTA-LOCO和BOLT-LMM-inf平均值χ2标准化效应SNP的统计数据基本相同,略高于PCA,与理论一致12。我们还测试了EMMAX三和GEMMA6易受近距离污染5,9,12; 相对于PCA,这些方法的功率损失(补充图4a),与理论相符12.
BOLT-LMM增加了在仿真中检测关联的能力平均值χ2标准化效应下SNP作为(一)因果SNP的数量(b条)由因果SNP解释的方差比例(c(c))样本数量。模拟使用WTCCC2数据集中的真实基因型(N个=15,633,M(M)=360K)和具有特定数量的因果SNP的模拟表型解释了特定比例的表型方差,60个以上的标准化效应SNP解释了额外2%的方差。误差条,s.e.m.,100个模拟。我们在前5个模拟中验证了BOLT-LMM-inf和GCTA-LOCO统计几乎相同(补充表7). 数值数据见补充表2.
为了进一步探讨高斯混合模型功率增益的大小与数据集其他参数之间的关系,我们还改变了因果SNP解释的方差比例()以及个人数量(). 我们观察到,在无穷小混合模型分析(GCTA-LOCO、BOLT-LMM-inf)中,BOLT-LMM的功率提升随着每个参数的增加而增加。在使用大小数据集的进一步模拟中N个=30000和N个=60,000 (补充说明)和模拟表型M(M)因果关系的=250–15000个因果SNP解释了15–35%的方差,我们观察到高斯混合模型的有效性与小时克2不适用因果关系的(其中小时克2是用BOLT-LMM估计的遗传力参数;解释见在线方法);直观地说,这个数量测量每个因果SNP的有效样本数(补充图5). 这些结果与理论相符(补充说明和补充表2第页,共页。12),这解释了即使在没有混淆的情况下,混合模型分析在测试候选SNP时,也会以其他SNP的估计效果为条件,从而提供优于边际回归的功率增益9,12随着样本量的增加,两种方法的功率增益均接近渐近线,对应于有效样本量的1/(1−小时克2)但对于稀疏的遗传结构,高斯混合模型更接近这种渐近线。
为了验证BOLT-LMM的正确校准和对混杂的鲁棒性,我们还计算了平均χ2模拟到所有染色体第二部分的SNP统计数据都没有影响(“零SNP”)。由于我们模拟的表型包括祖先效应,没有校正人口分层的线性回归遭受了35%的通货膨胀。相比之下,BOLT-LMM和BOLT-LMM-inf统计数据都经过了很好的校准(补充图4b、补充表3和补充表4). 我们进一步验证了I型错误得到了适当控制(在线方法和补充表5)零SNP的统计分布没有明显偏离1 d.o.f.chi-square分布(补充图6a,b). 基因组通货膨胀因素33对于BOLT-LMM和BOLT-LMM-inf,在这些模拟中超过1(补充图6c、d)与模拟表型的多基因性和成功避免近端污染的混合模型统计相一致12,13相反,EMMAX和GEMMA缩减了测试统计数据(补充图4b).
为了检验BOLT-LMM用于贝叶斯模型拟合的变分近似的紧密性,并与FaST-LMM-Select进行比较,我们使用了与上述相同的设置,但只有三分之一的样本进行了小规模模拟(N个=5,211). 我们用1250个因果SNP模拟遗传结构,解释70%的表型方差(和之前一样,60个额外的标准化效应SNP解释2%的方差,而祖先解释1%)。我们运行了主成分分析、BOLT-LMM-inf、BOLT-LMM、FaST-LMM-Select和BOLT-LMM的修改版本,其中我们用马尔可夫链蒙特卡罗(MCMC)吉布斯采样器替换了步骤2b的变分迭代。在无限采样迭代的限制下,MCMC将生成由BOLT-LMM计算的后验近似的精确版本。在这些模拟中,变分迭代(即标准BOLT-LMM)获得了与MCMC在统计上相同的结果(补充表6a),支持为BOLT-LMM选择可变贝叶斯。我们还观察到,虽然BOLT-LMM-inf实现了超过PCA的功率增益,而BOLT-LMM实现了超过BOLT-LMT-inf的进一步功率增益(与之前的模拟一致),但FaST-LMM-Select实现了低于BOLT-LMM-inf和BOLT-LSM的功率增益(补充表6a). 在将因果SNP的数量减少到500个的情况下重复此实验后,我们观察到FaST-LMM-Select在BOLT-LMM-inf和BOLT-LMM之间实现了功率增益(补充表6b). 最后,我们观察到BOLT-LMM使用的LD Score校准方法在应用于FaST-LMM-Select时也运行良好,验证了该校准方法(补充表6).
最后,我们研究了BOLT-LMM-inf混合模型统计与现有方法在单个SNP水平上的相似性。尽管使用了无穷小模型,但BOLT-LMM-inf统计与任何现有的混合模型统计并不相同,因为它是一个近似的测试统计,并避免了近端污染(在线方法和). 尽管如此,我们观察到BOLT-LMM-inf统计数据与GCTA-LOCO统计数据(使用标准前瞻模型)非常接近R(右)2>0.999 (补充表7和补充图7).
BOLT-LMM在WGHS表型中的应用
为了评估高斯混合模型分析在增加真实表型上的功效,我们分析了女性基因组健康研究中的九种表型(N个=23294个样本,M(M)=324488个SNP(QC后)(在线方法)。这些表型包括五种脂质表型、身高、体重指数和两种血压表型;由于大规模GWAS结果的可用性,我们选择分析这些表型。
我们比较了三种关联检验的功效:带有10个主成分的线性回归(PCA)32使用BOLT-LMM-inf进行无穷小混合模型分析,使用BOLT-LMM进行高斯混合建模。由于内存限制(),我们无法运行GCTA-LOCO12、FaST-LMM5,或FaST-LMM-Select15,这是以前唯一避免近端污染的方法(); 然而,GCTA-LOCO和BOLT-LMM-inf统计数据几乎相同(补充表7和补充图7). 为了比较这些方法的功效,我们计算了两个大致等效的指标:平均χ2已知相关基因座的统计数据,这是一种直接但有点杂乱的方法,因为每个性状只有19–180个基因座(补充表8)和样本外预测R(右)2(交叉验证中测量)混合模型方法使用所有SNP,线性回归仅使用PC。对于混合模型分析,后一个指标估计了混合模型在测试候选SNP时对其他SNP的影响进行调节的能力,这推动了它的威力(在线方法)12,34.
对于所研究的所有性状,BOLT-LMM获得了比PCA更高的功效(和补充表9). 大多数增加是由于通过无限小混合模型分析获得的收益,这种功率增益的大小随着在少数基因座上推断的遗传效应浓度的增加而增加(补充表10). 评估改进的直接方法的标准误差(平均χ2在已知基因座上)较高(0.6-2.2%;和补充表9)因此,9个性状中只有6个性状的改良具有统计学意义(p<0.05)。根据预测R(右)2在测量中,所有性状的改善都具有统计学意义(p<0.0002)(和补充表9). 脂肪性状获得的收益最大;对于与LDL胆固醇密切相关的脂蛋白ApoB,BOLT-LMM分析的平均χ2统计数据与PCA比较,与已知位点的无限小混合模型分析相比,增加了9%。为了验证这些增加不仅仅是由几个影响最大的基因座驱动的,我们还计算了χ2统计数据(仅限于在WGHS中复制的至少具有标称值的基因座第页<0.05显著降低统计噪声)并获得一致的结果(补充表8). 模拟表明,这些改进将随着样本量的增加而增加(和补充图5).
BOLT-LMM增强了检测WGHS表型关联的能力我们使用10个主成分、标准(无穷小)混合模型分析和BOLT-LMM高斯混合模型分析来比较线性回归的功率(使用两个大致等效的指标测量)。(a)χ增加百分比2使用混合模型方法对已知基因座的统计与主成分分析:χ和比率2统计最高LD的类型SNP和已发表的相关SNP。(b)预测R(右)25倍交叉验证的值:依次省略每个倍,通过同时拟合所有SNP效应(对于混合模型方法)或使用训练倍估计协变量效应(对于PCA)来计算预测。(注意,BOLT-LMM-inf在这里等价于BLUP预测。)我们在中显示了PCA(b)因为PC解释的少量差异(由于人口分层)提供了一个基线,可以转换预测R(右)2混合模型关联与PC协变量回归的功率增益。也就是说,关联能力和预测准确性之间的对应关系是(a)大致对应于(b)和类似的蓝色条(在线方法)。错误栏,折弯s.e.超过(a)已知位点(补充表8);(b)5次交叉验证折叠。数值数据见补充表9.
我们还观察到,无穷小混合模型分析比主成分分析获得了统计上显著的功率增益,功率增益的大小随着遗传力参数的增加而增加小时克2(和补充表9). 对于高度(小时克2=0.47(WGHS),WGHS的中等大样本量(N个=23294)足以使BOLT-LMM-infχ增加6%2统计与主成分分析,符合理论12,34同样,更大的样本量将带来更多收益12,34.
为了验证BOLT-LMM成功纠正了人口结构的混杂,我们计算了平均χ2上述三种方法的所有类型SNP和基因组膨胀因子的统计数据以及未修正的边际线性回归。我们观察到,PCA、BOLT-LMM-inf和BOLT-LMM统计数据得到一致校准,而未修正的线性回归统计数据被夸大,尤其是身高(补充表11). 我们进一步验证了乳糖酶基因的遗传变异与全基因组假阳性高度的显著关联,这是使用未修正的边际回归35使用PCA、BOLT-LMM-inf和BOLT-LMM时消失(补充表12).
讨论
我们描述了一种新的快速贝叶斯混合模型关联算法BOLT-LMM,并证明其运行时间仅与≈有关明尼苏达州1.5其内存使用量仅≈明尼苏达州/4字节,与现有的大数据集方法相比,计算效率提高了几个数量级。我们在WGHS表型的模拟和分析中进一步表明,BOLT-LMM的高斯混合建模能力能够在控制假阳性的同时提高标准混合模型分析的关联能力。在WGHS脂质特征中,我们观察到,功率增加相当于有效样本量的增加,比PCA增加了10%,比标准混合模型分析增加了9%。
BOLT-LMM的进步主要有两个原因。首先,随着样本量的不断增加,混合模型分析同时变得越来越重要,以纠正超大数据集中的人口结构和隐含相关性,但现有方法的实用性较差,所有这些方法都≥O(运行)(明尼苏达州2)时间复杂性(对于M(M)>N个)和高内存需求。BOLT-LMM的算法创新克服了这个计算障碍(). (我们的实现使用≈明尼苏达州/4字节的内存,实际上已经比现有方法少得多。理论上,现有算法的内存复杂度为O(运行)(N个2),而BOLT-LMM的内存复杂度可以降低到O(运行)(M(M)+N个)通过数据迭代。)第二,BOLT-LMM能够更好地建模非有限的遗传结构,相对于标准混合模型分析,能够获得功率增益。最近在这方面的方法学进展包括多位点混合模型(MLMM)7,将大效应基因座识别为固定效应并将其条件化,以及FaST-LMM-Select和相关方法9,11,15,16,36该模型采用稀疏回归框架,将混合模型限制为标记子集。然而,这些方法都面临相同的问题O(运行)(明尼苏达州2)计算障碍作为标准混合模型分析。
贝叶斯方法以前已经被开发出来,应用非限定模型来提高遗传风险预测的准确性。这些方法原则上扩展到关联测试,尽管贝叶斯分析自然产生的贝叶斯因子和后验包含概率并不直接转化为常规GWAS频率测试统计数据37变分贝叶斯尖峰回归(vBsr)方法38是解决这个问题的最近一步,提出了一个z统计量,该统计量通过假设绝大多数变体是无关联的(如在基因组控制中33),但当大样本量由于多基因性导致通货膨胀时,这种技术容易出现通货紧缩13,24.BOLT-LMM通过其混合方法避开了这一困难,该方法依次去掉每个染色体,在剩余SNP上拟合贝叶斯模型,然后应用回顾性假设检验,以确定缺失SNP与剩余表型的关联。与同时建模所有SNP和使用贝叶斯后验推断评估关联证据相反37,我们的方法概括了广泛使用的现有混合模型方法,并且我们相信它能够利用贝叶斯分析的威力,同时仍然计算频率统计数据,这将对GWAS从业者有用。此外,这种混合方法有助于有效测试数百万估算SNP剂量的关联性,同时在混合模型中仅包括类型化SNP,我们建议限制计算成本。
虽然BOLT-LMM在速度和功率方面都改进了现有的混合模型关联方法,但BOLT-LSM仍有局限性。首先,BOLT-LMM通过其更灵活的SNP效应大小先验优势,相对于现有方法提供的功率增益取决于真正的遗传结构是否足够非有限,样本大小是否足够大(补充图5). 其次,BOLT-LMM与现有的混合模型方法一样,在分析低流行性疾病的大量已确定病例对照数据集时,很容易发生功率损失12我们推荐BOLT-LMM用于随机确定的数量性状,确定患病率≥5%的疾病的病例对照研究(补充表13)-例如,2型糖尿病、心脏病、常见癌症、高血压、哮喘以及在大量未确定人群中对罕见疾病的研究39,40对于罕见疾病的大型确定病例对照研究,我们正在开发一种使用后验平均负债(LTMLM)进行建模确定的方法;将BOLT-LMM技术应用于这些后验平均负债是未来研究的一条途径。第三,虽然混合模型分析可以有效地纠正多种形式的混淆,但执行仔细的数据质量控制对于避免误报仍然至关重要。第四,我们的工作没有试图估计BOLT-LMM估计的遗传力参数(表示为小时克2)可能受到种群结构或亲缘关系的影响,也不在来自独立队列的外部验证样本中进行或评估基因预测34第五,我们没有研究混合模型方法在以族结构为主的数据集中的性能23第六,BOLT-LMM量表的运行时间和分析的表型数;对于具有大量表型(P)的数据集,GRAMMAR-Gamma方法10,有运行时间O(运行)(明尼苏达州2+MNP公司)(参考文献中审查。12)可能会更快。第七,我们只在人类数据集中测试了BOLT-LMM,这些数据集具有与动植物数据非常不同的连锁不平衡模式和遗传结构。特别是,考虑到我们得出的一些近似值在非人类数据集中可能会被违反(例如,将预期测试统计的分母视为近常数10),我们不确定BOLT-LMM统计在这些场景中是否有效。同样,在测试非常罕见的变体时,应谨慎看待这些假设。最后,我们对具有一个随机遗传效应的混合模型进行了快速混合模型分析;将算法扩展到多方差分量模型41是未来工作的方向。
联机方法
标准混合模型关联方法
标准方法采用模型
哪里年是表型,x个测试是否测试候选SNP,克是遗传效应,以及电子是环境影响。我们假设现在所有的都是以平均值为中心的,没有协变量;我们通过从基因型和表型中投影协变量来处理协变量,这相当于将它们作为固定效应包括在内(补充说明). 遗传和环境效应被建模为随机效应,而候选SNP被建模为系数为β的固定效应测试,目的是测试无效假设β测试=0.在标准无穷小模型下,遗传效应建模为
哪里X(X)GRM公司是一个N个×M(M)GRM公司矩阵,其中每列包含与模型中包含的SNP相对应的标准化基因型,以及βGRM公司是一个M(M)GRM公司-随机SNP效应大小的向量都来自相同的正态分布,因此克具有协方差Cov的多元正态分布(克) ∝X(X)GRM公司X(X)GRM公司'. 注意,为了避免近距离污染5,9,12,的M(M)GRM公司SNP用于X(X)GRM公司应根据SNP的不同而有所不同x个测试正在测试:候选SNPx个测试(和与其不平衡连锁的SNP)应排除在X(X)GRM公司以避免对其效果进行两次建模。BOLT-LMM采用离开染色体(LOCO)方案5,12在哪儿X(X)GRM公司删除同一染色体上的SNPx个测试.
矩阵X(X)GRM公司X(X)GRM公司'/M(M)GRM公司通常称为遗传关系矩阵(GRM)或经验亲属关系矩阵K(K),然后我们写
其中σ克2是方差参数。假设环境影响正常,因此电子也是多元正态的
哪里我表示N个×N个单位矩阵与σ电子2是另一个方差参数。
实际上,方差参数σ克2和σ电子2未知。几种现有方法三,10,12因此,采用两步方法计算关联统计:首先估计方差参数(使用SNPx个测试使用限制最大似然法(REML),然后计算预期的chi-squared(1 d.o.f.)检验统计量(如之前在基于家庭的检验中提出的那样42)
哪里
设置方差参数σ克2和σ电子2在零假设β下的估计测试=0.在LOCO方案中,测试统计变成
我们写的地方五机车对于五明确表示染色体包含x个测试被排除在GRM之外。
最近的计算进展也使精确似然比测试统计数据的计算成为可能,该统计数据在测试候选SNP时对方差参数建模5,6虽然精确统计在具有非常大影响SNP的情况下更加准确,但近似方法在典型的人类遗传学场景中产生几乎相同的结果三,10,12.
BOLT-LMM-inf混合模型统计
BOLT-LMM-inf无穷小混合模型统计略有不同:
哪里c(c)inf公司是一个估计为
以便
实际上,为了计算效率,我们取了30个与表型(χ2<5用GRAMMAR统计估计43). 我们从经验上观察到,30个随机SNP足以将校准因子估计到1%以内(补充表14).
我们可以将BOLT-LMM-inf统计视为标准前瞻性统计的近似值(将表型视为随机)或回顾性统计(将基因型视为随机,并在SNP上建立空模型)。第一种观点的动机是观察到在人类遗传学应用中,预期统计的分母方程式(5),x个测试'五−1x个测试,几乎独立于SNPx个测试正在测试10从这个角度来看,BOLT-LMM-inf与GRAMMAR-Gamma类似10,有两个关键区别:(1)BOLT-LMM-inf是通过更快的算法(如下所述)计算的,用于执行初始方差参数估计和估计校准常数,以及(2)BOLT-LMM-inf通过LOCO分析避免了近端污染。或者,我们也可以将BOLT-LMM-inf视为类似于T型评分–R(参考。44)和MASTOR23(补充说明).
BOLT-LMM高斯混合模型关联统计量
我们现在通过观察向量五机车−1年出现在方程式(8)是剩余表型向量σ的标量倍数电子2五LOCO公司−1年最佳线性无偏预测(BLUP)。因此,χ2LMM-inf螺栓统计相当于计算(然后校准)SNP之间的平方相关性x个测试和BLUP残差。混合模型关联的力量是由SNP这一事实驱动的x个测试根据这些“去噪”残留表型进行测试,混合模型估计的其他SNP效应已从中排除9,12.
我们可以通过定义
哪里年残渣-LOCO表示在拟合标准LMM的高斯混合扩展后获得的广义剩余表型向量(使用不在同一染色体上的SNPx个测试)和c(c)表示校准系数,估计为LD分数回归截距24χ的2LMM螺栓与(正确校准的)χ相匹配2LMM-inf螺栓统计的。在无穷小模型下,年残渣-LOCO与…成比例五LOCO公司−1年,所以χ2LMM螺栓减少到χ2LMM-inf螺栓.一般χ2LMM螺栓统计数据仍然可以被解释为一种回顾性准似然分数测试,因此是渐近齐次分布的。
要定义高斯混合LMM扩展,首先在贝叶斯公式中框架标准LMM是有帮助的。BOLT-LMM-inf的零模型为
其中SNP影响β米(米索引不在遗漏染色体上的SNPs)是从高斯先验分布中独立得出的
和环境影响电子n个(n个索引样本)独立于电子n个~N个(0, σ电子2). 执行最佳线性无偏预测相当于计算遗传效应的后验均值X(X)LOCO公司βLOCO公司.
为了将该模型推广到非有限遗传结构,我们用更一般的分布替换了SNP效应大小的高斯先验;这种方法已被动物育种文献中基因组预测方法的“贝叶斯字母表”广泛应用17–19.在BOLT-LMM中,我们使用两个高斯函数的尖峰和尖峰混合物19如前所述:
这种混合物更灵活地模拟了典型(非限定)表型遗传效应的厚尾分布。明确地说,如果第页≪1和σβ,12≫ σβ,22,混合物的第一个成分是一个“平板”,它模拟了少量相对大效应位点的存在,而第二个成分是“尖峰”,它建模了大多数SNP对表型具有近零效应但不完全为零的假设。(然而,请注意,所有SNP之前都分配了相同的混合物;即,SNP没有单独分配给一个或另一个组分。)重要的是,穗部组分具有非零方差,以便捕获基因组范围内对表型的影响,例如祖先或亲缘关系;然后,当测试SNP的关联性时,这些全基因组的影响是从残留表型中筛选出来的,以防止混淆。优先权原则上可以进一步推广;我们选择使用两个高斯分布的混合来保持模型相当简单,因为高斯分布在建模过程中产生了方便的分析公式。
在这个广义模型下,后验均值不再对应于BLUP,但我们仍然可以近似地拟合贝叶斯模型(每个缺失染色体一次)并获得残差
其中βLOCO公司是估计的后验平均效应大小。将这些残余沉积物插入方程式(11)给出了BOLT-LMM高斯混合模型的关联检验统计量。
快速迭代算法
BOLT-LMM软件执行混合模型关联分析的四步计算,当专用于无穷小模型时,在前两步之后停止。我们在这里概述了算法,并在补充说明.
步骤1a:估计方差参数
BOLT-LMM的一个关键特征是方差参数σ的估计克2和σ电子2只使用线性时间迭代,而不构建或分解任何协方差矩阵。我们使用蒙特卡洛REML方法26,27消除了所有O(运行)(明尼苏达州2)和O(运行)(N个三)-时间矩阵计算,只需要求解混合模型方程的线性系统。我们使用共轭梯度迭代来求解混合模型方程,这只需要O(运行)(明尼苏达州)-时间矩阵向量积28,29(补充说明).
步骤1b:计算并校准BOLT-LMM-inf统计数据
通过步骤1a中的方差参数估计,可以直接计算(针对每个LOCO代表)数量五LOCO公司−1年在BOLT-LMM-inf统计的分子中,方程式(8),如上所述使用共轭梯度迭代。完成χ分子的计算2LMM-inf螺栓然后就相当于计算每个SNP的一个点积x个测试,只需要O(运行)(明尼苏达州)所有SNP的额外成本。此外,对于混合模型中未包含但需要关联统计的附加SNP,可以轻松进行此计算;BOLT-LMM以这种方式处理估算的“剂量”数据。计算校准常数c(c)inf公司在里面方程式(9),BOLT-LMM快速计算前瞻性统计χ2LMM-LOCO公司从方程式(7)通过应用共轭梯度迭代计算30个随机SNP五LOCO公司−1x个测试针对30个选定SNP中的每一个x个测试最后,除了计算χ2关联统计,BOLT-LMM还计算所有测试SNP的效应大小估计(补充说明).
在步骤1a中估计的方差参数与理论上最优的参数估计之间存在轻微的不匹配,在步骤1a中,BOLT-LMM使用不遗漏任何染色体的所有SNPs计算一次方差参数,而理论上最优的参数估计将通过对每个遗漏的染色体重新装配一次而获得。然而,我们在模拟中观察到,方差参数的轻微错误规范对BOLT LMM inf和BOLT-LMM统计的校准影响可以忽略不计(<0.5%)(补充表4). 因为极轻微的校准错误不涉及高分化标记的人群分层混淆(补充表12)对I型错误影响很小(补充表5)默认情况下,BOLT-LMM软件不会重新调整每个LOCO代表的方差参数。如果需要非常精确的校准,我们提供了一个运行时选项,以2–3倍的运行时间为代价重新调整每个LOCO代表的变异参数。我们认为,LOCO在保持运行时间下降的同时,在实现≈95%的潜在功率增益(通过联合拟合≈95%不在LD中的标记与候选标记)方面取得了良好的平衡12,但我们也提供了一个运行时选项,以更精细地划分基因组(例如,分成100个片段,而不是22个片段),同样以2-3倍的运行时间为代价。
步骤2a:估计高斯混合先验参数
BOLT-LMM高斯混合模型关联分析的第一步是估计SNP效应大小的广义先验参数。如中所述方程(14),该混合物有三个参数:σβ,12和σβ,22两个高斯人的方差第页,从第一个高斯函数中提取的概率。为了降低参数估计的复杂性,我们将混合物的总方差约束为等于方差σ克2/M(M)在步骤1a中的无穷小模型下估计:
我们使用参数重新参数化剩下的两个自由度第页和(f)2,其中(f)2表示第二个高斯函数(模拟小全基因组效应的“尖峰”分量)内总混合方差的比例:
由于模型拟合对混合物参数的精确值不敏感,我们测试了一组离散的模型参数组合:(f)2∈{0.5,0.3,0.1},第页∈{0.5,0.2.0.1,0.05,0.02,0.01}. 请注意(f)2=0.5,第页=0.5对应于无穷小模型:当(f)2=1−第页,两个高斯函数是相同的,并且混合物是退化的。我们绑定(f)2以确保至少有少量(10%)的混合方差分配给spike分量,防止全基因组效应的混淆。我们绑定第页以防止模型过于强烈地拟合少数SNP,这使得模型填充计算困难,也增加了混淆的敏感性。BOLT-LMM在18个可能的参数对中进行模型选择((f)2,第页)通过执行交叉验证来优化均方预测R(右)2.
BOLT-LMM使用变分近似来拟合具有高斯混合先验的贝叶斯线性回归。在这种情况下,近似方法对于贝叶斯推断是必要的,因为精确的后验均值涉及到难以处理的积分。我们采用全因子变分近似21,22,38它反复循环SNP,根据所有其他SNP效应的当前估计值,用其后验平均值更新每个SNP的估计效应大小。这个迭代以前也被称为“迭代条件期望(ICE)”20.变分贝叶斯框架将此迭代作为近似对数似然函数的优化,奠定了坚实的理论基础;迭代单调地增加了这个函数,并保证收敛45事实上,我们证明了优化可以重新表述为循环坐标下降,应用于由贝叶斯线性回归产生的惩罚回归问题,该问题使用转换的先验(补充说明). 近似日志似然也可以作为一个方便的收敛标准:当一个完整更新周期内近似日志似似度的增加值低于0.01时,BOLT-LMM停止迭代。
而BOLT-LMM使用的核心变分迭代与以前的方法相同20–22,38在选择SNP效应大小之前,BOLT-LMM使用交叉验证来估计超参数15而不是在变分迭代中这样做22,38或基于变分近似对数似然21我们发现,这种方法对由连杆不平衡引起的变分近似松弛更具鲁棒性。
步骤2b:计算并校准BOLT-LMM高斯混合模型统计
在步骤2a之前推断出混合物的参数后,BOLT-LMM使用相同的变分迭代来估计后验平均残差年残渣-LOCO(独立于每个被遗漏的染色体)。BOLT-LMM高斯混合模型统计的分子方程式(11)然后很容易获得具有测试SNP的点积,只留下恒定的校准因子c(c)在要计算的分母中。与无穷小模型的情况不同,这里我们没有要校准的前瞻性统计数据,因此我们使用LD Score回归24(补充说明). 实际上,校准系数通常非常接近1(例如,所有WGHS性状的1.00至两位小数;参见补充表15).
WGHS数据集
女性基因组健康研究(WGHS)是一项北美健康女性保健专业人员的前瞻性队列研究。我们分析了23294名自报欧洲血统的个体,在QC后进行了324488个SNP的基因分型(补充说明).
遗传力参数解释
遗传力参数(表示为小时克2)一般来说,BOLT-LMM估计的可能包括隐相关或种群结构的一些贡献46,因此可能与基因型SNP解释的遗传力不完全相符47.参考。三为此,将此参数称为“伪可靠性”。因为我们在这里主要分析的WGHS样本不包含实质性的相关性或种群结构,所以我们只使用了符号小时克2以避免使讨论复杂化。