尽管全基因组关联研究(GWAS)有潜力查明人类疾病和农业重要性状的遗传多态性,但错误发现是一个主要问题1这在一定程度上可归因于人口结构和特定队列中个体之间的不平等关系所导致的虚假关联。最初使用基于一般线性模型(GLM)的方法(如结构化关联)来解决人口分层问题2,基因组控制三以及基于家庭的关联测试4MLM方法的引入最近被证明是一种改进的方法,可以同时考虑人口结构和个体之间的不平等关系5.
在基于MLM的方法中,人口结构2,6作为一种固定效应进行拟合,而个体之间的亲属关系被纳入个体随机效应的方差-方差结构。无论采用何种统计方法,GWAS都需要大样本才能获得足够的统计能力7尤其是为了检测大多数复杂性状背后的小效应多态性8对于MLM方法,具有如此大样本量的数据集会产生沉重的计算负担,因为求解MLM的计算时间会随着适合作为随机效应的个体数的立方而增加。减少MLM中随机效应大小的最早努力可以追溯到动物育种中使用的公畜模型方法9–12它用父系的遗传效应取代了个体的遗传效应。因此,父系模型方法需要系谱,而系谱并不总是可用的,尤其是在植物研究中通常不可用。即使有可用的系谱,也会首选基于标记的亲属关系,因为其准确性更高13,14。计算时间进一步增加,因为需要迭代来估计总体参数,例如方差分量15,针对每个测试标记。尽管许多研究都试图提高迭代过程的速度,包括开发最新的高效混合模型关联(EMMA)算法16求解大量个体和标记的MLM仍然需要大量计算。为了解决这个问题,提出了一种基于两步策略的剩余方法17第一步优化了减少的MLM,排除了遗传标记效应。在第二步中,将简化MLM的残差拟合为因变量,以测试GLM中的每个标记。由于随机遗传效应在第二步中不适用,因此在测试标记时不需要迭代。这种残差方法可以比对所有未知参数进行完全优化的一步MLM执行得快得多,但它的统计能力相当于仅对低遗传力性状进行完全优化方法的统计能力。我们在这里提出了在缺乏系谱信息的情况下减小随机遗传效应大小的方法,并消除迭代,以便在不影响统计能力的情况下重新估计每个标记的种群参数。我们表明,这两种方法的联合使用大大减少了计算时间,并保持甚至增加了统计能力。
使用标准MLM的GWAS的总计算时间为最大功率网络三,其中米是标记的总数,第页是求解MLM的迭代次数n个是被评估的个人总数。使用大样本量进行GWAS会增加计算量,因为每次迭代所花费的时间与随机效应中个体数的立方成正比15,18减少这种计算负担的一种方法是减小随机效应的大小。我们通过替换来实现这一点n个群体数量较少的个体,秒(秒≤n个),根据个体之间的亲缘关系进行聚类。因此,由于MLM的随机效应,成对群体之间的亲属关系取代成对个体之间的亲属。如果c(c)=n个/秒是每个组的平均个体数,以下称为压缩级别,这种方法将减少计算时间c(c)三我们将这种方法命名为压缩,指的是如何将MLM中的随机效应从个体压缩到群体。使用压缩的MLM称为压缩MLM。
因为在这种方法中,根据亲缘关系估计将个体聚类到组中,我们认为压缩的传销是基于谱系的父系模型的扩展9–12取得了显著进步。压缩MLM中使用的组可以根据标记或系谱计算的亲属关系进行聚类。此外,压缩MLM中的组数可以从n个而在传统方法中,特定家系的父系数量是固定的。群体数量的灵活性允许优化群体平均值和群体数量的准确性,这是一种类似于选择每只公猪的公猪数量和子代数量的方法,以最大限度地提高育种计划中的遗传改良19–21优化组数的能力可以提高GWAS的统计能力。
压缩MLM跨越了GLM和MLM之间的边界,因为GLM和MLM都可以被视为压缩MLM的极端情况(). 当每个个体被视为一个单独的组(即,秒=n个),而当所有个体都在一个组中时,GLM相当于压缩的MLM(秒= 1). 后者使随机效应具有单一水平,从而避免了随机效应和剩余方差分量的单独估计。此外,随机效应和总体平均值是线性相关的,因此无法单独估计。
根据随机效应大小和亲属关系类型对传销形式进行分类。GLM和标准MLM是压缩MLM的两个极端,组数确定为1和n个(个体数量)。父系模型是压缩MLM的一个特例,群体被确定为来源于系谱的父系。亨德森传销中使用的亲属关系15是根据家谱计算出来的。在统一MLM中扩展到基于标记的亲属关系5GLM方法以多种格式出现在各种GWAS中,包括结构关联(SA)2、基因组控制(GC)三和定量传递不平衡检验(QTDT)4.通过改变组的数量,压缩的MLM可以灵活地应用于整个区域(秒)包括之前调查的区域(阴影区域)和本研究中提议的区域(开放区域)。
为了进一步减少计算时间,我们开发了P3D算法,这是一种两步方法,不需要迭代来估计种群参数,例如每个标记的遗传方差和剩余方差。该算法的第一步是在排除标记效应的情况下,优化简化的MLM。如果模型中包含压缩,则人口参数还包括聚类算法和压缩级别。取自类似的用于标记辅助育种的方法22,算法的第二步继续拟合MLM中的随机遗传效应,将先前确定的种群参数固定为经验贝叶斯先验23随后,估计每个标记的非种群参数,包括标记效应和随机遗传效应。
P3D类似于两步残差法17,但也有显著差异。残差法将简化MLM的残差拟合为第二步的因变量,而原始表型拟合为P3D第二步中的因变量。此外,残差方法不符合随机遗传效应,在测试标记时使用GLM,而P3D符合随机遗传效应,预先确定的群体参数固定在MLM框架中。
为了评估相对于标准MLM的压缩和P3D,并充分优化每个标记的所有未知参数,我们在人类、狗和玉米的观察或模拟表型与观察标记之间进行了一系列关联研究。对于观察到的表型,我们评估了不同压缩级别和不同聚类算法下压缩MLM的拟合度。在观察到的表型和观察到的遗传标记之间没有关联的假设下,我们通过使用压缩的MLM来研究假阳性的分布。通过考虑观察到的表型和观察到的标记之间的潜在真实关联,模拟表型用于评估统计能力。通过添加遗传效应,从观察到的SNP生成模拟表型。具有指定遗传效应的SNP称为数量性状核苷酸(QTN)。QTN总数、遗传力和显性以及上位性效应都不同,以验证P3D对不同遗传结构表型的稳健性。我们使用了F类模拟表型和非QTN标记之间关联测试的统计数据,以确定经验阈值5显著性水平为5%(P(P)< 0.05). 然后,我们计算了QTN与F类值大于阈值。
结果
压缩
我们使用八种层次聚类算法检验了压缩MLM对人类身高的拟合度24,25:算术平均的未加权成对分组法(UPGMA);未加权对群质心;全联动;Lance-Williams柔性贝塔法;McQuitty的相似性分析(使用算术平均值的加权成对组方法);加权成对质心中值;单连杆(最近邻);和沃德的方法。随着聚类算法和压缩级别的不同组合的使用,每个模型的拟合程度都有很大差异。对于每个聚类算法,除了人类数据集中的未加权和加权对组质心中值算法外,至少有一个压缩级别比标准MLM更适合数据(补充图1). 聚类算法之间模型拟合的差异表明,需要进行更多的研究,以更好地理解聚类算法与压缩级别之间的关系;然而,这超出了我们的研究范围。因为UPGMA生成的模型通常等同于或优于其他聚类算法,所以我们选择在这里介绍的其他工作中使用它,包括检查模型是否适合同一人群中的不同表型(补充图2).
在假设观察到的表型和测试标记之间没有关联的情况下P(P)关联测试的值应遵循均匀[0,1]分布。此分布显示在中的分位数-分位数图中值得注意的是,当压缩水平在1.5到10之间时,压缩MLM比标准MLM更好地控制假阳性率(). 在这些相同的压缩水平下,当排除标记效应时,压缩MLM比标准MLM具有更好的模型拟合().
使用不同压缩级别下的压缩MLM的关联测试的I类错误(假阳性)率的分位数图。观察到的表型包括人类的身高、狗的髋关节发育不良(诺伯格角)和玉米的开花时间(授粉天数)。The distributions ofP(P)通过绘制观察到的值来显示P(P)累计值P(P)负日志中的值10比例尺。假设这组遗传标记与控制表型的多态性无关P(P)关联测试的值具有均匀分布,由预期的对角线(Exp)表示5分布更接近对角线的统计方法表明更好地控制I类错误。与最大压缩级别下的压缩MLM等效的GLM具有最多的类型I错误。对于所有物种,至少有一个压缩级别发现压缩MLM的性能优于标准MLM,这相当于压缩级别为1的压缩MLM。
压缩MLM在不同压缩级别(水平轴)下的性能。压缩水平在1和n个(人数)分别对应于标准MLM和GLM。根据模型拟合、统计能力和计算时间检查性能。观察到的表型包括人类的身高、狗的髋关节发育不良(诺伯格角)和玉米的开花时间(授粉天数)。使用SAS中proc集群实现的UPGMA算法,将每个数据集中的个体按照亲属关系聚类为组26使用负对数似然(-2LL)、调整的Akaike信息准则(AICC)和贝叶斯信息含量(BIC)评估模型拟合。-2LL、AICC和BIC值越小,表示拟合效果越好。对具有不同大小效应的QTN进行统计功效评估。QTN效应的大小以表型标准差(s.d.)为单位表示。根据对人类数据集中647个标记进行关联测试的观察CPU时间计算平均计算时间;狗数据集中的1000个标记;玉米数据集中有553个标记。计算由SAS中混合的proc执行26在Dell(Optiplex 755)的计算机上,两个物理CPU(E6850@3.00 GHz)和3.25 GB RAM在Windows XP下运行。
为了应对减少假阳性的数量可能影响检测真阳性的能力(即统计能力)的风险,特别是在假设没有违反关联的情况下,我们通过仿真研究检查了压缩MLM的性能。将QTN效应添加到观察到的表型后,这些模拟表型与标记之间的关联测试表明,统计能力(即检测模拟QTN的能力)和模型拟合遵循相同的趋势。最适合无标记模型的压缩级别也提供了检测QTN的最高能力(中间,). 与标准MLM相比,使用压缩MLM可以获得5到10倍的等效功率。对于解释0.12、0.30和0.30个表型标准差单位的QTN,使用最佳拟合模型的压缩水平使人类、狗和玉米的统计能力分别提高了34%、42%和20%。
第三页
我们比较了P(P)使用P3D获得的值P(P)使用完全优化测试人类、狗和玉米中观察到的表型和标记之间的关联的值。决定系数(第页2; Pearson相关系数平方)P(P)两种方法所得值均大于0.96。因此,我们得出结论,从P3D和完全优化方法获得的关联测试大致相同。
为了使用具有不同遗传结构的表型评估P3D的性能,我们对模拟表型进行了关联测试。模拟了具有不同遗传力、显性和上位效应水平的不同数量的QTN。同样,强相关性(第页2>0.97)之间P(P)观察到QTN和非QTN SNP的P3D值和完全优化方法(和补充图3和4).
这个P(P)在模拟不同上位性效应的玉米表型上,使用一步MLM和对所有未知参数进行完全优化(完全OPT)的关联测试值和统计功效,与P3D进行比较(E类). 表型由20个QTN控制,这些QTN被随机分配到玉米数据集中的SNP5遗传力定义为加性遗传方差占总方差(加性遗传变异、上位性变异和剩余方差之和)的比例,设定为0.5。因为这里使用的所有玉米都是自交系,所以不包括显性效应。实验重复了1000次。对于每个重复,随机抽样的非因果SNP数量与因果QTN数量相同。顶部的两个面板显示P(P)使用完整OPT的值(x个轴)和P3D(年轴)。每个点代表对非因果SNP(顶部)和因果QTN(中部)的测试。这个P(P)P3D值与非因果SNP和因果QTN的完全OPT值高度相关(第页2> 99%). 检测因果QTN的经验统计功率显示(底部)为解释的总变异比例的函数(x个轴)。P3D方法和完整OPT在检测因果QTN方面的统计能力大致相同。
对于遗传率为50%且由从人类数据集中SNP随机抽样的20个QTN控制的模拟表型,我们使用了四个压缩级别。在每个压缩级别,使用P3D和完全优化方法进行关联测试。对应的P(P)还观察到P3D值和完全优化(第页2>0.99)对于不同压缩级别的QTN和非QTN SNP(补充图5).
我们使用了F类非QTN SNP的统计数据,以得出评估的经验阈值F类每个压缩级别的值。我们计算了QTN与F类大于阈值的值对应5%的显著性水平(P(P)< 0.05). 在所有测试场景中,P3D和完全优化方法的经验统计能力大致相同(底部面板和补充图3-5).
讨论
压缩与压缩级别立方体的倒数成比例地减少计算时间。例如,压缩级别为2将减少约87%的计算时间。每个人作为一个组的标准MLM的压缩级别为1,并且需要最多的计算时间。GLM相当于将所有个人分配到单个组的最高压缩级别,需要的计算时间最少。在我们的分析中,随着压缩级别从1增加,模型拟合和统计能力都有所提高。在达到最佳压缩水平后,进一步压缩会降低模型拟合和统计功率,最终与GLM在最大压缩下的功率相同。
简化模型(即没有标记的模型)在不同压缩水平下的拟合与完整模型测试标记的统计能力遵循相同的趋势。由于简化模型不包括标记效应,因此使用最佳拟合模型确定压缩级别所需的计算时间与标记数无关。由于这些原因,P3D模型使用了一种有效的策略,只需确定一次最佳聚类算法和压缩级别。
与残差方法类似,P3D消除了对每个标记单独估计种群参数的需要。P3D的优点是,无论表型的遗传结构如何,它都不会降低统计能力。P3D方法适用于不同数量的QTN以及不同水平的遗传力、显性或上位性效应。
压缩MLM和P3D可以单独或联合应用,也可以与其他方法(如EMMA算法)结合使用,以加快P3D第一步的迭代过程。压缩MLM提高了计算速度和统计能力,而P3D在不牺牲统计能力的情况下提高了计算速率。此外,压缩的MLM可以应用于各种压缩级别。对于统计能力是首要考虑因素的分析,应选择具有最佳模型fit的压缩级别;否则,可以选择更高的压缩级别来减少计算时间。应该注意的是,目前还没有确定任何趋势来确定不同数据集中最佳模型系数的压缩水平。当使用相同的亲属关系时,产生最佳模型fit的压缩水平在同一人群的表型之间有所不同(补充图2). 因此,对于每个新的研究,需要使用减少的MLM优化压缩级别。
理论计算时间缩短的速度是个人电脑三用于联合使用压缩MLM和P3D,其中第页是迭代次数c(c)是压缩级别。在SAS中使用proc mixed和proc cluster时26在这三个数据集上,我们发现人类数据集(最大样本量)的计算时间在最大统计功率的压缩水平下,仅使用压缩MLM时减少了19倍,使用P3D压缩时减少了877倍(,底部)。选择一个与标准MLM功率相当的压缩级别可以进一步缩短计算时间:仅使用压缩时计算时间就快103倍,使用P3D压缩时计算速度就快7582倍。对于包含1315个个体的人类数据集,标准MLM(无压缩,无P3D)需要821秒来筛选一个标记。()以这种速度,需要9502天(26年)来分析一个具有100万标记的GWAS。当前的方法(用P3D压缩)在3.8的压缩水平下筛选标记需要0.34 s,这显示出最高的统计能力,并且在这种速度下,筛选100万个标记只需要2.7 d。对于较大的数据集(例如,包含5000个个体的数据集)来说,速度的提高更为重要。这表明,我们的方法可以在几天内对数千名500000–1000000标记的个体的当前GWAS数据集进行分析。我们在软件程序TASSEL的实现中提供了这些方法27.