主要文本
尽管全基因组关联研究(GWAS)取得了巨大成功,已鉴定出数百个SNP,这些SNP赋予人类复杂疾病和特征的遗传变异,1人类复杂性状的遗传结构在很大程度上仍然无法解释。对于大多数性状,来自GWAS的相关SNP只能解释一小部分遗传力。2,3对于“缺失遗传力”的解释尚未达成共识。可能的解释包括大量具有小效应的常见变异、具有大效应的罕见变异以及DNA结构变异。2,4我们最近提出了一种估计当前一代商业基因分型阵列上所有SNP捕获的表型方差总量的方法,并估计人类身高的约45%的表型方差可以由所有常见SNP解释。5因此,由于许多SNP的影响很小,因此高度的大多数遗传力是隐藏的而不是缺失的。5,6与单一SNP关联分析相比,我们方法的基本概念是通过混合线性模型(MLM)将所有SNP的效应拟合为随机效应,
哪里年是一个n个×1表型载体n个样本量,β是固定效应向量,如性别、年龄和/或主成分分析(PCA)中的一个或多个特征向量,u个是SNP效应的矢量,我是一个n个×n个单位矩阵,以及ɛ是残余效应的矢量.W公司是一个标准化的基因型矩阵ij公司第个要素,其中x个ij公司是参考等位基因的拷贝数我第个的SNPj个第个个人和第页我是参考等位基因的频率。如果我们定义A类= W公司W公司′/N个并定义正如所有SNP解释的方差,即,使用N个是SNP的数量,那么方程式1相当于:7–9
哪里克是一个n个具有以下特征的个体总遗传效应的×1载体、和A类被解释为个体之间的遗传关系矩阵(GRM)。因此,我们可以估计通过限制最大似然(REML)方法,10依赖于从所有SNP估计的GRM。这里我们报告了一种称为克全基因组c(c)复合体t吨莱特一分析(GCTA),它实现了估计所有SNP解释的方差的方法,并将该方法扩展到将遗传方差划分到每条染色体上,还估计了X染色体解释的方差,并对雌性进行了剂量补偿测试。我们在五个功能域中开发了GCTA:数据管理、从一组SNP估计GRM、估计单个染色体或整个基因组上所有SNP解释的方差、估计连锁不平衡(LD)结构和模拟。
从全基因组单核苷酸多态性估计遗传关系
GCTA的核心功能之一是根据SNP估计个体之间的遗传关系。根据上述定义,个体之间的遗传关系j个和k个可通过以下方程式进行估算:
我们提供了一个函数来迭代排除关系大于指定截止值(例如0.025)的一对中的一个个体,同时保留数据中的最大个体数。对于从家族或双胞胎研究中收集的数据,我们建议用户估计与所有常染色体SNP的遗传关系,然后使用此选项排除近亲。排除的原因是,分析的目的是估计所有SNP捕获的遗传变异,就像GWAS对单个SNP所做的那样。包括近亲,如父母-子女对和兄弟姐妹,将导致由这些对的表型相关性驱动的遗传方差估计(就像系谱分析中一样),并且这种估计可能是总遗传方差的有偏估计,例如由于常见的环境影响。即使估计值没有偏差,其解释也与“无关”个体的估计值不同:基于系谱的估计值捕获所有因果变量(整个等位基因频谱)的贡献,而我们的方法捕获了LD中具有基因型SNP的因果变异的贡献。
作为副产品,我们在GCTA中提供了一个函数来计算GRM的特征向量,该函数与在EIGENSTRAT中实现的PCA的特征向量渐近等价11因为GRM(A类jk公司)GCTA中定义的约为协方差矩阵的一半(Ψjk公司)在EIGENSTRAT中使用。开发此函数的唯一目的是计算特征向量,然后将其作为协变量包含在模型中,以捕获因人口结构引起的方差。在诸如EIGENSTRAT等项目中可以找到更复杂的人口结构分析11和结构。12
用REML估计基因组单核苷酸多态性解释的方差
根据SNP估计的GRM可以随后拟合到MLM中,以通过REML方法估计这些SNP解释的方差。10以前,我们在模型中只包含了一个遗传因素。在这里,我们将模型扩展为一般形式
哪里克我是随机遗传效应的载体,可以是整个基因组或单个染色体的总遗传效应。在这个模型中,表型方差()将其分为由每个遗传因子解释的方差和剩余方差,
哪里是的方差我第个遗传因素及其对应的GRM,A类我.
在GCTA中,我们提供了灵活的选项来指定不同的遗传模型。例如:
(1) 为了估计所有常染色体SNP解释的方差,我们可以将模型指定为年=Xβ+克+ɛ具有,其中克是一个n个所有个体的所有常染色体SNP的总效应的×1载体,以及A类克是根据这些SNP估算的GRM。此型号与方程式2.
(2) 估算基因型与环境相互作用效应的方差(),我们可以将模型指定为年 = Xβ+克+通用电气公司+ɛ具有,其中通用电气公司是基因型与环境相互作用效应的载体,适用于所有患有A类通用电气公司=A类克对于同一环境中的成对个体A类通用电气公司=0针对不同环境中的成对个体。
(3) 为了将遗传方差划分到22个常染色体上,我们可以将模型指定为具有,其中克我是遗传效应的载体我第个染色体和A类我是根据SNP估算的GRM我第个染色体。
GCTA通过平均信息(AI)算法实现REML方法。13在REML迭代过程中t吨第个迭代由更新θ(t吨+1)= θ(t吨)+ (A类我(t吨))−1∂ L(左)/∂ θ|θ(t吨),其中θ是方差分量的向量(, …,和);L(左)是MLM的对数似然函数(忽略常数),L(左)=−1/2(对数|V(V)|+日志|X(X)′V(V)−1X(X)| + 年′对年)带有对= V(V)−1 − V(V)−1X(X)(X(X)′V(V)−1X(X))−1X(X)′V(V)−1;人工智能是观测和预期信息矩阵的平均值,; 和L(左)/∂ θ是对数似然函数关于每个方差分量的一阶导数向量,.13在迭代过程开始时,所有组件都由任意值初始化,即。,,随后通过期望最大化(EM)算法进行更新,EM算法被用作确定迭代更新方向的初始步骤,因为它对较差的初始值具有鲁棒性。在一次EM迭代后,GCTA在剩余迭代中切换到AI算法,直到迭代收敛到以下标准L(左)(t吨 + 1)–L(左)(t吨)< 10−4,其中L(左)(t吨)是t吨第个迭代。在迭代过程中,任何从参数空间逃逸的分量(即其估计值为负)都将设置为10−6×。如果组件一直从参数空间中退出,则它将被约束为10−6×.
根据REML分析,GCTA可以选择为所有个体提供总遗传效应的最佳线性无偏预测(BLUP)。BLUP被植物和动物育种家广泛用于量化人工选择程序中个体的育种价值14还有进化遗传学家。15考虑方程式1和2即。,年=Xβ+吴+ɛ和年=Xβ+克+ɛ。因为这两个模型在数学上是等价的,7–9的BLUP克可以转换为的BLUPu个通过这里是对u个我对应于系数w个ij公司,然后重新缩放原始x个ij公司通过我们可以在GCTA的发现集中获得SNP效应的BLUP,并在验证集中预测个体的遗传值(). 例如,GCTA可用于预测发现集中的SNP效应,SNP效应可用于PLINK,通过验证集中的评分方法预测全基因组图谱。如果预测是无偏的,那么观察到的表型对预测遗传值的回归斜率为1。14在这种情况下,基于SNP效应BLUP计算的遗传值是验证集中真实遗传值的无偏预测值(克新的)从这个意义上说.16,17对人类复杂性状的预测分析表明,许多未通过全基因组显著性水平的SNP对预测有重大贡献。18,19因此,该选项对于所有SNP的全基因组预测分析都很有用,无论其关联p值如何。
X染色体SNP解释的方差估计
根据X染色体估计遗传关系的方法不同于常染色体SNP的方法,因为男性只有一条X染色体。我们修改了方程式3X染色体为:
哪里和分别是男性和女性X染色体SNP参考等位基因的拷贝数。
假设男女遗传相关性为1,一对个体之间的X连锁表型协方差为:20
哪里和是分别归因于男性和女性X染色体的遗传变异。
的相对值和这取决于关于X染色体基因的剂量补偿的假设。女性每个基因座有两个等位基因,但男性只有一个。如果我们假设每个等位基因对性状有相似的影响(即无剂量补偿),那么女性X染色体上的遗传变异是男性的两倍:即。,因此,
这可以通过将X染色体的GRM重新定义为对于公-雄配对,对于女性-女性配对,以及男女配对。如果我们假设女性的每个等位基因的效应只有男性等位基因效应的一半(即完全剂量补偿),那么女性的X连锁遗传方差是男性的一半:即。,因此,
因此,原始A类X(X)矩阵应参数化为对于公-雄配对,对于女性-女性配对,以及男女配对。第三种可能性是假设男性和女性在X染色体上的遗传变异相等,即。,,在这种情况下A类X(X)矩阵根本没有被重新定义。
我们可以估计通过拟合模型年= X(X)β+ 克X(X)+ 克+ ɛ,其中克X(X)是X染色体遗传效应的载体假设没有剂量补偿,假设全剂量补偿,以及假设雄性和雌性的X连锁遗传方差相等。通过比较三种假设下模型拟合的可能性,可以实现剂量补偿测试。
病例对照研究中全基因组单核苷酸多态性解释的方差估计
上述方法也适用于病例对照数据,其中SNP解释的方差估计值对应于观察到的0-1量表上的变异。在疾病阈值模型的假设下,即基础规模上的疾病责任遵循标准正态分布,21SNP在观察到的0-1量表上解释的方差估计可以通过线性变换转换为在未观察到的连续负债量表上的方差估计。22半个多世纪前,人们提出了观察到的0-1和未观察到的负债量表上的加性遗传方差之间的关系,23,24我们最近扩展了这一转换,以解释病例对照研究中的确定偏差,即样本中病例的比例远高于普通人群(未公布的数据)。我们在GCTA中提供选项来分析二元特征,并将0–1量表上的估计值转换为负债量表上估计值,并对确定偏差进行调整。在将本文描述的方法应用于病例对照数据时,有一个重要的警告。任何批次、平板或其他技术伪制品导致病例和对照之间的等位基因频率平均比零假设下的差异更大,即样本来自同一人群,这将有助于估计假遗传变异,因为案例与其他案例的关系似乎比与控件的关系更大。因此,在将GCTA应用于病例对照数据时,严格的质量控制至关重要。数量性状不太可能受到技术基因分型伪影的影响,因为它们通常不会导致连续表型和基因型之间的虚假关联。
从全基因组SNP估算近交系数
除了估计个体之间的遗传相关性外,GCTA还具有估计近亲繁殖系数的功能(如果)SNP数据,即个体内单倍型之间的关系。使用了两种估计:一种基于加性遗传值的方差(SNP衍生GRM的对角线),另一种基于SNP纯合度(在PLINK中实现)。25让(1–第页我)2+第页我(1 –第页我)如果, 2第页我(1 –第页我)(1 –如果)、和第页我2+第页我(1 –第页我)如果是SNP的三种基因型的频率我然后让小时我= 2第页我(1–第页我). 基于加性基因型值方差的估计为
哪里x个我是参考等位基因的拷贝数我第个SNP公司。这是一个特殊情况方程式3对于单个SNP,当j=k.基于过量纯合子的估计为
其中O(#hom)和E类(hom)分别是样本中观察到的和预期的纯合基因型数量。这两个估计量都是如果在这个意义上,但其抽样方差取决于等位基因频率,即。,(1 –小时我) /小时我如果如果= 0. 此外,两个估计量之间的协方差为(3小时我–1)/小时我+ (1 – 2小时我)如果/小时我–如果2,因此估计值之间的采样协方差为(3小时我– 1) /小时我采样相关性为(3小时我 – 1) / (1 –小时我)何时如果= 0. 我们提出了一种基于联合配子之间相关性的估计器:5
也是无偏估计量如果在这个意义上.如果如果= 0,不考虑等位基因频率,这小于和即1≤(1–小时我) /小时我。当0<如果< 1/3,方差也小于和。在GCTA中,我们使用1+而不是1+计算GRM的对角线。对于多个SNP,我们平均所有SNP的估计值,即。,.
估算LD结构
在标准GWAS中,尤其是在样本量较大的情况下,平均值(λ意思是)或中值(λ中值的)在任何SNP与表型之间没有关联的无效假设下,单一SNP关联的检验统计数据经常偏离其预期值,这通常被解释为是由于人群分层和/或隐性关联造成的影响。11,26,27另一种解释是,多基因变异导致观察到的测试统计数据膨胀。18预测基因组膨胀因子λ意思是和λ中值的,根据多基因参数,如所有SNPs解释的方差总量,我们需要量化SNPs和推定因果变异之间的LD结构(未发表的数据)。GCTA提供了一个搜索LD中具有“因果变量”的所有SNP的功能(由用户选择的一组SNP模拟)。给定一个因果变量,我们使用简单回归测试LD中的SNP,因果变量在d日任意方向的Mb距离。PLINK有一个选项(“显示目标”),用一组目标SNP和LD选择LD中的SNP第页2大于用户指定的截止值。此函数对于区分独立关联信号非常有用,但不太适合预测λ意思是和λ中值的,因为中等LD的SNP的测试统计数据带有因果变量(Mb距离的SNP低第页2)也会在一定程度上被膨胀,而这些测试统计数据将有助于基因组膨胀因素。
GWAS模拟
我们提供了一个基于观察到的基因型数据模拟GWAS数据的函数。对于数量性状,表型由简单的加性遗传模型模拟年 =吴+ɛ,其中符号与上面相同。给定一组指定为因果变量的SNP,因果变量的影响由标准正态分布产生,剩余影响由均值为0、方差为,其中是的经验方差吴和小时2是用户指定的遗传率。对于病例对照研究,假设一个阈值-可行性模型,疾病易感性的模拟方法与数量性状表型的模拟方法相同。疾病责任超过一定阈值的任何个人T型被指定为案例,否则为控件,其中T型是正态分布截断比例的阈值K(K)(疾病流行率)。此函数的唯一目的是根据观察到的基因型数据进行简单模拟。可以使用ms、,28基因组,29弗雷根,30和哈根。31
数据管理
我们选择了PLINK25压缩二进制文件格式(∗.床,∗.bim和∗.fam)作为GCTA的输入数据格式,因为它在遗传学界很受欢迎,并且数据存储效率很高。对于插补剂量数据,我们使用插补程序MACH的输出文件32(∗.mldose.gz和∗.mlinfo.gz)作为GCTA的输入。为了便于分析,我们提供了提取个体和/或SNP子集的选项,并根据某些标准筛选SNP,例如染色体位置、次要等位基因频率(MAF)和插补R(右)2(对于估算数据)。然而,我们不提供数据的彻底质量控制(QC)功能,例如Hardy-Weinberg平衡测试和缺失,因为这些功能已经在许多其他遗传分析软件包中得到了很好的开发,例如PLINK、GenABEL、,33和SNPTEST。34我们假设数据在进入GCTA之前已经通过标准QC流程进行了清理。
估计总遗传力
GCTA中采用的方法是估计由染色体或全基因组SNP解释的方差,而不是性状遗传力。然而,估计遗传力(即所有因果变量解释的方差)依赖于因果变量的遗传关系,而由于标记不完善,由SNP衍生的遗传关系预测出的因果变量存在误差。我们之前已经确定预测误差为c(c)+ 1 /N个,使用c(c)取决于因果变量的MAF分布。因此,我们开发了一种基于简单回归的方法,通过
其中β=1−(c(c)+1个/N个)/无功功率,无功功率(A类j个k个). 只有当有关因果变量MAF分布的假设正确时,所有SNP在调整后解释的方差估计才是对遗传力的无偏估计。
GCTA计算算法的效率
GCTA基于方差-方差矩阵实施REML方法V(V)和投影矩阵对。在一些混合模型分析包中,如ASREML,35以避免反转n个×n个 V(V)矩阵,人们通常使用混合模型方程的高斯消去(MME)来获得人工智能基于稀疏矩阵技术的矩阵。然而,SNP衍生的GRM矩阵通常很密集,因此稀疏矩阵技术将带来额外的内存和CPU时间成本。此外,MME的维数取决于模型中随机效应的数量,而V(V)矩阵没有。例如,在模型中同时拟合22条染色体时,MME的维数为22n个× 22n个(忽略固定效应),而V(V)矩阵仍然存在n个×n个我们比较了GCTA和ASREML的计算效率。当样本量较小时(例如,n<3000),GCTA和ASREML都需要几分钟才能运行。当样本量较大时,例如n>10000,特别是当拟合多个GRM时,ASREML需要几天才能完成分析,而GCTA只需要几个小时。
系统要求
我们已经为三个主要操作系统发布了GCTA的可执行版本:MS Windows、Linux/Unix和Mac OS。我们还发布了源代码,以便用户可以为某些特定平台编译它们。当计算GRM或使用多个遗传成分进行REML分析时,GCTA需要大量内存。例如,需要~4.8 GB内存来计算由294831个SNP对3925个个体进行基因分型的数据集的GRM,并且需要~4个CPU小时(AMD Opteron 2.8 GHz)才能完成计算。因此,我们建议使用64位版本的GCTA来支持大内存。
非加性遗传方差
我们采用的分析方法是对基于谱系的估计方法的逻辑扩展。它可以估计SNP阵列捕获的加性遗传变异,因此可以提供有关复杂性状遗传结构的信息。GCTA中获得的所有SNP捕获的方差估计值与家族和双胞胎研究中系谱分析估计的遗传力以及GWAS命中解释的方差直接可比,因此可以量化缺失和隐藏的遗传力。5遗传变异的其他来源,如显性、基因-基因相互作用和基因-环境相互作用,对于复杂性状变异也很重要,但如果总遗传力是指狭义遗传力,即。,由于加性遗传变异引起的表型变异的比例。当前版本的GCTA仅提供了估计和划分加性和加性环境相互作用效应方差的函数。在技术上可行的是,在未来将分析扩展到包括显性和/或基因-基因相互作用效应。然而,检测高阶遗传变异的能力将受到限制,即估计方差分量的抽样方差将非常大。未来的发展还将包括进行多元分析的选项,读取不同格式的基因型或插补概率数据,以及实现全基因组或染色体片段方法的其他应用。
总之,我们开发了一种通用工具,用于从全基因组SNP估计遗传关系,随后可用于通过混合模型方法估计SNP解释的方差。我们提供灵活的选项来指定不同的遗传模型,以将遗传差异划分到每条染色体上。我们开发了从X染色体上的SNPs估计遗传关系的方法,并测试剂量补偿的假设。GCTA并不局限于分析人类复杂特征的数据,但在本报告中,我们只使用了人类的例子和规范(例如常染色体的数量)。