GCTA: A Tool for Genome-wide Complex Trait Analysis

Jian Yang; S. Hong Lee; Michael E. Goddard; Peter M. Visscher

doi:10.1016/j.ajhg.2010.11.011

美国人类遗传学杂志。2011年1月7日；88(1): 76–82.

数字对象标识：2016年10月10日/j.ajhg.2010.11.011

预防性维修识别码：PMC3014363项目

PMID：21167468

GCTA：全基因组复杂性状分析工具

简阳,^1,^∗ S.Hong Lee先生,¹ 迈克尔·戈达德,^2,^三和彼得·维舍尔¹

作者信息文章注释版权和许可信息 PMC免责声明

摘要

对于大多数人类复杂疾病和特征，全基因组关联研究（GWAS）确定的SNP只能解释一小部分遗传力。这里我们报告一个用户友好的软件工具，名为克enome宽c（c）复数t吨莱特一分析（GCTA）是基于我们最近开发的解决“缺失遗传力”问题的方法开发的。GCTA估计一个复杂性状的染色体或整个基因组上所有SNP解释的方差，而不是测试任何特定SNP与该性状的关联。我们介绍了GCTA的五个主要功能：数据管理、SNP遗传关系估计、SNP解释方差的混合线性模型分析、连锁不平衡结构估计和GWAS模拟。我们重点研究了估算X染色体上所有SNP解释的方差的功能，并测试了剂量补偿假设。GCTA软件是一个多用途的工具，用于估计和划分具有大型GWAS数据集的复杂性状变异。

主要文本

尽管全基因组关联研究（GWAS）取得了巨大成功，已鉴定出数百个SNP，这些SNP赋予人类复杂疾病和特征的遗传变异，¹人类复杂性状的遗传结构在很大程度上仍然无法解释。对于大多数性状，来自GWAS的相关SNP只能解释一小部分遗传力。^2,3对于“缺失遗传力”的解释尚未达成共识。可能的解释包括大量具有小效应的常见变异、具有大效应的罕见变异以及DNA结构变异。^2，4我们最近提出了一种估计当前一代商业基因分型阵列上所有SNP捕获的表型方差总量的方法，并估计人类身高的约45%的表型方差可以由所有常见SNP解释。⁵因此，由于许多SNP的影响很小，因此高度的大多数遗传力是隐藏的而不是缺失的。^5,6与单一SNP关联分析相比，我们方法的基本概念是通过混合线性模型（MLM）将所有SNP的效应拟合为随机效应，

年 = X（X） β + 吴 + ɛ 具有 无功功率，无功功率 (年) = V（V） = W公司 {W公司}^{'} σ_{u个}^{2} + 我 σ_{ɛ}^{2},

（方程式1）

哪里年是一个n个×1表型载体n个样本量，β是固定效应向量，如性别、年龄和/或主成分分析（PCA）中的一个或多个特征向量，u个是SNP效应的矢量 $u个至 N个 (0, 我 σ_{u个}^{2})$ ,我是一个n个×n个单位矩阵，以及ɛ是残余效应的矢量 $ɛ 至 N个 (0, 我 σ_{ɛ}^{2})$ .W公司是一个标准化的基因型矩阵ij公司^第个要素 ${w个}_{我 j个} = ({x个}_{我 j个} 负极 2 {第页}_{我}) / \sqrt{2 {第页}_{我} (1 负极 {第页}_{我})}$ ，其中x个_ij公司是参考等位基因的拷贝数我^第个的SNPj个^第个个人和第页_我是参考等位基因的频率。如果我们定义A类= W公司W公司^′/N个并定义 $σ_{克}^{2}$ 正如所有SNP解释的方差，即 $σ_{克}^{2} = N个 σ_{u个}^{2}$ ，使用N个是SNP的数量，那么方程式1相当于：^7–9

年 = Xβ + 克 + ɛ 具有 V（V） = A类 σ_{克}^{2} + 我 σ_{ɛ}^{2},

（方程式2）

哪里克是一个n个具有以下特征的个体总遗传效应的×1载体 $克至 N个 (0, A类 σ_{克}^{2})$ 、和A类被解释为个体之间的遗传关系矩阵（GRM）。因此，我们可以估计 $σ_{克}^{2}$ 通过限制最大似然（REML）方法，¹⁰依赖于从所有SNP估计的GRM。这里我们报告了一种称为克全基因组c（c）复合体t吨莱特一分析（GCTA），它实现了估计所有SNP解释的方差的方法，并将该方法扩展到将遗传方差划分到每条染色体上，还估计了X染色体解释的方差，并对雌性进行了剂量补偿测试。我们在五个功能域中开发了GCTA：数据管理、从一组SNP估计GRM、估计单个染色体或整个基因组上所有SNP解释的方差、估计连锁不平衡（LD）结构和模拟。

从全基因组单核苷酸多态性估计遗传关系

GCTA的核心功能之一是根据SNP估计个体之间的遗传关系。根据上述定义，个体之间的遗传关系j个和k个可通过以下方程式进行估算：

{A类}_{j个 k个} = \frac{1}{N个} \sum_{我 = 1}^{N个} \frac{({x个}_{我 j个} 负极 2 {第页}_{我}) ({x个}_{我 k个} 负极 2 {第页}_{我})}{2 {第页}_{我} (1 负极 {第页}_{我})} .

（方程式3）

我们提供了一个函数来迭代排除关系大于指定截止值（例如0.025）的一对中的一个个体，同时保留数据中的最大个体数。对于从家族或双胞胎研究中收集的数据，我们建议用户估计与所有常染色体SNP的遗传关系，然后使用此选项排除近亲。排除的原因是，分析的目的是估计所有SNP捕获的遗传变异，就像GWAS对单个SNP所做的那样。包括近亲，如父母-子女对和兄弟姐妹，将导致由这些对的表型相关性驱动的遗传方差估计（就像系谱分析中一样），并且这种估计可能是总遗传方差的有偏估计，例如由于常见的环境影响。即使估计值没有偏差，其解释也与“无关”个体的估计值不同：基于系谱的估计值捕获所有因果变量（整个等位基因频谱）的贡献，而我们的方法捕获了LD中具有基因型SNP的因果变异的贡献。

作为副产品，我们在GCTA中提供了一个函数来计算GRM的特征向量，该函数与在EIGENSTRAT中实现的PCA的特征向量渐近等价¹¹因为GRM(A类_jk公司)GCTA中定义的约为协方差矩阵的一半(Ψ_jk公司)在EIGENSTRAT中使用。开发此函数的唯一目的是计算特征向量，然后将其作为协变量包含在模型中，以捕获因人口结构引起的方差。在诸如EIGENSTRAT等项目中可以找到更复杂的人口结构分析¹¹和结构。¹²

用REML估计基因组单核苷酸多态性解释的方差

根据SNP估计的GRM可以随后拟合到MLM中，以通过REML方法估计这些SNP解释的方差。¹⁰以前，我们在模型中只包含了一个遗传因素。在这里，我们将模型扩展为一般形式

年 = X（X） β + \sum_{我 = 1}^{第页} 克_{我} + ɛ,

哪里克_我是随机遗传效应的载体，可以是整个基因组或单个染色体的总遗传效应。在这个模型中，表型方差( $σ_{对}^{2}$ )将其分为由每个遗传因子解释的方差和剩余方差，

V（V） = \sum_{我 = 1}^{第页} {A类}_{我} σ_{我}^{2} + 我 σ_{ɛ}^{2},

哪里 $σ_{我}^{2}$ 是的方差我^第个遗传因素及其对应的GRM，A类_我.

在GCTA中，我们提供了灵活的选项来指定不同的遗传模型。例如：

（1）为了估计所有常染色体SNP解释的方差，我们可以将模型指定为年=Xβ+克+ɛ具有 $V（V） = {A类}_{克} σ_{克}^{2} + 我 σ_{ɛ}^{2}$ ，其中克是一个n个所有个体的所有常染色体SNP的总效应的×1载体，以及A类_克是根据这些SNP估算的GRM。此型号与方程式2.

（2）估算基因型与环境相互作用效应的方差( $σ_{通用电气公司}^{2}$ )，我们可以将模型指定为年 = Xβ+克+通用电气公司+ɛ具有 $V（V） = {A类}_{克} σ_{克}^{2} + {A类}_{通用电气公司} σ_{通用电气公司}^{2} + 我 σ_{ɛ}^{2}$ ，其中通用电气公司是基因型与环境相互作用效应的载体，适用于所有患有A类_{通用电气公司}=A类_克对于同一环境中的成对个体A类_{通用电气公司}=0针对不同环境中的成对个体。

（3）为了将遗传方差划分到22个常染色体上，我们可以将模型指定为 $年 = X（X） β + \sum_{我 = 1}^{22} 克_{我} + ɛ$ 具有 $V（V） = \sum_{我 = 1}^{22} {A类}_{我} σ_{我}^{2} + 我 σ_{ɛ}^{2}$ ，其中克_我是遗传效应的载体我^第个染色体和A类_我是根据SNP估算的GRM我^第个染色体。

GCTA通过平均信息（AI）算法实现REML方法。¹³在REML迭代过程中t吨^第个迭代由更新θ^(t吨+1)= θ^(t吨)+ (A类我^(t吨))⁻¹∂ L（左）/∂ θ|_θ^(t吨)，其中θ是方差分量的向量( $σ_{1}^{2}$ , …, $σ_{第页}^{2}$ 和 $σ_{ɛ}^{2}$ );L（左）是MLM的对数似然函数（忽略常数），L（左）=−1/2（对数|V（V）|+日志|X（X）^′V（V）⁻¹X（X）| + 年^′对年)带有对= V（V）⁻¹ − V（V）⁻¹X（X）(X（X）^′V（V）⁻¹X（X）)⁻¹X（X）^′V（V）⁻¹；人工智能是观测和预期信息矩阵的平均值， $A类我 = 1 / 2 [\begin{matrix} 年^{'} 对 {A类}_{1} 对 {A类}_{1} 对年 & \dots & 年^{'} 对 {A类}_{1} 对 {A类}_{第页} 对年 & 年^{'} 对 {A类}_{1} 对对年 \\ ⋮ & ⋮ & ⋮ & ⋮ \\ 年^{'} 对 {A类}_{第页} 对 {A类}_{1} 对年 & \dots & 年^{'} 对 {A类}_{第页} 对 {A类}_{第页} 对年 & 年^{'} 对 {A类}_{第页} 对对年 \\ 年^{'} 对对 {A类}_{1} 对年 & \dots & 年^{'} 对对 {A类}_{第页} 对年 & 年^{'} 对对对年 \end{matrix}]$ ; 和L（左）/∂ θ是对数似然函数关于每个方差分量的一阶导数向量， $\partial L（左） / \partial θ = 负极 1 / 2 [\begin{matrix} t吨第页 (对 {A类}_{1}) 负极年^{'} 对 {A类}_{1} 对年 \\ ⋮ \\ t吨第页 (对 {A类}_{第页}) 负极年^{'} 对 {A类}_{第页} 对年 \\ t吨第页 (对) 负极年^{'} 对对年 \end{matrix}]$ .¹³在迭代过程开始时，所有组件都由任意值初始化，即。， $σ_{我}^{2 (0)} = σ_{对}^{2} / (第页 + 1)$ ，随后通过期望最大化（EM）算法进行更新， $σ_{我}^{2 (1)} = [σ_{我}^{4 (0)} 年^{'} 对 {A类}_{我} 对年 + 信托收据 (σ_{我}^{2 (0)} 我负极 σ_{我}^{4 (0)} 对 {A类}_{我})] / n个$ EM算法被用作确定迭代更新方向的初始步骤，因为它对较差的初始值具有鲁棒性。在一次EM迭代后，GCTA在剩余迭代中切换到AI算法，直到迭代收敛到以下标准L（左）^(t吨 ^{+ 1)}–L（左）^(t吨)< 10⁻⁴，其中L（左）^(t吨)是t吨^第个迭代。在迭代过程中，任何从参数空间逃逸的分量（即其估计值为负）都将设置为10⁻⁶× $σ_{对}^{2}$ 。如果组件一直从参数空间中退出，则它将被约束为10⁻⁶× $σ_{对}^{2}$ .

根据REML分析，GCTA可以选择为所有个体提供总遗传效应的最佳线性无偏预测（BLUP）。BLUP被植物和动物育种家广泛用于量化人工选择程序中个体的育种价值¹⁴还有进化遗传学家。¹⁵考虑方程式1和2即。，年=Xβ+吴+ɛ和年=Xβ+克+ɛ。因为这两个模型在数学上是等价的，^7–9的BLUP克可以转换为的BLUPu个通过 $\hat{u个} = {W公司}^{'} {A类}^{负极 1} \hat{克} / N个$ 这里是对u个_我对应于系数w个_ij公司，然后重新缩放原始x个_ij公司通过 ${\hat{u个}}_{我}^{*} = {\hat{u个}}_{我} / \sqrt{2 {第页}_{我} (1 负极 {第页}_{我})}$ 我们可以在GCTA的发现集中获得SNP效应的BLUP，并在验证集中预测个体的遗传值( ${\hat{克}}_{新的} = {W公司}_{新的} \hat{u个}$ ). 例如，GCTA可用于预测发现集中的SNP效应，SNP效应可用于PLINK，通过验证集中的评分方法预测全基因组图谱。如果预测是无偏的，那么观察到的表型对预测遗传值的回归斜率为1。¹⁴在这种情况下，基于SNP效应BLUP计算的遗传值是验证集中真实遗传值的无偏预测值(克_新的)从这个意义上说 $E类 (克_{新的} | {\hat{克}}_{新的}) = {\hat{克}}_{新的}$ .^16,17对人类复杂性状的预测分析表明，许多未通过全基因组显著性水平的SNP对预测有重大贡献。^18,19因此，该选项对于所有SNP的全基因组预测分析都很有用，无论其关联p值如何。

X染色体SNP解释的方差估计

根据X染色体估计遗传关系的方法不同于常染色体SNP的方法，因为男性只有一条X染色体。我们修改了方程式3X染色体为：

{A类}_{j个 k个}^{M（M）} = \sum_{我 = 1}^{N个} \frac{({x个}_{我 j个}^{M（M）} 负极 {第页}_{我}) ({x个}_{我 k个}^{M（M）} 负极 {第页}_{我})}{{第页}_{我} (1 负极 {第页}_{我})} 对于 一 男性-男性 一对,

{A类}_{j个 k个}^{如果} = \sum_{我 = 1}^{N个} \frac{({x个}_{我 j个}^{如果} 负极 2 {第页}_{我}) ({x个}_{我 k个}^{如果} 负极 2 {第页}_{我})}{2 {第页}_{我} (1 负极 {第页}_{我})} 对于 一 女性-女性 一对, 和

{A类}_{j个 k个}^{MF公司} = \sum_{我 = 1}^{N个} \frac{({x个}_{我 j个}^{M（M）} 负极 {第页}_{我}) ({x个}_{我 k个}^{如果} 负极 2 {第页}_{我})}{\sqrt{2} {第页}_{我} (1 负极 {第页}_{我})} 对于 一 男性-女性 一对,

哪里 ${x个}_{我 j个}^{M（M）}$ 和 ${x个}_{我 j个}^{如果}$ 分别是男性和女性X染色体SNP参考等位基因的拷贝数。

假设男女遗传相关性为1，一对个体之间的X连锁表型协方差为：²⁰

{覆盖（cov）}_{X（X）} (年_{j个}^{M（M）}, 年_{k个}^{M（M）}) = E类 ({A类}_{j个 k个}^{M（M）}) σ_{X（X） (M（M）)}^{2} 对于 一 男性-男性 一对,

{覆盖（cov）}_{X（X）} (年_{j个}^{如果}, 年_{k个}^{如果}) = E类 ({A类}_{j个 k个}^{如果}) σ_{X（X） (如果)}^{2} 对于 一 女性-女性 一对, 和

{覆盖（cov）}_{X（X）} (年_{j个}^{M（M）}, 年_{k个}^{如果}) = E类 ({A类}_{j个 k个}^{MF公司}) σ_{X（X） (M（M）)} σ_{X（X） (如果)} 对于 一 男性-女性 一对,

哪里 $σ_{X（X） (M（M）)}^{2}$ 和 $σ_{X（X） (如果)}^{2}$ 是分别归因于男性和女性X染色体的遗传变异。

的相对值 $σ_{X（X） (M（M）)}^{2}$ 和 $σ_{X（X） (如果)}^{2}$ 这取决于关于X染色体基因的剂量补偿的假设。女性每个基因座有两个等位基因，但男性只有一个。如果我们假设每个等位基因对性状有相似的影响（即无剂量补偿），那么女性X染色体上的遗传变异是男性的两倍：即。， $σ_{X（X）}^{2} = σ_{X（X） (如果)}^{2} = 2 σ_{X（X） (M（M）)}^{2}$ 因此，

{覆盖（cov）}_{X（X）} (年_{j个}^{M（M）}, 年_{k个}^{M（M）}) = \frac{1}{2} E类 ({A类}_{j个 k个}^{M（M）}) σ_{X（X）}^{2} 对于 一 男性-男性 一对,

{覆盖（cov）}_{X（X）} (年_{j个}^{如果}, 年_{k个}^{如果}) = E类 ({A类}_{j个 k个}^{如果}) σ_{X（X）}^{2} 对于 一 女性-女性 一对, 和

{覆盖（cov）}_{X（X）} (年_{j个}^{M（M）}, 年_{k个}^{如果}) = \frac{1}{\sqrt{2}} E类 ({A类}_{j个 k个}^{MF公司}) σ_{X（X）}^{2} 对于 一 男性-女性 一对 .

这可以通过将X染色体的GRM重新定义为 ${A类}_{X（X）}^{ND（无损检测）} = 1 / 2 {A类}_{X（X）}$ 对于公-雄配对， ${A类}_{X（X）}^{ND（无损检测）} = {A类}_{X（X）}$ 对于女性-女性配对，以及 ${A类}_{X（X）}^{ND（无损检测）} = 1 / \sqrt{2} {A类}_{X（X）}$ 男女配对。如果我们假设女性的每个等位基因的效应只有男性等位基因效应的一半（即完全剂量补偿），那么女性的X连锁遗传方差是男性的一半：即。， $σ_{X（X）}^{2} = σ_{X（X） (如果)}^{2} = 1 / 2 σ_{X（X） (M（M）)}^{2}$ 因此，

{覆盖（cov）}_{X（X）} (年_{j个}^{M（M）}, 年_{k个}^{M（M）}) = 2 E类 ({A类}_{j个 k个}^{M（M）}) σ_{X（X）}^{2} 对于 一 男性-男性 一对,

{覆盖（cov）}_{X（X）} (年_{j个}^{如果}, 年_{k个}^{如果}) = E类 ({A类}_{j个 k个}^{如果}) σ_{X（X）}^{2} 对于 一 女性-女性 一对, 和

{覆盖（cov）}_{X（X）} (年_{j个}^{M（M）}, 年_{k个}^{如果}) = \sqrt{2} E类 ({A类}_{j个 k个}^{MF公司}) σ_{X（X）}^{2} 对于 一 男性-女性 一对 .

因此，原始A类_X（X）矩阵应参数化为 ${A类}_{X（X）}^{财务总监} = 2 {A类}_{X（X）}$ 对于公-雄配对， ${A类}_{X（X）}^{财务总监} = {A类}_{X（X）}$ 对于女性-女性配对，以及 ${A类}_{X（X）}^{第二次} = \sqrt{2} {A类}_{X（X）}$ 男女配对。第三种可能性是假设男性和女性在X染色体上的遗传变异相等，即。， $σ_{X（X）}^{2} = σ_{X（X） (如果)}^{2} = σ_{X（X） (M（M）)}^{2}$ ，在这种情况下A类_X（X）矩阵根本没有被重新定义。

我们可以估计 $σ_{X（X）}^{2}$ 通过拟合模型年= X（X）β+ 克_X（X）+ 克+ ɛ，其中克_X（X）是X染色体遗传效应的载体 $无功功率，无功功率 (克_{X（X）}) = {A类}_{X（X）}^{ND（无损检测）} σ_{X（X）}^{2}$ 假设没有剂量补偿， $无功功率，无功功率 (克_{X（X）}) = {A类}_{X（X）}^{财务总监} σ_{X（X）}^{2}$ 假设全剂量补偿，以及 $无功功率，无功功率 (克_{X（X）}) = {A类}_{X（X）} σ_{X（X）}^{2}$ 假设雄性和雌性的X连锁遗传方差相等。通过比较三种假设下模型拟合的可能性，可以实现剂量补偿测试。

病例对照研究中全基因组单核苷酸多态性解释的方差估计

上述方法也适用于病例对照数据，其中SNP解释的方差估计值对应于观察到的0-1量表上的变异。在疾病阈值模型的假设下，即基础规模上的疾病责任遵循标准正态分布，²¹SNP在观察到的0-1量表上解释的方差估计可以通过线性变换转换为在未观察到的连续负债量表上的方差估计。²²半个多世纪前，人们提出了观察到的0-1和未观察到的负债量表上的加性遗传方差之间的关系，^23,24我们最近扩展了这一转换，以解释病例对照研究中的确定偏差，即样本中病例的比例远高于普通人群（未公布的数据）。我们在GCTA中提供选项来分析二元特征，并将0–1量表上的估计值转换为负债量表上估计值，并对确定偏差进行调整。在将本文描述的方法应用于病例对照数据时，有一个重要的警告。任何批次、平板或其他技术伪制品导致病例和对照之间的等位基因频率平均比零假设下的差异更大，即样本来自同一人群，这将有助于估计假遗传变异，因为案例与其他案例的关系似乎比与控件的关系更大。因此，在将GCTA应用于病例对照数据时，严格的质量控制至关重要。数量性状不太可能受到技术基因分型伪影的影响，因为它们通常不会导致连续表型和基因型之间的虚假关联。

从全基因组SNP估算近交系数

除了估计个体之间的遗传相关性外，GCTA还具有估计近亲繁殖系数的功能(如果)SNP数据，即个体内单倍型之间的关系。使用了两种估计：一种基于加性遗传值的方差（SNP衍生GRM的对角线），另一种基于SNP纯合度（在PLINK中实现）。²⁵让（1–第页_我)²+第页_我(1 –第页_我)如果, 2第页_我(1 –第页_我)(1 –如果)、和第页_我²+第页_我(1 –第页_我)如果是SNP的三种基因型的频率我然后让小时_我= 2第页_我（1–第页_我). 基于加性基因型值方差的估计为

{\hat{如果}}_{我}^{我} = {[{x个}_{我} 负极 E类 ({x个}_{我})]}^{2} / {小时}_{我} 负极 1 = {({x个}_{我} 负极 2 {第页}_{我})}^{2} / {小时}_{我} 负极 1 和 无功功率，无功功率 ({\hat{如果}}_{我}^{我} | 如果) = (1 负极 {小时}_{我}) / {小时}_{我} + 7 (1 负极 2 {小时}_{我}) 如果 / {小时}_{我} 负极 {如果}^{2},

哪里x个_我是参考等位基因的拷贝数我^第个SNP公司。这是一个特殊情况方程式3对于单个SNP，当j=k.基于过量纯合子的估计为

{\hat{如果}}_{我}^{二} = [O（运行） (# 高阶模) 负极 E类 (# 高阶模)] / [1 负极 E类 (# 高阶模)] = 1 负极 {x个}_{我} (2 负极 {x个}_{我}) / {小时}_{我} 和 无功功率，无功功率 ({\hat{如果}}_{我}^{二} | 如果) = (1 负极 {小时}_{我}) / {小时}_{我} 负极 (1 负极 2 {小时}_{我}) 如果 / {小时}_{我} 负极 {如果}^{2},

其中O（#hom）和E类（hom）分别是样本中观察到的和预期的纯合基因型数量。这两个估计量都是如果在这个意义上 $E类 ({\hat{如果}}_{我}^{我} | 如果) = E类 ({\hat{如果}}_{我}^{二} | 如果) = 如果$ ，但其抽样方差取决于等位基因频率，即。， $无功功率，无功功率 ({\hat{如果}}_{我}^{我}) = 无功功率，无功功率 ({\hat{如果}}_{我}^{二}) =$ (1 –小时_我) /小时_我如果如果= 0. 此外，两个估计量之间的协方差为（3小时_我–1）/小时_我+ (1 – 2小时_我)如果/小时_我–如果²，因此估计值之间的采样协方差为（3小时_我– 1) /小时_我采样相关性为（3小时_我 – 1) / (1 –小时_我)何时如果= 0. 我们提出了一种基于联合配子之间相关性的估计器：⁵

{\hat{如果}}_{我}^{三} = [{x个}_{我}^{2} 负极 (1 + 2 {第页}_{我}) {x个}_{我} + 2 {第页}_{我}^{2}] / {小时}_{我} 和 无功功率，无功功率 ({\hat{如果}}_{我}^{三} | 如果) = 1 + 2 (1 负极 2 {小时}_{我}) 如果 / {小时}_{我} 负极 {如果}^{2} .

${\hat{如果}}_{我}^{三}$ 也是无偏估计量如果在这个意义上 $E类 ({\hat{如果}}_{我}^{三} | 如果) = 如果$ .如果如果= 0, $无功功率，无功功率 ({\hat{如果}}_{我}^{三}) = 1$ 不考虑等位基因频率，这小于 ${\hat{如果}}_{我}^{我}$ 和 ${\hat{如果}}_{我}^{二}$ 即1≤（1–小时_我) /小时_我。当0<如果< 1/3, ${\hat{如果}}_{我}^{三}$ 方差也小于 ${\hat{如果}}_{我}^{我}$ 和 ${\hat{如果}}_{我}^{二}$ 。在GCTA中，我们使用1+ ${\hat{如果}}_{我}^{三}$ 而不是1+ ${\hat{如果}}_{我}^{我}$ 计算GRM的对角线。对于多个SNP，我们平均所有SNP的估计值，即。， $\hat{如果} = 1 / N个 \sum_{我 = 1}^{N个} {\hat{如果}}_{我}$ .

估算LD结构

在标准GWAS中，尤其是在样本量较大的情况下，平均值（λ_意思是)或中值（λ_中值的)在任何SNP与表型之间没有关联的无效假设下，单一SNP关联的检验统计数据经常偏离其预期值，这通常被解释为是由于人群分层和/或隐性关联造成的影响。^11,26,27另一种解释是，多基因变异导致观察到的测试统计数据膨胀。¹⁸预测基因组膨胀因子λ_意思是和λ_中值的，根据多基因参数，如所有SNPs解释的方差总量，我们需要量化SNPs和推定因果变异之间的LD结构（未发表的数据）。GCTA提供了一个搜索LD中具有“因果变量”的所有SNP的功能（由用户选择的一组SNP模拟）。给定一个因果变量，我们使用简单回归测试LD中的SNP，因果变量在d日任意方向的Mb距离。PLINK有一个选项（“显示目标”），用一组目标SNP和LD选择LD中的SNP第页²大于用户指定的截止值。此函数对于区分独立关联信号非常有用，但不太适合预测λ_意思是和λ_中值的，因为中等LD的SNP的测试统计数据带有因果变量（Mb距离的SNP低第页²)也会在一定程度上被膨胀，而这些测试统计数据将有助于基因组膨胀因素。

GWAS模拟

我们提供了一个基于观察到的基因型数据模拟GWAS数据的函数。对于数量性状，表型由简单的加性遗传模型模拟年 =吴+ɛ，其中符号与上面相同。给定一组指定为因果变量的SNP，因果变量的影响由标准正态分布产生，剩余影响由均值为0、方差为 $σ_{克}^{2} (1 / {小时}^{2} 负极 1)$ ，其中 $σ_{克}^{2}$ 是的经验方差吴和小时²是用户指定的遗传率。对于病例对照研究，假设一个阈值-可行性模型，疾病易感性的模拟方法与数量性状表型的模拟方法相同。疾病责任超过一定阈值的任何个人T型被指定为案例，否则为控件，其中T型是正态分布截断比例的阈值K（K）（疾病流行率）。此函数的唯一目的是根据观察到的基因型数据进行简单模拟。可以使用ms、，²⁸基因组，²⁹弗雷根，³⁰和哈根。³¹

数据管理

我们选择了PLINK²⁵压缩二进制文件格式(^∗.床，^∗.bim和^∗.fam）作为GCTA的输入数据格式，因为它在遗传学界很受欢迎，并且数据存储效率很高。对于插补剂量数据，我们使用插补程序MACH的输出文件³²(^∗.mldose.gz和^∗.mlinfo.gz）作为GCTA的输入。为了便于分析，我们提供了提取个体和/或SNP子集的选项，并根据某些标准筛选SNP，例如染色体位置、次要等位基因频率（MAF）和插补R（右）²（对于估算数据）。然而，我们不提供数据的彻底质量控制（QC）功能，例如Hardy-Weinberg平衡测试和缺失，因为这些功能已经在许多其他遗传分析软件包中得到了很好的开发，例如PLINK、GenABEL、，³³和SNPTEST。³⁴我们假设数据在进入GCTA之前已经通过标准QC流程进行了清理。

估计总遗传力

GCTA中采用的方法是估计由染色体或全基因组SNP解释的方差，而不是性状遗传力。然而，估计遗传力（即所有因果变量解释的方差）依赖于因果变量的遗传关系，而由于标记不完善，由SNP衍生的遗传关系预测出的因果变量存在误差。我们之前已经确定预测误差为c（c）+ 1 /N个，使用c（c）取决于因果变量的MAF分布。因此，我们开发了一种基于简单回归的方法，通过

{A类}_{j个 k个}^{*} = {\begin{cases} 1 + β ({A类}_{j个 j个} 负极 1), j个 = k个 \\ β {A类}_{j个 k个}, j个 \neq k个, \end{cases}

其中β=1−(c（c）+1个/N个)/无功功率，无功功率(A类_j个k个). 只有当有关因果变量MAF分布的假设正确时，所有SNP在调整后解释的方差估计才是对遗传力的无偏估计。

GCTA计算算法的效率

GCTA基于方差-方差矩阵实施REML方法V（V）和投影矩阵对。在一些混合模型分析包中，如ASREML，³⁵以避免反转n个×n个 V（V）矩阵，人们通常使用混合模型方程的高斯消去（MME）来获得人工智能基于稀疏矩阵技术的矩阵。然而，SNP衍生的GRM矩阵通常很密集，因此稀疏矩阵技术将带来额外的内存和CPU时间成本。此外，MME的维数取决于模型中随机效应的数量，而V（V）矩阵没有。例如，在模型中同时拟合22条染色体时，MME的维数为22n个× 22n个（忽略固定效应），而V（V）矩阵仍然存在n个×n个我们比较了GCTA和ASREML的计算效率。当样本量较小时（例如，n<3000），GCTA和ASREML都需要几分钟才能运行。当样本量较大时，例如n>10000，特别是当拟合多个GRM时，ASREML需要几天才能完成分析，而GCTA只需要几个小时。

系统要求

我们已经为三个主要操作系统发布了GCTA的可执行版本：MS Windows、Linux/Unix和Mac OS。我们还发布了源代码，以便用户可以为某些特定平台编译它们。当计算GRM或使用多个遗传成分进行REML分析时，GCTA需要大量内存。例如，需要～4.8 GB内存来计算由294831个SNP对3925个个体进行基因分型的数据集的GRM，并且需要～4个CPU小时（AMD Opteron 2.8 GHz）才能完成计算。因此，我们建议使用64位版本的GCTA来支持大内存。

非加性遗传方差

我们采用的分析方法是对基于谱系的估计方法的逻辑扩展。它可以估计SNP阵列捕获的加性遗传变异，因此可以提供有关复杂性状遗传结构的信息。GCTA中获得的所有SNP捕获的方差估计值与家族和双胞胎研究中系谱分析估计的遗传力以及GWAS命中解释的方差直接可比，因此可以量化缺失和隐藏的遗传力。⁵遗传变异的其他来源，如显性、基因-基因相互作用和基因-环境相互作用，对于复杂性状变异也很重要，但如果总遗传力是指狭义遗传力，即。，由于加性遗传变异引起的表型变异的比例。当前版本的GCTA仅提供了估计和划分加性和加性环境相互作用效应方差的函数。在技术上可行的是，在未来将分析扩展到包括显性和/或基因-基因相互作用效应。然而，检测高阶遗传变异的能力将受到限制，即估计方差分量的抽样方差将非常大。未来的发展还将包括进行多元分析的选项，读取不同格式的基因型或插补概率数据，以及实现全基因组或染色体片段方法的其他应用。

总之，我们开发了一种通用工具，用于从全基因组SNP估计遗传关系，随后可用于通过混合模型方法估计SNP解释的方差。我们提供灵活的选项来指定不同的遗传模型，以将遗传差异划分到每条染色体上。我们开发了从X染色体上的SNPs估计遗传关系的方法，并测试剂量补偿的假设。GCTA并不局限于分析人类复杂特征的数据，但在本报告中，我们只使用了人类的例子和规范（例如常染色体的数量）。

致谢

我们感谢Bruce Weir对近亲繁殖系数估计值的抽样方差的讨论。我们感谢Allan McRae和David Duffy的讨论，感谢Anna Vinkhuyzen的软件测试。我们感谢澳大利亚国家卫生和医学研究委员会（拨款389892和613672）和澳大利亚研究委员会（赠款DP0770096和DP1093900）的资助。

Web资源

此处显示的数据URL如下：

全基因组复合性状分析（GCTA），http://gump.qimr.edu.au/gcta
MACH 1.0：基于马尔可夫链的单倍型，http://www.sph.umich.edu/csg/yli/mach
普林克，http://pngu.mgh.harvard.edu/～purcell/plink

工具书类

1Hindorff L.A.、Sethupathy P.、Junkins H.A.、Ramos E.M.、Mehta J.P.、Collins F.S.、Manolio T.A.全基因组关联位点对人类疾病和特征的潜在病因学和功能影响。程序。国家。阿卡德。科学。美国。2009;106:9362–9367. [PMC免费文章][公共医学][谷歌学者]

2Manolio T.A.、Collins F.S.、Cox N.J.、Goldstein D.B.、Hindorff L.A.、Hunter D.J.、McCarthy M.I.、Ramos E.M.、Cardon L.R.、Chakravarti A.发现复杂疾病的缺失遗传性。自然。2009;461:747–753. [PMC免费文章][公共医学][谷歌学者]

三。马赫·B·个人基因组：缺失遗传力的案例。自然。2008;456:18–21.[公共医学][谷歌学者]

4Eichler E.E.、Flint J.、Gibson G.、Kong A.、Leal S.M.、Moore J.H.、Nadeu J.H.缺失遗传性和寻找复杂疾病潜在原因的策略。Nat.Rev.基因。2010;11:446–450. [PMC免费文章][公共医学][谷歌学者]

5Yang J.、Benyamin B.、McEvoy B.P.、Gordon S.、Henders A.K.、Nyholt D.R.、Madden P.A.、Heath A.C.、Martin N.G.、Montgomery G.W.常见SNP解释了人类身高的很大一部分遗传性。自然遗传学。2010;42:565–569. [PMC免费文章][公共医学][谷歌学者]

6Gibson G.GWAS中隐藏遗传力的提示。自然遗传学。2010;42:558–560.[公共医学][谷歌学者]

7Hayes B.J.、Visscher P.M.、Goddard M.E.通过使用实现的关系矩阵提高了人工选择的准确性。遗传学。物件。2009;91:47–60.[公共医学][谷歌学者]

8Strandén I.，Garrick D.J.技术注释：用于基因组预测和动物价值可靠性的等效计算算法的推导。《乳品科学杂志》。2009;92:2971–2975.[公共医学][谷歌学者]

9VanRaden P.M.计算基因组预测的有效方法。《乳品科学杂志》。2008;91:4414–4423.[公共医学][谷歌学者]

10Patterson H.D.，Thompson R.块大小不相等时块间信息的恢复。生物特征。1971;58:545–554. [谷歌学者]

11Price A.L.、Patterson N.J.、Plenge R.M.、Weinblatt M.E.、Shadick N.A.、Reich D.主成分分析纠正了全基因组关联研究中的分层。自然遗传学。2006;38:904–909.[公共医学][谷歌学者]

12Falush D.、Stephens M.、Pritchard J.K.使用多位点基因型数据推断种群结构：连锁位点和相关等位基因频率。遗传学。2003;164:1567–1587. [PMC免费文章][公共医学][谷歌学者]

13Gilmour A.R.，Thompson R.，Cullis B.R.平均信息REML：线性混合模型中方差参数估计的一种有效算法。生物识别。1995;51:1440–1450. [谷歌学者]

14Henderson C.R.选择模型下的最佳线性无偏估计和预测。生物计量学。1975;31:423–447.[公共医学][谷歌学者]

15Kruuk L.E.使用“动物模型”估计自然种群的遗传参数菲洛斯。事务处理。R.Soc.伦敦。生物科学B。2004;359:873–890. [PMC免费文章][公共医学][谷歌学者]

16Goddard M.E.、Wray N.R.、Verbyla K.、Visscher P.M.根据全基因组标记数据评估影响并作出预测。统计科学。2009;24:517–529. [谷歌学者]

17de Los Campos G.、Gianola D.和Allison D.B.预测人类的遗传倾向：全基因组标记的前景。Nat.Rev.基因。2010;11:880–886.[公共医学][谷歌学者]

18Purcell S.M.、Wray N.R.、Stone J.L.、Visscher P.M.、O’Donovan M.C.、Sullivan P.F.、Sklar P.，国际精神分裂症联合会常见多基因变异导致精神分裂症和双相情感障碍的风险。自然。2009;460:748–752. [PMC免费文章][公共医学][谷歌学者]

19Lango Allen H.、Estrada K.、Lettre G.、Berndt S.I.、Weedon M.N.、Rivadeneira F.、Willer C.J.、Jackson A.U.、Vedantam S.、Raychaudhuri S.基因组位点和生物路径中聚集的数百种变体影响人类身高。自然。2010;467:832–838. [PMC免费文章][公共医学][谷歌学者]

20Kent J.W.，Jr.，Dyer T.D.，Blangero J.估计X染色体的加性遗传效应。遗传学。流行病。2005年；29:377–388. [PMC免费文章][公共医学][谷歌学者]

21Lynch M.、Walsh B.Sinauer Associates；马萨诸塞州桑德兰：1998年。遗传学与数量性状分析。[谷歌学者]

22Falconer D.S.根据亲属发病率估计的某些疾病的遗传易感性。安。嗯。遗传学。1965;29:51–76. [谷歌学者]

23Dempster E.R.、Lerner I.M.阈值字符的遗传性。遗传学。1950;35：212–236。 [PMC免费文章][公共医学][谷歌学者]

24Robertson A.，Lerner I.M.全或单性状的遗传力；家禽的生存能力。遗传学。1949;34:395–411. [PMC免费文章][公共医学][谷歌学者]

25Purcell S.、Neale B.、Todd-Brown K.、Thomas L.、Ferreira M.A.、Bender D.、Maller J.、Sklar P.、de Bakker P.I.、Daly M.J.、Sham P.C.PLINK：全基因组关联和基于群体的连锁分析的工具集。Am.J.Hum.遗传学。2007;81:559–575. [PMC免费文章][公共医学][谷歌学者]

26Campbell C.D.、Ogburn E.L.、Lunetta K.L.、Lyon H.N.、Freedman M.L.、Groop L.C.、Altshuler D.、Ardlie K.G.、Hirschhorn J.N.证明欧美人口的分层。自然遗传学。2005年；37:868–872.[公共医学][谷歌学者]

27Cardon L.R.、Palmer L.J.人口分层和虚假等位基因关联。柳叶刀。2003;361:598–604.[公共医学][谷歌学者]

28Hudson R.R.基因系谱和合并过程。牛津大学进化生物学调查。1990;7：1–44。 [谷歌学者]

29Liang L.，Zöllner S.，Abecasis G.R.基因组：一种基于快速融合的全基因组模拟器。生物信息学。2007;23:1565–1567.[公共医学][谷歌学者]

30Hoggart C.J.、Chadeau-Hyam M.、Clark T.G.、Lampariello R.、Whittaker J.C.、De Iorio M.、Balding D.J.对大基因组区域的序列水平人口模拟。遗传学。2007;177:1725–1731. [PMC免费文章][公共医学][谷歌学者]

31Spencer C.C.、Su Z.、Donnelly P.和Marchini J.设计全基因组关联研究：样本大小、功率、插补和基因分型芯片的选择。公共科学图书馆-遗传学。2009;5：e1000477。 [PMC免费文章][公共医学][谷歌学者]

32Li Y.，Abecasis G.R.Mach 1.0：快速单体型重建和缺失基因型推断。Am.J.Hum.遗传学。2006;S79系列:2290. [谷歌学者]

33Aulchenko Y.S.、Ripke S.、Isaacs A.、van Duijn C.M.GenABEL：全基因组关联分析的R库。生物信息学。2007;23:1294–1296.[公共医学][谷歌学者]

34威康信托病例控制联盟（Wellcome Trust Case Control Consortium）对7种常见疾病的14000例病例和3000例共享对照进行全基因组关联研究。自然。2007;447:661–678. [PMC免费文章][公共医学][谷歌学者]

35Gilmour A.R.、Gogel B.J.、Cullis B.R.、Thompson R.VSN International；Hemel Hempstead，英国：2006年。ASReml用户指南2.0版。[谷歌学者]

文章来自美国人类遗传学杂志由以下人员提供美国人类遗传学学会