MTG2: an efficient algorithm for multivariate linear mixed model analysis based on genomic information

S. H. Lee; J. H. J. van der Werf

doi:10.1093/bioinformatics/btw012

生物信息学。2016年5月1日；32(9): 1420–1422.

2016年1月10日在线发布。数字对象标识：10.1093/生物信息学/btw012

预防性维修识别码：PMC4848406型

PMID：26755623

MTG2：一种基于基因组信息的多元线性混合模型分析的有效算法

S.H.李^1,^2,^*和J.H.J.范德沃夫¹

作者信息文章注释版权和许可信息 PMC免责声明

关联数据

补充资料: 补充数据

supp_32_9_1420__index.html（898字节）
GUID:34ACE996-6EDE-49D6-8943-ED99087D151B

supp_btw012_ig_aireml_supp8.docx支持（180万）
GUID:41CB88A0-5A6A-41C3-A2B4-B2BAF8ADF65A

摘要

总结：我们在线性混合模型框架下开发了一种使用全基因组SNP进行复杂性状遗传分析的算法。与基于混合模型方程的当前标准REML软件相比，我们的方法速度快得多。当只有一个遗传协方差结构时，优势最大。该方法特别适用于多变量分析，包括用于研究反应规范的多特征模型和随机回归模型。我们将我们提出的方法应用于公开的小鼠和人类数据，并讨论了其优点和局限性。

可用性和实施：MTG2可用于https://sites.google.com/site/honglee0707/mtg2。

联系人： ua.ude.enu@eel.gnoh

补充信息： 补充数据可在生物信息学在线。

1引言

以前，人们利用线性混合模型来估计全基因组SNP解释的复杂性状之间的遗传方差和遗传相关性(李等。, 2012;迈尔等。, 2015;杨等。, 2011). 由于（传统上）不相关的受试者之间的遗传相关性可以根据基因组信息进行估计，这将用群体研究取代家庭研究，因此该模型使遗传效应的估计与家庭环境效应的混淆程度大大降低。出于同样的原因，该方法也被认为是检测基因型-环境相互作用（G×E）的更强大工具(李等。, 2015). 也就是说，在G×E存在的情况下，不同环境中遗传效应之间的遗传相关性显著低于1(福克纳和麦凯，1996年). 为了捕获跨越多个环境轨迹的G×E，已经提出了进化和家畜遗传学的随机回归模型(柯克帕特里克等。, 1990;梅耶和希尔，1997年). 随机回归模型也称为反应范数模型(柯克帕特里克和赫克曼，1989年).

在估计遗传标记解释的遗传变异时，Lee和Van der Werf（2006）介绍了一种有效的平均信息（AI）算法来获得剩余最大似然（REML）估计。与使用亨德森混合模型方程（MME）不同，该算法基于直接使用表型观测值的方差协方差矩阵，因此称为“直接AI算法”。当使用密集的协方差矩阵（如基因组关系矩阵（GRM））和大量的多重方差分量时，该算法特别有利。直接人工智能算法已在GCTA-GREML中实现(李等。, 2012;杨等。, 2011,2013)和MultiBLUP(速度和秃顶，2014年)在人类、进化和家畜遗传学中得到了广泛应用。

在这里，我们将直接人工智能算法与GRM的特征分解相结合，这是由汤普森和肖（1990）我们将该程序应用于分析具有单一遗传协方差结构的单变量、多元和随机回归线性混合模型的实际数据，并证明计算效率可以提高 > 与基于MME的标准REML软件相比增加了1000倍。

2方法

2.1型号

我们使用多元线性混合模型和随机回归模型估计多个性状之间以及不同环境中表现的性状之间的遗传方差和协方差。线性混合模型可以写成

年_我= X（X）_我b条_我+ Z轴_我克_我+ e（电子）_我

哪里年_我是性状表型的载体，b条_我是固定效果的向量，克_我是个体的加性遗传价值的载体e（电子）_我表示特征或环境的残差我。X（X）和Z轴是关联矩阵。更多详细信息，请访问补充说明s.为了建模基因型与环境的相互作用，随机回归模型试图将效应拟合为连续变量的函数(柯克帕特里克等。, 1990;梅耶和希尔，1997年)作为

年_我= X（X）_我b条_我+ Z轴_我一 Φ^′_我+ e（电子）_我

哪里一是n（记录数），由k个遗传随机回归系数矩阵，Φ_我是我a中的第th行对通过k个勒让德多项式矩阵对轨迹上的点，以及k个是勒让德多项式的阶数。该模型在补充说明s.基于全基因组SNP构建遗传协方差结构。

2.2算法

REML通常使用Newton–Raphson或Fisher记分法求解，其中方差分量根据观察到的（Hessian矩阵）或预期的对数似然二阶导数（Fisher信息矩阵）进行更新。为了提高获得REML估计值的计算效率，吉尔穆尔等。(1995)采用了基于Henderson的MME估计的Hessian和Fisher信息矩阵的平均值。当适合模型的遗传协方差结构稀疏时，基于MME的AI算法特别有效。当使用GRM等密集协方差结构时，与基于MME的AI算法相比，直接AI算法的计算效率大大提高(Lee和Van der Werf，2006年). 这里，我们通过实现遗传协方差结构的特征分解来扩展直接AI算法，如汤普森和肖（1990）。

在最近的研究中，特征分解技术被用于单变量和多变量线性混合模型中的Newton–Raphson算法(周和斯蒂芬斯，2014). 在目前的工作中，我们证明了直接人工智能算法的实现在数学上是直接的，并且计算效率更高，特别是在多元线性混合模型中(补充说明s） ●●●●。此外，我们还演示了我们提出的算法如何有效地应用于随机回归模型（参见补充说明s） ●●●●。

2.3数据

我们使用了异质库存小鼠数据(http://mus.well.ox.ac.uk/mo-use/HS/)估计全基因组SNP解释的复杂性状的遗传方差和协方差。在对基因型数据进行严格的质量控制后，我们使用了1908名个体的9258个常染色体单核苷酸多态性。我们使用了四种葡萄糖值的表型（分别在0、15、30和75 2型糖尿病模型腹腔注射葡萄糖后min）以及体重指数（BMI）。我们在五性状线性混合模型中分析了这些数据。我们还对重复血糖测量应用了随机回归模型。

其次，我们使用了来自社区动脉粥样硬化风险（ARIC）队列的人类数据（psh000280.v3.p1）(沙雷特，1992年). 对可用基因型进行了与上述类似的严格质控。此外，我们随机删除了每对相关度>0.05的高度相关对中的一对，以避免由于人口结构或家庭效应而产生的偏见。QC后，7263人和583058个SNP仍然存在。我们使用体重指数（BMI）、三头肌皮褶厚度（TS）、腰围（WG）、臀围（HG）、腰臀比（WHR）、收缩压（SP）、舒张压（DP）和高血压（HP），这些数据均拟合在一个八层线性混合模型中。

对于小鼠和人类数据，每个特征的缺失表型值分别小于10%和1%。他们用单变量线性混合模型中的期望值进行插补，每个性状分别进行拟合。

2.4软件

我们用MTG2软件实现了直接人工智能算法和特征分解技术。我们将MTG2与GEMMA进行了比较(周和斯蒂芬斯，2014)、ASReml(吉尔穆尔等。，2006年)和WOMBAT(梅耶，2007年). GEMMA使用特征分解技术和Newton-Raphson算法。ASReml和WOMBAT是采用基于MME的AI算法的著名REML软件。

3结果

使用异构鼠标数据时(N个=1908）对于多达五个性状的多元线性混合模型，MTG2只需几秒钟，比ASReml和WOMBAT快数千倍，比GEMMA快几倍(表1). 估计SNP遗传力和性状间的遗传相关性如所示补充表S1收敛后的REML参数在不同的软件套件之间基本相同，如补充表S8和S9。

表1。

使用2.7计算每个软件运行的时间使用异构库存鼠标数据时的GHz CPU(N个= 1908)

	MTG2系列	GEMMA公司	ASReml公司	袋熊
#特性	多元线性混合模型
1	1秒	1秒	2 最小值	17秒
三	1秒	1秒	210 最小值	9 最小值
5	2秒	6秒	950 最小值	60 最小值
#订单	随机回归模型
1	2秒	不适用^一	4 最小值	三最小值
2	2秒	不适用	82 最小值	30 最小值
三	2秒	不适用	310 最小值	54 最小值

在单独的窗口中打开

对于MTG2和GEMMA，特征分解需要～4 s，每个数据集只需要进行一次，然后可以重复用于多次分析。

^一GEMMA没有用于随机回归模型的函数。

采用随机回归模型时，MTG2的计算时间为几秒钟，与高阶模型无关(表1). 然而，使用高阶模型时，ASReml或WOMBAT的计算效率较低，计算时间大幅增加(表1). GEMMA没有用于随机回归模型的函数。随机回归模型的估计结果描述如下补充数据(补充表S2和图S1).

当使用ARIC队列人类数据（psh000280.v3.p1）时，计算时间的模式与异质小鼠相似，MTG2和GEMMA的表现相似，尽管MTG2在增加性状数量时变得相对更快(补充表S4). ASReml和WOMBAT太慢，无法对此数据集运行。补充表S6概述了估计的SNP遗传率以及肥胖和血压特征之间的遗传相关性。

4讨论

MTG2和GEMMA有两个主要限制。特征分解技术不能用于多个GRM周和斯蒂芬斯（2014）除非满足特殊条件，即提供一个全等级GRM和多个低等级GRM(速度和秃顶，2014年). 在具有多个GRM的模型中，不能使用GEMMA，并且MTG2变慢，尽管它仍然比ASReml和WOMBAT快得多(补充表S5). 第二，特征分解技术需要一个平衡的设计（即不丢失性状的表型）。表型插补可用于缺失表型值。在这项工作中，我们对小鼠数据使用了缺失表型的插补（每个性状的缺失<10%），尽管没有特征分解的MTG2仍然可以用于数据，包括缺失值。我们观察到，有和没有输入缺失表型的数据的结果差别不大(补充表S2和图S2). 对于人类数据，缺失表型少于1%，因此，有和无缺失表型插补的结果几乎相同（结果未显示）。最后，MTG2和WOMBAT都能够促进并行计算，从而进一步提高效率。

5含义

本申请说明中有三个新颖的方面。首先也是最重要的是用直接人工智能算法估计随机回归模型的参数。二是在多元模型和随机回归模型中分别使用特征分解技术和人工智能算法。MTG2可用于比GEMMA更广泛的统计模型，包括多元线性混合模型、随机回归模型和多元方差分量模型。GEMMA只能用于多元线性混合模型中的单个遗传方差分量(补充表S7). 对于随机回归模型或/和多方差分量模型，MTG2的计算效率（即使没有特征分解）远高于ASReml或WOMBAT(表1,补充表S5和S7). 因此，MTG2可以作为一种有效的复杂性状分析工具，包括估计遗传方差、协方差和G×E。

补充材料

补充数据：

单击此处查看。

致谢

本研究利用威康信托中心的公开数据(http://mus.well.ox.ac.uk/mo-use/HS/)以及根据psh000280.v3.p1加入的基因型和表型数据库（dbGaP）（完整声明见补充声明）。

基金

本研究得到了澳大利亚国家卫生和医学研究委员会（APP1080157）、澳大利亚研究委员会（DE130100614和DP160102126）和澳大利亚绵羊产业合作研究中心的支持。

的冲突 利息:没有声明。

工具书类

Falconer D.S.、Mackay T.F.C。数量遗传学导论哈洛，埃塞克斯，英国：朗曼；1996[谷歌学者]
吉尔穆尔A.R。等。ASReml用户指南2.0版Hemel Hempstead，英国：VSN International；2006[谷歌学者]
吉尔穆尔A.R。等（1995）平均信息REML：一种用于线性混合模型方差参数估计的有效算法。生物计量学,51, 1440–1450.[谷歌学者]
Kirkpatrick M.、Heckman N.（1989）生长、形状、反应规范和其他无限维特征的定量遗传模型。数学杂志。生物。，27, 429–450. [公共医学][谷歌学者]
柯克帕特里克·M·。等（1990）生长轨迹的遗传、选择和进化分析。遗传学,124, 979–993.[PMC免费文章][公共医学][谷歌学者]
李S.H。等（2015）新数据与旧谜团：精神分裂症与类风湿关节炎之间的负相关。国际流行病学杂志,44, 1706–1721.[PMC免费文章][公共医学][谷歌学者]
Lee S.H.、Van der Werf J.H.J.（2006）一种有效的方差分量方法，实现了适用于一般复杂谱系的LD和连锁组合映射的平均信息REML。遗传学。选择。进化。，38，25-43。[PMC免费文章][公共医学][谷歌学者]
李S.H。等（2012）利用单核苷酸多态性衍生的基因组关系和限制最大似然估计复杂疾病之间的多效性。生物信息学,28, 2540–2542.[PMC免费文章][公共医学][谷歌学者]
迈尔R。等（2015）精神疾病的联合分析提高了精神分裂症、双相情感障碍和抑郁症风险预测的准确性。Am.J.Hum.基因。，96, 283–294.[PMC免费文章][公共医学][谷歌学者]
Meyer K.（2007）WOMBAT——限制最大似然（REML）定量遗传学混合模型分析工具。浙江大学学报。B,8, 815–821.[PMC免费文章][公共医学][谷歌学者]
Meyer K.，Hill W.（1997）用限制最大似然估计纵向或“重复”记录的遗传和表型协方差函数。鲜活。产品科学。，47, 185–200.[谷歌学者]
Sharrett A.R.（1992）社区动脉粥样硬化风险（ARIC）研究。止血成分的介绍和目标。流行病学年鉴。，2, 467–469. [公共医学][谷歌学者]
Speed D.、Balding D.J.（2014年）MultiBLUP：改进的基于SNP的复杂性状预测。基因组研究。，24, 1550–1557.[PMC免费文章][公共医学][谷歌学者]
Thompson E.A.、Shaw R.G.（1990）数量性状的系谱分析：无矩阵反演的方差分量。生物计量学,46, 399–413. [公共医学][谷歌学者]
杨杰（Yang J.）。等。全基因组复杂性状分析（GCTA）：方法、数据分析和解释：Gondro C。等（编辑），全基因组关联研究与基因组预测纽约州纽约市：Humana出版社，2013年。第卷。1019第215-236页。[公共医学][谷歌学者]
杨杰（Yang J.）。等（2011）GCTA：全基因组复杂性状分析工具。Am.J.Hum.基因。，88, 76–82.[PMC免费文章][公共医学][谷歌学者]
周欣、史蒂芬斯M.（2014）用于全基因组关联研究的高效多元线性混合模型算法。自然方法,11, 407–409.[PMC免费文章][公共医学][谷歌学者]

文章来自生物信息学由以下人员提供牛津大学出版社