生物信息学。2016年5月1日;32(9): 1420–1422.
MTG2:一种基于基因组信息的多元线性混合模型分析的有效算法
1,2,*和1
S.H.李
1澳大利亚新南威尔士州阿米代尔新英格兰大学环境与农村科学学院2351
2昆士兰大学昆士兰大脑研究所,昆士兰布里斯班,昆士兰州4072,澳大利亚
J.H.J.范德沃夫
1澳大利亚新南威尔士州阿米代尔新英格兰大学环境与农村科学学院2351
1澳大利亚新南威尔士州阿米代尔新英格兰大学环境与农村科学学院2351
2昆士兰大学昆士兰大脑研究所,昆士兰布里斯班,昆士兰州4072,澳大利亚
*信件应寄给谁。
副主编:Oliver Stegle
2015年9月17日收到;2015年12月22日修订;2016年1月7日接受。
- 补充资料
补充数据
GUID:34ACE996-6EDE-49D6-8943-ED99087D151B
GUID:41CB88A0-5A6A-41C3-A2B4-B2BAF8ADF65A
2方法
2.1型号
我们使用多元线性混合模型和随机回归模型估计多个性状之间以及不同环境中表现的性状之间的遗传方差和协方差。线性混合模型可以写成
哪里年我是性状表型的载体,b条我是固定效果的向量,克我是个体的加性遗传价值的载体e(电子)我表示特征或环境的残差我。X(X)和Z轴是关联矩阵。更多详细信息,请访问补充说明s.为了建模基因型与环境的相互作用,随机回归模型试图将效应拟合为连续变量的函数(柯克帕特里克等。, 1990;梅耶和希尔,1997年)作为
哪里一是n(记录数),由k个遗传随机回归系数矩阵,Φ我是我a中的第th行对通过k个勒让德多项式矩阵对轨迹上的点,以及k个是勒让德多项式的阶数。该模型在补充说明s.基于全基因组SNP构建遗传协方差结构。
2.2算法
REML通常使用Newton–Raphson或Fisher记分法求解,其中方差分量根据观察到的(Hessian矩阵)或预期的对数似然二阶导数(Fisher信息矩阵)进行更新。为了提高获得REML估计值的计算效率,吉尔穆尔等。(1995)采用了基于Henderson的MME估计的Hessian和Fisher信息矩阵的平均值。当适合模型的遗传协方差结构稀疏时,基于MME的AI算法特别有效。当使用GRM等密集协方差结构时,与基于MME的AI算法相比,直接AI算法的计算效率大大提高(Lee和Van der Werf,2006年). 这里,我们通过实现遗传协方差结构的特征分解来扩展直接AI算法,如汤普森和肖(1990)。
在最近的研究中,特征分解技术被用于单变量和多变量线性混合模型中的Newton–Raphson算法(周和斯蒂芬斯,2014). 在目前的工作中,我们证明了直接人工智能算法的实现在数学上是直接的,并且计算效率更高,特别是在多元线性混合模型中(补充说明s) ●●●●。此外,我们还演示了我们提出的算法如何有效地应用于随机回归模型(参见补充说明s) ●●●●。
2.3数据
我们使用了异质库存小鼠数据(http://mus.well.ox.ac.uk/mo-use/HS/)估计全基因组SNP解释的复杂性状的遗传方差和协方差。在对基因型数据进行严格的质量控制后,我们使用了1908名个体的9258个常染色体单核苷酸多态性。我们使用了四种葡萄糖值的表型(分别在0、15、30和75 2型糖尿病模型腹腔注射葡萄糖后min)以及体重指数(BMI)。我们在五性状线性混合模型中分析了这些数据。我们还对重复血糖测量应用了随机回归模型。
其次,我们使用了来自社区动脉粥样硬化风险(ARIC)队列的人类数据(psh000280.v3.p1)(沙雷特,1992年). 对可用基因型进行了与上述类似的严格质控。此外,我们随机删除了每对相关度>0.05的高度相关对中的一对,以避免由于人口结构或家庭效应而产生的偏见。QC后,7263人和583058个SNP仍然存在。我们使用体重指数(BMI)、三头肌皮褶厚度(TS)、腰围(WG)、臀围(HG)、腰臀比(WHR)、收缩压(SP)、舒张压(DP)和高血压(HP),这些数据均拟合在一个八层线性混合模型中。
对于小鼠和人类数据,每个特征的缺失表型值分别小于10%和1%。他们用单变量线性混合模型中的期望值进行插补,每个性状分别进行拟合。
2.4软件
我们用MTG2软件实现了直接人工智能算法和特征分解技术。我们将MTG2与GEMMA进行了比较(周和斯蒂芬斯,2014)、ASReml(吉尔穆尔等。,2006年)和WOMBAT(梅耶,2007年). GEMMA使用特征分解技术和Newton-Raphson算法。ASReml和WOMBAT是采用基于MME的AI算法的著名REML软件。
3结果
使用异构鼠标数据时(N个=1908)对于多达五个性状的多元线性混合模型,MTG2只需几秒钟,比ASReml和WOMBAT快数千倍,比GEMMA快几倍(). 估计SNP遗传力和性状间的遗传相关性如所示补充表S1收敛后的REML参数在不同的软件套件之间基本相同,如补充表S8和S9。
表1。
使用2.7计算每个软件运行的时间 使用异构库存鼠标数据时的GHz CPU(N个= 1908)
| MTG2系列 | GEMMA公司 | ASReml公司 | 袋熊 |
---|
#特性 | 多元线性混合模型 |
1 | 1秒 | 1秒 | 2 最小值 | 17秒 |
三 | 1秒 | 1秒 | 210 最小值 | 9 最小值 |
5 | 2秒 | 6秒 | 950 最小值 | 60 最小值 |
#订单 | 随机回归模型 |
1 | 2秒 | 不适用一 | 4 最小值 | 三 最小值 |
2 | 2秒 | 不适用 | 82 最小值 | 30 最小值 |
三 | 2秒 | 不适用 | 310 最小值 | 54 最小值 |
采用随机回归模型时,MTG2的计算时间为几秒钟,与高阶模型无关(). 然而,使用高阶模型时,ASReml或WOMBAT的计算效率较低,计算时间大幅增加(). GEMMA没有用于随机回归模型的函数。随机回归模型的估计结果描述如下补充数据(补充表S2和图S1).
当使用ARIC队列人类数据(psh000280.v3.p1)时,计算时间的模式与异质小鼠相似,MTG2和GEMMA的表现相似,尽管MTG2在增加性状数量时变得相对更快(补充表S4). ASReml和WOMBAT太慢,无法对此数据集运行。补充表S6概述了估计的SNP遗传率以及肥胖和血压特征之间的遗传相关性。
4讨论
MTG2和GEMMA有两个主要限制。特征分解技术不能用于多个GRM周和斯蒂芬斯(2014)除非满足特殊条件,即提供一个全等级GRM和多个低等级GRM(速度和秃顶,2014年). 在具有多个GRM的模型中,不能使用GEMMA,并且MTG2变慢,尽管它仍然比ASReml和WOMBAT快得多(补充表S5). 第二,特征分解技术需要一个平衡的设计(即不丢失性状的表型)。表型插补可用于缺失表型值。在这项工作中,我们对小鼠数据使用了缺失表型的插补(每个性状的缺失<10%),尽管没有特征分解的MTG2仍然可以用于数据,包括缺失值。我们观察到,有和没有输入缺失表型的数据的结果差别不大(补充表S2和图S2). 对于人类数据,缺失表型少于1%,因此,有和无缺失表型插补的结果几乎相同(结果未显示)。最后,MTG2和WOMBAT都能够促进并行计算,从而进一步提高效率。
5含义
本申请说明中有三个新颖的方面。首先也是最重要的是用直接人工智能算法估计随机回归模型的参数。二是在多元模型和随机回归模型中分别使用特征分解技术和人工智能算法。MTG2可用于比GEMMA更广泛的统计模型,包括多元线性混合模型、随机回归模型和多元方差分量模型。GEMMA只能用于多元线性混合模型中的单个遗传方差分量(补充表S7). 对于随机回归模型或/和多方差分量模型,MTG2的计算效率(即使没有特征分解)远高于ASReml或WOMBAT(,补充表S5和S7). 因此,MTG2可以作为一种有效的复杂性状分析工具,包括估计遗传方差、协方差和G×E。
基金
本研究得到了澳大利亚国家卫生和医学研究委员会(APP1080157)、澳大利亚研究委员会(DE130100614和DP160102126)和澳大利亚绵羊产业合作研究中心的支持。
的冲突
利息:没有声明。
工具书类
- Falconer D.S.、Mackay T.F.C。数量遗传学导论哈洛,埃塞克斯,英国:朗曼;1996[谷歌学者]
- 吉尔穆尔A.R。等。ASReml用户指南2.0版Hemel Hempstead,英国:VSN International;2006[谷歌学者]
- 吉尔穆尔A.R。等(1995)平均信息REML:一种用于线性混合模型方差参数估计的有效算法。生物计量学,51, 1440–1450.[谷歌学者]
- Kirkpatrick M.、Heckman N.(1989)生长、形状、反应规范和其他无限维特征的定量遗传模型。数学杂志。生物。,27, 429–450. [公共医学][谷歌学者]
- 柯克帕特里克·M·。等(1990)生长轨迹的遗传、选择和进化分析。遗传学,124, 979–993.[PMC免费文章][公共医学][谷歌学者]
- 李S.H。等(2015)新数据与旧谜团:精神分裂症与类风湿关节炎之间的负相关。国际流行病学杂志,44, 1706–1721.[PMC免费文章][公共医学][谷歌学者]
- Lee S.H.、Van der Werf J.H.J.(2006)一种有效的方差分量方法,实现了适用于一般复杂谱系的LD和连锁组合映射的平均信息REML。遗传学。选择。进化。,38,25-43。[PMC免费文章][公共医学][谷歌学者]
- 李S.H。等(2012)利用单核苷酸多态性衍生的基因组关系和限制最大似然估计复杂疾病之间的多效性。生物信息学,28, 2540–2542.[PMC免费文章][公共医学][谷歌学者]
- 迈尔R。等(2015)精神疾病的联合分析提高了精神分裂症、双相情感障碍和抑郁症风险预测的准确性。Am.J.Hum.基因。,96, 283–294.[PMC免费文章][公共医学][谷歌学者]
- Meyer K.(2007)WOMBAT——限制最大似然(REML)定量遗传学混合模型分析工具。浙江大学学报。B,8, 815–821.[PMC免费文章][公共医学][谷歌学者]
- Meyer K.,Hill W.(1997)用限制最大似然估计纵向或“重复”记录的遗传和表型协方差函数。鲜活。产品科学。,47, 185–200.[谷歌学者]
- Sharrett A.R.(1992)社区动脉粥样硬化风险(ARIC)研究。止血成分的介绍和目标。流行病学年鉴。,2, 467–469. [公共医学][谷歌学者]
- Speed D.、Balding D.J.(2014年)MultiBLUP:改进的基于SNP的复杂性状预测。基因组研究。,24, 1550–1557.[PMC免费文章][公共医学][谷歌学者]
- Thompson E.A.、Shaw R.G.(1990)数量性状的系谱分析:无矩阵反演的方差分量。生物计量学,46, 399–413. [公共医学][谷歌学者]
- 杨杰(Yang J.)。等。全基因组复杂性状分析(GCTA):方法、数据分析和解释:Gondro C。等(编辑),全基因组关联研究与基因组预测纽约州纽约市:Humana出版社,2013年。第卷。1019第215-236页。[公共医学][谷歌学者]
- 杨杰(Yang J.)。等(2011)GCTA:全基因组复杂性状分析工具。Am.J.Hum.基因。,88, 76–82.[PMC免费文章][公共医学][谷歌学者]
- 周欣、史蒂芬斯M.(2014)用于全基因组关联研究的高效多元线性混合模型算法。自然方法,11, 407–409.[PMC免费文章][公共医学][谷歌学者]