摘要

自2001年推出以来,MrBayes作为一种使用马尔可夫链蒙特卡罗(MCMC)方法进行贝叶斯系统发育推断的软件包,越来越受欢迎。在此说明中,我们宣布发布3.2版,这是对2003年发布的最新官方版本的重大升级。新版本提供了收敛诊断,并允许并行运行多个分析,同时动态监控收敛进度。新建议的引入和调谐参数的自动优化改善了许多问题的收敛性。新版本还通过流式单指令多数据扩展(SSE)和BEAGLE库支持显著加快了似然计算速度,允许将似然计算委托给兼容硬件上的图形处理单元(GPU)。加速因子范围从SSE代码的约2到密码子问题的BEAGLE超过50。所有模型的检查点允许完成长时间运行,即使分析提前终止。新模型包括放松时钟、约会、跨时间可逆替代模型的模型平均,以及对硬树、负树和部分(主干)树约束的支持。物种树的贝叶斯估计(BEST)算法的充分结合支持从基因树推断物种树。贝叶斯因子测试的边际模型可能性可以使用步进石法在整个模型空间中准确估计。新版本提供了比以前更多的输出选项,包括祖先状态样本、站点速率、站点d日N个/d日S公司口粮、分行费率和节点日期。还可以在FigTree和兼容软件中输出关于树参数的各种统计信息,以便进行可视化。

贝叶斯马尔可夫链蒙特卡罗(MCMC)方法在20世纪90年代末被引入统计系统发育学后迅速流行起来(Mau和Newton 1997年,Yang和Rannala 1997,Larget和Simon 1999,Mau等人,1999年). 这是由于该方法的固有优势,也由于易于使用的软件包的可用性,如MrBayes(Huelsenbeck和Ronquist,2001年). 最初,MrBayes只支持简单的系统发育模型,但在版本3.0中模型空间大大扩展了(Ronquist和Huelsenbeck,2003年). 除了关于二进制、“标准”(形态学)、核苷酸和氨基酸数据的广泛模型外,3.0版还支持混合模型。后者允许在同一模型中组合不同的数据分区,并根据用户规范在分区之间链接或取消链接参数。MrBayes 3.0显然是第一个支持此类模型的统计系统发育学软件包(Rannala和Yang 2008).

自MrBayes 3.0发布以来,使用MCMC的贝叶斯系统发育推断已经得到了突飞猛进的发展。特别是,使用MCMC机器处理复杂模型的相对容易程度导致了概率进化模型的发展爆炸式增长(有关综述,请参阅Ronquist and Deans 2010年). 我们还看到出现了更好的MCMC算法和更复杂的进化模型收敛诊断,贝叶斯模型选择方法也有了很大改进。

在此说明中,我们宣布正式发布MrBayes 3.2版。3.2版最初是作为3.1版的一个相对适度的扩展,它为3.0版的原始功能添加了收敛诊断功能。然而,多年来,3.2版增加了许多重要的新功能,程序的大部分都被重写了。当我们现在正式发布3.2版本时,它在程序发展中的意义与近十年前3.0版本的发布一样重要。

D类的说明N个电子战F类EATURE公司

汇聚

系统发育学界已经开始接受贝叶斯MCMC结果伴随着对收敛性的关键评估这一良好实践。可以说,实现这一点的最佳方法是比较从独立MCMC分析中获得的样品。在系统发育分析中,树样本通常是差异最大的,因此我们在MrBayes中引入了分裂频率的平均标准差(ASDSF),以定量评估这些样本之间的相似性。

ASDSF是通过比较多个独立MCMC运行的分裂或分支频率来计算的,理想情况下应该从不同的随机选择的起始树开始(Lakner等人,2008年). 当运行收敛到相同的分布时,ASDSF应接近0.0。罕见分裂或分支的频率很难准确估计,这些分组通常不太重要。因此,将其排除在诊断之外可能是有益的。MrBayes允许用户设置截止频率(默认值0.10);在至少一次运行中,在该频率下最小发生的所有分裂或分支都将纳入ASDSF。

为了允许用户监控MCMC进度,MrBayes可以并行运行多个分析,并定期报告分裂频率的平均值(ASDSF)或最大标准偏差。运行完成后,可以使用“sump”和“sumt”命令获得更详细的诊断信息。除了潜在标度折减系数(PSRF;Gelman和Rubin 1992年)用于分支长度、节点时间和替换模型参数。PSRF比较了运行内和运行间的方差,当运行收敛时应接近1.0。MrBayes 3.2还报告了有效样本大小,广泛用于单次运行收敛诊断。

MrBayes 3.2还引入了一些旨在提高MCMC收敛速度的新功能。添加了许多新的树建议机制,包括子树切换和扩展子树更新和重新嫁接,并优化了建议的默认组合(Lakner等人,2008年). MrBayes 3.2还包括一种全新的树建议,该建议使用简约分数进行指导。节俭建议的细节将在其他地方介绍;然而,初步的经验结果表明,它们可以在一些问题上将收敛速度提高一个数量级(另请参阅Höhna和Drummond,2012年). 对于非树型方案,MrBayes 3.2实现了自动调整,自动调整调整参数,以达到目标接受频率(罗伯茨和罗森塔尔2009). 自上一版本以来,MrBayes支持Metropolis耦合(热链)以加速收敛。为了简化收敛监控,MrBayes 3.2在运行期间将ASDSF值、移动接受率和Metropolis-coupled链之间交换的接受率打印到带有“.mcmc”后缀的单独文件中。

更快更方便的计算

系统发育MCMC分析中的大部分计算工作都花在了计算可能性上。为了提高速度,MrBayes 3.2现在使用流式单指令多数据扩展(SSE)进行所有似然计算。大多数当前CPU都支持SSE指令,并提供算术操作的低级并行化。重要的是,MrBayes 3.2还支持使用BEAGLE库进行可能性计算(Ayres等人,2012年). 使用BEAGLE,可以将似然计算外包给兼容硬件上的一个或多个图形处理单元(GPU),尤其是密码子和氨基酸模型的速度大大提高。BEAGLE还可以用于CPU上的似然计算。

MrBayes 3.2不支持多线程,但它确实实现了消息传递接口(MPI),用于跨大型计算机集群进行高效的并行处理(Altekar等人,2004年). 在许多硬件平台上,包括Mac OS和Linux,可以使用支持MPI的Unix版本的MrBayes来利用多核。然而,MPI并行化是跨链的,这意味着MrBayes可以使用的最大内核或处理器数量与所有同时运行的加热链和非加热链的总数相同。例如,在一个具有八个处理器或内核的系统上,四条链的两个运行将被最大限度地加速。MPI版本可以与BEAGLE结合使用,以进一步扩展计算并行化的机会。

最后,为了便于长期运行,MrBayes 3.2在所有模型中实现检查点。按照用户确定的频率,将所有参数样本打印到“.ckp”文件中。如果需要,可以稍后从检查点文件重新启动分析,最终结果将显示为运行从未停止过。

新模型

许多系统发育假说都与系统发育树的结构有关。为了便于进行此类分析,MrBayes 3.2在树上实现了三种类型的约束:硬约束、负约束和部分约束。硬约束强制在MCMC分析中采样的所有树中都存在分割或分支,而负约束强制缺少分割或分支。与硬约束和负约束不同,部分约束(或主干约束)可以使某些分类群的位置不确定。如果树未生根,则允许不确定分类群出现在指定分支的任一侧,如果树已生根,那么允许在指定分支内或外出现。几个硬约束、负约束和部分约束可以组合成树形状的复杂先验。然而,约束要么打开要么关闭;它们不能与当前版本中的概率相关联。

与以前的版本不同,MrBayes 3.2支持放松的时钟模型和约会。三种不同的松弛时钟模型可用:复合泊松过程(CPP;Huelsenbeck等人,2000年)《Thorne–Kishino 2002》(TK02;索恩和基希诺2002)和独立伽马率(IGR;Lepage等人,2007年)模型。

CPP模型是一个离散自相关模型,其中速率乘数根据泊松过程出现在树上。MrBayes实现使用对数正态分布作为速率乘数,而不是最初提出的修正伽马分布(Huelsenbeck等人,2000年). 它还包括允许跨树空间采样的新算法,因为原始论文只处理固定树。

TK02模型是一个连续的自相关模型。在我们实现的特定版本中(Thorne和Kishino 2002),从对数正态分布中得出后代节点的速率,其平均值与祖先速率相同,其方差与分支的长度成正比(以时钟基本速率下每个站点的预期替换量衡量)。

IGR模型是一个连续的不相关模型。首次发布为“白噪声”模型(Lepage等人,2007年),它类似于不相关伽马模型(Drummond等人,2006年)但在数学上更为优雅,因为它确实缺乏时间结构。在IGR模型中,有效分支长度是从伽马分布中得出的,其中平均值与分支长度相同,方差与分支长度成比例。

在MrBayes 3.2中,可以通过校准树中的内部节点或尖端节点来实现测年;校准的内部节点需要与硬约束关联才能有效。校准点可以是固定的,也可以与不确定度相关。时钟树上的生-死先验模型已被扩展,以纳入对线性常数生-死过程的理解以及完整抽样的最新进展(Gernhard 2008年),随机不完全抽样(Stadler 2009年)或采用集群或多样化抽样(Höhna等人,2011年). 与以前的版本相比,树在时钟上移动,放松的时钟树也有了很大的改进。

基于多基因树的物种树贝叶斯系统发育推断是在贝叶斯物种树估计(BEST)软件中首次使用复杂的计算机器完成的,MrBayes是其中的一个组件(Edwards等人,2007年,刘和珀尔2007). 尽管后来对BEST进行了改进,但分析仍然很慢,计算量也很高。多物种合并模型现已完全集成在MrBayes 3.2中,并且已经重写了一些原始算法以加快计算速度。

模型平均和模型选择

今天的标准做法是使用先验模型选择程序为贝叶斯系统发育推断选择替代模型(高盛1993,波萨达1998,波萨达2008,Suchard等人,2001年). 另一种方法是在MCMC仿真过程中使用贝叶斯模型跳跃来整合与正确替代模型相关的不确定性(Huelsenbeck等人,2004年). 后一个过程现在在MrBayes 3.2中实现。用户现在可以根据后验概率对所有203个可能的时间可逆速率矩阵进行采样,而不是在分析之前选择替代模型。模型跳跃方法适用于所有以四乘四核苷酸模型为组成部分的模型,除了普通核苷酸模型外,还包括双重和密码子模型。

使用贝叶斯因子的贝叶斯模型选择正在迅速普及。自早期版本以来,MrBayes报告了MCMC样本中可能性的调和平均值,可用于计算Bayes因子的模型可能性的粗略估计(牛顿和拉弗瑞1994). 然而,现在有了更准确的方法,尽管计算要求更高(Lartillot和Philippe 2006). 其中,MrBayes 3.2实现了最近提出的垫脚石方法(Xie等人,2011年)它使用MCMC从一系列所谓的幂后验分布中取样,将后验分布与先验分布联系起来。然后使用这些分布中的样本来估计模型的可能性。MrBayes 3.2中的步进算法使用了完整的MCMC机制,包括收敛诊断和Metropolis耦合,并且可以应用于程序中可用的任何模型。例如,它可以用来测试各种拓扑假设或替代模型。

更多输出选项

MrBayes 3.2提供了比以前版本更广泛的输出选项。用户现在可以请求对站点速率、站点选择系数、站点正选择概率和特定节点的祖先状态进行采样。广泛的树统计信息,包括分裂或分支频率的平均值和方差、节点时间和分支率,现在通过“sumt”命令作为注释添加到共识树中,并可以使用FigTree和兼容的树查看器显示。

BENCHMARK和BIOLOGICAL公司E类示例

GPU加速代码的基准数据由提供Ayres等人(2012年)程序附带了许多示例数据集,程序手册中包含了说明大多数新功能的教程。MrBayes 3.2中的许多定年功能都进行了详细讨论,并在Ronquist等人(2012年).

A类可用性

MrBayes 3.2在GNU通用公共许可证版本3.0下免费提供。程序网站(http://www.mrbayes.net)提供了到Unix系统上编译的源代码以及到Windows和Mac OS系统的方便安装程序的下载链接。安装程序包括MrBayes和所需的BEAGLE库,但也可以使用BEAGLE安装程序单独安装BEAGLE库可在http://beagle-lib.googlecode.com该程序附带手册和示例文件。程序网站上提供了更多帮助,其中还提供了报告错误和注册MrBayes电子邮件列表的说明。有关访问MrBayes源代码存储库的说明,请访问http://sourceforge.net/projects/mrbayes/develop.

F类发展中

如果没有瑞典研究委员会的慷慨支持,MrBayes 3.2版本的开发是不可能的[2008-5629 to F.R.];国立卫生研究院[GM-069801至J.P.H.和GM-086887,HG-006139至M.A.S.];以及美国国家科学基金会[DEB-0445453授予J.P.H.,DEB-0949121和DEB-0936214授予B.L.,以及DBI-00755048授予D.L.A.]。2010年10月,由俄亥俄州立大学数学生物科学研究所主办的研讨会[NSF-DMS-0931642],由丹尼斯·珀尔和马蒂·戈卢比茨基主持,极大地促进了BEAGLE库最佳算法的合并和支持。

F.R.在M.T.和P.v.d.M.的协助下,完成了3.2版的大部分编程,而J.P.H.在F.R.的帮助下,负责软件架构和初始代码库。D.L.A.、A.D.和M.A.S.帮助BEAGLE集成和相关性能测试。L.L.协助整合了BEST算法,而B.L.和S.H.则为特定模型的实现做出了贡献。我们要感谢Chris Anderson对BEST算法的额外帮助。我们还想向MrBayes的许多用户表示深切的感谢,他们通过提交错误报告、错误修复、功能请求以及对软件的其他评论,为项目做出了慷慨的贡献。大卫·波萨达(David Posada)、莱昂纳多·马丁斯(Leonardo Martins)和杰里米·布朗(Jeremy Brown)提出了建设性的批评意见,帮助改进了手稿。

工具书类

Altekar公司
G公司
德瓦卡达斯
S公司
韦尔森贝克
J型
用于贝叶斯系统发育推断的并行大都市耦合马尔可夫链蒙特卡罗
生物信息学
2004
,卷。 
20
(第
407
-
425
)
艾尔斯
分力
亲爱的
A类
兹维克
流行音乐播音员
贝利
P(P)
持有人
机器翻译
刘易斯
人事军官
韦尔森贝克
日元
龙奎斯特
F类
斯沃福德
分力
卡明斯
最大功率
兰伯特
A类
祖哈德
妈妈
BEAGLE:用于统计系统发生学的应用程序编程接口和高性能计算库
系统。生物。
2012
,卷。 
61
(第
170
-
173
)
德拉蒙德
AJ公司
SYW公司
菲利普斯
美赞臣
兰伯特
A类
放松的系统发育学和自信的约会
公共科学图书馆生物
2006
,卷。 
4
第页。 
e88(电子88)
 
爱德华兹
SV公司
线路接口单元
L(左)
珍珠
丹麦
无串联的高分辨率物种树
程序。国家。阿卡德。科学。美国
2007
,卷。 
104
(第
5936
-
5941
)
盖尔曼
A类
鲁宾
D类
使用多序列的迭代模拟推断
统计科学。
1992
,卷。 
7
(第
457
-
472
)
格恩哈德
T型
条件重建过程
J.西奥。生物。
2008
,卷。 
253
(第
769
-
778
)
高盛
N个
DNA替代模型的统计检验
《分子进化杂志》。
1993
,卷。 
36
(第
182
-
198
)
霍纳
S公司
德拉蒙德
AJ公司
贝叶斯系统发育推断的导向树拓扑方案
系统。生物。
2012
,卷。 
61
(第
1
-
11
)
霍纳
S公司
斯塔德勒
T型
龙奎斯特
F类
布里顿
T型
不同物种抽样方案下物种形成和灭绝率的推断
分子生物学。进化。
2011
,卷。 
28
(第
2577
-
2589
)
韦尔森贝克
J型
拉尔热
B
斯沃福德
D类
放松分子钟的复合泊松过程
遗传学
2000
,卷。 
154
(第
1879
-
1892
)
韦尔森贝克
日元
拉尔热
B
阿尔法罗
基于可逆跳马尔可夫链蒙特卡罗的贝叶斯系统发育模型选择
分子生物学。进化。
2004
,卷。 
21
(第
1123
-
1133
)
韦尔森贝克
日元
龙奎斯特
F类
MRBAYES:系统发育树的贝叶斯推断
生物信息学
2001
,卷。 
17
(第
754
-
755
)
拉克纳
C
范德马克
P(P)
韦尔森贝克
J型
拉尔热
B
龙奎斯特
F类
贝叶斯系统发育学中马尔可夫链蒙特卡罗树建议的有效性
系统。生物。
2008
,卷。 
57
(第
86
-
103
)
拉尔热
B
西蒙
D类
系统发育树贝叶斯分析的马尔可夫链蒙特卡罗算法
分子生物学。进化。
1999
,卷。 
16
(第
750
-
759
)
Lartillot公司
N个
菲利普
H(H)
利用热力学积分计算贝叶斯因子
系统。生物。
2006
,卷。 
55
(第
195
-
207
)
莱帕赫
T型
布莱恩特
D类
菲利普
H(H)
Lartillot公司
N个
松弛分子钟模型的一般比较
分子生物学。进化。
2007
,卷。 
24
(第
2669
-
2680
)
线路接口单元
L(左)
珍珠
丹麦
基因树中的物种树:使用估计的基因树分布重建物种系统发育的贝叶斯后验分布
系统。生物。
2007
,卷。 
56
(第
504
-
514
)
B
牛顿
妈妈
基于马尔可夫链蒙特卡罗的二元数据系统发育推断
J.计算。图表。斯达
1997
,卷。 
6
(第
122
-
131
)
B
牛顿
妈妈
拉尔热
B
基于马尔可夫链蒙特卡罗方法的贝叶斯系统发育推断
生物计量学
1999
,卷。 
55
(第
1
-
12
)
牛顿
M(M)
拉夫特里
A类
加权似然自举的近似贝叶斯推理
J.R.Stat.Soc.B Stat.Methodol公司
1994
,卷。 
56
(第
-
48
)
波萨达
D类
模型测试:测试DNA替代模型
生物信息学
1998
,卷。 
14
(第
817
-
818
)
波萨达
D类
jModelTest:系统发育模型平均
分子生物学。进化。
2008
,卷。 
25
(第
1253
-
1256
)
兰纳拉
B
Z轴
利用全基因组进行系统发育推断
每年。基因组学评论。
2008
,卷。 
9
(第
217
-
231
)
罗伯茨
G公司
罗森塔尔
J型
自适应MCMC示例
J.计算。图表。斯达
2009
,卷。 
18
(第
349
-
367
)
龙奎斯特
F类
院长
应收账
贝叶斯系统发育学及其对昆虫系统学的影响
每年。昆托摩尔牧师
2010
,卷。 
55
(第
189
-
206
)
龙奎斯特
F类
韦尔森贝克
日元
Mrbays 3:混合模型下的贝叶斯系统发育推断
生物信息学
2003
,卷。 
19
(第
1572
-
1574
)
龙奎斯特
F类
克洛普斯坦
S公司
维尔姆森
L(左)
舒尔迈斯特
S公司
默里
分力
Rasnitsyn公司
AP公司
即将到来
用化石进行年代测定的全面证据方法,应用于膜翅目的早期辐射
系统。生物
2012
斯塔德勒
T型
出生-死亡模型下的不完全抽样及其与基于抽样的合并的联系
J.西奥。生物。
2009
,卷。 
261
(第
58
-
66
)
祖哈德
妈妈
韦斯
重新
辛希默
JS公司
连续时间马尔可夫链演化模型的贝叶斯选择
分子生物学。进化。
2001
,卷。 
18
(第
1001
-
1013
)
索恩
JL公司
基希诺
H(H)
多点数据的发散时间和进化速率估计
系统。生物。
2002
,卷。 
51
(第
689
-
702
)
W公司
刘易斯
人事军官
风扇
Y(Y)
L(左)
M-H公司
改进边缘似然估计在贝叶斯系统发育模型选择中的应用
系统。生物。
2011
,卷。 
60
(第
150
-
160
)
Z轴
兰纳拉
B
基于DNA序列的贝叶斯系统发育推断:马尔可夫链蒙特卡罗方法
分子生物学。进化。
1997
,卷。 
14
(第
717
-
724
)

作者注释

副主编:David Posada

这是一篇根据知识共享署名非商业许可条款发布的开放存取文章(http://creativecommons.org/licenses/by-nc/3.0)它允许在任何媒体上无限制地进行非商业性使用、分发和复制,前提是正确引用了原始作品。