摘要

我们开发了一种可逆跳马尔可夫链蒙特卡罗方法,以在几种层次进化模型下基于对齐的DNA/RNA序列估计系统发育的后验分布。通过比较核苷酸之间的无限小变化率、速率类的数量以及分支长度之间的关系的不同模型,我们使用适当但未经处理且无信息的先验,证明了贝叶斯方法在系统发育学中进行假设检验和估计的优势。我们使用贝叶斯因子比较了这些模型的相对概率和分子钟的适用性。我们最通用的模型首先由Tamura和Nei提出,它将核苷酸(A、G、C、T/U)之间的无穷小变化概率参数化为六个参数,包括核苷酸平稳分布的三个参数、核苷酸跃迁的两个速率参数和核苷酸颠换的另一个参数。嵌套模型包括具有相等转移率的Hasegawa、Kishino和Yano模型,以及具有均匀平稳分布和相等转移率的Kimura模型。为了说明我们的方法,我们检查了来自15个当代真细菌、盐细菌、嗜酸性粒细胞和真核生物、9种灵长类动物的16S rRNA序列以及11个分离物的整个HIV基因组的模拟数据。我们发现Kimura模型限制性太强,长谷川、Kishino和Yano模型对某些数据集可能被拒绝,有证据表明相似分类群中存在不止一个速率类和一个分子钟,并且分子钟可能被拒绝用于更遥远的相关分类群。

介绍

生物实体之间进化关系的重建是进化生物学和卫生保健提供的有力工具。例如,通过进化相关性识别细菌病原体和HIV菌株可以大大提高治疗干预的效率(鲁道夫等人,1993年McCabe等人,1995年Nerurkar等人,1996年Relman等人,1996年克兰德尔1999). 不正确的进化模型和重建方法可能导致不一致的结果,或者可能包括对过程的不切实际的约束,牺牲模型的准确性以利于计算的简易性和速度(Rzhetsky和Sitnikova,1996年Swofford等人,1996年Durbin等人,1998年).

进化模型的似然比测试(有关综述,请参阅Huelsenbeck和Rannala 1997年)进化相关性的拓扑空间是离散的,数据是稀疏的,参数估计可能位于边界上,并且标准似然渐近可能不适用,这可能是疏忽(Navidi、Churchill和von Haeseler 1991年, 1993;高盛1993Sinsheimer、Lake和Little 1996年兰格1997惠兰和戈德曼1999). 使用马尔可夫链蒙特卡罗(MCMC)方法(Gilks、Richardson和Spiegelhalter,1996年)近似后验分布使我们能够以计算可行的方式进行进化模型的选择,拓扑确定是可逆跳跃MCMC的一个应用(绿色1995). 尽管MCMC方法以前被用于重建进化相关性(Kuhner、Yamato和Felsenstein 1995年、1998年Rannala和Yang,1996年Mau和Newton 1997年Yang和Rannala 1997Larget和Simon 1999Mau、Newton和Larget 1999年李、珀尔和多斯2000),我们的方法不同于这些方法,它是完全贝叶斯,在建模假设、似然计算、提案核和测试的假设范围内具有适当的、但未经处理的和无信息的先验知识。我们在本文中提出的贝叶斯假设测试方法提供了一个框架,可以同时推断进化关系并测试大量建模假设,我们仅对其中的几个进行了说明。

材料和方法第节,我们描述了确定进化相关性的数据和重建进化树的模型,我们引入了一种可逆跳跃MCMC方法来估计这些关系,并且我们表明,使用模糊但适当的先验可以对进化模型进行贝叶斯因子比较,并且可以在不以特定拓扑为条件的情况下使用。为了说明,在结果第节,我们比较了几种层次进化模型,检验了分子钟的适用性,并测试了多速率类的存在性。

材料和方法

进化关系和模型

数据和演化关系

我们检测了对齐的脱氧核糖核酸(DNA)或核糖核酸序列,以确定N个生物。出租将有机体和j个按照给定的顺序索引站点,数据中的每个位置X(X)ij公司包含核苷酸碱基或排列间隙。为了简单起见,我们首先从这些比对中删除了所有插入/缺失位点,最终得到长度有序的核苷酸序列我,这样的话X(X)ij公司∈(A,G,C,T/U)= 1,2, …,N个j个= 1,2, …,l、。

我们假设核苷酸位点是独立的和相同的在一组站点内分布(iid)进化约束(速率等级第页). 因此观察给定模式的可能性X(X)1年少者X(X)2年少者米⃛X(X)Njr公司在内部第页是多项式分布的,其中概率由一个未知的分支拓扑τ决定,该拓扑τ描述了生物体的进化相关性,即一组分支长度t吨b条T型对于b条=1,2,…,2N个−3,以及沿着该拓扑演化变化的马尔科夫模型(Sinsheimer、Lake和Little 1996年). 这套T型不一定保持不同拓扑之间的一致定义。因此,N个-分类单元拓扑是非嵌套模型,每个模型都支持独立的参数空间T型(τ).

进化模型

一类流行的进化模型是连续时间马尔可夫链模型,参数化为核苷酸变化的4×4无穷小速率矩阵以及对应于每个站点节点之间预期更改数的分支长度。矩阵满足条件1=0,留下12个非负的非对角参数问:。过渡矩阵
\[\mathit{P}(\mathit{t})\{=}\\mathit{e ^{tQ}}\{=}\\mathit{p}_{\mathit{s}_{0}\mathit{s}_{1} }(\mathit{t}){\}}\(1)\]
定义状态的转移概率0到州1哪里0,1及时∈(A,G,C,T/U)t。这些数据只允许对产品进行评估tQ公司,所以在不损失通用性的情况下,我们约束Trace()=−1。
我们探索了三种嵌套进化模型,它们减少了问:。最通用的,TN93(Tamura和Nei 1993年),允许嘌呤到尿液跃迁(α)、嘧啶到嘧啶跃迁(γ)和颠换(嘌呤-嘧啶或嘧啶到尿液;β)之间的不同进化速率,并允许核苷酸(π)的一般稳定分布根据π的限制而变化≥ 0, Σ π=1用于∈(A,G,C,T/U)和明细余额,π = π. 得到的无穷小速率矩阵为
其中,每行中的减号表示减去该行中剩余元素的总和。出租痕迹()=−1导致β=[1−α(πA类+ πG公司) − γ(πC类T型)]/TN93是HKY85模型的推广(长谷川、基希诺和亚诺1985),其中α=γ,和K80模型(木村1980),式中π=1/4和α=γ。

以前使用某些MCMC方法从核酸数据进行的进化重建将平稳分布固定在观测数据(Li、Pearl和Doss 2000)的经验估计值或初步MCMC采样确定的值上(Mau、Newton和Larget 1999年). 喜欢Larget和Simon(1999),我们没有采用这两种方法中的任何一种。经验估计对所有分类单元具有同等的权重,因此当分类单元选择对某些亚组进行过采样时,可能会有偏差,而固定参数可能会导致低估其他参数的方差。相反,我们的MCMC方法对所有模型参数进行采样。

对于所有三个模型,根的位置,所有模型的最近共同祖先(MRCA)N个如果没有进一步的参数限制,则无法估算分类(费森斯坦1981)例如分子钟。如果我们能在根的同一分支上识别出一个外群分类单元,那么剩下的分支中就有一个分子钟N个−1分类群是我们框架中的嵌套子模型,因此可以进行测试。分子钟允许进行计算上有利的参数化(Mau、Newton和Larget 1999年)并将要估计的分支长度减少一半。

我们将HKY85参数化推广到包含R(右)无穷小速率矩阵第页R(右)分支长度集T型第页,其中第页= 1, …,R、 R(右)是数据中存在的不同站点类的数量,并且数据中的每个站点都被预先分配为属于类r.(右)。我们选择HKY85作为示例,与以前的工作进行比较(杨1995Larget和Simon 1999)并注意,这种混合模型也很容易用于TN93或K80。当DNA序列的阅读框架已知且速率分配基于阅读框架中的密码子位置时,或者当来自已知在不同选择压力下进化的不同基因的数据合并时,该混合模型适用。该模型是贝叶斯计算的推广Larget和Simon(1999年),其中他们估计倍数第页矩阵而不是多重分支长度,以及杨(1995)),其中他假设不同类之间的分支长度是标量倍数。多个第页矩阵允许不同的转换/转换比和跨类别的平稳分布,以及多重T型第页集合允许不同类别和物种之间的进化速度不同。杨氏(1995)标量多分支长度假设类之间的相对进化速率在物种之间是恒定的。

贝叶斯计算

Priors公司

先验值必须保持适当,以估计贝叶斯因子。我们在整个参数空间(τ,θ)上使用平坦或模糊但完全正确的先验(τ)),其中θ(τ)= (π, α, γ,T处,μ) μ是一个超参数,有助于定义t吨b条在里面T。当我们使用多个位点类时,α=(α1, …, αR(右)), π = (π1, …, πR(右)),T型= (T型1, …,T型R(右)),且μ=(μ1, …, μR(右)). 我们假设所有参数的先验值都与拓扑无关,因此q个(τ)|τ)=q个(θ) θ的所有分量都是先验独立的。对于TN93模型,我们设置
除了分支长度之外,这些先验概率没有任何信息。τ上的均匀分布在(2)的离散空间上N个− 5)!/2N个−3(N个− 3)! 可能的拓扑N个分类群(费森斯坦1978). 支路长度iid为μ。我们用μ表示期望值1和方差10,因为我们对其趋势知之甚少。的优先级t吨b条,支持于[0,∞),是模糊但可积的。通常的Jeffreys先验t吨b条∈[0,∞)为1/t吨b条(杰弗里斯1998). 这个先验值是不可积的,因此无法测试分子钟。反γ密度允许计算μ的倒数矩,这也是测试分子钟所需的(见附录B)。

计算

我们雇佣了Gibbs的大都会(Tierney 1994年)可逆模型跳跃采样器(绿色1995)拓扑之间。尽管解释了T型依赖于模型。马尔可夫链的每个新状态都是通过吉布斯循环提出的。在周期内的每个步骤中,使用Metropolis-Hastings算法根据剩余块的条件更新单个参数块(Metropolis等人,1953年黑斯廷斯1970). 我们使用以下更新周期:

以前的MCMC方法更新了τ和T型同时(Larget和Simon 1999Mau、Newton和Larget 1999年);然而,这些方法最多只考虑速率类之间的比例演化速率。这里,我们包括一个额外的T型-只需阻塞以改善每类不同分支长度集合内的混合。我们在附录A中给出了每个Metropolis-Hastings步骤的转换内核。在可能的情况下,我们使用对称的转换内核来降低计算复杂性,并在与内核的基本参数相同的有界或离散空间上支持转换内核,以增加接受概率。

我们的MCMC链的每次运行由500000个完整的更新周期组成,我们忽略前100000个步骤作为老化。对于起始状态,我们绘制τ,μ,T型|μ、 α和γ直接来自先前的分布,并将π设置为每个类别中观察到的核苷酸频率。我们在老化后每隔40步进行一次二次采样,以估计链的后验函数。运行多个链以确保足够的收敛性。我们使用D类= Σt吨b条,表示所有分类群、μ、α、γ和π之间的总分歧,以评估拓扑内和拓扑间的收敛性。当采样器在拓扑结构之间移动时,这些参数保留了它们的解释,可以有效地用于监测MCMC采样器的性能(布鲁克斯和吉迪奇1999).

我们计算了给定τ的数据的可能性,T处,α、 γ和π,通过使用剪枝算法积分出内部节点的未知状态费森斯坦(1981).

模型比较

我们使用贝叶斯因子对模型进行比较(Kass和Raftery 1995). 支持模型的贝叶斯因素M(M)1对照模型M(M)0,给定数据是的,可以表示为
哪里(f)(Y(Y)|M(M)) = ∫(f)(Y(Y),M(M))q个)d日θ, θ是模型下的参数M(M),f(·)是采样密度,以及q个(·)为先前版本。不同的密度是通过他们的论点来区分的,这是一种常见的符号滥用。
如果型号M(M)0嵌套在另一个模型中M(M)1这样的参数空间M(M)1是θ1=(ω,)和的参数空间M(M)0为θ0= (ω0,)式中ω0是已知常数q个0(ϕ) ∝q个1(ω = ω0,),则B类10可以通过对M(M)1使用Savage-Dickey比率(Verdinelli和Wasserman 1995),
哪里q个(ω=ω0|M(M)1)是优先的,并且第页(ω = ω0|Y、 M(M)1)是ω的后验值,两者均在ω处计算0现有几种从MCMC模拟中估计ω后验密度的方法,包括非参数核密度估计方法和多元正态近似方法。由无穷小速率矩阵的限制和类数的限制所诱导的先验是可导的。在接下来的两部分中介绍了限制和诱导先验。相比之下,由分子嵌段限制引起的前导子的推导更为复杂。一些情况的分析结果见附录B,一般数值近似值见聚合高度差的诱发先兆第节,如下。

进化速率的限制

HKY85型号是TN93的限制,K80型号是HKY85的限制。为了测试限制模型的适当性,我们在最通用的TN93模型下,使用我们的MCMC采样器生成了关节的后部样本(α,γ,π)。然后,我们估计有利于TN93对抗HKY85和有利于TN93对抗K80的贝叶斯因子。然后,我们生成HKY85下关节(α,π)的后验样本,以估计有利于HKY85和K80的贝叶斯因子。

我们使用一个正态近似值来近似(α,γ,π)和(α,π=1/4,α=γ)(在前一种情况下)和π=1/4(在后一种情况下)。我们直接计算这些限制条件下的适当先验密度。当测试α=γ时,我们回忆起这个限制等价于α−γ=0,并且两个均匀[0,1)随机变量的差在[−1,1]上呈三角形分布,在限制处密度为1(Feller 1971年). 然后,我们使用方程式(6).

多个类

在假定包含多个站点类的数据集中,我们估计贝叶斯因子有利于第页HKY85下的矩阵,首先生成(α)的后验样本1,…,αR(右), π1, …, πR(右))使用我们的MCMC采样器。我们在限制(α1= … = αR(右), π1= … = πR(右))使用基于样本后验均值和后验协方差的正态近似
其中π的元素第页是πm、 第页,第页∈ (1, …,R(右)),∈(A,G,C,U/T),在ψ=(0,…,0)处计算。
我们通过将此后验密度估计值除以在联合约束条件下评估的先验值来形成贝叶斯因子。诱导先验等于q个1− αR(右), …, αR(右)−1− αR(右)) ×q个1− πR(右), …, πR(右)−1− πR(右))通过先前的独立性。我们确定了这一点
哪里U型W公司是两个独立的多维随机变量。我们评估q个(U型负极W公司)在U型负极W公司=0,使用两个随机变量之差的卷积积分。这将导致
\[\mathit{q}({\alpha}_{1}\{-}\{\alha}_{\mathit{R}}\{=}\0,\{\ldots}{\{-}1}\{-}\{\alpha}_{\mathit{R}\0)\{=}\1\(9)\]
考虑到我们在α上的先验。此计算不依赖于类的数量R。
根据类似的推导,
\[\mathit{q}({\pi}_{1}\{-}\{\pi}_{\mathit{R}}\{=}\0,\{\ldots}{\,},\}\pi}_{\matchit{R}{-}1}\{-}\{\pi}_{\mathit{R}}\{=}\0){-}1}。\(10)\]

分子嵌段限制

为了测试分子钟的适用性,我们以后模拓扑为条件,确定一个已知的外群,并根据合并高度差Δ重新参数化分支长度ij公司这些参数测量了两个当代分类群之间分支长度总和的差异j个和他们的MRCA。在分子钟下,Δij公司= 0.

考虑到外部群体R(右)在中所示的拓扑中图1,分子钟限制
每个约束可以被视为一种诊断,以识别拓扑中违反或支持分子时钟的部分,或者可以联合检查所有约束。与以前的分子时钟测试相比,我们的框架的一个优点是能够同时边际地考虑每个约束,并允许测试局部分子时钟(Hillis、Mable和Moritz,1996年Huelsenbeck、Larget和Swofford 2000)在分类群的一个子集内。
综合考虑方程式(11)是多余的,所以我们可以通过使用条件参数来降低联合约束维数
将条件参数扩展到较大的树是很简单的。

聚合高度差的诱发先兆

对于以两个或三个分类单元为根的拓扑,以及在N个-给定一个外群的分类单元拓扑,我们导出了诱导先验坐标的精确表达式q个ij公司=0),见附录BN个>3,我们估计了ηõ,诱导关节先验的纵坐标q个ij公司=0),通过模拟。我们画画n个=50000μ和T型|μ,并形成适当的Δij公司T。我们使用多维密度估计器计算η̂
式中Δ(k个)ij公司k个第个样本,d日是Δ的尺寸ij公司,w个是超球体的半径,单位为ℜd日, ωd日= πd日/2w个d日/Γ[(d日/2) “+1”是其体积,“‖·‖”是欧几里德规范。对于每个模拟,我们都会修复w个其最小值,使得超球体至少包含
\(\sqrt{\mathit{n}}\)
模拟样本的(Loftsgaarden和Quesenberry 1965年). 如果真密度q个ij公司)在0附近是局部线性的,则该方法是无偏的。对于N个=2个分类群,q个(Δ)不满足局部线性条件,因为Δ的模式为0(见附录B)。对于N个≥3时,模式不再以0为中心,近似值的偏差减小。
Ω上的调节d日回顾η̂是独立伯努利随机变量的和,有限样本方差近似为

作为对这些模拟和估计器的诊断,我们将η̂与附录B中的分析结果进行了比较n个=2和3。对于n个=2,计算η̂=1.0±0.1(估计值±SD),精确结果为0.955。对于n个=3,η̂=0.87±0.02,精确结果为0.897。为了评估更高维的估计量,我们从12维多元数据中抽取了50000个样本N个(1,),其中1=(1,…,1)t吨是单位矩阵,得到η̂=3.5×10−8± 0.5 × 10−8,而理论密度为4.0×10−8这些结果将理论密度恢复到相同数量级内,仅显示出较小的模拟误差或偏差。

结果

为了使我们的推断方法更加具体,我们检查了四个数据集:(1)模拟数据,(2)来自所有生活王国的代表性生物体(生命之树[TOL]),(3)灵长类,以及(4)不同的HIV分离物。每个数据集都说明了贝叶斯推理的不同方面。模拟数据表明,分子钟在实际存在时会被接受。灵长类动物的数据用于测试多个速率,并在不考虑拓扑条件的情况下测试对无穷小速率矩阵的限制。TOL数据、灵长类动物和HIV分离物证明了贝叶斯方法在测试分子嵌段假说中的通用性。TOL数据还表明,我们的MCMC实施对多达15个分类群是可行的。

模拟数据

为了确保我们的方法能够支持一个分子钟(如果存在的话),我们模拟了四个当代分类群在分子钟下长度为1500的序列(A、 B、C、D)和一个外群体(R(右))使用中的拓扑图1我们通过指定分支长度来建立分子钟,以便与MRCA和当代分类群的进化距离相等。Δ的近似后验密度ij公司=0为1106.3。日志10B类10值为0表示两个模型的可能性相等,而值大于2表示支持一般模型的有力证据,值小于-2表示支持限制模型的有力证明(Kass和Raftery 1995). Δ的诱导先验ij公司在这个拓扑中为0.52,得到一个对数10B类10值−3.32,这有利于分子钟。

生命之树

TOL数据集由15个16S核糖体RNA序列(rRNA)组成(湖泊1988). 去除间隙后,共有1039个核苷酸对齐,π光突发事件= (0.2408, 0.3157, 0.2464, 0.1971)t吨该物种来自四大类生物:真核生物、真细菌、盐细菌和嗜酸粒细胞,还包括真核生物的叶绿体序列,Zea mays公司(第页)。图2(左)显示了模态拓扑(86%±3%,后验概率平均值±SD由10条独立链确定)和TN93模型下估计的条件后验平均分支长度。该模型根据生物体形态将真核生物、嗜酸粒细胞、盐生细菌和真细菌正确聚类为相应的单系群(分支),并将叶绿体序列聚类到真细菌分支中。这一结果与真核细胞器起源的内共生假说相一致(Margulis 1981年)并且之前已经用rRNA证明(1988湖巴塔查里亚和梅德林1995).表1列出了α、γ、π、μ和的边际后验均值和标准误差D类根据TN93、HKY85和K80。

灵长类

灵长类动物的数据包括来自人类、黑猩猩、大猩猩、猩猩、长臂猿、猕猴、松鼠猴、眼镜猴和狐猴的部分线粒体DNA(Brown等人,1982年Hayasaka、Gojobori和Horai 1988年)之前使用MCMC方法进行了分析(Yang和Rannala 1997Larget和Simon 1999). 去除对齐间隙后,共有888个站点,且π光突发事件= (0.3219, 0.1076, 0.3044, 0.2660)t吨.图3说明了在所有模型的后验中看到的两种主要拓扑以及TN93模型下的条件后验平均分支长度。在这两种拓扑结构中,采样器将猿、猴和原猿正确地聚集在一起。表1给出了进化参数和散度估计及其标准误差。

拓扑的后验分布依赖于模型,人类、黑猩猩和大猩猩之间的关系也各不相同。在TN93下,人类和黑猩猩在地形上是三个物种中关系最密切的(90%±3%)。同样,在HKY85下,使用一个费率类别的后验平均值为84%±2%,使用四个费率类别的后验平均值为92%±3%。在K80下,后验平均值为90%±3%。然而,根据朱克斯和康托(1969)(JC69),其中α=γ=β和π=1/4,我们发现黑猩猩和大猩猩在地形上关系最密切(88%±5%)。在无条件的拓扑结构下,在TN93下,人类和黑猩猩之间的距离(每个位置的预期变化数)为0.41±0.05(后验平均值±后验标准差),黑猩猩和大猩猩之间的间距为0.52±0.05。在JC69下,这些距离分别为0.40±0.05和0.45±0.05。

艾滋病咨询门诊

HIV数据包含两个D亚型分离株、八个B亚型分离物和一个ADI亚型重组MAL的完整HIV基因组(Korber等人1997). B亚型分离物JRCSF和JRFL来自同一患者。在去除所有排列的基因组缺口后,共有7969个位点,并且π光突发事件= (0.3698, 0.2365, 0.1708, 0.2229)t吨.图4显示了两种拓扑结构,这两种拓扑几乎占到了后部的100%。这些拓扑是根据TN93下的条件后平均分支长度绘制的。B亚型分支内的一个内部分支大约为零。为零时,所示的两个拓扑变得等效。取样器将JRFL和JRCSF作为最近的邻居,并正确地对D和B亚型进行聚类。表1给出了估计的进化参数和散度。

TN93、HKY85和K80比较

日志10所有示例和模型的贝叶斯因子如所示表2在比较α、γ和π的限制条件时,TOL和HIV示例强烈支持TN93;所有日志10B类10值≥3。当对灵长类动物的α和γ限制进行比较时,对TN93的支持度高于HKY85的支持度较低10B类10值为0.3。比较π的限制时,HKY85在K80上得到强烈支持。

灵长类中的多个类

灵长类动物数据集中的线粒体序列包括两个单独的蛋白质亚单位的编码区,它们具有已知的阅读框和一个转移RNA(tRNA)部分(Brown等人,1982年Hayasaka、Gojobori和Horai 1988年). 以下杨(1995),我们将数据分为四类,一类是tRNA(长度为194 nt),其余三类是蛋白质亚基中第一、第二和第三密码子位置,长度为232、231和231 nt表3,我们报告了参数απ、μ和的后验均值和后验标准差D类85港元以下的每个班级。总散度D类用作报告所有分支长度的代理T。比率的后部D类/D类j个估计类之间的相对进化速率j。在第一个和第二个密码子位置之间,我们发现后验平均比率为0.49(0.06 SD),在第一个位置和第三个位置之间,发现后验均值比率为10.2(2.2),在第一个位置和tRNA之间,发现了后验均值比为0.62(0.07)。这些估算值与以下公式确定的估算值具有可比性:杨(1995)并包括不确定性度量。与第一个密码子位置相比,第三个密码子位置的突变增加了约10倍,这与第三个密码子位置的遗传密码冗余增加一致。此外,类之间的进化速率参数α和平稳分布π是完全不同的。日志10在所有四个类别中,支持多重α和π的贝叶斯因子为43.7。

测试分子钟

我们检验了分子钟在TN93下的模态拓扑条件下的适用性。我们选择eocyte分支作为TOL的外群,因为使用该分支对分子钟提供的支持最少。假设ADI重组体是HIV样本的外群。以灵长类动物为例,狐猴代表外群。表4,我们列出了这些例子的最小充分分子团约束集的后验均值和标准差。

HIV有9个约束,灵长类有7个约束,TOL模式拓扑有11个约束。我们进一步给出了该分类群及其MRCA之间遍历的节点数,每个Δij公司的边缘先验密度评估为0,由这些节点数确定(附录B),并记录10B类10针对每个两个分类单元比较的分子时钟。单变量检查,所有Δij公司支持HIV B亚型分支中的分子时钟,但JRCSF-JRFL限制除外。在分支之间,分子钟被强烈拒绝(SF2-ELI约束,log10B类10= 10.8). 在灵长类动物中,类人猿(猿和猴子)的每一个限制条件都微弱地支持着一个分子钟(均为对数10B类10≤−0.5),但在类人猿和原猿之间被拒绝(log10B类10= 1.0).

也在中表4,我们使用多元正态近似和先验密度来计算关节后验密度,并通过模拟评估为0,通过取这些值的比值,我们报告了关节对数10B类10对于每个数据集。TOL和HIV示例对分子钟提供了有力支持(log10B类10分别为31.8和12.3),而灵长类动物对分子钟的支持较弱(对数10B类10= 1.3).

我们检查了经边缘诊断确定有趣的三个示例子集:(1)八个B亚型分离物,(2)类人猿,和(3)真核生物。表4显示相应的关节日志10后验密度和先验密度及对数10B类10对于这些子集。作为一个例子,图2(右)绘制了真核生物之间三个合并高度差异的边缘后验和先验分布。真核生物继续对分子钟(log10B类10=14.0),而更密切相关的B亚型分离物和类人猿为支持局部分子钟提供了有力支持(对数10B类10分别为−3.7和−2.4)。

讨论

我们提出了一种可逆跳跃MCMC算法,用于从拓扑和其他参数的后验分布中采样,这些参数用于建模生物体之间的相关性。单个拓扑是单独的统计模型。虽然进化参数在这些模型中保留了定义,但一些分支长度却没有。对于固定数量的生物体,拓扑模型中由分支长度跨越的参数空间的维数保持不变,这使得可逆模型跳跃非常方便。

通过允许采样器探索跨拓扑模型的后验,我们克服了用于比较不同连续时间马尔可夫进化模型的传统分析的不足。通过最大化一般模型的似然和限制模型在相同拓扑条件下的似然,可以使用似然比检验;然而,在这两种模型下,使可能性最大化的拓扑可能不同。然后,通用和受限进化模型不再嵌套,在似然比检验下的形式推理不再可能。实际上,我们的可逆跳跃MCMC采样器集成了参数空间的非嵌套部分。贝叶斯方法还允许我们有效地将拓扑中的不确定性纳入参数估计的方差中。频繁推理被迫以拓扑为条件,因此低估了不确定性。

TOL的例子有力地证明了分子钟的普遍适用性;然而,类人猿和B亚型分离物表明,密切相关类群的局部分子钟是一个合理的模型。这一发现对先前的选择相当不敏感。分子钟最初用于MCMC方法中的进化重建,以减少计算量(例如。,Mau和Newton 1997年Yang和Rannala 1997Mau、Newton和Larget 1999年李、珀尔和多斯2000),但存在许多违反限制的例子(Ayala、Barrio和Kwiatowski,1996年Leitner等人,1996年Hillis、Mable和Moritz,1996年Simon等人,1996年霍姆斯、皮布斯和哈维1999里奇曼和科恩1999).Larget和Simon(1999)表明通过将可估计分支长度的数量增加一倍来消除分子钟不会产生棘手的问题;我们扩展了计算,以允许不受分子钟约束的多组分支长度。在这样做的过程中,我们进一步完善了Thorne、Kishino和Painter(1998)和Huelsenbeck,Larget和Swoford(2000)在几个重要方面。Thorne、Kishino和Painter(1998)引入一种贝叶斯方法,该方法不强加分子钟,首先假设所研究分类群的真实关系是完全确定的,并使用两次使用数据的经验贝叶斯先验。然而,他们并没有对分子钟的适用性进行统计测试。Huelsenbeck、Larget和Swofford(2000年)继续假设真实的关系已知,并制定一个可能在数据稀疏时难以解释的似然比测试。我们克服了这两个不足,提供了一个框架来统计测试分子钟的适当性,而不必以已知的先验拓扑为条件,同时对无穷小速率矩阵的适当参数化进行推断。此外,我们提出的两两诊断贝叶斯因子使研究人员能够方便地识别破坏分子钟的进化历史部分和支持局部分子钟的部分。另一方面,Huelsenbeck、Larget和Swofford(2000年)允许估计分歧时间,而我们的方法并没有消除时间和进化率的混淆。

为了在如此多的分支长度之间提供大跳跃和小跳跃,我们选择了两个转换内核的50/50混合-第一个使用具有小方差的反射法线驱动程序同时更新所有分支长度,第二个使用具有大方差的驱动程序随机选择和更新一个分支长度。与其他两个示例相比,这种混合消除了HIV数据集中分支长度较小的最初收敛性较差的问题。我们发现,在没有分子钟的情况下,至少有15个分类单元拓扑可以快速收敛并充分混合。

迈克·亨迪,审阅编辑器

1

关键词:系统发育学马尔可夫链蒙特卡罗嵌套假设检验贝叶斯因子

2

通信和转载地址:加州大学洛杉矶分校医学院人类遗传学系Janet S.Sinsheimer,加利福尼亚州洛杉矶90095-7088。janet@sunlab.ph.ucla.edu。

表1 TN93、HKY85和K80模型下生命树(TOL)、灵长类和HIV的参数估计

表1 TN93、HKY85和K80模型下生命树(TOL)、灵长类和HIV的参数估计

表2日志10贝叶斯因素有利于针对生命树(TOL)、灵长类和HIV嵌套模型的更通用进化模型

表2日志10贝叶斯因素有利于针对生命树(TOL)、灵长类和HIV嵌套模型的更通用进化模型

表3 HKY85模型下使用灵长类样本拟合四个场地类别时的参数估计

表3 HKY85模型下使用灵长类样本拟合四个场地类别时的参数估计

表4生命树(TOL)、灵长类和HIV的分子量估算

表4生命树(TOL)、灵长类动物和HIV的分子时钟估计

图1.分子钟下用于模拟的拓扑。分类单元R被指定为外群(在其余分类单元之前分叉),以允许沿着分类单元R的分支在任意位置生根

图1.分子钟下用于模拟的拓扑。出租车R(右)被指定为外群(在其余分类群之前已经分化),以允许沿着分类群在任意位置生根R(右)的分支

图2-TN93(左)下的生命树模型(87%±3%)拓扑。支管长度按比例绘制。图中显示了真核生物分支内三个分子团高度差(Δij)的边缘后向(实线)、后向(虚线)的正态近似值和前向(虚点)。数据不支持分子时钟限制,因为在Δij=0时,后验密度小于前验密度

图2-TN93(左)下的生命树模型(87%±3%)拓扑。支管长度按比例绘制。三个分子团高度差(Δij公司)图中显示了真核生物分支的内部(右图)。数据不支持分子块限制,因为后向密度小于Δ处的前向密度ij公司= 0

图3.使用一个速率等级的TN93下灵长类的两种主要拓扑。完整显示的拓扑的后验概率为90%±3%,而备用分支占剩余的10%。支管长度按比例绘制

图3.使用一个速率等级的TN93下灵长类的两种主要拓扑。完整显示的拓扑的后验概率为90%±3%,而备用分支占剩余的10%。支管长度按比例绘制

图4.-两种拓扑结构占TN93下HIV后部的100%。支管长度按比例绘制。当圈出的内部分支接近零时,这两种拓扑会收敛

图4.-两种拓扑结构占TN93下HIV后部的100%。支管长度按比例绘制。当圆形内部分支接近零时,这两种拓扑收敛

图5.局部和全局垂叶算法。

图5.局部和全局垂叶算法。

我们感谢James Lake提供TOL示例中使用的对齐序列,感谢Karin Dorman和John Boscardin提出的有益批评。M.A.S.获得了霍华德·休斯医学研究所(Howard Hughes Medical Institute)博士前奖学金的支持。J.S.S.获得了USPHS资助AI28697和CA16042的部分支持。

引用的文献

Ayala,F.J.,E.Barrio,J.Kwiatowski。

1996
.分子钟还是不稳定的进化?。
两个基因的故事。程序。国家。阿卡德。科学。美国。
93
:
11729
–11734

巴塔查亚·D·L·梅德林。

1995
质体系统发育:基于小亚单位核糖体RNA编码区比较的综述。
《物理学杂志》。
31
:
489
–498

布鲁克斯,S.P.,P.吉迪奇。

1999
.可逆跳跃MCMC模拟的收敛性评估Pp。733–742在里面J.Bernardo、J.Berger、A.P.Dawid和A.F.M.Smith编辑的贝叶斯统计学6。牛津大学出版社,马萨诸塞州剑桥

Brown,W.M.,E.M.Prager,A.Wang,A.C.Wilson。

1982
灵长类线粒体DNA序列、进化速度和模式。
《分子进化杂志》。
18
:
225
–239

Crandall,K.A.编辑。

1999
HIVJohns Hopkins大学出版社的演变,马里兰州巴尔的摩

Durbin,R.,S.Eddy,A.Krogh,G.Mitchinson。

1998
生物序列分析:蛋白质和核酸的概率模型剑桥大学出版社,英国剑桥

费勒,W。。

1971
概率论及其应用导论。第2版。约翰·威利父子公司,纽约

Felsenstein,J。。

1978
。进化树的数量。
系统。Zool(动物园)。
27
:
27
–33

———.1981. DNA序列进化树:最大似然法。《分子进化杂志》。17:368–376

Gelman,A.,G.O.Roberts,W.R.Gilks。

1996
.有效的大都市跳跃规则。599–608在里面J.M.Bernardo、J.O.Berger、A.P.Dawid和A.F.M.Smith编辑的贝叶斯统计5。牛津大学出版社,英国牛津

Gilks,W.R.,S.Richardson,D.J.Spiegelhalter。

1996
.马尔可夫链Monte CarloChapman and Hall,纽约

北卡罗来纳州高盛。。

1993
DNA替代模型的统计检验。
《分子进化杂志》。
36
:
182
–198

格林,P.J。。

1995
可逆跳跃马尔可夫链蒙特卡罗计算和贝叶斯模型确定。
生物特征。
82
:
711
–732

长谷川,M.,H.Kishino,T.Yano。

1985
线粒体DNA分子钟测定人类分裂的年代。
《分子进化杂志》。
22
:
160
–174

黑斯廷斯,W.K。。

1970
使用马尔可夫链的蒙特卡罗抽样方法及其应用。
生物特征。
57
:
97
–109

Hayasaka,K.,K.T.Gojobori,S.Horai。

1988
灵长类线粒体DNA的分子系统发育和进化。
分子生物学。进化。
5
:
626
–644

Hillis,D.M.,B.K.Mable,C.Moritz。

1996
分子系统学的应用:该领域的现状和展望。515–543在里面D.M.Hillis、C.Moritz和B.K.Mable主编《分子系统学》。第二版。马萨诸塞州桑德兰西诺尔

E.C.福尔摩斯、O.G.Pybus、P.H.哈维。

1999
HIV-1Pp的分子种群动力学。177–207在里面K.A.Crandall主编,《HIV的进化》。约翰·霍普金斯大学出版社,马里兰州巴尔的摩

Huelsenbeck,J.P.,B.Rannala。

1997
系统发育方法成熟:在进化背景下测试假说。
科学。
276
:
227
–232

Huelsenbeck,J.P.,B.Larget,D.Swofford。

2000
.用于放松分子时钟的复合泊松过程。
遗传学。
154
:
1879
–1892

H·杰弗里斯。。

1998
概率论牛津大学物理科学经典教材。第三版。牛津大学出版社,纽约

Jukes,T.和C.Cantor。

1969
蛋白质分子的进化。21–132在里面H.N.Munro编辑,《哺乳动物蛋白质代谢》。纽约学术出版社

Kass,R.E.,A.E.Raftery。

1995
贝叶斯因素和模型不确定性。
美国统计协会。
90
:
773
–795

木村,M。。

1980
一个简单的模型,用于通过核苷酸序列的比较研究来估计碱基替换的进化速率。
《分子进化杂志》。
16
:
111
–120

Korber,B.,B.Hahn,B.Foley,J.W.Mellors,T.Leitner,G.Myers,F.McCutchan,C.L.Kuikendeds 1997。1997年人类逆转录病毒与艾滋病:核酸和氨基酸序列的汇编和分析理论生物学和生物物理小组,新墨西哥州洛斯阿拉莫斯国家实验室。(http://hiv-web.lanl.gov)

Kuhner,M.,J.Yamato,J.Felsenstein。

1995
使用Metropolis-Hastings抽样从序列数据中估计有效种群规模和突变率。
遗传学。
140
:
1421
–1430

———.1998. 基于合并的人口增长率的最大似然估计。遗传学。149:429–434

莱克,J.A。。

1988
通过rRNA序列的速率变异分析确定真核的起源。
自然。
331
:
184
–186

兰格,K。。

1997
.遗传分析的数学和统计方法Springer,纽约

Larget,B.,D.L.西蒙。

1999
用于系统发育树贝叶斯分析的马尔可夫链蒙特卡罗算法。
分子生物学。进化。
16
:
750
–759

Leitner,T.、D.Escanilla、C.Franzn、M.Uhln和J.Albert。

1996
.通过系统发育树分析准确重建已知HIV-1传播历史。
程序。国家。阿卡德。科学。美国。
93
:
10864
–10869

Li,S.,D.K.Pearl,H.Doss。

2000
.使用马尔可夫链蒙特卡罗构建系统发育树。
美国统计协会。
95
:
493
–508

Loftsgaarden,D.O.,C.P.Quesenberry。

1965
多元密度函数的非参数估计。
安。数学。斯达。
36
:
1049
–1051

McCabe,K.M.,G.Khan,Y.H.Zhang,E.O.Mason,E.R.McCabe。

1995
使用高度保守序列扩增细菌DNA:败血症分子分型的自动化分析和潜力。
儿科。
95
:
165
–169

马古利斯,L。。

1981
细胞进化中的共生现象:早期地球上的生命及其环境。H.Freeman,旧金山

Mau,B.,M.A.牛顿。

1997
使用马尔可夫链蒙特卡罗对树状图上的二进制数据进行系统发育推断。
J.计算。图表。斯达。
6
:
122
–131

Mau,B.,M.A.Newton,B.Larget。

1999
通过马尔可夫链蒙特卡罗方法进行贝叶斯系统发育推断。
生物计量学。
55
:
1
–12

Metropolis,N.,A.W.Rosenbluth,M.N.Rosenblith,A.H.Teller,E.Teller。

1953
.快速计算机器的状态方程计算。
化学杂志。物理学。
21
:
1087
–1092

纳维迪,W.C.,G.A.丘吉尔,A.von Haeseler。

1991
使用最大似然和线性不变量从核酸序列数据推断系统发育的方法。
分子生物学。进化。
8
:
128
–143

———.1993. 系统发育推断:线性不变量和最大似然。生物计量学。49:543–55

Nerurkar,V.R.,H.T.Nguyen,W.M.Dashwood,P.R.Hoffmann,C.Yin,D.M.Morens,A.H.Kaplan,R.Detels,R.Yanagihara。

1996
越南南部商业性工作者和注射吸毒者中的HIV 1型E亚型。
艾滋病研究。嗯。逆转录病毒。
12
:
841
–843

Rannala,B.,Z.Yang。

1996
分子进化树的概率分布:一种新的系统发育推断方法。
《分子进化杂志》。
43
:
304
–311

Relman,D.A.、T.M.Schmidt、A.Gajadhar、M.Sogin、J.Cross、K.Yoder、O.Sethabutr、P.Echeverria。

1996
对人类肠道病原体环孢菌的分子系统发育分析表明,它与艾美耳球虫密切相关。
J.感染。疾病。
173
:
440
–445

Richman,A.D.,J.R.Kohn。

1999
酸浆属植物的自交不亲和等位基因:平衡遗传多态性对历史推断的影响。
程序。国家。阿卡德。科学。美国。
96
:
168
–172

Rudolph,K.M.,A.J.Parkinson,C.M.Black,L.W.Mayer。

1993
聚合酶链反应诊断肺炎双球菌肺炎的评估。
临床杂志。微生物。
31
:
2661
–2666

Rzhetsky,A.,T.Sitnikova。

1996
在树木制造中使用过于简化的替代模型何时安全?。
分子生物学。进化。
13
:
1255
–1265

Simon,C.、L.Nigro、J.Sullivan、K.Holsinger、A.Martin、A.Grapputo、A.Franke、C.McIntosh。

1996
12S核糖体RNA基因的替代模式和进化速度存在巨大差异。
分子生物学。进化。
13
:
923
–932

辛希默,J.S.,J.A.莱克,R.J.利特。

1996
.使用分子序列数据对四个分类单元拓扑进行贝叶斯假设测试。
生物计量学。
52
:
193
–210

Swofford,D.L.,G.J.Olsen,P.J.Waddell,D.M.Hillis。

1996
系统发育推断。407–514在里面D.M.Hillis、C.Moritz和B.K.Mable主编《分子系统学》。第二版。马萨诸塞州桑德兰西诺尔

Tamura,K.,M.Nei。

1993
估计人类和黑猩猩线粒体DNA控制区的核苷酸替换数量。
分子生物学。进化。
10
:
512
–526

Thorne,J.L.,H.Kishino,I.S.Painter。

1998
估计分子进化速率的进化速率。
分子生物学。进化。
15
:
1647
–1657

蒂尔尼,L。。

1994
用于探索后验分布的马尔可夫链(带讨论)。
Ann.统计。
22
:
1701
–1762

Verdinelli,I.和L.Wasserman。

1995
.使用Savage-Dickey密度比的泛化计算Bayes因子。
美国统计协会。
90
:
614
–618

Whelan,S.、N.Goldman。

1999
用于比较系统发育学中序列进化模型的统计分布。
分子生物学。进化。
16
:
1292
–1299

杨,Z。。

1995
DNA序列进化的时空过程模型。
遗传学。
139
:
993
–1005

Yang,Z.,B.Rannala。

1997
使用DNA序列进行贝叶斯系统发育推断:马尔可夫链蒙特卡罗方法。
分子生物学。进化。
14
:
717
–724