摘要

确定物种形成和灭绝率是否取决于特定特征的状态一直是进化生物学家感兴趣的问题。为了使用似然法评估一个特征对多样化率的影响,我们需要能够计算一组现存物种按照观察到的情况进化的概率,给定一个特征影响的特定模型。在这里,我们描述了如何在一个简单的进化模型(“BiSSE”模型,二态物种形成和灭绝)下计算系统发育树和二态(二进制)特征的概率。该模型包含六个参数,指定了两个物种形成速率(谱系处于状态0时的速率;状态1时的速率)、两个灭绝速率(状态0时;状态1)和两个角色状态变化速率(从0到1,从1到0)。使用这些概率计算,我们可以进行最大似然推断来估计模型的参数并进行假设测试(例如,一个字符状态的物种形成率是否高于另一个?)。我们使用已知参数值的模拟数据演示了该方法的应用。

系统发育树的分支模式包含物种形成和灭绝过程的信息(Nee等人,1994年b;Barraclough和Nee,2001年). 例如,随着时间的推移,物种谱系图中接近现在的上升可能揭示了物种灭绝(Nee等人,1994年). 特别令人感兴趣的是,系统发育树是否可以用来证明一个谱系的某些特征,如生态位或交配系统,会影响物种形成或灭绝的速度(Mitter等人,1988年;Barraclough等人,1998年;Gittleman和Purvis,1998年). 通常用于回答这些问题的是姐妹分析(Mitter等人,1988年; Farrell等人,1991年;Barraclough等人,1998年;Vamosi和Vamosi 2005). 例如,Mitter等人(1988年)结果表明,甲虫的食草分支比其食肉姊妹分支更具远见卓识;这种模式表明草食性赋予了更高的物种形成和/或更低的灭绝率。姐妹分支的比较是一种简单且相对非参数的方法(斯洛文斯基和盖耶,1993年;Barraclough等人,1996年)并对宏观进化研究产生了广泛影响。然而,它有一些缺点,促使我们探索替代方案。姐妹叶片比较无法区分差异物种形成和差异灭绝(Barraclough和Nee,2001年). 此外,当感兴趣的特征是一个简单的类别变量时,具有混合状态的分支不容易参与测试。然后,分支的选择可以是任意的,当将系统发育树折叠为一组分支对时,信息会被丢弃。原则上,应该可以找到一种考虑整棵树的方法,这种方法比那些选择分支对子集的方法更强大(Chan和Moore,2002年;Ree,2005年; Paradis,2006年)。

理想情况下,我们希望采用一种基于概率的方法来估计一个特征对多样化率的影响。潜在的可能性模型将允许物种形成和灭绝率取决于血统在每个时间点的特征状态,并允许特征状态发生变化。然后可以根据它们的可能性来推断物种形成和灭绝速率作为特征状态的函数:观察数据(系统发育和当前特征状态)的概率,给出速率参数的建议值。在本文中,我们描述了当字符控制多样化具有两种状态(即二进制)时计算这种可能性的方法。我们展示了这种计算如何为参数估计和关于二进制字符对多样化影响的假设检验提供新方法。这些计算也可以很容易地应用于更广泛的关于字符进化或树推理本身的问题,尽管我们在这里不讨论这些问题。

涉及物种形成和灭绝率的模型的可能性计算(Nee等人,1994年b,Moore等人,2004年)和字符状态变化率(佩格尔,1994年)已单独描述,但尚未完全集成。对这一努力作出了显著贡献的是Pagel(1997年),《天堂》(2005)、和Ree(2005).佩格尔(1997)该模型允许不同的特征状态赋予不同的物种形成速率,但它假设没有灭绝,并且特征变化只发生在物种形成事件中。《天堂》(1995)Ree(2005)提出基于likelihood的方法,使用重构的祖先状态来比较状态之间的物种形成率(同样,忽略灭绝)。最重要的是,这些先前的方法都假设可以评估祖先状态,而不考虑特征对物种形成/灭绝过程的影响。这是有问题的,因为一个特定祖先状态的重建严重依赖于该特征如何影响物种形成和灭绝率。例如,想象一个系统发育过程,在这个过程中,与第二个状态相比,一个特征状态促进物种形成,从而导致具有第一个状态的现存物种所占比例更大。如果我们试图在不考虑性状对物种形成的影响的情况下理解性状的变化,我们会解释该州的丰度,以反映其更高的变化率,即使事实上变化率与该州相同或不同(麦迪逊,2006). 这反过来又会对祖先国家的重建产生偏见,并误导我们多元化的进程。我们在这里的方法是第一个明确地将特征状态变化过程直接同时纳入物种形成和灭绝率的可能性评估中。

在这里,我们描述了在给定一个具有六个参数的基本模型的情况下,如何计算树的概率和观察到的状态:当谱系处于状态0时物种形成和灭绝的瞬时速率(例如,食草性),当谱系处在状态1时的速率(例如食肉性),以及性格状态变化的瞬时速率到1和1到0)。我们偶尔会将这个模型缩写为BiSSE(二态物种形成和灭绝)模型。在介绍了模型和似然计算之后,我们将该方法应用于一些模拟数据集。

Bisse模型的可能性

我们假设已知具有分支长度的精确根系统发育树(“推断树”),并且每个终端分类群的特征状态已知。(或者,我们的方法可以应用于来自贝叶斯MCMC分析的每个完全解析树-Yang和Rannala,1997年;Larget和Simon,1999年假设该树完整:已发现并包含该组中的所有现存物种。我们只考虑二进制字符,但将该方法扩展到多状态字符将非常简单。所有末端分类群都是同期的,树是超长型的(即所有叶尖的总根到叶尖距离都是相同的)。除非另有说明,我们倒计时,0表示现在。

模型参数如下。当谱系的特征状态为0时,瞬时物种形成率为λ0,消光率为μ0,转换到状态1的速率为q个01类似地,当一个谱系具有特征状态1时,物种形成、灭绝和过渡速率为λ1, μ1、和q个10假设这些参数在整个树中是恒定的,尽管扩展模型来探索这些参数变化的假设很简单。我们假设这些转变在所考虑的时间尺度上瞬时发生(即,我们忽略了物种多态的时间段)。我们还假设这些事件彼此独立;特别是,我们假设角色状态的改变本身不会导致物种形成(反之亦然)。

树的概率和特征状态(D)

虽然速率反映了事件在时间上向前移动的概率,但我们的计算将在时间上向后移动,从树梢到树根。这是公认的“修剪”(费森斯坦,1981年)或“下行通道”(麦迪逊和麦迪逊,1992年)方法,用于更紧凑地处理树的各个部分的祖先状态的所有可能性(费森斯坦,1981年). 这种方法使用了一个简单的原则:如果我们能够在树上的任何点上使用关键概率来推导对应的直接祖先概率(即,更接近根),那么必须能够逐步沿着树向下移动到根。当到达根时,计算出的概率将应用于整个树。

我们的计算使用了完整的树拓扑,这与Nee等人(1994b),它只使用分支事件的计时。我们需要使用全树拓扑,因为我们同时考虑角色状态的演化。附录1我们描述了如何消除对字符状态的依赖性,将我们的方程简化为Nee等人的方程。

在BiSSE模型中,关键概率,D类N个0(t吨)或D类N个1(t吨),描述一个谱系在某个时间开始的可能性t吨状态为0或1时,会演变成一个分支,就像观察到的从节点下降的分支一样N个,更接近现在(图1). 我们在很短的时间内追踪这些概率,Δt吨向根方向,说明一路上可能发生的所有事件。如果我们使用足够小的时间间隔Δt吨,我们可以忽略在时间间隔内发生多个事件的可能性。一旦我们导出了Δ以上概率变化的方程t吨然后,我们缩小时间间隔,并使用导数的定义来获得微分方程,描述当我们下降到根时这些概率的变化。通过沿分支积分这些微分方程,我们能够求解给定BiSSE模型的数据的总概率。在下文中,我们首先沿分支,然后跨树中的节点执行这些计算。

沿树的分支计算观察到的树和字符状态的概率(D)。我们假设我们知道分支上时间t的D,并尝试计算时间t+Δt的D。
图1

概率的计算(D类)沿树的分支观察到的树和字符状态。我们假设我们知道D类是为了时间t吨并尝试计算时间t吨t吨.

分支内的计算

让我们假设我们已经计算了概率D类N个0(t吨)节点的分支N个如果谱系在时间上从状态0开始,那么它的茎谱系将完全按照推断树的表示进化(包括分支长度和终端字符状态)t吨在节点下方的分支上N个(图1). 我们将描述针对状态0的计算;状态1的计算是并行的,确实需要同时执行。

向下移动下一步(图1),我们需要计算一个小时间步长(Δt吨)再往下分支,即。,D类N个0(t吨+ Δt吨)和D类N个1(t吨+ Δt吨). 要计算D类N个0(t吨+ Δt吨),我们列举了通过考虑Δ中可能发生的所有可能事件,观察到的分支可能出现的所有方式t吨时间间隔。具体来说,我们使用总概率定律来写D类N个0(t吨+ Δt吨)作为从t吨+ Δt吨t吨支脉以从时间上观察到的方式演化的概率乘以t吨直到现在。共有四种情况,每种情况都要求感兴趣的血统在Δ期间没有灭绝t吨间隔(图2). 在第一种情况下(图2a),Δ中什么也没有发生t吨间隔。在第二种情况下(图2b),字符会发生变化。在第三种情况下(图2c),发生物种形成事件,左侧谱系生成节点N个; 因此,正确的血统必须在现在之前的某个时候灭绝,而现在很可能发生E类0(t吨),将在下一节中进一步介绍。第四个案例(图2d)是类似的,除了左边的血统灭绝,右边的血统生成节点N个.没有其他情况会影响概率D类N个0(t吨+ Δt吨)因为假设事件是独立的,而且支队必须生存到现在。

另一种情况是,分支上时间t+Δt时状态为0的谱系可能会产生从节点N降级的谱系,但不会产生其他活的后代。
图2

替代方案,根据该方案,沿袭的时间状态为0t吨t吨分支上可能会产生从节点下降的分支N个但没有其他活着的后代。

然后将这四种情况的概率相加得出D类N个0(t吨+ Δt吨):
为了方程的清晰性(1),我们忽略了几个可能的转变,这些转变涉及时间间隔内的多个事件(例如物种形成和灭绝),因为这些转变发生的概率为Δt吨2)如果Δt吨很小。删除所有订单条款Δt吨2,我们得到:
同样,
划分[D类N个0(t吨+ Δt吨D类N个0(t吨)]和[D类N个1(t吨+ Δt吨) –D类N个1(t吨)]时间间隔Δt吨,取极限Δt吨归零,我们可以导出两个耦合微分方程:

我们还没有找到这些方程的解析解。然而,给定的解决方案E类0(t吨)和E类1(t吨)如下所述,它们可以沿着分支进行数值积分。这允许我们推导D类N个0(t吨)和D类N个1(t吨)从分支顶部的概率(rootward)到分支底部。

初始条件

如果N个是状态为0的终端节点,则初始条件为D类N个0(0)=1和D类N个1(0) = 0. 也就是说,状态必须是在时间0时观察到的状态。同样地如果分类单元具有状态1,D类N个0(0)=0和D类N个1(0) = 1.

节点处的计算

当我们到达分支的底部,即直系祖先节点时A类,我们需要将分支的概率与它的姊妹分支的概率结合起来,然后再继续沿着祖先分支往下走。对于A类如推断树所示,的支系已经进化,物种形成事件一定已经发生,每个女儿谱系都必须生存到今天。概率A类类推树中的分支进化等于左女儿谱系进化为树中的谱系的概率乘以右女儿谱系演化为树中谱系的可能性乘以小时间间隔内物种形成的概率Δt吨.物种形成概率λΔt吨,从而引入Δt吨每个节点的术语。这些Δt吨因此,项贡献了一个因子(Δt吨)n个到整棵树的概率,其中n个是内部节点的数量。因为该系数不依赖于参数值,所以我们可以安全地忽略它,而不改变不同参数值下可能性的比例。从技术上讲,忽略它会将概率转换为概率密度,但为了简洁起见,我们将继续讨论概率。

因此,就在物种形成事件发生之前,谱系处于0或1状态并进化为类似于观察到的从节点进化而来的分支的概率A类(包括节点的物种形成事件A类)由以下人员提供:
哪里M(M)是的姐妹节点N个注意,这些等式只包括字符状态与祖先相同的情况A类以及它的两个后代血统。也就是说,我们将物种形成和特征状态变化视为独立事件,这样两种变化同时发生的概率为零。

现在,通过节点A类,我们可以使用D类A类0(t吨A类)和D类A类1(t吨A类)作为数值积分的起点A类的分支。

在根部

当我们到达根的时候我们会计算D类0(t吨)和D类1(t吨),描述了在根分别处于0或1状态的情况下观察系统发育和现存特征状态的概率。为了获得作为推断基础的单一可能性,我们需要考虑根处于状态0或1的概率。我们可以,跟随Schluter等人(1997年)Pagel(1999),添加D类0D类1一起。这有效地为处于状态0的根和处于状态1的根指定了0.5的概率,即使BiSSE模型的转移概率会使角色更有可能处于一种状态或另一种状态。或者,我们可以通过模型中隐含的平衡频率0和1来加权这些根状态(参见附件2)默认情况下,在Mesquite 1.1版和更高版本中为祖先状态进行类似的似然计算(麦迪逊和麦迪逊,2006年). 这里我们采用后一种方法。

灭绝概率(E)

为了使用微分方程(3)计算概率,D类N个0(t吨)或D类N个1(t吨)一个谱系的进化如推断树中所示,我们必须确定一个谱纪在当时存活的概率t吨在现在之前就灭绝了。这里,我们推导出E类0(t吨)和E类1(t吨)使用类似的程序,除了灭绝概率不取决于幸存谱系的树结构,而仅取决于时间。

假设我们已经计算了E类0(t吨),一个血统在某个时间开始的概率t吨在状态0中,目前没有后代。然后E类0(t吨+ Δt吨)可以通过考虑Δ中四种不同的可能事件来获得t吨与血统(及其所有后代)最终灭绝的时间间隔一致(图3). 在第一种情况下(图3a)血统在Δ期间灭绝t吨时间间隔。在第二种情况下(图3b),血统既不会灭绝,也不会改变状态或物种t吨t吨+ Δt吨,但它最终还是灭绝了。在第三种情况下(图3c),谱系在Δ期间改变状态t吨时间间隔,然后消失。最后,在第四种情况下(图3d),谱系在Δt吨时间间隔,但现在这两个后代血统必须在今天之前灭绝。我们假设在第四种情况下,灭绝事件彼此独立,因此贡献了一个项E类0(t吨)2概率。由于假设事件独立且Δt吨非常小。

在时间t具有状态0的谱系可能灭绝的替代方案。
图3

在时间沿袭的替代方案t吨状态0可能会灭绝。

然后将这四种情况的概率相加,得出灭绝概率,E类0(t吨+ Δt吨):
同样,我们在方程式中包含了一些项(5)小到可以忽略不计(Δ级t吨2). 去掉这些条件,我们得到:
同样,
将更改划分为E类0E类1时间间隔Δt吨取极限Δt吨归零得到耦合微分方程:
与以下等式一样D类(t吨),这些消光概率方程可以用数值积分求解。

初始条件

时间t吨=0,没有时间消光,因此E类0(0) =E类1(0) = 0.

评估和测试应用

最大化如上所述计算的BiSSE可能性可以得到所有六个参数的估计值。这意味着该方法不仅可以用于理解物种形成和灭绝,还可以用于理解包括性状状态变化在内的整个多样化过程。有了这样一个灵活的模型,各种假设检验都是可能的。例如,状态0下的物种形成是否比状态1下更快?一种状态下的净多样化率(物种形成-灭绝)高于另一种状态吗?是什么导致一种状态的物种过剩(麦迪逊,2006):非对称性特征变化(速率0到1与速率1到0不同)、非对称灭绝或非对称物种形成?为了回答这些问题,可以通过比较给定的无约束模型与适当约束模型的可能性来进行似然比测试。

在下文中,我们使用模拟的系统发育树和特征对BiSSE进行了初步探索。首先,当真正的物种形成、灭绝和特征转变率取决于或不取决于特征状态时,我们估计速率参数。其次,我们检验了是否可以使用相似比率检验来拒绝等额率的无效假设。

这些例子并不试图对该方法进行全面的探索。为了了解该方法的能力和局限性,我们希望研究该方法在各种参数值和假设下拒绝虚假零假设的能力,包括多重同时不对称的情况。我们还想知道足够功率所需的树的大小,以及估计参数值的准确性和精确度。我们将这些探索留给后续的论文。

实施

上述BiSSE可能性计算已在Mesquite的Diverse模块包(Midford和Maddison,2007)中编程(Maddison和Maddisson,2007)。这些计算使用数值积分的四阶龙格-库塔方法(Ralson和Rabinowitz,1978年)继续沿着分支和梅斯基特实施布伦特(1973)用于寻求最大似然估计的优化器。如果选择以整个分支的生存为条件,则模块使用Nee等人(1994年b)约定(即所使用的条件是该分支至少有两个后代存活)。

在我们对该方法的检查中,首先尝试使用10个随机起始参数值进行最大似然优化,数值积分器使用将每个分支粗略划分为多个分段的方法(平均长度的分支被分配为100个分段;其他分支,根据其长度分配最多400段或最少50段)。数值积分中的误差预计会随着段长的减小而减小,因此,10次尝试产生的最可能的参数集被用作使用精细分支划分进行最终优化的起点(平均1000段,最大4000段,最小500段)。数值积分方法的细节将在随后的论文中考虑,但我们注意到,在我们的结果中获得的合理估计表明该方法取得了一些成功。可能性取决于分支存活率。用于根部特征状态的先验值(即,根部状态0与1的概率)是拟议模型参数值中隐含的平衡频率集。

通过Diverse软件包(Midford和Maddison,正在准备中)的“BiSSE树和字符”模块在Mesquite中生成模拟树和终端字符状态。该模块将时间分为几个小步骤,这样如果事件的发生具有瞬时速率第页时间片中事件的概率为第页/1000.在每个谱系的每个时间片中,绘制一个统一的随机数来确定角色是否发生了变化,然后绘制一个随机数来决定是否发生了灭绝。如果一个谱系没有发生灭绝,则抽取一个随机数来确定是否发生了物种形成。如果这棵树灭绝了,则重新启动模拟。模拟一直持续到树第一次拥有所需的物种数量(例如,500)。这并不理想,因为灭绝和物种形成可能会使树木达到所需物种数量的数倍;第一次停止模拟会使结果偏向较短的终端分支。然而,对于下面研究的参数,偏差应该非常小,物种形成率相对灭绝率和特征状态变化率较高,且树的大小较大。(例如,在下面探讨的灭绝率最高的情况下,第一次达到500种物种时,树木的平均高度为0.99916,是最后一次达到500个物种时树木的高度,这是由100个允许树木生长到600种的模拟确定的。另见附录2对于达到一定数量物种的平均时间的确定性近似。)

参数估计

为了探索参数估计,我们模拟了四种参数组合下的树。第一种组合完全对称:λ0= λ1=0.1,μ0= μ1= 0.03,q个01=q个10= 0.01. 其他三种组合通过在完全对称的模型中每次改变一个参数,在每个过程(物种形成、灭绝、特征改变)中引入了不对称性。具体来说,这三种替代模型涉及提高状态1(λ1=0.2),或提高状态为0时的消光率(μ0=0.06),或将字符更改率降低到状态0(q个10= 0.005). 在每个模型下,对500个现存物种的500棵树进行了模拟。

从Diverse包中获得了结果树的参数最大似然估计。结果绘制在图4,重点是在每次模拟中对非对称参数进行估计。一般来说,物种形成率λ的估计值0和λ1相当好,接近正确的参数值。此外,对称情况下的估计(λ0= λ1=0.1)很容易与不对称情况下的估计值(λ0= 0.1, λ1= 0.2). 对于灭绝率和特征状态变化率,估计值与模拟值不太匹配。这是否反映了估计灭绝的一般困难(Nee等人,1994年; Kubo和Iwasa,1995年;Paradis,2005年)或者状态变化,或者取决于所选的特定参数值,有待于在未来的论文中探讨。

模拟树和字符的估计参数值。线表示模拟的真实参数值(实线表示两种状态的相等速率;虚线表示不相等)。小符号表示估计值;大符号表示估计值的平均值。开圆圈表示对称模拟的参数估计值,即状态0和1的参数值相等(物种形成率0.1,灭绝率0.03,字符变化0.01)。闭合三角形表示分别估计参数中具有不对称性的模拟估计值。显示的不对称性是(a)物种形成速率不对称(λ1=0.1对0.2),(b)灭绝速率不对称(μ0=0.03对0.06),以及(c)特征状态变化速率不对称(q10=0.01对0.005)。在最大似然分析中,所有六个参数都可以自由变化,但每个散点图只关注每种情况下感兴趣的参数。
图4

模拟树和字符的估计参数值。线表示模拟的真实参数值(实线表示两种状态的相等速率;虚线表示不相等)。小符号表示估计值;大符号表示估计的平均值。开圆圈表示对称模拟的参数估计值,即状态0和1的参数值相等(物种形成率0.1,灭绝率0.03,字符变化0.01)。闭合三角形表示分别估计参数中具有不对称性的模拟估计值。显示的不对称是(a)物种形成速率不对称(λ1=0.1对0.2),(b)消光率不对称性(μ0=0.03与0.06),以及(c)字符状态变化率不对称(q个10=0.01与0.005)。在最大似然分析中,所有六个参数都可以自由变化,但每个散点图只关注每种情况下感兴趣的参数。

假设检验

我们检查了相同的模拟树,以探索该方法拒绝两个字符状态的速率(例如物种形成速率)相等的无效假设的能力,而实际上这是不同的。除了上述无约束六参数似然估计外,我们还计算了给定约束五参数模型的最大似然,并保持物种形成率等于(λ0= λ1),或消光率等于(μ0= μ1)或状态变化率相等(q个01=q个10). 使用约束五参数似然模型和非约束六参数似然模式之间的对数似然差异作为检验统计量。如果此差异大于临界值(基于具有真正对称利率参数的模拟树),则我们拒绝了利率参数的对称利率无效假设。

在研究性状是否影响物种形成率时,5%的对称模拟得出了受约束(λ0= λ1)以及无约束(λ0≠ λ1)尽管物种形成率没有差异。因此,我们使用3.60作为显著性的5%截止值。在不对称模拟中,58%的模拟结果导致了比该截止值更大的对数似然差异,从而拒绝了物种形成率相等(λ0= λ1). 这表明至少有一些力量可以拒绝树为500的零假设物种形成率有两倍差异的物种。然而,灭绝或性状状态改变不对称的排斥率要低得多。通过研究消光率差异,21.2%的非对称模拟结果超过了基于对称模拟的截止值2×对数似然差4.08。在探索字符状态变化率时,只有16.4%的非对称模拟超过了基于对称模拟的临界值2×对数似然差4.52。如上所述,关于参数估计,这些结果并不一定表明消光或特征变化通常更难研究,只是它们低于所研究的参数值。

如果有足够的数据,我们预计约束模型与非约束模型的对数似然差的两倍将遵循χ2在两个状态速率相等的零假设下,具有一个自由度的分布。在这种渐近分布下,显著性的5%截止值为3.841。我们的等比率模拟所确定的5%的截止值接近于该值,这表明χ2对于这种大小的树的似然比测试,近似值可能是合理的。

拒绝假零假设的概率(幂)如何随物种数量和比率差异程度而变化,还有待研究。然而,从我们最初的探索来看,我们怀疑通常需要大型的系统发育树才能有足够的能力。我们认为,这种低功耗不是该方法存在缺陷的标志,而是因为有许多类似的方法可以生成观察到的系统发育和观察到的特征状态(麦迪森,2006年)-只有通过大量数据才能区分这些。

扩展

在本文中,我们使用这些似然计算来探索我们检测物种形成、灭绝或特征状态变化的不对称速率的能力。这些计算同样可以用于探索其中一些参数(例如物种形成和灭绝率)的不确定性如何影响其他参数(例如特征状态变化)的似然估计。它们还可以用来通过似然推断祖先的状态(Schluter等人,1997年).麦迪森(2006)解释了为什么在解释角色的进化历史时需要考虑角色对多样化的影响的方法;我们的可能性计算可以提供这样的方法。它们也可以用于树推理本身,允许在其中字符状态影响多样化过程的模型。

描述似然微分方程和向下分支积分的一般方法应适用于广泛的问题。使用数值积分方法使我们摆脱了只考虑那些可以解析求解的模型的约束。例如,我们可以将该方法扩展到包括多个相关性状或其他性状进化模型或其他物种形成模型(例如,与性状变化同时发生的物种形成)。另一个有用的扩展是处理连续值数据,可能包括以下模型斯莱特金(1981).《天堂》(2005)该方法已经被推广用于不同类型的多个字符,尽管如前所述,它并没有将状态变化与物种形成/灭绝集成到一个通用模型中。

关于BiSSE方法的最后一个警告:即使证明它有足够的能力来估计参数和测试假设,它也会受到同样的限制(Read和Nee,1995年;麦迪逊,2000)由共享佩格尔(1994)麦迪逊(1990)字符相关性和Ree’s(2005)多元化测试。例如,如果我们确定λ1> λ0我们不能仅在此基础上说利率的性质是控制物种形成率。事实上,另一个具有并行特征状态分布的角色可能会对此负责。如果我们的角色的状态在树上散布着许多同态,那么这就无关紧要了,因为我们可以认为任何其他角色都不可能具有平行分布,除非它与我们所检查的角色有因果关系,因此间接因果关系仍有争议。但是,如果所有状态为1的物种(例如)都发生在一个分支中,那么共分布特征的问题将是一个令人担忧的问题。我们的方法,以及所引用的其他方法,在这种情况下可能会产生显著的结果,即使该分支的任何其他突触形态实际上可能是造成这种效果的原因,而且这种突触形态可能与我们感兴趣的特性无关,除非起源于同一单一谱系的巧合(里德和奈伊,1995年;麦迪逊,2000). 因此,使用我们的方法得出的一个重要结论是,所检查的特征或共分布字符似乎正在控制多元化率。

致谢

我们感谢Arne Mooers和Jeff Thorne的有益讨论。里萨·萨金特(Risa Sargent)、里克·雷(Rick Ree)、布赖恩·摩尔(Brian Moore)和一位匿名评论员对本文的前一版本发表了有益的评论。这项工作得到了美国国家科学基金会对CIPRES项目的EF-03314953拨款、NSERC对WPM和SPO的发现拨款以及国家进化综合中心对SPO的休假奖学金的支持。

工具书类

巴拉克劳
T.G.公司。
哈维
P.H.公司。
奈伊
美国。
开花植物(被子植物)中rbcL基因序列进化速率和物种多样性
程序。R.Soc.伦敦。B类
1996
,卷。 
263
(第
589
-
591
)
巴拉克劳
T.G.公司。
奈伊
美国。
系统发育和物种形成
经济发展趋势。
2001
,卷。 
16
(第
391
-
399
)
巴拉克劳
T.G.公司。
沃格勒
A.P.公司。
哈维
P.H.公司。
揭示促进物种形成的因素
菲尔翻译。R.Soc.伦敦。B类
1998
,卷。 
353
(第
241
-
249
)
布伦特
钢筋混凝土。
无导数优化算法
1973
新泽西州恩格尔伍德悬崖
普伦蒂斯·霍尔
英国医学会。
摩尔
B.R.公司。
检测差异多样化率的整树方法
系统。生物。
2002
,卷。 
51
(第
855
-
865
)
费尔森施泰因
J。
DNA序列进化树:一种最大似然方法
《分子进化杂志》。
1981
,卷。 
17
(第
368
-
376
)
吉特勒曼
J·L·。
普维斯
A。
食肉动物和灵长类的体型和物种丰富度
程序。R.Soc.伦敦。B类
1998
,卷。 
265
(第
113
-
119
)
古戴
J。
测试关键创新对物种形成率影响的改进程序
美国国家。
1999
,卷。 
153
(第
549
-
555
)
肯德尔
D.G.公司。
关于导致R的一些人口增长模式
A.费希尔对数级数分布。生物计量学
1948
,卷。 
35
(第
6
-
15
)
拉尔热
B。
西蒙
D.升。
系统发育树贝叶斯分析的马尔可夫链蒙特卡罗算法
分子生物学。进化。
1999
,卷。 
16
(第
750
-
759
)
麦迪逊
水压力。
一种测试两个二进制字符相关进化的方法:增益或损失集中在系统发育树的某些分支上吗?
进化
1990
,体积。 
44
(第
539
-
557
)
麦迪逊
水压力。
利用系统发育的两两比较测试性状相关性
J.西奥。生物。
2000
,卷。 
202
(第
195
-
204
)
麦迪逊
水压力。
混淆进化多样性和性格变化中的不对称
进化。
2006
,卷。 
60
(第
1743
-
1746
)
麦迪逊
水压力。
麦迪逊
D.R.公司。
麦克拉德。版本3:系统发育和特征进化分析
1992
马萨诸塞州桑德兰
Sinauer Associates公司
麦迪逊
水压力。
麦迪森
D.R.公司。
梅斯基特:进化分析的模块化系统
2006
 
米特
C、。
法雷尔
B。
维格曼
B。
适应区的系统发育研究:植食性促进了昆虫的多样性吗?
美国国家。
1988
,卷。 
132
(第
107
-
128
)
摩尔
B.R.公司。
英国医学会。
多诺霍
医学博士。
Bininda-Emonds公司
O.R.P.公司。
在里面系统发生超树:结合信息揭示生命之树
检测超级树的多样化率变化
2004
荷兰
多德雷赫特Kluwer学院
(第
487
-
533
)
奈伊
美国。
福尔摩斯
欧洲委员会。
五月
风险管理。
哈维
P.H.公司。
灭绝率可以通过分子系统发育来估计
菲尔翻译。R.Soc.伦敦。B类
1994
,卷。 
344
(第
77
-
82
)
奈伊
美国。
五月
风险管理。
哈维
P.H.公司。
重建的进化过程
菲尔翻译。R.Soc.伦敦。B类
1994
,卷。 
344
(第
305
-
311
)
佩格尔
M。
检测系统发育相关进化:离散性状比较分析的通用方法
程序。R.Soc.伦敦。生物科学。B类
1994
,卷。 
255
(第
37
-
45
)
佩格尔
M。
从系统发育推断进化过程
祖尔。脚本
1997
,卷。 
26
(第
331
-
348
)
佩格尔
M。
用最大似然法重建离散性状在系统发育上的祖先性状状态
系统。生物。
1999
,卷。 
48
(第
612
-
622
)
天堂
E.公司。
物种性状多样性的统计分析
进化
2005
,体积。 
59
(第
1
-
12
)
拉尔森
A。
拉比诺维茨
第页。
数值分析第一课程,第二版
1978
纽约
麦格劳-希尔
阅读
A.F.公司。
奈伊
美国。
从二进制比较数据推断
J.西奥。生物。
1995
,卷。 
173
(第
99
-
108
)
Ree公司
右侧。
使用特征进化和枝状发生的随机模型检测关键创新的历史特征
进化
2005
,卷。 
59
(第
257
-
265
)
Schluter公司
D。
价格
T。
A。
O.系泊设备
路德维希
D。
自适应辐射中祖先状态的可能性
进化
1997
,卷。 
51
(第
1699
-
1711
)
斯拉特金
M。
物种选择的扩散模型
古生物学
1981
,卷。 
7
(第
421
-
425
)
斯洛文斯基
J.B.公司。
盖耶
C、。
测试某些性状是否导致了扩大的多样性:基于随机物种形成和灭绝模型的改进方法
美国国家。
1993
,卷。 
142
(第
1019
-
1024
)
Vamosi公司
S.M.公司。
Vamosi公司
J.C.公司。
无止境测试:非嵌套姐妹组比较分析指南
进化。经济。研究。
2005
,卷。 
7
(第
567
-
579
)
Z.H.公司。
兰纳拉
B。
基于DNA序列的贝叶斯系统发育推断:马尔可夫链蒙特卡罗方法
分子生物学。埃沃。
1997
,卷。 
14
(第
717
-
724
)

附录1

独立于角色的模型.-如果假设物种形成和灭绝率不受某个字符的影响,则文中描述的可能性模型可以简化为一个简单的物种灭绝(或出生-死亡)模型。由于物种灭绝模型已经得到了很好的研究(例如。,Nee等人,1994b),我们描述了在物种形成率和灭绝率为常数(λ,μ)的情况下,我们的计算如何简化为他们的计算。

在不引用字符的情况下,重新推导方程(3)和(7),我们得到了D类N个(t吨),一个血统在时间上的概率t吨产生了现存的后代血统,而没有其他血统,以及E类(t吨)一个世系及其所有后代在今天之前灭绝的可能性:
使用这两个微分方程,可以按照文本中的描述遍历树,以获得观察现有数据的概率。
然而,在这种简单的情况下,可以导出沿单个分支计算概率的分析解。我们对此进行简要描述,以显示我们的方法与Nee等人(1994年b)因为特征依赖模型描述了当特征状态对物种灭绝率和物种形成率几乎没有影响时,似然函数的近似行为。解决方案E类(t吨)是:
由导出肯德尔(1948).E类(t吨)随着时间的推移而增加(增加t吨),如果λ<μ,则接近1,否则接近μ/λ。基本上,我们越往回走,整个世系及其后代灭绝的机会就越大。
上述解决方案适用于E类(t吨)可用于求解D类N个(t吨):
哪里t吨N个是节点的时间深度N个(请参见图1). 这些方程允许我们从节点跳下N个给它的祖先A类不使用近似数值积分。遍历节点A类,我们需要解释物种形成事件,正如我们在方程式(4)中所做的那样。可以重复上述遍历分支然后计算节点的过程,直到到达根。这样,我们得到了观察完整系统发育的概率:
哪里t吨,b条是底部的时间第个分支(向根),t吨,t吨是终点站的时间第个分支长度(最接近当前),n个是节点数(包括根节点),产品将接管树中的所有分支。

如果我们以具有两个幸存谱系的根节点的存在为条件(将(11a)除以λ(1−E类(t吨))2),然后经过一些代数运算,方程(11a)可以表示为等式(21)Nee等人(1994年b)除了一个因素(N个− 1)!, 这与参数无关。(N个− 1)! 因为Nee等人考虑了所有可能的树拓扑具有相同分支时间的概率(无论分支发生在哪里)(N个− 1)! 这样的树拓扑。因此,我们的方法生成的似然曲面与Nee等人(1994年b)当特征不影响物种形成和灭绝的速度,但如我们所示,可以更容易地扩展到包括更复杂的多样化过程。

附录2

平衡频率.-物种集合中状态0和状态1的预期频率应在进化时间内达到可从模型计算的平衡。在这里,我们考虑时间的流逝,T型,并跟踪状态0中的沿袭数,n个0以及状态1中的谱系数,n个1考虑到每个谱系都可能发生物种形成、灭绝或状态转换,每种类型物种的预期数量应遵循以下常微分方程:
从这些方程中,我们可以导出状态0下谱系频率的微分方程,x个=n个0/ (n个0+n个1),使用商规则:
哪里= λ0− μ0<情商19 > λ1+ μ1处于状态0的谱系的平衡频率,论坛,因此是二次方程的单根,论坛(1 −论坛) −论坛q个01+ (1 −论坛)q个10=0,介于0和1之间。什么时候?=0,此平衡发生在论坛=q个10/(q个01+q个10).
一段时间内物种的平均数量.-我们还可以显式求解方程(12),以确定从一个物种到另一个物种的时间推进过程中物种的平均数量T型当一个角色影响多元化过程时。在根处于状态0的情况下求平均值(概率论坛)状态1(概率为1–论坛),平均血统数量,论坛,时间T型按指数增长:
如果状态0中的血统比状态1中的血系物种形成更快或灭绝更快(即,如果>0),则预计以后会存在更多物种T型对于最初处于状态0的组。经过一些代数运算,平均谱系数,论坛,时间T型假设根状态为0,则可以写成:
假设根状态为1,则得到:
方程式(15年)和(15亿)两者都减少到论坛由方程式给出(14)当两个特征状态的净多样化率相同时(即。,为零)。

上述方程可求解为T型当特征状态影响多样性时,估计生成特定数量物种所需的时间。然而,应该强调的是,这些方程使用确定性模型(12)来近似多样化和特征状态变化的随机过程。因此,方程式(14)当特征状态影响物种形成和灭绝率时,只提供了进化过程的启发式指导。

托德·奥克利
托德·奥克利
搜索此作者的其他作品: