Roadblocked monotonic paths and the enumeration of coalescent histories for non-matching caterpillar gene trees and species trees

Zoe M. Himwich; Noah A. Rosenberg

doi:10.1016/j.aam.2019.101939

高级应用数学。作者手稿；于2021年2月1日在PMC上市。

以最终编辑形式发布为：

高级应用数学。2020年2月；113: 101939.

2019年10月31日在线发布。数字对象标识：2016年10月10日/j.aam.2019.101939

预防性维修识别码：项目管理委员会7450691

NIHMSID公司：美国国家卫生研究院1543747

PMID：32863514

非匹配毛虫基因树和物种树的阻塞单调路径和合并历史计数

佐伊·M·希姆维奇^*和诺亚·A·罗森博格^†

作者信息版权和许可信息 PMC免责声明

摘要

给定基因树拓扑和物种树拓扑，合并历史表示基因树合并列表可能映射到发生这些合并的物种树的关联分支。在分析基因树和物种树之间的关系时，合并历史的枚举性质一直是人们感兴趣的。最简单的枚举结果确定了匹配的毛虫基因树和具有不穿过正方形格子对角线的单调路径的物种树的合并历史之间的一个双射，建立了n个-分类单元匹配毛虫树(n个⩾2）是加泰罗尼亚数字 ${C类}_{n个 - 1} = \frac{1}{n个} (\begin{matrix} 2 n个 - 2 \\ n个 - 1 \end{matrix})$ 在这里，我们证明了类似的双射适用于不匹配的毛虫，将非匹配毛虫基因树和物种树的合并历史连接到一类路障单调路径。该结果为非匹配毛虫情况下合并历史的枚举提供了一种简化算法。它可以快速证明一个已知结果，即给定一个毛虫物种树，没有一个非匹配的毛虫基因树具有超过匹配基因树的合并历史。通过允许的阻塞单调路径和Dyck路径之间的双射，可以获得关于合并历史的其他结果。我们研究了与物种树不同的非匹配毛虫基因树的合并历史的数量，这些基因树通过最近邻交替和次树-树-树和再生移动来表征具有最大合并历史的非匹配毛虫。我们讨论了这些结果对基因树和物种树组合学研究的意义。

关键词：加泰罗尼亚数、合并历史、戴克路径、单调路径、最近邻相互转换、亚树-当前和再生

数学科目分类：05A15、05A19、05B35、92B10、92D15

1 介绍

在进化树的数学研究中，遗传谱系可以被视为沿着物种系统发育树的分支进化，该树表示一组物种之间的进化关系[4，12，13]. 一棵树描述了一组从共同祖先传下来的遗传谱系基因树而一棵与物种本身相关的树是物种树回顾过去，在从给定物种集合的代表性个体中采样的遗传谱系的基因树中，一对遗传谱系可以聚结或找到一个共同的祖先，只有在他们物种的共同祖先到达之后。更一般地说，一组由两个或多个遗传谱系组成的血统只有在达到其相关物种的最新共同祖先之后才有最新的共同祖先。

基因树和物种树之间关系的研究——通常被视为二元、根和叶标记树——产生了许多新的组合结构[三，5，6，12，20，21，25，27，28]. 其中包括合并历史，描述物种树上可能发生基因树聚合的位置的结构[6，16]. 更准确地说，对于（二进制、根、叶标记）基因树拓扑G公司和（二进制，根，叶标记）种树拓扑S公司在同一组分类群上，一个合并的历史（f）与中的每个聚结相关联G公司边缘S公司，从而满足两个属性：（i）种树边缘小时(u个)与基因树合并相关u个是所有血统的祖先u个; （ii）任何一对基因树合并u、 v（v）对于其中u个位于v（v）基因树的一片叶子，小时(u个)位于小时(v（v）)种树的叶子上。从生物学的角度来看，这对约束编码了以下规则：（i）基因谱系只能在物种树的一个分支中结合，在这个分支中，祖先可能共存；（ii）祖先的结合不比他们的后代晚。

罗森博格[16]提供了一个递归，枚举任意基因树和物种树拓扑的合并历史。对于基因树拓扑G公司和物种树拓扑S公司，因此分类单元集合S公司是的超集G公司但不一定是同一组，让T型(G公司，S公司)表示的最小显示子树S公司包含所有分类群的G公司，即的子树S公司根位于与分类群最新共同祖先对应的节点，该分类群具有与中的分类群相同的标签G公司.让d日(G公司，S公司)⩾0表示分隔根的边数T型(G公司，S公司)从…的根S公司.让G公司_我和G公司_R（右）表示的左子树和右子树G公司。我们定义了一个整数参数米⩾1，并为函数编写递归B_{G、 S，米}:

B_{G公司 ， S公司 ， 米} = \sum_{k个 = 1}^{米} B_{{G公司}_{我} ， T型 ({G公司}_{我} ， S公司) ， k个 + d日 ({G公司}_{我} ， S公司)} B_{{G公司}_{R（右）} ， T型 ({G公司}_{R（右）} ， S公司) ， k个 + d日 ({G公司}_{R（右）} ， S公司)} ，

(1)

基本情况通过设置B_{G、 S，米}全部为1米在这种情况下G公司只有一个分类单元。有了这些定义，基因树拓扑的合并历史数G公司和物种树拓扑S公司是B_{G、 S公司,1}.

卡特彼勒物种树，其中存在从所有其他内部节点派生而来的内部节点，代表了一种特殊情况，其中合并历史的枚举比任意物种树的一般情况更简单。因此，尽管对于某些附加形状，精确和渐近的结果是已知的[9，16，18]，对毛虫类树木及其形状的计数特性进行了最广泛的研究[2，6，10，16，17，19]. 首先，对于匹配的毛虫基因树和物种树-具有相同标记拓扑结构的毛虫遗传树和种树-Degnan[2]在不交叉于年=x个对角线，一个众所周知的由加泰罗尼亚数列描述的量[23，第24项]。等式1在这种情况下恢复加泰罗尼亚数字[16，推论3.5]，并可用于表明在小型“类毛虫科”中匹配基因树和物种树的合并历史数渐近于加泰罗尼亚数的常数倍[16，17]. 利用分析组合学技术，已经证明了任意大小的类毛虫族的这种渐近行为[10].

然而，在标记基因树和物种树拓扑结构不一致的情况下，对枚举结果的研究相对较少。比等. [26]进行了一项数值研究，发现非匹配基因树和物种树拓扑的合并历史数量通常随着树之间的子树-树-树和再生（SPR）距离的增加而减少。罗森博格和德南[19]证明了对于毛虫物种树拓扑n个⩾7分类群中，存在一个非匹配的基因树拓扑，与匹配的毛虫基因树拓扑相比，它具有更多的合并历史。然而，对于毛虫物种树拓扑，Degnan&Rhodes[三]结果表明，在合并历史的数量上，没有一个非匹配的毛虫基因树拓扑可以超过匹配的毛虫基因树拓扑；事实上，罗森博格和德南的建设性榜样[19]与匹配的毛虫相比，具有更多合并历史的非匹配基因树拓扑本身并不是毛虫。

这里，我们推广了Degnan的单调路径方法[2]到非匹配的毛虫基因树和物种树拓扑。我们表明，非匹配毛虫基因树和物种树拓扑的合并历史可以与一组路障不在年=x个正方形格子的对角线。该方法立即恢复了Degnan&Rhodes的结果[三]非匹配的毛虫基因树拓扑在合并历史的数量上不超过匹配的毛毛虫基因树拓扑。它能够计算毛虫基因树拓扑的合并历史数，这些拓扑通过常见转换（最近邻间变化和次树-树-树和再生）与物种树不同。我们描述了具有最大数量合并历史的非匹配毛虫基因树，发现在这种情况下合并历史的数量与匹配情况下的数量渐近相等。

2 前期工作

2.1、。毛毛虫树

我们考虑二叉、有根、带叶标签的树，这些树的叶标签是从标签集中双向抽取的X（X）包含n个不同的标签。为了方便起见，“树”指的是一棵有根的二叉叶标记树。树包含两种类型的节点，叶节点和非叶节点或内部节点。因为树是有根的，所以我们说节点v（v）₁一棵树G公司是下降的来自另一个节点v（v）₂如果距离v（v）₁到根节点包含v（v）₂。我们也这么说v（v）₂是祖传的到v（v）₁.Ancestor–后代关系也适用于边对以及包含顶点和边的对。节点或边是自身的平凡后代，也是自身的平凡祖先。根节点是一个内部节点。

我们专注于毛虫树，树中存在从所有其他内部节点派生的内部节点(图1A). 毛虫树只有一棵樱桃节点，正好有两个后代叶子的节点。在树叶中，毛虫树根的最长路径长度n个树叶是n个– 1.

保存图片、插图等的外部文件。对象名为nihms-1543747-f0001.jpg

在单独的窗口中打开

图1。

毛虫树的改造。（A）毛毛虫树G公司₁。的标签向量G公司₁，按规范顺序为(A类，B，C类，天，E类，F类，G公司，H（H），我，J型). 相邻的成对叶子是(A类，B), (A类，C类), (B，C类), (C类，天), (天，E类), (E类，F类), (F类，G公司), (G公司，H（H）), (H（H），我)、和(我，J型). （B）一棵树G公司₂不同于G公司₁通过最近的相邻变化。树叶E类和F类交换。（C）从中获得的树G公司₁通过叶片向前递增C类，天、和E类（D）从G公司₁通过叶片的反向增量C类，天、和E类。（C）中的树也可以被视为子树-树-树和再生操作的结果，树枝通向叶子E类修剪和再生；可以将（D）中的树视为涉及叶的SPR操作的结果，从而导致C类。在每个面板中，红线表示排列的叶子。

标签集可能存在的不同毛虫树的数量X（X）具有n个不同的标签是n个!/2：叶子与根部只有一条边分开n个可能的标签，叶子从根部开始的两个边缘n个–1个可能的标签，依此类推。在这个标签分配中，从樱桃节下来的叶子是可交换的。因此，这些叶子只能贴一个标签，总共n个(n个– 1)(n个– 2) ×⋯× 3 =n个!/2个标签。这些标签代表n个!/2履带标记的拓扑用于标签集X（X）.

为了方便起见，我们将标签组织在n个-叶毛虫树G公司向量中的规范克长度的n个。对于我= 3, 4,…,n个，条目我向量中是叶子的标签，通过n个–我+1条边。条目1和2是樱桃树叶的标签。标签的两个向量克和秒当且仅当以下两个条件之一成立时，才视为等效：（1）克_我=秒_我为所有人我，或（2）克₁=秒₂，克₂=秒₁、和克_我=秒_我对于每个我= 3, 4,…,n个.

毛虫树上的两片叶子被认为是相邻的如果它们正好被两条或三条边隔开(图1A). 等价地，当且仅当树标签序列中的叶子索引相差1时，或者当一个是条目1，另一个是条目的3时，叶子才是相邻的。

A类成分毛虫树是相邻叶子的子集，在定义中不包括仅由樱桃中的一对叶子组成的子集。从形式上讲，是标签的子集X′⊂X（X）是的组成部分G公司如果X′≠ {x个₁，x个₂}以及任何一对标签x个₁，x个₂∈X′，存在一系列不同的元素x个₁，x个_我₁，x个_我₂,…x个_{我_j个}，x个₂∈X′其中每个连续的元素对都将相邻的叶子标记为G公司.

可以方便地对n个-1至n个–1，从樱桃节到根部按递增顺序排列。这些节点是按祖先-后代关系排序的，因此内部节点的任何非空子集中值最小的节点都是从该子集的所有其他元素派生而来的。我们将此节点称为最小值子集的节点。考虑到一棵树具有其根节点的祖先内部边也是有用的；因此，用其直接祖先边标识每个内部节点，内部边的非空子集具有最小边。

2.2. 毛虫树对之间的关系

具有相同标签集的不同毛虫树的标签因叶标签向量的排列而不同。我们将有机会研究成对的毛虫树，它们的标签因特定类型的排列而不同：最近邻间变化和次树-树-树和再生[24].

考虑两种不同的毛虫树G公司和S公司，从同一组n个不同的标签。

定义1。 Caterpillar树G和S的区别在于最近邻间变化，或NNI公司移动，如果通过交换G中正好由三条边分隔的一对相邻叶子的标签，可以从G中获得S(图1B).

请注意，我们对相邻叶子的定义包括与标签相对应的叶子克₁和克₂这对叶子是唯一一对没有被NNI移动分开的相邻叶子。

定义2。 Caterpillar树G和S的区别在于次树-树-树和再生，或SPR公司移动，如果存在一对有序边(e（电子）₁，e（电子）₂)在G中，如果边e₁切割，边缘e（电子）₂ 通过放置新的二次顶点v将其细分为二，子树从e开始₁ 连接到顶点v，使得v现在具有三级并且是子树的祖先，然后得到树S(图1C，，第1天一维).

在SPR移动中，请注意边缘可能e（电子）₂成为根的边缘祖先G公司.

定义3。 Caterpillar树G和S的区别在于循环置换如果存在G的分量G′和S的分量S′，使得S′的标号表示G′标号的循环置换.

根据组件的定义，此定义不包括同时涉及由最少的边与根分隔的叶和由最多的边与根部分隔的叶的排列，除非涉及所有叶。

定义4。 卡特彼勒树G和S相差增量如果它们不同于循环置换，并且在G和S的规范标记向量中最多有一个标记的位置相差不止一个.

S公司可以不同于G公司由向前地或a颠倒循环或增量(图1C，，1D）。一维). 如果S公司不同于G公司通过向前递增或循环，然后G公司不同于S公司通过反向递增或循环，反之亦然。注意，交换两个叶子的每个循环置换同时是向前递增、反向递增和NNI移动。

我们可以立即观察到一对毛虫树G公司和S公司当且仅当它们也因叶标签的增量而不同时，SPR移动才会不同。将毛虫转化为毛虫的SPR动作必然会修剪和再生一片叶子。如果从G公司并重新起草至S公司然后根据修剪的叶片和再生的位置，S公司可以不同于G公司通过正向或反向递增。因此，在履带树因SPR移动而不同的情况下，合并历史的枚举是通过向前或反向递增的相关情况下的枚举来执行的。

2.3. 聚合历史

我们研究毛虫的合并历史基因树G和一只毛毛虫物种树S，被视为二叉、有根、有叶标记的毛虫树，每棵都有n个由从同一集合中抽象绘制的标签标记的叶子X（X）。此设置对应于G公司代表通过在每个n个物种树中的物种S公司.基因树G公司和物种树S公司据说是匹配如果G公司和S公司具有相同的标记拓扑，它们被称为不匹配的否则。

从形式上讲，合并历史可以定义如下[19].

定义5。考虑一对有序的二叉、根、叶标签树（G，S），其标签是从同一标签集X中双向抽取的。合并历史是从G的内部节点集到S的内部边集的函数h，它满足两个条件：

对于G的每个内部节点v，G标记叶的所有叶标记都是从S的边缘h（v）下降的。
对于所有内部节点对v₁，v₂在G中，如果节点v₂从节点v下降₁以G为单位，然后是边缘h（v₂)从边缘h（v）下降₁)以S为单位。

图示出现在图2忆及我们认为S公司包含其根的祖先边缘；此边缘可以是的内部节点的图像G公司在合并历史映射下。注意，在定义5的第2部分中，由于边缘是从自身平凡下降的，因此允许小时(v（v）₂)等于小时(v（v）₁).

保存图片、插图等的外部文件。对象名为nihms-1543747-f0002.jpg

在单独的窗口中打开

图2。

共同的历史。（A）基因树G公司和物种树S公司使用相同的标签集。基因树以蓝色显示，物种树以黑色显示。（B）（A）中描述的合并历史(G公司，S公司). 箭头连接的内部节点G公司到其关联边S公司.

我们将有机会使用部分合并历史的概念。

定义6。 考虑一对有序的二叉根叶标记树(G、 S公司)其标签是从同一标签集X中绘制的，不一定是主观的。A类部分合并历史是从G的内部节点集到S的内部边集的函数h，满足定义5中的两个条件.

我们说如果G公司是空的，那么(G公司，S公司)有一段部分合并的历史。对于非空G公司，因为中的标签G公司不一定与S公司，对于某些节点v（v）在里面G公司，S公司没有可以用作中节点图像的边缘G公司在这种情况下，这对(G公司，S公司)没有部分合并历史。当将定义5中的合并历史的纯图形定义与合并历史出现的生物学背景联系起来时，我们说内部节点v（v）属于G公司是一个基因树聚结; 据说聚结发生在边缘小时(v（v）)第页，共页S公司.

2.4。加泰罗尼亚数和单调路径

我们回顾了一些关于加泰罗尼亚数的结果，以及它们在计算方格边上的路径时的使用。这个加泰罗尼亚层序{C类_n个}_n个⩾0满足

{C类}_{n个} = \frac{1}{n个 + 1} (\begin{matrix} 2 n个 \\ n个 \end{matrix}) ，

开始于n个=0，值为1、1、2、5、14、42、132、429、1430、4862…

加泰罗尼亚数字可以放在组合结构中，称为加泰罗尼亚三角[14]，其中我们显示了前六列：

\begin{matrix} 42 \\ 14 & 42 \\ 5 & 14 & 28 \\ 2 & 5 & 9 & 14 \\ 1 & 2 & 三 & 4 & 5 \\ 1 & 1 & 1 & 1 & 1 & 1 \end{matrix}

在这个三角形中，左下角的首字母1表示为天(0, 0). 表示其他条目天(n个，k个)，带有n个作为与左下角的水平距离k个作为与此条目的垂直距离。

对于n、 k带0⩽k个⩽n个，条目(n个，k个)满足递归关系

天 (n个 ， k个) = 天 (n个 ， k个 - 1) + 天 (n个 - 1 ， k个) ，

(2)

具有初始条件天(0, 0) = 1. 通用公式天(n个，k个)是

天 (n个 ， k个) = {\begin{matrix} 1 & k个 = 0 \\ (\begin{matrix} n个 + k个 \\ k个 \end{matrix}) - (\begin{matrix} n个 + k个 \\ k个 - 1 \end{matrix}) & 1 ⩽ k个 ⩽ n个 \\ 0 & k个 > n个 . \end{matrix}

（3）

特别是，对于k个=n个，我们有天(n个，n个) =C类_n个.

条目天(n个，k个)计算第一象限中晶格上单调路径的数量(n个，k个)不与直线相交的平面（包括坐标轴）k个=n个，其中单调路径是从（0，0）到的路径(n个，k个)它在晶格上向上和向右逐级前进。

我们还将利用加泰罗尼亚三角的延伸加泰罗尼亚语m级梯形，其中包含的初始列为米条目等于1，而不是单个条目[14]. 条目天_米(n个，k个)加泰罗尼亚的梯形满足了等式2:

天_{米} (n个 ， k个) = 天_{米} (n个 ， k个 - 1) + 天_{米} (n个 - 1 ， k个) .

(4)

我们有天₁(n个，k个) =天(n个，k个). 加泰罗尼亚梯形的前五列第3级如下：

\begin{matrix} 90 \\ 28 & 90 \\ 9 & 28 & 62 \\ 三 & 9 & 19 & 34 \\ 1 & 三 & 6 & 10 & 15 \\ 1 & 2 & 三 & 4 & 5 \\ 1 & 1 & 1 & 1 & 1 \end{matrix}

梯形图中的条目可以用闭合形式计算为

天_{米} (n个 ， k个) = {\begin{matrix} (\begin{matrix} n个 + k个 \\ k个 \end{matrix}) & 0 ⩽ k个 < 米 \\ (\begin{matrix} n个 + k个 \\ k个 \end{matrix}) - (\begin{matrix} n个 + k个 \\ k个 - 米 \end{matrix}) & 米 ⩽ k个 ⩽ n个 + 米 - 1 \\ 0 & k个 > n个 + 米 - 1 . \end{matrix}

（5）

条目天_米(n个，k个)在加泰罗尼亚语的梯形中米计算网格的第一象限中的单调路径的数量(n个，k个)不与直线相交的平面（包括坐标轴）k个=n个+米– 1.

三。合并历史和阻塞单调路径的双射

3.1. 匹配基因树和物种树

德南[2]证明了匹配毛虫基因树的合并历史数G公司和物种树S公司具有n个labels是加泰罗尼亚数字C类_n个–1，证明了合并历史和不跨越年=x个正方形格子的对角线。我们将讨论这个众所周知的对应关系，因为双射方法对于非匹配情况很有用。

引理7。 匹配的n叶毛虫基因树G和种树S的合并历史可以与不穿过y=x对角线的单调路径双向关联(n个– 1) × (n个– 1)晶格.

证明。标记的内部节点G公司从1到n个–1，使用1表示距离樱桃最近的内部节点n个–1表示根。对于的每个内部节点G公司，标识节点的标签，使其边缘直接指向该节点。同样，顺序标记的内部节点S公司从1到n个–1，从樱桃开始到根部，用其直接的祖先边缘识别每个节点的标签。

对于每个j个带1⩽j个⩽n个–1，表示为G公司_j个以节点为根的基因树的子树j个，对于每个我与1⩽我⩽n个–1，表示为S公司_我以节点为根的物种树的子树我。我们还定义G公司₀和S公司₀分别为基因树和物种树的空子树。表示方式A类_{i、 j个}的部分合并历史集(G公司_j个，S公司_我). 用于匹配G公司和S公司，每个j个带0⩽j个⩽n个– 1,G公司_j个=S公司_j个因此，通过定义每个内部节点的合并历史j个第1页，共1页G公司，图像小时(j个)在融合的历史中小时第页，共页(G公司，S公司)必须是祖先S公司所有树叶S公司按中的标签标记G公司_j个.的边缘S公司具有此属性的边j个，j个+ 1,…,n个– 1. 对于j个⩾1，我们有j个⩽小时(j个) ⩽n个–1和A类_{i、 j个}=全部为0(我，j个)带有我<j个.

中的每个部分合并历史A类_{i、 j个}以两种方式之一形成。基因树节点j个⩾1映射到物种树内部边缘我，或到其中一条边1、2、…、，…，我– 1. 前一种情况会产生A类_{i、 j个–1}部分合并历史，每个都是通过附加基因树节点的合并而获得的j个部分合并历史(G公司_j个–1，S公司_我). 后一种情况会产生A类_我–1,j个部分合并历史；因为在这种部分合并历史中，物种树边缘没有发生基因树合并我，每个这样的部分合并历史(G公司_j个，S公司_我)是的部分合并历史(G公司_j个，S公司_我–1). 因此，我们有

∣ {A类}_{我 ， j个} ∣ = ∣ {A类}_{我 ， j个 - 1} ∣ + ∣ {A类}_{我 - 1 ， j个} ∣ ，

（6）

带有约束A类_{i、 j个}对于j个⩾1和我<j个。对于j个=0和0⩽我⩽n个–1，我们有A类_我,0=1，根据惯例(G公司，S公司)有一个空的部分合并历史G公司。我们设置了A类_{i、 j个}=全部为0(我，j个)不满足0⩽的i、 j个⩽n个– 1.

递归6及其基本情况，具有我担任n个和j个担任k个，正是等式2.设置我=j个=n个– 1,等式2给出了枚举不穿过年=x个对角线(n个– 1) × (n个–1）方形格子，一组C类_n个–1元素。在合并历史和单调路径之间的双射中，格中向右的每一步都递增我，对应于将物种树的另一个边缘合并为基因树合并的可能位置，并且每一步都会递增j个对应于基因树合并的发生。■

我们可以读到(G公司，S公司)从其相关的单调路径(图3). 例如，在10叶树中，经过（0,0）、（3,0），（3,2）、（6,2），（6,3），（7,3）、（7,7）、（9,7）和（9,9）的单调路径在上述物种树的边缘1上没有基因树合并(A类，B)或在上面的边缘2上((A类，B),C类). 基因树合并(A类，B)和((A类，B),C类)出现在物种树节点上方的边缘3上(((A类，B),C类),天). 边缘4或5上没有发生基因树合并。基因树合并(((A类，B),C类),天)出现在边6上。四个基因树合并发生在物种树节点上方的边缘7上(((((((A类，B),C类),天),E类),F类),G公司),H（H）). 剩下的两个基因树合并发生在物种树根上方的边缘9上。

保存图片、插图等的外部文件。对象名为nihms-1543747-f0003.jpg

在单独的窗口中打开

图3。

不在年=x个对角线(n个–1）×(n个–1）匹配毛虫基因树和物种树的方形格子和合并历史n个=10片叶子。左下角表示原点（0，0）。从（0，0）到的单调路径(我，j个)表示部分合并历史A类_我，j个的(G公司_j个，S公司_我). 值A类_我，j个取自等式2，使用(我，j个)代替(n个，k个). 从左到右读取物种树内部边缘：AB公司标记物种树的内边缘，从中A类和B下降，并且每个连续的标签都指示对应于关联标签的叶子和包含所有先前标签的毛虫子树的内部边缘祖先。基因树内部节点以相同的方式从下至上读取。红色所示的单调路径表示特定聚合历史的基因树聚合在物种树上的位置：聚合(A类，B)和((A类，B),C类)出现在物种树节点上方(((A类，B),C类),天)，聚结(((A类，B),C类),天)出现在物种树节点上方((((((A类，B),C类),天),E类),F类),G公司)，合并((((A类，B),C类),天),E类), (((((A类，B),C类),天),E类),F类), ((((((A类，B),C类),天),E类),F类),G公司)、和(((((((A类，B),C类),天),E类),F类),G公司),H（H）)出现在物种树节点上方(((((((A类，B),C类),天),E类),F类),G公司),H（H）)和聚合((((((((A类，B),C类),天),E类),F类),G公司),H（H）),我)和(((((((((A类，B),C类),天),E类),F类),G公司),H（H）),我),J型)发生在树种树根上方。

合并历史和单调路径之间的双射生成了一组的值A类_{i、 j个}考虑了每一个我和j个带0⩽i、 j个⩽n个–1和我⩾j个。这些值可以在格子中描述，因此值A类_{i、 j个}与点阵点的坐标有关(我，j个) (图3). 事实上，它们与加泰罗尼亚三角的条目完全对应(等式3)，带有我担任n个和j个担任k个.

该结构利用了基因树和物种树的毛虫形状。因为卡特彼勒树的内部节点可以按顺序放置，每个条目从下一个开始下降，直到到达根，所以简单地说明下一个叶子标签就足以指定从下一个内部节点下降的叶子。在中从左向右移动图3表示从物种树的樱桃向根部移动，从下到上的移动表示基因树中的聚合。

3.2. 非匹配基因树和物种树

我们的关键见解是，德南建筑的一个版本[2]即使基因树和物种树不匹配，也可以将合并历史和单调路径联系起来，前提是两者都是毛虫。非匹配毛虫的聚集历史可以与路障不在年=x个对角线(n个–1）×(n个–1）方形格子。

定义8。 在格子中路障单调路径是一条不允许通过特定晶格点的单调路径。我们称这些格点为路障。

考虑一个毛虫基因树G公司还有一棵毛虫物种树S公司，它们的叶子都与同一组n个叶子，但那不一定匹配。如中所示第3.1节，我们将x轴上的点关联(n个– 1) × (n个–1）具有种树内部边缘的晶格S公司，并且我们将y轴上的点与中的基因树内部节点相关联G公司。我们继续标记的内部节点G公司和S公司按从1到的递增顺序n个–1，从樱桃到根，通过以下方式索引基因树内部节点j个物种树内部节点由我.

在匹配的情况下，对于每个j个从1到n个–1，每个合并历史必须具有小时(j个) ⩾j个，作为基因树内部节点j个必须映射到一个种树的内部边缘，该种树的祖先叶数至少与从节点下降的叶数相同j个在里面G公司因此(G公司，S公司)对应于具有j个⩽我因此不会穿过年=x个格子的对角线。然而，另一个约束是由以下事实强加的：G公司和S公司不一定匹配。

鉴于G公司和S公司，让π(G公司)表示基因树叶子标签的排列克= (克₁，克₂,…,克_n个)由树种树叶标签表示秒= (秒₁，秒₂,…,秒_n个). 的操作π从一个n个-元组到另一个元组，我们在中表示索引S公司属于克_k个，的k个第个标签，共个G公司，由π_k个(G公司).

对于叶子标签克₁，克₂,…,克_n个在里面G公司，让（f）(克_k个)表示的最小内边缘S公司叶的祖先秒_{π_k个(G公司)}，带标签的树种树叶克_k个.对于匹配的基因树和物种树(G公司，S公司),π是身份置换，因此π_k个(G公司) =k个; 然后我们有（f）(克₁) =（f）(克₂)=1，以及（f）(克_k个) =k个–1代表3⩽k个⩽n个.

对于一般情况(G公司，S公司)根据定义5，（i）如果k个=1或k个=2，则（f）(克_k个)=最大值_ℓ∈{1,2} π_ℓ(G公司)–1和（ii）如果3⩽k个⩽n个，然后（f）(克_k个) =最大值_{ℓ∈{1, 2,…,k个}} π_ℓ(G公司) – 1. 这个规则编码了这样一个事实，即基因树合并只能发生在所有物种树叶子的祖先种树边缘上，这些叶子由基因树合并生成的叶子的标签集元素标记。

考虑部分合并历史A类_{i、 j个}具有我⩾j个.如中所示第3.1节，用于j个⩾ 1, ∣A类_{i、 j个}=全部为0(i、 j个)带有我<j个.对于每个j个从1到n个–1，最小内边缘S公司它是所有叶子的祖先G公司从基因树内部节点下降j个是（f）(克_j个+1). 因此，对于j个⩾1，我们有A类_{i、 j个}=全部为0(我，j个)带有我<（f）(克_j个+1). 请注意，这些(我，j个)唯一的障碍是：j个⩾ 1,（f）(克_j个+1) ⩾j个，作为（f）(克_j个+1)比最大值少一j个+｛1，2，…的1个不同元素，…，n个–1}，一个大于或等于j个。对于j个⩾1，因为A类_{i、 j个}所有点阵点的=0(我，j个)带有我<（f）(克_j个+1)，所有这些都是障碍。

我们还注意到，对于1⩽j个⩽j个′ ⩽n个– 1,（f）(克_j′+1) ⩾（f）(克_j个+1). 内部节点的后代叶集j′+第1页，共页G公司包含内部节点的子代叶作为子集j个+第1页，共页G公司因此S公司标记叶子的所有标签的祖先都是内部节点的后代j′+第1页，共页G公司索引至少与相应的内部边缘一样大S公司与内部节点关联j个+第1页，共页G公司。因此，如果(我，j个)是一个路障，因为我<（f）(克_j个+1)和（f）(克_j个′+1) ⩾（f）(克_j个+1)对于j′⩾j个，我们可以得出结论(我，j′)是每个人的障碍j′具有j个⩽j′⩽我.

如中所示第3.1节中的每个部分合并历史A类_{i、 j个}以两种方式之一形成。对于j个⩾1，基因树节点j个映射到物种树内部边缘我，或到其中一条边1、2、…、，…，我– 1. 前一种情况产生A类_{i、 j个–1}部分聚结历史，而后者产生A类_我–1,j个∣. 因此，递归A类_{i、 j个}∣ = ∣A类_{i、 j个–1}∣ + ∣A类_我–1,j个仍然满意。我们仍然有一些限制A类_{i、 j个}对于j个⩾1和我<j个, ∣A类_我,0=1，用于j个=0和0⩽我⩽n个–1和A类_{i、 j个}=全部为0(我，j个)不满足0⩽的i、 j个⩽n个– 1. 我们还有一个新的约束A类_{i、 j个}=全部为0(我，j个)让人满意的我<（f）(克_j个+1).

为(G公司，S公司)由定义B_{G、 S公司}= {(我，j个) ∣ 1 ⩽j个⩽我⩽n个–1和我<（f）(克_j个+1)}. 因此，我们证明了以下命题。

提案9。 考虑一棵毛虫基因树G和一棵有n片叶子的毛虫物种树S. (G、 S公司)可以与一组路障B关联_{G、 S公司}这样(G、 S公司)双向对应于不穿过y=x对角线的道路阻塞单调路径(n个– 1) × (n个– 1)晶格.

根据定义B_{G、秒}，我们立即发现如果(i、 j个)是1⩽的路障j个⩽我⩽n个–1，然后(k、 j个)也是每个人的障碍k个具有j个⩽k个⩽我。我们还可以看到，如果(我，j个)是1⩽的路障j个⩽我⩽n个–1，然后(我，ℓ)也是每个人的障碍ℓ具有j个⩽ℓ⩽n个– 1; 这一结果源于以下事实（f）(克_j个′+1) ⩾（f）(克_j个+1)用于1⩽j个⩽j′⩽n个– 1. 我们有以下评论。

备注10。 考虑一个毛虫基因树G和一个有n片叶子的毛虫物种树S。设置的路障B_{G、 S公司}由一组点组成(i、 j个)具有1 ⩽j个⩽我⩽n个– 1如果(i、 j个) ∈B_{G、 S公司}，然后（i）(k、 j个) ∈B_{G、 S公司}对于所有带j的k⩽k个⩽i、和（ii）(我，ℓ) ∈B_{G、 S公司}为所有人ℓ 带j⩽ℓ⩽我.

图4说明了合并历史和阻塞单调路径之间的对应关系。在图4，我们有(（f）(克₁),（f）(克₂),（f）(克_三),（f）(克₄),（f）(克₅),（f）(克₆),（f）(克₇),（f）(克₈),（f）(克₉)) = (5, 5, 5, 5, 6, 8, 8, 9, 9). 因为（f）(克₁₊₁)=5，（4，1）是一个路障，（3，1）、（2，1）和（1，1）也是如此，原因相同((我，j个)是一个路障，如果j个⩽我<（f）(克_j个+1)). 因为（f）(克₂₊₁)=5，（4，2）也是一个障碍，正如（3，2）和（2，2）一样。我们还可以通过备注10将（4，2）、（3，2）和（2，2）识别为路障，因为（4，1）、（3,1）和（2,1）都是路障。继续完成所有(我，j个)，我们在图4.

保存图片、插图等的外部文件。对象名为nihms-1543747-f0004.jpg

在单独的窗口中打开

图4。

不在年=x个对角线(n个– 1) × (n个–1）非匹配毛虫基因树和物种树的方形格子和合并历史n个=10片叶子。路障用格子点上的圆圈表示；没有道路堵塞的单调路径穿过阴影区域。否则，图形设计如下图3.

从命题9中，我们立即得到(G公司，S公司)由不超过年=x个对角线(n个– 1) × (n个–1）格子，其中障碍是集合中的障碍B_{G、 S公司}.我们还获得了以下推论的简单证明，即Degnan&Rhodes的备注15[三].

推论11。 考虑一个毛虫基因树G和一个有n片叶子的毛虫物种树S。的合并历史数(G、 S公司)G=S严格大于每个G选项≠S公司.

证明根据命题9(G公司，S公司)对应于不穿过年=x个对角线(n个– 1) × (n个–1）格子。

对于G公司=S，应用引理7，合并历史的数量是不穿过年=x个对角线的。向晶格添加路障必然会将单调路径的数量从（0，0）减少到(n个– 1,n个–1），因为每个晶格点至少有一条单调的路径通过它。因为(G公司，S公司)等于格上被阻塞的单调路径的数量，这足以证明对于G公司≠S公司，至少有一个格点是一个障碍。

因为G公司≠S公司，存在一些内部节点j个属于G公司至少一个其子代叶的标签不包含在从内部节点派生的叶的标签集中j个属于S公司.这片叶子有j个<（f）(克_j个+1). 因此(j个，j个)是一个路障，并且(G公司，S公司)与更少的单调路径相关(S公司，S公司). ■

3.3. 路障设置

给定毛虫物种树S公司，备注10建议考虑所有毛虫基因树，对可能的障碍集进行特征描述G公司。每个路障集都有一个属性，即在一行中，所有路障都指向路障的左侧以及路障上方或下方年=x个对角线也是障碍。在一列中，路障上方和路障上方或下方的所有点年=x个对角线是路障。

提案12。 考虑一棵有n片叶子的毛虫物种树S。对于每个有n片叶子的毛虫基因树G，用B表示其相关路障_{G、 S公司}.考虑所有n!/2可能的毛虫基因树，不同的路障集与C_n个–1 上的单调路径(n个– 1) × (n个– 1)不穿过y=x对角线的晶格.

证明考虑设置路障B_{G、 S公司}.对于每个我从1到n个–2，我们确定最大的j个这样的话(我，j个)不是一个障碍。调用此值j个_我。唯一的单调路径连接（0，0），（1，j个₁), (2,j个₂),…, (n个– 2,j个_n个–2), (n个– 1,n个–1）：通过备注10，针对每个我和每个j个>j个_我, (我，j个)要么是路障，要么就在年=x个行。因此，表示j个₀=0和j个_n个–1=n个–1个，每个我从1到n个–1，单调路径(我– 1,j个_我–1)至(我，j个_我)必须按长度1水平前进，然后按长度垂直前进j个_我–j个_i–1个.

为了证明这种结构是内射的，请注意不同的单调路径与不同的路障集相关联：考虑一个点(我，j个_我)出现在一条单调的路径中P（P）₁但不是在另一个，P（P）₂.因为j个_我是的最大值j个这不是道路的障碍P（P）₁, (我，j个_我)一定是个路障P（P）₂.对于满射性，考虑一条从（0，0）到的单调路径(n个– 1,n个–1）不跨越年=x个行。对于每个(我，j个_我)在路径中，1⩽我⩽n个–2，其中j个_我是的最大值j个对于这一点(我，j个)在路径中，我们分配每个点(我，ℓ)带有j个_我<ℓ⩽我成为一个路障。■

图5提供了命题12的说明，显示了与路障集相关联的单调路径是如何构造的，反之亦然。与路障集相关联的单调路径可视为尽可能靠近路障的单调路径。单调路径的路障集是路径上方和左侧的点集。

保存图片、插图等的外部文件。对象名为nihms-1543747-f0005.jpg

在单独的窗口中打开

图5。

路障集之间的对应关系，不在年=x个对角线(n个– 1) × (n个–1）方形格子和半长Dyck路径n个– 1. 给定一个路障集，通过识别每个路障来构造相关的单调路径x个坐标从0到n个–1最大晶格点年然后通过这些点构造唯一的单调路径。类似地，给定一条单调路径，它的路障集是通过在路径左侧和上方的每个格子点放置路障来获得的。（A）横穿线路对称设置路障年=n个–1–x个.（B）全线不对称设置的路障年=n个– 1 –x个（C）路线上的路障设置不对称年=n个– 1 –x个，通过在该线上反射（B）中的路障获得。（D）与（A）中设置的路障相关的对称Dyck路径。（E）与（B）中设置的路障相关的非对称Dyck路径。（F）与（C）中设置的路障相关的非对称Dyck路径，通过反转（E）中的Dyck轨迹获得。（B）和（C）中设置的路障均生成235条从（0，0）到（9，9）的单调路径。

不同毛虫树的数量为n个!/2，而不同路障设置的数量较小C类_n个–1。对于给定的毛虫物种树，我们可以将n个!/将两个毛虫基因树划分为等价类，其中两个基因树被称为历史等效当且仅当它们与同一路障集关联时。两种历史上等价的毛虫树G公司₁和G公司₂具有相同的路障集和相同的单调路径集，因此，具有相同的合并历史集，直至叶标签的排列。这些等价类被称为历史类作者：Rosenberg&Tao[20]，所以两条路障相同的毛毛虫在同一个历史类中。

根据命题12，对于固定物种树，考虑所有毛虫树的历史类数为C类_n个–1; 该结果与5个历史类的计算结果一致n个= 4 [15，表V]和14n个= 5 [20，表3]。我们在结论11中也看到C类_n个–1是一对毛虫树的合并历史的最大可能数量。现在，我们询问1、2、…、，…，C类_n个–1可以是某些毛虫基因树和物种树的合并历史数。

这个量的最简单上界是C类_n个–1为了改进这个界限，可以方便地在不跨越年=x个对角线(n个– 1) × (n个–1）格子和半长n的Dyck路–1[22，推论6.3.2]。每个单调路径表示由（1，0）或（0，1）从（0，0）到(n个– 1,n个–1），带x个⩾年在每个步骤中。每个Dyck路径表示由（1，1）或（1，−1）从（0，0）到（n–1，0）的一系列步骤，其中年每个步骤为0。的合并历史(G公司，S公司)因此，可以与Dyck路径相关联，其中每个向上步骤表示物种树中物种的添加，每个向下步骤表示基因树的合并。

一条半长的Dyck小路n个–1有2n个–总共2个上下步。Dyck路径的步骤可以写为序列单位表示向上的步骤和天表示向下的步骤。Dyck路径可以是颠倒的按照以下方式：我们采用单位和天步骤，颠倒步骤的顺序，并交换单位和天步骤。因此，一条路径UUUDUDD（UUUD）成为UUDUUDUDD。反转Dyck路径对应于以相反的顺序遍历路径。反向戴克路径本身就是戴克路径；如果单位和天Dyck路径中的步骤颠倒，然后年⩽每一步0；交换单位和天台阶反映了年=0轴。

引理13。 考虑一棵有n片叶子的毛虫物种树S。考虑基因树G₁ 和G₂ n片叶子(i、 j个)在路障B组_{G公司₁，S公司} 当且仅当(n个– 1 –j、 n个– 1 –我)在路障组B中_{G公司₂，S公司}.然后(G公司₁，S公司)和(G公司₂，S公司)具有相同数量的合并历史记录.

证明。我们证明了(G公司₁，S公司)可以客观地与(G公司₂，S公司). 考虑以下合并历史(G公司₁，S公司). 确定其相关的单调路径M（M）₁根据命题9，确定Dyck路径P（P）₁与这个单调的路径相关。反向P（P）₁以获得 ${P（P）}_{1}^{'}$ ，并识别单调路径 ${M（M）}_{1}^{'}$ 与关联 ${P（P）}_{1}^{'}$ .

因为M（M）₁避开每个障碍(我，j个)英寸B_{G公司₁，S公司}，之后我+j个步骤，P（P）₁不可能已经采取我上步和j个向下走。因为 ${P（P）}_{1}^{'}$ 与…相反P（P）₁，在2之后n个– 2 –我–j个步骤， ${P（P）}_{1}^{'}$ 不可能已经采取n个– 1 –j个上步和n个– 1 –我向下走。单调的路径 ${M（M）}_{1}^{'}$ 因此避免了这一点(n个– 1 –j个，n个– 1 –我)每个路障(我，j个)英寸B_{G公司₁，S公司}因此， ${M（M）}_{1}^{'}$ 避开每一个路障B_{G公司₂，S公司}因此，它代表了G公司₂。同样，从(G公司₂，S公司)与关联 ${M（M）}_{1}^{'}$ ，我们发现M（M）₁表示的合并历史B_{G公司₁，S公司}. ■

引理表明，对于两个路障集，如果可以通过变换每个路障来获得它们的路障(i、 j个)一个人变成了路障(n个– 1 –j、 n个– 1 –我)在另一种情况下，关联的毛虫基因树具有相同数量的合并历史。

考虑一组点B在或低于年=x个第一象限的对角线(n个– 1) × (n个–1）格子（而不是直线年=0或x个=n个–1）如果(我，j个) ∈B，然后(k个，j个) ∈B为所有人k个具有j个⩽k个⩽我和(我，ℓ) ∈B为所有人ℓ具有j个⩽ℓ⩽我根据提议12，给定毛虫物种树，B是一些毛虫基因树设置的路障。我们称这种集合为适合毛虫的设置路障。

定义14。 考虑为(n个– 1) × (n个– 1)格子。我们说B是对称的，如果(i、 j个) ∈B中，(n个– 1 –j、 n个– 1 –我)也在B中。否则，B为不对称。

在对称的毛虫友好路障集中，路障集中的点在直线上反射时年=n个– 1 –x个，获得相同的路障集(图5A). 对于非对称的履带式路障集，通过此反射可以获得不同的路障集(图5B和和5C5摄氏度).

对于(n个– 1) × (n个–1）格，表示为问_n个–1和R（右）_n个–1对称和非对称履带友好路障集的数量。通过引理13，非对称毛虫友好路障集可以划分为不相交的对，使得一对中两个条目的相关毛虫基因树产生相同数量的合并历史。因此，考虑到所有毛虫基因树和物种树，合并历史数可能的不同值的数量上限为问_n个–1+R（右）_n个–1/2，或者因为问_n个–1+R（右）_n个–1=C类_n个–1，由(C类_n个–1+问_n个–1)/2.

我们获得问_n个–1通过计算设置路障的所有方法(我，j个)带有我+j个⩽n个– 1. 然后通过对称性分配点(n个– 1 –j、 n个–1–我)也会成为障碍。由于路障集和单调路径之间的双向投影（命题12），每个路障集(我，j个)带有我+j个⩽n个–1与从（0，0）到点的单调路径双向关联(我，n个– 1 –我)对一些人来说我带0⩽我⩽n个– 1.

引理15。 Q的值_n个–1 是 $(\begin{matrix} n个 - 1 \\ ⌊ (n个 - 1) ∕ 2 ⌋ \end{matrix})$ .

证明.使用等式3，从（0，0）到的单调路径数(我，n个– 1 –我)对一些人来说我带0⩽我⩽n个–1由总和获得

\sum_{j个 = 0}^{⌊ (n个 - 1) ∕ 2 ⌋} (\begin{matrix} n个 - 1 \\ j个 \end{matrix}) - \sum_{j个 = 1}^{⌊ (n个 - 1) ∕ 2 ⌋} (\begin{matrix} n个 - 1 \\ j个 - 1 \end{matrix}) .

第一笔金额为 $2^{n个 - 2} + \frac{1}{2} (\begin{matrix} n个 - 1 \\ (n个 - 1) ∕ 2 \end{matrix})$ 对于奇数n个、和2^n个–2即使如此n个.第二个总数为 $2^{n个 - 2} - \frac{1}{2} (\begin{matrix} n个 - 1 \\ (n个 - 1) ∕ 2 \end{matrix})$ 对于奇数n个、和 $2^{n个 - 2} - (\begin{matrix} n个 - 1 \\ ⌊ (n个 - 1) ∕ 2 ⌋ \end{matrix})$ 即使如此n个结合这些案例，结果如下。■

这一结果出现在博宁等. [1，定理2.5]作为Dyck路径的不同前半部分的数量，并且在Deng中等. [7，定理4.2]作为反向下不变的Dyck路径数。

第16号提案。 可以等于至少一对合并历史数的值集的大小(G、 S公司)由一个n叶毛虫基因树G和一个n叶毛虫物种树S组成，其上边界为T_n个–1= (C类_n个–1+问_n个–1)/2，或

\frac{1}{2} [\frac{(\begin{matrix} 2 n个 - 2 \\ n个 - 1 \end{matrix})}{n个} + (\begin{matrix} n个 - 1 \\ ⌊ (n个 - 1) ∕ 2 ⌋ \end{matrix})] .

这一数量出现在博宁的一个相互关联的上下文中等[1，定理4.2]给出了反向之前的不同Dyck路径数。引理15和命题16中公式的数值如所示表1.

表1。

毛虫基因树和毛虫物种树的合并历史的数量可能的不同值的数量。

数量叶子n个	编号不同的路障套	道路数量块集关联用密封圈密封 ric Dyck路径	道路数量块集关联患有阿司匹林公制Dyck路径	上的上限不同的数量数字的值合并历史	数据的确切数量的tinct值聚结数历史
符号	C类_n个–1	问_n个–1	P（P）_n个–1	T型_n个–1
公式	$\frac{(\begin{matrix} 2 n个 - 2 \\ n个 - 1 \end{matrix})}{n个}$	$(\begin{matrix} n个 - 1 \\ ⌊ (n个 - 1) ∕ 2 ⌋ \end{matrix})$	C类_n个–1–问_n个–1	(C类_n个–1+问_n个–1)/2
OEIS记录	A000108号	A001405号	A306292型	A007123号
2	1	1	0	1	1
三	2	2	0	2	2
4	5	三	2	4	4
5	14	6	8	10	10
6	42	10	32	26	21
7	132	20	112	76	56
8	429	35	394	232	154
9	1430	70	1360	750	440
10	4862	126	4736	2494	1373
11	16796	252	16544	8524	4310
12	58786	462	58324	29624	13925

在单独的窗口中打开

该表考虑了给定标签集可能存在的所有成对标记毛虫树，包括匹配和非匹配毛虫树。

4 合并历史的非递归枚举

在建立了非匹配毛虫的合并历史和道路阻塞的单调路径之间的对应关系后，我们现在转向枚举可能不匹配毛虫基因树和物种树的合并历史。我们可以根据命题9通过枚举阻塞的单调路径来递归地做到这一点；我们还可以通过应用等式1.

在不损失通用性的情况下，考虑到两个子树直接从树的根上下来，我们将左子树视为叶子数大于或等于右子树的叶子数。然后，毛虫树的右子树有一片叶子，因此在等式1，右子树G公司_R（右）在递归的每个连续步骤中始终只有一个叶。因此，术语B_{G公司_R（右），T型(G公司_R（右），S),k个+d日(G公司_R（右），S)}，遵循递归的基本情况并等于1。等式1，描述毛虫基因树的合并历史数G公司和一棵物种树S公司，然后减少到

B_{G公司 ， S公司 ， 米} = \sum_{k个 = 1}^{米} B_{{G公司}_{我} ， T型 ({G公司}_{我} ， S公司) ， k个 + d日 ({G公司}_{我} ， S公司)} ，

(7)

具有初始条件B_{G、 S，米}=1代表所有米什么时候G公司有一片叶子。

如果S公司也是一棵毛虫树n个离开，然后我们可以迭代递归n个–每一步减少一次左子树的大小G公司_我一个，直到G公司_我具有单个叶，则应用基本情况，和等于1。每次迭代都会引入一个新的求和，其上限取决于相关的d日(G公司_我，S公司)，分隔根的边数T型(G公司_我，S公司)从…的根S公司。继续标记的内部节点G公司从1到n个–1按照从樱桃到根部的递增顺序，我们将内部节点关联起来j个属于G公司带索引k个_n个–j个.设置整数参数米等于1，我们有

B_{G公司 ， S公司 ， 1} = \sum_{{k个}_{1} = 1}^{1} \sum_{{k个}_{2} = 1}^{{k个}_{1} + {c（c）}_{1}} \sum_{{k个}_{三} = 1}^{{k个}_{2} + {c（c）}_{2}} \cdot \sum_{{k个}_{n个 - 1} = 1}^{{k个}_{n个 - 2} + {c（c）}_{n个 - 2}} 1 ，

(8)

其中常量c（c）_j个表示的附加边数S公司基因树合并的可能位置j个但这不可能实现基因树的合并j个+ 1.

对于1⩽j个⩽n个–1，考虑基因树内部节点j个.让我_j个是所有标签的集合j个+1片叶子从j个。遵循中的定义等式1，让T型_j个(G、 S公司)表示的最小子树S公司具有每个标签的属性我_j个给它的一片叶子贴上标签，然后让d日_j个表示分隔根的边数T型_j个(G、 S公司)从…的根S公司.然后d日_j个+1给出了的边数S公司哪个基因树合并j个可以发生（+1表示的根边缘S公司). 数量u个_j个=n个– 1 –j个–d日_j个，等于的边数S公司至少是祖先j个+1片叶子（或n个–j个)但在哪个基因树上合并j不能发生，表示路障数量(我，j个)带有固定的j个和我⩾j个.

对于j个= 1, 2,…,n个–2，所需数量c（c）_j个，的附加边数S公司可用于聚合j个但不用于合并j个+1，等于c（c）_j个=d日_j个–d日_j个+1因此，我们提出了以下主张。

提案17.考虑一个毛虫基因树G和一个有n片叶子的毛虫物种树S。的合并历史数(G、 S公司)通过以下方式获得等式8，其中向量(c（c）₁，c（c）₂,…,c（c）_n个–2)作为函数获得 c（c）(G、秒)这只取决于G和S的拓扑结构.

注意，如果G公司和S公司匹配，然后针对每个j个从1到n个– 1,G公司_j个=T型_j个(G公司，S公司)，因此d日_j个=n个– 1 –j个，u个_j个=0，并且没有路障发生。我们有c（c）_j个=各1j个从1到n个–2，和等式8成为

\sum_{{k个}_{1} = 1}^{1} \sum_{{k个}_{2} = 1}^{{k个}_{1} + 1} \sum_{{k个}_{三} = 1}^{{k个}_{2} + 1} \cdot \sum_{{k个}_{n个 - 1} = 1}^{{k个}_{n个 - 2} + 1} 1 ，

等于加泰罗尼亚数字C类_n个–1[16，定理3.4]。

我们以中的基因树和物种树为例图4。我们报告了u个_j个，d日_j个和c（c）_j个在里面表2.合并历史的数量为

\sum_{{k个}_{1} = 1}^{1} \sum_{{k个}_{2} = 1}^{{k个}_{1} + 0} \sum_{{k个}_{三} = 1}^{{k个}_{2} + 1} \sum_{{k个}_{4} = 1}^{{k个}_{三} + 0} \sum_{{k个}_{5} = 1}^{{k个}_{4} + 2} \sum_{{k个}_{6} = 1}^{{k个}_{5} + 1} \sum_{{k个}_{7} = 1}^{{k个}_{6} + 0} \sum_{{k个}_{8} = 1}^{{k个}_{7} + 0} \sum_{{k个}_{9} = 1}^{{k个}_{8} + 0} 1 = 235 .

表2。

与毛虫基因树合并历史计数相关的数量(((((((((A类，F类),B),C类),天),G公司),我),H（H）),J型),E类)和物种树(((((((((A类，B),C类),天),E类),F类),G公司),H（H）),我),J型).

基因树中的内部节点索引G公司(j个)	9	8	7	6	5	4	三	2	1
总和指数(n个–j个)	1	2	三	4	5	6	7	8	9
路障数量(u个_j个)	0	1	1	2	1	1	2	三	4
根之间的距离T型_j个(G公司，S公司)和的根S公司(d日_j个)	0	0	1	1	三	4	4	4	4
可能合并的节点j个但不是j个+ 1 (c（c）_j个=d日_j个–d日_j个+1)	不适用	0	1	0	2	1	0	0	0
求和项	$\sum_{{k个}_{1} = 1}^{1}$	$\sum_{{k个}_{2} = 1}^{{k个}_{1} + 0}$	$\sum_{{k个}_{三} = 1}^{{k个}_{2} + 1}$	$\sum_{{k个}_{4} = 1}^{{k个}_{三} + 0}$	$\sum_{{k个}_{5} = 1}^{{k个}_{4} + 2}$	$\sum_{{k个}_{6} = 1}^{{k个}_{5} + 1}$	$\sum_{{k个}_{7} = 1}^{{k个}_{6} + 0}$	$\sum_{{k个}_{8} = 1}^{{k个}_{7} + 0}$	$\sum_{{k个}_{9} = 1}^{{k个}_{8} + 0}$

在单独的窗口中打开

我们也可以通过对阻塞的单调路径进行递归求和来获得这个结果(图4).

通过详尽地使用命题17，我们可以评估n个!/2个毛虫基因树n个树叶。此详尽计算适用等式8包含所有可能的矢量(c（c）₁，c（c）₂,…,c（c）_n个–2)对应于基因树-换句话说C类_n个–1向量 $0 ⩽ \sum_{k个 = 1}^{j个} {c（c）}_{k个} ⩽ j个$ 对于每个j个从1到n个– 2 [23，更换一_我在第81项中c（c）_k个].

16号提案中关于合并历史数量的不同值数量的上限相对较小n个，但已经是精确计算的两倍多n个= 12 (表1). 不同值（21）的数量与上限（26）不同的最小情况发生在n个=6片叶子，其中1、2、3、4、5、6、7、9、10、12、13、14、16、17、19、22、23、26、28、32和42是合并历史数的可实现值。值5、9、10、14和19都是通过两组不同的路障实现的，这两组路障在反转相关的Dyck路径时并不相等。

因为问_n个–1≪C类_n个–1，毛虫对合并历史个数的不同值个数的上界渐近等价于C类_n个–1/2，毛虫最大合并历史数的一半。因此，尽管毛虫的数量n个!/2的增长速度比合并历史的最大数量快得多C类_n个–1，在实际的毛虫基因树中，只有在合并历史数的可能值范围内的最大值的一半是渐近的。

5 毛虫基因树和物种树的特殊科

从命题9和17中，我们可以得到描述非匹配毛虫树的特殊对的合并历史数的各种推论。对于某些类型的对，合并历史的数量可以用闭合形式获得。

5.1. 最近邻间变化

对于固定的毛虫物种树S公司，我们首先考虑毛虫基因树G公司不同于S公司通过一次最近邻移动（NNI）。我们得到了以下结果。

提议18.考虑一个有n片叶子的毛虫物种树S和一个与S不同的毛虫基因树G的NNI移动。（i）设置的路障B_{G、 S公司}由单个点组成(i、我)关于正方形格的对角线，对于某些i1 ⩽我⩽n个–2。（ii）（G，S）的合并历史数为 C类_n个–1–C类_我C类_{n个–1–我}.

证明我们使用合并历史和阻塞单调路径之间的双射（命题9）。我们给树上的叶子贴上标签，从1到n个如中所示第3.2节，使用排列π绘制树叶的地图G公司在树叶上S公司根据定义1，NNI移动交换一对标记为k个和k个+1英寸G公司对一些人来说k个∈{2，3，…，n个–1}，或者它交换离开1和3。让k个_秒为参与NNI移动的树叶的两个标签中较小的一个，并让k个_ℓ是两个标签中较大的一个。然后我们有π_{k个_秒}(G公司) =k个_秒+1和π_{k个_秒+1}(G公司) =k个_秒如果k个_秒∈ {2, 3,…,n个–1}，以及π₁(G公司)=3和π_三(G公司)=1，如果k个_秒= 1.

（i）以下第3.2节，用于(G公司，S公司)不同之处在于NNI移动一次S公司叶的祖先k个_秒属于G公司是（f）(克_{k个_秒}) =k个_秒如果2⩽k个_秒⩽n个–1，和（f）(克₁)=2，如果k个_秒= 1. 路障(我，j个)方格中的点满足我<（f）(克_j个+1). 通过施工(k个_秒– 1,k个_秒–1）是唯一的障碍，如果2⩽k个_秒⩽n个–1和（1，1）是唯一的障碍，如果k个_秒= 1.

（ii）合并历史的数量(G公司，S公司)是无障碍情况下的合并历史数，或C类_n个–1（引理7），减去从（0，0）到(n个– 1,n个–1）不穿过对角线且穿过路障。对于路障(我，我)，后一个数量是C类_我C类_{n个–1–我}，乘以单调路径的数量C类_我从（0，0）到(我，我)与对角线不相交的单调路径数(我，我)至(n个– 1,n个–1）不穿过对角线。■

图6A用一对说明命题18的结果(G公司，S公司)只差一个NNI动作。如命题9所获得的，该示例的合并历史的数量为4274。使用命题18，我们可以看到4274=C类₉–C类₄C类₅= 4862 – 14 × 42.

保存图片、插图等的外部文件。对象名为nihms-1543747-f0006.jpg

在单独的窗口中打开

图6。

毛虫基因树的合并历史数G公司和物种树S公司不同于最近邻距（NNI）移动。（A）G公司和S公司不同于NNI的一次移动。（B）G公司和S公司不同于多个不相交的NNI移动。

扩展命题18，我们可以建立置换时合并历史数的公式π执行k个NNI移动， $1 ⩽ k个 ⩽ ⌊ \frac{n个 - 1}{2} ⌋$ ，以这样的方式π由长度为2的不相交循环组成。设置的路障(G公司，S公司)这样的排列包含k个对角线上的点(n个– 1) × (n个–1）格子。对于这个路障集，我们利用包含-排除原理计算不穿过对角线的单调路径。

提案19。 考虑一个具有n片叶子的毛虫物种树S和一个与S by k不相交NNI移动不同的毛虫基因树G。然后（i）设置路障B_{G、 S公司}由k个不同的点组成(我_j个，我_j个)关于方格的对角线j∈ {1, 2,…,k个},具有0 <我₁< …我_k个<n个–1。（ii）合并历史的数量(G、 S公司)可以写入

{C类}_{n个 - 1} + \sum_{ℓ = 1}^{k个} (- 1)^{ℓ} (\sum_{\begin{matrix} ({j个}_{1} ， {j个}_{2} ， \dots ， {j个}_{ℓ}) \in {1 ， 2 ， \dots ， k个}^{ℓ} \\ 0 < 我_{{j个}_{1}} < \dots < 我_{{j个}_{ℓ}} < n个 - 1 \end{matrix}} {C类}_{我_{{j个}_{1}}} {C类}_{我_{{j个}_{2}} - 我_{{j个}_{1}}} \cdot {C类}_{我_{{j个}_{ℓ}} - 我_{{j个}_{ℓ} - 1}} {C类}_{n个 - 1 - 我_{{j个}_{ℓ}}}) .

(9)

证明如命题18所示，我们用路障单调路径的语言重新表述了一个枚举合并历史的问题。

（i）因为k个NNI动作是不相交的，我们可以顺序应用命题18ik个次，每次NNI移动一次。每个k个NNI移动与方形格子对角线上的路障有关，路障的位置由交换的一对叶子的身份决定：如果k个_秒叶子的两个标签中较小的一个吗G公司参与移动，则路障位置为(k个_秒– 1,k个_秒–1）用于2⩽k个_秒⩽n个–1和（1，1）用于k个_秒= 1. 标记路障(我₁，我₁), (我₂，我₂),…, (我_k个，我_k个)，使用0<我₁<我₂< … <我_k个<n个– 1.

（ii）上单调路径的总数(n个– 1) × (n个–1）方格为C类_n个–1(第2.4节). 为了得到所需数量，我们必须从中减去C类_n个–1通过至少一个k个路障。根据包含-排除原理，这个量可以写成非空子集上的和β的k个通过所有路障的单调路径数的路障β特别是，对于每个j个从1到k个，表示β_j个穿过路障的单调路径集(我_j个，我_j个)，通过至少一个路障的单调路径数为

\sum_{ℓ = 1}^{k个} (- 1)^{ℓ + 1} (\sum_{\begin{matrix} ({j个}_{1} ， {j个}_{2} ， \dots ， {j个}_{ℓ}) \in {1 ， 2 ， \dots ， k个}^{ℓ} \\ 0 < 我_{{j个}_{1}} < \dots < 我_{{j个}_{ℓ}} < n个 - 1 \end{matrix}} ∣ β_{{j个}_{1}} 你好 \cdot 你好 β_{{j个}_{ℓ}} ∣) .

的基数β_j个₁⋂ ⋯ ⋂βj_ℓ，表示通过（0，0）的单调路径数(我_j个₁，我_j个₁), …, (我_{j个_ℓ}，我_{j个_ℓ})、和(n个– 1,n个–1）是加泰罗尼亚数字的乘积，每对必须遍历的连续点对应一个：

{C类}_{我_{{j个}_{1}}} {C类}_{我_{{j个}_{2}} - 我_{{j个}_{1}}} \cdot {C类}_{我_{{j个}_{ℓ}} - 我_{{j个}_{ℓ} - 1}} {C类}_{n个 - 1 - 我_{{j个}_{ℓ}}} .

结果如下。■

图6B说明了具有三个不相交NNI移动的情况下的命题19。在此示例中，10叶树中的路障显示在（1，1）、（4，4）和（9，9）处。根据命题19，合并历史的数量为C类9 – (C类₁C类₈+C类₄C类₅+C类₈C类₁) + (C类₁C类_三C类₅+C类₁C类₇C类₁+C类₄C类₄C类₁) – (C类₁C类_三C类₄C类₁) = 2179.

另外，建议18的结果是，对于固定的毛虫物种树S公司，非匹配毛虫基因树的合并历史数量最多G公司发生在不同于S公司通过一次NNI移动。

推论20.考虑一棵有n片叶子的毛虫物种树S。考虑所有可能的毛虫基因树G≠具有n片叶子的S，（i）(G、 S公司)路障设置为B时获得_{G、 S公司}由单点组成 $(\frac{n个}{2} - 1 ， \frac{n个}{2} - 1)$ 或 $(\frac{n个}{2} ， \frac{n个}{2})$ 对于偶数n，或 $(\frac{n个 - 1}{2} ， \frac{n个 - 1}{2})$ 对于奇数n（ii），它等于

{C类}_{n个 - 1} - {C类}_{⌊ \frac{n个 - 1}{2} ⌋} {C类}_{⌈ \frac{n个 - 1}{2} ⌉} .

证明首先，注意每对(G公司，S公司)谁设置了路障B_{G、 S公司}有多个点，我们可以识别一对(G′，S公司)其路障集包括B_{G、 S公司}因此，它的合并历史至少与(G、 S公司). 根据备注10，由单个点组成的路障组中的路障必须位于对角线上。

将命题18ii应用于毛虫基因树G公司最大化具有固定合并历史的数量S公司，合并历史的数量必须相等C类_n个–1–C类_我C类_{n个–1–我}对一些人来说我与1⩽我⩽n个– 2. 罗森博格的推论3.11[16]，用于固定n个，当 ${我， n个 - 1 - 我} = {⌊ \frac{n个 - 1}{2} ⌋ ， ⌈ \frac{n个 - 1}{2} ⌉}$ .

根据命题18的证明S公司，这个最大值与基因树有关G公司不同于S公司在从樱桃到根的路径中，叶子邻接中间的接合处G公司转置；案件n个奇数有一个这样的合并和情况n个甚至有两个。■

推论20对推论11进行了扩展，给出了这对组合历史的确切数量(G、 S公司)在不匹配的毛虫中，它拥有最多的合并历史。对于奇数n个，推论20中合并历史的数量为 ${C类}_{n个 - 1} - {C类}_{(n个 - 1) ∕ 2}^{2}$ 例如，对于S公司= ((((A类，B),C类),天),E类)和G公司= ((((A类，B),天),C类),E类)，合并历史的数量为 ${C类}_{4} - {C类}_{2}^{2} = 14 - 2^{2} = 10$ 合并历史。对于偶数n个，推论20中合并历史的数量为C类_n个–1–C类_n个/2–1C类_n个/2例如，对于S公司= (((((A类，B),C类),天),E类),F类)，两者都是G公司= (((((A类，B),天),C类),E类),F类)和G公司= (((((A类，B),C类),E类),天),F类)有C类₅–C类₂C类_三=42–2×5=32合并历史。图6A给出了非匹配毛虫中最大数量的合并历史n个=10片叶子。

我们可以很快观察到，不协调毛虫树中最大数量的合并历史与匹配毛虫的合并历史的增长速度相同。

推论21.考虑所有非匹配的履带对(G、 S公司)对于n片叶子(G、 S公司)渐近于C_n个–1.

证明.使用斯特林近似， $n个! ~ \sqrt{2 π n个} {(\frac{n个}{e（电子）})}^{n个}$ ，我们可以验证 ${C类}_{n个} ~ 4^{n个} ∕ ({n个}^{三 ∕ 2} \sqrt{π})$ .

如果n个为奇数，则非匹配对的最大合并历史数满足

{C类}_{n个 - 1} - {C类}_{\frac{n个 - 1}{2}}^{2} \sim \frac{4^{n个 - 1}}{(n个 - 1)^{\frac{三}{2}} \sqrt{π}} - \frac{4^{n个 - 1} 2^{三}}{(n个 - 1)^{三} π} .

如果n个那就平分秋色了

{C类}_{n个 - 1} - {C类}_{\frac{n个}{2} - 1} {C类}_{\frac{n个}{2}} \sim \frac{4^{n个 - 1}}{(n个 - 1)^{\frac{三}{2}} \sqrt{π}} - \frac{4^{n个 - 1} 2^{三}}{({n个}^{2} - 2 n个)^{\frac{三}{2}} π} .

在这两种情况下，主导术语占主导地位，并且C类_n个–1–C类_{⌊(n个–1)/2⌋}C类_{⌈(n个–1)/2⌉}~C类_n个–1. ■

5.2. 叶标签的反向增量

接下来，对于固定的毛虫物种树S，我们考虑基因树G公司不同于S公司通过递增。

考虑一棵毛虫物种树S公司具有n个叶子和毛虫基因树不同于S公司通过递增。根据定义，某些组件的叶子G′属于G公司和S′属于S公司不同于循环排列。回想一下，带有两个标签的增量是NNI移动。

提案22。 如果G是通过S的反向增量获得的，则路障设置为B_{G、 S公司}由正方形格子对角线上的一组连续点组成.

证明.考虑标签k个_秒，k个_ℓ∈ {1, 2,…,n个}，使用k个_秒<k个_ℓ和k个_ℓ≠ 2. 根据逆增量的定义，对于G公司叶子按顺序标记k个_秒，k个_秒+ 1,…,k个_ℓ从樱桃到根部S公司已标记π_{k个_秒}(G公司) =k个_秒+1中，π_{k个_秒+1}(G公司) =k个_秒+ 2,…,π_{k个_ℓ–1}(G公司) =k个_ℓ，π_{k个_ℓ}(G公司) =k个_秒.

与命题18的证明一样，我们计算了S公司每片叶子的祖先克_k个属于G公司，k个∈ {k个_秒，k个_秒+ 1,…,k个_ℓ}. 我们获得（f）(克_k个) =k个如果2⩽k个⩽n个和（f）(克₁)=2，如果k个= 1.

路障就是要点(我，j个)令人满意的我<（f）(克_j个+1). 因此，我们发现障碍正是这些点(k个_秒– 1,k个_秒– 1),…, (k个_ℓ– 2,k个_ℓ–2）如果k个_秒>1和（1，1）(k个_ℓ– 2,k个_ℓ–2）如果k个_秒= 1. ■

因为所有的路障都位于反向递增的对角线上，等式9可用于计算合并历史。在应用中等式9，对角线上单调路径不能通过的不同点是(k个_秒– 1,k个_秒– 1),…, (k个_ℓ– 2,k个_ℓ–2）如果k个_秒>1和（1，1）(k个_ℓ– 2,k个_ℓ–2）如果k个_秒= 1.

例如，在图7A，叶标签的反向增量C类，天、和E类有k个_秒=3和k个_ℓ=5，因此路障位于（2，2）和（3，3）处。合并历史的数量通过以下公式获得等式9作为C类₉– (C类₂C类₇+C类_三C类₆) +C类₂C类₁C类₆= 3608.

保存图片、插图等的外部文件。对象名称为nihms-1543747-f0007.jpg

在单独的窗口中打开

图7。

反向增量的合并历史数。（A）G公司不同于S公司通过反向递增。（B）G公司不同于S公司通过包含所有标签的反向递增。（C）G公司不同于S公司由多个不相交的反向增量组成。

如果逆增量排列所有标签，则所有点（1，1）(n个– 1,n个–1）是路障，合并历史的数量是位于年=x个线路(图7B). 由于不通过正方形格的对角线上方的单调路径的数量，该计算给出C类_n个–2融合的历史。同时等式9生成遍历点（1，1），…，的所有子集的和(n个– 1,n个– 1).

因此，通过使用等式9，这种构造给出了加泰罗尼亚数字恒等式的组合证明。

推论23。 加泰罗尼亚数字C_n个–2 可以写成加泰罗尼亚数字乘积的交替和，其中和对n的所有组成进行求和– 1:

{C类}_{n个 - 2} = \sum_{k个 = 1}^{n个 - 1} (- 1)^{k个 + 1} \sum_{({v（v）}_{1} ， \dots ， {v（v）}_{k个}) \in {v（v） : \sum_{我 = 1}^{k个} {v（v）}_{我} = n个 - 1 ， {v（v）}_{我} > 0 为所有人 我}} \prod_{我 = 1}^{k个} {C类}_{{v（v）}_{k个}}

这个恒等式可以看作是计算半长Dyck路径n个–1，两种方式都没有返回原点。C类_n个–2给出了半长Dyck路径的数量n个–2，作为长度的Dyck路径n个–1无内部回报开始于一个向上步骤，然后是一个半长的Dyck路径n个–2，然后是下一步。右侧使用包含-排除原则，通过排除半长Dyck路径来执行计算n个–1至少有一次返回原点。

有趣的是，一个遍历所有标签的反向循环，即使不是递增，也会产生加泰罗尼亚数量的合并历史，因为它会生成由一条或多条对角线组成的路障集。例如，使用S公司= (((((((((A类，B),C类),天),E类),F类),G公司),H（H）),我),J型)，反向递增G公司= (((((((((B，C类),天),E类),F类),G公司),H（H）),我),J型),A类)给予C类₈=1430合并历史(图7B)，反向循环G公司==========================================================(((((((((C类，天),E类),F类),G公司),H（H）),我),J型),A类),B)给予C类₇=429合并历史，反向循环G公司= (((((((((天，E类),F类),G公司),H（H）),我),J型),A类),B),C类)给予C类₆=132合并历史，依此类推。

我们还注意到等式9继续适用，如果S公司不同于G公司通过多次不相交的反向增量，如图7C，它添加了一个两叶增量—NNI移动到图7A在这种情况下，合并历史的数量为C类₉——(C类₂C类₇+C类_三C类₆+C类₇C类₂)+(C类₂C类₁C类₆+C类₂C类₅C类₂+C类_三C类₄C类₂)–(C类₂C类₁C类₄C类₂) = 3002.

5.3. 叶标签的正向增量

在这种情况下G公司表示的是正向增量，而不是反向增量S公司，路障出现在三角形区域中，而不是仅出现在正方形格子的对角线上。

第24号提案。如果G是通过S的前向增量获得的，则路障设置为B_{G、 S公司}由正方形格子对角线上和下方的点组成的三角形。

证明.考虑标签k个_秒，k个_ℓ∈ {1, 2, …,n个}，使用k个_秒<k个_ℓ和k个_ℓ≠ 2. 根据前向增量的定义，对于G公司叶子按顺序标记k个_秒，k个_秒+ 1, …,k个_ℓ从樱桃到根部S公司已标记π_{k个_秒}(G公司) =k个_ℓ，π_{k个_秒+ 1}(G公司) =k个_秒，π_{k个_秒+2}(G公司) =k个_秒+ 1, …,π_{k个_ℓ}(G公司) =k个_ℓ– 1.

我们使用命题9并计算S公司每片叶子的祖先克_k个属于G公司，k个∈ {k个_秒，k个_秒+ 1, …,k个_ℓ}. 我们获得（f）(克_k个) =k个_ℓ– 1.

障碍就是要点(我，j个)令人满意的我<（f）(克_j个+1). 因此，路障就是点(k个_秒– 1,k个_秒– 1),…, (k个_ℓ– 2,k个_秒– 1), (k个_秒，k个_秒), …,(k个_ℓ– 2,k个_秒), …, (k个_ℓ– 2,k个_ℓ–2）。■

我们可以使用Catalan的梯形来计算前向增量的合并历史，注意从（0，0）到(n个– 1,n个–1）正好通过路障三角形右下角对角线上的一个点(k个_ℓ– 2,k个_秒–1）用于2⩽k个_秒⩽n个–1和(k个_ℓ–2，1）用于k个_秒=1，到晶格的下边缘或右边缘(图8A).

保存图片、插图等的外部文件。对象名为nihms-1543747-f0008.jpg

在单独的窗口中打开

图8。

前向增量的合并历史数。（A）G公司不同于S公司通过向前递增。所有路径必须穿过红色虚线。（B）从红色虚线上的（4，1）到（9，9）的路径数。（C）从红色虚线上的（5，0）到（9，9）的路径数。（D）G公司不同于S公司由两个向前增量组成。所有路径必须穿过四条红色虚线。实线表示与路障集相关的Dyck路径（请参见图5).

如果2⩽k个_秒⩽n个–1，则此线有点(k个_ℓ– 1 +c（c），k个_秒– 2 –c（c）)对于c（c）=0，1，…，最小值(k个_秒– 2,n个–k个_ℓ); 如果k个_秒=1，则该线只有一个点(k个_ℓ– 1, 0). 我们可以将这两种情况与Kronecker delta结合，用表达式捕捉线条(k个_ℓ– 1 +c（c），k个_秒– 2 +δ_{k个_秒,1}–c（c）)对于c（c）=0，1，…，最小值(k个_秒– 2 +δ_{k个_秒,1}，n个–k个_ℓ).

然后我们可以计算从（0,0）到直线上某个点以及从那里到(n个– 1,n个– 1).

第25号提案。 考虑一个具有n个叶子的毛虫物种树S和一个与S不同的毛虫基因树G，其正向增量由组件k描述_秒, …,k个_ℓ;可以写出（G，S）的合并历史数

\sum_{c（c） = 0}^{最小值 ({k个}_{秒} - 2 + δ_{{k个}_{秒} ， 1} ， n个 - {k个}_{ℓ})} 天 ({k个}_{ℓ} - 1 + c（c） ， {k个}_{秒} - 2 + δ_{{k个}_{秒} ， 1} - c（c）) 天_{{k个}_{ℓ} - {k个}_{秒} - δ_{{k个}_{秒} ， 1} + 2 + 2 c（c）} (n个 - {k个}_{ℓ} - c（c） ， n个 - {k个}_{秒} + 1 - δ_{{k个}_{秒} ， 1} + c（c）) .

其中函数D和D_米跟随 方程3 和 5，分别地.

证明。从（0，0）到的每个单调路径(n个– 1,n个–1），通过与前向增量相关的对角线上的一个点。从（0，0）到达该点的路径数用加泰罗尼亚三角形表示(等式3)以及要到达的路径数(n个– 1,n个–1）加泰罗尼亚梯形(等式5). ■

图8A提供了一个示例。在图中，k个_秒=3和k个_ℓ=5，因此每条被道路堵塞的单调路径必须通过（4，1）或（5，0）。图8B说明了从（4，1）到（9，9）的加泰罗尼亚梯形，以及图8C显示了从（5,0）到（9,9）的加泰罗尼亚梯形。因为从（0,0）到（4,1）的路径数是4，从（0,1）到（5,0）的路径数量是1，所以合并历史的数量是4×572+1×429=2717。该值由命题返回，该命题给出 $\sum_{c（c） = 0}^{最小值 (1 ， 5)} 天 (4 + c（c）， 1 - c（c）) 天_{4 + 2 c（c）} (5 - c（c）， 8 + c（c）) = 天 (4 ， 1) 天_{4} (5 ， 8) + 天 (5 ， 0) 天_{6} (4 ， 9) = 4 \times 572 + 1 \times 429 = 2717$ .

注意，我们可以通过识别所有单调路径都必须通过的相关负斜对角线来分析具有多个不相交前向增量的情况。合并历史的数量可以通过对每个对角线上正好通过一个点的单调路径进行嵌套和计数来获得。改变视角，考虑与不相交正向增量组合的路障集相关联的Dyck路径，Dyck道路中的每个峰值都会生成一条对角线，我们可以将通过每条对角线上的点的单调路径制成表格。

例如，在图8D，与路障设置相关的Dyck路径有四个峰值。从（0，0）到（9，9）的所有单调路径都必须通过其中的两个路径，即（1，0）和（9，8）。其他两个峰值生成对角线，所有单调路径都必须经过对角线。因此，所有路径都必须通过（4，1）或（5，0）和（8，4）或（9，3）。通过（4，1）和（8，4）的路径数为天(4, 1)天₄(4, 3)天₅(1, 5) = 700; 通过（4，1）和（9，3）的路径数为天(4, 1)天₄(5, 2)天₇(0, 6) = 84; 通过（5，0）和（8，4）的数字是天(5, 0)天₆(3, 4)天₅（1，5）=175；通过（5，0）和（9，3）的数字是天(5, 0)天₆(4, 3)天₇(0, 6) = 35. 总共有994条路径。

从这个角度来看，我们可以看到这种枚举方法适用于任何Dyck路径，而不仅仅是那些表示不相交正向增量的路径：对于Dyck路中的每个峰值，都会生成一个对角点列表，通过该列表，每个单调路径从（0，0）到(n个– 1,n个–1）必须通过。我们考虑了所有可能的点选择，每个对角线一个，并使用加泰罗尼亚三角形和加泰罗尼亚梯形将通过这些点的路径制成表格。对于一般的一对毛虫树，这种方法可以减少等式8从n个–1等于相关Dyck路径中的峰值数量。

半长度的Dyck路径数n个与完全相同k个峰值遵循Narayana数字 $N个 (n个， k个) = \frac{1}{n个} (\begin{matrix} n个 \\ k个 \end{matrix}) (\begin{matrix} n个 \\ k个 - 1 \end{matrix})$ [8，第6.1节]。然后随机选择Dyck路径中的平均峰值数如下 $\sum_{k个 = 1}^{n个} \frac{k个}{n个} (\begin{matrix} n个 \\ k个 \end{matrix}) (\begin{matrix} n个 \\ k个 - 1 \end{matrix}) ∕ {C类}_{n个}$ ，通过注释 $k个 (\begin{matrix} n个 \\ k个 \end{matrix}) = n个 (\begin{matrix} n个 - 1 \\ k个 - 1 \end{matrix})$ 并应用Graham表169中的等式5.23等. [11]为了完成求和，给出了(n个+ 1)/2. 因此，因为我们考虑了半长n个–1，此方法将嵌套求和的平均数从n个–1英寸等式8到n个/2.

6 讨论

我们研究了非匹配毛虫基因树和物种树的合并历史，表明在匹配情况下，可以使用不穿过正方形格子对角线的单调路径来计算非匹配毛毛虫的合并历史数(第3节). 适用于任意基因树和物种树的合并历史数的递归将非匹配毛虫简化为仅依赖于毛虫拓扑的非递归公式(第4节). 利用这些结果，我们计算了因最近邻间变化不同而不匹配的毛虫的合并历史(第5.1节). 通过研究反向和正向递增，我们还计算了不同于亚树-树-树和再生的毛虫的合并历史(第5.2节和5.3).

连接合并历史和单调路径的双射（命题9）利用了路障，不允许路径通过的晶格点。如果一个点(我，j个)是一个障碍我⩾j个，然后(k个，j个)也是每个人的障碍k个具有j个⩽k个⩽我，按原样(我，ℓ;)对于每个ℓ;具有j个⩽ℓ;⩽我（备注10）。给定路障集的路障单调路径的枚举连接到加泰罗尼亚三角形和梯形，从而可以枚举相关的合并历史。有趣的是，不同的路障集本身可以与不穿过正方形格子对角线的单调路径进行双射，因此它们的数量也遵循加泰罗尼亚序列(第3.3节).

我们的结构将合并历史和阻塞的单调路径联系起来，从而可以简单地证明Degnan&Rhodes的一个结果[三]对于固定数量的叶子，匹配的毛虫树比不匹配的毛虫树有更多的合并历史（推论11）。特别是，为一对非匹配的毛虫树枚举合并历史的晶格结构包含至少一个路障，而用于匹配毛虫的晶格没有路障，因此具有更单调的路径。对于一棵固定的毛虫物种树，我们已经准确地确定了哪棵不匹配的毛虫基因树产生了最多的融合历史：很明显，这个基因树与物种树的区别在于一个NNI移动，因为只有一个NNI移动与物种树不同的毛虫会产生一个路障。我们发现，特定的NNI移动影响最靠近种树“中间”的叶子，产生最大数量的合并历史，并且随着叶子数量的增加，该值渐近等价于加泰罗尼亚数C类_n个–1(第5.1节).

在这种情况下，基因树通过反向增量与物种树不同，产生了一个优雅的结果。回顾匹配毛虫的合并历史数是用加泰罗尼亚数描述的，如果基因树是通过影响物种树的所有叶子标签的反向增量获得的，那么合并历史数就是下一个较小的加泰罗尼亚数(第5.2节). 前向增量的情况更复杂，但可以使用加泰罗尼亚梯形进行分析，并建议进一步连接到Dyck路径的分析(第5.3节).

这项研究提供了一些关于非匹配基因树和物种树合并历史的首次系统闭合结果。然而，我们的方法仅适用于毛虫，因为具有阻塞单调路径的双射依赖于这样一个事实，即毛虫树的内部节点可以按顺序放置，以便所有内部节点对都具有祖先-后代关系。然而，它确实表明，除了在等式1.

一个仍然悬而未决的问题是，对于某些毛虫基因树和物种树，可能等于合并历史数的整数集是未知的。罗森博格和德南[19，表1]观察到固定物种树木S公司大小为n个和某些值t吨特别是小的，成对的(G公司，S公司)确实有t吨合并历史和罗森博格[18]枚举了对(G公司，S公司)只有1个合并历史（孤独的一对). 我们和Degnan&Rhodes[三]已经表明，如果G公司和S公司是毛虫，那么只有值t吨⩽C类_n个–1可以表示合并历史的数量。我们的NNI结果表明，开放区间中的所有值(C类_n个–1–C类_{⌊(n个–1)/2⌋}C类_{(n个–1)/2⌉}，C类_n个–1)不能是的合并历史记录数(G公司，S公司). 对于固定履带S公司具有n个叶，获取以下值集的大小很有用t吨这一对(G公司，S公司)正好有t吨合并历史。我们观察到 $({C类}_{n个 - 1} + (\begin{matrix} n个 - 1 \\ ⌊ (n个 - 2) ∕ 2 ⌋ \end{matrix})) ∕ 2$ ，对称履带友好型路障组的数量加上不对称履带友好型路障组数量的一半，提供了一个上限(第3.3节).

我们注意到，识别表示某些合并历史数量的整数的问题(G公司，S公司)带有n个叶子可以完全按照道路阻塞的单调路径来表达，而不需要参考合并历史。将晶格描述为单调的路障如果每个路障(我，j个)带有我⩾j个, (k个，j个)也是每个人的障碍k个具有j个⩽k个⩽我、和(我，ℓ;)是每个人的障碍ℓ;具有j个⩽ℓ;⩽我.我们寻求表示不穿过某个单调路障格的对角线的单调路径数的整数个数。合并历史和阻塞单调路径之间的双射提出了这样的问题，这说明这种双射所支持的构造对于研究路径本身的性质是富有成效的。

致谢。

我们感谢E.Allman、J.Degnan、F.Disanto和J.Rhodes的有益讨论。我们确认NIH授予R01 GM117590和R01 GM131404支持。

脚注

出版商免责声明：这是一份未经编辑的手稿的PDF文件，已被接受出版。作为对客户的服务，我们正在提供这份早期版本的手稿。手稿将经过编辑、排版和校对，然后才能以最终形式出版。请注意，在制作过程中可能会发现错误，这可能会影响内容，所有适用于该杂志的法律免责声明都适用。

参考文献

[1]Bonin J、de Mier A和Noy M。格路拟阵：枚举方面和Tutte多项式.J.库姆。理论Ser。A类，104:63–94, 2003.[谷歌学者]

[2]德南JH。合并过程下的基因树分布2005年，阿尔伯克基新墨西哥大学博士论文。[公共医学][谷歌学者]

[3]Degnan JH和Rhodes JA。邪恶的森林里没有毛虫.西奥。流行音乐。生物，105:17–23, 2015. [公共医学][谷歌学者]

[4]Degnan JH和Rosenberg NA。基因树不一致、系统发育推断和多物种融合.趋势Ecol。进化，24:332–340, 2009. [公共医学][谷歌学者]

[5]Degnan JH、Rosenberg NA和Stadler T。物种树上排序基因树的概率分布.数学。Biosci公司，235:45–55, 2012. [公共医学][谷歌学者]

[6]Degnan JH和Salter LA。合并过程下的基因树分布.进化，59:24–37, 2005. [公共医学][谷歌学者]

[7]Deng L-H、Deng Y-P和Shapiro LW。Riordan群与对称格路径.J.山东大学，50：2015年8月82日至89日。[谷歌学者]

[8]Deutsch E。Dyck路径枚举.离散。数学，204:167–202, 1999.[谷歌学者]

[9]Disanto F和Rosenberg NA。屋极树种的聚集历史.J.计算。生物，22:918–929, 2015. [公共医学][谷歌学者]

[10]Disanto F和Rosenberg NA。类毛虫科种树匹配合并历史数的渐近性质.IEEE/ACM传输。计算。生物信息素，13:913–925, 2016.[PMC免费文章][公共医学][谷歌学者]

[11]Graham RL、Knuth DE和Patashnik O。具体数学Addison-Wesley，波士顿，第二版，2008年。[谷歌学者]

[12]麦迪逊WP。物种树中的基因树.系统。生物，46:523–536, 1997.[谷歌学者]

[13]Pamilo P和Nei M。基因树与物种树的关系.分子生物学。进化，5:568–583, 1988. [公共医学][谷歌学者]

[14]鲁维尼S。加泰罗尼亚梯形.探针。工程师通知。科学，28:353–361, 2014.[谷歌学者]

[15]罗森博格北美。基因树和物种树拓扑一致的概率.西奥。流行音乐。生物，61:225–247, 2002. [公共医学][谷歌学者]

[16]罗森博格NA。计算合并历史.J.计算。生物，14:360–377, 2007. [公共医学][谷歌学者]

[17]罗森博格北美。类毛虫家族的共同历史。IEEE/ACM传输.公司。生物信息素，10:1253–1262, 2013. [公共医学][谷歌学者]

[18]罗森博格北美。用反足樱桃计数基因树和物种树的孤独配对.高级申请。数学，102：2019年1月17日。[PMC免费文章][公共医学][谷歌学者]

[19]Rosenberg NA和Degnan JH。不一致基因树和物种树的聚合历史.西奥。流行音乐。生物，77:145–151, 2010. [公共医学][谷歌学者]

[20]Rosenberg NA和Tao R。物种树与其最可能基因树的不一致性：以五个分类群为例.系统。生物，57:131–140, 2008. [公共医学][谷歌学者]

[21]Stadler T和Degnan JH。一种多项式时间算法计算给定种树的排序基因树的概率.藻类。分子生物学，7:7, 2012.[PMC免费文章][公共医学][谷歌学者]

[22]斯坦利RP。枚举组合数学第二卷剑桥大学出版社，纽约，1999年。[谷歌学者]

[23]斯坦利RP。概率论导论剑桥大学出版社，剑桥，2015年。[谷歌学者]

[24]Steel M.系统发育：进化中的离散和随机过程工业与应用数学学会费城，2016年。[谷歌学者]

[25]Than C和Nakhleh L。最小化深度合并的物种树推理.公共科学图书馆Comp。生物，5：e1000501，2009年。[PMC免费文章][公共医学][谷歌学者]

[26]Than C、Ruth D、Innan H和Nakhleh L。HGT检测中的混淆因素：统计误差、合并效应和多重解决方案.J.计算。生物，14:517–535, 2007. [公共医学][谷歌学者]

[27]吴毅（音）。基于最大似然不完全谱系排序下基因树拓扑的联合种树推断.进化，66:763–775, 2012. [公共医学][谷歌学者]

[28]吴毅（音）。一种计算多物种联合下基因树概率的算法及其在种群树推理中的应用.生物信息学，32：i225–i2332016年。[PMC免费文章][公共医学][谷歌学者]

非匹配毛虫基因树和物种树的阻塞单调路径和合并历史计数

佐伊·M·希姆维奇

诺亚·A·罗森博格

摘要

1 介绍

2 前期工作

2.1、。毛毛虫树

2.2. 毛虫树对之间的关系

2.3. 聚合历史

2.4。加泰罗尼亚数和单调路径

三。 合并历史和阻塞单调路径的双射

3.1. 匹配基因树和物种树

3.2. 非匹配基因树和物种树

3.3. 路障设置

表1。

4 合并历史的非递归枚举

表2。

5 毛虫基因树和物种树的特殊科

5.1. 最近邻间变化

5.2. 叶标签的反向增量

5.3. 叶标签的正向增量

6 讨论

致谢。

脚注

参考文献

三。合并历史和阻塞单调路径的双射