1 介绍
在进化树的数学研究中,遗传谱系可以被视为沿着物种系统发育树的分支进化,该树表示一组物种之间的进化关系[4,12,13]. 一棵树描述了一组从共同祖先传下来的遗传谱系基因树而一棵与物种本身相关的树是物种树回顾过去,在从给定物种集合的代表性个体中采样的遗传谱系的基因树中,一对遗传谱系可以聚结或找到一个共同的祖先,只有在他们物种的共同祖先到达之后。更一般地说,一组由两个或多个遗传谱系组成的血统只有在达到其相关物种的最新共同祖先之后才有最新的共同祖先。
基因树和物种树之间关系的研究——通常被视为二元、根和叶标记树——产生了许多新的组合结构[三,5,6,12,20,21,25,27,28]. 其中包括合并历史,描述物种树上可能发生基因树聚合的位置的结构[6,16]. 更准确地说,对于(二进制、根、叶标记)基因树拓扑G公司和(二进制,根,叶标记)种树拓扑S公司在同一组分类群上,一个合并的历史(f)与中的每个聚结相关联G公司边缘S公司,从而满足两个属性:(i)种树边缘小时(u个)与基因树合并相关u个是所有血统的祖先u个; (ii)任何一对基因树合并u、 v(v)对于其中u个位于v(v)基因树的一片叶子,小时(u个)位于小时(v(v))种树的叶子上。从生物学的角度来看,这对约束编码了以下规则:(i)基因谱系只能在物种树的一个分支中结合,在这个分支中,祖先可能共存;(ii)祖先的结合不比他们的后代晚。
罗森博格[16]提供了一个递归,枚举任意基因树和物种树拓扑的合并历史。对于基因树拓扑G公司和物种树拓扑S公司,因此分类单元集合S公司是的超集G公司但不一定是同一组,让T型(G公司,S公司)表示的最小显示子树S公司包含所有分类群的G公司,即的子树S公司根位于与分类群最新共同祖先对应的节点,该分类群具有与中的分类群相同的标签G公司.让d日(G公司,S公司)⩾0表示分隔根的边数T型(G公司,S公司)从…的根S公司.让G公司我和G公司R(右)表示的左子树和右子树G公司。我们定义了一个整数参数米⩾1,并为函数编写递归BG、 S,米:
基本情况通过设置BG、 S,米全部为1米在这种情况下G公司只有一个分类单元。有了这些定义,基因树拓扑的合并历史数G公司和物种树拓扑S公司是BG、 S公司,1.
卡特彼勒物种树,其中存在从所有其他内部节点派生而来的内部节点,代表了一种特殊情况,其中合并历史的枚举比任意物种树的一般情况更简单。因此,尽管对于某些附加形状,精确和渐近的结果是已知的[9,16,18],对毛虫类树木及其形状的计数特性进行了最广泛的研究[2,6,10,16,17,19]. 首先,对于匹配的毛虫基因树和物种树-具有相同标记拓扑结构的毛虫遗传树和种树-Degnan[2]在不交叉于年=x个对角线,一个众所周知的由加泰罗尼亚数列描述的量[23,第24项]。等式1在这种情况下恢复加泰罗尼亚数字[16,推论3.5],并可用于表明在小型“类毛虫科”中匹配基因树和物种树的合并历史数渐近于加泰罗尼亚数的常数倍[16,17]. 利用分析组合学技术,已经证明了任意大小的类毛虫族的这种渐近行为[10].
然而,在标记基因树和物种树拓扑结构不一致的情况下,对枚举结果的研究相对较少。比等. [26]进行了一项数值研究,发现非匹配基因树和物种树拓扑的合并历史数量通常随着树之间的子树-树-树和再生(SPR)距离的增加而减少。罗森博格和德南[19]证明了对于毛虫物种树拓扑n个⩾7分类群中,存在一个非匹配的基因树拓扑,与匹配的毛虫基因树拓扑相比,它具有更多的合并历史。然而,对于毛虫物种树拓扑,Degnan&Rhodes[三]结果表明,在合并历史的数量上,没有一个非匹配的毛虫基因树拓扑可以超过匹配的毛虫基因树拓扑;事实上,罗森博格和德南的建设性榜样[19]与匹配的毛虫相比,具有更多合并历史的非匹配基因树拓扑本身并不是毛虫。
这里,我们推广了Degnan的单调路径方法[2]到非匹配的毛虫基因树和物种树拓扑。我们表明,非匹配毛虫基因树和物种树拓扑的合并历史可以与一组路障不在年=x个正方形格子的对角线。该方法立即恢复了Degnan&Rhodes的结果[三]非匹配的毛虫基因树拓扑在合并历史的数量上不超过匹配的毛毛虫基因树拓扑。它能够计算毛虫基因树拓扑的合并历史数,这些拓扑通过常见转换(最近邻间变化和次树-树-树和再生)与物种树不同。我们描述了具有最大数量合并历史的非匹配毛虫基因树,发现在这种情况下合并历史的数量与匹配情况下的数量渐近相等。
2 前期工作
2.1、。毛毛虫树
我们考虑二叉、有根、带叶标签的树,这些树的叶标签是从标签集中双向抽取的X(X)包含n个不同的标签。为了方便起见,“树”指的是一棵有根的二叉叶标记树。树包含两种类型的节点,叶节点和非叶节点或内部节点。因为树是有根的,所以我们说节点v(v)1一棵树G公司是下降的来自另一个节点v(v)2如果距离v(v)1到根节点包含v(v)2。我们也这么说v(v)2是祖传的到v(v)1.Ancestor–后代关系也适用于边对以及包含顶点和边的对。节点或边是自身的平凡后代,也是自身的平凡祖先。根节点是一个内部节点。
我们专注于毛虫树,树中存在从所有其他内部节点派生的内部节点(). 毛虫树只有一棵樱桃节点,正好有两个后代叶子的节点。在树叶中,毛虫树根的最长路径长度n个树叶是n个– 1.
毛虫树的改造。(A) 毛毛虫树G公司1。的标签向量G公司1,按规范顺序为(A类,B,C类,天,E类,F类,G公司,H(H),我,J型). 相邻的成对叶子是(A类,B), (A类,C类), (B,C类), (C类,天), (天,E类), (E类,F类), (F类,G公司), (G公司,H(H)), (H(H),我)、和(我,J型). (B) 一棵树G公司2不同于G公司1通过最近的相邻变化。树叶E类和F类交换。(C) 从中获得的树G公司1通过叶片向前递增C类,天、和E类(D)从G公司1通过叶片的反向增量C类,天、和E类。(C)中的树也可以被视为子树-树-树和再生操作的结果,树枝通向叶子E类修剪和再生;可以将(D)中的树视为涉及叶的SPR操作的结果,从而导致C类。在每个面板中,红线表示排列的叶子。
标签集可能存在的不同毛虫树的数量X(X)具有n个不同的标签是n个!/2:叶子与根部只有一条边分开n个可能的标签,叶子从根部开始的两个边缘n个–1个可能的标签,依此类推。在这个标签分配中,从樱桃节下来的叶子是可交换的。因此,这些叶子只能贴一个标签,总共n个(n个– 1)(n个– 2) ×⋯× 3 =n个!/2个标签。这些标签代表n个!/2履带标记的拓扑用于标签集X(X).
为了方便起见,我们将标签组织在n个-叶毛虫树G公司向量中的规范克长度的n个。对于我= 3, 4,…,n个,条目我向量中是叶子的标签,通过n个–我+1条边。条目1和2是樱桃树叶的标签。标签的两个向量克和秒当且仅当以下两个条件之一成立时,才视为等效:(1)克我=秒我为所有人我,或(2)克1=秒2,克2=秒1、和克我=秒我对于每个我= 3, 4,…,n个.
毛虫树上的两片叶子被认为是相邻的如果它们正好被两条或三条边隔开(). 等价地,当且仅当树标签序列中的叶子索引相差1时,或者当一个是条目1,另一个是条目的3时,叶子才是相邻的。
A类成分毛虫树是相邻叶子的子集,在定义中不包括仅由樱桃中的一对叶子组成的子集。从形式上讲,是标签的子集X′⊂X(X)是的组成部分G公司如果X′≠ {x个1,x个2}以及任何一对标签x个1,x个2∈X′,存在一系列不同的元素x个1,x个我1,x个我2,…x个我j个,x个2∈X′其中每个连续的元素对都将相邻的叶子标记为G公司.
可以方便地对n个-1至n个–1,从樱桃节到根部按递增顺序排列。这些节点是按祖先-后代关系排序的,因此内部节点的任何非空子集中值最小的节点都是从该子集的所有其他元素派生而来的。我们将此节点称为最小值子集的节点。考虑到一棵树具有其根节点的祖先内部边也是有用的;因此,用其直接祖先边标识每个内部节点,内部边的非空子集具有最小边。
2.2. 毛虫树对之间的关系
具有相同标签集的不同毛虫树的标签因叶标签向量的排列而不同。我们将有机会研究成对的毛虫树,它们的标签因特定类型的排列而不同:最近邻间变化和次树-树-树和再生[24].
考虑两种不同的毛虫树G公司和S公司,从同一组n个不同的标签。
定义1。
Caterpillar树G和S的区别在于最近邻间变化,或NNI公司移动,如果通过交换G中正好由三条边分隔的一对相邻叶子的标签,可以从G中获得S().
请注意,我们对相邻叶子的定义包括与标签相对应的叶子克1和克2这对叶子是唯一一对没有被NNI移动分开的相邻叶子。
定义2。
Caterpillar树G和S的区别在于次树-树-树和再生,或SPR公司移动,如果存在一对有序边(e(电子)1,e(电子)2)在G中,如果边e1切割,边缘e(电子)2
通过放置新的二次顶点v将其细分为二,子树从e开始1
连接到顶点v,使得v现在具有三级并且是子树的祖先,然后得到树S(,).
在SPR移动中,请注意边缘可能e(电子)2成为根的边缘祖先G公司.
定义3。
Caterpillar树G和S的区别在于循环置换如果存在G的分量G′和S的分量S′,使得S′的标号表示G′标号的循环置换.
根据组件的定义,此定义不包括同时涉及由最少的边与根分隔的叶和由最多的边与根部分隔的叶的排列,除非涉及所有叶。
定义4。
卡特彼勒树G和S相差增量如果它们不同于循环置换,并且在G和S的规范标记向量中最多有一个标记的位置相差不止一个.
S公司可以不同于G公司由向前地或a颠倒循环或增量(,). 如果S公司不同于G公司通过向前递增或循环,然后G公司不同于S公司通过反向递增或循环,反之亦然。注意,交换两个叶子的每个循环置换同时是向前递增、反向递增和NNI移动。
我们可以立即观察到一对毛虫树G公司和S公司当且仅当它们也因叶标签的增量而不同时,SPR移动才会不同。将毛虫转化为毛虫的SPR动作必然会修剪和再生一片叶子。如果从G公司并重新起草至S公司然后根据修剪的叶片和再生的位置,S公司可以不同于G公司通过正向或反向递增。因此,在履带树因SPR移动而不同的情况下,合并历史的枚举是通过向前或反向递增的相关情况下的枚举来执行的。
2.3. 聚合历史
我们研究毛虫的合并历史基因树G和一只毛毛虫物种树S,被视为二叉、有根、有叶标记的毛虫树,每棵都有n个由从同一集合中抽象绘制的标签标记的叶子X(X)。此设置对应于G公司代表通过在每个n个物种树中的物种S公司.基因树G公司和物种树S公司据说是匹配如果G公司和S公司具有相同的标记拓扑,它们被称为不匹配的否则。
从形式上讲,合并历史可以定义如下[19].
定义5。考虑一对有序的二叉、根、叶标签树(G,S),其标签是从同一标签集X中双向抽取的。合并历史是从G的内部节点集到S的内部边集的函数h,它满足两个条件:
对于G的每个内部节点v,G标记叶的所有叶标记都是从S的边缘h(v)下降的。
对于所有内部节点对v1,v2在G中,如果节点v2从节点v下降1以G为单位,然后是边缘h(v2)从边缘h(v)下降1)以S为单位。
图示出现在忆及我们认为S公司包含其根的祖先边缘;此边缘可以是的内部节点的图像G公司在合并历史映射下。注意,在定义5的第2部分中,由于边缘是从自身平凡下降的,因此允许小时(v(v)2)等于小时(v(v)1).
共同的历史。(A) 基因树G公司和物种树S公司使用相同的标签集。基因树以蓝色显示,物种树以黑色显示。(B) (A)中描述的合并历史(G公司,S公司). 箭头连接的内部节点G公司到其关联边S公司.
我们将有机会使用部分合并历史的概念。
定义6。
考虑一对有序的二叉根叶标记树(G、 S公司)其标签是从同一标签集X中绘制的,不一定是主观的。A类部分合并历史是从G的内部节点集到S的内部边集的函数h,满足定义5中的两个条件.
我们说如果G公司是空的,那么(G公司,S公司)有一段部分合并的历史。对于非空G公司,因为中的标签G公司不一定与S公司,对于某些节点v(v)在里面G公司,S公司没有可以用作中节点图像的边缘G公司在这种情况下,这对(G公司,S公司)没有部分合并历史。当将定义5中的合并历史的纯图形定义与合并历史出现的生物学背景联系起来时,我们说内部节点v(v)属于G公司是一个基因树聚结; 据说聚结发生在边缘小时(v(v))第页,共页S公司.
2.4。加泰罗尼亚数和单调路径
我们回顾了一些关于加泰罗尼亚数的结果,以及它们在计算方格边上的路径时的使用。这个加泰罗尼亚层序{C类n个}n个⩾0满足
开始于n个=0,值为1、1、2、5、14、42、132、429、1430、4862…
加泰罗尼亚数字可以放在组合结构中,称为加泰罗尼亚三角[14],其中我们显示了前六列:
在这个三角形中,左下角的首字母1表示为天(0, 0). 表示其他条目天(n个,k个),带有n个作为与左下角的水平距离k个作为与此条目的垂直距离。
对于n、 k带0⩽k个⩽n个,条目(n个,k个)满足递归关系
具有初始条件天(0, 0) = 1. 通用公式天(n个,k个)是
特别是,对于k个=n个,我们有天(n个,n个) =C类n个.
条目天(n个,k个)计算第一象限中晶格上单调路径的数量(n个,k个)不与直线相交的平面(包括坐标轴)k个=n个,其中单调路径是从(0,0)到的路径(n个,k个)它在晶格上向上和向右逐级前进。
我们还将利用加泰罗尼亚三角的延伸加泰罗尼亚语m级梯形,其中包含的初始列为米条目等于1,而不是单个条目[14]. 条目天米(n个,k个)加泰罗尼亚的梯形满足了等式2:
我们有天1(n个,k个) =天(n个,k个). 加泰罗尼亚梯形的前五列第3级如下:
梯形图中的条目可以用闭合形式计算为
条目天米(n个,k个)在加泰罗尼亚语的梯形中米计算网格的第一象限中的单调路径的数量(n个,k个)不与直线相交的平面(包括坐标轴)k个=n个+米– 1.
三。 合并历史和阻塞单调路径的双射
3.1. 匹配基因树和物种树
德南[2]证明了匹配毛虫基因树的合并历史数G公司和物种树S公司具有n个labels是加泰罗尼亚数字C类n个–1,证明了合并历史和不跨越年=x个正方形格子的对角线。我们将讨论这个众所周知的对应关系,因为双射方法对于非匹配情况很有用。
引理7。
匹配的n叶毛虫基因树G和种树S的合并历史可以与不穿过y=x对角线的单调路径双向关联(n个– 1) × (n个– 1)晶格.
证明。标记的内部节点G公司从1到n个–1,使用1表示距离樱桃最近的内部节点n个–1表示根。对于的每个内部节点G公司,标识节点的标签,使其边缘直接指向该节点。同样,顺序标记的内部节点S公司从1到n个–1,从樱桃开始到根部,用其直接的祖先边缘识别每个节点的标签。
对于每个j个带1⩽j个⩽n个–1,表示为G公司j个以节点为根的基因树的子树j个,对于每个我与1⩽我⩽n个–1,表示为S公司我以节点为根的物种树的子树我。我们还定义G公司0和S公司0分别为基因树和物种树的空子树。表示方式A类i、 j个的部分合并历史集(G公司j个,S公司我). 用于匹配G公司和S公司,每个j个带0⩽j个⩽n个– 1,G公司j个=S公司j个因此,通过定义每个内部节点的合并历史j个第1页,共1页G公司,图像小时(j个)在融合的历史中小时第页,共页(G公司,S公司)必须是祖先S公司所有树叶S公司按中的标签标记G公司j个.的边缘S公司具有此属性的边j个,j个+ 1,…,n个– 1. 对于j个⩾1,我们有j个⩽小时(j个) ⩽n个–1和A类i、 j个=全部为0(我,j个)带有我<j个.
中的每个部分合并历史A类i、 j个以两种方式之一形成。基因树节点j个⩾1映射到物种树内部边缘我,或到其中一条边1、2、…、,…,我– 1. 前一种情况会产生A类i、 j个–1部分合并历史,每个都是通过附加基因树节点的合并而获得的j个部分合并历史(G公司j个–1,S公司我). 后一种情况会产生A类我–1,j个部分合并历史;因为在这种部分合并历史中,物种树边缘没有发生基因树合并我,每个这样的部分合并历史(G公司j个,S公司我)是的部分合并历史(G公司j个,S公司我–1). 因此,我们有
带有约束A类i、 j个对于j个⩾1和我<j个。对于j个=0和0⩽我⩽n个–1,我们有A类我,0=1,根据惯例(G公司,S公司)有一个空的部分合并历史G公司。我们设置了A类i、 j个=全部为0(我,j个)不满足0⩽的i、 j个⩽n个– 1.
递归6及其基本情况,具有我担任n个和j个担任k个,正是等式2.设置我=j个=n个– 1,等式2给出了枚举不穿过年=x个对角线(n个– 1) × (n个–1)方形格子,一组C类n个–1元素。在合并历史和单调路径之间的双射中,格中向右的每一步都递增我,对应于将物种树的另一个边缘合并为基因树合并的可能位置,并且每一步都会递增j个对应于基因树合并的发生。■
我们可以读到(G公司,S公司)从其相关的单调路径(). 例如,在10叶树中,经过(0,0)、(3,0),(3,2)、(6,2),(6,3),(7,3)、(7,7)、(9,7)和(9,9)的单调路径在上述物种树的边缘1上没有基因树合并(A类,B)或在上面的边缘2上((A类,B),C类). 基因树合并(A类,B)和((A类,B),C类)出现在物种树节点上方的边缘3上(((A类,B),C类),天). 边缘4或5上没有发生基因树合并。基因树合并(((A类,B),C类),天)出现在边6上。四个基因树合并发生在物种树节点上方的边缘7上(((((((A类,B),C类),天),E类),F类),G公司),H(H)). 剩下的两个基因树合并发生在物种树根上方的边缘9上。
不在年=x个对角线(n个–1)×(n个–1)匹配毛虫基因树和物种树的方形格子和合并历史n个=10片叶子。左下角表示原点(0,0)。从(0,0)到的单调路径(我,j个)表示部分合并历史A类我,j个的(G公司j个,S公司我). 值A类我,j个取自等式2,使用(我,j个)代替(n个,k个). 从左到右读取物种树内部边缘:AB公司标记物种树的内边缘,从中A类和B下降,并且每个连续的标签都指示对应于关联标签的叶子和包含所有先前标签的毛虫子树的内部边缘祖先。基因树内部节点以相同的方式从下至上读取。红色所示的单调路径表示特定聚合历史的基因树聚合在物种树上的位置:聚合(A类,B)和((A类,B),C类)出现在物种树节点上方(((A类,B),C类),天),聚结(((A类,B),C类),天)出现在物种树节点上方((((((A类,B),C类),天),E类),F类),G公司),合并((((A类,B),C类),天),E类), (((((A类,B),C类),天),E类),F类), ((((((A类,B),C类),天),E类),F类),G公司)、和(((((((A类,B),C类),天),E类),F类),G公司),H(H))出现在物种树节点上方(((((((A类,B),C类),天),E类),F类),G公司),H(H))和聚合((((((((A类,B),C类),天),E类),F类),G公司),H(H)),我)和(((((((((A类,B),C类),天),E类),F类),G公司),H(H)),我),J型)发生在树种树根上方。
合并历史和单调路径之间的双射生成了一组的值A类i、 j个考虑了每一个我和j个带0⩽i、 j个⩽n个–1和我⩾j个。这些值可以在格子中描述,因此值A类i、 j个与点阵点的坐标有关(我,j个) (). 事实上,它们与加泰罗尼亚三角的条目完全对应(等式3),带有我担任n个和j个担任k个.
该结构利用了基因树和物种树的毛虫形状。因为卡特彼勒树的内部节点可以按顺序放置,每个条目从下一个开始下降,直到到达根,所以简单地说明下一个叶子标签就足以指定从下一个内部节点下降的叶子。在中从左向右移动表示从物种树的樱桃向根部移动,从下到上的移动表示基因树中的聚合。
3.2. 非匹配基因树和物种树
我们的关键见解是,德南建筑的一个版本[2]即使基因树和物种树不匹配,也可以将合并历史和单调路径联系起来,前提是两者都是毛虫。非匹配毛虫的聚集历史可以与路障不在年=x个对角线(n个–1)×(n个–1)方形格子。
定义8。
在格子中路障单调路径是一条不允许通过特定晶格点的单调路径。我们称这些格点为路障。
考虑一个毛虫基因树G公司还有一棵毛虫物种树S公司,它们的叶子都与同一组n个叶子,但那不一定匹配。如中所示第3.1节,我们将x轴上的点关联(n个– 1) × (n个–1)具有种树内部边缘的晶格S公司,并且我们将y轴上的点与中的基因树内部节点相关联G公司。我们继续标记的内部节点G公司和S公司按从1到的递增顺序n个–1,从樱桃到根,通过以下方式索引基因树内部节点j个物种树内部节点由我.
在匹配的情况下,对于每个j个从1到n个–1,每个合并历史必须具有小时(j个) ⩾j个,作为基因树内部节点j个必须映射到一个种树的内部边缘,该种树的祖先叶数至少与从节点下降的叶数相同j个在里面G公司因此(G公司,S公司)对应于具有j个⩽我因此不会穿过年=x个格子的对角线。然而,另一个约束是由以下事实强加的:G公司和S公司不一定匹配。
鉴于G公司和S公司,让π(G公司)表示基因树叶子标签的排列克= (克1,克2,…,克n个)由树种树叶标签表示秒= (秒1,秒2,…,秒n个). 的操作π从一个n个-元组到另一个元组,我们在中表示索引S公司属于克k个,的k个第个标签,共个G公司,由πk个(G公司).
对于叶子标签克1,克2,…,克n个在里面G公司,让(f)(克k个)表示的最小内边缘S公司叶的祖先秒πk个(G公司),带标签的树种树叶克k个.对于匹配的基因树和物种树(G公司,S公司),π是身份置换,因此πk个(G公司) =k个; 然后我们有(f)(克1) =(f)(克2)=1,以及(f)(克k个) =k个–1代表3⩽k个⩽n个.
对于一般情况(G公司,S公司)根据定义5,(i)如果k个=1或k个=2,则(f)(克k个)=最大值ℓ∈{1,2}
πℓ(G公司)–1和(ii)如果3⩽k个⩽n个,然后(f)(克k个) =最大值ℓ∈{1, 2,…,k个}
πℓ(G公司) – 1. 这个规则编码了这样一个事实,即基因树合并只能发生在所有物种树叶子的祖先种树边缘上,这些叶子由基因树合并生成的叶子的标签集元素标记。
考虑部分合并历史A类i、 j个具有我⩾j个.如中所示第3.1节,用于j个⩾ 1, ∣A类i、 j个=全部为0(i、 j个)带有我<j个.对于每个j个从1到n个–1,最小内边缘S公司它是所有叶子的祖先G公司从基因树内部节点下降j个是(f)(克j个+1). 因此,对于j个⩾1,我们有A类i、 j个=全部为0(我,j个)带有我<(f)(克j个+1). 请注意,这些(我,j个)唯一的障碍是:j个⩾ 1,(f)(克j个+1) ⩾j个,作为(f)(克j个+1)比最大值少一j个+{1,2,…的1个不同元素,…,n个–1},一个大于或等于j个。对于j个⩾1,因为A类i、 j个所有点阵点的=0(我,j个)带有我<(f)(克j个+1),所有这些都是障碍。
我们还注意到,对于1⩽j个⩽j个′ ⩽n个– 1,(f)(克j′+1) ⩾(f)(克j个+1). 内部节点的后代叶集j′+第1页,共页G公司包含内部节点的子代叶作为子集j个+第1页,共页G公司因此S公司标记叶子的所有标签的祖先都是内部节点的后代j′+第1页,共页G公司索引至少与相应的内部边缘一样大S公司与内部节点关联j个+第1页,共页G公司。因此,如果(我,j个)是一个路障,因为我<(f)(克j个+1)和(f)(克j个′+1) ⩾(f)(克j个+1)对于j′⩾j个,我们可以得出结论(我,j′)是每个人的障碍j′具有j个⩽j′⩽我.
如中所示第3.1节中的每个部分合并历史A类i、 j个以两种方式之一形成。对于j个⩾1,基因树节点j个映射到物种树内部边缘我,或到其中一条边1、2、…、,…,我– 1. 前一种情况产生A类i、 j个–1部分聚结历史,而后者产生A类我–1,j个∣. 因此,递归A类i、 j个∣ = ∣A类i、 j个–1∣ + ∣A类我–1,j个仍然满意。我们仍然有一些限制A类i、 j个对于j个⩾1和我<j个, ∣A类我,0=1,用于j个=0和0⩽我⩽n个–1和A类i、 j个=全部为0(我,j个)不满足0⩽的i、 j个⩽n个– 1. 我们还有一个新的约束A类i、 j个=全部为0(我,j个)让人满意的我<(f)(克j个+1).
为(G公司,S公司)由定义BG、 S公司= {(我,j个) ∣ 1 ⩽j个⩽我⩽n个–1和我<(f)(克j个+1)}. 因此,我们证明了以下命题。
提案9。
考虑一棵毛虫基因树G和一棵有n片叶子的毛虫物种树S. (G、 S公司)可以与一组路障B关联G、 S公司这样(G、 S公司)双向对应于不穿过y=x对角线的道路阻塞单调路径(n个– 1) × (n个– 1)晶格.
根据定义BG、 秒,我们立即发现如果(i、 j个)是1⩽的路障j个⩽我⩽n个–1,然后(k、 j个)也是每个人的障碍k个具有j个⩽k个⩽我。我们还可以看到,如果(我,j个)是1⩽的路障j个⩽我⩽n个–1,然后(我,ℓ)也是每个人的障碍ℓ具有j个⩽ℓ⩽n个– 1; 这一结果源于以下事实(f)(克j个′+1) ⩾(f)(克j个+1)用于1⩽j个⩽j′⩽n个– 1. 我们有以下评论。
备注10。
考虑一个毛虫基因树G和一个有n片叶子的毛虫物种树S。设置的路障BG、 S公司由一组点组成(i、 j个)具有1 ⩽j个⩽我⩽n个– 1如果(i、 j个) ∈BG、 S公司,然后(i)(k、 j个) ∈BG、 S公司对于所有带j的k⩽k个⩽i、 和(ii)(我,ℓ) ∈BG、 S公司为所有人ℓ 带j⩽ℓ⩽我.
说明了合并历史和阻塞单调路径之间的对应关系。在,我们有((f)(克1),(f)(克2),(f)(克三),(f)(克4),(f)(克5),(f)(克6),(f)(克7),(f)(克8),(f)(克9)) = (5, 5, 5, 5, 6, 8, 8, 9, 9). 因为(f)(克1+1)=5,(4,1)是一个路障,(3,1)、(2,1)和(1,1)也是如此,原因相同((我,j个)是一个路障,如果j个⩽我<(f)(克j个+1)). 因为(f)(克2+1)=5,(4,2)也是一个障碍,正如(3,2)和(2,2)一样。我们还可以通过备注10将(4,2)、(3,2)和(2,2)识别为路障,因为(4,1)、(3,1)和(2,1)都是路障。继续完成所有(我,j个),我们在.
不在年=x个对角线(n个– 1) × (n个–1)非匹配毛虫基因树和物种树的方形格子和合并历史n个=10片叶子。路障用格子点上的圆圈表示;没有道路堵塞的单调路径穿过阴影区域。否则,图形设计如下.
从命题9中,我们立即得到(G公司,S公司)由不超过年=x个对角线(n个– 1) × (n个–1)格子,其中障碍是集合中的障碍BG、 S公司.我们还获得了以下推论的简单证明,即Degnan&Rhodes的备注15[三].
推论11。
考虑一个毛虫基因树G和一个有n片叶子的毛虫物种树S。的合并历史数(G、 S公司)G=S严格大于每个G选项≠S公司.
证明根据命题9(G公司,S公司)对应于不穿过年=x个对角线(n个– 1) × (n个–1)格子。
对于G公司=S,应用引理7,合并历史的数量是不穿过年=x个对角线的。向晶格添加路障必然会将单调路径的数量从(0,0)减少到(n个– 1,n个–1),因为每个晶格点至少有一条单调的路径通过它。因为(G公司,S公司)等于格上被阻塞的单调路径的数量,这足以证明对于G公司≠S公司,至少有一个格点是一个障碍。
因为G公司≠S公司,存在一些内部节点j个属于G公司至少一个其子代叶的标签不包含在从内部节点派生的叶的标签集中j个属于S公司.这片叶子有j个<(f)(克j个+1). 因此(j个,j个)是一个路障,并且(G公司,S公司)与更少的单调路径相关(S公司,S公司). ■
3.3. 路障设置
给定毛虫物种树S公司,备注10建议考虑所有毛虫基因树,对可能的障碍集进行特征描述G公司。每个路障集都有一个属性,即在一行中,所有路障都指向路障的左侧以及路障上方或下方年=x个对角线也是障碍。在一列中,路障上方和路障上方或下方的所有点年=x个对角线是路障。
提案12。
考虑一棵有n片叶子的毛虫物种树S。对于每个有n片叶子的毛虫基因树G,用B表示其相关路障G、 S公司.考虑所有n!/2可能的毛虫基因树,不同的路障集与Cn个–1
上的单调路径(n个– 1) × (n个– 1)不穿过y=x对角线的晶格.
证明考虑设置路障BG、 S公司.对于每个我从1到n个–2,我们确定最大的j个这样的话(我,j个)不是一个障碍。调用此值j个我。唯一的单调路径连接(0,0),(1,j个1), (2,j个2),…, (n个– 2,j个n个–2), (n个– 1,n个–1):通过备注10,针对每个我和每个j个>j个我, (我,j个)要么是路障,要么就在年=x个行。因此,表示j个0=0和j个n个–1=n个–1个,每个我从1到n个–1,单调路径(我– 1,j个我–1)至(我,j个我)必须按长度1水平前进,然后按长度垂直前进j个我–j个i–1个.
为了证明这种结构是内射的,请注意不同的单调路径与不同的路障集相关联:考虑一个点(我,j个我)出现在一条单调的路径中P(P)1但不是在另一个,P(P)2.因为j个我是的最大值j个这不是道路的障碍P(P)1, (我,j个我)一定是个路障P(P)2.对于满射性,考虑一条从(0,0)到的单调路径(n个– 1,n个–1)不跨越年=x个行。对于每个(我,j个我)在路径中,1⩽我⩽n个–2,其中j个我是的最大值j个对于这一点(我,j个)在路径中,我们分配每个点(我,ℓ)带有j个我<ℓ⩽我成为一个路障。■
提供了命题12的说明,显示了与路障集相关联的单调路径是如何构造的,反之亦然。与路障集相关联的单调路径可视为尽可能靠近路障的单调路径。单调路径的路障集是路径上方和左侧的点集。
路障集之间的对应关系,不在年=x个对角线(n个– 1) × (n个–1)方形格子和半长Dyck路径n个– 1. 给定一个路障集,通过识别每个路障来构造相关的单调路径x个坐标从0到n个–1最大晶格点年然后通过这些点构造唯一的单调路径。类似地,给定一条单调路径,它的路障集是通过在路径左侧和上方的每个格子点放置路障来获得的。(A) 横穿线路对称设置路障年=n个–1–x个.(B)全线不对称设置的路障年=n个– 1 –x个(C)路线上的路障设置不对称年=n个– 1 –x个,通过在该线上反射(B)中的路障获得。(D) 与(A)中设置的路障相关的对称Dyck路径。(E) 与(B)中设置的路障相关的非对称Dyck路径。(F) 与(C)中设置的路障相关的非对称Dyck路径,通过反转(E)中的Dyck轨迹获得。(B)和(C)中设置的路障均生成235条从(0,0)到(9,9)的单调路径。
不同毛虫树的数量为n个!/2,而不同路障设置的数量较小C类n个–1。对于给定的毛虫物种树,我们可以将n个!/将两个毛虫基因树划分为等价类,其中两个基因树被称为历史等效当且仅当它们与同一路障集关联时。两种历史上等价的毛虫树G公司1和G公司2具有相同的路障集和相同的单调路径集,因此,具有相同的合并历史集,直至叶标签的排列。这些等价类被称为历史类作者:Rosenberg&Tao[20],所以两条路障相同的毛毛虫在同一个历史类中。
根据命题12,对于固定物种树,考虑所有毛虫树的历史类数为C类n个–1; 该结果与5个历史类的计算结果一致n个= 4 [15,表V]和14n个= 5 [20,表3]。我们在结论11中也看到C类n个–1是一对毛虫树的合并历史的最大可能数量。现在,我们询问1、2、…、,…,C类n个–1可以是某些毛虫基因树和物种树的合并历史数。
这个量的最简单上界是C类n个–1为了改进这个界限,可以方便地在不跨越年=x个对角线(n个– 1) × (n个–1)格子和半长n的Dyck路–1[22,推论6.3.2]。每个单调路径表示由(1,0)或(0,1)从(0,0)到(n个– 1,n个–1),带x个⩾年在每个步骤中。每个Dyck路径表示由(1,1)或(1,−1)从(0,0)到(n–1,0)的一系列步骤,其中年每个步骤为0。的合并历史(G公司,S公司)因此,可以与Dyck路径相关联,其中每个向上步骤表示物种树中物种的添加,每个向下步骤表示基因树的合并。
一条半长的Dyck小路n个–1有2n个–总共2个上下步。Dyck路径的步骤可以写为序列单位表示向上的步骤和天表示向下的步骤。Dyck路径可以是颠倒的按照以下方式:我们采用单位和天步骤,颠倒步骤的顺序,并交换单位和天步骤。因此,一条路径UUUDUDD(UUUD)成为UUDUUDUDD。反转Dyck路径对应于以相反的顺序遍历路径。反向戴克路径本身就是戴克路径;如果单位和天Dyck路径中的步骤颠倒,然后年⩽每一步0;交换单位和天台阶反映了年=0轴。
引理13。
考虑一棵有n片叶子的毛虫物种树S。考虑基因树G1
和G2
n片叶子(i、 j个)在路障B组G公司1,S公司
当且仅当(n个– 1 –j、 n个– 1 –我)在路障组B中G公司2,S公司.然后(G公司1,S公司)和(G公司2,S公司)具有相同数量的合并历史记录.
证明。我们证明了(G公司1,S公司)可以客观地与(G公司2,S公司). 考虑以下合并历史(G公司1,S公司). 确定其相关的单调路径M(M)1根据命题9,确定Dyck路径P(P)1与这个单调的路径相关。反向P(P)1以获得,并识别单调路径与关联.
因为M(M)1避开每个障碍(我,j个)英寸BG公司1,S公司,之后我+j个步骤,P(P)1不可能已经采取我上步和j个向下走。因为与…相反P(P)1,在2之后n个– 2 –我–j个步骤,不可能已经采取n个– 1 –j个上步和n个– 1 –我向下走。单调的路径因此避免了这一点(n个– 1 –j个,n个– 1 –我)每个路障(我,j个)英寸BG公司1,S公司因此,避开每一个路障BG公司2,S公司因此,它代表了G公司2。同样,从(G公司2,S公司)与关联,我们发现M(M)1表示的合并历史BG公司1,S公司. ■
引理表明,对于两个路障集,如果可以通过变换每个路障来获得它们的路障(i、 j个)一个人变成了路障(n个– 1 –j、 n个– 1 –我)在另一种情况下,关联的毛虫基因树具有相同数量的合并历史。
考虑一组点B在或低于年=x个第一象限的对角线(n个– 1) × (n个–1)格子(而不是直线年=0或x个=n个–1)如果(我,j个) ∈B,然后(k个,j个) ∈B为所有人k个具有j个⩽k个⩽我和(我,ℓ) ∈B为所有人ℓ具有j个⩽ℓ⩽我根据提议12,给定毛虫物种树,B是一些毛虫基因树设置的路障。我们称这种集合为适合毛虫的设置路障。
定义14。
考虑为(n个– 1) × (n个– 1)格子。我们说B是对称的,如果(i、 j个) ∈B中,(n个– 1 –j、 n个– 1 –我)也在B中。否则,B为不对称。
在对称的毛虫友好路障集中,路障集中的点在直线上反射时年=n个– 1 –x个,获得相同的路障集(). 对于非对称的履带式路障集,通过此反射可以获得不同的路障集(和).
对于(n个– 1) × (n个–1)格,表示为问n个–1和R(右)n个–1对称和非对称履带友好路障集的数量。通过引理13,非对称毛虫友好路障集可以划分为不相交的对,使得一对中两个条目的相关毛虫基因树产生相同数量的合并历史。因此,考虑到所有毛虫基因树和物种树,合并历史数可能的不同值的数量上限为问n个–1+R(右)n个–1/2,或者因为问n个–1+R(右)n个–1=C类n个–1,由(C类n个–1+问n个–1)/2.
我们获得问n个–1通过计算设置路障的所有方法(我,j个)带有我+j个⩽n个– 1. 然后通过对称性分配点(n个– 1 –j、 n个–1–我)也会成为障碍。由于路障集和单调路径之间的双向投影(命题12),每个路障集(我,j个)带有我+j个⩽n个–1与从(0,0)到点的单调路径双向关联(我,n个– 1 –我)对一些人来说我带0⩽我⩽n个– 1.
引理15。
Q的值n个–1
是
.
证明.使用等式3,从(0,0)到的单调路径数(我,n个– 1 –我)对一些人来说我带0⩽我⩽n个–1由总和获得
第一笔金额为对于奇数n个、和2n个–2即使如此n个.第二个总数为对于奇数n个、和即使如此n个结合这些案例,结果如下。■
这一结果出现在博宁等. [1,定理2.5]作为Dyck路径的不同前半部分的数量,并且在Deng中等. [7,定理4.2]作为反向下不变的Dyck路径数。
第16号提案。
可以等于至少一对合并历史数的值集的大小(G、 S公司)由一个n叶毛虫基因树G和一个n叶毛虫物种树S组成,其上边界为Tn个–1= (C类n个–1+问n个–1)/2,或
这一数量出现在博宁的一个相互关联的上下文中等[1,定理4.2]给出了反向之前的不同Dyck路径数。引理15和命题16中公式的数值如所示.
表1。
毛虫基因树和毛虫物种树的合并历史的数量可能的不同值的数量。
数量 叶子n个 | 编号 不同的 路障 套 | 道路数量 块集关联 用密封圈密封 ric Dyck路径 | 道路数量 块集关联 患有阿司匹林 公制Dyck路径 | 上的上限 不同的数量 数字的值 合并历史 | 数据的确切数量 的tinct值 聚结数 历史 |
---|
符号 | C类n个–1 | 问n个–1 | P(P)n个–1 | T型n个–1 | |
---|
公式 | | | C类n个–1–问n个–1 | (C类n个–1+问n个–1)/2 | |
---|
OEIS记录 | A000108号 | A001405号 | A306292型 | A007123号 | |
---|
2 | 1 | 1 | 0 | 1 | 1 |
三 | 2 | 2 | 0 | 2 | 2 |
4 | 5 | 三 | 2 | 4 | 4 |
5 | 14 | 6 | 8 | 10 | 10 |
6 | 42 | 10 | 32 | 26 | 21 |
7 | 132 | 20 | 112 | 76 | 56 |
8 | 429 | 35 | 394 | 232 | 154 |
9 | 1430 | 70 | 1360 | 750 | 440 |
10 | 4862 | 126 | 4736 | 2494 | 1373 |
11 | 16796 | 252 | 16544 | 8524 | 4310 |
12 | 58786 | 462 | 58324 | 29624 | 13925 |
4 合并历史的非递归枚举
在建立了非匹配毛虫的合并历史和道路阻塞的单调路径之间的对应关系后,我们现在转向枚举可能不匹配毛虫基因树和物种树的合并历史。我们可以根据命题9通过枚举阻塞的单调路径来递归地做到这一点;我们还可以通过应用等式1.
在不损失通用性的情况下,考虑到两个子树直接从树的根上下来,我们将左子树视为叶子数大于或等于右子树的叶子数。然后,毛虫树的右子树有一片叶子,因此在等式1,右子树G公司R(右)在递归的每个连续步骤中始终只有一个叶。因此,术语BG公司R(右),T型(G公司R(右),S),k个+d日(G公司R(右),S),遵循递归的基本情况并等于1。等式1,描述毛虫基因树的合并历史数G公司和一棵物种树S公司,然后减少到
具有初始条件BG、 S,米=1代表所有米什么时候G公司有一片叶子。
如果S公司也是一棵毛虫树n个离开,然后我们可以迭代递归n个–每一步减少一次左子树的大小G公司我一个,直到G公司我具有单个叶,则应用基本情况,和等于1。每次迭代都会引入一个新的求和,其上限取决于相关的d日(G公司我,S公司),分隔根的边数T型(G公司我,S公司)从…的根S公司。继续标记的内部节点G公司从1到n个–1按照从樱桃到根部的递增顺序,我们将内部节点关联起来j个属于G公司带索引k个n个–j个.设置整数参数米等于1,我们有
其中常量c(c)j个表示的附加边数S公司基因树合并的可能位置j个但这不可能实现基因树的合并j个+ 1.
对于1⩽j个⩽n个–1,考虑基因树内部节点j个.让我j个是所有标签的集合j个+1片叶子从j个。遵循中的定义等式1,让T型j个(G、 S公司)表示的最小子树S公司具有每个标签的属性我j个给它的一片叶子贴上标签,然后让d日j个表示分隔根的边数T型j个(G、 S公司)从…的根S公司.然后d日j个+1给出了的边数S公司哪个基因树合并j个可以发生(+1表示的根边缘S公司). 数量u个j个=n个– 1 –j个–d日j个,等于的边数S公司至少是祖先j个+1片叶子(或n个–j个)但在哪个基因树上合并j不能发生,表示路障数量(我,j个)带有固定的j个和我⩾j个.
对于j个= 1, 2,…,n个–2,所需数量c(c)j个,的附加边数S公司可用于聚合j个但不用于合并j个+1,等于c(c)j个=d日j个–d日j个+1因此,我们提出了以下主张。
提案17.考虑一个毛虫基因树G和一个有n片叶子的毛虫物种树S。的合并历史数(G、 S公司)通过以下方式获得等式8,其中向量(c(c)1,c(c)2,…,c(c)n个–2)作为函数获得
c(c)(G、 秒)这只取决于G和S的拓扑结构.
注意,如果G公司和S公司匹配,然后针对每个j个从1到n个– 1,G公司j个=T型j个(G公司,S公司),因此d日j个=n个– 1 –j个,u个j个=0,并且没有路障发生。我们有c(c)j个=各1j个从1到n个–2,和等式8成为
等于加泰罗尼亚数字C类n个–1[16,定理3.4]。
我们以中的基因树和物种树为例。我们报告了u个j个,d日j个和c(c)j个在里面.合并历史的数量为
表2。
与毛虫基因树合并历史计数相关的数量(((((((((A类,F类),B),C类),天),G公司),我),H(H)),J型),E类)和物种树(((((((((A类,B),C类),天),E类),F类),G公司),H(H)),我),J型).
基因树中的内部节点索引G公司(j个) | 9 | 8 | 7 | 6 | 5 | 4 | 三 | 2 | 1 |
---|
总和指数(n个–j个) | 1 | 2 | 三 | 4 | 5 | 6 | 7 | 8 | 9 |
路障数量(u个j个) | 0 | 1 | 1 | 2 | 1 | 1 | 2 | 三 | 4 |
根之间的距离T型j个(G公司,S公司)和的根S公司(d日j个) | 0 | 0 | 1 | 1 | 三 | 4 | 4 | 4 | 4 |
可能合并的节点j个但不是j个+ 1 (c(c)j个=d日j个–d日j个+1) | 不适用 | 0 | 1 | 0 | 2 | 1 | 0 | 0 | 0 |
求和项 | | | | | | | | | |
我们也可以通过对阻塞的单调路径进行递归求和来获得这个结果().
通过详尽地使用命题17,我们可以评估n个!/2个毛虫基因树n个树叶。此详尽计算适用等式8包含所有可能的矢量(c(c)1,c(c)2,…,c(c)n个–2)对应于基因树-换句话说C类n个–1向量对于每个j个从1到n个– 2 [23,更换一我在第81项中c(c)k个].
16号提案中关于合并历史数量的不同值数量的上限相对较小n个,但已经是精确计算的两倍多n个= 12 (). 不同值(21)的数量与上限(26)不同的最小情况发生在n个=6片叶子,其中1、2、3、4、5、6、7、9、10、12、13、14、16、17、19、22、23、26、28、32和42是合并历史数的可实现值。值5、9、10、14和19都是通过两组不同的路障实现的,这两组路障在反转相关的Dyck路径时并不相等。
因为问n个–1≪C类n个–1,毛虫对合并历史个数的不同值个数的上界渐近等价于C类n个–1/2,毛虫最大合并历史数的一半。因此,尽管毛虫的数量n个!/2的增长速度比合并历史的最大数量快得多C类n个–1,在实际的毛虫基因树中,只有在合并历史数的可能值范围内的最大值的一半是渐近的。
5 毛虫基因树和物种树的特殊科
从命题9和17中,我们可以得到描述非匹配毛虫树的特殊对的合并历史数的各种推论。对于某些类型的对,合并历史的数量可以用闭合形式获得。
5.1. 最近邻间变化
对于固定的毛虫物种树S公司,我们首先考虑毛虫基因树G公司不同于S公司通过一次最近邻移动(NNI)。我们得到了以下结果。
提议18.考虑一个有n片叶子的毛虫物种树S和一个与S不同的毛虫基因树G的NNI移动。(i) 设置的路障BG、 S公司由单个点组成(i、 我)关于正方形格的对角线,对于某些i1 ⩽我⩽n个–2。(ii)(G,S)的合并历史数为
C类n个–1–C类我C类n个–1–我.
证明我们使用合并历史和阻塞单调路径之间的双射(命题9)。我们给树上的叶子贴上标签,从1到n个如中所示第3.2节,使用排列π绘制树叶的地图G公司在树叶上S公司根据定义1,NNI移动交换一对标记为k个和k个+1英寸G公司对一些人来说k个∈{2,3,…,n个–1},或者它交换离开1和3。让k个秒为参与NNI移动的树叶的两个标签中较小的一个,并让k个ℓ是两个标签中较大的一个。然后我们有πk个秒(G公司) =k个秒+1和πk个秒+1(G公司) =k个秒如果k个秒∈ {2, 3,…,n个–1},以及π1(G公司)=3和π三(G公司)=1,如果k个秒= 1.
(i) 以下第3.2节,用于(G公司,S公司)不同之处在于NNI移动一次S公司叶的祖先k个秒属于G公司是(f)(克k个秒) =k个秒如果2⩽k个秒⩽n个–1,和(f)(克1)=2,如果k个秒= 1. 路障(我,j个)方格中的点满足我<(f)(克j个+1). 通过施工(k个秒– 1,k个秒–1)是唯一的障碍,如果2⩽k个秒⩽n个–1和(1,1)是唯一的障碍,如果k个秒= 1.
(ii)合并历史的数量(G公司,S公司)是无障碍情况下的合并历史数,或C类n个–1(引理7),减去从(0,0)到(n个– 1,n个–1)不穿过对角线且穿过路障。对于路障(我,我),后一个数量是C类我C类n个–1–我,乘以单调路径的数量C类我从(0,0)到(我,我)与对角线不相交的单调路径数(我,我)至(n个– 1,n个–1)不穿过对角线。■
用一对说明命题18的结果(G公司,S公司)只差一个NNI动作。如命题9所获得的,该示例的合并历史的数量为4274。使用命题18,我们可以看到4274=C类9–C类4C类5= 4862 – 14 × 42.
毛虫基因树的合并历史数G公司和物种树S公司不同于最近邻距(NNI)移动。(A)G公司和S公司不同于NNI的一次移动。(B)G公司和S公司不同于多个不相交的NNI移动。
扩展命题18,我们可以建立置换时合并历史数的公式π执行k个NNI移动,,以这样的方式π由长度为2的不相交循环组成。设置的路障(G公司,S公司)这样的排列包含k个对角线上的点(n个– 1) × (n个–1)格子。对于这个路障集,我们利用包含-排除原理计算不穿过对角线的单调路径。
提案19。
考虑一个具有n片叶子的毛虫物种树S和一个与S by k不相交NNI移动不同的毛虫基因树G。然后(i)设置路障BG、 S公司由k个不同的点组成(我j个,我j个)关于方格的对角线j∈ {1, 2,…,k个},具有0 <我1< …我k个<n个–1。(ii)合并历史的数量(G、 S公司)可以写入
证明如命题18所示,我们用路障单调路径的语言重新表述了一个枚举合并历史的问题。
(i) 因为k个NNI动作是不相交的,我们可以顺序应用命题18ik个次,每次NNI移动一次。每个k个NNI移动与方形格子对角线上的路障有关,路障的位置由交换的一对叶子的身份决定:如果k个秒叶子的两个标签中较小的一个吗G公司参与移动,则路障位置为(k个秒– 1,k个秒–1)用于2⩽k个秒⩽n个–1和(1,1)用于k个秒= 1. 标记路障(我1,我1), (我2,我2),…, (我k个,我k个),使用0<我1<我2< … <我k个<n个– 1.
(ii)上单调路径的总数(n个– 1) × (n个–1)方格为C类n个–1(第2.4节). 为了得到所需数量,我们必须从中减去C类n个–1通过至少一个k个路障。根据包含-排除原理,这个量可以写成非空子集上的和β的k个通过所有路障的单调路径数的路障β特别是,对于每个j个从1到k个,表示βj个穿过路障的单调路径集(我j个,我j个),通过至少一个路障的单调路径数为
的基数βj个1⋂ ⋯ ⋂βjℓ,表示通过(0,0)的单调路径数(我j个1,我j个1), …, (我j个ℓ,我j个ℓ)、和(n个– 1,n个–1)是加泰罗尼亚数字的乘积,每对必须遍历的连续点对应一个:
结果如下。■
说明了具有三个不相交NNI移动的情况下的命题19。在此示例中,10叶树中的路障显示在(1,1)、(4,4)和(9,9)处。根据命题19,合并历史的数量为C类9 – (C类1C类8+C类4C类5+C类8C类1) + (C类1C类三C类5+C类1C类7C类1+C类4C类4C类1) – (C类1C类三C类4C类1) = 2179.
另外,建议18的结果是,对于固定的毛虫物种树S公司,非匹配毛虫基因树的合并历史数量最多G公司发生在不同于S公司通过一次NNI移动。
推论20.考虑一棵有n片叶子的毛虫物种树S。考虑所有可能的毛虫基因树G≠具有n片叶子的S,(i)(G、 S公司)路障设置为B时获得G、 S公司由单点组成
或
对于偶数n,或
对于奇数n(ii),它等于
证明首先,注意每对(G公司,S公司)谁设置了路障BG、 S公司有多个点,我们可以识别一对(G′,S公司)其路障集包括BG、 S公司因此,它的合并历史至少与(G、 S公司). 根据备注10,由单个点组成的路障组中的路障必须位于对角线上。
将命题18ii应用于毛虫基因树G公司最大化具有固定合并历史的数量S公司,合并历史的数量必须相等C类n个–1–C类我C类n个–1–我对一些人来说我与1⩽我⩽n个– 2. 罗森博格的推论3.11[16],用于固定n个,当.
根据命题18的证明S公司,这个最大值与基因树有关G公司不同于S公司在从樱桃到根的路径中,叶子邻接中间的接合处G公司转置;案件n个奇数有一个这样的合并和情况n个甚至有两个。■
推论20对推论11进行了扩展,给出了这对组合历史的确切数量(G、 S公司)在不匹配的毛虫中,它拥有最多的合并历史。对于奇数n个,推论20中合并历史的数量为例如,对于S公司= ((((A类,B),C类),天),E类)和G公司= ((((A类,B),天),C类),E类),合并历史的数量为合并历史。对于偶数n个,推论20中合并历史的数量为C类n个–1–C类n个/2–1C类n个/2例如,对于S公司= (((((A类,B),C类),天),E类),F类),两者都是G公司= (((((A类,B),天),C类),E类),F类)和G公司= (((((A类,B),C类),E类),天),F类)有C类5–C类2C类三=42–2×5=32合并历史。给出了非匹配毛虫中最大数量的合并历史n个=10片叶子。
我们可以很快观察到,不协调毛虫树中最大数量的合并历史与匹配毛虫的合并历史的增长速度相同。
推论21.考虑所有非匹配的履带对(G、 S公司)对于n片叶子(G、 S公司)渐近于Cn个–1.
证明.使用斯特林近似,,我们可以验证.
如果n个为奇数,则非匹配对的最大合并历史数满足
如果n个那就平分秋色了
在这两种情况下,主导术语占主导地位,并且C类n个–1–C类⌊(n个–1)/2⌋C类⌈(n个–1)/2⌉~C类n个–1. ■
5.2. 叶标签的反向增量
接下来,对于固定的毛虫物种树S,我们考虑基因树G公司不同于S公司通过递增。
考虑一棵毛虫物种树S公司具有n个叶子和毛虫基因树不同于S公司通过递增。根据定义,某些组件的叶子G′属于G公司和S′属于S公司不同于循环排列。回想一下,带有两个标签的增量是NNI移动。
提案22。
如果G是通过S的反向增量获得的,则路障设置为BG、 S公司由正方形格子对角线上的一组连续点组成.
证明.考虑标签k个秒,k个ℓ∈ {1, 2,…,n个},使用k个秒<k个ℓ和k个ℓ≠ 2. 根据逆增量的定义,对于G公司叶子按顺序标记k个秒,k个秒+ 1,…,k个ℓ从樱桃到根部S公司已标记πk个秒(G公司) =k个秒+1中,πk个秒+1(G公司) =k个秒+ 2,…,πk个ℓ–1(G公司) =k个ℓ,πk个ℓ(G公司) =k个秒.
与命题18的证明一样,我们计算了S公司每片叶子的祖先克k个属于G公司,k个∈ {k个秒,k个秒+ 1,…,k个ℓ}. 我们获得(f)(克k个) =k个如果2⩽k个⩽n个和(f)(克1)=2,如果k个= 1.
路障就是要点(我,j个)令人满意的我<(f)(克j个+1). 因此,我们发现障碍正是这些点(k个秒– 1,k个秒– 1),…, (k个ℓ– 2,k个ℓ–2)如果k个秒>1和(1,1)(k个ℓ– 2,k个ℓ–2)如果k个秒= 1. ■
因为所有的路障都位于反向递增的对角线上,等式9可用于计算合并历史。在应用中等式9,对角线上单调路径不能通过的不同点是(k个秒– 1,k个秒– 1),…, (k个ℓ– 2,k个ℓ–2)如果k个秒>1和(1,1)(k个ℓ– 2,k个ℓ–2)如果k个秒= 1.
例如,在,叶标签的反向增量C类,天、和E类有k个秒=3和k个ℓ=5,因此路障位于(2,2)和(3,3)处。合并历史的数量通过以下公式获得等式9作为C类9– (C类2C类7+C类三C类6) +C类2C类1C类6= 3608.
反向增量的合并历史数。(A)G公司不同于S公司通过反向递增。(B)G公司不同于S公司通过包含所有标签的反向递增。(C)G公司不同于S公司由多个不相交的反向增量组成。
如果逆增量排列所有标签,则所有点(1,1)(n个– 1,n个–1)是路障,合并历史的数量是位于年=x个线路(). 由于不通过正方形格的对角线上方的单调路径的数量,该计算给出C类n个–2融合的历史。同时等式9生成遍历点(1,1),…,的所有子集的和(n个– 1,n个– 1).
因此,通过使用等式9,这种构造给出了加泰罗尼亚数字恒等式的组合证明。
推论23。
加泰罗尼亚数字Cn个–2
可以写成加泰罗尼亚数字乘积的交替和,其中和对n的所有组成进行求和– 1:
这个恒等式可以看作是计算半长Dyck路径n个–1,两种方式都没有返回原点。C类n个–2给出了半长Dyck路径的数量n个–2,作为长度的Dyck路径n个–1无内部回报开始于一个向上步骤,然后是一个半长的Dyck路径n个–2,然后是下一步。右侧使用包含-排除原则,通过排除半长Dyck路径来执行计算n个–1至少有一次返回原点。
有趣的是,一个遍历所有标签的反向循环,即使不是递增,也会产生加泰罗尼亚数量的合并历史,因为它会生成由一条或多条对角线组成的路障集。例如,使用S公司= (((((((((A类,B),C类),天),E类),F类),G公司),H(H)),我),J型),反向递增G公司= (((((((((B,C类),天),E类),F类),G公司),H(H)),我),J型),A类)给予C类8=1430合并历史(),反向循环G公司==========================================================(((((((((C类,天),E类),F类),G公司),H(H)),我),J型),A类),B)给予C类7=429合并历史,反向循环G公司= (((((((((天,E类),F类),G公司),H(H)),我),J型),A类),B),C类)给予C类6=132合并历史,依此类推。
我们还注意到等式9继续适用,如果S公司不同于G公司通过多次不相交的反向增量,如,它添加了一个两叶增量—NNI移动到在这种情况下,合并历史的数量为C类9——(C类2C类7+C类三C类6+C类7C类2)+(C类2C类1C类6+C类2C类5C类2+C类三C类4C类2)–(C类2C类1C类4C类2) = 3002.
5.3. 叶标签的正向增量
在这种情况下G公司表示的是正向增量,而不是反向增量S公司,路障出现在三角形区域中,而不是仅出现在正方形格子的对角线上。
第24号提案。如果G是通过S的前向增量获得的,则路障设置为BG、 S公司由正方形格子对角线上和下方的点组成的三角形。
证明.考虑标签k个秒,k个ℓ∈ {1, 2, …,n个},使用k个秒<k个ℓ和k个ℓ≠ 2. 根据前向增量的定义,对于G公司叶子按顺序标记k个秒,k个秒+ 1, …,k个ℓ从樱桃到根部S公司已标记πk个秒(G公司) =k个ℓ,πk个秒+ 1(G公司) =k个秒,πk个秒+2(G公司) =k个秒+ 1, …,πk个ℓ(G公司) =k个ℓ– 1.
我们使用命题9并计算S公司每片叶子的祖先克k个属于G公司,k个∈ {k个秒,k个秒+ 1, …,k个ℓ}. 我们获得(f)(克k个) =k个ℓ– 1.
障碍就是要点(我,j个)令人满意的我<(f)(克j个+1). 因此,路障就是点(k个秒– 1,k个秒– 1),…, (k个ℓ– 2,k个秒– 1), (k个秒,k个秒), …,(k个ℓ– 2,k个秒), …, (k个ℓ– 2,k个ℓ–2)。■
我们可以使用Catalan的梯形来计算前向增量的合并历史,注意从(0,0)到(n个– 1,n个–1)正好通过路障三角形右下角对角线上的一个点(k个ℓ– 2,k个秒–1)用于2⩽k个秒⩽n个–1和(k个ℓ–2,1)用于k个秒=1,到晶格的下边缘或右边缘().
前向增量的合并历史数。(A)G公司不同于S公司通过向前递增。所有路径必须穿过红色虚线。(B) 从红色虚线上的(4,1)到(9,9)的路径数。(C) 从红色虚线上的(5,0)到(9,9)的路径数。(D)G公司不同于S公司由两个向前增量组成。所有路径必须穿过四条红色虚线。实线表示与路障集相关的Dyck路径(请参见).
如果2⩽k个秒⩽n个–1,则此线有点(k个ℓ– 1 +c(c),k个秒– 2 –c(c))对于c(c)=0,1,…,最小值(k个秒– 2,n个–k个ℓ); 如果k个秒=1,则该线只有一个点(k个ℓ– 1, 0). 我们可以将这两种情况与Kronecker delta结合,用表达式捕捉线条(k个ℓ– 1 +c(c),k个秒– 2 +δk个秒,1–c(c))对于c(c)=0,1,…,最小值(k个秒– 2 +δk个秒,1,n个–k个ℓ).
然后我们可以计算从(0,0)到直线上某个点以及从那里到(n个– 1,n个– 1).
第25号提案。
考虑一个具有n个叶子的毛虫物种树S和一个与S不同的毛虫基因树G,其正向增量由组件k描述秒, …,k个ℓ;可以写出(G,S)的合并历史数
其中函数D和D米跟随
方程3
和
5,分别地.
证明。从(0,0)到的每个单调路径(n个– 1,n个–1),通过与前向增量相关的对角线上的一个点。从(0,0)到达该点的路径数用加泰罗尼亚三角形表示(等式3)以及要到达的路径数(n个– 1,n个–1)加泰罗尼亚梯形(等式5). ■
提供了一个示例。在图中,k个秒=3和k个ℓ=5,因此每条被道路堵塞的单调路径必须通过(4,1)或(5,0)。说明了从(4,1)到(9,9)的加泰罗尼亚梯形,以及显示了从(5,0)到(9,9)的加泰罗尼亚梯形。因为从(0,0)到(4,1)的路径数是4,从(0,1)到(5,0)的路径数量是1,所以合并历史的数量是4×572+1×429=2717。该值由命题返回,该命题给出.
注意,我们可以通过识别所有单调路径都必须通过的相关负斜对角线来分析具有多个不相交前向增量的情况。合并历史的数量可以通过对每个对角线上正好通过一个点的单调路径进行嵌套和计数来获得。改变视角,考虑与不相交正向增量组合的路障集相关联的Dyck路径,Dyck道路中的每个峰值都会生成一条对角线,我们可以将通过每条对角线上的点的单调路径制成表格。
例如,在,与路障设置相关的Dyck路径有四个峰值。从(0,0)到(9,9)的所有单调路径都必须通过其中的两个路径,即(1,0)和(9,8)。其他两个峰值生成对角线,所有单调路径都必须经过对角线。因此,所有路径都必须通过(4,1)或(5,0)和(8,4)或(9,3)。通过(4,1)和(8,4)的路径数为天(4, 1)天4(4, 3)天5(1, 5) = 700; 通过(4,1)和(9,3)的路径数为天(4, 1)天4(5, 2)天7(0, 6) = 84; 通过(5,0)和(8,4)的数字是天(5, 0)天6(3, 4)天5(1,5)=175;通过(5,0)和(9,3)的数字是天(5, 0)天6(4, 3)天7(0, 6) = 35. 总共有994条路径。
从这个角度来看,我们可以看到这种枚举方法适用于任何Dyck路径,而不仅仅是那些表示不相交正向增量的路径:对于Dyck路中的每个峰值,都会生成一个对角点列表,通过该列表,每个单调路径从(0,0)到(n个– 1,n个–1)必须通过。我们考虑了所有可能的点选择,每个对角线一个,并使用加泰罗尼亚三角形和加泰罗尼亚梯形将通过这些点的路径制成表格。对于一般的一对毛虫树,这种方法可以减少等式8从n个–1等于相关Dyck路径中的峰值数量。
半长度的Dyck路径数n个与完全相同k个峰值遵循Narayana数字[8,第6.1节]。然后随机选择Dyck路径中的平均峰值数如下,通过注释并应用Graham表169中的等式5.23等. [11]为了完成求和,给出了(n个+ 1)/2. 因此,因为我们考虑了半长n个–1,此方法将嵌套求和的平均数从n个–1英寸等式8到n个/2.
6 讨论
我们研究了非匹配毛虫基因树和物种树的合并历史,表明在匹配情况下,可以使用不穿过正方形格子对角线的单调路径来计算非匹配毛毛虫的合并历史数(第3节). 适用于任意基因树和物种树的合并历史数的递归将非匹配毛虫简化为仅依赖于毛虫拓扑的非递归公式(第4节). 利用这些结果,我们计算了因最近邻间变化不同而不匹配的毛虫的合并历史(第5.1节). 通过研究反向和正向递增,我们还计算了不同于亚树-树-树和再生的毛虫的合并历史(第5.2节和5.3).
连接合并历史和单调路径的双射(命题9)利用了路障,不允许路径通过的晶格点。如果一个点(我,j个)是一个障碍我⩾j个,然后(k个,j个)也是每个人的障碍k个具有j个⩽k个⩽我,按原样(我,ℓ;)对于每个ℓ;具有j个⩽ℓ;⩽我(备注10)。给定路障集的路障单调路径的枚举连接到加泰罗尼亚三角形和梯形,从而可以枚举相关的合并历史。有趣的是,不同的路障集本身可以与不穿过正方形格子对角线的单调路径进行双射,因此它们的数量也遵循加泰罗尼亚序列(第3.3节).
我们的结构将合并历史和阻塞的单调路径联系起来,从而可以简单地证明Degnan&Rhodes的一个结果[三]对于固定数量的叶子,匹配的毛虫树比不匹配的毛虫树有更多的合并历史(推论11)。特别是,为一对非匹配的毛虫树枚举合并历史的晶格结构包含至少一个路障,而用于匹配毛虫的晶格没有路障,因此具有更单调的路径。对于一棵固定的毛虫物种树,我们已经准确地确定了哪棵不匹配的毛虫基因树产生了最多的融合历史:很明显,这个基因树与物种树的区别在于一个NNI移动,因为只有一个NNI移动与物种树不同的毛虫会产生一个路障。我们发现,特定的NNI移动影响最靠近种树“中间”的叶子,产生最大数量的合并历史,并且随着叶子数量的增加,该值渐近等价于加泰罗尼亚数C类n个–1(第5.1节).
在这种情况下,基因树通过反向增量与物种树不同,产生了一个优雅的结果。回顾匹配毛虫的合并历史数是用加泰罗尼亚数描述的,如果基因树是通过影响物种树的所有叶子标签的反向增量获得的,那么合并历史数就是下一个较小的加泰罗尼亚数(第5.2节). 前向增量的情况更复杂,但可以使用加泰罗尼亚梯形进行分析,并建议进一步连接到Dyck路径的分析(第5.3节).
这项研究提供了一些关于非匹配基因树和物种树合并历史的首次系统闭合结果。然而,我们的方法仅适用于毛虫,因为具有阻塞单调路径的双射依赖于这样一个事实,即毛虫树的内部节点可以按顺序放置,以便所有内部节点对都具有祖先-后代关系。然而,它确实表明,除了在等式1.
一个仍然悬而未决的问题是,对于某些毛虫基因树和物种树,可能等于合并历史数的整数集是未知的。罗森博格和德南[19,表1]观察到固定物种树木S公司大小为n个和某些值t吨特别是小的,成对的(G公司,S公司)确实有t吨合并历史和罗森博格[18]枚举了对(G公司,S公司)只有1个合并历史(孤独的一对). 我们和Degnan&Rhodes[三]已经表明,如果G公司和S公司是毛虫,那么只有值t吨⩽C类n个–1可以表示合并历史的数量。我们的NNI结果表明,开放区间中的所有值(C类n个–1–C类⌊(n个–1)/2⌋C类(n个–1)/2⌉,C类n个–1)不能是的合并历史记录数(G公司,S公司). 对于固定履带S公司具有n个叶,获取以下值集的大小很有用t吨这一对(G公司,S公司)正好有t吨合并历史。我们观察到,对称履带友好型路障组的数量加上不对称履带友好型路障组数量的一半,提供了一个上限(第3.3节).
我们注意到,识别表示某些合并历史数量的整数的问题(G公司,S公司)带有n个叶子可以完全按照道路阻塞的单调路径来表达,而不需要参考合并历史。将晶格描述为单调的路障如果每个路障(我,j个)带有我⩾j个, (k个,j个)也是每个人的障碍k个具有j个⩽k个⩽我、和(我,ℓ;)是每个人的障碍ℓ;具有j个⩽ℓ;⩽我.我们寻求表示不穿过某个单调路障格的对角线的单调路径数的整数个数。合并历史和阻塞单调路径之间的双射提出了这样的问题,这说明这种双射所支持的构造对于研究路径本身的性质是富有成效的。