介绍
多基因组比对是比较基因组学工具箱中最基本的工具之一,但其应用受到准确性和实用性的限制[1]–[3]准确的基因组比对是无数比较基因组分析的必要前提。
在进化过程中,基因组会经历局部和大规模突变过程。局部突变只影响少量核苷酸,包括核苷酸替换和核苷酸插入或缺失。大规模突变可能包括不均匀重组或其他过程产生的大片段的获得、丢失或复制。同源重组可以导致用不相同但同源的序列替换整个基因,甚至更大的染色体片段。总之,这些突变过程会导致两个或多个基因组中原本相同的区域片段化、重新排序、可能丢失,甚至出现多个拷贝。
基因组比对任务旨在识别两个或多个基因组中的同源核苷酸,也就是说,基因组比对识别一些祖先生物体中单个位点的核苷酸。同源位点可以以多种方式进行分类,基因组比对任务通常以鉴定某些类别的核苷酸为目标。同源位点通常根据进化史进行分类,如正形学、寄生虫学和异种学[4],[5]。也可以根据非进化关系对位点进行分类,例如所涉及的生物体的数量或身份(例如,仅涉及重要参考生物体的同源位点,例如智人),甚至通过与其他同源核苷酸的排序关系(例如共线性)。基因组比对方法通常将目标比对定义为由属于其中一个或多个类别的同源核苷酸组成。
基因组比对的早期工作包括MUMmer的开发,它可以识别成对基因组中的同源位点[6]–[8].MUMmer将同源和异源序列与进一步的限制条件对齐,即基因组中的任何位点最多只能与另一基因组中的一个位点对齐。单个基因组中的同源位点对(paralog)永远不会相互对齐。MUMmer定线的第一阶段包括确定定线锚。对齐锚是高度相同序列的局部对齐,由于其高度一致性,可以很容易地在算法上找到,并且被认为是真正对齐的一部分。然后MUMmer将局部定位锚聚合成一个或多个组,覆盖两个基因组的共线区域。每组锚在内部没有重排,但组的顺序可能会从一个基因组转移到另一个基因组。因此,MUMmer可以识别基因组并将其与重排的同源序列进行比对。然而,MUMmer不会对齐同源序列(基因组内重复),也不会对齐多拷贝同源序列的所有拷贝。由于MUMmer将任何位点与另一个基因组中的最多一个位点对齐,并且由于它使用相邻的独特区域锚定重复序列的对齐方式,MUM mer经常对齐重复元件的位置保守副本。我们将这种对齐称为a位置同源性基因组比对; 这种比对也是通过我们之前开发的方法生成的[9].
在目前的工作中,我们描述了一种新的方法来构造位置同源性多基因组比对这扩展了我们以前的方法[9]对齐基因组亚群中保守的区域。与之前的方法相比,新方法可以对齐更多的基因组,并且模拟表明,这样做具有更高的准确性。以前的方法在某些但不是所有生物的保守区域中的灵敏度特别低,而新方法可以高精度地对齐那些相同的差异保守区域。三项算法创新强烈影响了我们的方法将基因组与可变基因内容和重排对齐的能力。第一个是一个新的目标函数,称为“一对一断点得分”,用于对多个基因组中可能的比对锚定配置进行评分。我们的第二个算法贡献是一个贪婪的启发式算法,用于在断点得分总和下优化一组锚。最后,我们证明,大多数锚定比对技术都存在偏差,导致在包含差异基因内容的区域中错误地对无关序列进行比对。我们的第三个算法贡献是应用同源隐马尔可夫模型(HMM)来拒绝不相关序列的这种错误对齐。新方法在名为progressiveMauve的程序中实现,该程序是Mauve 2.0及更高版本基因组比对包的一部分。
我们比较了本研究期间现有的比对方法和模拟数据集上的新比对方法的准确性,以涵盖广泛的基因组突变类型和比率,包括反转、基因增益、丢失和重复。然后,我们将多基因组比对方法应用于肠杆菌科23个完整基因组的组(表S1)。我们独立于注释的基因边界精确鉴定了该组的核心基因组和泛基因组,并报告了肠杆菌科基因通量模式的基本分析。我们新的比对算法的开发受到了基因组研究的启发大肠杆菌这揭示了个体间基因含量的巨大差异大肠杆菌隔离[10],[11]自这些早期研究以来,基因含量变异已被报道为许多其他微生物物种的共同特征[12]–[15]微生物种群似乎经历了大量的基因获得、丢失和同源重组[16]尽管由于难以进行完整和准确的多基因组比对,大多数系统研究都局限于基于基因的方法。我们的比对仪提供了一个平台,可以在此基础上研究微生物物种中基因获得、丢失和重排的综合效应。
以前的基因组比对方法
全基因组比对方法通常使用锚定启发式减少比对搜索空间[17]–[22]或带状动态编程[23]锚定启发式似乎在速度和灵敏度之间提供了一个很好的折衷。大多数锚定比对方法都假设输入序列没有基因组重排。因此,在比对之前,必须应用单独的合成酶映射算法来映射两个或多个基因组之间的共线同源片段。同步映射方法太多,无法列出,但大多数方法都涉及计算假定ORF上的倒数最佳BLAST点击,BLAST的点击通过e值阈值、覆盖阈值和唯一性标准进行过滤。一些同步映射方法应用基因组上下文来帮助解决不明确的正态/副态关系,还有一些人使用概率传递同源性方法推断远缘相关分类群之间的同源性[24].
已经提出了合成映射和比对的综合方法,其中大多数是在成对的基因组上进行操作[8],[25]–[27]。尽管取得了一些进展,但对带有重排的多重排列的研究仍然有限[9],[28]–[31]除了更容易使用之外,集成的同线性映射和对准方法在理论上可以提供更准确的推断,因为对准可以影响同线性映射,反之亦然。
自从这项工作以来,新的基因组比对方法已经问世。其中两种方法构建了所谓的全球性的多基因组比对[32],[33](请参见[25]对于glocal的定义)。这些方法如何对齐基因组的主要区别在于它们如何处理重复片段。而不是调整重复DNA片段的位置保守拷贝(一个laMauve),全球性的方法构建重复片段的所有同源拷贝的多重比对,无论它们是同源还是同源。使用三个示例基因组来说明差异。我们注意到,通过将几个基因组串联成一个序列,基因组DNA大规模局部多重比对的方法[34],[35]也可以用于计算全局对齐,只需要对齐后的“解相干”步骤。识别位置同源区域并将同源关系子类化为正态或副态类型的任务留给下游推理方法。这种方法在复制丰富的后生动物和植物基因组时具有优势,因为它们的位置同源性通常不如较小的微生物基因组那样清晰。然而,在具有明确位置同源性的生物体中,需要解决全球性的与位置同源比对相比,比对不一定会使下游推理任务复杂化。如下文所述,存在大量工具来分析无法应用于全球性的路线。
两者之间的差异位置同源性对齐和全球性的对齐。三个线性基因组被分成标记为A、B、C、D和R的基因。R是一个多拷贝(重复)基因,不同的拷贝使用数字下标标记。假设R的每个拷贝在序列上都是相同的,因此核苷酸替换不知道正形/副序(就像移动DNA重复元件的情况一样)。给定基因组中向下移动的基因相对于参考基因组是反向的(反向补体)。这个位置同源性理想情况下,比对将创建两个局部比对块,其中每个块对每个基因组正好有一个比对行。只有重复基因家族R的定位保守拷贝才能相互对齐。这个全球性的理想情况下,比对将创建四个局部比对块,其中重复基因家族的所有副本彼此对齐。
方法
我们的方法应用于三个假设基因组的概述见并且目前对其进行详细描述。
锚固导向树施工
我们的方法根据计算如下的导向树逐步计算对齐锚点。我们基于局部多重比对的初始集计算基因组内容距离矩阵和邻接连接树基因组内容距离矩阵中的值按照第2步。关于共享基因组含量的信息强烈影响距离度量,因此具有相似基因组含量的生物体倾向于集群。生成的导向树的拓扑可能并不代表生物体的克隆系谱,但是,我们发现基于基因组内容的导向树允许我们的算法产生更好的比对。我们还注意到,用户可以通过命令行选项将导向树更改为自己的选择。生成的树是中点根式的,以生成渐进锚定导向树。
导向树用于锚定,但不用于有间隙的全局多序列比对,其中比对在多种导向树肌肉上进行优化[44].中的步骤2和3说明引导树的构造。
拒绝无关序列的对齐
得分较高的比对锚之间的DNA片段可能不相关,尤其是在细菌中。尽管如此,我们的方法(像许多其他基因组比对仪一样)将全局比对算法应用于所有比对锚之间片段,天真地假设同源性存在。我们对同源性的假设有时会被证明是错误的,因此为了获得准确的比对,我们必须检测无关序列的强制比对。为此,我们应用HMM后向解码器,将两两对齐中的列分类为同源或不相关。HMM结构、跃迁和发射概率在其他地方进行了描述[34]HMM对两两同源性进行预测,我们使用传递同源关系进行组合。发现不相关的区域将从最终路线中删除。同源HMM的应用是对准程序的最后一步,如中的步骤8所示.
结果
量化对准精度
我们的新对齐算法使用近似和计算启发式来计算对齐。为了了解我们的方法产生的定线质量,客观量化定线精度至关重要。如果没有已知的“正确”基因组比对,则无法评估自动比对启发式的准确性。尽管存在用于蛋白质序列比对的几个基准数据集[44],[46],不存在用于基因组比对和重排的这样的基准数据集。迄今为止,人工管理包括重排和横向基因转移在内的超大碱基规模全基因组多重比对已被证明过于耗时和困难。尽管缺乏手动管理的正确对齐,但我们可以通过建模进化和对齐模拟数据集来估计对齐精度。本节中描述的所有结果以及用于生成这些结果的程序都可以作为补充材料。
模拟进化模型
在之前的工作中,我们构建了一个基因组进化模拟器,用于捕获肠杆菌基因组中突变事件的主要类型、模式和频率[9]在本研究中,我们使用相同的进化模拟模型,但具有不同的进化参数。给定一个有根的系统发育树和一个祖先序列,我们为树的每个内部节点和叶节点生成进化序列,以及在整个模拟进化过程中保持的区域的多序列比对。沿着分支,核苷酸替代、indels、基因增益/丢失和反转重排等突变被建模为标记泊松过程。我们根据进化过程中产生的正确比对对计算出的比对进行评分。
虽然基因复制在细菌中非常常见,但我们没有明确地在此建模,因为细菌染色体中的重复往往是不稳定的,并且经常是反选的[47]也就是说,重复通常不会持续很长时间。相反,我们用两种方式间接模拟基因复制。首先,基因获得事件的源DNA序列来自一个1Mbp的序列池。在中到高的模拟基因获得率下,从供体库中采集了许多兆碱基的DNA,因此,相同的供体序列被插入到模拟基因组的多个位置。这种效应类似于分散的重复序列家族,例如细菌is元件或哺乳动物SINE元件。
其次,我们使用大肠杆菌O157:H7作为所有插入和基因获得事件的祖先序列和供体序列。这个大肠杆菌O157:H7基因组有许多自然发生的重复序列,这些重复序列被携带到模拟的后代基因组中,是已测序的最大的基因组之一大肠杆菌基因组,为模拟提供尽可能多的自然起始材料。通过使用真实的基因组序列作为祖先序列,得到的进化基因组通常具有类似的核苷酸、二核苷酸、,-mer组成、重复拷贝数和重复分布。否则,在模拟环境中很难捕捉到控制这些特征进化的未知自然力。
我们在高突变率下的实验结果应该谨慎解释,然而,由于应用的模拟突变越多,模拟基因组看起来就越不像真正的基因组。这是所有前向时间演化模拟的一个缺点,我们还不知道该问题的任何解决方案。然而,模拟研究仍然是客观测量多基因组比对质量的唯一实用方法。
准确性评估指标
以前对对准精度的研究使用了一种综合评分方案来表征对准器的残余水平精度[9],[46]这里介绍的实验使用了一对一评分,但我们也定义了新的准确度度量来量化每个比对系统预测基因组重排指数和断点的能力。对于每种类型的突变,我们定义如下所述的真阳性(TP)、假阳性(FP)和假阴性(FN)预测。使用这些定义,我们可以测量对准器的灵敏度正预测值(PPV)为.
对于核苷酸对,TP是在计算的和正确的比对中对齐的对。FP是在计算的比对中的核苷酸对,其在正确的比对中不存在。同样,FN是在计算的对准中不存在的处于正确对准的对。我们不量化真阴性(TN)比对,因为TN可能性的数量非常大,随着序列长度的乘积而增长。
根据预测的比对,我们将正确比对中的每个索引分类为TP或FN。一个真正的阳性indel在indel两侧的对角线/区块中至少有一对正确对齐的核苷酸,并且至少有一个核苷酸正确对齐到indel内的间隙(参见)。TP索引的数量绝不会超过正确对齐中的索引数量。我们将FP-indel预测定义为超出真正预测的多余indel预测数。FN indels在侧翼对角线/区块中缺少正确预测的核苷酸对,或者在正确的间隙区域中缺少间隙预测。给出了每种情况的示例。
量化indel准确度。正确的比对显示在左侧,四种可能的预测比对显示为A、B、C和D。核苷酸被指定了数字标识符。正确的对齐有一个索引,它将对齐划分为三个部分:左对齐的块、索引和右对齐的块。预测的比对必须在三个部分中的每个部分都有一个正确对齐的核苷酸对,才能计算出真正的阳性indel预测。
对准器在预测indels的准确位置方面臭名昭著[48]根据我们的定义,TP指数预测不需要预测指数的准确边界,只需要预测指数是否存在。该方案允许我们区分缺少indel预测的情况和indel被预测但位置不正确的情况。我们将indel边界预测精度量化为真实边界与预测indel侧面的对角线/区块中最近对齐的核苷酸对之间的距离。当预测的指数太大时,我们的度量将为边界分数指定一个正值。当预测的指数太小时,赋值为负值。
大indels在历史上曾给核苷酸比对仪带来过问题,核苷酸比对仪有一种趋势,即利用间歇性比对序列将大indels.拆分成一系列较小的间隙。根据我们的定义,一个较大的indel仍然可以被视为TP预测,即使它被校准器分成一系列较小的间隙(参见例如,预测A)。我们的理由是,该比对器确实正确地预测了不相关序列的存在,并获得了TP,但错误地预测了同源性之间的额外转换,这被归类为FP-indel预测。为了区分一个TP指数是否被分成两个或多个较小的间隙,我们将一类“奇异”TP指数预测定义为作为单个对齐间隙预测的指数。请参见“奇异”TP指数示例的预测D。
对合LCB精度和断点定位
对于每对基因组,我们还测量比对器是否正确预测了该对中的LCB,从而得出一个LCB准确度的总和。对于真实比对中的每个成对LCB,当预测的比对包含该LCB中至少一个正确对齐的核苷酸对时,我们记录一个TP LCB预测。缺乏任何正确预测的核苷酸对的成对LCB是FN预测。最后,预测比对中缺少任何正确比对核苷酸对的成对LCB为假阳性(FP)。同样,我们不测量TN。
与indels一样,我们定义了一个单独的度量来量化每个对齐器定位重排的准确断点的程度。对于TP LCB预测,我们记录正确LCB边界与预测LCB边界之间的差异(核苷酸)。当预测的LCB未能包含完整的同源区域时,结果值为负值,当预测LCB超出真实边界时,结果为正值。
LCB准确性指标背后的基本原理是,它们对LCB边界的错误预测和额外LCB的预测所引起的影响具有鲁棒性。例如,如果预测的LCB包含一对正确对齐的核苷酸,并且比真正的LCB短得多,则该误差将被记录为LCB边界预测误差。在另一个例子中,想象一个真实的LCB被分成两个预测的LCB,第三个假阳性的LCB介入其中。我们的指标将记录1个真阳性和1个假阳性。LCB边界分数取决于真实LCB的左右边界与预测LCB的最近边界之间的距离,预测LCB中的核苷酸在该真实LCB中正确对齐。这种方法可以防止假阳性LCB干扰我们对LCB边界精度的测量。
根据我们对TP、FP、TN和FN预测的定义,特异性通常定义为,不是一个有用的指标。在大多数情况下,TN取的非常大的值会将商推至1。
选择用于测试的对准器
我们下载并测试了截至2008年5月这项工作完成时公开提供的所有多基因比对仪。已知可在该时间点处理重排的多基因比对仪包括mauveAligner 1.3.0[9]、progressiveMauve 2.2.0和TBA 28-02-2006[17]。我们没有测试涉及单独同步映射和对齐步骤的两阶段管道,例如MERCATOR+MAVID[49]或链网+TBA[50]但这将是未来工作的一个有趣领域。我们确实测试了一些可用的多重对准器,这些对准器假设共线基因组序列作为输入,包括MLAGAN 2.0[19],MAVID 2.0版[18]和山核桃0.7[33],在本书出版时可以下载,但尚未出版。自对准器测试完成后,已发布了几个新的对准系统,包括Enredo+Pecan[33]、金融服务管理局[51],以及LAGAN的扩展,用于重复和重排的无参考对齐[32]。我们没有测试全球性的对齐方法。我们的模拟系统没有明确建模基因复制,更糟糕的是,我们不知道祖先基因组材料中重复序列的真实比对,因此不可能量化全球性的使用我们的评估方案的对准器。FSA测试[51]最后,我们没有测试任何一种成对比对或成对同步映射方法,因为我们的工作重点是多基因组比对问题。
除非另有规定,否则我们使用默认参数设置运行每个对齐器。对准器MLAGAN、TBA和PECAN需要用于对准的导向树规范;MAVID可选导向树。我们为这些对准器提供了真实的模拟树。mauveAligner和progressiveMauve没有提供真正的模拟树,而是计算了它们自己的导向树用于锚定(各种本地导向树用于对准优化)。这可能会给MLAGAN、TBA、PECAN和MAVID在精度比较中带来优势,因为在许多生物感兴趣的情况下,在对齐之前可能无法识别合理的导向树。下面描述的三个补充文件包含每个仿真和对准器运行的完整命令行日志,以及原始精度结果。
共线基因组的准确性
我们的第一个实验比较了mauveAligner 1.3.0、progressiveMauve、MLAGAN 2.0、MAVID 2.0和TBA 28-02-2006在对齐经历了越来越多核苷酸替换和indels的共线序列时的准确性。根据先前推断的系统发育,对于indel和取代率的每一个组合,9个基因组是从1Mbp的祖先进化而来的[9]然后,我们使用具有默认参数的每个比对器构建进化序列的比对,并量化核苷酸对和indel预测的灵敏度和阳性预测值(PPV)。进行了三次重复,结果如下所示; 仿真树如所示.
序列比对的准确性在没有重排的情况下,随着核苷酸替换和indel比率的增加而发展。对校准者进行了100个indel和替代率组合的测试,三个重复的平均性能。随着突变率的增加,所有方法都会失去准确性,而最准确的比对方法取决于特定的突变率。progressiveMave和MLAGAN显示出最佳的indel敏感性和阳性预测值(PPV),而TBA在极高的突变率下比其他方法更敏感。MLAGAN在分配的10小时内没有在没有indels的情况下对齐基因组,导致底部出现黑行。图中的星号表示indel率和替代率的组合,预计与我们的23个目标基因组相似。
一般来说,除了mauveAligner 1.3.0无法以高突变率锚定基因组外,所有的比对器在共线序列上都表现良好。在测试的比对器中,TBA提供了最高的核苷酸敏感性,而progressiveMauve在大多数情况下提供了最佳的indel敏感性和阳性预测值。尽管如此,所有对准器在准确预测indels方面都很差,这可能部分是由于在模拟进化过程中引入的信息的固有损失[48]。我们没有在这里测试Pecan对准器,尽管可以在其他地方找到对其性能的详细评估[45]我们在下面对它进行了一些测试。我们注意到,在较小的模拟数据集上,我们对山核桃进行了测试(见下文),与所有其他方法相比,包括渐进改良法(数据未显示),山核桃具有更高的indel敏感性、核苷酸敏感性和核苷酸PPV。
与此模拟对应的数据可用作文件S1.
面对收益、损失、重排和基因的准确性
我们评估了mauveAligner 1.3.0、progressiveMauve和TBA的相对性能[17]将基因组与基因组重排、获得、丢失和核苷酸替换的高比率对齐时。尽管最初的TBA手稿没有完全描述与基因组重排的比对,但最近的版本(2006年2月28日)处理了这一点[28],[30]。对于我们的第一组实验,如,我们模拟了100个替换率和反转率组合下的演化。除了核苷酸和茚准确度外,我们还量化了该数据集的LCB准确度。结果表明,与我们之前的方法相比,progressiveMauve能够以更高的重排率准确地对齐基因组。尽管TBA在重排基因组上表现平平,但与MAVID 2.0和MLAGAN 2.0的结果相比(如图S1)证明了对于所有的反转率,TBA比假设基因组没有重排的方法产生更好的比对。我们不确定为什么TBA在重排的基因组上没有达到与progressiveMauve相同的性能水平,但与TBA作者的讨论表明,这可能是测试时可用的特定版本中的一个错误(Webb Miller,个人通信)。在提交手稿时,可获得新版TBA。
在第二组实验中,我们模拟了基因组,其中有10个小片段增益和损失增加率,10个大片段增益和丢失增加率。小的增益和损耗事件以几何尺寸分布,平均值为200bp,而大的增益和损失事件具有10kbp到50kbp之间的统一长度。选择这些尺寸是为了匹配经验得出的估计值[9]。结果如所示,表明mauveAligner 1.3.0在面临大规模节段性增益和损耗时会出现动摇,而progressiveMauve和TBA表现明显更好。在我们的模型中,随着增益和损耗率的增加,基因组间共享的同源序列数量会恶化,最终在无限高的速率极限下达到零。
与这些模拟相对应的数据如下所示文件S2和文件S3分别用于替代/反转模拟和基因增益/损失模拟。
差距运球以及长间隙预测的质量
基因获得和丢失事件在基因组比对中表现为长间隙。每个预测的比对间隙都意味着在所研究的生物体的历史中至少发生过一次核苷酸插入或缺失。由于我们想量化节段性增益和损耗对目标基因组的贡献,因此预测的比对间隙必须尽可能准确。
当前的序列比对方法通常使用由间隙开放惩罚和间隙扩展惩罚组成的仿射间隙计分方案对两两比对进行计分。在概率设置下,最佳仿射间隙对准大致对应于具有单对插入和删除状态的对HMM的viterbi路径对准[52]然而,当对经历了大量基因增益和丢失的基因组进行比对时,存在着过多的大缺口,不符合标准全局比对对HMM施加的缺口大小分布[2]最终结果是,在仿射间隙模型下,对准器倾向于将大间隙分解为一系列小间隙,其间散布着不正确排列的核苷酸的短延伸。本着对系统对准误差进行分类的精神[48],我们将此问题称为差距运球,因为短的排列是沿着大的间隙运球的。大量的小缺口在试图重建基因获得和丢失事件的历史时产生了问题,因为它们意味着比实际发生的插入和删除次数多得多。
使用我们的模拟进化平台,我们量化了每个对准器在预测不同尺寸间隙方面的性能。我们模拟了共线基因组的进化(没有重排),这些基因组经历了实际数量的基因获得和丢失,与之前对肠道细菌中这些事件发生率的估计相对应[9]。核苷酸替换和indels被建模为以蓝色星号指示的速率发生,基因获得和丢失事件的发生频率是.左边给出了观察到的间隙大小分布。
间隙被正确预测为奇异间隙的频率,作为间隙大小的函数。
左侧九个基因组序列中以突变率进化的缺口的平均大小分布,与之前的估计相符大肠杆菌,志贺氏菌、和沙门氏菌。在10次模拟中平均了间隙大小分布。赖特TP indel预测的分数,即实际间隙大小的奇异TP indel预计。用基因增益、基因丢失、indels和核苷酸替代对进化进行了十次复制模拟,并使用每个比对器计算比对。预测指数根据以下定义进行分类:也就是说,一个奇异的真正意味着真正的差距被预测为一个单一的差距。剩余的真正指数将真间隙分解为两个或多个预测间隙。对于每个对准器,奇异预测间隙的分数显示为间隙大小的函数。缺失点表明该尺寸类别中缺少TP指数预测。所有对准器在预测小间隙方面都做得很好,但大间隙存在问题。大多数比对器,包括Pecan,它使用额外的对HMM状态来建模长间隙,倾向于将长间隙预测为一系列散布在无关序列比对中的短间隙。我们将这种行为称为“间隙运球”。progressiveMauve是使用默认参数(proMauve)运行的,没有同源HMM(proMaume_no_HMM),可以选择假设基因组共线(proMaue_col),最后假设共线,没有HMM(proMauve_col_no_HTML)。
然后,我们将每个对准器应用于模拟基因组,并测量间隙预测的准确性,作为间隙大小的函数。对对准器mauveAligner 1.3.0、MAVID 2.0、MLAGAN 2.0、TBA 28-02-2006、progressiveMauve和Pecan v0.7进行了测试。Pecan v0.7是一种性能卓越的新型对准器[33],[45]通过在锚固过程中使用概率一致性。此外,Pecan v0.7使用了一个具有额外间隙状态的对HMM,该间隙状态专门用于建模长indels。根据真实比对对重建比对进行评分,并记录十个重复的结果。
的右侧显示了每个对准器的indel预测的质量,作为真实间隙大小的函数。图中显示了特定大小的间隙被预测为单个间隙(奇异TP)的频率,而不是带有非同源序列(非奇异TP)交错排列的较小间隙串。从图中可以看出,使用仿射间隙惩罚的对准器在预测大间隙时往往表现不佳。有点令人惊讶的是,Pecan用来建模长indels的具有额外间隙状态的对HMM对长间隙的预测仍然很差,尽管灵敏度相当好(未显示)。progressiveMauve似乎在所有间隙大小下都表现良好,特别是当对准器被告知明确假设基因组共线时(proMauve_col)。为了确定progressiveMauve的性能是由其锚定算法还是使用同源HMM来拒绝无关序列的对齐引起的,我们还测试了不带同源HMM的progressive Mauve,如面板proMauve_no_HMM和proMauve _col_no_HTML所示。没有同源HMM,progressivesMauve会产生较差的结果,表明同源HMM确实解决了差距运球的问题。progressiveMave的同源HMM功能通过命令行界面可用,因此可以将其应用于XMFA格式的任何对齐。
讨论
progressiveMave擅长将重排的基因组与不同的基因含量进行比对。如此生成的位置同源性比对使得各种下游研究成为可能。在这里,我们展示了一些对齐为23的应用程序大肠杆菌,志贺氏菌和沙门氏菌基因组。该比对可用于表征这些物种中发现的共享(核心)和总(泛基因组)序列量。该比对也可用于提取可变位点,用于更传统的系统发育分析。进行性Mauve识别并排列保守的调控区和高变基因间区。
23年的渐进式Mave路线大肠杆菌,志贺氏菌、和沙门氏菌基因组显示,核心基因组由2675个片段组成,这些片段在所有分类群中都是保守的,平均占每个基因组的2.46 Mbp。在核心片段之间是分类群子集之间的保守区域和单个基因组特有的区域。通过精确计算每个核心、唯一和子集片段一次,我们构建了一个包含基因和基因间区域相似的全基因组。这23个基因组的泛基因组为15.2 Mbp,约为单个菌株的三倍,表明基因和基因间含量都存在巨大的变异性。
我们现在特别关注大肠杆菌和志贺氏菌.志贺氏菌spp.被广泛认为是大肠杆菌基于系统发育分析[53]和基因组比较[54]尽管最初的表型衍生分类仍然存在。我们将其统称为大肠杆菌/志贺氏菌类似地沙门氏菌,将几乎所有菌株分解为一个物种:肠球菌因此,我们正在研究两个姊妹物种的泛基因组和核心基因组的结构,大肠杆菌/志贺氏菌和沙门氏菌.16大肠杆菌/志贺氏菌菌株的泛基因组为12.5 Mbp,核心为2.9 Mbp肠球菌血清型的泛基因组为5.8Mbp,核心基因组为4.1Mbp。核心基因组的交集是联合核心,而泛基因组的结合是组合泛基因组,如所示注意,泛基因组的交叉点比节理核心大580 kb。当一个物种的核心基因组的组成部分出现在其他物种的一些成员中,而不是所有成员中时,就会出现这种反直觉的情况。在这种情况下,220kb可归因于志贺氏菌以其他方式保存在所有菌株中的菌株大肠杆菌和沙门氏菌.更详细地剖析了大肠杆菌和志贺氏菌基于渐进式,其他地方已经给出了Mave路线[55].
的泛基因组(左)和核心基因组(右)的文氏图大肠杆菌/志贺氏菌和肠球菌.
与使用完整蛋白质编码基因估计的核心和泛基因组大小相比,我们预计我们的核心基因组估计值会稍大一些,泛基因组较小,因为我们的方法可以包括任何位置同源片段,而不仅仅是完整基因。在17大肠杆菌Rasko等人在泛基因组中发现2200个保守基因和13000个基因[56]. The average gene size in大肠杆菌略低于1000nt。基于平均基因长度,我们的方法发现了一个额外的平均基因组成为核心的一部分,泛基因组大小减少在相似数量的基因组中。然而,我们的研究包括志贺氏菌这不包括在基于蛋白质的研究中[56]因此,生物采样也可能导致核心基因组和泛基因组大小的差异。
基因组重排历史推断
渐进Mave比对也为基因组重排模式分析提供了一个极好的起点。众所周知,基因组重排是通过多种突变力发生的,包括反转、转座和复制/丢失,在细菌病原体中尤为突出。已有方法推断基因组对之间的反转历史[57],[58]和多个基因组[59],[60].还开发了更通用的模型来解释多染色体和多断裂重排[61]–[63]虽然还没有进入贝叶斯系统发育背景。
大多数基因组重排历史推断方法也不能推断基因的获得和丢失,而是假定基因组中的基因含量相等。当基因含量几乎相等时,当前的模型可以使用多基因组比对来推断基因组重排的模式[64]然而,相同的基因含量被证明是例外,而不是规则。尽管如此,具有差异内容的渐进式Mave比对可以简化为仅包含所有感兴趣分类群中保守的片段,从而生成适合当前基因组重排推断软件的有符号基因顺序排列矩阵。
基因组重排推断的另一个途径是将进行性Mauve基因组比对中的位置同源信息与Repeatoire等通用局部多重比对程序中的重复家族信息相结合[34]然后,人们可以利用基因组排列信息推断出重复命名的系统发育树[65]这种方法可能特别适用于重复序列间同源重组似乎在基因组重排中起主要作用的细菌。
路线可视化
基因组比对是大型复杂实体,通常不适合直接解释。基因组比较浏览器,如UCSC浏览器[66],维斯塔[67],以及其他已被证明是有价值的工具,有助于理解整个基因组比对。为了帮助使用渐进式Mave对齐,我们开发了一个交互式可视化程序,该程序可以以有意义且易于理解的视觉范式呈现复杂的对齐。
该可视化系统说明了基因组进化的三个主要方面:基因组重排、片段增益和丢失模式以及核苷酸序列的局部保存程度。在可视化的23向对齐中显示了后两个方面大肠杆菌,志贺氏菌、和沙门氏菌.
Mauve可视化显示周围高变基因间区yhdE公司.每个基因组以水平轨迹排列,带注释的编码区域显示为白色方框。显示了每个基因组的彩色相似性图,其高度与该区域的序列同一性水平成比例。当相似度图指向下方时,表示与基因组的反向链对齐。相似性图中的颜色表示包含基因组特定片段的生物体的组合。粉红色/淡紫色的片段在所有生物中都是保守的,而紫色的片段在除沙门氏菌和橄榄绿色的片段在非尿路致病性中是保守的大肠杆菌。可视化系统是交互式的,用Java编写,可在所有支持Java 1.4或更高版本的计算机上运行。
显示了围绕yhjE公司基因,编码转运蛋白主要促进剂超家族中的产物。yhjE公司两侧是yhjD公司左侧,以及yhjG公司右边。这三个基因之间的基因间区域是高度可变的(如)并且受到多次插入和删除事件的影响。周围地区的高度变化性yhjE公司这可能并不奇怪,因为它左侧包含REP元素,右侧包含RIP元素。REP元件包含一系列两个或多个35-bp的回文重复序列,具有多种功能,包括DNA回转酶和PolI的结合,以及作为mRNA抗衰变发夹或rho依赖性衰减器。RIP元素是包含IHF绑定位点的REP元素的特殊形式[68],这个特殊的RIP还包含一个REPt转录终止序列。IHF是全球转录调节器大肠杆菌重复元件在细菌基因组中是不稳定的[47].
有趣的是,周围基因间区域的插入/缺失模式yhjE公司不要遵循预期的分类模式,相反,这表明菌株之间发生了重组。RIP区域位于yhjE公司最多大肠杆菌已替换为中不相关的序列大肠杆菌E23477A和鲍氏志贺菌(显示为绿松石),但不在宋内志贺菌.这三个菌株在大肠杆菌/志贺氏菌分类学[55]具有大肠杆菌E23477A首先分支,所以这里一定发生了收敛进化。
周围的基因间变异模式yhjE公司这表明了潜在的调节差异,这是一种在微生物研究中经常被忽视的真核生物进化机制。这个yhjE公司基因座决不是唯一具有基因间变异的区域;23向比对的屏幕确定了102个其他严格的基因间区域,这些区域具有类似的可变保护模式。
可扩展到大基因组和多基因组
该算法比较复杂,在实际应用中,许多因素导致了算法的整体渐近时间复杂度和运行时间。progressiveMave使用的新的“一对一”锚定启发式至少是在时间复杂性方面,因为它需要评估基因组对之间的LCB。我们发现,在一台计算机上,平均大小为5Mbp的5个基因组的比对可以在不到一个小时的时间内计算出来,同样大小的20个基因组可以使用4Gb内存在24小时左右计算出来,40个基因组的配对可以在24小时内计算出来大肠杆菌属和志贺氏菌5Mbp的基因组可以用70个计算小时,8GB RAM。墙锁运行时间的主要影响因素是基因组数量和这些基因组的差异,每个基因组的较高值导致内存和时间需求的快速增长。大基因组比对是可行的;成对对齐黑腹果蝇和果蝇在一台计算机上需要不到3个小时,而人类和小鼠基因组的比对需要90GB RAM和大约32个计算小时。人/鼠对齐和40的对齐大肠杆菌和志贺氏菌基因组可从下载http://biotorrents.net
[69].
我们注意到,算法的许多部分是独立的,可以并行化,但当前版本(版本2.3.1)仅以串行模式运行。
基因重复:全球性的与位置同源性对齐
如上所述,progressiveMave生成位置同源性多重基因组比对。这些路线与全球性的基因组比对,其中一个重复基因家族的所有拷贝可能彼此对齐。我们认为位置同源性校准对于比较密切相关的微生物非常有用,原因如下。首先,全基因组复制和片段复制在大多数细菌和古生菌中的作用被认为很小。第二,尽管微生物中经常产生大量的串联重复片段,这可能是适应性进化的基本过程,但它们极不稳定,通常不会持续很长时间[70]因此,一种优化长共线区域以进行对齐的方法通常会识别并对齐正确的位置同源物。如此排列的位置同源物通常是直向同源物,或者在横向基因转移的情况下,它们将是异向同源物。位置同源比对有助于下游比对任务,如核苷酸替代的系统发育推断、基因获得和丢失的系统发育推测[55],重排的系统发育推断[64],甚至同源重组诱导的横向基因转移的推断[71].
位置同源性比对的主要缺点是,它本身不能为推断基因组内基因转换或基因复制历史提供合适的依据。特别是在一些输入基因组经历了全基因组复制的情况下位置同源性对齐方法可能无法对齐多个目标区域。一个全球性的校准本身可以用于此类目的。基于全球性的-类型对齐已开始出现[72],有些甚至开始纳入核苷酸水平的进化模型[73]然而,结合核苷酸和基因组排列进化的模型仍有待实施。
我们模拟研究的一个主要缺点是它没有明确地模拟基因复制。尽管复制材料可以通过相同区域的重复增益间接创建,但我们的模拟平台并没有量化这种情况发生的频率。因此,我们无法客观地描述特定模拟基因重复率下比对方法的准确性。然而,通过在Mauve比对查看器中手动检查多基因家族的比对,我们已经观察到,在我们之前的mauveAligner算法无法实现的许多情况下,progressiveMauve算法可以对齐位置同源物。progressive Mauve是对多基因家族中位置同源物对齐的改进,但关于基因复制局限性的完整描述仍有待于未来的工作。
结论
我们提出了一种新的多基因组比对启发式方法,通过比对基因组子集中保守的区域来扩展我们之前的方法。这表明模拟数据集的精确度有了显著提高。该方法的关键特征是锚定记分功能,它惩罚基因组重复区域中的排列锚定,并惩罚基因组重排。使用一对一求和方法可以对经历了基因增益、丢失和重排的基因组进行稳健的评分,这是我们以前的比对方法没有解决的情况。
未来改进基因组比对的努力可能会明确地将进化距离模型纳入比对评分过程[74]基于概率一致性的多重比对方法在氨基酸比对方面显示出巨大的前景[75]并对齐共线基因组区域[33]原则上,可以通过重排扩展到基因组比对。最近的其他努力已经发展出了统计一致性的快速近似值[51]这些方法肯定会被纳入未来的方法中,以使基因组与重排对齐。
没有一种方法可以重建无错误的基因组比对,任何特定的比对都可能包含可能对下游推断产生重大影响的错误。然而,用于估计对齐列的置信度的方法仍在不断开发中[48],[51]下游推理方法能够明确处理重建比对中固有的不确定性,对于比较基因组学的持续发展至关重要。
支持信息
表S1
23向基因组比对中包含的细菌菌株和登录号列表。
(0.03 MB PDF格式)
图S1
利用重排和基因通量模拟基因组上MLAGAN 2.0和MAVID 2.0的准确性结果。这两款软件都不是为直接处理此类案件而设计的。
(0.06 MB PDF格式)
文件S1
nt取代和indels的准确度结果。沿着simujobparams.pm文件中编码为newick字符串的固定9分类单元树模拟进化。在固定树中最遥远的分类单元中,模拟了从每个位点0个替换到每个位点约0.9个替换的一系列替换率。同时,还模拟了一系列的indel速率,在最遥远的分类群中,每个位点大约0.18 indel。对于每个模拟,真实的比对与进化序列集一起记录。然后运行对齐器以重建真实对齐。程序scoreAlignment2用于计算重建路线上的各种精度指标。这些准确性指标包括用于校准同源核苷酸的灵敏度和阳性预测值,以及用于识别indels的类似指标。scoreAlignment2程序还生成了一个indel边界报告,但由于大小限制,该报告未包含在此存档中。indel边界报告记录了真实路线中的每个indel,预测indel的边界在对准器计算的路线中的距离。该报告包含真实和预测指数的大小,因此可以生成按大小分层的指数精度摘要。注意:此存档必须先用7-zip解压缩,然后用tar解压缩。该档案包含每个对准器程序的精度评估结果。模拟路线本身不包含在档案中,因为它们太占用空间。相反,每个子目录包含精度测试的摘要,以及使用的所有模拟进化参数,重要的是,还包含用于模拟的随机种子,以便可以重建每个对齐数据集。要重建原始路线,还必须获得一些免费可用的程序和脚本,如http://asap.ahabs.wisc.edu/mauve-aligner/mauve-developer-guide/evaluating-aligment-quality-and-stress-testing-the-aligner.html子目录首先根据测试的对准器命名,例如淡紫色 = = mauveAligner,promauve公司 = = progressiveMave、mavid = = Mavid 2.0,姆拉甘 = = MLAGAN 2.0,待定 = = 待批准2006-02-28。每个子目录名称的其余部分指示执行的实验类型。ntsub indel用于模拟具有不断增加的替代率和indels的共线基因组。ntsub-inv用于模拟基因组,以增加反转重排和核苷酸替换的速率。genefflux是指随着基因的小规模和大规模增益和损耗(通量)的增加而模拟的基因组。请注意,也省略了完整的indel边界精度结果,因为它们包括每个模拟路线的每个indel的几个数值,因此过于节省空间。当然,可以使用此存档中包含的模拟脚本和随机种子重新生成它们。
(5.74 MB焦油)
文件S2
基因增益和损失(通量)的准确性结果。沿着simujobparams.pm文件中编码为newick字符串的固定9分类单元树模拟进化。核苷酸替换率和indel速率是固定的,因此最远的分类单元将具有类似于大肠杆菌和沙门氏菌以沿着连接固定树中最远分类群的路径给出0到150个事件的速率模拟大的基因增益和损失事件。同时,还模拟了小的基因增益和损失事件,在最遥远的分类群中,从0到大约10000个事件不等。对于每个模拟,真实的比对与进化序列集一起记录。然后运行对齐器以重建真实对齐。程序scoreAlignment2用于计算重建路线上的各种精度指标。这些准确性指标包括用于校准同源核苷酸的灵敏度和阳性预测值,以及用于识别indels的类似指标。scoreAlignment2程序还生成了一个indel边界报告,但由于大小限制,该报告未包含在此存档中。indel边界报告记录了真实路线中的每个indel,预测indel的边界在对准器计算的路线中的距离。该报告包含真实和预测指数的大小,因此可以生成按大小分层的指数精度摘要。注意:此存档必须先用7-zip解压缩,然后用tar解压缩。该档案包含每个对准器程序的精度评估结果。模拟路线本身不包含在档案中,因为它们太占用空间。相反,每个子目录包含精度测试的摘要,以及使用的所有模拟进化参数,重要的是,还包含用于模拟的随机种子,以便可以重建每个对齐数据集。要重建原始路线,还必须获得一些免费可用的程序和脚本,如http://asap.ahabs.wisc.edu/mauve-aligner/mauve-developer-guide/evaluating-aligment-quality-and-stress-testing-the-aligner.html子目录首先根据测试的对准器命名,例如淡紫色 = = mauveAligner,promauve公司 = = progressiveMave、mavid = = Mavid 2.0,姆拉甘 = = MLAGAN 2.0,待定 = = 待批准2006-02-28。每个子目录名称的其余部分指示执行的实验类型。ntsub indel用于模拟具有不断增加的替代率和indels的共线基因组。ntsub-inv用于模拟基因组,以增加反转重排和核苷酸替换的速率。genefflux是指随着基因的小规模和大规模增益和损耗(通量)的增加而模拟的基因组。请注意,也省略了完整的indel边界精度结果,因为它们包括每个模拟路线的每个indel的几个数值,因此过于节省空间。当然,可以使用此存档中包含的模拟脚本和随机种子重新生成它们。
(7.73 MB焦油)
文件S3
反演和核苷酸替代模拟的准确性结果。沿着simujobparams.pm文件中编码为newick字符串的固定9分类单元树模拟进化。索引率固定为一个较低的值,以便最远的分类单元具有类似于大肠杆菌和沙门氏菌以沿着连接固定树中最远分类群的路径给出0到大约1400个事件的速率来模拟反转事件。同时,还模拟了核苷酸替换事件,从0到最遥远分类群中每个位点约0.9个替换。对于每个模拟,真实的比对与进化序列的集合一起被记录。然后运行对齐程序以重建真正的对齐。程序scoreAlignment2用于计算重建路线上的各种精度指标。这些准确性指标包括用于校准同源核苷酸的灵敏度和阳性预测值,以及用于识别indels的类似指标。scoreAlignment2程序还生成了一个indel边界报告,但由于大小限制,该报告未包含在此存档中。indel边界报告记录了真实路线中的每个indel,预测indel的边界在对准器计算的路线中的距离。该报告包含真实和预测指数的大小,因此可以生成按大小分层的指数精度摘要。scoreAlignment2还报告了真实重排断点和预测重排断口之间的平均距离。注意:此存档必须先用7-zip解压缩,然后用tar解压缩。该档案包含每个对准器程序的精度评估结果。模拟路线本身不包含在档案中,因为它们太占用空间。相反,每个子目录包含精度测试的摘要,以及使用的所有模拟进化参数,重要的是,还包含用于模拟的随机种子,以便可以重建每个对齐数据集。要重建原始路线,还必须获得一些免费可用的程序和脚本,如http://asap.ahabs.wisc.edu/mauve-aligner/mauve-developer-guide/evaluating-aligment-quality-and-stress-testing-the-aligner.html子目录首先根据测试的对准器命名,例如淡紫色 = = mauveAligner,promauve公司 = = progressiveMave、mavid = = Mavid 2.0,姆拉甘 = = MLAGAN 2.0,待定 = = 待批准2006-02-28。每个子目录名称的其余部分指示执行的实验类型。ntsub indel用于模拟具有不断增加的替代率和indels的共线基因组。ntsub-inv用于模拟基因组,以增加反转重排和核苷酸替换的速率。genefflux是指随着基因的小规模和大规模增益和损耗(通量)的增加而模拟的基因组。请注意,也省略了完整的indel边界精度结果,因为它们包括每个模拟路线的每个indel的几个数值,因此过于节省空间。当然,可以使用此存档中包含的模拟脚本和随机种子重新生成它们。
(9.16 MB焦油)