progressiveMauve: Multiple Genome Alignment with Gene Gain, Loss and Rearrangement

Aaron E. Darling; Bob Mau; Nicole T. Perna

doi:10.1371/journal.pone.0011147

公共科学图书馆一号。2010; 5（6）：e11147。

2010年6月25日在线发布。数字对象标识：10.1371/日记.pone.0011147

预防性维修识别码：PMC2892488型

PMID：20593022

progressiveMauve：与基因获得、丢失和重排的多基因组比对

Aaron E.亲爱的,^1,^*,^¤ 鲍勃·茅,²和妮科尔·佩纳^三

Jason E.Stajich，编辑器

作者信息文章注释版权和许可信息 PMC免责声明

关联数据

补充资料: 表S1：23向基因组比对中包含的细菌菌株和登录号列表。
（0.03 MB PDF格式）
电话：0011147.s001.pdf（2500）
GUID:AF016501-32FE-4C39-89F9-133C00C7AE90
图S1：利用重排和基因通量模拟基因组上MLAGAN 2.0和MAVID 2.0的准确性结果。这两种软件都不是为直接处理此类案件而设计的。
（0.06百万PDF）
电话：0011147.s002.pdf（6万）
编号：53AC492F-C8C9-4C67-A98E-2E0F6F074B14
文件S1：nt替代和indels的准确度结果。沿着simujobparams.pm文件中编码为newick字符串的固定9分类单元树模拟进化。在固定树中最遥远的分类单元中，模拟了从每个位点0个替换到每个位点约0.9个替换的一系列替换率。同时，还模拟了一系列的indel速率，在最遥远的分类群中，每个位点大约0.18 indel。对于每个模拟，真实的比对与进化序列集一起记录。然后运行对齐器以重建真实对齐。程序scoreAlignment2用于计算重建路线上的各种精度指标。这些准确性指标包括用于校准同源核苷酸的灵敏度和阳性预测值，以及用于识别indels的类似指标。scoreAlignment2程序还生成了一个indel边界报告，但由于大小限制，该报告未包含在此存档中。indel边界报告记录了真实路线中的每个indel，预测indel的边界在对准器计算的路线中的距离。该报告包含真实和预测指数的大小，因此可以生成按大小分层的指数精度摘要。注意：此存档必须先用7-zip解压缩，然后用tar解压缩。该档案包含每个对准器程序的精度评估结果。模拟路线本身不包含在档案中，因为它们太占用空间。相反，每个子目录包含精度测试的摘要，以及使用的所有模拟进化参数，重要的是，还包含用于模拟的随机种子，以便可以重建每个对齐数据集。要重建原始路线，还必须获得一些免费可用的程序和脚本，如http://asap.ahabs.wisc.edu/mauve-aligner/mauve-developer-guide/evaluating-aligment-quality-and-stress-testing-the-aligner.html子目录首先根据测试的对准器命名，例如淡紫色 = = mauveAligner，promauve公司 = = progressiveMave、mavid = = Mavid 2.0，姆拉甘 = = MLAGAN 2.0，待定 = = 待批准2006-02-28。每个子目录名称的其余部分指示执行的实验类型。ntsub indel用于模拟具有不断增加的替代率和indels的共线基因组。ntsub-inv用于模拟基因组，以增加反转重排和核苷酸替换的速率。genefflux是指随着基因的小规模和大规模增益和损耗（通量）的增加而模拟的基因组。请注意，也省略了完整的indel边界精度结果，因为它们包括每个模拟路线的每个indel的几个数值，因此过于节省空间。当然，可以使用此存档中包含的模拟脚本和随机种子重新生成它们。
（5.74 MB焦油）
零件0.0011147.9003焦油（540万）
GUID:587A99A5-FB1B-4D6E-A428-E6A580346278
文件S2:基因增益和损失（通量）的准确性结果。沿着simujobparams.pm文件中编码为newick字符串的固定9分类单元树模拟进化。核苷酸替换率和indel速率是固定的，因此最远的分类单元将具有类似于大肠杆菌和沙门氏菌模拟了大型基因的获得和丢失事件，在连接固定树中最远分类群的路径上，给出了0到150个事件的速率。同时，还模拟了小的基因增益和丢失事件，从0到最遥远分类群中的大约10000个事件。对于每个模拟，真实的比对与进化序列集一起记录。然后运行对齐器以重建真实对齐。程序scoreAlignment2用于计算重建路线上的各种精度指标。这些准确性指标包括用于校准同源核苷酸的灵敏度和阳性预测值，以及用于识别indels的类似指标。scoreAlignment2程序还生成了一个indel边界报告，但由于大小限制，该报告未包含在此存档中。indel边界报告记录了真实路线中的每个indel，预测indel的边界在对准器计算的路线中的距离。该报告包含真实和预测指数的大小，因此可以生成按大小分层的指数精度摘要。注意：此存档必须先用7-zip解压缩，然后用tar解压缩。该档案包含每个对准器程序的精度评估结果。模拟路线本身不包含在档案中，因为它们太占用空间。相反，每个子目录包含精度测试的摘要，以及使用的所有模拟进化参数，重要的是，还包含用于模拟的随机种子，以便可以重建每个对齐数据集。要重建原始路线，还必须获得一些免费可用的程序和脚本，如http://asap.ahabs.wisc.edu/mauve-aligner/mauve-developer-guide/evaluating-aligment-quality-and-stress-testing-the-aligner.html子目录首先根据测试的对准器命名，例如淡紫色 = = mauveAligner，promauve公司 = = progressiveMave、mavid = = Mavid 2.0，姆拉甘 = = MLAGAN 2.0，待定 = = 待批准2006-02-28。每个子目录名称的其余部分指示执行的实验类型。ntsub indel用于模拟具有不断增加的替代率和indels的共线基因组。ntsub-inv用于模拟基因组，以增加反转重排和核苷酸替换的速率。genefflux是指随着基因的小规模和大规模增益和损耗（通量）的增加而模拟的基因组。请注意，也省略了完整的indel边界精度结果，因为它们包括每个模拟路线的每个indel的几个数值，因此过于节省空间。当然，可以使用此存档中包含的模拟脚本和随机种子重新生成它们。
（7.73 MB焦油）
零件0.0011147.9004焦油（730万）
制导：A3794DFA-DE48-4D7F-8B91-35FC9B0957A5
文件S3：反演和核苷酸替代模拟的准确性结果。沿着simujobparams.pm文件中编码为newick字符串的固定9分类单元树模拟进化。索引率固定为一个较低的值，以便最远的分类单元具有类似于大肠杆菌和沙门氏菌倒置事件是用沿着连接固定树中最远分类群的路径的0到1400个事件的速率进行模拟的。同时，还模拟了核苷酸替换事件，从0到最遥远分类群中每个位点约0.9个替换。对于每个模拟，真实的比对与进化序列集一起记录。然后运行对齐器以重建真实对齐。程序scoreAlignment2用于计算重建路线上的各种精度指标。这些准确性指标包括用于校准同源核苷酸的灵敏度和阳性预测值，以及用于识别indels的类似指标。scoreAlignment2程序还生成了一个indel边界报告，但由于大小限制，该报告未包含在此存档中。indel边界报告记录了真实路线中的每个indel，预测indel的边界在对准器计算的路线中的距离。该报告包含真实和预测指数的大小，因此可以生成按大小分层的指数精度摘要。scoreAlignment2还报告了真实重排断点和预测重排断口之间的平均距离。注意：此存档必须先用7-zip解压缩，然后用tar解压缩。该档案包含每个对准器程序的精度评估结果。模拟路线本身不包含在档案中，因为它们太占用空间。相反，每个子目录包含精度测试的摘要，以及使用的所有模拟进化参数，重要的是，还包含用于模拟的随机种子，以便可以重建每个对齐数据集。要重建原始路线，还必须获得一些免费可用的程序和脚本，如http://asap.ahabs.wisc.edu/mauve-aligner/mauve-developer-guide/evaluating-aligment-quality-and-stress-testing-the-aligner.html子目录首先根据测试的对准器命名，例如淡紫色 = = mauveAligner，promauve公司 = = progressiveMave、mavid = = Mavid 2.0，姆拉甘 = = MLAGAN 2.0，待定 = = 待批准2006-02-28。每个子目录名称的其余部分指示执行的实验类型。ntsub indel用于模拟具有不断增加的替代率和indels的共线基因组。ntsub-inv用于模拟基因组，以增加反转重排和核苷酸替换的速率。genefflux是指随着基因的小规模和大规模增益和损耗（通量）的增加而模拟的基因组。请注意，也省略了完整的indel边界精度结果，因为它们包括每个模拟路线的每个indel的几个数值，因此过于节省空间。当然，它们可以使用这个档案中包含的模拟脚本和随机种子重新生成。
（9.16 MB焦油）
零件0.0011147.9005焦油（870万）
GUID:ACA8559B-BF9C-4906-AF89-9BF2AD4F710A

摘要

背景

多基因组比对仍然是一个具有挑战性的问题。重组的影响，包括重排、片段复制、获得和丢失，甚至可以在密切相关的生物体中创建同源的镶嵌模式。

方法/主要发现

我们描述了一种新的方法来对齐两个或多个基因组，这些基因组由于重组和大量片段增益和损失（通量）而经历了重排。我们证明，新方法可以准确地对齐某些而非全部基因组中保守的区域，这是我们以前的工作没有处理过的一个重要案例。该方法使用了一种新的对齐目标评分，称为总和断点评分，当基因组的基因含量不相等时，这有助于准确检测重排断点。我们还应用概率比对过滤方法来消除在其他基因组比对方法中常见的无关序列的错误比对。我们描述了用于量化基因组比对准确性的新指标，这些指标用于衡量重排断点预测和indel预测的质量。新的基因组比对算法在基因组经历了生物上可行数量的基因组重排、节段性增加和丢失的情况下显示出高精度。我们将新算法应用于一组23个属的基因组大肠杆菌属,志贺氏菌、和沙门氏菌全基因组多重比对分析允许我们扩展先前定义的核心基因组和泛基因组概念，不仅包括注释基因，还包括具有潜在调控作用的非编码区域。这23株肠杆菌的核心基因组估计为2.46Mbp，在所有分类群中保守，泛基因组为15.2Mbp。我们记录了由节段性增益和损耗驱动的这些生物体之间的大量种群级变异。有趣的是，基因间区域存在很大差异，这表明肠杆菌科可能表现出调节差异。

结论

我们的软件生成的多基因组比对为比较基因组和群体基因组研究提供了一个平台。实现所述基因组比对方法的免费开源软件可从http://gel.ahabs.wisc.edu/mauve.

介绍

多基因组比对是比较基因组学工具箱中最基本的工具之一，但其应用受到准确性和实用性的限制[1]–[3]准确的基因组比对是无数比较基因组分析的必要前提。

在进化过程中，基因组会经历局部和大规模突变过程。局部突变只影响少量核苷酸，包括核苷酸替换和核苷酸插入或缺失。大规模突变可能包括不均匀重组或其他过程产生的大片段的获得、丢失或复制。同源重组可以导致用不相同但同源的序列替换整个基因，甚至更大的染色体片段。总之，这些突变过程会导致两个或多个基因组中原本相同的区域片段化、重新排序、可能丢失，甚至出现多个拷贝。

基因组比对任务旨在识别两个或多个基因组中的同源核苷酸，也就是说，基因组比对识别一些祖先生物体中单个位点的核苷酸。同源位点可以以多种方式进行分类，基因组比对任务通常以鉴定某些类别的核苷酸为目标。同源位点通常根据进化史进行分类，如正形学、寄生虫学和异种学[4],[5]。也可以根据非进化关系对位点进行分类，例如所涉及的生物体的数量或身份（例如，仅涉及重要参考生物体的同源位点，例如智人)，甚至通过与其他同源核苷酸的排序关系（例如共线性）。基因组比对方法通常将目标比对定义为由属于其中一个或多个类别的同源核苷酸组成。

基因组比对的早期工作包括MUMmer的开发，它可以识别成对基因组中的同源位点[6]–[8].MUMmer将同源和异源序列与进一步的限制条件对齐，即基因组中的任何位点最多只能与另一基因组中的一个位点对齐。单个基因组中的同源位点对（paralog）永远不会相互对齐。MUMmer定线的第一阶段包括确定定线锚。对齐锚是高度相同序列的局部对齐，由于其高度一致性，可以很容易地在算法上找到，并且被认为是真正对齐的一部分。然后MUMmer将局部定位锚聚合成一个或多个组，覆盖两个基因组的共线区域。每组锚在内部没有重排，但组的顺序可能会从一个基因组转移到另一个基因组。因此，MUMmer可以识别基因组并将其与重排的同源序列进行比对。然而，MUMmer不会对齐同源序列（基因组内重复），也不会对齐多拷贝同源序列的所有拷贝。由于MUMmer将任何位点与另一个基因组中的最多一个位点对齐，并且由于它使用相邻的独特区域锚定重复序列的对齐方式，MUM mer经常对齐重复元件的位置保守副本。我们将这种对齐称为a位置同源性基因组比对; 这种比对也是通过我们之前开发的方法生成的[9].

在目前的工作中，我们描述了一种新的方法来构造位置同源性多基因组比对这扩展了我们以前的方法[9]对齐基因组亚群中保守的区域。与之前的方法相比，新方法可以对齐更多的基因组，并且模拟表明，这样做具有更高的准确性。以前的方法在某些但不是所有生物的保守区域中的灵敏度特别低，而新方法可以高精度地对齐那些相同的差异保守区域。三项算法创新强烈影响了我们的方法将基因组与可变基因内容和重排对齐的能力。第一个是一个新的目标函数，称为“一对一断点得分”，用于对多个基因组中可能的比对锚定配置进行评分。我们的第二个算法贡献是一个贪婪的启发式算法，用于在断点得分总和下优化一组锚。最后，我们证明，大多数锚定比对技术都存在偏差，导致在包含差异基因内容的区域中错误地对无关序列进行比对。我们的第三个算法贡献是应用同源隐马尔可夫模型（HMM）来拒绝不相关序列的这种错误对齐。新方法在名为progressiveMauve的程序中实现，该程序是Mauve 2.0及更高版本基因组比对包的一部分。

我们比较了本研究期间现有的比对方法和模拟数据集上的新比对方法的准确性，以涵盖广泛的基因组突变类型和比率，包括反转、基因增益、丢失和重复。然后，我们将多基因组比对方法应用于肠杆菌科23个完整基因组的组(表S1)。我们独立于注释的基因边界精确鉴定了该组的核心基因组和泛基因组，并报告了肠杆菌科基因通量模式的基本分析。我们新的比对算法的开发受到了基因组研究的启发大肠杆菌这揭示了个体间基因含量的巨大差异大肠杆菌隔离[10],[11]自这些早期研究以来，基因含量变异已被报道为许多其他微生物物种的共同特征[12]–[15]微生物种群似乎经历了大量的基因获得、丢失和同源重组[16]尽管由于难以进行完整和准确的多基因组比对，大多数系统研究都局限于基于基因的方法。我们的比对仪提供了一个平台，可以在此基础上研究微生物物种中基因获得、丢失和重排的综合效应。

以前的基因组比对方法

全基因组比对方法通常使用锚定启发式减少比对搜索空间[17]–[22]或带状动态编程[23]锚定启发式似乎在速度和灵敏度之间提供了一个很好的折衷。大多数锚定比对方法都假设输入序列没有基因组重排。因此，在比对之前，必须应用单独的合成酶映射算法来映射两个或多个基因组之间的共线同源片段。同步映射方法太多，无法列出，但大多数方法都涉及计算假定ORF上的倒数最佳BLAST点击，BLAST的点击通过e值阈值、覆盖阈值和唯一性标准进行过滤。一些同步映射方法应用基因组上下文来帮助解决不明确的正态/副态关系，还有一些人使用概率传递同源性方法推断远缘相关分类群之间的同源性[24].

已经提出了合成映射和比对的综合方法，其中大多数是在成对的基因组上进行操作[8],[25]–[27]。尽管取得了一些进展，但对带有重排的多重排列的研究仍然有限[9],[28]–[31]除了更容易使用之外，集成的同线性映射和对准方法在理论上可以提供更准确的推断，因为对准可以影响同线性映射，反之亦然。

自从这项工作以来，新的基因组比对方法已经问世。其中两种方法构建了所谓的全球性的多基因组比对[32],[33]（请参见[25]对于glocal的定义）。这些方法如何对齐基因组的主要区别在于它们如何处理重复片段。而不是调整重复DNA片段的位置保守拷贝(一个laMauve），全球性的方法构建重复片段的所有同源拷贝的多重比对，无论它们是同源还是同源。图1使用三个示例基因组来说明差异。我们注意到，通过将几个基因组串联成一个序列，基因组DNA大规模局部多重比对的方法[34],[35]也可以用于计算全局对齐，只需要对齐后的“解相干”步骤。识别位置同源区域并将同源关系子类化为正态或副态类型的任务留给下游推理方法。这种方法在复制丰富的后生动物和植物基因组时具有优势，因为它们的位置同源性通常不如较小的微生物基因组那样清晰。然而，在具有明确位置同源性的生物体中，需要解决全球性的与位置同源比对相比，比对不一定会使下游推理任务复杂化。如下文所述，存在大量工具来分析无法应用于全球性的路线。

保存图片、插图等的外部文件。对象名称为pone.0011147.g001.jpg

在单独的窗口中打开

图1

两者之间的差异位置同源性对齐和全球性的对齐。

三个线性基因组被分成标记为A、B、C、D和R的基因。R是一个多拷贝（重复）基因，不同的拷贝使用数字下标标记。假设R的每个拷贝在序列上都是相同的，因此核苷酸替换不知道正形/副序（就像移动DNA重复元件的情况一样）。给定基因组中向下移动的基因相对于参考基因组是反向的（反向补体）。这个位置同源性理想情况下，比对将创建两个局部比对块，其中每个块对每个基因组正好有一个比对行。只有重复基因家族R的定位保守拷贝才能相互对齐。这个全球性的理想情况下，比对将创建四个局部比对块，其中重复基因家族的所有副本彼此对齐。

方法

我们的方法应用于三个假设基因组的概述见图2并且目前对其进行详细描述。

保存图片、插图等的外部文件。对象名称为pone.0011147.g002.jpg

在单独的窗口中打开

图2

使用三个示例基因组A、B和C的比对算法概述。

符号和假设

我们的基因组比对算法将一组保存图片、插图等的外部文件。对象名称为pone.0011147.e001.jpg 基因组序列.我们表示基因组的长度作为未完成或多染色体基因组中的轮廓连接起来形成一个单一的坐标系。软件实现中的各种默认参数设置取决于输入基因组序列的平均长度，我们表示为保存图片、插图等的外部文件。对象名称为pone.0011147.e005.jpg 基因组坐标假定从1开始，从左到右递增。坐标可以用有符号整数表示在里面.的符号表示绞合度，负值表示与反向股对齐。让是基因组位置的相应核苷酸碱基; 什么时候，以及何时保存图片、插图等的外部文件。对象名称为pone.0011147.e012.jpg 是位置的互补基础最后，表明基因组存在缺口。整个基因组比对的基本构建块是局部多重比对（LMA），我们将用我们使用LMA将MUMmer的最大唯一匹配（MUM）推广到包括近似匹配和多基因组。

作为潜在锚的局部多重路线

我们使用回文间隔种子模式家族将局部多重比对识别为潜在锚定[36]在seed-and-extend散列方法中（参见附录[9])。一种间隔的种子长度模式保存图片、插图等的外部文件。对象名称为pone.0011147.e017.jpg 和重量保存图片、插图等的外部文件。对象名称为pone.001147.e018.jpg [37]标识的位置-输入基因组中的mers具有相同的核苷酸序列，但在固定位置允许少量突变。例如，种子模式11*11*11将识别长度匹配的低聚物保存图片、插图等的外部文件。对象名称为pone.0011147.e020.jpg = 8，其中第3和第6个位置退化。种子图案中1的数量通常称为种子图案的重量，表示为因此，图案11*11*11具有 = 6.如果向前或反向阅读时模式相同，则称模式为回文[38]。种子族是种子模式的集合，当结合使用时，可以提高匹配灵敏度，并且以前已经证明这种族具有极佳的速度和灵敏度[39].

为了最小化计算时间并将锚定覆盖集中在单拷贝区域，我们的方法只扩展了两个或多个基因组中唯一的种子。默认情况下，我们使用权重等于保存图片、插图等的外部文件。对象名称为pone.0011147.e023.jpg 该公式也适用于在递归锚固期间确定合适的种子重量(图2步骤5，稍后描述），具有以下限制保存图片、插图等的外部文件。对象名称为pone.001147.e024.jpg 在所有情况下。由此产生的局部多重比对是未映射的，并且总是对齐中两个或多个基因组的连续子序列保存图片、插图等的外部文件。对象名称为pone.0011147.e025.jpg .任何给定的局部多重对齐可以用长度来正式描述和整数向量：，其中是LMA的有符号左端坐标，或0。什么时候？取值为0基因组在所有的保存图片、插图等的外部文件。对象名称为pone.001147.e033.jpg .

我们的程序发现的LMA是唯一子序列的未映射对齐，因此类似于多MUM，但根据回文种子模式可能包含不匹配。与多MUM一样，唯一LMA的任何部分可以是非唯一的，并且没有LMA可以完全包含在另一个LMA的边界内。我们将此步骤中生成的局部多重对齐集合称为保存图片、插图等的外部文件。对象名称为pone.0011147.e034.jpg 中给出了一个示例图2步骤1。

局部定线锚划线

给出一个没有基因组间隙的成对比对保存图片、插图等的外部文件。对象名称为pone.0011147.e035.jpg 和，我们使用替换矩阵计算两两替换分数，默认为HOXD矩阵[40]HOXD矩阵似乎能够很好地区分各种生物体中的同源序列和无关序列，即使在序列差异很大的情况下也是如此。

代换矩阵得分量化了一对核苷酸共享共同祖先的对数-加成比，但没有考虑基因组序列固有的重复性。我们想要区分表明位置同源性的定位锚和具有随机相似性或paralogy的区域的定位锚，需要在锚定分数中考虑重复基因组序列[41].

我们将一对核苷酸的传统替换分数与多重性的调整结合起来保存图片、插图等的外部文件。对象名称为pone.0011147.e037.jpg -mer种子位于对齐位置：

(1)

(2)

哪里保存图片、插图等的外部文件。对象名称为pone.0011147.e040.jpg 是与子序列匹配的间隔种子模式的出现次数在.的产品估计站点可能采用的方式数量和用相同的种子-mers作为和可以合并。例如，考虑两个基因组中都存在一个重复元素，其拷贝数为保存图片、插图等的外部文件。对象名称为pone.0011147.e049.jpg 在基因组中和副本号在里面保存图片、插图等的外部文件。对象名称为pone.001147.e052.jpg 。有可能的重复对。当重复元件中的一对核苷酸具有正取代分数时，产物向下打分。

总之，该评分方案将高分分配给每个基因组中唯一的高度保守区域，并且不考虑间隙惩罚。

成对局部共线块

一对基因组保存图片、插图等的外部文件。对象名称为pone.0011147.e055.jpg 和自他们最近的共同祖先以来，可能经历了无数次基因组重排。因此和可能会对齐每个基因组中以不同顺序或方向出现的片段。我们将成对局部共线块（LCB）定义为在一对基因组中以相同的顺序和方向出现保存图片、插图等的外部文件。对象名称为pone.0011147.e060.jpg 和它们没有内部重组。定义基因组之间的成对LCB和，我们首先定义当前局部多重对齐集的投影到上面和作为，通过设置基因组的所有坐标实现到0。在局部对齐中例如，投影保存图片、插图等的外部文件。对象名称为pone.0011147.e070.jpg 到上面保存图片、插图等的外部文件。对象名称为pone.001147.e071.jpg 和通过设置所有左端坐标获得：到0，除了和.

将LMA转换为局部成对比对后，我们应用了众所周知的断点分析程序[42],[43]到最小分区保存图片、插图等的外部文件。对象名称为pone.0011147.e076.jpg 成对LCB。让表示投影的最小划分变成不相交的LCB：。投影到两个维度可以使我们应用前面描述的评分方案。

(3)

哪里保存图片、插图等的外部文件。对象名称为pone.0011147.e081.jpg 是一个固定常数，是在投影中形成的成对LCB的数量到上面和、和

(4)

(5)

因此保存图片、插图等的外部文件。对象名称为pone.0011147.e088.jpg 计算中每对站点的分数总和在基因组中排列的.功能计算包含反向补全区域的匹配中的匹配序列坐标。

我们的方法计算沿根导向树的对齐保存图片、插图等的外部文件。对象名称为pone.0011147.e092.jpg 。我们使用表示的任意内部节点，以及叶（或终端）节点的集合.作为保存图片、插图等的外部文件。对象名称为pone.001147.e096.jpg 是一个有根的分叉树，每个内部节点有两个孩子，由指定保存图片、插图等的外部文件。对象名称为pone.0011147.e098.jpg 和适用于左孩子和右孩子。术语“左”和“右”是为了方便符号，没有内在含义。我们表示从作为此术语如所示图3.

保存图片、插图等的外部文件。对象名称为pone.0011147.g003.jpg

在单独的窗口中打开

图3

树节点使用的术语说明。

将图形逆时针旋转90度，解释了左和右的描述性用法。

我们计算以下LCB锚定（SP锚定）目标函数的总和，以选择一组对齐锚定：

(6)

沿着导向树，其结构如下所述。

锚固导向树施工

我们的方法根据计算如下的导向树逐步计算对齐锚点。我们基于局部多重比对的初始集计算基因组内容距离矩阵和邻接连接树保存图片、插图等的外部文件。对象名称为pone.0011147.e103.jpg 基因组内容距离矩阵中的值按照图2第2步。关于共享基因组含量的信息强烈影响距离度量，因此具有相似基因组含量的生物体倾向于集群。生成的导向树的拓扑可能并不代表生物体的克隆系谱，但是，我们发现基于基因组内容的导向树允许我们的算法产生更好的比对。我们还注意到，用户可以通过命令行选项将导向树更改为自己的选择。生成的树是中点根式的，以生成渐进锚定导向树。

导向树用于锚定，但不用于有间隙的全局多序列比对，其中比对在多种导向树肌肉上进行优化[44].中的步骤2和3图2说明引导树的构造。

优化SP锚定目标函数

在方程式3中，常数保存图片、插图等的外部文件。对象名称为pone.0011147.e104.jpg 是断点惩罚，乘以，产生一个得分惩罚，当锚入保存图片、插图等的外部文件。对象名称为pone.001147.e106.jpg 诱导更多的LCB。因此，引发较少断点的锚集被给予更高的分数。

该算法的最新版本应用了基因组对特定的断点惩罚比例保存图片、插图等的外部文件。对象名称为pone.0011147.e107.jpg 基于生物之间在基因组含量和重排方面的预期差异。这种缩放是由进化过程中速率异质性的生物现象引起的。基因获得、丢失、重排和核苷酸替代的速率似乎在不同谱系之间彼此独立地变化，比例因子有助于解释这一事实。为了表达的简洁和清晰，我们省略了缩放的数学推导。

断点惩罚的值保存图片、插图等的外部文件。对象名称为pone.0011147.e108.jpg 是算法实现中由用户控制的参数，我们使用默认的最小缩放值对真实基因组序列数据的人工实验表明，该值代表了对小基因组重排的敏感性和对虚假比对的过滤之间的良好权衡。什么时候？保存图片、插图等的外部文件。对象名称为pone.0011147.e110.jpg ，一个短至40nt的重排片段可能会对齐，只要它在两个基因组中完全相同并且是单拷贝的。我们通过观察HOXD矩阵中核苷酸匹配的最高分数为100，从而得出该数字，因此根据等式4，40个连续匹配的核苷酸得分为4000，但前提是保存图片、插图等的外部文件。对象名称为pone.0011147.e111.jpg -mer种子在那个地区是独一无二的。最小刻度值通过测试增加的值来选择关于基因组根据BLAST和基因注释确定，核苷酸一致性直到找到一个排除大多数伪比对的值。

我们应用贪婪断点消除启发式来优化保存图片、插图等的外部文件。对象名称为pone.0011147.e115.jpg 从而从直到分数不能再增加。删除构成单个LCB的匹配项减少中的LCB总数如果相邻LCB合并，则至少减少一个，最多增加四个[9]。向其他基因组对投影的LCB数量也可能减少。LCB数量的减少，以及断点的减少，减少了保存图片、插图等的外部文件。对象名称为pone.001147.e119.jpg 。但锚定功能有两个组件，并且仅当保存图片、插图等的外部文件。对象名称为pone.0011147.e121.jpg 总分足够小，有利于删除“中断”大型LCB的“小型”LCB。

我们的算法迭代地识别从中删除的LCB 保存图片、插图等的外部文件。对象名称为pone.0011147.e122.jpg 将为。此程序对应于中的步骤4图2。我们正式确定保存图片、插图等的外部文件。对象名称为pone.001147.e124.jpg 最大化：

(7)

结束保存图片、插图等的外部文件。对象名称为pone.0011147.e126.jpg ，其中.

删除一个时保存图片、插图等的外部文件。对象名称为pone.0011147.e128.jpg 来自当前成对LCB集，我们同时删除这些局部对齐其投影生成因此，从可以同时从其他成对投影中删除LCB和断点。优化过程的多次迭代导致LMA序列严格减少：.

贪婪断点消除过程重复，直到进一步移除LCB（及其组成的LMA）无法提高节点的SP锚定得分保存图片、插图等的外部文件。对象名称为pone.0011147.e134.jpg 。在每个保存图片、插图等的外部文件。对象名称为pone.001147.e135.jpg -导向树的1个内部节点从两个最近的基因组开始然后穿过导向树到达树根。

递归锚定

中的初始局部路线集保存图片、插图等的外部文件。对象名称为pone.001147.e138.jpg 通常使用在具有高序列同一性的独特区域中找到局部比对的种子权重来计算因此，初始锚定点集经常会遗漏序列身份较低的同源区域。通过贪婪断点消除（方程式4）选择锚后，我们的方法搜索存在于保存图片、插图等的外部文件。对象名称为pone.001147.e140.jpg 和保存图片、插图等的外部文件。对象名称为pone.0011147.e141.jpg ，请参阅图2第5步。

为了提高递归锚搜索期间的灵敏度，使用较小的种子权重，如下所述[9]。任何新的局部路线都将添加到保存图片、插图等的外部文件。对象名称为pone.001147.e142.jpg 。新锚之间的一致性得到加强，并将其合并以形成多基因组锚。在递归锚点搜索之后，我们应用贪婪断点消除再次优化SP锚点得分。递归锚定和断点消除步骤重复到不再提高超过保存图片、插图等的外部文件。对象名称为pone.001147.e144.jpg 百分比。epsilon的值默认为 = 0.5%. 这个限制防止了对准器花费大量的计算工作来将锚定性能提高到微不足道的程度。

锚定轮廓对齐和迭代优化

对齐锚定保存图片、插图等的外部文件。对象名称为pone.001147.e146.jpg 在节点处计算使用修改后的MUSCLE 3.7软件执行锚定轮廓文件全局对齐[44]。全局配置文件对齐要求输入序列没有重新排列。因此，我们将锚划分为在任何成对投影中都不存在断点。完全成熟的局部共线块保存图片、插图等的外部文件。对象名称为pone.001147.e149.jpg 位于节点保存图片、插图等的外部文件。对象名称为pone.0011147.e150.jpg 不再局限于二维，是一个极大集其中的每个成对投影进入之内和在里面包含在中的通用成对LCB中一个或多个原始成对LCB可能会被此限制截断，因此在节点上划分为LCB可以认为是组成两两LCB之间的交集。然后每个LCB 保存图片、插图等的外部文件。对象名称为pone.0011147.e159.jpg 使用别处描述的方法独立地进行锚定轮廓-文件对齐[44]为了捕获每个LCB边界的完整同源区域，LCB外部的序列区域被随机分割并分配给相邻的LCB。示例中显示了黄色区域图2第5步。

在初始的profile对齐之后，我们应用基于窗口的迭代细化来改进对齐。第6步，共步图2对应于此过程。重要的是，MUSCLE使用多种替代导向树来细化对齐，并且不局限于选择用于渐进锚定的导向树。使用多导向树是微生物基因组的一个特别重要的特征，微生物基因组受到横向基因转移的影响。值得注意的是，我们使用MUSCLE作为优化步骤也是在其他软件管道中使用的一种方法[45].

拒绝无关序列的对齐

得分较高的比对锚之间的DNA片段可能不相关，尤其是在细菌中。尽管如此，我们的方法（像许多其他基因组比对仪一样）将全局比对算法应用于所有比对锚之间片段，天真地假设同源性存在。我们对同源性的假设有时会被证明是错误的，因此为了获得准确的比对，我们必须检测无关序列的强制比对。为此，我们应用HMM后向解码器，将两两对齐中的列分类为同源或不相关。HMM结构、跃迁和发射概率在其他地方进行了描述[34]HMM对两两同源性进行预测，我们使用传递同源关系进行组合。发现不相关的区域将从最终路线中删除。同源HMM的应用是对准程序的最后一步，如中的步骤8所示图2.

实施

对齐算法已在Mauve v2.0及更高版本中包含的progressiveMauve程序中实现。该程序是开放源码C++代码（GPL），Windows、Linux和Mac OS X的32位和64位二进制文件可从http://gel.ahabs.wisc.edu/mauve包括一个辅助可视化程序。已校准细菌基因组的默认对齐参数[38].

结果

量化对准精度

我们的新对齐算法使用近似和计算启发式来计算对齐。为了了解我们的方法产生的定线质量，客观量化定线精度至关重要。如果没有已知的“正确”基因组比对，则无法评估自动比对启发式的准确性。尽管存在用于蛋白质序列比对的几个基准数据集[44],[46]，不存在用于基因组比对和重排的这样的基准数据集。迄今为止，人工管理包括重排和横向基因转移在内的超大碱基规模全基因组多重比对已被证明过于耗时和困难。尽管缺乏手动管理的正确对齐，但我们可以通过建模进化和对齐模拟数据集来估计对齐精度。本节中描述的所有结果以及用于生成这些结果的程序都可以作为补充材料。

模拟进化模型

在之前的工作中，我们构建了一个基因组进化模拟器，用于捕获肠杆菌基因组中突变事件的主要类型、模式和频率[9]在本研究中，我们使用相同的进化模拟模型，但具有不同的进化参数。给定一个有根的系统发育树和一个祖先序列，我们为树的每个内部节点和叶节点生成进化序列，以及在整个模拟进化过程中保持的区域的多序列比对。沿着分支，核苷酸替代、indels、基因增益/丢失和反转重排等突变被建模为标记泊松过程。我们根据进化过程中产生的正确比对对计算出的比对进行评分。

虽然基因复制在细菌中非常常见，但我们没有明确地在此建模，因为细菌染色体中的重复往往是不稳定的，并且经常是反选的[47]也就是说，重复通常不会持续很长时间。相反，我们用两种方式间接模拟基因复制。首先，基因获得事件的源DNA序列来自一个1Mbp的序列池。在中到高的模拟基因获得率下，从供体库中采集了许多兆碱基的DNA，因此，相同的供体序列被插入到模拟基因组的多个位置。这种效应类似于分散的重复序列家族，例如细菌is元件或哺乳动物SINE元件。

其次，我们使用大肠杆菌O157:H7作为所有插入和基因获得事件的祖先序列和供体序列。这个大肠杆菌O157:H7基因组有许多自然发生的重复序列，这些重复序列被携带到模拟的后代基因组中，是已测序的最大的基因组之一大肠杆菌基因组，为模拟提供尽可能多的自然起始材料。通过使用真实的基因组序列作为祖先序列，得到的进化基因组通常具有类似的核苷酸、二核苷酸、，保存图片、插图等的外部文件。对象名称为pone.0011147.e160.jpg -mer组成、重复拷贝数和重复分布。否则，在模拟环境中很难捕捉到控制这些特征进化的未知自然力。

我们在高突变率下的实验结果应该谨慎解释，然而，由于应用的模拟突变越多，模拟基因组看起来就越不像真正的基因组。这是所有前向时间演化模拟的一个缺点，我们还不知道该问题的任何解决方案。然而，模拟研究仍然是客观测量多基因组比对质量的唯一实用方法。

准确性评估指标

以前对对准精度的研究使用了一种综合评分方案来表征对准器的残余水平精度[9],[46]这里介绍的实验使用了一对一评分，但我们也定义了新的准确度度量来量化每个比对系统预测基因组重排指数和断点的能力。对于每种类型的突变，我们定义如下所述的真阳性（TP）、假阳性（FP）和假阴性（FN）预测。使用这些定义，我们可以测量对准器的灵敏度保存图片、插图等的外部文件。对象名称为pone.0011147.e161.jpg 正预测值（PPV）为保存图片、插图等的外部文件。对象名称为pone.001147.e162.jpg .

对于核苷酸对，TP是在计算的和正确的比对中对齐的对。FP是在计算的比对中的核苷酸对，其在正确的比对中不存在。同样，FN是在计算的对准中不存在的处于正确对准的对。我们不量化真阴性（TN）比对，因为TN可能性的数量非常大，随着序列长度的乘积而增长。

根据预测的比对，我们将正确比对中的每个索引分类为TP或FN。一个真正的阳性indel在indel两侧的对角线/区块中至少有一对正确对齐的核苷酸，并且至少有一个核苷酸正确对齐到indel内的间隙（参见图4)。TP索引的数量绝不会超过正确对齐中的索引数量。我们将FP-indel预测定义为超出真正预测的多余indel预测数。FN indels在侧翼对角线/区块中缺少正确预测的核苷酸对，或者在正确的间隙区域中缺少间隙预测。图4给出了每种情况的示例。

保存图片、插图等的外部文件。对象名称为pone.0011147.g004.jpg

在单独的窗口中打开

图4

量化indel准确度。

正确的比对显示在左侧，四种可能的预测比对显示为A、B、C和D。核苷酸被指定了数字标识符。正确的对齐有一个索引，它将对齐划分为三个部分：左对齐的块、索引和右对齐的块。预测的比对必须在三个部分中的每个部分都有一个正确对齐的核苷酸对，才能计算出真正的阳性indel预测。

对准器在预测indels的准确位置方面臭名昭著[48]根据我们的定义，TP指数预测不需要预测指数的准确边界，只需要预测指数是否存在。该方案允许我们区分缺少indel预测的情况和indel被预测但位置不正确的情况。我们将indel边界预测精度量化为真实边界与预测indel侧面的对角线/区块中最近对齐的核苷酸对之间的距离。当预测的指数太大时，我们的度量将为边界分数指定一个正值。当预测的指数太小时，赋值为负值。

大indels在历史上曾给核苷酸比对仪带来过问题，核苷酸比对仪有一种趋势，即利用间歇性比对序列将大indels.拆分成一系列较小的间隙。根据我们的定义，一个较大的indel仍然可以被视为TP预测，即使它被校准器分成一系列较小的间隙（参见图4例如，预测A）。我们的理由是，该比对器确实正确地预测了不相关序列的存在，并获得了TP，但错误地预测了同源性之间的额外转换，这被归类为FP-indel预测。为了区分一个TP指数是否被分成两个或多个较小的间隙，我们将一类“奇异”TP指数预测定义为作为单个对齐间隙预测的指数。请参见图4“奇异”TP指数示例的预测D。

对合LCB精度和断点定位

对于每对基因组，我们还测量比对器是否正确预测了该对中的LCB，从而得出一个LCB准确度的总和。对于真实比对中的每个成对LCB，当预测的比对包含该LCB中至少一个正确对齐的核苷酸对时，我们记录一个TP LCB预测。缺乏任何正确预测的核苷酸对的成对LCB是FN预测。最后，预测比对中缺少任何正确比对核苷酸对的成对LCB为假阳性（FP）。同样，我们不测量TN。

与indels一样，我们定义了一个单独的度量来量化每个对齐器定位重排的准确断点的程度。对于TP LCB预测，我们记录正确LCB边界与预测LCB边界之间的差异（核苷酸）。当预测的LCB未能包含完整的同源区域时，结果值为负值，当预测LCB超出真实边界时，结果为正值。

LCB准确性指标背后的基本原理是，它们对LCB边界的错误预测和额外LCB的预测所引起的影响具有鲁棒性。例如，如果预测的LCB包含一对正确对齐的核苷酸，并且比真正的LCB短得多，则该误差将被记录为LCB边界预测误差。在另一个例子中，想象一个真实的LCB被分成两个预测的LCB，第三个假阳性的LCB介入其中。我们的指标将记录1个真阳性和1个假阳性。LCB边界分数取决于真实LCB的左右边界与预测LCB的最近边界之间的距离，预测LCB中的核苷酸在该真实LCB中正确对齐。这种方法可以防止假阳性LCB干扰我们对LCB边界精度的测量。

根据我们对TP、FP、TN和FN预测的定义，特异性通常定义为保存图片、插图等的外部文件。对象名称为pone.0011147.e163.jpg ，不是一个有用的指标。在大多数情况下，TN取的非常大的值会将商推至1。

选择用于测试的对准器

我们下载并测试了截至2008年5月这项工作完成时公开提供的所有多基因比对仪。已知可在该时间点处理重排的多基因比对仪包括mauveAligner 1.3.0[9]、progressiveMauve 2.2.0和TBA 28-02-2006[17]。我们没有测试涉及单独同步映射和对齐步骤的两阶段管道，例如MERCATOR+MAVID[49]或链网+TBA[50]但这将是未来工作的一个有趣领域。我们确实测试了一些可用的多重对准器，这些对准器假设共线基因组序列作为输入，包括MLAGAN 2.0[19]，MAVID 2.0版[18]和山核桃0.7[33]，在本书出版时可以下载，但尚未出版。自对准器测试完成后，已发布了几个新的对准系统，包括Enredo+Pecan[33]、金融服务管理局[51]，以及LAGAN的扩展，用于重复和重排的无参考对齐[32]。我们没有测试全球性的对齐方法。我们的模拟系统没有明确建模基因复制，更糟糕的是，我们不知道祖先基因组材料中重复序列的真实比对，因此不可能量化全球性的使用我们的评估方案的对准器。FSA测试[51]最后，我们没有测试任何一种成对比对或成对同步映射方法，因为我们的工作重点是多基因组比对问题。

除非另有规定，否则我们使用默认参数设置运行每个对齐器。对准器MLAGAN、TBA和PECAN需要用于对准的导向树规范；MAVID可选导向树。我们为这些对准器提供了真实的模拟树。mauveAligner和progressiveMauve没有提供真正的模拟树，而是计算了它们自己的导向树用于锚定（各种本地导向树用于对准优化）。这可能会给MLAGAN、TBA、PECAN和MAVID在精度比较中带来优势，因为在许多生物感兴趣的情况下，在对齐之前可能无法识别合理的导向树。下面描述的三个补充文件包含每个仿真和对准器运行的完整命令行日志，以及原始精度结果。

共线基因组的准确性

我们的第一个实验比较了mauveAligner 1.3.0、progressiveMauve、MLAGAN 2.0、MAVID 2.0和TBA 28-02-2006在对齐经历了越来越多核苷酸替换和indels的共线序列时的准确性。根据先前推断的系统发育，对于indel和取代率的每一个组合，9个基因组是从1Mbp的祖先进化而来的[9]然后，我们使用具有默认参数的每个比对器构建进化序列的比对，并量化核苷酸对和indel预测的灵敏度和阳性预测值（PPV）。进行了三次重复，结果如下所示图5; 仿真树如所示图6.

保存图片、插图等的外部文件。对象名称为pone.0011147.g005.jpg

在单独的窗口中打开

图5

序列比对的准确性在没有重排的情况下，随着核苷酸替换和indel比率的增加而发展。

对校准者进行了100个indel和替代率组合的测试，三个重复的平均性能。随着突变率的增加，所有方法都会失去准确性，而最准确的比对方法取决于特定的突变率。progressiveMave和MLAGAN显示出最佳的indel敏感性和阳性预测值（PPV），而TBA在极高的突变率下比其他方法更敏感。MLAGAN在分配的10小时内没有在没有indels的情况下对齐基因组，导致底部出现黑行。图中的星号表示indel率和替代率的组合，预计与我们的23个目标基因组相似。

保存图片、插图等的外部文件。对象名称为pone.0011147.g006.jpg

在单独的窗口中打开

图6

mauveAligner、progressiveMauve和TBA在将基因组与反转和分段增益和损失对齐时的准确性。

在顶部显示的实验中，反转率沿保存图片、插图等的外部文件。对象名称为pone.0011147.e164.jpg -轴和沿-轴。最远的分类群每个位点有0.05个indels。在整个反转率空间中，progressiveMave明显优于mauveAligner 1.3.0。应注意，在UCSC浏览器路线等应用中，TBA与单独的同步映射方法结合使用，以识别重排[66]，因此此处给出的性能结果不会引起警报。底部的实验量化了在小规模和大规模增益和损耗事件下对准器的性能。这个保存图片、插图等的外部文件。对象名称为pone.0011147.e166.jpg -轴给出了大型增益和损耗事件的平均数量[长度在最远的分类群之间统一（10kbp，50kbp），而-轴提供小增益和损耗事件[长度地理（200 bp）]。替代率和indel率由星号表示图5最远的分类群平均有42个倒置。图中的星号表示模拟场景预计与我们的23个目标基因组类似。progressiveMave再次超越了其他方法，但所有方法在面对大规模的收益和损失时都会崩溃。值得注意的是，当mauveAligner 1.3.0达到较高的PPV时，它的灵敏度通常很低。

一般来说，除了mauveAligner 1.3.0无法以高突变率锚定基因组外，所有的比对器在共线序列上都表现良好。在测试的比对器中，TBA提供了最高的核苷酸敏感性，而progressiveMauve在大多数情况下提供了最佳的indel敏感性和阳性预测值。尽管如此，所有对准器在准确预测indels方面都很差，这可能部分是由于在模拟进化过程中引入的信息的固有损失[48]。我们没有在这里测试Pecan对准器，尽管可以在其他地方找到对其性能的详细评估[45]我们在下面对它进行了一些测试。我们注意到，在较小的模拟数据集上，我们对山核桃进行了测试（见下文），与所有其他方法相比，包括渐进改良法（数据未显示），山核桃具有更高的indel敏感性、核苷酸敏感性和核苷酸PPV。

与此模拟对应的数据可用作文件S1.

面对收益、损失、重排和基因的准确性

我们评估了mauveAligner 1.3.0、progressiveMauve和TBA的相对性能[17]将基因组与基因组重排、获得、丢失和核苷酸替换的高比率对齐时。尽管最初的TBA手稿没有完全描述与基因组重排的比对，但最近的版本（2006年2月28日）处理了这一点[28],[30]。对于我们的第一组实验，如图6，我们模拟了100个替换率和反转率组合下的演化。除了核苷酸和茚准确度外，我们还量化了该数据集的LCB准确度。结果表明，与我们之前的方法相比，progressiveMauve能够以更高的重排率准确地对齐基因组。尽管TBA在重排基因组上表现平平，但与MAVID 2.0和MLAGAN 2.0的结果相比（如图S1)证明了对于所有的反转率，TBA比假设基因组没有重排的方法产生更好的比对。我们不确定为什么TBA在重排的基因组上没有达到与progressiveMauve相同的性能水平，但与TBA作者的讨论表明，这可能是测试时可用的特定版本中的一个错误（Webb Miller，个人通信）。在提交手稿时，可获得新版TBA。

在第二组实验中，我们模拟了基因组，其中有10个小片段增益和损失增加率，10个大片段增益和丢失增加率。小的增益和损耗事件以几何尺寸分布，平均值为200bp，而大的增益和损失事件具有10kbp到50kbp之间的统一长度。选择这些尺寸是为了匹配经验得出的估计值[9]。结果如所示图6，表明mauveAligner 1.3.0在面临大规模节段性增益和损耗时会出现动摇，而progressiveMauve和TBA表现明显更好。在我们的模型中，随着增益和损耗率的增加，基因组间共享的同源序列数量会恶化，最终在无限高的速率极限下达到零。

与这些模拟相对应的数据如下所示文件S2和文件S3分别用于替代/反转模拟和基因增益/损失模拟。

差距运球以及长间隙预测的质量

基因获得和丢失事件在基因组比对中表现为长间隙。每个预测的比对间隙都意味着在所研究的生物体的历史中至少发生过一次核苷酸插入或缺失。由于我们想量化节段性增益和损耗对目标基因组的贡献，因此预测的比对间隙必须尽可能准确。

当前的序列比对方法通常使用由间隙开放惩罚和间隙扩展惩罚组成的仿射间隙计分方案对两两比对进行计分。在概率设置下，最佳仿射间隙对准大致对应于具有单对插入和删除状态的对HMM的viterbi路径对准[52]然而，当对经历了大量基因增益和丢失的基因组进行比对时，存在着过多的大缺口，不符合标准全局比对对HMM施加的缺口大小分布[2]最终结果是，在仿射间隙模型下，对准器倾向于将大间隙分解为一系列小间隙，其间散布着不正确排列的核苷酸的短延伸。本着对系统对准误差进行分类的精神[48]，我们将此问题称为差距运球，因为短的排列是沿着大的间隙运球的。大量的小缺口在试图重建基因获得和丢失事件的历史时产生了问题，因为它们意味着比实际发生的插入和删除次数多得多。

使用我们的模拟进化平台，我们量化了每个对准器在预测不同尺寸间隙方面的性能。我们模拟了共线基因组的进化（没有重排），这些基因组经历了实际数量的基因获得和丢失，与之前对肠道细菌中这些事件发生率的估计相对应[9]。核苷酸替换和indels被建模为以蓝色星号指示的速率发生图5，基因获得和丢失事件的发生频率是图6.图7左边给出了观察到的间隙大小分布。

保存图片、插图等的外部文件。对象名称为pone.0011147.g007.jpg

在单独的窗口中打开

图7

间隙被正确预测为奇异间隙的频率，作为间隙大小的函数。

左侧九个基因组序列中以突变率进化的缺口的平均大小分布，与之前的估计相符大肠杆菌,志贺氏菌、和沙门氏菌。在10次模拟中平均了间隙大小分布。赖特TP indel预测的分数，即实际间隙大小的奇异TP indel预计。用基因增益、基因丢失、indels和核苷酸替代对进化进行了十次复制模拟，并使用每个比对器计算比对。预测指数根据以下定义进行分类：图4也就是说，一个奇异的真正意味着真正的差距被预测为一个单一的差距。剩余的真正指数将真间隙分解为两个或多个预测间隙。对于每个对准器，奇异预测间隙的分数显示为间隙大小的函数。缺失点表明该尺寸类别中缺少TP指数预测。所有对准器在预测小间隙方面都做得很好，但大间隙存在问题。大多数比对器，包括Pecan，它使用额外的对HMM状态来建模长间隙，倾向于将长间隙预测为一系列散布在无关序列比对中的短间隙。我们将这种行为称为“间隙运球”。progressiveMauve是使用默认参数（proMauve）运行的，没有同源HMM（proMaume_no_HMM），可以选择假设基因组共线（proMaue_col），最后假设共线，没有HMM（proMauve_col_no_HTML）。

然后，我们将每个对准器应用于模拟基因组，并测量间隙预测的准确性，作为间隙大小的函数。对对准器mauveAligner 1.3.0、MAVID 2.0、MLAGAN 2.0、TBA 28-02-2006、progressiveMauve和Pecan v0.7进行了测试。Pecan v0.7是一种性能卓越的新型对准器[33],[45]通过在锚固过程中使用概率一致性。此外，Pecan v0.7使用了一个具有额外间隙状态的对HMM，该间隙状态专门用于建模长indels。根据真实比对对重建比对进行评分，并记录十个重复的结果。

的右侧图7显示了每个对准器的indel预测的质量，作为真实间隙大小的函数。图中显示了特定大小的间隙被预测为单个间隙（奇异TP）的频率，而不是带有非同源序列（非奇异TP）交错排列的较小间隙串。从图中可以看出，使用仿射间隙惩罚的对准器在预测大间隙时往往表现不佳。有点令人惊讶的是，Pecan用来建模长indels的具有额外间隙状态的对HMM对长间隙的预测仍然很差，尽管灵敏度相当好（未显示）。progressiveMauve似乎在所有间隙大小下都表现良好，特别是当对准器被告知明确假设基因组共线时（proMauve_col）。为了确定progressiveMauve的性能是由其锚定算法还是使用同源HMM来拒绝无关序列的对齐引起的，我们还测试了不带同源HMM的progressive Mauve，如面板proMauve_no_HMM和proMauve _col_no_HTML所示。没有同源HMM，progressivesMauve会产生较差的结果，表明同源HMM确实解决了差距运球的问题。progressiveMave的同源HMM功能通过命令行界面可用，因此可以将其应用于XMFA格式的任何对齐。

讨论

progressiveMave擅长将重排的基因组与不同的基因含量进行比对。如此生成的位置同源性比对使得各种下游研究成为可能。在这里，我们展示了一些对齐为23的应用程序大肠杆菌,志贺氏菌和沙门氏菌基因组。该比对可用于表征这些物种中发现的共享（核心）和总（泛基因组）序列量。该比对也可用于提取可变位点，用于更传统的系统发育分析。进行性Mauve识别并排列保守的调控区和高变基因间区。

23年的渐进式Mave路线大肠杆菌,志贺氏菌、和沙门氏菌基因组显示，核心基因组由2675个片段组成，这些片段在所有分类群中都是保守的，平均占每个基因组的2.46 Mbp。在核心片段之间是分类群子集之间的保守区域和单个基因组特有的区域。通过精确计算每个核心、唯一和子集片段一次，我们构建了一个包含基因和基因间区域相似的全基因组。这23个基因组的泛基因组为15.2 Mbp，约为单个菌株的三倍，表明基因和基因间含量都存在巨大的变异性。

我们现在特别关注大肠杆菌和志贺氏菌.志贺氏菌spp.被广泛认为是大肠杆菌基于系统发育分析[53]和基因组比较[54]尽管最初的表型衍生分类仍然存在。我们将其统称为大肠杆菌/志贺氏菌类似地沙门氏菌，将几乎所有菌株分解为一个物种：肠球菌因此，我们正在研究两个姊妹物种的泛基因组和核心基因组的结构，大肠杆菌/志贺氏菌和沙门氏菌.16大肠杆菌/志贺氏菌菌株的泛基因组为12.5 Mbp，核心为2.9 Mbp肠球菌血清型的泛基因组为5.8Mbp，核心基因组为4.1Mbp。核心基因组的交集是联合核心，而泛基因组的结合是组合泛基因组，如所示图8注意，泛基因组的交叉点比节理核心大580 kb。当一个物种的核心基因组的组成部分出现在其他物种的一些成员中，而不是所有成员中时，就会出现这种反直觉的情况。在这种情况下，220kb可归因于志贺氏菌以其他方式保存在所有菌株中的菌株大肠杆菌和沙门氏菌.更详细地剖析了大肠杆菌和志贺氏菌基于渐进式，其他地方已经给出了Mave路线[55].

保存图片、插图等的外部文件。对象名称为pone.0011147.g008.jpg

在单独的窗口中打开

图8

的泛基因组（左）和核心基因组（右）的文氏图大肠杆菌/志贺氏菌和肠球菌.

与使用完整蛋白质编码基因估计的核心和泛基因组大小相比，我们预计我们的核心基因组估计值会稍大一些，泛基因组较小，因为我们的方法可以包括任何位置同源片段，而不仅仅是完整基因。在17大肠杆菌Rasko等人在泛基因组中发现2200个保守基因和13000个基因[56]. The average gene size in大肠杆菌略低于1000nt。基于平均基因长度，我们的方法发现了一个额外的保存图片、插图等的外部文件。对象名称为pone.0011147.e170.jpg 平均基因组成为核心的一部分，泛基因组大小减少在相似数量的基因组中。然而，我们的研究包括志贺氏菌这不包括在基于蛋白质的研究中[56]因此，生物采样也可能导致核心基因组和泛基因组大小的差异。

基因组重排历史推断

渐进Mave比对也为基因组重排模式分析提供了一个极好的起点。众所周知，基因组重排是通过多种突变力发生的，包括反转、转座和复制/丢失，在细菌病原体中尤为突出。已有方法推断基因组对之间的反转历史[57],[58]和多个基因组[59],[60].还开发了更通用的模型来解释多染色体和多断裂重排[61]–[63]虽然还没有进入贝叶斯系统发育背景。

大多数基因组重排历史推断方法也不能推断基因的获得和丢失，而是假定基因组中的基因含量相等。当基因含量几乎相等时，当前的模型可以使用多基因组比对来推断基因组重排的模式[64]然而，相同的基因含量被证明是例外，而不是规则。尽管如此，具有差异内容的渐进式Mave比对可以简化为仅包含所有感兴趣分类群中保守的片段，从而生成适合当前基因组重排推断软件的有符号基因顺序排列矩阵。

基因组重排推断的另一个途径是将进行性Mauve基因组比对中的位置同源信息与Repeatoire等通用局部多重比对程序中的重复家族信息相结合[34]然后，人们可以利用基因组排列信息推断出重复命名的系统发育树[65]这种方法可能特别适用于重复序列间同源重组似乎在基因组重排中起主要作用的细菌。

路线可视化

基因组比对是大型复杂实体，通常不适合直接解释。基因组比较浏览器，如UCSC浏览器[66]，维斯塔[67]，以及其他已被证明是有价值的工具，有助于理解整个基因组比对。为了帮助使用渐进式Mave对齐，我们开发了一个交互式可视化程序，该程序可以以有意义且易于理解的视觉范式呈现复杂的对齐。

该可视化系统说明了基因组进化的三个主要方面：基因组重排、片段增益和丢失模式以及核苷酸序列的局部保存程度。图9在可视化的23向对齐中显示了后两个方面大肠杆菌,志贺氏菌、和沙门氏菌.

保存图片、插图等的外部文件。对象名称为pone.0011147.g009.jpg

在单独的窗口中打开

图9

Mauve可视化显示周围高变基因间区yhdE公司.

每个基因组以水平轨迹排列，带注释的编码区域显示为白色方框。显示了每个基因组的彩色相似性图，其高度与该区域的序列同一性水平成比例。当相似度图指向下方时，表示与基因组的反向链对齐。相似性图中的颜色表示包含基因组特定片段的生物体的组合。粉红色/淡紫色的片段在所有生物中都是保守的，而紫色的片段在除沙门氏菌和橄榄绿色的片段在非尿路致病性中是保守的大肠杆菌。可视化系统是交互式的，用Java编写，可在所有支持Java 1.4或更高版本的计算机上运行。

图9显示了围绕yhjE公司基因，编码转运蛋白主要促进剂超家族中的产物。yhjE公司两侧是yhjD公司左侧，以及yhjG公司右边。这三个基因之间的基因间区域是高度可变的（如图9)并且受到多次插入和删除事件的影响。周围地区的高度变化性yhjE公司这可能并不奇怪，因为它左侧包含REP元素，右侧包含RIP元素。REP元件包含一系列两个或多个35-bp的回文重复序列，具有多种功能，包括DNA回转酶和PolI的结合，以及作为mRNA抗衰变发夹或rho依赖性衰减器。RIP元素是包含IHF绑定位点的REP元素的特殊形式[68]，这个特殊的RIP还包含一个REPt转录终止序列。IHF是全球转录调节器大肠杆菌重复元件在细菌基因组中是不稳定的[47].

有趣的是，周围基因间区域的插入/缺失模式yhjE公司不要遵循预期的分类模式，相反，这表明菌株之间发生了重组。RIP区域位于yhjE公司最多大肠杆菌已替换为中不相关的序列大肠杆菌E23477A和鲍氏志贺菌（显示为绿松石图9)，但不在宋内志贺菌.这三个菌株在大肠杆菌/志贺氏菌分类学[55]具有大肠杆菌E23477A首先分支，所以这里一定发生了收敛进化。

周围的基因间变异模式yhjE公司这表明了潜在的调节差异，这是一种在微生物研究中经常被忽视的真核生物进化机制。这个yhjE公司基因座决不是唯一具有基因间变异的区域；23向比对的屏幕确定了102个其他严格的基因间区域，这些区域具有类似的可变保护模式。

可扩展到大基因组和多基因组

该算法比较复杂，在实际应用中，许多因素导致了算法的整体渐近时间复杂度和运行时间。progressiveMave使用的新的“一对一”锚定启发式至少是保存图片、插图等的外部文件。对象名称为pone.0011147.e172.jpg 在时间复杂性方面，因为它需要评估基因组对之间的LCB。我们发现，在一台计算机上，平均大小为5Mbp的5个基因组的比对可以在不到一个小时的时间内计算出来，同样大小的20个基因组可以使用4Gb内存在24小时左右计算出来，40个基因组的配对可以在24小时内计算出来大肠杆菌属和志贺氏菌5Mbp的基因组可以用保存图片、插图等的外部文件。对象名称为pone.0011147.e173.jpg 70个计算小时，8GB RAM。墙锁运行时间的主要影响因素是基因组数量和这些基因组的差异，每个基因组的较高值导致内存和时间需求的快速增长。大基因组比对是可行的；成对对齐黑腹果蝇和果蝇在一台计算机上需要不到3个小时，而人类和小鼠基因组的比对需要90GB RAM和大约32个计算小时。人/鼠对齐和40的对齐大肠杆菌和志贺氏菌基因组可从下载http://biotorrents.net [69].

我们注意到，算法的许多部分是独立的，可以并行化，但当前版本（版本2.3.1）仅以串行模式运行。

基因重复：全球性的与位置同源性对齐

如上所述，progressiveMave生成位置同源性多重基因组比对。这些路线与全球性的基因组比对，其中一个重复基因家族的所有拷贝可能彼此对齐。我们认为位置同源性校准对于比较密切相关的微生物非常有用，原因如下。首先，全基因组复制和片段复制在大多数细菌和古生菌中的作用被认为很小。第二，尽管微生物中经常产生大量的串联重复片段，这可能是适应性进化的基本过程，但它们极不稳定，通常不会持续很长时间[70]因此，一种优化长共线区域以进行对齐的方法通常会识别并对齐正确的位置同源物。如此排列的位置同源物通常是直向同源物，或者在横向基因转移的情况下，它们将是异向同源物。位置同源比对有助于下游比对任务，如核苷酸替代的系统发育推断、基因获得和丢失的系统发育推测[55]，重排的系统发育推断[64]，甚至同源重组诱导的横向基因转移的推断[71].

位置同源性比对的主要缺点是，它本身不能为推断基因组内基因转换或基因复制历史提供合适的依据。特别是在一些输入基因组经历了全基因组复制的情况下位置同源性对齐方法可能无法对齐多个目标区域。一个全球性的校准本身可以用于此类目的。基于全球性的-类型对齐已开始出现[72]，有些甚至开始纳入核苷酸水平的进化模型[73]然而，结合核苷酸和基因组排列进化的模型仍有待实施。

我们模拟研究的一个主要缺点是它没有明确地模拟基因复制。尽管复制材料可以通过相同区域的重复增益间接创建，但我们的模拟平台并没有量化这种情况发生的频率。因此，我们无法客观地描述特定模拟基因重复率下比对方法的准确性。然而，通过在Mauve比对查看器中手动检查多基因家族的比对，我们已经观察到，在我们之前的mauveAligner算法无法实现的许多情况下，progressiveMauve算法可以对齐位置同源物。progressive Mauve是对多基因家族中位置同源物对齐的改进，但关于基因复制局限性的完整描述仍有待于未来的工作。

结论

我们提出了一种新的多基因组比对启发式方法，通过比对基因组子集中保守的区域来扩展我们之前的方法。这表明模拟数据集的精确度有了显著提高。该方法的关键特征是锚定记分功能，它惩罚基因组重复区域中的排列锚定，并惩罚基因组重排。使用一对一求和方法可以对经历了基因增益、丢失和重排的基因组进行稳健的评分，这是我们以前的比对方法没有解决的情况。

未来改进基因组比对的努力可能会明确地将进化距离模型纳入比对评分过程[74]基于概率一致性的多重比对方法在氨基酸比对方面显示出巨大的前景[75]并对齐共线基因组区域[33]原则上，可以通过重排扩展到基因组比对。最近的其他努力已经发展出了统计一致性的快速近似值[51]这些方法肯定会被纳入未来的方法中，以使基因组与重排对齐。

没有一种方法可以重建无错误的基因组比对，任何特定的比对都可能包含可能对下游推断产生重大影响的错误。然而，用于估计对齐列的置信度的方法仍在不断开发中[48],[51]下游推理方法能够明确处理重建比对中固有的不确定性，对于比较基因组学的持续发展至关重要。

支持信息

表S1

23向基因组比对中包含的细菌菌株和登录号列表。

（0.03 MB PDF格式）

单击此处查看其他数据文件。^{（25K，pdf格式）}

图S1

利用重排和基因通量模拟基因组上MLAGAN 2.0和MAVID 2.0的准确性结果。这两款软件都不是为直接处理此类案件而设计的。

（0.06 MB PDF格式）

单击此处查看其他数据文件。^{（60K，pdf）}

文件S1

nt取代和indels的准确度结果。沿着simujobparams.pm文件中编码为newick字符串的固定9分类单元树模拟进化。在固定树中最遥远的分类单元中，模拟了从每个位点0个替换到每个位点约0.9个替换的一系列替换率。同时，还模拟了一系列的indel速率，在最遥远的分类群中，每个位点大约0.18 indel。对于每个模拟，真实的比对与进化序列集一起记录。然后运行对齐器以重建真实对齐。程序scoreAlignment2用于计算重建路线上的各种精度指标。这些准确性指标包括用于校准同源核苷酸的灵敏度和阳性预测值，以及用于识别indels的类似指标。scoreAlignment2程序还生成了一个indel边界报告，但由于大小限制，该报告未包含在此存档中。indel边界报告记录了真实路线中的每个indel，预测indel的边界在对准器计算的路线中的距离。该报告包含真实和预测指数的大小，因此可以生成按大小分层的指数精度摘要。注意：此存档必须先用7-zip解压缩，然后用tar解压缩。该档案包含每个对准器程序的精度评估结果。模拟路线本身不包含在档案中，因为它们太占用空间。相反，每个子目录包含精度测试的摘要，以及使用的所有模拟进化参数，重要的是，还包含用于模拟的随机种子，以便可以重建每个对齐数据集。要重建原始路线，还必须获得一些免费可用的程序和脚本，如http://asap.ahabs.wisc.edu/mauve-aligner/mauve-developer-guide/evaluating-aligment-quality-and-stress-testing-the-aligner.html子目录首先根据测试的对准器命名，例如淡紫色 = = mauveAligner，promauve公司 = = progressiveMave、mavid = = Mavid 2.0，姆拉甘 = = MLAGAN 2.0，待定 = = 待批准2006-02-28。每个子目录名称的其余部分指示执行的实验类型。ntsub indel用于模拟具有不断增加的替代率和indels的共线基因组。ntsub-inv用于模拟基因组，以增加反转重排和核苷酸替换的速率。genefflux是指随着基因的小规模和大规模增益和损耗（通量）的增加而模拟的基因组。请注意，也省略了完整的indel边界精度结果，因为它们包括每个模拟路线的每个indel的几个数值，因此过于节省空间。当然，可以使用此存档中包含的模拟脚本和随机种子重新生成它们。

（5.74 MB焦油）

单击此处查看其他数据文件。^{（540万焦油）}

文件S2

基因增益和损失（通量）的准确性结果。沿着simujobparams.pm文件中编码为newick字符串的固定9分类单元树模拟进化。核苷酸替换率和indel速率是固定的，因此最远的分类单元将具有类似于大肠杆菌和沙门氏菌以沿着连接固定树中最远分类群的路径给出0到150个事件的速率模拟大的基因增益和损失事件。同时，还模拟了小的基因增益和损失事件，在最遥远的分类群中，从0到大约10000个事件不等。对于每个模拟，真实的比对与进化序列集一起记录。然后运行对齐器以重建真实对齐。程序scoreAlignment2用于计算重建路线上的各种精度指标。这些准确性指标包括用于校准同源核苷酸的灵敏度和阳性预测值，以及用于识别indels的类似指标。scoreAlignment2程序还生成了一个indel边界报告，但由于大小限制，该报告未包含在此存档中。indel边界报告记录了真实路线中的每个indel，预测indel的边界在对准器计算的路线中的距离。该报告包含真实和预测指数的大小，因此可以生成按大小分层的指数精度摘要。注意：此存档必须先用7-zip解压缩，然后用tar解压缩。该档案包含每个对准器程序的精度评估结果。模拟路线本身不包含在档案中，因为它们太占用空间。相反，每个子目录包含精度测试的摘要，以及使用的所有模拟进化参数，重要的是，还包含用于模拟的随机种子，以便可以重建每个对齐数据集。要重建原始路线，还必须获得一些免费可用的程序和脚本，如http://asap.ahabs.wisc.edu/mauve-aligner/mauve-developer-guide/evaluating-aligment-quality-and-stress-testing-the-aligner.html子目录首先根据测试的对准器命名，例如淡紫色 = = mauveAligner，promauve公司 = = progressiveMave、mavid = = Mavid 2.0，姆拉甘 = = MLAGAN 2.0，待定 = = 待批准2006-02-28。每个子目录名称的其余部分指示执行的实验类型。ntsub indel用于模拟具有不断增加的替代率和indels的共线基因组。ntsub-inv用于模拟基因组，以增加反转重排和核苷酸替换的速率。genefflux是指随着基因的小规模和大规模增益和损耗（通量）的增加而模拟的基因组。请注意，也省略了完整的indel边界精度结果，因为它们包括每个模拟路线的每个indel的几个数值，因此过于节省空间。当然，可以使用此存档中包含的模拟脚本和随机种子重新生成它们。

（7.73 MB焦油）

单击此处查看其他数据文件。^{（73M，焦油）}

文件S3

反演和核苷酸替代模拟的准确性结果。沿着simujobparams.pm文件中编码为newick字符串的固定9分类单元树模拟进化。索引率固定为一个较低的值，以便最远的分类单元具有类似于大肠杆菌和沙门氏菌以沿着连接固定树中最远分类群的路径给出0到大约1400个事件的速率来模拟反转事件。同时，还模拟了核苷酸替换事件，从0到最遥远分类群中每个位点约0.9个替换。对于每个模拟，真实的比对与进化序列的集合一起被记录。然后运行对齐程序以重建真正的对齐。程序scoreAlignment2用于计算重建路线上的各种精度指标。这些准确性指标包括用于校准同源核苷酸的灵敏度和阳性预测值，以及用于识别indels的类似指标。scoreAlignment2程序还生成了一个indel边界报告，但由于大小限制，该报告未包含在此存档中。indel边界报告记录了真实路线中的每个indel，预测indel的边界在对准器计算的路线中的距离。该报告包含真实和预测指数的大小，因此可以生成按大小分层的指数精度摘要。scoreAlignment2还报告了真实重排断点和预测重排断口之间的平均距离。注意：此存档必须先用7-zip解压缩，然后用tar解压缩。该档案包含每个对准器程序的精度评估结果。模拟路线本身不包含在档案中，因为它们太占用空间。相反，每个子目录包含精度测试的摘要，以及使用的所有模拟进化参数，重要的是，还包含用于模拟的随机种子，以便可以重建每个对齐数据集。要重建原始路线，还必须获得一些免费可用的程序和脚本，如http://asap.ahabs.wisc.edu/mauve-aligner/mauve-developer-guide/evaluating-aligment-quality-and-stress-testing-the-aligner.html子目录首先根据测试的对准器命名，例如淡紫色 = = mauveAligner，promauve公司 = = progressiveMave、mavid = = Mavid 2.0，姆拉甘 = = MLAGAN 2.0，待定 = = 待批准2006-02-28。每个子目录名称的其余部分指示执行的实验类型。ntsub indel用于模拟具有不断增加的替代率和indels的共线基因组。ntsub-inv用于模拟基因组，以增加反转重排和核苷酸替换的速率。genefflux是指随着基因的小规模和大规模增益和损耗（通量）的增加而模拟的基因组。请注意，也省略了完整的indel边界精度结果，因为它们包括每个模拟路线的每个indel的几个数值，因此过于节省空间。当然，可以使用此存档中包含的模拟脚本和随机种子重新生成它们。

（9.16 MB焦油）

单击此处查看其他数据文件。^{（870万焦油）}

致谢

我们感谢Eric Cabot、Anna Rissman和Paul Infield-Harm对路线可视化的建议和贡献。我们感谢菲拉斯·斯威丹（Firas Swidan）和几位匿名审稿人对这份手稿上一稿的宝贵意见。

脚注

竞争利益：提交人声明，不存在相互竞争的利益。

基金：这项工作得到了美国国立卫生研究院（NIH）向N.T.P.拨款R01-GM62994和美国国家科学基金会（NSF）向A.E.D.拨款DBI-0630765的部分支持。该项目也得到了美国国家卫生与公众服务部国立过敏和传染病研究所联邦基金的部分资助，根据合同编号HHSN266200400040C。资助者在研究设计、数据收集和分析、决定出版或编写手稿方面没有任何作用。

工具书类

1Kumar S，Filipski A.多序列比对：寻找同源DNA位置。基因组研究。2007;17：127–135。[公共医学][谷歌学者]

2Lunter G.概率全基因组比对揭示了人类和小鼠基因组中的高indel率。生物信息学。2007;23[公共医学][谷歌学者]

三。Prakash A，Tompa M.测量基因组大小多重比对的准确性。基因组生物学。2007;8：R124+。 [PMC免费文章][公共医学][谷歌学者]

4Dewey CN，Pachter L.《核苷酸水平上的进化：多重全基因组比对问题》。人类分子遗传学。2006;15（补充1）[公共医学][谷歌学者]

5惠誉WM。同源：对一些问题的个人看法。趋势Genet。2000;16:227–231.[公共医学][谷歌学者]

6Delcher AL、Kasif S、Fleischmann RD、Peterson J、White O等，《全基因组比对》。核酸研究。1999;27:2369–76. [PMC免费文章][公共医学][谷歌学者]

7Delcher AL、Phillippy A、Carlton J、Salzberg SL。大规模基因组比对和比较的快速算法。核酸研究。2002;30:2478–2483. [PMC免费文章][公共医学][谷歌学者]

8Kurtz S、Phillippy A、Delcher AL、Smoot M、Shumway M等。用于比较大型基因组的通用开放软件。基因组生物学。2004;5：R12。 [PMC免费文章][公共医学][谷歌学者]

9Darling ACE，Mau B，Blattner FR，Perna NT。Mauve：保守基因组序列与重排的多重比对。基因组研究。2004;14:1394–403. [PMC免费文章][公共医学][谷歌学者]

10Perna NT、Plunkett G、Burland V、Mau B、Glassner JD等。肠出血的基因组序列大肠杆菌O157:H7。自然。2001;409:529–33.[公共医学][谷歌学者]

11Welch RA、Burland V、Plunkett G、Redford P、Roesch P等。尿致病性疾病的完整基因组序列揭示了广泛的镶嵌结构大肠杆菌.美国国家科学院院刊。2002;99:17020–4. [PMC免费文章][公共医学][谷歌学者]

12Hogg JS、Hu FZ、Janto B、Boissy R、Hayes J等流感嗜血杆菌基于Rd和12个临床非分型菌株的完整基因组序列的核心和超基因组。基因组生物学。2007;8：R103+。 [PMC免费文章][公共医学][谷歌学者]

13萧WW，Ung K，Aeschliman D，Bryan J，Finlay BB，等。与原核基因组岛相关的大型新基因库的证据。公共科学图书馆遗传学。2005;1：e62+。 [PMC免费文章][公共医学][谷歌学者]

14Tettelin H、Masignani V、Cieslewicz MJ、Donati C、Medini D等无乳链球菌：微生物“泛基因组”的含义。美国国家科学院院刊。2005;102:13950–13955. [PMC免费文章][公共医学][谷歌学者]

15Vernikos GS、Thomson NR、Parkhill J沙门氏菌血统。基因组生物学。2007;8：R100+。 [PMC免费文章][公共医学][谷歌学者]

16Mau B，Glassner JD，Darling AE，Perna NT大肠杆菌.基因组生物学。2006;7：R44+。 [PMC免费文章][公共医学][谷歌学者]

17Blanchette M，Kent WJ，Riemer C，Elnitski L，Smit AF等。用螺纹块集比对器比对多个基因组序列。基因组研究。2004;14:708–15. [PMC免费文章][公共医学][谷歌学者]

18Bray N，Pachter L.MAVID多重校准服务器。核酸研究。2003;31:3525–6. [PMC免费文章][公共医学][谷歌学者]

19Brudno M、Do CB、Cooper GM、Kim MF、Davydov E等。LAGAN和Multi-LAGAN：基因组DNA大规模多重比对的有效工具。基因组研究。2003;13:721–31. [PMC免费文章][公共医学][谷歌学者]

20Hohl M，Kurtz S，Ohlebusch E.高效多基因组比对。生物信息学。2002;18（补充1）：S312–20。[公共医学][谷歌学者]

21Ogurtsov AY、Roytberg MA、Shabalina SA、Kondrashov AS。Owen：对齐基因组的长共线区域。生物信息学。2002;18:1703–1704.[公共医学][谷歌学者]

22Brudno M、Steinkamp R、Morgenstern B。基因组序列多重比对的混沌/拨号www服务器。核酸研究。2004;32：W41–44。 [PMC免费文章][公共医学][谷歌学者]

23Chao KM，Zhang J，Ostell J，Miller W.超长dna序列的局部比对工具。计算应用生物科学。1995;11:147–153.[公共医学][谷歌学者]

24Li L，Stoeckert CJ，Roos DS。OrthoMCL：真核生物基因组的同源群鉴定。基因组研究。2003;13:2178–2189. [PMC免费文章][公共医学][谷歌学者]

25Brudno M，Malde S，Poliakov A，Do CB，Couronne O，et al.全球比对：在比对过程中发现重排。生物信息学。2003;19（补充1）：I54–I62。[公共医学][谷歌学者]

26Swidan F，Rocha EPC，Shmoish M，Pinter RY。精确比较基因组作图的综合方法。公共科学图书馆计算生物学。2006;2 [PMC免费文章][公共医学][谷歌学者]

27Vinh LS、Varon A、Wheeler WC。成对对齐和重排。基因组信息。2006;17:141–151.[公共医学][谷歌学者]

28Ovcharenko I、Loots GG、Giardine BM、Hou M、Ma J等。《木兰：用于研究功能和进化的多序列局部比对和可视化》。基因组研究。2005;15:184–94. [PMC免费文章][公共医学][谷歌学者]

29Phuong TM、Do CB、Edgar RC、Batzoglou S.蛋白质序列的重复和重排多重比对。核酸研究。2006;34：5932–42。 [PMC免费文章][公共医学][谷歌学者]

30Raphael B，Zhi D，Tang H，Pevzner P.具有重复和洗牌元素的序列多重比对的新方法。基因组研究。2004;14：2336–46。 [PMC免费文章][公共医学][谷歌学者]

31Treangen TJ，Messeguer X.M-GCAT：在亲缘关系密切的物种中相互作用并有效地构建大规模多基因组比较框架。BMC生物信息学。2006;7:433+. [PMC免费文章][公共医学][谷歌学者]

32Dubchak I，Poliakov A，Kislyuk A，Brudno M.无参考生物体的多个全基因组比对。基因组研究。2009;19:682–689. [PMC免费文章][公共医学][谷歌学者]

33Paten B、Herrero J、Beal K、Fitzgerald S、Birney E.Enredo和山核桃：全基因组哺乳动物一致性的多重比对。基因组研究。2008;18:1814–1828. [PMC免费文章][公共医学][谷歌学者]

34Trengen TJ，Darling AE，Achaz G，Ragan MA，Messeguer X，et al.一种新的启发式方法，用于分散dna重复序列的局部多重比对。IEEE/ACM计算生物学和生物信息学汇刊。2009;6:180–189.[公共医学][谷歌学者]

35Zhang Y，Waterman MS。dna序列局部多重比对的欧拉路径方法。美国国家科学院院刊。2005;102:1285–1290. [PMC免费文章][公共医学][谷歌学者]

36Darling AE、Treangen TJ、Zhang L、Kuiken C、Messeguer X等人。WABI 2006：第六届生物信息学算法年度研讨会论文集。德国：Springer Verlag；2006.拖延导致有效过滤局部多重对齐。第126-137页。第4175卷。[谷歌学者]

37Ma B，Tromp J，Li M.PatternHunter：更快更敏感的同源搜索。生物信息学。2002;18:440–5.[公共医学][谷歌学者]

38亲爱的AE。基因组进化的计算分析。2006年，威斯康星大学麦迪逊分校博士论文。

39Kucherov G，Noe L，Roytberg M.多种子无损过滤。IEEE/ACM Trans-Comput生物信息学。2005;2:51–61.[公共医学][谷歌学者]

40Chiaromonte F，Yap VB，Miller W.成对基因组序列比对评分。Pac Symp Biocomput公司。2002:115–126.[公共医学][谷歌学者]

41Lippert RA、Zhao X、Florea L、Mobarry C、Istrail S。2004年：计算分子生物学Resaerch第八届国际年会论文集。美国纽约州纽约市：ACM出版社；2004.寻找基因组序列比较的锚。第233-241页。[谷歌学者]

42Blanchette M、Bourque G、Sankoff D.断点谱系。基因组信息Ser Workshop基因组信息。1997;8:25–34.[公共医学][谷歌学者]

43Darling AE，Mau B，Blattner FR，Perna NT。GRIL：基因组重排和反转定位。生物信息学。2004;20：122–124。[公共医学][谷歌学者]

44埃德加·RC。肌肉：一种减少时间和空间复杂性的多序列比对方法。BMC生物信息学。2004;5:113. [PMC免费文章][公共医学][谷歌学者]

45Margulies EH、Cooper GM、Asimenos G、Thomas DJ、Dewey CN等。哺乳动物深层序列比对分析和人类基因组1%的限制性预测。基因组研究。2007;17:760–774. [PMC免费文章][公共医学][谷歌学者]

46Thompson JD、Plewniak F、Poch O。多序列比对程序的综合比较。核酸研究。1999;27:2682–90. [PMC免费文章][公共医学][谷歌学者]

47Achaz G、Coissac E、Netter P、Rocha EP。倒置重复序列与细菌基因组结构进化之间的关联。遗传学。2003;164:1279–1289. [PMC免费文章][公共医学][谷歌学者]

48Lunter G，Rocco A，Mimouni N，Heger A，Caldeira A等。同源推断的不确定性：评估和改进基因组序列比对。基因组研究。2008;18:298–309. [PMC免费文章][公共医学][谷歌学者]

49Dewey CN.将多个全基因组与mercator和mavid对齐。分子生物学方法（新泽西州克利夫顿）2007;395:221–236.[公共医学][谷歌学者]

50Kent WJ、Baertsch R、Hinrichs A、Miller W、Haussler D。进化的大锅：小鼠和人类基因组中的复制、缺失和重排。美国国家科学院院刊。2003;100:11484–11489. [PMC免费文章][公共医学][谷歌学者]

51Bradley RK、Roberts A、Smoot M、Juvenkar S、Do J等。快速统计校准。《公共科学图书馆·计算生物学》。2009;5：e1000392+。 [PMC免费文章][公共医学][谷歌学者]

52Durbin R、Eddy S、Krogh A、Mitchison G。生物序列分析。剑桥大学出版社；1998年，第80–94页。第四章。[谷歌学者]

53Pupo GM、Lan R、Reeves PR志贺氏菌的克隆大肠杆菌以及它们的许多特征的融合进化。美国国家科学院院刊。2000;97:10567–72. [PMC免费文章][公共医学][谷歌学者]

54杨杰，聂赫，陈磊，张欣，杨凤，等。重温志贺菌.分子进化杂志。2007;64:71–9.[公共医学][谷歌学者]

55Didelot X，Darling A，Falush D.推断细菌中的基因组通量。基因组研究。2009;19:306–317. [PMC免费文章][公共医学][谷歌学者]

56Rasko DA、Rosovitz MJ、Myers GS、Mongodin EF、Fricke WF等大肠杆菌：比较基因组分析大肠杆菌共生和致病菌株。细菌学杂志。2008;190:6881–6893. [PMC免费文章][公共医学][谷歌学者]

57宾夕法尼亚州佩夫茨纳市Hannenhalli S。FOCS'95：第36届计算机科学基础年度研讨会论文集（FOCS'95）美国哥伦比亚特区华盛顿：IEEE计算机学会；1995.将人转化为小鼠（基因组距离问题的多项式算法）。第581-592页。[谷歌学者]

58Tannier E，Sagot MF。计算机科学课堂讲稿。Springer-Verlag；2004.按次二次时间内的反转排序。第1-13页。第3109卷。[谷歌学者]

59Larget B，Simon DL，Kadane J.关于从动物线粒体基因组排列进行系统发育推断的贝叶斯方法。英国皇家统计学会学报B。2002;64:681–693. [谷歌学者]

60Tang J，Moret BM。从基因顺序数据扩大准确的系统发育重建。生物信息学。2003;19（补充1）：i305–i312。[公共医学][谷歌学者]

61Alekseyev MA。多断裂重排和断点重复使用：从线性基因组到环状基因组。计算生物学杂志。2008;15:1117–31.[公共医学][谷歌学者]

62Bergeron A、Mixstaki J、Stoye J。基因组重排的统一观点。收件人：Bucher P，Moret BME，编辑。WABI'06：第六届生物信息学算法国际研讨会论文集。施普林格；2006年，第163-173页。第4175卷，共页计算机科学课堂讲稿.[谷歌学者]

63Yancopoulos S，Attie O，Friedberg R.通过易位、反转和块交换对基因组排列进行有效排序。生物信息学。2005;21:3340–3346.[公共医学][谷歌学者]

64Darling AE，Miklós I，Ragan MA。细菌种群基因组重排动力学。公共科学图书馆遗传学。2008;4：e1000128。 [PMC免费文章][公共医学][谷歌学者]

65Swidan F，Ziv-Ukelson M，Pinter RY。关于重复进化树重建问题。计算生物学杂志：计算分子细胞生物学杂志。2006;13:1397–1418.[公共医学][谷歌学者]

66Miller W、Rosenbloom K、Hardison RC、Hou M、Taylor J等。UCSC基因组浏览器中的28种脊椎动物排列和保护轨迹。基因组研究。2007年：gr.6761107+。 [PMC免费文章][公共医学][谷歌学者]

67Mayor C、Brudno M、Schwartz JR、Poliakov A、Rubin EM等。Vista：可视化任意长度的全局dna序列比对。生物信息学（英国牛津）2000;16：1046–1047。[公共医学][谷歌学者]

68Oppenheim AB，Rudd KE，Mendelson I，Teff D。整合宿主因子与大肠杆菌中一类独特的复杂重复外源性dna序列结合。分子微生物学。1993;10：113–122。[公共医学][谷歌学者]

69Langille MGI，日本艾森。Biotorrents：科学数据的文件共享服务。《公共科学图书馆·综合》。2010;5：e10071+。 [PMC免费文章][公共医学][谷歌学者]

70Bergthorsson U，Andersson DI，Roth JR.Ohno的困境：连续选择下新基因的进化。美国国家科学院院刊。2007;104:17004–17009. [PMC免费文章][公共医学][谷歌学者]

71Didelot X，Falush D.利用多点序列数据推断细菌的微进化。遗传学。2007;175:1251–1266. [PMC免费文章][公共医学][谷歌学者]

72Ma J，Ratan A，Raney BJ，Suh BB，Miller W等。基因组进化的无限位点模型。美国国家科学院院刊。2008;105:14254–14261. [PMC免费文章][公共医学][谷歌学者]

73Akerborg O，Sennblad B，Arvestad L，Lagergren J.同步贝叶斯基因树重建与和解分析。美国国家科学院院刊。2009;106:5714–5719. [PMC免费文章][公共医学][谷歌学者]

74Fu Z，Chen X，Vacic V，Nan P，Zhong Y，et al.Msoar：基于基因组重排的高通量同源分配系统。计算生物学杂志。2007;14:1160–1175.[公共医学][谷歌学者]

75Do CB、Mahabhashyam MS、Brudno M、Batzoglou S。ProbCons：基于概率一致性的多序列比对。生物信息学。2005;15:330–340. [PMC免费文章][公共医学][谷歌学者]

文章来自PLOS ONE系列由以下人员提供多环芳烃