MAFFT Multiple Sequence Alignment Software Version 7: Improvements in Performance and Usability

Kazutaka Katoh; Daron M. Standley

doi:10.1093/molbev/mst010

分子生物学进化。2013年4月；30（4）：772–780。

2013年1月16日在线发布。数字对象标识：10.1093/molbev/mst010

预防性维修识别码：PMC3603318型

PMID：23329690

MAFFT多序列比对软件第7版：性能和可用性的改进

Kazutaka加藤^*,^1,²和达伦·斯坦德利¹

作者信息版权和许可信息 PMC免责声明

摘要

我们报告了MAFFT多序列比对程序的重大更新。该版本有几个新功能，包括将未对齐序列添加到现有比对中的选项、核苷酸比对方向的调整、约束比对和并行处理，这些都是在上一次主要更新后实现的。本报告显示了实际示例，以解释这些功能是如何单独或组合工作的。还显示了一些MAFFT未正确对齐的示例，以澄清其局限性。我们讨论了如何避免错位，以及我们正在努力克服这些限制。

关键词：多序列比对，代谢物，蛋白质结构，渐进比对，并行处理

介绍

多序列比对（MSA）在生物序列的进化分析中起着重要作用。MAFFT是一个MSA程序，于2002年首次发布(Katoh等人，2002年). 因为它的高性能(Nuin等人，2006年;Golubchik等人，2007年;Dessimoz和Gil 2010;Letsch等人，2010年;撒哈拉和尹2011;Sievers等人，2011年)，MAFFT近年来越来越流行。在中查看了以前的版本（版本6）后加藤和陶（2008b），我们一直在不断提高其准确性、速度和实用性。这些改进和技术大多在个别论文中报道(Katoh等人，2009年;2010年加藤和陶;2012年加藤和弗里斯;2013年加藤和斯坦德利). 在本报告中，我们使用实际示例演示了使用新功能单独或组合可以实现的各种分析。我们还通过MAFFT错误对齐序列的例子讨论了当前版本的局限性，并描述了我们正在努力克服这些局限性。

基本概念和用法

如中所列表1，MAFFT版本7具有各种对齐策略选项，包括渐进方法（PartTree、FFT-NS-1和L-INS-1）(冯和杜立德1987;希金斯和夏普1988;加藤和陶2007)迭代求精方法（FFT-NS-i、L-INS-i、E-INS-i和G-INS-i）(巴顿和斯特恩伯格1987;Berger和Munson 1991年;Gotoh 1993年;Katoh等人，2005年)以及RNA的结构对准方法（Q-INS-i和X-INS-i；加藤和陶2008a). 请参见加藤和陶（2008b）了解这些策略的详细信息。根据最近基于MetAl度量的比较研究(布莱克本和惠兰2012a,2012年b)有两种截然不同的MSA方法，基于相似性的方法和基于进化的方法。MAFFT被归类为基于相似性的方法。然而，进化信息甚至对于基于相似性的方法也是有用的，因为要对齐的序列是在进化过程中从共同祖先生成的。在这方面，MAFFT考虑了进化信息。

表1。

MAFFT版本7的选项。

选项名称	命令
对于大规模对齐：使用PartTree算法的渐进方法
NW-NS-零件树1	`黑手党––零件树––重试1输入`	距离采用6mer法。
NW-NS-零件树2	`黑手党––零件树––重试2输入`	距离采用6mer法。重建导向树。
NW-NS-DP部件树1	`黑手党––dpparttree––重试1输入`	距离是根据DP估算的。
NW-NS-DP部件树2	`黑手党––dpparttree––重试2输入`	距离是根据DP估算的。重建导向树。

对于中等规模的对齐：渐进方法
FFT-NS-1型	`黑手党––重试1输入`	大约比默认速度快两倍。
FFT-NS-2型	`mafft输入`	违约。

对于小规模对齐：迭代优化方法
FFT-NS-i型	`黑手党––maxiterate 16输入`	这四项中速度最快的。使用WSP得分(Gotoh 1995年)只有。
G-INS-i型	`黑手党––最大迭代16––全球空气输入`	使用WSP评分和一致性(Notredame等人，1998年)全球比对得分。
L-INS-i型	`黑手党––最大迭代16––本地对输入`	使用本地比对的WSP评分和一致性评分。
E-INS-i公司	`黑手党––最大迭代16––发电机对输入`	使用具有广义仿射缺口成本的局部比对的WSP得分和一致性得分(Altschul 1998年).

如果不确定使用哪个选项
自动	`黑手党––汽车`	根据输入数据的大小，从FFT-NS-2、FFT-NS-i和L-INS-i中选择适当的选项。

小规模RNA比对：结构比对方法
Q-INS-i公司	`mafft-qinsi输入`	结构信息包含在迭代优化步骤中。
X-INS-i血型配对	`mafft-xinsi公司––scarnapair输入`	通过MXSCARNA使用成对结构对齐(Tabei等人，2008年).

向现有MSA中添加新序列
添加	`黑手党––添加新msa`	最简单的路线延伸选项。
添加配置文件	`黑手党––添加配置文件msa1msa2型`	msa1必须形成一个单系簇。
添加片段	`黑手党––添加碎片新msa`	适用于短新序列。
添加片段，最后	`mafft––添加新碎片––上次多对msa`	更快的选项，最后(Kiełbasa等人，2011年)是必需的。
添加片段，6个	`黑手党––添加新片段––6人对msa`	保存数据的更快选择。

参数
	`––bl编号，––jtt编号，––tm（tm）#`	蛋白质比对得分矩阵。
	`––木村#`	核苷酸比对得分矩阵。

实用程序选项
	`––任意符号`	见正文。
	`––重新排序`
	`––群集输出`
	`––菲利浦特`
	`––无名长度#`
	`––调整方向`
	`––准确调整方向`
	`––种子msa1–种子msa2…`
	`––树形文件夹`
	`––树出（treeout）`
	`––螺纹#`

在单独的窗口中打开

N个注释.—N、序列数；五十、序列长度；输入，新，multi-fasta格式的未对齐序列；msa、msa1、msa2，多fasta格式的对齐序列；树木，输入导向树文件。

MAFFT的所有选项都假设输入序列都是同源的，也就是说，都是从一个共同的祖先传下来的。因此，输入数据中的所有字母都是对齐的。基因组重排或结构域重排是不假设的，因此每个序列中字母的顺序总是保持不变，尽管序列可以根据相似性重新排序。MAFFT中的大多数选项都假设输入序列中的几乎所有对都可以局部或全局对齐。在这种情况下，需要在准确性和速度之间进行权衡。例如，PartTree选项(加藤和陶2007)是一种快速且粗糙的方法，而L-INS-i和G-INS-i速度较慢且更准确。RNA结构比对方法通常更准确，计算成本更高，因为它们需要额外的计算(加藤和陶2008a). 然而，这种权衡并不总是成立的。特别是将序列添加到现有路线中的新选项(2012年加藤和弗里斯)，需要仔细考虑这种权衡，如下文所述。

纵断面路线

MAFFT有一个子程序，黑手党文件，以对齐两条现有路线。

mafft-profile对齐1对齐2>输出

此方法单独转换对齐1和对齐2配置文件，然后对齐两个配置文件。这意味着这两个输入序列被认为是系统发育上相互隔离的，比如图1一个。如后一节所述，粗心使用此方法会导致严重错位。

在单独的窗口中打开

F类免疫球蛋白. 1.

MAFFT不同选项中系统发育关系的假设。(一个)黑手党文件, (B类)––添加配置文件, (C类)，滥用黑手党文件，以及(D类)––添加或––添加配置文件.

MAFFT版本7有一个替代选项，––添加配置文件，这样可以更安全地防止误用。

黑手党--添加纵断面对齐方式1对齐方式2>输出

此选项接受两条现有路线，对齐1和对齐2，并假设中所示的系统发育关系图1B类也就是说，对齐1被认为形成了一个单系群，但是对齐2不假定形成单系群。集群对齐1可以放置在对齐2此外，此选项检查是否对齐1形成一个单系群。如果不是，则返回错误消息并要求用户使用––添加选项（请参阅以下部分）。

将未对齐序列添加到MSA

由于测序技术的进步，我们越来越需要由更多序列组成的MSA。有几种不同的方法可以构建大型MSA，例如快速算法和并行化。这里，我们描述了一种替代方法：使用现有路线。已经存在仔细对齐和注释序列的数据库(Cole等人，2009年;Sigrist等人，2010年;Punta等人，2012年)，其中每个MSA由少量序列组成（通常高达～1000）。我们可以使用此类MSA作为主干，构建包含新序列数据的更大MSA。这比从一组未映射的序列重建整个MSA更有效。此外，该方法对由测序错误、错误装配和其他因素导致的低质量序列相对稳健。这种噪声通常对MSA的质量有负面影响，但在某些情况下，生物重要信息包含在低质量序列中。在这种情况下，我们首先选择高度可靠的序列来构建主干MSA，然后将其他序列（包括低质量的序列）添加到MSA中。因此，最终MSA的质量受低质量序列的影响较小。

剖面对齐应用不当

这个黑手党文件程序对此没有用处。有两种类型的误用。一种方法如下：1）将现有路线转换为纵断面，2）对齐新序列并将其转换为纵剖面，以及3）对齐两个纵断面。此程序不适合添加新序列，因为它假定了如所示的系统发育关系图1一个.

另一个误用如下：1）将现有路线转换为纵断面，2)将每个新序列分别与现有路线的轮廓对齐，以及3）根据上一步中计算的各个路线构建完整路线。这种方法比第一种方法更合理，但仍然存在问题，因为新序列的系统发育位置假定在树的根上，如图1C类。两种情况下的该程序结果如所示表2和图2.

在单独的窗口中打开

F类免疫球蛋白. 2.

Jalview上显示的不同MAFFT选项的ITS对齐(Waterhouse等人，2009年). (一个,B类)FFT-NS-2和L-INS-i算法分别导致不正确对齐。(C类)不正确的对齐方式黑手党文件。使用L-INS-i算法对全长序列进行比对，然后将每个新序列分别添加到全长比对中，使用黑手党文件. (D类)通过两步战略进行合理调整。这个––6人马––添加碎片选项用于第二步。(E类)D的重新排序版本；对序列进行排序，以便将相似的序列紧密地放置在一起。所有计算都是在Linux PC上使用16个内核执行的，该PC具有2.67 GHz Intel Xeon E7-8837/256 GB RAM。

表2.

使用16S比较不同选项。B.ALL数据集(Mirarab等人，2012年).

数据	方法	准确性	CPU时间	实际时间^一
案例1	`mafft––multipair––添加现有msa碎片`	0.9969	6.67天	18.3小时
	`mafft––6merpair––添加现有的碎片碎片msa`	0.9949	3.76小时	36.2分钟
	`mafft––localpair––添加现有的碎片msa`	0.9707	23.4天^b条	2.43天^b条
	`mafft––6倍––添加存在的碎片msa`	0.9604	1.32小时	1.44小时
	纵断面对齐	0.2779	15.5小时	1.60小时

案例2	`mafft––6merpair––添加现有的碎片碎片msa`	0.9969	4.54小时	33.8分钟

案例3	`mafft––6merpair––添加现有的碎片碎片msa`	0.9949	1.79天	5.91小时

在单独的窗口中打开

N个注释.-将估计的对齐与CRW对齐进行比较，以测量准确性（正确对齐的字母数/CRW对齐中对齐的字母数量）。计算是在具有2.67 GHz Intel Xeon E7-8837/256 GB RAM的Linux PC上进行的（对于上标字母“b”标记的情况），或在具有3.47 GHz Intel Xeon X5690/48 GB RAM的Linux PC上进行（对于其他情况）。案例1：现有比对×13821片段中的13822序列；案例2：现有比对×138210片段中的1000个序列；案例3：现有比对×138210片段中的13822序列。

^一10芯墙锁时间。并行处理的命令行参数为––螺纹10.

^b条完整的命令行选项如下：mafft––localpair––weighti 0––添加现有的碎片msa.

这个`––一日`和`––一dd碎片`选项

为了克服轮廓对齐的这一限制，我们在2010年实施了一个选项，––添加，将未对齐序列添加到现有MSA。此选项假定每个新序列都是从现有路线树中的分支派生的，如中所示图1D类。此选项的工作方式与标准渐进式方法几乎相同，只是在其子节点都位于现有对齐中的节点处跳过对齐计算。

随着第二代定序器的普及，我们有时需要将短读与现有的对齐对齐。几个工具(伯杰和斯塔马塔基斯2011;Löytynoja等人，2012年;Sun和Buhler 2012年)为此，在2011年至2012年间开发了。限制––添加在中指出了MAFFT中用于此目的的选项Löytynoja等人（2012年）因此，我们实施了一个新选项，––添加碎片，它不考虑要添加的序列之间的关系。的详细信息––添加和––添加碎片中描述了选项加藤和弗里斯（2012）.

测试案例1：真菌内部转录间隔序列

在这里，我们将讨论––添加碎片使用实际案例，选项有效。内部转录间隔区（ITS）是位于结构核糖体RNA之间的间隔区。真核生物基因组中rDNA区域的结构为18S-ITS1-5.8S-ITS2-28S。这里，我们使用由ITS1和ITS2序列组成的数据集，这些序列是从环境样本中获得的（Chen W，个人通信）。每个序列只有ITS1或ITS2区域，使用FungalITSextractor从454个焦磷酸测序数据中提取(Nilsson等人，2010年). 此外，从公共数据库中可以获得几个完全覆盖ITS1+5.8S rRNA+ITS2的真菌基因组序列。

假设我们需要大约300个全长序列和大约5000个ITS1或ITS2序列的MSA。一个可能的解决方案是一次构建一个完整的MSA。MAFFT的默认选项（FFT-NS-2）的结果明显不正确，如所示图2一个ITS1和ITS2区域被迫相互对齐。即使应用了计算成本更高（通常更准确）的方法L-INS-i（CPU时间=98小时），对齐仍然明显不正确(图2B类).

两步策略可以解决这类问题。也就是说，首先将从数据库中获取的一组全长序列对齐以构建主干MSA，然后使用––添加碎片选项。

第1步：黑手党--自动完整长度序列>\backbone_msa
第二步：黑手党--addfragments\new_sequences backbone_msa>输出

第二个命令相当于

黑手党--多对--addfragments\new_sequences backbone_msa>输出

其中，动态规划（DP）用于比较主干MSA中每个新序列和每个序列之间的距离(––多对默认情况下选中）。

黑手党--6人马--addfragments\new_sequences backbone_msa>输出

其中，使用共享的6人数量而不是DP快速估计距离。

后一种选择的结果(––6人马––添加碎片)如所示图2D类和E类.两者之间的差异D类和E类就是序列的顺序；使用––重新排序中的选项E类在本次定线中，ITS1和ITS2明确分开，并在全长定线中对齐到适当位置。此外，该策略的计算成本（CPU时间=15分钟[第一步]+1.5分钟[第二步]）远低于L-INS-i的完全应用（CPU时间=98小时）。前一种选择(––多对––添加碎片)也会返回与后者类似的结果(––6对）但速度较慢（CPU时间=48.6分钟[第二步]）。

这一案例表明，选择适合利益问题的战略至关重要。最耗时的方法L-INS-i并不总是最准确的方法。对于标准方法来说，这个问题的困难在于ITS1序列和ITS2序列彼此不同源，并且大多数成对比对是不可能的。由于这些非同源对，用于导树计算的距离矩阵是不可加的；ITS1和全长序列之间的距离以及ITS2和全长顺序之间的距离接近于零，而ITS1与ITS2之间的距离相当大。在这种情况下，常规的基于距离的树构建方法很难给出一个合理的树。此外，在比对步骤中，L-INS-i的目标函数受到ITS1和ITS2之间不适当的成对比对分数的影响。只需忽略ITS1和ITS2之间的关系，就可以避免此类问题––添加碎片选项。

此外，由于第二类滥用黑手党文件（前面讨论过）如所示图2C类一些新序列正确对齐，但其他序列明显不正确对齐（注意图2C类与中的相同图2D类). 这些错位是由于对新序列的系统发育位置的错误假设，如图1C类.

测试案例2：细菌SSU rRNA

另一种情况是16S。B.ALL数据集Mirarab等人（2012年）它包含13822个细菌SSU rRNA序列的MSA，摘自Gutell Comparative RNA网站（CRW）(Cannone等人，2002年)和138210个片段序列，这些片段序列最初包含在CRW比对中，但未绘制和人为截断。在Katoh和Standley（2013），我们使用了由Mirarab等人（2012年）除了这个子集，这里我们使用完整的数据集（138210个片段序列）来检查可伸缩性。假设在一个宏基因组学项目中，我们已经有一个手动管理（或主干）的MSA和一组新确定的许多片段序列，我们需要一个完整的MSA。

中的前四行表2（案例1）用相对较小的数据集（现有比对中的13822序列×13821片段）显示了用于这种分析的各种选项的性能。通过将MSA与原始CRW校准进行比较，评估每个结果MSA的准确性。还列出了每种方法的CPU时间和挂机时间。由于此数据集中的序列高度保守，默认值之间的精度差异(––多对––添加碎片)以及更快的选择(––6人马––添加碎片)很小。

同样，准确度和速度之间的权衡也不成立。基于L-INS-1的计算量大的方法的应用(––本地对––添加)没有优势，因为额外的计算时间用于比较没有合理解决方案的非重叠片段序列。

“轮廓对齐”线表2显示了第二种滥用轮廓对齐的结果（前面讨论过），其中给定的对齐被转换为轮廓，每个新序列分别与轮廓对齐。这一结果清楚地表明，在这种情况下，也必须避免应用轮廓对齐。用户无需担心这种误用，因为除非用户修改代码或编写包装器脚本，否则MAFFT中会禁用此计算。

中的最后两行表2（案例2和案例3）显示了快速选项的性能(––6人马––添加碎片)对于更多的片段序列（138210）。在案例2和案例3中，现有路线中的序列数分别为1000和13822。这个快速选项在合理的计算时间内提供了合理的结果质量。目前，默认选项(––多对––添加碎片)无法处理案例2和案例3。中基于仿真的基准测试加藤和弗里斯（2012）建议，对于发散序列较多的情况，默认选项的准确性高于快速选项。我们现在正在尝试改进默认选项的可伸缩性。

并行化

MAFFT版本7具有并行处理选项，––线(2010年加藤和陶). 除Linux外，Mac OS X目前也支持此功能，但由于技术原因，Windows尚未支持此功能。使用––线 n个选项，它与n个螺纹。线程数可以通过以下方式自动确定––线–1。此选项将线程数设置为物理内核数，而不是Intel超线程CPU中的逻辑内核数。

对于渐进式方法，多线程版本的结果与串行处理版本的结果相同。然而，对于迭代求精方法，结果并不总是相同的。我们确认，在这种情况下，并行版本的准确性与串行版本相当(2010年加藤和陶). 并行化的效率取决于对齐策略。如果是––添加碎片选项，效率可以接受，如所示表2.

实用程序选项

MAFFT版本7也有几个增强的外围功能选项。

估计DNA序列的方向

在核苷酸比对的情况下，如果某些输入序列相对于其他序列的方向不正确，则可以通过––调整方向选项。我们使用的算法的时间复杂度为保存图片、插图等的外部文件。对象名称为mst010i1.jpg ，其中n个是序列数(2013年加藤和斯坦德利). 用DP计算距离时速度较慢。然而，当根据共享6人的数量快速计算距离时，速度是合理的。此选项在网络版上也可用，带有“调整方向”按钮。

MAFFT无法处理更复杂的基因组重排序列（易位、重复或反转）。MAFFT的web版本使用LAST局部对齐程序显示第一个序列和其余序列之间的点图(Kiełbasa等人，2011年)，用于每次核苷酸比对。通过查看点图，用户可以轻松检查基因组重排和输入序列的方向。请参见Katoh和Standley（2013）以获取详细信息和示例。

输入/输出

MAFFT版本7在输入/输出的灵活性方面有一些增强。以下与输入/输出相关的选项可用，可以与其他选项组合使用。

––任意符号 如果输入数据包含不寻常的字母，如U、J等（对于蛋白质数据），MAFFT默认停止。这个––任意符号选项允许这些字母和非字母。
––保存酶 默认情况下，氨基酸序列转换为大写，核苷酸序列转换为小写。可以使用––保存酶选项。
––重新排序 默认情况下，序列的顺序与输入序列相同，但可以通过––重新排序选项。
––菲利浦特 一第––群集输出 默认情况下，输出格式为multi-fasta，但可以选择phylip（交错）格式和clustal格式。

导向树与新序列的系统发育位置

用户可以使用––树出（treeout）选项。在以下情况下––添加碎片，新序列的估计系统发育位置与现有比对的估计树一起显示。根据这种系统发育估计进行比对计算。也可以通过––重新树0选项。输出示例如所示图3一个.

在单独的窗口中打开

F类免疫球蛋白. 3.

(一个)的一部分输出––树出（treeout）显示新序列的系统发育位置的选项(新#)在现有路线的树中(主干#)，在线形计算之前进行估算。此文件还显示了现有路线的Newick格式树（此图中未显示）。对于每个新序列，现有路线中最近的序列(最近序列)，与最近序列的近似距离(近似距离)和姐妹组的成员(姐妹团体)如图所示。(B类)的图形表示(一个).

请注意，这个系统发育信息是粗略估计的之前MSA计算，而不是基于MSA。特别是，有了快速选项，––6人马，估计非常粗略。使用––多对选项（默认），预计估计会更好，但需要相对较长的计算时间。为了更严格地估计新序列的系统发育位置，需要使用专门设计的工具，如pplacer(Matsen等人，2010年)、PaPaRa(伯杰和斯塔马塔基斯2011)、PAGAN(Löytynoja等人，2012年)、SEPP(Mirarab等人，2012年)，或它们的组合，包括MAFFT，应该尝试。

参数

对于氨基酸比对，MAFFT默认使用BLOSUM62矩阵。对于核苷酸比对，假设转换率是颠换率的两倍，则生成200PAM log-odds评分矩阵。这些矩阵适用于对齐远距离相关序列。我们选择这些默认参数是基于这样一种期望，即如果程序在困难（远距离相关）的情况下运行良好，那么它也应该在容易的情况下运行良好。

目前尚不清楚这种预期是否总是正确的。例如，在使用模拟蛋白质序列的基准测试中(Löytynoja等人，2012年)由INDELiBLE生成(Fletcher和Yang 2009)当我们测试更严格的评分矩阵JTT 1PAM时(Jones等人，1992年)与违约相比，差距惩罚较弱，基准分数有了显著提高。尽管有这样的观察结果，我们在加藤和弗里斯（2012），因为任意将参数调整为模拟设置是没有意义的。这一观察结果表明，MAFFT的当前默认参数可能不太适合对齐密切相关的序列。然而，这个想法必须用实际的生物序列来检验。

用户可以选择默认以外的其他评分矩阵。对于氨基酸比对，––提单45,––提单62,––提单80,––jtt编号、和––tm氮被接受，其中N个是输入序列之间的预期进化距离。这个––bl（黑色）,––jtt公司、和––tm（tm）期权指BLOSUM（Henikoff S和Henikof JG1992)、JTT(Jones等人，1992年)和跨膜模型(Jones等人，1994年)分别是。用户定义的评分矩阵也可以通过––aa矩阵对于核苷酸比对，––kimura N公司被接受，其中N个是输入序列之间的预期进化距离。差距惩罚可通过以下方式进行调整––操作,––经验,––洛普、和––列克斯普选项。

一种可能的扩展是根据发散程度对不同的序列对使用不同的评分矩阵和间隙惩罚，如ClustalW(汤普森等人，1994年). 在实施此扩展之前，需要使用实际序列数据进行更多研究。还需要调整缺口惩罚，最好是基于插入和删除的现实进化模型。

结构信息的使用

在上一节中，我们讨论了密切相关序列的MSA的可能改进。远距离相关序列的MSA仍然是一个具有挑战性的问题。

测试用例3:PIN域

图4显示了一组高度分化的三种PIN域蛋白质序列水平比对的典型局限性：人类regnase-1，VPA0982副溶血性弧菌，taq聚合酶的核酸酶结构域水热Thermus aquaticus这三种蛋白质共享由三种保守天冬氨酸组成的镁结合位点。图4一个显示了三种结构的叠加（蛋白质数据库标识符分别为3v33、2qip和1taq）。中间天冬氨酸用红色的球形表示图4B类，显示了典型的MSA（通过MAFFT-L-INS-i），其中中间天冬氨酸位置未对齐。在图4C类中天冬氨酸正确排列的结构形成的MSA（如下所述）如图所示。

在单独的窗口中打开

F类免疫球蛋白. 4.

(一个)PyMOL可视化的3v33、2qip和1taq结构的叠加(Schrödinger有限责任公司2010). (B类)MAFFT-L-INS-i序列比对显示在jalview上(Waterhouse等人，2009年). 未对齐的D以红色高亮显示(C类)具有正确对齐D的结构化MSA；Alpha螺旋和beta表分别以蓝色和黄色显示，单位为(A–C).

结构线形与MAFFT的整合策略

众所周知，结构信息可用于改进MSA计算。这是3D咖啡项目的基础(O'Sullivan等人，2004年)，以及更高版本的PROMALS3D包(Pei等人，2008年). 在这里，我们讨论在基于MAFFT的MSA构建中纳入蛋白质结构信息。这一过程既有概念问题，也有技术问题。从概念上讲，我们必须定义结构相似性，以便于在序列比对中使用。我们在以下结合MAFFT和结构线形计划ASH的背景下讨论了我们解决这个问题的方法(Standley等人，2004年,2007). 在技术层面上，结构信息使事情复杂化，因为蛋白质结构比序列信息包含更多信息和更多噪声。

在这里，我们关注ASH的一个基本特征：用于定义结构相似性的等价分数。结构相似性矩阵中的一个特殊元素以相邻距离的高斯形函数的形式出现

哪里d日_ij公司是两个α碳之间的距离我和j个在两个输入结构中d日₀是一个参数，用于定义分数中的容差。默认行为是设置d日₀至4年。ASH的目标是最大化e的总和_ij公司过度对齐的残留物。残余水平当量是所有ASH比对的基础，为MAFFT和ASH的组合提供了一条方便的途径。例如，我们可以设置e的阈值_ij公司并将高度自信的校准部分纳入MAFFT，以“种子”MSA计算。如果我们考虑以下三种PIN域包含结构的情况图4，我们可以首先使用ASH（ASH_3v33A-2qipA、ASH_3v33 A-1taqA和ASH_2qipA-1taq A）计算三个唯一对的结构对齐。如果我们在保存图片、插图等的外部文件。对象名称为mst010i2.jpg 0.5，然后我们可以使用种子选项将等效滤波比对组合到MAFFT中(Katoh等人，2009年):

黑手党--种子ash_3v33A-2qipA\--种子ash_3v33A-1taqA\
--种子ash_2qipA-1taqA\序列>输出

由于对齐结构之间的序列恒等式较低，我们看到与传统MAFFT相比，生成的MSA有所改进(图4). 基于这种方法，我们正在开发一种蛋白质结构信息MSA构建的综合服务。

致谢

作者感谢加拿大农业和农业食品部的Wen Chen博士、C.AndréLévesque博士和Christopher Lewis，感谢他们允许在本文中使用ITS数据并提供其他具有挑战性的问题。这项工作得到了日本教育、文化、体育、科学和技术部的药物发现、信息学和结构生命科学平台以及日本国家先进工业科学技术研究所（AIST）计算生物学研究中心的支持。

工具书类

Altschul旧金山。蛋白质序列比对的广义仿射间隙代价。蛋白质。1998;32:88–96.[公共医学][谷歌学者]
Barton GJ、Sternberg MJ。蛋白质序列快速多重比对的策略。三级结构比较的置信水平。分子生物学杂志。1987;198:327–337.[公共医学][谷歌学者]
Berger议员，Munson PJ。一种新的用于对齐多个蛋白质序列的随机迭代策略。计算应用生物科学。1991;7:479–484.[公共医学][谷歌学者]
Berger SA，Stamatakis A.将短文与参考路线和树木对齐。生物信息学。2011;27:2068–2075.[公共医学][谷歌学者]
Blackburne BP，Whelan S.一类多序列比对算法影响基因组分析。分子生物学进化。2012年aAdvance access于2012年12月4日发布，doi:10.1093/molbev/mss256。[公共医学][谷歌学者]
Blackburne BP，Whelan S.测量多序列比对之间的距离。生物信息学。2012年b；28:495–502.[公共医学][谷歌学者]
Cannone JJ、Subramanian S、Schnare MN等（14位合著者）比较RNA网络（CRW）站点：核糖体、内含子和其他RNA的比较序列和结构信息的在线数据库。BMC生物信息学。2002;三:2. [PMC免费文章][公共医学][谷歌学者]
Cole JR，Wang Q，Cardenas E等人（11位合著者）核糖体数据库项目：改进的比对和rRNA分析的新工具。核酸研究。2009;37：D141–D145。 [PMC免费文章][公共医学][谷歌学者]
Dessimoz C，Gil M.排列的系统发育评估揭示了间隙中被忽视的树木信号。基因组生物学。2010;11：R37。 [PMC免费文章][公共医学][谷歌学者]
冯DF，杜立德RF。渐进序列比对是更正系统发育树的先决条件。分子进化杂志。1987;25:351–360.[公共医学][谷歌学者]
Fletcher W，Yang Z.INDELible:生物序列进化的灵活模拟器。分子生物学进化。2009;26:1879–1888. [PMC免费文章][公共医学][谷歌学者]
Golubchik T、Wise MJ、Easteal S、Jermain LS。注意差距：多序列比对估计中的偏差证据。分子生物学进化。2007;24:2433–2442.[公共医学][谷歌学者]
Gotoh O.序列组之间的最佳比对及其在多序列比对中的应用。计算应用生物科学。1993;9:361–370.[公共医学][谷歌学者]
Gotoh O.一种用于排列许多系统发育相关序列的加权系统和算法。计算应用生物科学。1995年；11:543–551.[公共医学][谷歌学者]
Henikoff S、Henikoft JG。蛋白质块的氨基酸替代矩阵。美国国家科学院程序。1992;89:10915–10919. [PMC免费文章][公共医学][谷歌学者]
Higgins DG，Sharp PM。CLUSTAL：在微型计算机上执行多序列比对的软件包。基因。1988;73:237–244.[公共医学][谷歌学者]
Jones DT、Taylor WR、Thornton JM。从蛋白质序列快速生成突变数据矩阵。计算应用生物科学。1992;8:275–282.[公共医学][谷歌学者]
Jones DT、Taylor WR、Thornton JM。跨膜蛋白突变数据矩阵。FEBS信函。1994;339:269–275.[公共医学][谷歌学者]
Katoh K，Asimenos G，Toh H。DNA序列与MAFFT的多重比对。方法分子生物学。2009;537:39–64.[公共医学][谷歌学者]
Katoh K，Frith MC。使用MAFFT和LAST将未对齐序列添加到现有对齐中。生物信息学。2012;28:3144–3146. [PMC免费文章][公共医学][谷歌学者]
Katoh K、Kuma K、Toh H、Miyata T.MAFFT第5版：提高多序列比对的准确性。核酸研究。2005;33:511–518. [PMC免费文章][公共医学][谷歌学者]
Katoh K，Misawa K，Kuma K，Miyata T.MAFFT：基于快速傅里叶变换的快速多序列比对新方法。核酸研究。2002;30:3059–3066. [PMC免费文章][公共医学][谷歌学者]
Katoh K，Standley DM。MAFFT：迭代求精和附加方法。方法分子生物学。即将于2013年[公共医学][谷歌学者]
Katoh K，Toh H.PartTree：一种从大量未对齐序列构建近似树的算法。生物信息学。2007;23:372–374.[公共医学][谷歌学者]
Katoh K，Toh H.通过将结构信息纳入基于MAFFT的框架，提高了多个ncRNA比对的准确性。BMC生物信息学。2008年a；9:212. [PMC免费文章][公共医学][谷歌学者]
Katoh K，Toh H.MAFFT多序列比对程序的最新进展。简要生物信息。2008年b；9:286–298.[公共医学][谷歌学者]
Katoh K，Toh H.MAFFT多序列比对程序的并行化。生物信息学。2010;26:1899–1900. [PMC免费文章][公共医学][谷歌学者]
Kiełbasa SM，Wan R，Sato K，Horton P，Frith MC。适应性种子驯化基因组序列比较。基因组研究。2011;21:487–493. [PMC免费文章][公共医学][谷歌学者]
Letsch HO，Kuck P，Stocsits RR，Misof B。rRNA二级结构在排列和树重建中的影响：六足类系统发育的模拟数据和案例研究。分子生物学进化。2010;27:2507–2521.[公共医学][谷歌学者]
Löytynoja A，Villella AJ，Goldman N。使用系统发育感知图算法精确扩展多序列比对。生物信息学。2012;28:1684–1691. [PMC免费文章][公共医学][谷歌学者]
Matsen FA、Kodner RB、Armbrust EV.placer：序列在固定参考树上的线性时间最大似然和贝叶斯系统发育位置。BMC生物信息学。2010;11:538. [PMC免费文章][公共医学][谷歌学者]
Mirarab S、Nguyen N、Warnow T.SEPP：支持SATé的系统发育定位。Pac Symp Biocomput公司。2012;17:247–258.[公共医学][谷歌学者]
Nilsson RH、Veldre V、Hartmann M、Untersher M、Amend A、Bergsten J、Kristiansson E、Ryberg M、Jumpponen A、Abarenkov K。一个开源软件包，用于从真菌ITS序列中自动提取ITS1和ITS2，用于高通量群落测定和分子生态学。真菌生态学。2010;三:284–287. [谷歌学者]
Notredame C、Holm L、Higgins DG。COFFEE：多序列比对的目标函数。生物信息学。1998;14:407–422.[公共医学][谷歌学者]
Nuin PA，Wang Z，Tillier ER。几种蛋白质多序列比对程序的准确性。BMC生物信息学。2006;7:471. [PMC免费文章][公共医学][谷歌学者]
O'Sullivan O，Suhre K，Abergel C，Higgins DG，Notredame C.3D咖啡：在多序列比对中结合蛋白质序列和结构。分子生物学杂志。2004;340:385–395.[公共医学][谷歌学者]
Pei J，Kim BH，Grishin内华达州。PROMALS3D：用于多种蛋白质序列和结构比对的工具。核酸研究。2008;36:2295–2300. [PMC免费文章][公共医学][谷歌学者]
Punta M、Coggill PC、Eberhardt RY等（16位合著者）Pfam蛋白质家族数据库。核酸研究。2012;40：D290–D301。 [PMC免费文章][公共医学][谷歌学者]
Sahraeian SM，Yoon BJ。PicXAA-R：使用贪婪方法对多个RNA序列进行高效结构比对。BMC生物信息学。2011;12：S38。 [PMC免费文章][公共医学][谷歌学者]
Schrödinger LLC.PyMOL分子图形系统，1.3r1版。波特兰。2010俄勒冈州：Schrödinger，LLC。[谷歌学者]
Sievers F、Wilm A、Dineen D等（12位合著者）使用Clustal Omega快速生成高质量蛋白质多序列比对。分子系统生物学。2011;7:539. [PMC免费文章][公共医学][谷歌学者]
Sigrist CJ、Cerutti L、de Castro E、Langendijk-Genevaux PS、Bulliard V、Bairoch A、Hulo N.PROSITE，功能表征和注释的蛋白质域数据库。核酸研究。2010;38：D161–D166。 [PMC免费文章][公共医学][谷歌学者]
Standley D，Toh H，Nakamura H.灰分结构比对包：域分类中的灵敏度和选择性。BMC生物信息学。2007;8:116. [PMC免费文章][公共医学][谷歌学者]
Standley DM，Toh H，Nakamura H.通过最大化等效残基的数量来检测蛋白质中的局部结构相似性。蛋白质。2004;57:381–391.[公共医学][谷歌学者]
Sun H，Buhler法学博士。PhyLAT：一个系统发育局部比对工具。生物信息学。2012;28:1336–1344. [PMC免费文章][公共医学][谷歌学者]
Tabei Y，Kiryu H，Kin T，Asai K。长RNA序列的快速结构多重比对方法。BMC生物信息学。2008;9:33. [PMC免费文章][公共医学][谷歌学者]
Thompson JD、Higgins DG、Gibson TJ。CLUSTAL W：通过序列加权、特定位置间隙惩罚和权重矩阵选择提高渐进式多序列比对的敏感性。核酸研究。1994;22:4673–4680. [PMC免费文章][公共医学][谷歌学者]
Waterhouse AM、Procter JB、Martin DM、Clamp M、Barton GJ。Jalview版本2—多序列比对编辑器和分析工作台。生物信息学。2009;25:1189–1191. [PMC免费文章][公共医学][谷歌学者]

文章来自分子生物学与进化由以下人员提供牛津大学出版社

MAFFT多序列比对软件第7版：性能和可用性的改进

Kazutaka加藤

达伦·斯坦德利

摘要

介绍

基本概念和用法

表1。

纵断面路线

将未对齐序列添加到MSA

剖面对齐应用不当

表2.

这个––一日和––一dd碎片选项

测试案例1：真菌内部转录间隔序列

测试案例2：细菌SSU rRNA

并行化

实用程序选项

估计DNA序列的方向

输入/输出

导向树与新序列的系统发育位置

参数

结构信息的使用

测试用例3:PIN域

结构线形与MAFFT的整合策略

致谢

工具书类

这个`––一日`和`––一dd碎片`选项