什么是不连续的大爆炸?

此版本的Mega BLAST专门用于比较发散序列,尤其是来自不同生物的序列身份度较低,原始的Mega BLAST不是很好有效。主要区别在于“不连续词”的使用寻找初始偏移对的方法然后执行。

Mega BLAST和所有以前版本的核苷酸BLAST看起来对于特定长度的精确匹配,作为gapped的起点路线。当比较保守程度较低的序列时,即当预期他们之间的身份份额为80%及以下,这种传统方法与更高程度的保护相比,生产力大大降低。根据路线起点的精确匹配长度要么错过了很多具有统计意义的比对,要么恰恰相反发现过多的短随机对齐。

根据[1]以及我们自己的概率模拟结果表明如果首字母“单词”不是基于精确匹配,而是基于特定匹配序列较长段内的一组不连续位置单词查找算法的效率要高得多。这样可以减少单词总体上是这样的,但更多的最终产生了统计显著性对齐,而不是相同甚至更短的连续单词长度大于不连续单词中匹配位置的数量。

例如,我们可以定义长度为0和1的模式(模板),例如。21:|100101100101100101101。对于查询和主题中的每对偏移我们比较了被比较的序列中的21个核苷酸片段这些序列以这些偏移结束,并且只需要这些位置与上述模板中的1对应的那些要匹配的段。

使用这种方法有几个优点。首先,条件给定两个序列之间比对的预期同一性百分比较高而对于需要匹配的位置数相同的连续单词。如果需要两个单词的点击来启动空白扩展不连续词的处理方法甚至更大。在这两种情况下都较高灵敏度是因为连续性之间的相关性较小单词作为数据库序列在整个查询序列中扫描。其次,当比较编码序列时每个密码子中的第三个核苷酸不是必需的,所以没有必要匹配首字母时需要它。这意味着使用基于“110”模式的模板,称为“编码”。最后,为了获得更高的灵敏度,可以将两种不同的不连续的单词模板,并要求其中任何一个在给定的时间匹配使其符合初始单词hit的条件。

支持以下特定于此方法的选项:

模板 长度以下为: 16, 18, 21
单词 大小 (e(电子)  属于 1 在里面 这个 模板)以下为: 11, 12
模板 类型以下为: 编码, -编码
要求   对于 延伸以下为: /

“编码”模板基于110模式,但更多的0是大多数模式都需要,因此一些模式变成010或100。这些是最有效的编码区域比较。

非编码模板试图最小化连续模板之间的相关性字,当数据库序列相对于查询移动4个位置时顺序。这意味着更多的1集中在模板的末端(每侧至少3个)。

如果选择了需要两个单词作为扩展名的选项,则会出现两个单词匹配的模板必须在50个核苷酸的距离内找到另一个。

下面是不同组合的确切不连续单词模板模式单词大小和长度:

W公司 = 11, t吨 = 16, 编码以下为:     1101101101101101
W公司 = 11, t吨 = 16, -编码以下为: 1110010110110111
W公司 = 12, t吨 = 16, 编码以下为:     1111101101101101
W公司 = 12, t吨 = 16, -编码以下为: 1110110110110111
W公司 = 11, t吨 = 18, 编码以下为:     101101100101101101
W公司 = 11, t吨 = 18, -编码以下为: 111010010110010111
W公司 = 12, t吨 = 18, 编码以下为:     101101101101101101
W公司 = 12, t吨 = 18, -编码以下为: 111010110010110111
W公司 = 11, t吨 = 21, 编码以下为:     100101100101100101101
W公司 = 11, t吨 = 21, -编码以下为: 111010010100010010111
W公司 = 12, t吨 = 21, 编码以下为:     100101101101100101101
W公司 = 12, t吨 = 21, -编码以下为: 111010010110010010111