BLAST搜索参数

生物体限制

BLAST搜索可能受到生物体的限制。一旦用户开始键入,输入字段将建议完成。复选框将在搜索中排除而不是包括有机体。

按条目查询限制

BLAST搜索可以限制为针对所选数据库的Entrez查询的结果。这限制了从该数据库中搜索符合Entrez查询要求的条目子集。此处接受Entrez核苷酸或蛋白质搜索通常接受的术语。示例如下。

蛋白酶非hiv1[生物体]

这将限制BLAST搜索所有蛋白酶,HIV-1除外。

1000:2000【斯林】

这将搜索限制为核苷酸条目长度在1000到2000个碱基之间,或蛋白质条目长度在1000-2000个残基之间。

小家鼠[生物体]和生物溶质[properties]

这将搜索限制为数据库中的鼠标mRNA条目。对于常见的生物体,也可以从下拉菜单中进行选择。

10000:100000[mlwt]

这是另一个示例用法,它将搜索限制为计算分子量在10 kD到100 kD之间的蛋白质序列。

src凭证样本[财产]

这将搜索限制为在源功能上使用specimen_voucher限定符注释的条目。

所有[filter]非环境样本[filter]NOT宏基因组[orgn]

这排除了宏基因组研究中的序列和匿名环境样本研究中的未培养序列。

有关构造Entrez查询的帮助,请参阅编写高级搜索语句Entrez帮助文档的部分。了解数据库的内容并相应地应用Entrez术语非常重要。例如,biomol_mrna[prop]不应应用于htgs或染色体数据库,因为它们不包含mRNA条目!

成分调整

氨基酸替代矩阵可以通过各种方式进行调整,以补偿正在比较的序列。最简单的调整是通过分析确定的恒定,同时保持差距分数固定;该过程称为“基于成分的统计”(Schaffer等人,2001年)。结果的标度分数比标准的非标度分数产生更准确的E值。更复杂的方法可以调整标准替换矩阵中的每个分数分别用于补偿所比较的两个序列的组成(Yu等人,2003年;Yu和Altschul,2005年;Altschul等人,2005年)。这种“成分得分矩阵调整”只能在以下情况下调用根据经验确定其有益的特定条件(Altschul等人,2005);在所有其他项下条件,使用基于合成的统计信息。或者,可以普遍调用成分调整。

[1]Schaffer,A.A.、Aravind,L.、Madden,T.L.、Shavirin,S.、Spouge,J.L.、Wolf,Y.I.、Koonin,E.V.和Altschul,S.F.(2001)《改善PSI-BLAST蛋白质数据库搜索的准确性,基于成分的统计和其他改进,“核酸研究29:2994-3005。

[2]Yu,Y.-K.,Wootton,J.C.和Altschul,S.F.(2003)《氨基酸替代矩阵的成分调整》,Proc。国家。阿卡德。科学。美国100:15688-15693。

[3]Yu,Y.-K.和Altschul,S.F.(2005)“氨基酸替代矩阵的构建,用于比较非标准蛋白质合成,“生物信息学21:902-911。

[4]Altschul,S.F.、Wootton,J.C.、Gertz,E.M.、Agarwala,R.、Morgulis,A.、Schaffer,A.A.和Yu,Y.-K.(2005)“蛋白质数据库搜索使用成分调整替代矩阵,”FEBS J 272(20):5101-9。

过滤器

  • 过滤器(低复杂性)

    此函数用于屏蔽由SEG公司伍顿和费德亨项目(计算机与化学,1993年)或(对于BLASTN)灰尘塔图索夫和利普曼的计划。过滤可以从爆炸输出中消除统计上显著但生物学上无趣的报告(例如,点击常见的酸性、碱性或富含脯氨酸的区域),留下查询中更具生物意义的区域序列可用于与数据库序列进行特定匹配。

    筛选仅应用于查询序列(或其翻译产品),而不应用于数据库序列。默认过滤为DUST用于BLASTN、用于其他程序的SEG。

    当应用于SWISS-PROT或refseq中的序列时,SEG屏蔽任何内容并不罕见,因此滤波不应预计总是会产生效果。此外,在某些情况下,序列被全部屏蔽,表明统计应该怀疑针对未筛选查询序列报告的任何匹配的重要性。默认情况下,这也会导致搜索错误设置。

  • 过滤器(人类重复)

    该选项屏蔽了人类重复序列(LINE、SINE和逆转录病毒重复序列),并对可能包含这些重复序列的人类序列有用。过滤重复可以提高搜索速度,尤其是在非常长的序列(>100kb)和针对数据库的情况下。其中包含大量重复序列(htg)。应检查此过滤器的基因组查询,以防止出现以下潜在问题可能是由于与这些重复元素的大量且往往是虚假的匹配而引起的。

  • 过滤器(仅用于查找表的掩码)

    BLAST搜索包括两个阶段,根据查找表查找匹配项,然后对其进行扩展。此选项仅用于屏蔽构造BLAST使用的查找表,以便根据低复杂度的序列或重复(如果选中重复过滤器)找不到命中。BLAST扩展是在没有掩蔽的情况下执行的,因此可以通过低复杂度的序列进行扩展。

  • 屏蔽小写

    选择此选项后,您可以用大写字符剪切和粘贴FASTA序列,并指示您想要的区域用小写筛选。这允许您自定义在与BLAST数据库。

    可以使用上述过滤器选项的不同组合来获得最佳搜索结果。

单词大小

BLAST是一种启发式方法,通过在查询和数据库序列之间查找单词匹配来工作。人们可能会想到这个寻找BLAST可以用来启动扩展的“热点”的过程,最终可能会导致全面的扩展路线。对于核苷酸搜索(即“blastn”),在扩展被启动,因此通常通过增加或减少搜索的灵敏度和速度来调节单词大小。对于其他BLAST搜索,根据单词之间的相似性考虑非动作单词匹配。相似度可以变化。该网页允许单词大小为2、3和6。

期望

此设置指定针对数据库序列报告匹配的统计显著性阈值。这个根据随机模型,默认值(10)意味着预计只会偶然发现10个这样的匹配Karlin和Altschul(1990)。如果归因于匹配的统计显著性大于EXPECT阈值,比赛不会被报道。较低的EXPECT阈值更严格,导致报告的匹配机会更少。

核苷酸项目的奖惩

许多核苷酸搜索使用简单的评分系统,其中包括比赛的“奖励”和比赛的“惩罚”不匹配。当人们看到更多不同的序列时,应该增加(绝对)奖惩比。比率为0.33(1/3)适用于约99%保守的序列;0.5(1/-2)的比例对于以下序列是最好的保存率为95%;对于保守度为75%的序列,比率大约为1(1/-1)是最好的[1].阅读更多信息在这里

矩阵和缺口成本

  • 矩阵

    评估两两序列比对质量的一个关键要素是“替换矩阵”,它为对齐任何可能的残数对指定分数。BLAST搜索中使用的矩阵可以更改取决于您正在搜索的序列类型。查看有关的更多信息BLAST代换矩阵.

  • 缺口成本

    下拉菜单显示所选矩阵的差距成本。这些参数的选项数量有限。增加缺口成本将导致调整,从而减少引入的缺口数量。

  • PSSM系统

    PSI-BLAST可以保存通过迭代构建的职位特定得分矩阵。由此构建的PSSM可用于通过复制编码文本并将其粘贴到PSSM字段中,对具有相同查询的其他数据库进行搜索。

    要保存PSSM文件:

    1. 运行蛋白质BLAST搜索。

    2. 选中格式化页面上的PSI-BLAST框。

    3. 单击“格式”按钮。

    4. 在PSI-BLAST结果页面上,单击“运行PSI-BLAST迭代2”按钮。

    5. 选择页面顶部的下载链接,将PSSM下载到您的计算机上。

    要在针对其他数据库的新蛋白质BLAST搜索中使用PSSM:

    1. 打开一个新的蛋白质BLAST页面。

    2. 选择PSI-BLAST作为“程序选择”下的算法(可能已经设置)。

    3. 选择搜索页面底部“Algorithm parameters”(算法参数)旁边的“+”。

    4. 滚动至“PSI/PHI/DELTA BLAST”部分,然后使用“选择文件”按钮上传您在上述步骤5中保存的PSSM。

    5. 选择其他目标数据库。

    6. 点击“BLAST”按钮开始搜索

    如果数据库与存储PSSM时相同,那么您将重新生成您保存的迭代PSSM;不同的数据库将产生不同的命中列表。

PHI-BLAST模式

PHI-BLAST(Pattern-Hit Initiated BLAST)是一个搜索程序,它将正则表达式的匹配与围绕比赛的局部路线。给定蛋白质序列S和正则表达模式P发生在S中,PHI-BLAST有助于回答以下问题:

哪些其他蛋白质序列既包含P的出现,又与附近的S同源模式出现的次数?

PHI-BLAST可能比只搜索模式出现的情况更好,因为它过滤掉了以下情况模式的出现可能是随机的,并不表示同源性。