BLAST搜索参数 ¶
生物体限制 ¶
按条目查询限制 ¶
蛋白酶非hiv1[生物体] ¶ 这将限制BLAST搜索所有蛋白酶,HIV-1除外。 1000:2000【斯林】 ¶ 这将搜索限制为核苷酸条目长度在1000到2000个碱基之间,或蛋白质条目长度在1000-2000个残基之间。 小家鼠[生物体]和生物溶质[properties] ¶ 这将搜索限制为数据库中的鼠标mRNA条目。 对于常见的生物体,也可以从下拉菜单中进行选择。 10000:100000[mlwt] ¶ 这是另一个示例用法,它将搜索限制为计算分子量在10 kD到100 kD之间的蛋白质序列。 src凭证样本[财产] ¶ 这将搜索限制为在源功能上使用specimen_voucher限定符注释的条目。 所有[filter]非环境样本[filter]NOT宏基因组[orgn] ¶ 这排除了宏基因组研究中的序列和匿名环境样本研究中的未培养序列。
成分调整 ¶
过滤器 ¶
过滤器(低复杂性) 此函数用于屏蔽由 SEG公司 伍顿和费德亨项目 (计算机与化学,1993年)或(对于BLASTN) 灰尘 塔图索夫和利普曼的计划。 过滤可以从爆炸输出中消除统计上显著但生物学上无趣的报告 (例如,点击常见的酸性、碱性或富含脯氨酸的区域),留下查询中更具生物意义的区域 序列可用于与数据库序列进行特定匹配。 筛选仅应用于查询序列(或其翻译产品),而不应用于数据库序列。 默认过滤为DUST 用于BLASTN、用于其他程序的SEG。 当应用于SWISS-PROT或refseq中的序列时,SEG屏蔽任何内容并不罕见,因此滤波不应 预计总是会产生效果。 此外,在某些情况下,序列被全部屏蔽,表明统计 应该怀疑针对未筛选查询序列报告的任何匹配的重要性。 默认情况下,这也会导致搜索错误 设置。 过滤器(人类重复) 该选项屏蔽了人类重复序列(LINE、SINE和逆转录病毒重复序列),并对可能包含这些重复序列的人类序列有用。 过滤重复可以提高搜索速度,尤其是在非常长的序列(>100kb)和针对数据库的情况下。 其中包含大量重复序列(htg)。 应检查此过滤器的基因组查询,以防止出现以下潜在问题 可能是由于与这些重复元素的大量且往往是虚假的匹配而引起的。 过滤器(仅用于查找表的掩码) BLAST搜索包括两个阶段,根据查找表查找匹配项,然后对其进行扩展。 此选项仅用于屏蔽 构造BLAST使用的查找表,以便根据低复杂度的序列或重复(如果选中重复过滤器)找不到命中。 BLAST扩展是在没有掩蔽的情况下执行的,因此可以通过低复杂度的序列进行扩展。 屏蔽小写 选择此选项后,您可以用大写字符剪切和粘贴FASTA序列,并指示您想要的区域 用小写筛选。 这允许您自定义在与 BLAST数据库。 可以使用上述过滤器选项的不同组合来获得最佳搜索结果。
单词大小 ¶
期望 ¶
核苷酸项目的奖惩 ¶
矩阵和缺口成本 ¶
矩阵 评估两两序列比对质量的一个关键要素是“替换矩阵”,它 为对齐任何可能的残数对指定分数。 BLAST搜索中使用的矩阵可以更改 取决于您正在搜索的序列类型。 查看有关的更多信息 BLAST代换矩阵 . 缺口成本 下拉菜单显示所选矩阵的差距成本。这些参数的选项数量有限。 增加缺口成本将导致调整,从而减少引入的缺口数量。 PSSM系统 PSI-BLAST可以保存通过迭代构建的职位特定得分矩阵。 由此构建的PSSM可用于 通过复制编码文本并将其粘贴到PSSM字段中,对具有相同查询的其他数据库进行搜索。 要保存PSSM文件: 运行蛋白质BLAST搜索。 选中格式化页面上的PSI-BLAST框。 单击“格式”按钮。 在PSI-BLAST结果页面上,单击“运行PSI-BLAST迭代2”按钮。 选择页面顶部的下载链接,将PSSM下载到您的计算机上。
要在针对其他数据库的新蛋白质BLAST搜索中使用PSSM: 打开一个新的蛋白质BLAST页面。 选择PSI-BLAST作为“程序选择”下的算法(可能已经设置)。 选择搜索页面底部“Algorithm parameters”(算法参数)旁边的“+”。 滚动至“PSI/PHI/DELTA BLAST”部分,然后使用“选择文件”按钮上传您在上述步骤5中保存的PSSM。 选择其他目标数据库。 点击“BLAST”按钮开始搜索
如果数据库与存储PSSM时相同,那么您将重新生成您保存的迭代 PSSM; 不同的数据库将产生不同的命中列表。
PHI-BLAST模式 ¶
哪些其他蛋白质序列既包含P的出现,又与附近的S同源 模式出现的次数?