美国国旗

美国政府的官方网站

格诺蒙

NCBI真核基因预测工具

NCBI基因预测是同源搜索与从头算建模。使用从头算有三个方面:a)我们使用从头算用于评估比对和在比对中定位最佳CDS的分数,b)在部分比对的情况下,我们使用从头算预测和c)当没有实验信息时,我们生成一个从头算模型。这个过程产生的基因模型可以分为完全支持、部分支持或根本不支持。这个过程背后的一般哲学是,我们强烈希望在任何可用的时候使用实验信息。

在我们开始基因组注释之前,我们收集了几个数据集。首先,我们收集所研究生物体的所有可用cDNA,有时还收集密切相关生物体的cDNA。然后我们生成一个Target蛋白质集和一个Search蛋白质集。前者是我们认为应该在基因组上发现的蛋白质的集合。通常,这包括所研究生物体的所有已知蛋白质,以及其他经过充分研究的基因组的几组已知蛋白质。后者是更广泛的真核蛋白质集合。我们试图在基因组上对齐目标蛋白集中的所有蛋白质。只有当搜索蛋白集中的蛋白质与预测模型足够相似时,才会对齐,在这种情况下,这些额外的对齐将用于优化模型。除了用于同源性搜索的序列之外,我们还创建了一个生物体特定的参数集,用于评估从头算分数。

Gnomon数据流流程图 图1:可用的cDNA和靶蛋白用于构建第一轮预测。这些模型与更广泛的搜索蛋白集中的蛋白质进行了比较。第二轮预测支持了良好的匹配。Compart在考虑可能的基因重复的情况下,找到目标序列在基因组上的大致位置。Splign和ProSplign用于构建拼接路线。Chainer将部分对齐合并为较长的模型。Gnomon扩展了部分模型并创建了最终注释。

数据流的图表如图1所示。基因预测过程中涉及到几个程序。我们使用比较器它分析了爆炸点击并找到基因组上目标序列的大致位置。这个程序是为了识别基因重复而设计的。这个比较器这一步是针对cDNA和蛋白质集分别进行的。对于每个隔间,我们使用拆分(Splign)用于cDNA隔间和ProSplign公司用于蛋白质隔间。将路线输入主持人它将部分排列组合成全长或至少更长的链。最后,格诺蒙决定链是否为全长模型,并根据需要延伸链。此过程运行两次。对于第一轮,我们使用cDNA和靶蛋白比对。将所有预测的第一轮模型与Search蛋白质集中的蛋白质进行比较,并使用ProSplign公司这些额外的比对以及第一轮的所有cDNA和靶蛋白比对用于最后一轮预测。

对于在NCBI上注释的每个基因组,我们运行图1所示的Gnomon程序。获得的所有基因模型显示在从头算模型映射NCBI地图查看器虽然GenBank中没有模型的蛋白质和RNA序列,但可以使用我们提供的特定于生物体的BLAST页面进行搜索(请参阅上表中BLAST的链接地图查看器主页).

我们最后的注释是RefSeq mRNA比对的最佳位置和完全或部分支持Gnomon预测的组合。RefSeq比对取代Gnomon模型。带有帧移位或提前停止的Gnomon模型通常显示为伪基因。

上次更新时间:2024-04-04T20:39:01Z