美国国旗

美国政府的官方网站

NCBI书架。美国国立卫生研究院国家医学图书馆的一项服务。

NCBI手册[互联网]。第二版。贝塞斯达(医学博士):美国国家生物技术信息中心;2013-.

  • 本出版物仅供历史参考,信息可能已过时。

本出版物仅供历史参考,信息可能已过时。

NCBI手册封面

NCBI手册[互联网]。第二版。

显示详细信息

真核基因组注释管道

,博士,,博士,,博士,、MD和,博士。

作者信息和附属机构

创建:.

预计阅读时间:26分钟

范围

NCBI真核基因组注释管道是一条自动管道,用于对已完成和未完成的公共基因组集合中的编码和非编码基因、转录物和蛋白质进行注释。它为各种NCBI资源提供内容,包括核苷酸、蛋白质、BLAST、基因和Map Viewer基因组浏览器。该管道使用模块化框架来执行从公共存储库(序列和装配数据库)通过序列比对和基因预测,将添加和命名的注释产品提交给公共数据库。

管道的核心部件是对准程序Splign(1)ProSplign和Gnomon,这是一个基因预测程序,结合了来自实验证据比对和所产生模型的信息从头算使用基于HMM的算法。

注释管道根据可用数据生成来自多个来源的全套基因、转录物和蛋白质。按照优先顺序,使用以下来源:

1

RefSeq精选注释基因组序列(2)例如位于11号染色体上的人类β-珠蛋白基因簇(NG_ 000007.3)

2

已知RefSeq转录本(2)

三。

Gnomon预测模型

基因集和基因在基因组序列注释中的位置都构成注释管道的输出。

范围内的生物体

这些由NCBI注释的真核生物在无脊椎动物、脊椎动物和植物中分布广泛。注释优先级基于几个考虑因素,包括:

  • 美国国立卫生研究院(NIH)的优先事项:哺乳动物对NIH很重要,因此高质量的哺乳动物新物种基因组组合被赋予更高的注释优先级
  • 生物或经济重要性:高度研究的生物体或具有农业(如作物)或工业用途的生物体
  • 社区兴趣/请求:来自研究社区的请求,通过NCBI支持中心亲自或书面传达。要向NCBI支持中心写信,请单击任何NCBI网页右下角的“支持中心”链接。

注释过程在很大程度上取决于物种的转录本或蛋白质证据的可用性。一些高优先级生物体的注释计划可能会被搁置,等待提交和公开转录组数据。

作用域中的程序集

只有在国际核苷酸序列数据库合作中公开的组装基因组(INSDC公司) (日本DNA数据库,欧洲核苷酸档案或GenBank)被视为注释。这些程序集位于装配资源。首选带有组装染色体的组件,但也可以对仅由未放置支架制成的组件进行注释。只有contigs可用的程序集不会进行注释。

优先考虑高连接和脚手架N50的组件。没有使用单一的质量指标作为严格的阈值,但优选具有50000个碱基以上的重叠群N50和/或2000000个碱基以上的支架N50的组装体,因为通常为具有较高N50统计的组装体产生更完整的基因集。NCBI可能会决定不对极为分散的程序集进行注释,即使这些程序集符合其他标准。

如果同一生物体有多个组件可用,NCBI将注释质量较高的组件作为参考。也可以包括质量较低的备用组件。这一决定取决于交替组合的质量、它们对社区的重要性以及注释额外组合的估计收益(确定的额外基因数量、交替组合中高质量区域对参考中低质量区域的补偿、变异研究的价值)。

一些组件连同注释一起提交给INSDC。NCBI可以选择将此注释传播到RefSeq序列。这通常是具有精心策划的注释的模型生物体集合的情况,例如黑腹果蝇(由FlyBase维护),酿酒酵母(由酵母菌基因组数据库保存)或秀丽隐杆线虫(由WormBase维护)但也可以对其他生物体(例如。,双色高粱). 对于向INSDC提交注释的某些生物体(例如。,大熊猫),NCBI可以选择注释组件的RefSeq拷贝,主要是为了在NIH感兴趣的生物体之间提供更一致的RefSeq数据集。

历史

NCBI最初的真核基因组注释管道于2000年开始开发,用于注释人类基因组项目产生的人类基因组集合的草稿版本。NCBI的注释过程在过去13年中不断发展,以适应非人类生物。它还成为了一个自动管道,可以使用更广泛的输入数据和新的或改进的算法注释更多的特征类型。

在其早期,NCBI的真核基因组注释管道是一个半手工过程,通过使用BLAST将来自GenBank和RefSeq的mRNA与基因组对齐来注释已知基因(),并生成从头算利用GenomeScan在已知基因之间的空间进行基因模型预测(4)以蛋白质排列为导向。一个早期的进展是利用EST比对产生代表EST和共享内含子的mRNA链的模型转录物。2003年,NCBI基于GenScan开发了一个基因预测程序Gnomon,这是另一项重大改进(5),替换了GenomeScan。Gnomon使我们能够利用mRNA、EST和蛋白质比对的组合作为证据,并辅以从头算缺乏证据的预测。下一个主要进展是开发和合并了能够独立放置转录物和蛋白质的splicing-aware对齐算法,同时遵循真核剪接的既定规则。NCBI的第一个splicing-aware转录对齐程序Spidey(6),是作为一个研究项目开发的,但该程序不能扩展到非常大的数据集,并且对于我们的注释管道中的常规使用来说,它不够健壮。拆分(Splign)(1)是作为Spidey的替代品开发的,并于2004年纳入注释管道。Splign允许准确放置转录本,并帮助识别基因组和转录集的问题区域。2006年,NCBI的splicing-aware蛋白质比对程序ProSplign被纳入注释管道,以提高Gnomon基因模型预测过程中用作证据的蛋白质-基因组序列比对的准确性。2013年,NCBI对注释过程进行了另一项重大改进,使RNA-Seq数据能够有效地用作制作转录模型的证据。这大大提高了GenBank中mRNA或EST数据很少或没有的许多生物体注释的质量。

随着新基因组组合存放在GenBank中的速度增加,注释管道中的缺陷越来越明显,这些缺陷限制了我们将过程扩展到少数生物体之外的能力。在改进上述注释算法的同时,我们对现有流程进行了两次重新设计,以创建一个新的并行执行框架,该框架还提供了可扩展性、健壮性、跟踪性和再现性。到2009年,重新设计的管道的开发已经足够先进,可以将生产注释运行从旧管道切换到新框架。对流程的进一步改进和更多自动化将继续提高吞吐量。2011年,我们注释的真核基因组数量是前一年的两倍,截至2013年下半年,平均每月发布8个真核基因组注释。

数据流

方法

路线

两个拆分(1)和ProSplign是全局比对工具,能够以高分辨率的剪接位点对转录物和蛋白质进行比对。这些算法的计算成本要求首先使用局部比对工具(如BLAST)确定查询序列(转录物或蛋白质)在目标(基因组)上的大致位置。由于查询通常在多个位置对齐,因此在运行Splign或ProSplign之前,通过Compart算法分析BLAST点击,以识别隔室。

爆炸

请参阅BLAST章节.

Compart算法

隔间被定义为一系列兼容的点击。如果两次BLAST命中符合目标序列的自然流动,则称其兼容。在给定的链上,查询序列和基因组上的点击相对位置应该相同。兼容的点击可能会重叠,但可能不会相互包含。兼容性的定义是可传递的。

Compart算法使用最大覆盖算法查找给定查询的基因组上所有非重叠的紧凑分区。每个隔间被分配覆盖范围,Φc(c),这是衡量它代表目标序列的程度:

Φc(c)=小时小时L(左)效率小时

在这个方程式中L(左)效率小时是命中的有效长度小时通常是命中长度,但如果命中与相邻命中重叠,则其有效长度将减少一半重叠。

对于cDNA比对,最有用的点击具有很高的一致性小时等于命中率和覆盖率Φc(c)是匹配的数量。对于蛋白质比对,权重为常数1。在这种情况下,保险范围Φc(c)就是点击覆盖的目标序列长度。

当存在多个隔间时,查询序列被多次覆盖,在一定程度上,找到所有隔间相当于最大化总覆盖。在外显子重复事件的情况下,应忽略额外的点击,而不是变成额外的隔间。由于通常只有一小部分基因被复制,我们引入了惩罚P(P)新的用于附加隔间。这种惩罚确保只有在有足够的基因材料时才创建新的隔室。此参数的值通常为目标序列长度的25%-40%。因此,我们的最大覆盖算法可以找到最大化以下总覆盖的隔间配置:

Φ=c(c)(Φc(c)-P(P)新的)

使用动态规划算法可以非常有效地执行优化过程。

Splign–脚本对齐

拆分(Splign)(1)是一种使用预先计算的隔室将拼接cDNA序列与其基因组对应物对齐的工具。该程序通过求解分数生成准确的拼接对齐S公司优化问题专门针对剪接信号和内含子。

S公司=B类N个-P(P)管理信息系统N个管理信息系统-间隙P(P)gopen公司+P(P)gextend公司-内含子P(P)碘彭+P(P)ie扩展

在这个公式中B类N个是一场比赛的奖金和比赛次数,P(P)管理信息系统N个管理信息系统,是不匹配的惩罚和不匹配的数量,P(P)gopen公司P(P)gextend公司,是对打开和扩大差距的惩罚。这些参数与Blastn中使用的参数类似。内含子是通过引入一种特殊类型的间隙来解释的P(P)碘彭P(P)iextend公司作为打开和扩展介绍的惩罚。该制剂通过给予不同的值来区分最频繁的共有位点(GT/AG)、不太频繁的共有位点(GC/AG、AT/AC)和非共有供体/受体位点P(P)碘彭.

由于解决全局序列比对问题的复杂性与序列长度的乘积成正比,因此点击被如上所述排列成多个隔间,动态规划矩阵通过将全局比对与点击的高一致性部分播种而分裂成更小的块(图1).

图1。Splign通过在大部分对齐中使用高标识部分(深蓝色),并仅重新对齐小部分抄本(浅蓝色),降低了计算复杂性。

图1。

Splign通过在大部分对齐中使用高标识部分(深蓝色),并仅重新对齐小部分抄本(浅蓝色),降低了计算复杂性。

对于每个隔室,其基因组搜索空间通过查询cDNA末端的长度扩展,而查询cDNA的末端没有被局部比对覆盖。如果末端外显子由于诸如对齐长度短于单词大小或外显子位于屏蔽区域等原因被局部对齐工具遗漏,则可通过该方法检测其。每一次撞击可能对应一个外显子、外显子的一部分,甚至一些外显子。因此,在使用局部路线进行路线播种时,务必保持保守。在每个隔间内,将删除与查询重叠的路线部分。从剩余的比对中,提取最长的完全匹配对角线,并使用核来为全局比对设定种子。

由隔室组成的点击决定了查询和主题序列是否在同一条链上对齐。大多数mRNA序列具有自然的生物顺序,在对齐时可以假定为正链。相反,EST和RNA-Seq序列通常没有定向,因此必须对原始序列及其反向互补序列进行比对,并通过比较结果比对来确定链。

ProSplign–蛋白质比对

蛋白质比对由ProSplign产生。与Splign类似,ProSplign是一种全球蛋白质到基因组比对工具,可从预先计算的隔室中生成准确的拼接比对。ProSplign使用修改的Needleman Wunsch类型(7)用于对齐的全局对齐算法。ProSplign使用以下分数对目标蛋白质序列与基因组序列翻译进行评分:

S公司=诊断S公司诊断-间隙P(P)gopen公司+P(P)gextend公司-内含子P(P)碘彭+P(P)iextend公司

哪里S公司诊断是使用BLOSUM62矩阵计算的对齐未映射部分的分数(8). 长度为三的倍数的插入和删除将使用默认的Blastp差距惩罚进行计分P(P)戈彭P(P)gextend公司。长度不是三的倍数的间隙是移码,具有更高的开启惩罚P(P)gopen公司.内含子作为一种特殊类型的缺口进行评分,其延伸成本和开放成本非常小,这与最常见的一致性拼接(GT/AG)、较不常见的一致拼接(GC/AG、AT/AC)和非感觉拼接位点不同。

与Splign不同,ProSplign不使用种子,因为对跨物种蛋白质的Blast命中不能提供有关种子的可靠信息。相反,ProSplign将该蛋白与Compart确定为隔室的略微扩展的基因组区域对齐。

并非蛋白质的所有部分都保存得足够好,以提供可靠的比对。事实上,有些部分可能与基因组上的任何东西都不对应。全局比对算法将对整个蛋白质进行比对,对蛋白质的非服务部分进行低身份比对。ProSplign在后处理步骤中过滤掉这些不可靠且经常误导的对齐片段。

基因预测

Gnomon是一个由NCBI维护的两步基因预测程序。Chainer算法将重叠的比对组合成“链”,然后是从头算将这些链扩展为完整模型并创建完整模型的预测步骤从头算模型,使用隐马尔可夫模型(HMM)。

链条工

使用Splign和ProSplign获得的剪接比对可能是部分的,因为对齐的序列是部分的或者在蛋白质比对的情况下,因为只有蛋白质的保守部分才能对齐。Chainer分析和组装这些部分比对,以提供更长的基因模型和关于替代变体的更多信息。

由于其长度短且冗余度高,具有相同内含子的RNA-Seq比对首先被合并为具有较大权重的单个比对(图2). 这些“微链”的边界不存在其他线形已知的交叉拼接,其延伸限制为20 bp。

图2。将具有相同内含子的比对组合成一个比对(微链)可以降低计算复杂性。

图2。

将具有相同内含子的比对组合成一个比对(微链)可以降低计算复杂性。

然后,Chainer根据外显子结构的兼容性,使用修改后的Maximal Transcript Alignment算法,将这些“微链”与cDNA和蛋白质比对相结合(9)基于编码区域的帧兼容性。对于蛋白质和注释的全长cDNA比对,可以推断编码区。对于其他cDNA比对,使用编码倾向的三周期五阶马尔可夫模型和剪接信号、翻译起始和终止信号的权重矩阵方法(WMM)模型预测和评分可能的编码区域(10). 编码序列(CDS)得分高于给定阈值的所有cDNA都标记为编码,并且在组装链时使用CDS信息。在许多情况下,如果EST之前未知,此过程将确定EST的方向。RNA-Seq和一些EST比对太短,无法超过阈值,如果它们没有拼接,它们的方向通常也是未知的。对于这些比对,Chainer将考虑这些序列可以是5'端的一部分并包含起始密码子,或者是3'端的部分并包含终止密码子,或是CDS或未翻译区域(UTR)的内部序列,并选择导致CDS最长的场景。

然后,如果存在必要的转换起始或终止信号,则添加UTR。除了外显子-外显子结构兼容性外,对5'-UTR的延伸没有任何限制。

共享剪接或CDS的组装全长链结合成具有替代亚型的基因。在基因的部分链中,CDS最长的变体通过以下方式进行扩展从头算预测。

基于HMM的预测

的核心算法从头算Gnomon的预测能力基于Genscan(5)它使用三周期五阶HMM作为编码倾向得分,并包含对基本转录、翻译和剪接信号的描述,以及外显子、内含子和基因间区域的长度分布和组成特征。Gnomon与Genscan和其他从头算预测程序是指它能够符合所提供的对齐方式,并在必要时对其进行扩展和补充。

数学上,基于HMM从头算预测是在基因配置空间中搜索得分最高的基因。如果所有与可用比对不兼容的配置都被排除在搜索空间之外,那么在产生的折叠空间中的优化过程将产生一个可能从从头算但完全遵循可用的实验信息。这种方法允许延伸或连接部分路线(图3). 未翻译区域,如果存在于比对中,也包括在基因模型中。

图3。通过添加HMM对缺失编码序列的预测,Chainer生成的部分链a和b可以组合成一个链c。

图3。

通过添加HMM对缺失编码序列的预测,Chainer生成的部分链a和b可以组合成一个链c。蓝色:编码顺序。绿色:未翻译区域

Gnomon识别为HMM状态,编码链和基因间序列上的外显子和内含子。使用WMM描述平移和拼接信号(10)和WAM(11)模型。翻译起始信号使用12 bp WMM模型,起始密码子之前6 bp(12). 翻译终止信号采用从终止密码子开始的6 bp一阶WAM模型。施主剪接信号用9-bp的二阶WAM模型描述,受主剪接信息用43-bp的二阶WAM模型描述。供体和受体模型都包含编码外显子的3-bp。外显子的编码部分使用非均匀三周期五阶马尔可夫模型建模(13). 非编码状态使用齐次五阶马尔可夫模型进行建模。

输入数据

程序集

真核生物注释管道可以一次注释一个或多个程序集(参见下文)。所有程序集必须在程序集数据库中公开可用。由于构成提交组件的INSDC序列记录归提交者所有,NCBI不得对其进行修改,因此所有注释均在INSDC组件的RefSeq副本上完成。在注释过程之前,RefSeq访问被分配给组件的支架和染色体。这些RefSeq序列基于INSDC记录中的序列,但其记录将带有NCBI注释。另请注意,前缀为GCF_的新程序集登录被赋予包含RefSeq序列的程序集。

证据来源

用于预测基因模型的证据选自可用的公共数据。同一物种的转录本、蛋白质和短读,如果不够,还包括来自密切相关物种的转录物和蛋白质。

更具体地说,包括以下成绩单:

  • 已知参考序列成绩单:编码和非编码参考序列抄本,分别带有NM_或NR_前缀。这些是由NCBI工作人员根据自动流程、手动管理或来自协作组的数据生成的(请参阅RefSeq章节和2中的更多详细信息)
  • 其他长抄本
  • 短读RNA-Seq数据可用于SRA公司

以及以下蛋白质:

  • 已知RefSeq蛋白,带NP_前缀
  • 来自转录物的INSDC蛋白质(尽可能排除概念翻译)

此外,如果可用于注释的生物体,则使用精心策划的RefSeq基因组序列。这些序列带有NG_前缀,代表非转录的假基因,人工注释的基因簇很难通过自动方法注释,或者人类参考SeqGene记录(2).

工艺流程

图4提供了注释管道的概述。来自RefSeq、GenBank和序列读取档案的转录物、蛋白质,以及RefSeq策划的基因组序列(如果可用)与掩蔽基因组比对。Gnomon根据这些比对预测基因模型,并根据精选数据库UniProtKB/SwissProt进行搜索。然后,在Gnomon预测(模型RefSeq)和已知和精选的RefSeq中选择最终的模型集。将基因座和基因ID的名称和类型分配给模型RefSeq,并从已知RefSeq的基因数据库中检索。在最后的步骤中,注释被格式化,提交到序列数据库并发布。

图4。真核基因组注释管道中的流程概述。

图4。

真核基因组注释管道中的流程概述。灰色:基因组序列制备;蓝色:成绩单对齐;绿色:蛋白质排列;橙色:短文对齐;粉红色:精选基因组比对(更多…)

获取输入

所有证据标识符都在注释运行开始时从Entrez检索,序列检索的日期被跟踪并报告为注释运行“冻结”日期。当天之后添加到档案数据库的任何序列都不会被使用。

基因组序列掩蔽

程序集从程序集资源中检索并使用WindowMasker屏蔽(14)或重复遮罩(15). RepeatMasker通常用于具有全面重复库的生物体。

精选RefSeq基因组序列的比对

如果对感兴趣的生物体可用,则使用BLAST将精选的RefSeq基因组序列与屏蔽基因组对齐。根据RefSeq跟踪内部数据库中保存的身份、覆盖范围和位置信息对路线进行排序和筛选。在通过过滤器的比对上注释的特征随后被投影到基因组序列上,并与其他比对证据一起评估选择最佳模型.

蛋白质和转录物证据的比对

检索后,按照以下一般策略将序列与屏蔽基因组对齐:使用BLAST将序列与基因组局部对齐。根据BLAST命中率,Compart确定查询序列被全局重新比对的基因组区室。第二轮比对对于准确确定剪接位点和鉴定BLAST可能遗漏的小末端外显子是必要的。全局比对由Splign对转录物进行,ProSplign则对蛋白质进行。然后,根据覆盖范围和身份对结果对齐进行排序,并在将其传递给下游任务之前进行筛选。根据证据的来源和特征,对校准和过滤参数进行调整,并对该通用数据流进行变化,如下所述。

已知RefSeq转录本的比对

由于许多已知的RefSeq序列都是精心策划的(尤其是针对脊椎动物),因此,在注释基因组时,它们是高价值的目标,因此要特别注意它们的正确位置。屏蔽可能会干扰比对过程,因此,屏蔽基因组上所有比对都低于覆盖阈值的RefSeq转录本可能会与未屏蔽基因组重新对齐。

根据可调整标准(如覆盖范围、身份、等级)以及RefSeq跟踪数据库中包含的位置信息对路线进行排序和过滤。通常,在下游步骤中,只选择给定查询的最佳位置对齐。

非Refseq转录本的对齐

INSDC mRNA、EST和454序列首先根据线粒体序列、克隆载体、适配器、细菌IS-element和重复序列的数据库进行筛选,如果它们的大部分序列碰到污染物,则将被排除在进一步处理之外。此外,被策展人员认定为低质量的转录本也会被筛选出来。

在这个初始屏幕之后,序列与BLAST和Splign对齐,如上所述,并进行排序和过滤。对于给定的成绩单,通常只选择位置最靠前的对齐方式(排名1)。对于无法定向的序列(例如,未分割的EST),与两条链的对齐被传递到下游。如果使用的话,跨物种转录本与相同特异性转录本相比符合更严格的标准,以确保只有最可能的同源转录本被传递到下游。

蛋白质的排列

与转录物类似,蛋白质首先根据重复序列数据库和低质量转录物的精选列表进行筛选。然后用BLAST和ProSplign将蛋白质与屏蔽基因组对齐。对比对进行进一步排序和过滤,并传递到基因预测步骤。

短读对齐

SRA中可用的短读(RNA-Seq)可用于基因预测。设计了一个特定的数据流来处理新一代测序技术产生的大量短序列。

来自所谓的下一代测序平台的RNA-Seq数据为基因预测的使用带来了一些挑战。首先,读取的数据比传统的转录数据(如EST和mRNA)要短得多,因此单个读取包含的信息相对较少。例如,Illumina平台通常只有5-25%的读取跨越内含子,这是构建基因模型最有用的数据。第二,阅读次数极其众多且冗余,高表达基因以千万次的阅读次数表示。这对吞吐量提出了挑战。第三,覆盖的深度导致了大多数基因组中的明显背景表达,而这些背景表达在最终的基因模型中并不理想。

注释管道通过多种方式解决了这些问题,以降低RNA-Seq数据的复杂性,并将其转换为对基因预测有用的形式:

1

数据集和相关元数据从SRA和生物样品数据库,支持有力的证据跟踪。

2

读取是“未确认的”,因此100%相同的序列只对齐一次。

三。

对唯一读取进行对齐、排序和筛选,以实现高标识和高覆盖率对齐。

4

具有相同接头结构和相同或类似起点和终点的路线将收拢为一条具有代表性的路线。跟踪每个折叠路线的每个SRA运行的读取次数。

5

含有罕见内含子或代表明显噪声或背景的排列将从数据集中过滤。

总之,这些步骤将典型RNA-Seq数据集的大小和复杂性降低了100-1000倍。所得到的折叠比对可以单独使用或与转录物和/或蛋白质比对组合用于基因预测步骤。

利用Gnomon进行基因预测

蛋白质转录本和短阅读比对传递给Gnomon进行基因预测。Chainer将具有相同外显子结构和兼容框架中编码区域的比对组装成假定模型。然后,Gnomon使用基于HMM的算法扩展了缺失起始密码子或终止密码子或内部外显子的模型。Gnomon额外创建纯从头算检测到足够长但没有支撑对准的开放阅读框的预测(参见方法).

通过与nr(非冗余)蛋白质序列数据库的子集进行比对,这第一组预测得到了进一步的细化。附加路线将添加到初始路线和链接中从头算重复扩展步骤。这些结果构成了Gnomon预测的集合。

每个基因都可能产生完全或部分的替代变体。

在得到的Gnomon预测中可能会发生移码、indels和终止密码子。它们反映了输入转录物和蛋白质比对与基因组组装之间的序列差异。

小RNA注释

tRNAScan-SE对tRNA进行注释(16). 其他小RNA通过放置相同特异性的RefSeq转录本进行注释。因此,如果它们被纳入被注释有机体的RefSeq集合中,那么它们只是注释的一部分。目前,RefSeq集合可能包括通过管理、合作或外部来源识别的小RNA,目前仅限于从miR基底(17).

选择最佳模型

最后一组带注释的特征按优先顺序由预先存在的已知RefSeq序列和支持良好的Gnomon-predicted模型子集组成。它是通过在每个位点共同评估已知的RefSeq转录物、从精选的RefSeg基因组比对中投影的特征以及Gnomon预测的模型而建立的。

基于已知和管理的RefSeq的模型

RefSeq转录本优先于具有相同剪接模式的重叠Gnomon模型。已知相同特异性RefSeq转录物或精选基因组序列的比对直接用于注释基因组上的基因、RNA和CDS特征。由于RefSeq序列可能与基因组序列不完全或完全对齐,因此该规则的结果是注释的产品可能与基因组的概念翻译不同。

基于Gnomon预测的模型

如果Gnomon预测不与RefSeq转录本共享所有剪接位点,并且满足某些质量阈值,则将其包含在最终注释集中,包括:

  • 仅完全或部分支持Gnomon预测,或纯从头算选择对UniProtKB/SwissProt蛋白具有高覆盖率命中的Gnomon预测。
  • 当预测一个基因的多个完全支持的转录变体时,只选择单个长比对(例如,全长mRNA)或单个BioSample的RNA-Seq读取完全支持的Gnomon预测。
  • Gnomon的预测与另一条链上注释的支持度更好的模型相冲突,但支持度较差,因此被排除在最终的模型集之外。
  • 与转座或逆转录元件高度同源的Gnomon预测被排除在最后一组模型之外。
集成RefSeq和Gnomon注释

作为模型选择过程的结果,一个基因可能由多个剪接变异体表示,其中一些已知RefSeq,其他的模型RefSeq(源自Gnomon预测)。

为最终注释集选择的Gnomon预测被分配给带有XM_或XR_前缀的模型RefSeq,分别用于蛋白质编码和非编码转录物,以及带有XP_前缀的蛋白质,以将其与带有NM_/NR_和NP_前缀的已知RefSeq区分开来。模型RefSeq可以通过查询“srcdb_RefSeq_Model[properties]”在Entrez中搜索,而已知的RefSeq序列可以通过查询”srcdb_RefSeq_known[properties]“获得。

基因座分型和蛋白质命名

根据模型的类型和质量并基于正交信息将基因分类为不同的基因座类型。

  • 已知RefSeq特征根据其在注释运行之前建立的位点类型(例如,蛋白质编码与假基因)进行注释。
  • 大多数带有插入、删除或移码的Gnomon模型都被标记为假基因,并且注释时没有CDS特征或蛋白质产物。
  • Gnomon模型似乎是蛋白质编码基因的单外显子逆转录本,也可能被注释为假基因。
  • 如果具有插入、删除或移码的Gnomon模型对SwissProt数据库有很强的独特影响,或者看起来是已知蛋白编码基因的直系图,则可以将其视为编码。这些模型的标题前缀为“预测:低质量蛋白质”。在这些情况下,组件和/或模型可能存在缺陷。
  • 没有预测CDS或没有支持对齐的短CDS的Gnomon模型可以注释为非编码模型或从注释中删除。
  • 当多个组件被注释时,一个部分或不完美的模型可能被称为编码,因为一个完整的模型存在于另一个被注释组件的相应位置。

基因和蛋白质名称是根据位点类型、蛋白质同源性和形态信息以及来自基因数据库,该数据库可能反过来基于来自外部团体的命名,例如HUGO基因命名委员会(HGNC)。利用基于蛋白质比对和局部同系物信息的成对比较过程,评估预测基因与参考物种中基因的同源性。

如果可以确定可能的直系同源物,则在适用的情况下,从参考物种转移基因符号和名称。

如果无法确定直系基因,则根据最相似的SwissProt蛋白质的名称命名预测基因,并添加后缀“-like”以指示赋值的假定性质。

对于无法确定名称的预测基因,将为其指定一个“无特征LOC”形式的通用基因和蛋白质名称以及GeneID。

GeneID的分配

最后一组模型中的基因在基因数据库。

  • 由至少一个已知基因代表的基因参考序列转录本接收参考序列成绩单。
  • 根据先前注释绘制的基因图(参见重新标注(如下所示)分配了与前面注释中相同的GeneID。
  • 未从先前注释映射的基因和由Gnomon模型表示的基因只分配新的GeneID。
  • 映射到联合注释组件上等效位置的基因被分配相同的GeneID(参见多个部件的注释).

注释的打包

注释管道的输出标有注释发布号。对于给定的注释,在整个NCBI中使用有机体和注释发布号的组合(例如,NCBI智人注释发布105),作为唯一识别来自同一注释运行的注释产品的方法。

注释管道输出由以基因、RNA和蛋白质为特征注释的组装基因组的支架和染色体,以及RNA和蛋白质本身组成。为RefSeq支架和染色体分配带有NW_或NT_和NC_前缀的材料,并将其提交给核苷酸数据库,并标注特征。提交给序列数据库的序列被标记为注释发布(图5).

图5。由真核基因组注释管道注释的支架的典型RefSeq记录。

图5。

由真核基因组注释管道注释的支架的典型RefSeq记录。(A) 指向RefSeq BioProject和RefSeq程序集的链接。(B) 注释字段以REFSEQ INFORMATION为前缀,并提供到GenBank序列的链接(更多…)

注释的产品可能包括已知的RefSeq转录物和蛋白质、Gnomon靶向模型和tRNAscan-SE预测的tRNA基因。通过最佳模型选择过程保留的Gnomon模型提交给核苷酸、蛋白质和基因数据库,tRNAs基因提交给基因。已知的RefSeq特征独立于注释过程进行更新,不会重新提交到序列或基因数据库(参见接入段(见下文)。注释的来源可以从基因组序列上注释的特征注释中推断出来(表1).

表1。支架和染色体上标注的特征指南。

表1。

支架和染色体上标注的特征指南。注释提供了有关特征原点的信息*对于预测模型,注释也出现在单个注释产品的记录中。

对于Gnomon产生的转录物和蛋白质,序列记录为预测模型提供了一定程度的支持。对于低质量蛋白质,记录还详细说明了模型和基因组序列之间的差异,基因组序列是为了补偿组装中可能出现的错误而引入的(图6).

图6。Gnomon预测的转录模型的RefSeq记录示例。

图6。

Gnomon预测的转录物模型的RefSeq记录示例。(A) 定义行中的标题前缀为PREDICTED(B)。注释字段前缀为MODEL REFSEQ,表示基因预测方法,并参考基因组(更多…)

如前所述在上面,已知的RefSeq转录本可能与基因组不完全对齐,但可能被选为注释产品集合中的基因代表。基因组序列记录中记录了这些差异(图7).

图7。基因组支架上注释的已知RefSeq转录本的示例。

图7。

基因组支架上注释的已知RefSeq转录本的示例。(A) 该基因上的注释表明,该基因是通过在基因组上投影最合适的RefSeq转录本来注释的。(B) 该推断确定了RefSeq转录本来自(更多…)

特殊注意事项

多个部件的注释

当一个给定的有机体有多个高质量的组件可用时,所有的注释都是协同完成的。为了确保一致地注释多个部件中的匹配区域,在注释之前使用基于BLAST的过程将部件相互映射。倒数最佳匹配用于对两个程序集上的相应区域进行配对。

如上所述图8,这些成对区域允许在两个集合上对给定转录本的对齐进行坐标排序。

图8。跨多个装配的路线排序。

图8。

跨多个装配的路线排序。给定成绩单的对齐在Assemby 1中以红色表示,在Assembly 2中以绿色表示。如果基因组比对存在于含有转录比对的两个区域之间(浅蓝色平行四边形),(更多…)

这种策略确保映射的区域以相同的方式注释,并且相同的基因在两个集合上分配相同的GeneID和位点类型。它减少了给定生物体基因集的冗余,并有助于在多个集合之间导航。请注意,对于Gnomon模型,虽然单个GeneID代表多个集合中的位点,但每个单独的集合都实例化了不同的转录和蛋白质加入。

有关装配-装配对齐过程的更多信息,请参阅重新映射服务一章。

重新标注

特别关注从注释的一个版本到下一个版本的模型和基因跟踪。在重叠的基因组位置注释的先前和当前模型被识别,并且在将GeneID分配给新模型时考虑先前模型的基因座类型和GeneID。如果在两轮注释之间更新了部件,则部件将彼此对齐,并且对齐用于匹配映射区域中的先前模型和当前模型。

访问

每晚在真核生物基因组注释管道公共页面上更新正在运行或最近完成的注释状态:

http://www.ncbi.nlm.nih.gov/genome/annotation_euk/status/

此页面提供指向特定注释版本的数据可用的资源的链接(图9).

图9。注释运行的公共报告(A)正在进行,最近完成的注释运行(B)。

图9。

注释运行的公共报告(A)正在进行,最近完成的注释运行(B)。表中的信息链接到分类数据库(物种)、集合数据库(RefSeq集合)和数据可用的资源(链接)。(更多…)

NCBI的真核生物注释管道的产品有多种资源(表2)包括:

表2。NCBI资源中注释产品的可用性。

表2。

NCBI资源中注释产品的可用性。

未来发展:注释报告

真核基因组注释管道生产的最终产品的质量在很大程度上取决于组装的质量以及相同特异性或相近跨物种证据的数量和质量。

为了便于用户理解注释过程并为注释结果提供上下文,NCBI将于2013年底开始发布每个注释的报告。这些报告将包括注释的程序集的描述和注释产品的摘要计数。此外,还将提供中间统计数据,总结使用了哪些转录物和蛋白质集,以及证据与基因组的匹配程度。

工具书类

1
Kapustin Y,Souvorov A,Tatusova T,Lipman D.Splign:计算拼接比对的算法,并识别paralogs。生物直接。2008年5月21日;:20.[PMC免费文章:PMC2440734] [公共医学: 18495041]
2
普鲁伊特KD、塔图索娃T、布朗GR、马格洛特DR。核酸研究。2012年1月;40(数据库问题):D130–5。[PMC免费文章:PMC3245008] [公共医学: 22121212]
三。
Altschul SF、Gish W、Miller W、Myers EW、Lipman DJ。基本本地对齐搜索工具。分子生物学杂志。1990年10月5日;215(3):403–10.[公共医学: 2231712]
4
Yeh RF、Lim LP、Burge CB。人类基因组中同源基因结构的计算推断。基因组研究。2001年5月;11(5):803–816.[PMC免费文章:下午311055] [公共医学: 11337476]
5
Burge C,Karlin S.人类基因组DNA中完整基因结构的预测。分子生物学杂志。1997年4月25日;268(1):78–94.[公共医学: 9149143]
6.
Wheelan SJ、Church DM、Ostell JM。蜘蛛侠:mRNA-基因组比对工具。基因组研究。2001年11月;11(11):1952–1957.[PMC免费文章:PMC311166] [公共医学: 11691860]
7.
Needleman SB,Wunsch CD。一种适用于搜索两种蛋白质氨基酸序列相似性的通用方法。分子生物学杂志。1970年3月;48(3):443–53.[公共医学: 5420325]
8
Henikoff S、Henikoft JG。蛋白质块的氨基酸替代矩阵。美国国家科学院院刊。1992年11月15日;89(22):10915–9.[PMC免费文章:PMC50453] [公共医学: 1438297]
9
Haas BJ、Delcher AL、Mount SM、Wortman JR、Smith RK JR、Hannick LI、Maiti R、Ronning CM、Rusch DB、Town CD、Salzberg SL、White O。使用最大转录比对组合改进拟南芥基因组注释。核酸研究。2003年10月1日;31(19):5654–66.[PMC免费文章:PMC206470] [公共医学: 14500829]
10
Staden R.在核酸序列中定位信号的计算机方法。核酸研究。1984年1月11日;12(第1部分第2部分):505-19。[PMC免费文章:PMC321067] [公共医学: 6364039]
11
Zhang MQ,Marr TG。拼接信号分析的加权阵列方法。计算机在生物科学中的应用。计算应用生物科学。1993年10月;9(5):499–509.[公共医学: 8293321]
12.
Kozak M.真核生物mRNA翻译起始位点上游序列的编译和分析。核酸研究。1984年1月25日;12(2):857–72.[PMC免费文章:PMC318541] [公共医学: 6694911]
13
Borodovsky M,McIninch J.GenMark:两条DNA链的平行基因识别。计算机与化学。1993;17(2):123–33.
14
15
Smit AFA、Hubley R、Green P.RepeatMasker Open-3.0。1996–2004.网址:http://www​.repeatmasker.org.
16
Lowe TM和Eddy SR.Nucleic Acids Res.tRNAscan-SE:一个改进检测基因组序列中转移RNA基因的程序。1997年3月1日;25(5):955-64. [PMC免费文章:PMC146525] [公共医学: 9023104]
17
Griffiths-Jones S.微RNA注册。核酸研究。2004年1月1日;32(数据库问题):D109–11。[PMC免费文章:下午308757] [公共医学: 14681370]

意见

最近的活动

您的浏览活动为空。

活动录制已关闭。

重新打开录制

查看更多。。。