美国国旗

美国政府的官方网站

NCBI RefSeq选择

介绍

RefSeq Select数据集由每个蛋白编码基因的代表性或“Select”转录本组成。成绩单由基于多种选择标准的自动管道选择,包括临床数据库中的先前使用(例如。,基因座参考基因组)、转录表达、编码区的保存、转录和蛋白质长度以及与瑞士-普罗特典型亚型。RefSeq-Select转录物通常得到存档数据的良好支持,表达良好,保守,代表了基因的生物学特性。

理论基础

由于选择性剪接,许多基因由多个RefSeq转录物/蛋白质表示。这些不同的转录物可能具有不同的生物学特性,例如差异表达或产生功能不同的蛋白质亚型,而其他转录物可能代表相对罕见的形式,这些形式可能与功能相关,也可能与功能无关。对于比较基因组学等分析来说,这种复杂性是有问题的,因为比较基因组学通常只需要每个基因一个蛋白质,或者在首选集中数据集的情况下交换临床变异数据。RefSeq Select为这些目的识别合适的RefSeq转录物和蛋白质。

分类范围

目前,RefSeq Select可用于RefSeq人类和小鼠注释以及原核生物基因组。未来,我们计划为其他真核生物提供RefSeq-Select集合,包括具有官方命名法的关键模式生物和分类群。

原核生物中的RefSeq选择

2020年8月,RefSeq Select集合的范围扩大到包括原核基因组。对于原核生物,RefSeq Select被定义为注释在RefSeq参考和代表基因组在大多数情况下,每个原核生物物种只有一个参考或代表性基因组。原核生物的RefSeq Select是探索特异性蛋白质多样性的有用方法,尤其是核心蛋白质,但要注意,某些物种可能不包括某些菌株特异性的辅助蛋白质。RefSeq-Select数据集每天都会更新,因为原核生物代表性基因组的选择会被细化,单个基因组也会被重新注释。它目前包括约三分之一的原核生物RefSeq蛋白数据集。目前,可以通过Entez过滤器(“细菌”[有机体]或“古细菌”[有机物]或原核生物[所有字段])和NCBI中的refseq_Select[过滤器]访问Select数据蛋白质数据库。访问数据的其他方法,包括Blast数据库,将很快可用。

真核生物中的RefSeq选择

目前,人类和小鼠RefSeq注释中的所有蛋白质编码基因都在RefSeq Select集合的范围内。只有已知的(管理的,带有NM_前缀)转录本被指定为RefSeq Select。注:人类RefSeq Select转录本是MANE(NCBI和EMBL-EBI的匹配注释)项目的组成部分。请参见MANE项目部分了解详细信息。

接下来的三节描述了在真核生物注释中选择RefSeq Select转录本的过程。

选择RefSeq Select转录本

NCBI开发了一个管道,根据多个分级评分标准选择RefSeq Select转录本。一些标准特定于人类基因组,例如,转录本的先前分配作为参考SeqGene为公共LRG中包含的基因设置(基因座参考基因组)设置。其他标准,如通过RNA-seq内含子跨越比对计算的表达分数,适用于范围内的所有分类群。图1提供了RefSeq Select管道的简化轮廓。计算管道由RefSeq小组中的专家策展人的输入和QA进行补充,他们帮助保持RefSeq Select转录本的质量,并在管道选择可能不理想的复杂位点和其他基因中进行转录选择。

RefSeq选择流程图

图1。选择RefSeq Select转录本的工作流

RefSeq Select标准的描述(基于人工RefSeq选择集)

  1. Curated RefSeq Select pick:如果馆长确定已知RefSeq是RefSeq选择集最适合的抄本,则该抄本将由Select管道选择并覆盖所有其他标准。
  2. 先前用作临床标准:如果已知的RefSeq已在公共LRG记录中用作参考转录本,则它将是默认的RefSeq Select选项。如果多个RefSeq符合此标准,则其他Select标准将仅应用于符合条件的成绩单,以从中选择最佳。
  3. Curated(NM_,NP_,NR_)vs.non-culated(XM_,XP_,XR_)RefSeq:在人和鼠RefSeq Select集合中,culated的(或“已知”的)RefSeq(请参见关于RefSeq)默认情况下选择。
  4. 接入类型(NM_/XM_与NR_/XR_):对于蛋白质编码基因,优先考虑编码(NM_,XM_)非编码(NR_,XR_,RefSeqs)。
  5. 转录本编码区的保守性:编码区的进化保守性计算基于PhyloCSF公司数据。PhyloCSF是一种通过对代表一系列分类群的多种生物的编码区进行比对来确定单个碱基的蛋白质编码潜力的方法。根据密码子替换频率计算PhyloCSF得分。阳性PhyloCSF分数表明编码区(CDS)中的核苷酸保持不变。优先选择CDS中得分基础更为积极的成绩单,将得分相近的成绩单视为同等成绩单(最大得分在90-bp以内)。
  6. 转录表达:根据单个内含子的“读取得分”(跨越内含子的短读RNA-seq序列的数量,也称为“分割读取”)计算每个转录的复合表达得分,这是基于RefSeq注释中使用的短读RNA-seq研究和可用的长读数据的组合。与相邻内含子相比,该分数惩罚了未被充分表达的内含子,并支持更多的剪接作为支持全长转录的代理。具有相似表达分数的转录本被认为是同等表达的。
  7. 与Swiss-Prot标准亚型匹配的蛋白质:编码与Swiss-Prot标准异构体匹配的蛋白质的转录本。
  8. CAGE表达:该标准适用于从不同转录起始位点(TSS)或启动子产生转录物的基因。转录物的表达水平由一种称为基因表达帽分析(CAGE)的高通量测序技术指示,该技术从生物样本中生成mRNA池5'端的全基因组快照。RefSeq Select管道利用RefSeq处理的CAGE集群,这些CAGE集群是根据CAGE集群和TSS数据计算的,可从FANTOM财团。与CAGE得分最高的CAGE集群相关的成绩单(总标签数),以及与得分在最大CAGE得分70%以内的CAGE群集相关的成册,被认为是同等表达的。
  9. PhyloCSF阴性评分:PhyloCFF阴性评分可能表示CDS碱基未被检测到。负分数最低的蛋白质编码转录本优先于其他转录本。注:PhyloCSF在某些情况下有局限性,例如外显子很短。此类案件推迟到人工审查。
  10. 最大蛋白质长度:该标准选择编码最长蛋白质的转录本。
  11. 核苷酸长度:此标准选择最长的转录本。
  12. 最小转录表达:与基因相关的所有转录本中表达得分最低的转录本。
  13. 最早加入:当多份成绩单对上述所有标准的得分相同时,此标准意味着充当“平局者”。

成绩单如何评分?

每个转录本都会根据上述标准获得一个二进制分数。然后对一组基因的可选转录本进行分层分析,以确定得分高于其他转录本的单个转录本。例如,如果所有编码转录本都有具有类似PhyloCSF分数的CDSe(标准#5),但其中一个表达明显更好(标准#6),则选择该转录本。

如何访问RefSeq Select转录本?

根据所查看的NCBI资源,有多个标记来区分RefSeq Select转录本和基因的其他转录本。

NCBI基因汇总框

返回一个基因摘要框,以响应上的有机体基因查询(例如“小鼠Igf1”)NCBI主页和NCBI序列数据库。基因摘要框包括可扩展的“RefSeq转录物”和“RefSeq蛋白质”部分,最多列出五个精选的RefSeq。RefSeq Select转录本或蛋白质被标记并排序到此列表的顶部(图2).

更新的KIS传感器

图2。搜索结果基因摘要页面(展开转录标签)显示RefSeq Select标记。

RefSeq平面文件关键字

RefSeq平面文件在关键字部分包含“RefSeq Select”(图3). 在人类RefSeq Select转录本的情况下,可能会出现“MANE Select”而不是“RefSeq选择”MANE Select”是与EMBL-EBI合作开发的人工“RefSeq Select”数据集的子集(请参见MANE项目第节)。

平面文件关键字

图3。NM_001111275.2(小鼠基因Igf1)平面文件视图的一部分,在关键字部分显示“RefSeq Select”标记(屏幕截图中带下划线)。

RefSeq平面文件属性

RefSeq Select转录本的RefSeq平面文件包含一个属性部分,其中“RefSeq Select criteria”属性列出了选择转录本的主要标准(图4)

平面文件标准

图4。NM_001111275.2平面文件视图的一部分,显示“RefSeq属性”部分中的“RefSeq-Select criteria”属性,以及导致将此转录本选择为小鼠基因Igf1的RefSeq Select的选择标准。

RefSeq Select条件可以是以下一个或多个条件:

  1. 人工断言:根据该基因可用的综合证据,该转录本被手动选择为RefSeq select
  2. 保守性:基于CDS中PhyloCSF阳性碱基,该转录本与其他RefSeq转录本相当或更好,并且在基因最大值的90-bp范围内(选择标准#5)
  3. 表达:根据内含子剪接数据,该转录本与其他RefSeq转录本相当或更好(选择标准#6)
  4. 最长蛋白质:该蛋白质与基因的所有其他RefSeq蛋白质一样长或更长(选择标准#10)
  5. 单蛋白编码转录本:该转录本是目前为该基因注释的唯一蛋白质编码转录本
  6. 计算证据:选择基于除上述标准以外的其他标准

注:中描述的其他标准选择标准上述部分也可能影响RefSeq Select的转录本选择,但当前未在平面文件中报告。

可以使用Entrez RefSeq Select过滤器在Nucleotide数据库中搜索RefSeq选择附件。例如,“PALM[gene]AND Refseq_select[filter]”将返回NM_002579.3的核苷酸记录,即该基因的Refseq select转录本。可以使用Entrez查询“智人”[Organism]和RefSeq_Select[filter]”提取人类RefSeq Select访问的完整列表,包括“MANE Select”数据集中的子集。然后可以使用Nucleotide结果页面顶部的“发送到”选项卡下载列表并将其保存到文件中。

RefSeq注释文件

注释可通过以下方式获得FTP文件.GFF和GTF文件中的第9列在与mRNA、CDS和外显子特征相关的行中包含“RefSeq Select”或“MANE Select”标记属性(标记=GFF3中的MANE选择,或GTF中的标记“MANE-Select”)。

使用RefSeq Select

RefSeq Select集合是一组有代表性的转录本,这些转录本得到了实验数据的充分支持,旨在通过使用转录表达水平和编码区进化保守性等代理来代表基因的生物学。在选择转录本时,我们还尝试将RefSeq Select与代表一种或多种代表性/规范形式的其他数据库中的数据同步,例如Swiss-Prot规范亚型和Locaus reference Genomic(LRG)数据集中的参考转录本。因此,RefSeq Select转录本旨在作为基因在进化分析、比较基因组学和临床变异报告等研究和应用中的代表性转录本,这些研究和应用可能只需要每个基因使用一个转录本。它消除了用户应用自己的标准(不同用户之间可能不一致)来选择具有代表性的成绩单的需要。作为警告,RefSeq Select集合推荐用于可能需要每个基因一个转录本的应用;但它并没有降低剩余转录物和蛋白质的重要性。如果用户需要全面了解基因的转录多样性,则应检查整套RefSeq转录本和蛋白质。

MANE项目

2018年,NCBI和EMBL-EBI公司(欧洲分子生物学实验室-欧洲生物信息学研究所)宣布了一个新的合作项目,名为NCBI和EMBL-EBI(MANE)的匹配注释。该项目旨在为每个人类蛋白质编码基因提供一组匹配的转录本。这组抄本在RefSeq和Ensembl中的注释相同-GENCODE(通用代码)基因集。作为该项目的第一步,MANE Select集合现已可用,它由每个人类蛋白编码基因的单个代表或“Select”转录本组成。目前,MANE Select是一个涵盖80%以上蛋白质编码基因的β集。明年,NCBI和EBI将加入这一行列,目标是实现接近100%的蛋白质编码基因覆盖率。MANE项目的详细信息可用在这里.

RefSeq Select和MANE Select之间的关系

MANE Select数据集是RefSeq Select的子集。对于给定的人类蛋白编码基因,当RefSeq Select转录本与集成“Select”转录本匹配并包含在公共MANE集合中时,该转录本被指定为“MANE Select”。对于MANE Select转录本,RefSeq平面文件中的关键字“RefSeq Select”替换为“MANE选择”(图5).

CCNE1 MANE选择

图5。NM_012384.5(基因GMEB2)的平面文件视图的一部分,在关键字部分显示“MANE Select”标记

此外,RefSeq平面文件中的属性“MANE Ensembl match”提供匹配Ensemble转录本和蛋白质的标识符(图6.

CCNE1 MANE匹配

图6。NM_001238.4(基因CCNE1)的平面文件视图的一部分,显示“MANE Ensembl match”属性以及匹配的Ensemble转录本和蛋白质标识符。

反馈

我们欢迎您对RefSeq Select项目的反馈。请使用页面右下角的黄色垂直反馈选项卡向我们发送您的评论和建议。

上次更新时间:2022-07-01T14:26:33Z