美国国旗

美国政府的官方网站

NCBI书架。美国国立卫生研究院国家医学图书馆的一项服务。

RefSeq帮助[Internet]。贝塞斯达(医学博士):美国国家生物技术信息中心;2011-.

RefSeq帮助封面

RefSeq帮助[Internet]。

显示详细信息

RefSeq常见问题(FAQ)

,博士。,,博士。,,博士,以及,博士。

作者信息和附属机构

创建:上次更新时间:2020年1月31日.

预计阅读时间:31分钟

RefSeq的一般信息

什么是参考序列(RefSeq)?

NCBI参考序列(RefSeq)项目为许多生物体提供序列记录和相关信息,并为医学、功能和比较研究提供基线。国际核苷酸序列数据库合作组织(INSDC,由GenBank、欧洲核苷酸档案馆和日本DNA数据库组成)代表了所有序列的档案库,而RefSeq数据库是一组非冗余的参考标准,源自INSDC数据库,其中包括染色体、,完整的基因组分子(细胞器基因组、病毒、质粒)、中间组装的基因组连接物、精选的基因组区域、mRNA、RNA和蛋白质。请参阅参考序列(RefSeq)项目有关更多详细信息,请参阅NCBI手册的第章。

RefSeq记录的特点是什么?

RefSeq记录与INSDC记录的区别在于:

加入格式:RefSeq记录最显著的特征是独特的登录号格式,它以两个字符开头,后跟下划线(例如,NP_)。INSDC登录号从不包含下划线。请参阅的描述RefSeq登录前缀.

备注:RefSeq记录包含一个COMMENT部分,其中包含术语RefSeq并标识记录地位、用于派生RefSeq序列的源登录(如果适用)和协作组(如果有)。

术语:RefSeq记录在可用的情况下始终使用基因特征的官方命名法。当物种或单个位点没有官方命名法时,名称通常来源于用于生成RefSeq记录的INSDC序列或出版物。蛋白质名称来源于UniProtKB、酶委员会或NCBI员工管理。NCBI工作人员的诅咒还为一些记录应用来自源组合的名称和替代别名。

数据库引用(_X):在基因或其他特征上包含db_xrefs提供了到其他信息源的链接,例如OMIM、gene、UniProt、CCDS、CDD和模型生物数据库。

DBSOURCE公司:蛋白质记录显示REFSEQ为DBSOURCE

如何提供RefSeq记录?

不同的过程用于根据生物体生成RefSeq记录。大多数RefSeq核苷酸记录仅来自提交给国际核苷酸序列数据库合作组织(INSDC)存档的一级序列数据。蛋白质序列记录表示带注释的开放阅读框架的概念翻译(基于核苷酸记录上提供的或通过分析推断的管理、协作、注释)。用于创建RefSeq记录的不同过程包括:

恩特雷兹基因组:该流程提供了基因组、RNA和蛋白质RefSeq记录,这些记录来自提交给INSDC的组装和注释的全基因组序列数据。该管道提供了所有细菌、病毒、细胞器和质粒RefSeq记录,以及一些真核生物基因组的记录,包括植物和真菌,因为数据已公开。蛋白质和转录记录是根据提交的基因组序列注释实例化的,或者是通过NCBI的细菌或真核生物计算注释过程预测的。

真核基因组注释管道:此过程流是一种自动计算方法,它提供提交的基因组集合的副本,以便提供带注释的基因组。RefSeq记录可能包括染色体、中间组装支架和连接物、转录物和蛋白质。根据物种的不同,基因组注释可能反映了基于转录的RefSeq记录(如下)和计算预测的转录物和蛋白质的混合,以及转录物或蛋白质比对的不同支持水平。请参阅NCBI真核基因组注释管道了解更多详细信息。

Curation支持的RefSeq管道:NCBI工作人员科学家以多种方式提供策展支持。工作人员利用蛋白质簇数据库对同源蛋白质应用一致的命名法,与合作小组合作更好地表示从整个基因组到同源基因的数据,并对用户报告序列或名称改进的反馈作出反应。

NCBI管理人员还与开发人员密切合作,为根据Bilateria公司节点。转录和蛋白质记录主要来自提交给INSDC的cDNA记录。该过程流程由生物信息学和大量人工管理相结合提供支持。

协作:一些RefSeq记录由协作组提供。不同的合作为基因家族或单个基因提供了一些完全注释的基因组或记录。与官方命名组、模型生物数据库或其他数据库组的合作也提供描述性信息,包括基因符号、名称、出版物、地图数据、特征注释、数据库交叉引用等。

Curated RefSeq记录有以下几种地位水平和表示我们对基因及其转录物和蛋白质的当前知识的汇编。

在哪里可以找到有关NCBI RefSeq项目的更多信息?

有关RefSeq项目的其他信息,请参见NCBI手册(第18章),的参考序列网站和出版物[公共医学;公共医学中心].

如何访问RefSeq记录?

可以通过查询登录号、符号或locus_tag、名称或使用Entrez Limits和Property术语来检索RefSeq记录。RefSeq记录可以通过以下几种NCBI资源访问,包括BLAST、Entrez(核苷酸、蛋白质、基因、蛋白质簇、生物系统)、基因组数据查看器和FTP:

爆炸:转录、蛋白质和“基因组区”(NG_登录前缀)记录包含在核苷酸和蛋白质非冗余(nr)数据库中。RefSeq记录仅在Reference mRNA序列或Reference蛋白质数据库中可用。参考基因组序列数据库或通过特定于生物体的BLAST页面提供针对RefSeq基因组记录的BLAST。

Entrez公司:Entrez核苷酸和蛋白质文本查询结果(例如,通过基因符号)可能包括INSDC和RefSeq记录。提供了一个过滤器链接(位于结果页面的右上方区域),用于将显示限制为RefSeq子集。或者,可以使用“限制”页面或使用“srcdb_RefSeq[Property]”等属性进行查询,将查询格式化为仅返回RefSeq记录。Gene还支持具有此RefSeq属性的查询以及RefSeq材料的查询,并且Gene报告包括关于注释的和当前的RefSeq记录的信息,以及查看基因组记录上注释的RefSeq转录物的外显子坐标的显示选项(参见Gene表显示)。Entrez基因组提供与RefSeq染色体或大型连锁群的链接。请参阅Entrez帮助有关构造查询的一般信息。

基因组数据查看器:NCBI Genome Data Viewer支持按RefSeq登录号进行查询,并在注释基因组可用时包含指向其他数据库中RefSeq记录的链接。

资金转移定价:完整的RefSeq集合以每两个月发布一次的形式分发给FTP。在发布周期之间提供每日中间更新。对于某些物种,包括RefSeq转录本和蛋白质收集更新更频繁的人类和小鼠,还提供了额外的每周报告。RefSeq核苷酸和蛋白质记录可从/参考序列ftp目录。有关目录内容和文件格式的描述,请参阅README文件。NCBI对RefSeq集合中代表的基因组的注释也可作为个体提供GFF3型文件来自基因组FTP站点。详细介绍了有关FTP访问RefSeq集合的更多信息在下面.

XM_和NM_的加入有什么区别?

以前缀XM_(mRNA)、XR_(非编码RNA)和XP_(蛋白质)开头的登录号是模型RefSeq,由NCBI的基因组注释管道生成,或从提交给INSDC的计算注释中复制。这些RefSeq记录源自基因组序列,具有不同水平的转录物或蛋白质同源性支持。它们代表NCBI RefSeq连接上注释的预测转录物和蛋白质,可能与INSDC mRNA提交或随后整理的RefSeq记录不同(带有NM_、NR_或NP_加入前缀)。这些差异可能反映出实际的序列变异(多态性),或可用基因组序列中的错误或缺口。应通过将模型RefSeq记录与基因、相关序列和BLAST报告中可用的其他序列信息进行比较,进一步评估其支持性。

基因组注释管道是自动化的,其预测产品可能需要或不需要人工管理,但数据可能会定期刷新。

可以找到RefSeq附加前缀的完整描述在这里.

什么是NG_加入,为什么要加入?

以前缀NG_开头的登录号表示为某些生物体提供的基因组序列记录,以表示非转录假基因或基因组区域。

伪基因记录:代表非转录假基因的基因组记录提供给NCBI真核基因组注释管道范围内的生物体,或具有提供假基因命名的官方命名组的生物体。这些记录是通过管理或与命名小组合作定义的伪基因.org.

基因组区域记录:基因组记录用于表示参考SeqGene基因座、具有不同基因含量的单倍型、支持系统发育分类的标准,或难以通过NCBI的真核生物基因组注释管道准确注释的基因组区域,例如近同源同源同源基因、T细胞受体基因座和免疫球蛋白基因座。

使用什么序列定义RefSeq?

NCBI根据INSDC提供的序列数据创建并更新RefSeq记录。RefSeq平面文件记录上的COMMENT字段显示用作源序列的INSDC登录号;然而,对于某些生物,引用的信息是注释的基因组记录或注释基因组记录中的locustag标识符。请注意,INSDC基因组记录可能包括mRNA注释,但与蛋白质注释不同,它们不是作为附加记录实例化的。相反,这些转录本明确表示为附加的RefSeq记录。

对于生物Bilateria公司节点是NCBI管理支持管道的一部分,包括人类、老鼠、老鼠、奶牛和斑马鱼,最初选择的源INSDC登录必须用完整的编码序列进行注释。如果要选择多个登录,通常会选择UTR序列较长的登录。

参考序列记录并不代表基因的历史“首次测序”记录,尽管对于可用序列数据非常有限的基因来说,这通常是正确的。临时记录可以自动更新,以使用更长的INSDC源核苷酸序列,该序列在RefSeq记录被完全审查之前可用。虽然临时RefSeq记录确实代表单个INSDC源核苷酸序列地位验证或审查)旨在代表整个研究团体而不是任何一个实验室所提供的知识的当前状态,并且可以根据多个INSDC序列来构建。因此,由NCBI自动管道手动管理或生成的RefSeq记录可能与INSDC中的转录本和蛋白质记录匹配,也可能不匹配。

用于构建RefSeq的所有INSDC提交文件都列在平面文件记录的COMMENT字段中。COMMENT字段下方显示的PRIMARY块提供RefSeq记录(RefSeq_SPAN)上的特定坐标以及每个INSDC提交的相应坐标(PRIMARY_IDENTIFIER和PRIMARY_SPAN。这些信息是为脊椎动物和少数其他物种提供的。

RefSeq和GenBank之间有什么区别?

GenBank档案序列数据库包括从各个实验室和大规模测序项目提交的公开可用的DNA序列。GenBank是国际核苷酸序列数据库合作组织(INSDC)、欧洲核苷酸档案馆和日本DNA数据库(DDBJ)的一部分。提交的序列数据每天在三个合作者之间交换,以实现全球范围的全面覆盖。作为一个档案数据库,GenBank对于某些基因座来说可能是非常多余的。GenBank序列记录归原始提交人所有,不得由第三方更改。

RefSeq序列不是INSDC的一部分,而是从INSDC序列中派生出来的,以提供代表我们当前已知基因知识的非冗余精选数据。一些记录包括从多个INSDC记录中收集的序列信息。记录可能包括序列、描述性信息、出版物或特征注释,这些信息在任何单个INSDC记录中都不可用。RefSeq记录归NCBI所有,因此可以根据需要进行更新,以维护当前注释或合并其他信息。另请参阅附录在《NCBI手册》GenBank章节中提供。

另一个区别是,RefSeq基因组记录上注释的转录物和蛋白质被实例化为单独的记录;相反,GenBank只实例化基因组序列记录上注释的蛋白质。

RefSeq登录的顺序与GenBank登录的顺序相同。一个会被移除吗?

否,这两个记录将继续可用。RefSeq和GenBank(INSDC的成员)是单独的数据库,这两个数据库都可以在NCBI上使用。

RefSeq记录通常与它们所基于的源INSDC记录非常相似。正在进行的自动处理,以集成来自外部来源的额外信息,例如命名法,以及NCBI工作人员的管理,可能会导致更新的RefSeq记录,其中包含更多序列数据、生物注释和参考,此时,原始源INSDC记录和相应的RefSeq条目可能会大不相同。因此,管理的RefSeq记录可能在顺序或描述性信息上与INSDC记录不同,并且可能包含来自多个来源的信息。

如何快速识别RefSeq记录?

通过在登录号中包含下划线,可以轻松识别RefSeq记录。

查询Entrez Nucleotide或Protein将以默认的Summary格式返回结果,该格式在右上角包含一个Filter选项,以将结果限制为仅RefSeq记录。

FASTA文件的格式化文本行包括RefSeq访问名之前的术语“ref”。版本号,其中“ref“表示数据库源为RefSeq。例如,

>参考|NM_000202.5号|智人iduronate 2-硫酸酯酶(IDS),转录变体1,mRNA

如果RefSeq是非冗余数据库,为什么我的BLAST查询会返回多个RefSeq登录的点击数?

对多个RefSeq记录进行BLAST点击并不奇怪。根据您的查询词和BLAST参数,您可能会得到包括替代剪接变体、旁记录和正交记录的结果。此外,还为某些物种提供了特定基因区域的替代菌株特定记录或基因组记录。

如何引用RefSeq项目、特定于物种的数据集或单个RefSeq记录?

在核酸研究数据库期刊中引用RefSeq登录号(带版本)、NCBI手册或最新RefSeq项目文章是合适的。

引用加入号:理想情况下,所引用的任何加入都应注明加入和版本号。如果序列已随时间更新,并且记录的版本号大于“1”,则仅引用登录号并不能提供序列的特定指示。请注意,登录号格式包含下划线字符(“_”),因此引用没有下划线的RefSeq登录是不准确的(、NM 000014.4或NM000014.4是无效引用)。正确的引文是RefSeq AccessionNM_000014.4号.

要引用特定物种的数据集,请执行以下操作:当您使用从RefSeq发布FTP站点(/RefSeq/release/)提取的数据集时,请引用RefSeq FTP版本号。如果数据集定义与RefSeq版本不完全对应,则可以指定用于定义数据集和集合日期的特定方法。

引用项目:请引用NCBI手册作为该项目最新和最全面的描述。如果期刊不允许引用电子图书,请引用《核酸研究数据库》期刊上RefSeq的文章。

引用整个手册:NCBI手册[互联网]。贝塞斯达(医学博士):美国国家医学图书馆,国家生物技术信息中心;2002年10月起提供http://www.ncbi.nlm.nih.gov/books/NBK21101

引用RefSeq章节(第18章):NCBI手册[互联网]。贝塞斯达(医学博士):美国国家医学图书馆,国家生物技术信息中心;2002年10月,第18章,参考序列(RefSeq)项目。可从以下位置获得http://www.ncbi.nlm.nih.gov/books/NBK21091

引用RefSeq NAR数据库问题文章:O'Leary NA、Wright MW、Brister JR、Ciufo S、Haddad D、McVeigh R、Rajput B、Robbertse B、Smith-White B、Ako-Adjei D、Astashyn A、Badretdin A、Bao Y、Blinkova O、Brover B、Chetvernin V、Choi J、Cox E、Ermolaeva O、Farrell CM、Goldfarb T、Gupta T、Haft D、Hatcher E、Hlavina W、Joardar VS、Kodali VK、Li W、Maglott D、Masterson P、McGarvey KM、,Murphy MR、O'Neill K、Pujar S、Rangwala SH、Rausch D、Riddick LD、Schoch C、Shkeda A、Storz SS、Sun H、Thibaud-Nissen F、Tolstoy I、Tully RE、Vatsan AR、Wallin C、Webb D、Wu W、Landrum MJ、Kimchi A、Tatusova T、DiCuccio M、Kits P、Murphy-TD、Pruitt KD。NCBI的参考序列(RefSeq)数据库:当前状态、分类扩展和功能注释。核酸研究2016年1月4日;44(D1):D733-45。

如何评估对RefSeq转录物或蛋白质的支持?

Refseq转录本或蛋白质的支持信息最好通过评估BLAST查询的结果来确定。

对于在NCBI的基因组数据查看器中显示有注释基因组的生物体,支持转录本可以在基因组序列的上下文中对齐和可视化;使用“地图和选项”对话框添加一个或多个预定义的成绩单集。

还提供预计算报告,包括

GenPept蛋白质记录右侧报告了相同的蛋白质输入。

对于人类和小鼠,RefSeq转录本记录可能包含结构化注释,明确指示支持其外显子组合的INSDC转录本,当使用比对程序与参考基因组组合对齐时拆分(Splign)。最多显示两份支持记录。结构化注释位于GenBank格式记录上comment块的底部。

例如,NM_053271.2号

##证据-数据-启动##

成绩单_exon_combination::AB021131.1号[生态:0000332]

##证据-数据-最终##

如果无法获得完整转录本外显子组合的支持证据(例如,RefSeq转录本具有从部分但一致剪接的INSDC转录本衍生的末端未翻译区域),则只报告编码序列外显子结合的支持证据。

例如,NM_003181.3号

##证据-数据-启动##

CDS_exon组合:AJ001699.1标准【ECO:0000331】

##证据-数据-最终##

引用的证据代码ECO:0000331和ECO:000332源自证据代码本体(ECO)词汇。

为什么没有为所有生物体或基因中所有可用的基因座制作RefSeq记录?

一系列因素影响着是否为生物体提供RefSeq记录,包括基因组集合的可用性和质量、该集合的注释、INSDC中cDNA序列的丰富性、该生物体与医学和研究界的相关性以及研究界的投入。

当序列提交给INSDC时,会创建核染色体、细胞器、细菌和病毒基因组以及天然质粒的基因组RefSeq记录。如果提交的全基因组序列没有注释,NCBI可以从其微生物或真核生物基因组注释管道中提供注释。

为基因中代表的位点提供RefSeq记录取决于位点类型和足够序列数据的可用性。并非Gene中的所有记录都在RefSeq项目的范围内。这包括免疫球蛋白、T细胞受体、大多数重复元素以及仅代表表型的记录。最后,未知基因座类型的记录不提供一个精选的RefSeq,但可以用计算预测模型表示。

为什么我最喜欢的基因的一些剪接变体在RefSeq集合中缺失?

当有实验和/或公开证据支持产品的全长性质时,提供代表交替剪接转录变体的RefSeq记录。当转录比对(与组装的基因组)表明存在交替剪接时,在缺乏全长支持的情况下,对于交替外显子的自然组合,不作任何假设。因此,交替拼接的产品在RefSeq集合中代表性不足。

虽然NM_和NR_ RefSeq记录可能是一组代表性不足的变体,但NCBI真核基因组注释管道生成的模型转录本(XM_和XR_)可能提供其他可能的变体转录本。查看特定真核生物基因的完整注释RefSeq记录的一种简单方法是转到基因记录并查看可定制的基因组注释图。

可以使用基因和RefSeq反馈表我们鼓励研究小组向INSDC提交代表选择性剪接转录物的一级序列数据。

为什么转录本RefSeq记录是从基因组序列而不是可用的转录本中生成的?

转录的RefSeq记录(带有NM_或NR_登录前缀)可以部分或全部从INSDC中可用的基因组材料中创建,原因如下:1)代表被认为比在转录数据中观察到的更具代表性的多态性,2)改进RefSeq染色体上的注释和高度相关基因的contig材料,3)提供已知基因的RefSeq记录,其中转录数据缺失或不完整,但外显子结构可以从蛋白质比对或同源性推断,4)促进RefSeq管理(例如使用单个基因组范围扩展3'UTR,而不是多个短重叠EST)。

什么是RefSeqGene?

参考SeqGene,NCBI参考序列的子集(参考序列)项目,定义了特征明确的基因的基因组序列,作为报告突变、建立外显子和内含子编号约定以及定义其他生物显著变异坐标的稳定基础。RefSeq mRNA和蛋白质序列已经支持这些功能,但具有明显的弱点,即不能为侧翼或内含子序列提供明确的坐标。RefSeq染色体序列也支持这些功能,但坐标值太大,如果序列更新可能会改变。RefSeqGene序列通过为每个基因提供基因特异性基因组序列以及包括上游和下游侧翼区域来克服这些缺点。RefSeqGene集合中的序列旨在得到很好的支持,在自然界中存在,并且在可能的范围内,代表一个流行的“正常”等位基因。

通过添加,通过NCBI的核苷酸数据库搜索RefSeqGene记录RefSeqGene[关键字]到您的查询。

请参阅关于NCBI RefSeqGene项目了解更多信息。

什么是通读轨迹?它是如何表示的?

请参考Gene的常见问题文档。

基因组RefSeq记录上显示的NCBI注释可能分别包括mRNA和CDS特征的“未分类转录差异”和“未分类翻译差异”异常。这些例外是什么意思?

这些例外是指存在一个或多个序列差异(例如、错配、插入或删除),导致根据基因组RefSeq序列计算的转录物或翻译产物之间存在差异与相比由相应RefSeq mRNA或蛋白质记录表示的序列。当使用图形显示设置查看基因组RefSeq记录时,这些例外的mRNA和蛋白质特征用灰色背景遮蔽(图1). 使用图形显示的配置按钮添加参考序列路线轨迹,以查看差异的一般位置,并通过将光标放在参考序列路线上访问显示的其他信息。

图1。与斑马鱼15号染色体的基因组序列(NC_007126)进行比较。

图1。

与斑马鱼15号染色体的基因组序列(NC_007126.5)相比,RefSeq转录本NM_001013569.1包含不匹配,如灰色背景和“鼠标悬停”中发现的未分类转录差异异常所示(更多…)

序列差异可能是基因组序列错误或mRNA或蛋白质序列错误的结果。对于人类、小鼠和斑马鱼,其基因组序列由基因组参考联盟(GRC),基因组序列中的疑似错误可能是报道提交给GRC员工审查。对于其他生物体,错误可能会报告给提交组装的原始测序小组,以供未来更新时考虑。如果有证据支持,可以使用反馈表可在任何基因记录中找到。

FTP下载

有哪些数据可用于FTP下载?

完整的RefSeq集合以每两个月发布一次的形式在RefSeq FTP站点(ftp://ftp.ncbi.nlm.nih.gov/refseq文件/). 这个RefSeq FTP站点提供对整个RefSeq数据库的批量访问,数据以多种格式分布,并按主要分类或分子分组以及序列数据类型(DNA、RNA、蛋白质)进行组织。RefSeq版本包括有关该版本中包含的附件、自上一版本以来删除的附件、统计信息、安装的文件等的报告。此外RefSeq FTP站点显示特定的子集,并包括中不可用的内容基因组FTP站点包括:每日更新、RefSeqGene记录、病毒、细胞器(不属于整个基因组提交的一部分)、靶向核糖体RNA项目、RefSeq转录本和尚未在相应基因组上注释的蛋白质记录,以及自主非冗余蛋白质(WP_加入前缀)尚未在基因组上直接注释的。有关目录内容和文件格式的描述,请参阅README文件和RefSeq发行说明。发布将向参考通告电子邮件列表,位于RefSeq网站以及NCBI的脸书和推特账户。

在发布周期之间提供每日更新。对于频繁变化的信息类别(如引文),我们不提供全面的每日FTP更新。基因被认为是引文数据的主要来源,许多RefSeq记录只报告了可用数据的一个子集。

一些物种有额外的每周报告,包括人类鼠标,其中RefSeq转录本和蛋白质集合更新频率较高。每周更新人类RefSeqGene数据集也可用。

NCBI对RefSeq集合中表示的基因组的注释也可从基因组FTP站点基因组FTP目录('all'、'genbank'和'refseq')提供了基于新的或更新的原核或真核基因组组装或更新的全基因组注释的数据。随着时间的推移,该空间将包括历史和当前的装配和注释内容。此FTP站点面向基因组组装包,对应于NCBI的程序集资源(http://www.ncbi.nlm.nih.gov/assembly网站/). 这个基因组FTP站点有助于访问GenBank和RefSeq数据,包括基因组序列、组装结构细节、附加注释的转录本和附加注释的蛋白质。不属于基因组注释一部分的RefSeq记录将不包括在此处。请参阅基因组FTP常见问题更多信息,请访问www.ncbi.nlm.nih.gov/genome/doc/ftpfaq/。

为什么RefSeq版本中按顺序编号的文件中存在间隙?

RefSeq版本处理首先生成一组全面的ASN.1文件,这些文件按tax_id排序,并受大小限制。进一步处理这些初始文件(*.bna.gz文件),以按分子和格式类型导出记录(创建*.genomic.fna.gz、*.protein.faa.gz等文件)。具有相同数字增量的文件按内容关联。它们都来自相同的初始ASN.1文件(*.bna.gz)。如果初始ASN.1文件不包括给定分子类型的任何记录,例如RNA序列数据,则将找不到相应的“RNA”FASTA和扁平文件记录。这不是一个错误。

版本文件名随时间变化不稳定,无法在版本之间进行比较。例如,随着基因组测序项目的完成,RefSeq中的数据表示可能会随着登录前缀和最终版本文件名的相应更改而更改。例如,在版本21和22之间,WGS基因组序列草案可用于球形红细菌2.4.1完成,导致RefSeq记录发生重大变化,因为登录序列NZ_AAAE已失效,并且使用了一系列带有NC_前缀的登录来表示完成的基因组和质粒。

请注意,为RefSeq版本提供的文件集确实包含已安装文件的报告。请参阅RefSeq发布目录目录中的README

我在哪里可以下载人类蛋白质组或转录组?

可从RefSeq FTP站点。包括人类、小鼠和其他几种物种,因为它们是基于转录的管理支持的一部分Bilateria公司组,预期新记录或更新记录的频率较高。每周以FASTA和GenBank扁平文件格式提供转录和蛋白质记录数据。

我在哪里可以找到被抑制或被替换的加入的报告?

每两个月发布一次的RefSeq包括自上一版本以来被禁止或替换的访问报告(ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release目录/-请参阅README文件)。此外,可以使用NCBI提供的强大功能为给定的加入列表生成报告电子公用事业.一个E摘要例子:

http://eutils.ncbi.nlm.nih.gov/enterz/eutils/esummary.fcgi?db=nucleotide&编号=4502272

表示NM_000703.1号(gi:4502272)替换为NM_152296相关行为:

<Item Name=“Status”Type=“String”>已替换</Item>

<Item Name=“ReplacedBy”Type=“String”>NM_152296</项目>

对于一小部分分类群,每周也会有一份RefSeq输入被抑制或替换的报告:

ftp://ftp.ncbi.nlm.nih.gov/refseq/special请求

有关更多信息和文件,请参阅README文件出租车2种名称本报告的分类范围。

Refseq管理和内容

如何判断RefSeq记录是否已被管理?

可通过RefSeq识别已处理的记录地位代码为REVIEWED或VALIDATED。此状态显示在记录的“备注”区域中。由协作组提供的记录被标记为由该组策划,并标识该组或数据库。

“已审阅”状态意味着什么?

Refseq记录有以下几种地位水平

审查记录代表了我们对基因及其转录物和蛋白质产品的当前知识的汇编。这些记录由NCBI科学家或合作小组审查,类似于“审查文章”。

对已审查记录的一些增强可能包括添加或删除序列数据(例如,扩展UTR或删除载体或连接子序列),添加相关出版物或核苷酸和蛋白质特征,以及描述基因功能的摘要文本。

当审查一个记录时,可以将来自多个记录的序列数据组合起来,以构建更完整的mRNA记录。审查过程包括阅读主要文献、审查可用序列数据、创建可选拼接RefSeq记录以及提供功能信息。只有当有关于产品全长性质的可用信息时,才能进行成绩单变体记录;如果通过基因的长度发现了多个交替外显子,则对存在的交替外显基因的组合不作任何假设体内。因此,RefSeq集合不存在重复显示的交替拼接产品。

对于NCBI管理支持的管道,审查过程包括分析当时代表该基因的所有序列。代表该基因的材料列表可能会被扩展,在材料与基因的关联中发现并纠正错误,并标记有问题的材料,例如嵌合mRNA。基因中提供了精选的材料列表,尽管它并不打算是相关序列的综合列表;这些序列可以通过BLAST分析或使用以Entrez核苷酸和Entrez蛋白质或BLink链接形式提供的相关序列的预先计算报告来找到。

为什么RefSeq记录中的基因符号或蛋白质名称与相关INSDC记录中使用的符号或名称不同?

RefSeq记录使用原始INSDC提交、合作或其他权威团体提供的基因符号和蛋白质名称,包括UniProtKB和酶委员会,或生物体的官方命名机构(如果可用)。例如,人类RefSeq集合使用HUGO基因命名委员会提供的基因符号和名称。默认情况下,参考蛋白质名称取自审查过的UniProtKB(,Swiss-Prot)与基因记录关联的记录(如果可用)。RefSeq记录还可能包括替代符号和名称。

INSDC提交的文件代表数据发起人提供的档案序列数据。提交者对他们的记录保持编辑控制,并决定使用什么基因符号和名称。一些提交者咨询命名机构以获得官方基因符号和名称,而其他提交者可能没有,或者如果官方命名发生变化,可能不会更新他们的提交。因此,INSDC对给定基因的记录可能使用不同的基因符号和名称。

RefSeq记录中包含哪些要素注释?

RefSeq记录可能包括用于GenBank记录的任何功能和限定符。RefSeq记录中常见的特征包括基因、mRNA或其他RNA、变异(来自数据库SNP)、多聚腺苷酸化信号和位点、蛋白质(CDS)、保守域(来自客户尽职调查)以及适当的信号肽和成熟肽。为某些物种提供了一些特征类型,包括从Swiss-Prot到蛋白质记录的特征子集传播,以及人类和小鼠基因组和转录记录的外显子注释。

RefSeqs上的外显子是如何注释的?

外显子特征注释在人类和小鼠的转录记录以及RefSeqGene记录上提供。外显子特征是通过使用Splign程序将基因的RefSeq转录物与组装的基因组对齐来确定的(Kapustin等人,2008年).

外显子编号仅在RefSeqGene/LRG记录中报告。它仅基于RefSeqGene/LRG的参考标准cDNA所代表的外显子,从5'到3'。来自多个转录变体的重叠外显子通过RefSeqGene/LRG上的字母后缀进行区分(例如,2a,2b),但不在个体转录记录上。

2013年5月,停止了在人类和小鼠的所有RefSeq转录记录中提供外显子编号的做法。这些外显子数量基于已知的所有基因外显子,但并不稳定,因为它们是在发现基因新外显子时重新计算的。这引起了混乱。RefSeqGene/LRG机制将为人类基因提供稳定的外显子数,因为参考标准cDNA很少改变,而在LRG发布时根本不会改变。

如何选择PubMed ID以包含在RefSeq中?

许多RefSeq记录只是从用于生成RefSeq的INSDC记录中复制引文信息。一些物种的引文由合作小组或NCBI工作人员更积极地管理。例如,哺乳动物转录本和蛋白质RefSeq记录的引文显示如下:a)如果RefSeq管理人员已标记特定引文以包含在RefSeq纪录中,则始终包含这些引文;b) 否则,从与GeneID相关的一组出版物中,RefSeq记录显示了五个最旧的和五个最新的出版物,并带有注释,指导用户访问gene数据库中该基因的完整书目。在基因水平上管理出版物;因此,一组基因的相关RefSeq转录变体包含相同的出版物。

如何为人类和小鼠基因组注释免疫球蛋白和T细胞受体基因座?

免疫球蛋白(IG)和T细胞受体(TCR)基因由基因组RefSeqs(NG_附加前缀)表示;转录物和蛋白质RefSeq不是为这些基因制造的。一般来说,每个多基因位点(例如,IGH@)由一个基因组RefSeq表示,其中包括构成该位点的所有V、D、J和C基因的注释。每个V、D、J和C基因用基因和CDS特征以及适当的V、D、J或C片段特征进行注释。RefSeq使用由ImMunoGeneTics公司数据库。RefSeq还可能包括已知的IG和TCR增强子注释,以及基因组区域内的其他基因注释。基因组RefSeq的序列基于参考装配中使用的组件。为了在参考装配的染色体上注释这些位点,手动注释的NG_记录与参考装配对齐,注释被取消。此过程还用于注释任何备用组件;然而,由于组件中潜在的差异,最终结果不太理想。

什么是NMD?为什么RefSeq中显示了一些可能受NMD影响的转录本,而其他转录本没有?

一般来说,在最后一个剪接连接上游具有超过50个核苷酸的终止密码子的cDNA被认为会受到非传感介导的mRNA衰变(NMD)的影响。RefSeq策展人在决定是否代表来自可能受到NMD影响的转录物的蛋白质的过程中,审查了文献、转录物与基因组序列的比对、蛋白质同源性和基因组保护。考虑以下策展指南:

如果已知一个基因是蛋白质编码的,则表示最受支持的蛋白质,而不管它是由可能受到NMD影响的转录物编码的。这些RefSeq记录分别为转录物和蛋白质添加NM_和NP_前缀。

如果蛋白质可以由不太可能受到NMD影响的转录物编码,则任何可能受到NMDs影响的额外转录物变体都表示为非编码RNA(带有NR_加入前缀)。

如果审查确定一个基因不太可能是蛋白质编码的,并且所有转录物都是NMD的候选基因,则该基因将更新为非编码RNA基因,并由非编码RNA表示(带有NR_加入前缀)。确定的其他数据可能会引发重新评估。

历史上,当馆长审查将现有RefSeq确定为NMD候选时,NM_/NP_记录被抑制。该策略后来被更改为用非编码RNA记录(带有NR_加入前缀)替换现有NMD候选RefSeq,并使NM_记录成为次要的。

这种表示NMD转录物的政策尚未普遍应用于RefSeq中包括的所有真核生物类群;它目前应用于脊椎动物。

为什么CDS中有一个终止密码子NM_002084.3号?

GPX3基因(GeneID 2878)编码一种包含氨基酸硒代半胱氨酸的蛋白质。硒代半胱氨酸由密码子“tga”编码,该密码子通常被解读为终止密码子。NM_002084号.3被明确标注为硒蛋白;RefSeq属性“蛋白质包含硒代半胱氨酸”显示在COMMENT块中,CDS特征上的翻译异常限定符(transl_except=(pos:434..436,aa:Sec)标识编码硒代半月氨酸的终止密码子的位置(在氨基酸序列中显示为“U”)。此外,对于转录物和蛋白质Bilateria公司组,硒代半胱氨酸密码子或氨基酸残基的位置分别标注为错误特征或位点特征。

为什么预测模型RefSeq的定义中包含短语“预测:低质量蛋白质”?

在DEFLINE中包含“预测:低质量蛋白质”的模型RefSeq蛋白质(带有XP_加入前缀)是相对基因组序列修改了相应XM_的序列,以纠正基因组序列中可能的蛋白质替代不匹配或索引。这些不匹配或indels可能由组装基因组序列中的错误引起,并可能导致蛋白质翻译中的移码和/或无义密码子。支持XP_的证据可能包括NCBI工作人员或合作者确定的物种的基因类型(即蛋白质编码或其他),以及来自同源基因和蛋白质比对的数据。需要注意的是,用户应该根据支持证据对“校正的”XP_模型进行批判性评估。除了定义中的“预测:低质量蛋白质”外,较新的模型还包括“校正模型”作为关键字和详细说明校正的结构化注释。

猫沙漠刺猬基因存在“预测:低质量蛋白质”XP_的一个例子(DHH,基因ID 101095751). 在解释转录物和蛋白质比对的组合时,很明显,与保守的DHH基因有很强的同源性,但同源全长蛋白质不能直接从基因组序列中衍生,因为蛋白质的C末端会移位。通过在第1225位之后引入一个“n”基数XM_003988641.2号阅读框被修复,产生蛋白质(XP_003988690.1号)这与其他哺乳动物有很强的同源性。注意,由于DHH直向同源物与猫DHH基因座具有最佳的比对性,并且由于DHH蛋白不能从基因组的其他位置产生,因此该基因在猫中被认为是蛋白质编码而不是假基因。

RefSeq和Gene的内容如何与模型生物数据库的内容同步?

当从外部来源(包括模型生物数据库)收到新信息时,Gene和RefSeq记录每天都会更新。新信息的范围和接收时间是可变的。对于某些生物体,更新可能会影响单基因记录;例如,每天都会收到分别来自HUGO基因命名委员会和小鼠基因命名委员会的个人人类和小鼠记录的更改。对于其他生物体,基因和RefSeq记录的更新与模型生物体数据库定期发布的新数据一致;从FlyBase更新到黑腹果蝇记录就是一个例子,可能会影响大量记录。与模型生物数据库相比,基因和RefSeq之间可能缺乏同步,这取决于数据发布的频率。

如何识别RefSeq和Ensembl注释之间的匹配?

使用Gene中提供的数据,可以通过多种方式找到NCBI和Ensemble注释之间的匹配,包括:完整报告显示的Reference Sequences部分;通过在查询中使用Gene“matches Ensembl”索引属性;和在gene2ensembl FTP文件.

已比较注释的物种的摘要,包括释放和组装信息以及上次进行比较的日期,可在以下网址找到:

ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/README_ensembl文件

匹配NCBI和Ensembl注释是基于RNA和CDS特征的比较。要将转录本或蛋白质识别为RefSeq和Ensembl之间的匹配,两者之间必须至少有80%的重叠。此外,拼接位点匹配必须满足某些条件:60%或更多的拼接位点必须匹配,或者最多可能有一个拼接位点不匹配。

RefSeq管理如何影响共识CDS(CCDS)资源?

共识CDS(CCDS公司)该项目是NCBI RefSeq小组、WTSI哈瓦那馆长、Ensembl和UCSC之间的合作项目,该项目确定了这些组织在参考基因组组装上注释相同的人类和小鼠蛋白质,并通过了质量评估指标。匹配的注释数据集表示RefSeq注释,与由哈瓦那管理小组和Ensembl Genebuild模型手动管理的WTSI基因模型的结合相比。一旦确定了一致的CDS,就为其分配一个标识符,并通过NCBI、WTSI和UCSC之间的合作协议对参考基因组上的CDS注释坐标进行进一步修改。因此,对于引用CCDS标识符的人类和小鼠RefSeq记录,更改CDS坐标的更新,例如使用替代翻译起始位点或替代外显子,已由CCDS合作成员共同商定。

RefSeq更新和删除

RefSeq记录更新的频率如何?

每天都有更新。不同物种以不同的频率更新记录并添加新记录。对于某些物种,包括人类和老鼠,在工作人员不断审查或名称更改后,每天更新(或添加)和发布个人记录。对于其他物种,当新的注释基因组在公共档案中可用时,会生成整个RefSeq数据集,或者如果合作小组提供注释基因组的更新,则可以更新数据集。

如何确定RefSeq记录更新后哪些信息发生了更改?

使用NCBI的修订历史报告确定序列或其特征注释如何随时间变化。在核苷酸或蛋白质显示页面中,单击左上角的“显示设置”。这将打开一个包含“修订历史记录”的菜单列表,该页面提供了显示每个更新的链接,包括不会更改顺序的次要更新。通过显示每个更新的文本详细信息中突出显示的差异,或通过序列对齐,提供了工具来比较任何两个版本。请注意,该工具支持针对较短的序列而不是整个染色体进行了优化。例如,请参阅的修订历史2020年5月.

我最喜欢的基因的RefSeq的序列或注释有问题(或者RefSeq记录不可用)。我该怎么办?

我们欢迎反馈、建议和错误报告,以帮助维护RefSeq集合和基因数据库的质量。使用Gene和RefSeq联系我们反馈形式。

由于RefSeq记录是根据提交给国际核苷酸序列数据库协作组织(INSDC)的文件创建的,因此任何有助于定义基因、剪接变体和特征注释的序列数据都非常有用。向INSDC提交序列数据很简单,INSDC由日本DNA数据库(DDBJ)、欧洲分子生物学实验室(EMBL)和NCBI基因库组成。这三个组织每天交换数据,因此向其中一个组织提交数据就足够了。

序列数据可以使用其中一个提交工具提交给GenBank。有关更多信息,请访问GenBank提交页面.

为什么要删除RefSeq附加项?

RefSeq记录被删除的原因多种多样,与管理决策和基因组注释更新有关。删除记录的摘要和GenBank平面文件显示中会显示一条注释,该注释通常解释删除的原因。对于的参考序列Bilateria公司被管理人员移除的节点生物体,此注释也显示在基因记录的参考序列部分。有关移除的其他信息,可以通过联系NCBI帮助台获得。

RefSeq记录可能因以下原因而被删除:

替换:可以用另一个记录替换一个记录以消除冗余。替换事件由解释性注释和accession行上出现的次要(被替换的)登录号表示,位于主要登录号之后。例如,XM_001232266.1号被替换为NM_001080874号;NM_001080874号是主要登录号XM_001232266号是辅助标识符。

策展人员的压制:如果馆长确定对记录的支持不足,或者如果确定该记录不在RefSeq项目的范围内,则可能会禁止记录。例如,如果记录代表错误的蛋白质,可能会发生抑制(例如,注释在错误的框架中),不再被认为编码蛋白质(例如,蛋白质编码基因座被更新为假基因基因座),或被认为超出范围(例如、转录的ALU序列、T细胞受体或嵌合序列)。示例包括NM_001013738.1号NM_198519.1。

通过自动处理进行抑制:记录可能会在整个基因组注释更新的同时被抑制。这可能是由于多种原因造成的,包括a)由于某些缺乏可靠跟踪方法的全基因组鸟枪式组合的更新,所有以前的基因组contig RefSeq材料被抑制,新的contig材料被分配(例如,编号:633586.1); b) 如果先前注释的模型不再被预测;以及c)如果基因组组装的更新导致多余的contig以及任何相关注释被删除。

任何替换或抑制的记录都将始终可以从公共序列数据库中检索。在许多情况下,BLAST分析将有助于识别替代加入(如果可用)。

我在哪里可以找到有关删除加入的原因的信息?

删除的记录通过查询结果中包含的简短文本描述以及Entrez Nucleotide或Protein显示屏顶部清楚地标识出来。描述因记录是否因批处理而被删除而有所不同(例如更新整个基因组注释后)或因策展决定而删除。例如(请参见XM_221470.3号),为与整个基因组更新相关的抑制提供的默认文本为:

记录已删除:此记录已作为标准基因组注释处理的结果删除。参见基因组构建文档http://www.ncbi.nlm.nih.gov/genome/guide/build.html更多信息,或联系info@ncbi.nlm.nih.gov。

对于某些加入者,可以获得其他信息,也可以通过联系NCBI帮助台获得。

我最喜欢的RefSeq已被删除!如何确定它是否被其他RefSeq替换?

BLAST分析,尤其是利用RefSeq mRNA序列或RefSeq蛋白序列数据库并指定生物体(在选择搜索集时可用作选项)的分析,是一种快速、准确的方法,可以识别新的RefSeq登录,该登录可以替代撤回、删除或抑制的RefSeg记录。如有必要,可以为一些加入者提供其他信息,并可通过联系NCBI帮助台获得。

还请注意,当通过accession.version检索时,抑制的RefSeq记录仍然可以从INSDC数据库中检索。

我在找NM_001136525但请注意,它已被替换为NM_001136248.为什么?

可以用另一个记录替换一个记录以消除冗余。这是两个基因记录合并后的常见情况,通过查询结果中的注释和GenBank显示的页眉(例如,纳米_001136525.1). 在保留的RefSeq记录中,该信息还显示在accession行中被替换的登录号之后。可能列出了一个以上的替代加入。如平面文件所示[主要加入,然后替换加入]:

加入NM_001136248 NM_001136525

是什么导致RefSeq记录的版本号更改?

版本号改变(例如。,NM_ 111111.1->NM_ 111111.2)发生在RefSeq记录的序列发生任何更新时。序列更新包括更改、添加或删除记录中的核苷酸或氨基酸。请注意,其他更改(如注释或相关出版物的更新)不会触发版本号更改。同样,相同转录本的核苷酸(NM_,XM_)和蛋白质(NP_,XP)记录在更新后可能没有相同的版本号。例如,RefSeq核苷酸记录的5'UTR更新将导致更新的核苷酸记录的版本号更改,但不会导致相应的蛋白质记录的版本编号更改。相反,如果编码序列的注释起始位点发生变化,而底层核苷酸序列没有发生变化,则会导致NP_的版本号更新,但NM_的版本编号不会更新。

RefSeq记录的哪些更新需要简单的版本号更改,哪些更新需要新的登录号?

以下情况需要简单的版本更改:

  • RefSeq记录被更新以进行小的更正(例如,修复不匹配或索引)
  • RefSeq记录通过UTR中的末端延伸或修剪进行更新,但不添加或删除外显子或改变任何剪接位点
  • RefSeq记录通过编码序列和/或UTR的5'或3'末端的末端延伸或修剪进行更新,DOES添加或删除末端外显子。在这种情况下,替换或更新的RefSeq必须完全包含在另一个版本中(即,不添加或删除内部外显子或改变任何剪接位点)。

所有其他情况都要求取消而不是更新旧记录,并创建具有新加入编号的新记录。此外,当外显子定义或蛋白质长度改变时,RefSeqGene记录无法更新。

书架编号:NBK50679

意见

此收藏中的其他标题

最近的活动

您的浏览活动为空。

活动录制已关闭。

重新打开录制

查看更多。。。