NCBI Reference Sequences (RefSeq): current status, new features and genome annotation policy

Kim D. Pruitt; Tatiana Tatusova; Garth R. Brown; Donna R. Maglott

doi:10.1093/nar/gkr1079

核酸研究。2012年1月；40（数据库问题）：D130–D135。

2011年11月24日在线发布。数字对象标识：10.1093/nar/gkr1079

预防性维修识别码：项目经理3245008

PMID：22121212

NCBI参考序列（RefSeq）：现状、新特征和基因组注释政策

金·D·普鲁特,^* 塔蒂亚娜·塔图索娃,加思·布朗、和唐娜·马格洛特

作者信息文章注释版权和许可信息 PMC免责声明

摘要

国家生物技术信息中心（NCBI）参考序列（RefSeq）数据库是基因组、转录物和蛋白质序列记录的集合。这些记录是从公共序列档案中挑选和整理的，与国际核苷酸序列数据库协作组织存档的数据量相比，冗余度显著降低。该数据库包括16000多种生物，2.4×10⁶基因组记录，13×10⁶蛋白质和2×10⁶RNA记录涵盖原核生物、真核生物和病毒（RefSeq第49版，2011年9月）。RefSeq数据库通过自动分析、协作和手动管理相结合的方法进行维护，以生成序列、其特征、名称以及与相关信息源的链接的最新表示。我们在这里报告了最近的增长、人类RefSeq数据集的管理状态、更广泛的特征注释以及通过NCBI注释管道进行真核生物基因组注释的当前政策。有关该资源的更多信息可在线获取（请参阅http://www.ncbi.nlm.nih.gov/RefSeq网站/).

简介

RefSeq将生物体的基因组、转录物和蛋白质序列与描述性特征注释和书目信息相结合(1,2). 国家生物技术信息中心（NCBI）根据国际核苷酸序列数据库合作组织（INSDC，包括日本DNA数据库、欧洲核苷酸档案馆和GenBank）公共档案序列数据库中的序列数据构建RefSeq。RefSeq集合的独特特征包括其广泛的分类范围、减少冗余、核酸和蛋白质记录（管理和计算衍生）之间的信息交联以及日常管理和维护。数据链接包括名称、蛋白质结构域、直链同源物、酶委员会（E.C.）编号、表型和疾病。治疗和维护反映了新的信息，使RefSeq集合能够支持许多研究方向，包括将序列与表型相关联，提供稳定一致的坐标系统来报告临床变异、比较基因组学和进化研究。RefSeq集合是NCBI额外资源的关键元素，包括dbSNP、dbVar、Gene、Genomes、Protein Clusters和Map Viewer，能够在生物体内和生物体之间整合这些资源。

RefSeq数据库是美国国立卫生研究院国家医学图书馆的一个部门NCBI的产品。记录可以通过多种方式免费获取，包括互联网查询、FTP下载、BLAST或使用NCBI的E-Utilities进行脚本查询。全面的FTP版本每两个月提供一次，在两次发布之间提供每日增量更新。RefSeq记录可以通过一种独特的登录格式来识别，该格式在第三个位置包含下划线（“_”）。更多信息可在线获取(http://www.ncbi.nlm.nih.gov/books/NBK21091/).

REFSEQ数据集的增长

随着新的基因组和转录序列公开，每两个月发布一次的RefSeq全面版本继续增长。为了支持不同研究团体的需求，该版本在“完整”目录中全面提供，并基于一般分类群、线粒体或质体基因组或质粒分子。第49版（2011年9月）包括16 248个物种的记录，代表13 137 813个蛋白质记录。表1表明生物数量和物种数量的年增长率分别为49.7%和14.5%。该版本中包含的记录包含了2亿多个功能注释链接（表示为“db_xref=”），指向60个不同的基于Web的资源。这些链接允许导航到这些资源中的相关信息，包括NCBI中的资源，例如Gene(三)，保护域数据库[CDD(4)]，数据库SNP(5)外部，包括命名组、模型生物数据库、以蛋白质为中心的资源等等。链接由RefSeq所基于的INSDC记录的协作和传播进行管理。

表1。

RefSeq版本的年增长率

发布目录	生物数量			记录的数量
发布目录	版本43^一	第49版	增加（%）	版本43	第49版	增加（%）
完成	10 854	16 248	49.7	15 934 055	18 236 994	14.5
真菌	280	301	7.5	1 178 671	1 319 842	12
无脊椎动物	637	754	18.4	1 993 670	2 232 026	12
微生物	5585	10 346	85.2	9 031 974	10 711 822	18.6
线粒体	2266	2654	17.1	34 688	40 664	17.2
工厂	182	229	25.8	817 648	842 720	3.1
质粒	952	1061	11.4	160 065	191 018	19.3
塑料	186	233	25.3	16 908	21 103	24.8
原生动物	134	146	9	932 990	956 479	2.5
脊椎动物_哺乳动物	327	354	8.3	1 492 157	1 587 895	6.4
脊椎动物_其他	1120	1334	19.1	398 084	483 449	21.4
病毒的	2250	2745	22	87 759	101 664	15.8

在单独的窗口中打开

^一第43版包括2010年9月7日提供的数据；第49版包含了2011年9月5日可用的数据。

微生物作为一个群体，在第49版中占了最大数量的有机体和添加物(表2)生物数量年增长最显著（85.2%）；表1). 然而，值得注意的是，微生物群的数量只增加了18.6%。相对于生物体或RNA记录数量的增长，该值向下倾斜。第49版的微生物RNA记录数量实际上增加了156%（数据未显示）；这反映了RefSeq Targeted Locus项目的活动(http://www.ncbi.nlm.nih.gov/genomes/static/refseqtarget.html)其任务是为细菌和古生物基因组和菌株提供一个单一的代表性16S核糖体RNA序列。第49版包括6949个具有单一记录的生物，5680个具有一个以上但少于100个加入的生物，184个具有10000个以上加入的生物。

表2。

按ftp目录分发RefSeq 49版

发布目录	占总数的百分比
发布目录	生物体	加入
真菌	1.9	7.2
无脊椎动物	4.6	12.2
微生物	63.7	58.7
线粒体	16.3	0.2
工厂	1.4	4.6
质粒	6.5	1
塑料	1.4	0.1
原生动物	0.9	5.2
脊椎动物_哺乳动物	2.2	8.7
脊椎动物_其他	8.2	2.7
病毒的	16.9	0.6

在单独的窗口中打开

治疗人类REFSEQ记录的现状

NCBI工作人员积极管理RefSeq集合的几个子集智人通过（i）为基因组区域、转录物和蛋白质提供高质量的参考序列记录，治愈改善了人类RefSeq收集的多个方面；（ii）维护和扩展集成到RefSeq记录和NCBI基因数据库中的功能相关信息；（iii）与国际策展小组进行沟通和协调，以形成对人类基因及其初级产品的统一、一致的观点（见共识CDS（CCDS）项目，http://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi网站); （iv）支持科学界回应建议、问题或错误报告。

基因组区域

RefSeq为非转录假基因和RefSeqGene项目提供区域特定的基因组区域记录(http://www.ncbi.nlm.nih.gov/refseq/rsg/). 假基因位点是通过与HUGO基因命名委员会合作确定的(6)]从Pseudogene.org下载[http://pseudogene.org/(7)]或由RefSeq管理人员在审查与人类基因组具有多个高质量比对的转录本时定义。治疗包括定义假基因位点的长度和位置，确定其是否转录，并在假基因位点和功能同源物之间提供链接。例如，请参阅NG_002746.2，它表示真核生物翻译起始因子假基因，以及其基因记录（GeneID 1986）的“一般基因信息”部分，其中提供了与相关功能基因（EIF5A，GeneID 1984）的链接。此外，根据与功能同源物的RefSeq转录本的比对，假性基因RefSeq记录上注释了假定的外显子区域。在过去的一年中，非转录假基因记录的数量增加了7.7%。

RefSeqGene，作为国际基因座参考基因组计划[LRG的一部分(8)]，提供稳定的、特定于基因的人类基因组序列记录，用于报告医疗记录和特定于地方的数据库中的序列变化（参见网址：http://www.ncbi.nlm.nih.gov/refseq/rsg/). RefSeqGene和LRG记录通常仅明确表示已知mRNA和编码区的子集。用于标准的序列的识别取决于用户群的评估，但通常与RefSeq和CCDS工作人员已经整理和审查的RefSeq转录本和蛋白质记录相对应。如果出现问题，对利益相关者的证据、文献和序列证据的审查可能会导致RefSeqGene记录的更新、RefSeq基因记录上注释的参考转录本和蛋白质的修订或在分配LRG标识符之前在RefSeq集合中表示的其他剪接变体。转录变体和蛋白质亚型不属于显式注释的一部分，由对齐表示，可以在NCBI的图形显示中看到。RefSeqGene记录的数量在过去一年中增长了25.8%。要请求基因的RefSeqGene，请联系rsgene@ncbi.nlm.nih.gov。

转录物和蛋白质

转录物和蛋白质是NCBI管理的一个重要重点。该数据集有两大类：NCBI基因组注释管道直接生成的“模型”子集和使用自动分析和手动审查相结合独立于基因组注释过程维护的“已知”子集。这些子集可以通过登录号前缀（型号以“X”开头）以及以平面文件格式查看时记录的COMMENT块中的注释来区分（请参见http://www.ncbi.nlm.nih.gov/books/NBK21091/了解更多细节）。模型子集中的记录仅在全基因组重新注释时创建或更新，但在这些更新之间进行手动审查后，可以从集合中删除。去年对人体模型集进行了审查，结果修改了基因类型指定（例如，蛋白质编码、非编码、假基因等），用已知记录替换了模型记录，并删除了被认为支持不足的记录。例如，2068款RefSeq符合证据标准，将在43版和49版之间的1年内被已知的RefSeq类型取代。

已知RefSeq数据集上注释了一系列状态代码，以指示有关管理级别的信息（这些代码不适用于模型记录子集）。状态为“已验证”或“已审查”的记录被视为已保存。截至RefSeq第49版，92.5%的人类蛋白编码转录本（及其相关蛋白）以策划状态进行跟踪，57.2%的非编码转录本以策划状态跟踪(表3). 这包括在第43版和第49版之间添加或更新7500多份人类转录记录。RefSeq继续代表被认为是全长的蛋白质编码区，以及被认为至少接近完整的转录物。明显部分的转录本没有显示，但显示在NCBI的基因组浏览器（Map Viewer）中。

表3。

人类转录物和蛋白质的现状

类型	第49版中的加入
类型	总计	已固化^一	策划百分比
已知蛋白编码转录本	31 933	29 531	92.5
模型蛋白编码转录本	1118	不适用
已知非编码转录本	5932	3396	57.2
模型非编码抄本	3762	不适用
总计	42 745	32 927	77

在单独的窗口中打开

^一Curated记录的审核状态为“Validated”或“Reviewed”，这不适用于模型RefSeq记录。

NCBI工作人员与其他主要数据库和管理小组密切协调，以最大限度地在NCBI和其他网站上实现一致的数据表示。共识编码序列协作[http://www.ncbi.nlm.nih.gov/projects/CCDS/CcdsBrowse.cgi(9)]是蛋白质编码位点管理的中心枢纽，所有成员必须同意影响CDS基因组坐标的更新。根据可用的支持证据和已发表的报告，CCDS成员讨论了模糊或复杂的案例，以就可能的注释蛋白质产品达成共识。CCDS审查通常包括与HGNC、UniProt或基因组参考联盟的沟通和协调[http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/(10)]当注释由于对参考人类基因组集合中表示的序列的关注而无法很好地表示时。人类CCDS数据集在过去一年中更新了两次，为456个基因增加了2126个CCDS ID。该数据库目前包括26 473个不同的人类蛋白质标识符，对应18 471个基因，可在http://www.ncbi.nlm.nih.gov/CCDS网站/.

除了正在进行的转录物和蛋白质审查外，最近还进行了一些影响RefSeq转录物和蛋白记录内容的更改。其中包括：

蛋白质名称管理新政策；
管理通读（联合）成绩单的新政策；
扩大非编码RNA的表示，以包括microRNA；和
转录和蛋白质记录的扩展特征注释。

蛋白质名称

RefSeq正在采用UniProtKB(11)蛋白质命名指南(http://www.uniprot.org/docs/gennameprot)用于原核和真核记录。这项政策的实施相对较新，各分类群之间仍存在差异。对于原核蛋白质，蛋白质名称管理与NCBI的蛋白质簇资源一起进行(http://www.ncbi.nlm.nih.gov/proteinclusters网站). 对于NCBI基因数据库中与相关Swiss-Prot登录号相关的脊椎动物蛋白质，将逐字使用Swiss-Pro首选名称。对于一些脊椎动物RefSeq记录，如果Swiss-Prot名称不可用，或者不遵守修订的UniProt指南，则会继续提供不同的蛋白质名称。

通读成绩单

代表外显子的转录本通常被认为是相邻的，但不同的基因座对管理构成了特殊挑战。这类数据导致注释冲突，需要CCDS合作成员以及HGNC进行广泛讨论。NCBI和CCDS合作最近定义了一种注释策略，将大多数通读转录本作为一个独特的位点进行跟踪，因为它不仅仅是两个潜在位点中任何一个的产物。这种方法提高了为两个较小的位点注释的基因范围的一致性，同时也反映了该区域的转录复杂性。当readthrough抄本看起来是全长并且至少有两行独立的readthround事件支持时，RefSeq选择对其进行注释。基因数据库在记录的“一般基因信息”部分报告了这种转录复杂性。使用可用的基因查询可以找到示例[例如，“readthrough parent”（属性）]。去年，RefSeq馆长审查了ConjoinG数据库中报告的数据(12)展开此类型的表示。RefSeq目前将120个人类基因座作为一个实例化的可读基因座进行跟踪，该可读基因座使用不同的GeneID进行跟踪（例如，NME1-NME2，Gene ID 654364），并将358个基因座与任何类型的可读关联进行跟踪，其中包括不符合RefSeq中表示要求的可读转录本报告（例如，GeneID 6728）。

非蛋白质编码转录物

2010年9月至2011年间，非编码RNA的RefSeq代表性增长了30%。非编码转录物部分通过下载其他公开可用的数据集进行管理，包括从miRBase获得的数据集http://www.mirbase.org/(13). 微RNA，在RefSeq中表示为具有功能RNA产品特征注释的干环前体产物，目前有6848条记录，其中1409条是人类记录。其他类型的功能性RNA，例如小核仁RNA，可能最初由HGNC或NCBI管理人员定义。长的非编码转录本，包括剪接变异体，也被添加到数据库中。其中一些包括由于多种原因被认为不太可能编码蛋白质的转录物，包括非传感介导的衰变问题、抑制性替代开放阅读框或替代剪接变异体，这些变异体担心显著的蛋白质截断或大量上游ORF。目前有4421个人类基因的6057个非编码转录本，包括797个人类蛋白编码位点的1134个非编码誊本。

展开的特征注释

RefSeq特征注释已扩展，以指示本地化或功能，并突出显示手动审查期间考虑的序列的细节。多年来，RefSeq蛋白记录显示了由NCBI的CDD组计算的蛋白质注释，包括蛋白质结构域、分子内或分子间结合位点和金属结合位点。虽然一些信号肽、成熟肽和其他特征已由NCBI工作人员手动注释，但这些特征现在也从UniProtKB/Swiss-Prot记录中传播，并由SignalP 4.0预测(14). 传播的标准包括高质量的对齐，以及序列和特征长度保持一致的确认。CDD组已经提供的特征类型不会传播。注释特征的来源用引用SignalP4.0的“/information”限定符表示，或用注释“propagated from UniProtKB/Swiss-Prot”表示，并用Swiss-Pro登录号表示（例如，请参见NP_001028219.1，NP_001171622.1）。

在计算搜索注释起始密码子上游的帧内终止密码子后，蛋白质编码的RefSeq转录物现在显示注释编码区的5′完整性证据。已识别的终止密码子用mist_feat注释（请参见图1和NM_145204.3）。当为蛋白编码基因提供非蛋白编码转录物时，还对其进行计算分析，以确定一个开放阅读框，该阅读框与蛋白质编码转录物（针对该基因）共享相同的起始密码子，但使该转录物成为非传感介导mRNA（NMD）衰变的候选。假定的NMD ORF用mist_feat注释（参见NR_040252.1）。如果非编码转录本包含上游ORF，可能会抑制预测ORF的翻译，则Misc_feat注释也会添加到该转录本中（参见CCDS文档，网址：http://www.ncbi.nlm.nih.gov/CCDS/docs/CCDS-AUGguidelines.pdf示例为NR_003253.1）。

在单独的窗口中打开

图1。

NM_145204.3以核苷酸图形显示格式显示。显示器配置为显示限制在感测链上的六帧翻译轨迹，并添加三个标记，突出显示注释的上游帧内终止密码子、翻译起始密码子和位于下游的第二个帧内AUG密码子。在同一阅读框中观察到的上游的一个终止密码子，表明带注释的CDS是5′完全的。

基因组公告政策

基于若干考虑因素，包括测序项目的质量和完整性、系统发育距离、模式生物状态、对疾病和健康研究的影响，以及确定对目标研究项目的实用性，选择组装的基因组序列数据纳入RefSeq。在过去几年中，NCBI为原核生物和真核生物开发了强大的全基因组注释管道。原核生物管道已经成熟，如果基因组序列在没有注释的情况下提交给GenBank，它将作为提交者的常规服务提供。原核生物的RefSeq基因组表示目前通过从GenBank中的原始基因组数据传播注释来管理，当提交基因组后6个月内GenBank没有注释时，计算RefSeq的注释，并辅以表示rRNA的管理，tRNAs，并基于策划的蛋白质簇提供改进的蛋白质名称。真核生物基因组的管理基于一般分类群、提交注释的可用性和活性模型生物数据库的存在。对于RefSeq中包含的哺乳动物基因组，总是使用NCBI注释管道提供基因组注释。对于其他生物体，RefSeq基因组注释在可用时从GenBank传播。否则，如果提交了一个高质量的基因组集合而没有注释意图，或者如果注释没有在合理的时间内提交，或者被认为需要更新，并且研究小组无法长期维护，则使用NCBI的真核注释管道提供注释。在可能的情况下，RefSeq小组与研究社区和模型生物数据库合作，为参考基因组提供单一的标准注释；示例包括果蝇、拟南芥、冈比亚按蚊、酿酒酵母和大肠杆菌K-12。

未来发展方向

RefSeq小组的短期目标之一是在策展决策和使用的支持证据方面更加透明。上述扩展的转录特征注释是朝着这个方向迈出的一小步，将进一步扩展。支持脊椎动物RefSeq数据集的策展人和程序员存储了各种各样的基因和转录数据属性，这些属性可能对RefSeq数据库的消费者有用。正在审查属性类别和可用存储数据，并将选择一个子集以在RefSeq记录的结构化注释中进行报告。存储属性的示例包括报告的RNA编辑、潜在的替代翻译起始密码子、报告的印迹位点、使用非AUG起始密码子等。此外，脊椎动物RefSeq小组正致力于报告有关RefSeq转录记录中实例化的外显子组合潜在支持的更明确信息，以突出高度保守的蛋白质，并提供一个比较实用程序来评估转录变体之间的假定功能结果。

基金

开放存取费用资助：国家卫生研究院院内研究项目，国家医学图书馆。

利益冲突声明。未声明。

参考文献

1Pruitt KD、Katz KS、Sicotte H、Maglott DR。RefSeq和LocusLink简介：NCBI的人类基因组资源。趋势Genet。2000;16:44–47.[公共医学][谷歌学者]

2Pruitt KD、Tatusova T、Klimke W、Maglott DR。NCBI参考序列：现状、政策和新举措。核酸研究。2009;37：D32–D36。 [PMC免费文章][公共医学][谷歌学者]

三。Maglott D、Ostell J、Pruitt KD、Tatusova T.Entrez基因：NCBI以基因为中心的信息。核酸研究。2011;39：D52–D57。 [PMC免费文章][公共医学][谷歌学者]

4Marchler-Bauer A、Lu S、Anderson JB、Chitsaz F、Derbyshire MK、DeWeese-Scott C、Fong JH、Geer LY、Geer RC、Gonzales NR等。CDD：蛋白质功能注释的保守域数据库。核酸研究。2011;39：D225–D229。 [PMC免费文章][公共医学][谷歌学者]

5Sherry ST、Ward MH、Kholodov M、Baker J、Phan L、Smigielski EM、Sirotkin K.dbSNP：NCBI遗传变异数据库。核酸研究。2001;29:308–311. [PMC免费文章][公共医学][谷歌学者]

6Seal RL、Gordon SM、Lush MJ、Wright MW、Bruford EA。genenames.org:2011年HGNC资源。核酸研究。2011;39：D514–D519。 [PMC免费文章][公共医学][谷歌学者]

7Karro JE、Yan Y、Zheng D、Zhang Z、Carriero N、Cayting P、Harrrison P、Gerstein M.Pseudogene.org：伪基因注释的综合数据库和比较平台。核酸研究。2007;35：D55–D60。 [PMC免费文章][公共医学][谷歌学者]

8Dalgleish R、Flicek P、Cunningham F、Astashyn A、Tully RE、Proctor G、Chen Y、McLaren WM、Larsson P、Vaughan BW等。基因座参考基因组序列：描述人类DNA变体的改进基础。基因组医学。2010;2:24. [PMC免费文章][公共医学][谷歌学者]

9Pruitt KD、Harrow J、Harte RA、Wallin C、Diekhans M、Maglott DR、Searle S、Farrell CM、Loveland JE、Ruef BJ等。共识编码序列（CCDS）项目：确定人类和小鼠基因组的共同蛋白编码基因集。基因组研究。2009;19:1316–1323. [PMC免费文章][公共医学][谷歌学者]

10Church DM、Schneider VA、Graves T、Auger K、Cunningham F、Bouk N、Chen HC、Agarwala R、McLaren WM、Ritchie GR等，参考基因组组装现代化。《公共科学图书馆·生物》。2011;9：e1001091。 [PMC免费文章][公共医学][谷歌学者]

11UniProt联盟。2010年的Universal Protein Resource（UniProt）。核酸研究。2010;38：D142–D148。 [PMC免费文章][公共医学][谷歌学者]

12Prakash T、Sharma VK、Adati N、Ozawa R、Kumar N、Nishida Y、Fujikake T、Takeda T、Taylor TD。连体基因的表达：真核生物中基因调控的另一种机制。公共科学图书馆一号。2010;5：e13284。 [PMC免费文章][公共医学][谷歌学者]

13.Kozomara A，Griffiths-Jones S.miRBase：整合微小RNA注释和深度测序数据。核酸研究。2011;39：D152–D157。 [PMC免费文章][公共医学][谷歌学者]

14Petersen TN，Brunak S，von Heijne G，Nielsen H.SignalP 4.0：区分跨膜区域的信号肽。自然方法。2011;8:785–786.[公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社