跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2005年1月1日;33(数据库问题):D501–D504。
2004年12月17日在线发布。 数字对象标识:10.1093/nar/gki025
PMCID公司:项目编号539979
PMID:15608248

NCBI参考序列(RefSeq):基因组、转录物和蛋白质的精选非冗余序列数据库

摘要

国家生物技术信息中心(NCBI)参考序列(RefSeq)数据库(http://www.ncbi.nlm.nih.gov/RefSeq网站/)提供代表基因组数据、转录物和蛋白质的非冗余序列集合。尽管其目标是提供一个综合数据集,代表任何给定物种的完整序列信息,但该数据库实际上包括了目前在档案数据库中公开的序列数据。该数据库包含2400多种生物的数据,包括100多万种蛋白质,这些蛋白质代表了跨越原核生物、真核生物和病毒的重要分类多样性。核苷酸和蛋白质序列显式链接,序列链接到其他资源,包括NCBI Map Viewer和Gene。对序列进行注释,以包括编码区域、保守域、变异、参考、名称、数据库交叉引用和其他特征,使用协作和科学界其他输入的组合方法、自动注释、GenBank传播和NCBI工作人员管理。

简介

RefSeq是核苷酸和蛋白质序列的公共数据库,具有相应的特征和书目注释。RefSeq数据库由NCBI建立和分发,NCBI是美国国立卫生研究院国家医学图书馆的一个部门。NCBI通过FTP、Entrez查询在互联网上免费公开RefSeq(1),基本局部对齐搜索工具(BLAST)(2,)项目,并纳入广泛的NCBI资源。

NCBI根据档案数据库GenBank中可用的序列数据构建RefSeq(4),这是一个提交给美国GenBank、英国EMBL数据库和日本DNA数据库并在其之间交换的序列的综合公共存储库。此外,带注释的RefSeq记录和/或补充信息可以通过与命名组、模型生物数据库和科学界其他方面建立的多个合作来提供。RefSeq记录显示了GenBank的源数据,包括与基因、转录物和蛋白质相关的参考和注释,并显示了归属于策展组的策展。

RefSeq集合在提供一个精选的、非冗余的、明确链接的核苷酸和蛋白质数据库方面是独一无二的,代表了显著的分类多样性。为包括在内的大多数生物体提供基因组和蛋白质序列数据集;目前为真核生物收集的一个子集提供转录记录。RefSeq数据库为整合序列、遗传和功能信息提供了重要基础,并在国际上用作基因组注释的标准。该系列由合作小组和NCBI工作人员持续策划。序列记录以标准格式呈现,并接受计算验证。

与GENBANK的区别

RefSeq集合来源于GenBank中提供的主要提交。GenBank是一个冗余的档案数据库,它表示在不同时间生成的序列信息,并可能表示蛋白质、名称或其他信息的几个替代视图。相反,RefSeq表示一个几乎无冗余的集合,它是可用信息的综合和总结,并表示序列信息、名称和其他注释的“当前”视图。

RefSeq记录可以通过登录序列的格式与GenBank记录区分开来。RefSeq登录号的格式为两个字母字符,后跟下划线(“_”),可选地后跟四个字母字符(特定于NZ_前缀),后跟六个、八个或九个数字。GenBank的加入从不包含下划线。不同的字母前缀在生成过程和所表示的分子类型方面都有隐含的含义。RefSeq网站上提供了RefSeq登录号的完整定义(http://www.ncbi.nlm.nih.gov/RefSeq/key.html#访问).

增长

RefSeq数据库继续与大规模基因组和cDNA测序项目同步增长(见表表1)。1). 随着新的完整基因组组合可用,它们被纳入RefSeq集合。只有在一些基因组序列数据(核、质体、线粒体或其他基因组分子)可用后,大多数生物体才会出现在标本集中;然而,在基因组序列数据可用之前,可以为真核生物模型生物的子集提供转录和蛋白质记录。

表1。

RefSeq集合的年增长率
日期FTP版本物种记录的数量
   基因组学成绩单蛋白质
6/30/20031200564 729211 803785 143
7/5/20046246768 592247 6391 050 975

公告

RefSeq记录的注释来自多个来源,包括原始GenBank提交、协作组、NCBI计算分析、用户反馈和NCBI的手动管理。例如,协作支持RefSeq表示酿酒酵母,黑腹果蝇拟南芥由酿酒酵母基因组数据库(SGD)直接提供(5)、FlyBase(6)和基因组研究所(TIGR)。同样,NCBI病毒基因组顾问组对整个病毒RefSeq收集进行审查和管理。有关合作者贡献的更多信息,请参阅RefSeq Collaborators页面(http://www.ncbi.nlm.nih.gov/RefSeq/collaborators.html). 所有RefSeq记录都包括核苷酸和蛋白质同源物之间以及与Entrez基因之间的明确交联(7),它提供了对RefSeq集合的面向基因的访问。在一些记录中,还提供了附加链接,注释为“db_xref”符号,用于组织特定基因组资源,如小鼠基因组信息学(MGI)(8)或FlyBase。

对于其他物种,包括蜜蜂(蜜蜂),五倍子(鸡),智人(人类),肌肉(鼠标)和褐家鼠(大鼠),基因组注释由NCBI计算过程提供,该过程利用转录物比对、蛋白质支持和隐马尔可夫模型(HMM)从头计算预测算法(参见NCBI手册;http://www.ncbi.nlm.nih.gov/enterz/query.fcgi?db=Books网站). 由该过程注释的基因组RefSeq记录表示基因、转录物和蛋白质,并包括表示STS标记的附加特征注释。可用的RefSeq转录本数据集带有“NM_”加入前缀,是该注释管道中的一个重要试剂。

蛋白质的全面表征,明确地与RefSeq核苷酸记录相关联,是RefSeq项目的一个主要重点。目标是代表全长蛋白质产品;然而,当部分蛋白质注释由合作者贡献或当蛋白质是从不完整的基因组序列数据预测出来时,部分蛋白质产物就代表了一些基因组。蛋白质通过计算和管理进行注释。使用NCBI保护域数据库(CDD)中维护的数据,通过自动过程计算保护域(9); 此注释提供了有关可能函数的提示。同样,位于编码区域的变化特征也会根据NCBI dbSNP数据库中的可用数据自动计算(10). 其他特征,包括酶委员会(EC)编号、蛋白质序列的其他标志性区域和参考,可以由外部合作者或NCBI工作人员管理添加。

为真核生物物种的子集(包括脊索动物分类谱系中的物种)提供转录记录,以表示蛋白质编码序列、转录的假基因、核糖体RNA和其他小RNA。注释来自自动分析和管理分析的混合。变异特征是根据dbSNP数据库中的数据自动计算的,并且与注释的蛋白质保守域相对应的核苷酸区域也会自动提供(作为一个杂项特征,或“misc_feat”)。其他特征,如多聚腺苷酸化信号和位点、交替转录起始位点和RNA编辑位点,都由调控提供。

固化和质量控制

验证RefSeq序列以确认以下内容:(i)核苷酸与蛋白质序列的准确对应;(ii)有效的ASN.1格式和(iii)与官方命名组合作支持的物种、当前首选名称和符号名称。对于通过NCBI注释管线注释的物种,可以验证地图位置。

NCBI工作人员审查并手动修改RefSeq集合的子集,包括为病毒、一些细菌、哺乳动物和一些其他物种提供的集合。本手册的目的是提供准确和完整的序列数据,确保准确的序列与基因关联,通过添加以前未被代表的基因和/或替代剪接产物来扩大收集范围,并提供额外的特征注释来代表成熟肽产物,关注区域和/或突出不太频繁的生物事件,如非AUG起始点(11)或硒蛋白(12). 策展状态在RefSeq记录上标注,作为评论功能;使用的状态术语包括模型、预测、临时、推断、验证和审查,后两个表示已经发生了序列级管理。治疗状态术语记录在RefSeq网站上(http://www.ncbi.nlm.nih.gov/RefSeq/key.html#状态).

有几个流程用于识别最能从工作人员审查中获益的记录。例如,针对审查的记录包括那些与可用基因组序列不同的记录,那些与NCBI同源基因资源计算的同源组相比具有显著蛋白质长度变化的记录(13),以及除了用于构建RefSeq的GenBank记录之外没有其他相关蛋白的那些。一些额外的转录和蛋白质质量测试已经到位,但这里没有列举。此外,审查是基于用户反馈来确定其他数据或错误。我们欢迎用户反馈以帮助维护和改进RefSeq集合。在线提供反馈表,或者用户可以联系NCBI主帮助台(请参阅表表22).

检索数据

在NCBI中可以通过多种方式访问RefSeq集合,包括通过Entrez查询、BLAST、FTP以及NCBI数据库和资源提供的链接(参见表表22).

Entrez查询

从NCBI或Entrez主页对Entrez数据库执行全局查询时,RefSeq结果包含在返回的结果中。通过转到核苷酸或蛋白质数据库的主页,并使用Entrez Limits页面选择“only from RefSeq”或直接向输入的文本查询添加一个RefSeq特定属性限制,可以将返回的结果限制为仅包含RefSeq记录。例如,检索记录中某处包含名称“BRCA1”的所有RefSeq核苷酸记录的查询格式为BRCA1 AND srcdb_RefSeq[prop]。RefSeq网站提供了可用属性限制的定义(http://www.ncbi.nlm.nih.gov/RefSeq/key.html#查询).

Entrez主页上的Entrez查询可以同时查询所有Entrez数据库,也会将结果返回给Entrez基因和基因组(14)数据库,它们都是RefSeq项目的组件。Entrez Gene将RefSeq记录中的基因特异性注释与其他信息源相结合,从而提供了基因数据的基因导向视图(7). 当有完整基因组或染色体的序列时,数据也包含在Entrez基因组数据库中,该数据库提供了多种工具来显示和分析信息。

BLAST和BLink

RefSeq记录包含在主要BLAST nr数据库中,也可在基因组特定BLAST数据库集合中获得(列于http://www.ncbi.nlm.nih.gov/BLAST网站/). RefSeq记录的点击可以通过登录号的不同格式立即识别。通过在格式页面上输入Entrez属性查询(例如srcdb_RefSeq[prop]),可以将BLAST nr结果配置为仅显示RefSeq集合中的那些点击。

RefSeq记录也包括在预先计算的BLAST分析中,该分析旨在提供相关序列(核苷酸或蛋白质)和BLink(相关蛋白质序列数据集的可视化工具)的Entrez链接。BLink界面包含一个选项,仅显示RefSeq蛋白质。

文件传输协议

完整的RefSeq集合可用于匿名FTP,每两个月发布一次,并在发布周期之间进行每日和累积更新。RefSeq版本的结构旨在提供对完整RefSeq集合或按主要分类类别(例如植物、病毒、脊椎动物哺乳动物)或感兴趣分子(例如细胞器、质粒)组织的集合的一部分的访问。文档包括所提供文件和序列的指示、自上一版本以来删除的序列,以及对版本结构和内容的完整描述。有关重大更改、问题和RefSeq版本可用性的公告将通过电子邮件发送到RefSeq公告电子邮件列表(参见表表2)。2). 为一些感兴趣的生物体提供了额外的FTP数据,包括人类、小鼠和大鼠的转录物和蛋白质数据集。用户可能有兴趣订阅vog.hin.mln.ibcn@ecnunna qesfer接收有关RefSeq发布和计划修改的信息。

链接

多个NCBI数据库和资源包括指向RefSeq记录的链接。RefSeq记录的链接可以在许多Entrez数据库和资源中找到,包括Gene、UniGene、HomoloGene、Map Viewer和UniSTS。

参考文献

1Schuler G.D.、Epstein,J.A.、Ohkawa,H.和Kans,J.A.(1996)Entrez:分子生物学数据库和检索系统。方法酶制剂。,266, 141–162. [公共医学][谷歌学者]
2Altschul S.F.、Gish,W.、Miller,W.,Myers,E.W.和Lipman,D.J.(1990)基本局部对齐搜索工具。分子生物学杂志。,215, 403–410. [公共医学][谷歌学者]
三。Altschul S.F.、Madden,T.L.、Schaffer,A.A.、Zhang,J.、Zhan、Miller,W.和Lipman,D.J.(1997)Gapped BLAST和PSI-BLAST:新一代蛋白质数据库搜索程序。核酸研究。,25, 3389–3402.[PMC免费文章][公共医学][谷歌学者]
4.Benson D.A.、Karsch-Mizrachi,I.、Lipman,D.J.、Ostell,J.和Wheeler,D.L.(2005)GenBank。核酸研究。,,D34–D38。[PMC免费文章][公共医学][谷歌学者]
5Christie K.R.、Weng,S.、Balakrishnan,R.、Costanzo,M.C.、Dolinski,K.、Dwight,S.S.、Engel,S.R.、Feierbach,B.、Fisk,D.G.、Hirschman,J.E。(2004)酿酒酵母基因组数据库(SGD)提供了用于识别和分析来自酿酒酵母以及其他生物的相关序列。核酸研究。,32, 311–314.[PMC免费文章][公共医学][谷歌学者]
6FlyBase Consortium(2003)果蝇基因组项目和社区文献的FlyBase数据库。核酸研究。,31, 172–175.[PMC免费文章][公共医学][谷歌学者]
7Maglott D.、Ostell,J.、Pruitt,K.D.和Tatusova,T.(2005)Entrez Gene:NCBI以基因为中心的信息。核酸研究。,,D54–D58。[PMC免费文章][公共医学][谷歌学者]
8Bult C.J.、Blake J.A.、Richardson J.E.、Kadin J.A.、Eppig J.T.、Baldarelli R.M.、Barsanti K.、Baya M.、Beal J.S.、Boddy W.J。(2004)小鼠基因组数据库(MGD):将生物学与基因组相结合。核酸研究。,32, 476–481.[PMC免费文章][公共医学][谷歌学者]
9.Marchler-Bauer A.、Anderson J.B.、DeWeese-Scott C.、Fedorova N.D.、Geer L.Y.、He S.、Hurwitz D.I.、Jackson J.D.、Jacobs A.R.、Lanczycki C.J。(2003)CDD:保守领域比对的精心策划的Entrez数据库。核酸研究。,31, 383–387.[PMC免费文章][公共医学][谷歌学者]
10.Sherry S.T.、Ward M.H.、Kholodov M.、Baker J.、Phan L.、Smigielski E.M.和Sirotkin K.(2001)dbSNP:NCBI遗传变异数据库。核酸研究。,29, 308–311.[PMC免费文章][公共医学][谷歌学者]
11Touriol C.、Bornes,S.、Bonnal,S.和Audigier,S.,Prats,H.、Prats、A.C.和Vagner,S(2003)通过非AUG密码子翻译的交替启动产生蛋白质亚型多样性。生物细胞。,95, 169–178. [公共医学][谷歌学者]
12Copeland P.R.(2003)通过终止密码子编码调节基因表达:硒代半胱氨酸。基因,312, 17–25.[PMC免费文章][公共医学][谷歌学者]
13Wheeler D.L.、Church D.M.、Edgar R.、Federhen S.、Helmberg W.、Madden T.L.、Pontius J.U.、Schuler G.D.、Schriml L.M.、Sequeira E.、。,(2005)国家生物技术信息中心数据库资源:更新。核酸研究。,32,D39–D45。[PMC免费文章][公共医学][谷歌学者]
14Tatusova T.A.、Karsch-Mizrachi,I.和Ostell,J.A.(1999)《WWW Entrez中的完整基因组:数据表示和分析》。生物信息学,15, 536–543. [公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社