美国国旗

美国政府的官方网站

NCBI书架。美国国立卫生研究院国家医学图书馆的一项服务。

McEntyre J,Ostell J,编辑。NCBI手册[互联网]。贝塞斯达(医学博士):美国国家生物技术信息中心;2002-.

  • 本出版物仅供历史参考,信息可能已过时。

本出版物仅供历史参考,信息可能已过时。

NCBI手册封面

NCBI手册[互联网]。

显示详细信息

第18章参考序列(RefSeq)数据库

,,、和.

创建:; 上次更新时间:2012年4月6日.

预计阅读时间:24分钟

总结

美国国立生物技术信息中心的引用序列(参考序列)数据库是一个分类多样、无冗余和注释丰富的序列的集合,代表DNA,核糖核酸和蛋白质。包括来自质粒、细胞器、病毒、古菌、细菌和真核生物的序列。每个RefSeq都是完全根据提交给国际核苷酸序列数据库协作组织(INSDC)的序列数据构建的。与评论文章类似,RefSeq是在给定时间跨多个来源集成的信息的综合。RefSeq为将序列数据与遗传和功能信息结合起来提供了基础。它们的产生是为了为多种目的提供参考标准,从基因组注释到报告医疗记录中序列变异的位置。RefSeq集合无限制可用,可以通过多种不同的方式检索,例如通过搜索或通过NCBI资源中的可用链接检索,包括公共医学,核苷酸,蛋白质,基因、和图谱浏览器,使用序列通过搜索爆炸,并从下载参考序列FTP现场。

本章介绍:

  • 数据库内容
  • 如何收集和维护数据
  • 如何访问和检索RefSeq

介绍

美国国立生物技术信息中心的引用序列(参考序列)集合是一个可自由访问的自然发生的数据库DNA,核糖核酸和蛋白质序列。它是一种独特的资源,因为它提供了一个大型、多物种、精心策划的序列数据库,表示从基因组到转录物和翻译产品(视情况而定)的单独但明确链接的记录。与公共序列存储库中的序列冗余不同,这些存储库包含INSDC公司, (,NCBI的GenBank(基因银行),的欧洲核苷酸档案[ENA],以及日本DNA数据库[DDBJ公司])RefSeq收集旨在为每一个包含的物种提供一套完整的非冗余、广泛交联和注释丰富的核酸和蛋白质记录。然而,人们认识到,公共序列数据的覆盖范围和完成程度因生物体而异,因此在某些情况下会提供中间基因组记录。

非冗余性参考序列收集有助于基于基因组位置、序列或文本注释的数据库查询。然而,请注意,RefSeq集合确实包括编码相同蛋白质或不同蛋白质亚型的选择性剪接转录物,以及一些生物体的直向同源物、旁系同源物和选择性单倍型,这将影响数据库查询的结果。

参考序列记录基于提交给INSDC公司。但是,RefSeq集合是一个独特的数据库。公共档案数据库包含原始作者提供的序列和注释,其他人无法更改。RefSeq集合与档案数据库的不同之处在于,综述文章与有关同一主题的主要研究文章的相关集合的不同之处。每个RefSeq记录代表一个人或一组对其他人生成和提交的主要信息的综合。其他的组织原则或判断标准也是可能的,这就是为什么这项工作要归功于综合性的“编辑”。RefSeq数据集由协作小组和美国国立生物技术信息中心员工。序列记录以标准格式呈现,并经过计算验证。这个INSDC公司RefSeq记录的来源、策展状态和策展组的归属也会显示出来。

这个参考序列收集建立了一个有用的基线,用于将不同的数据类型(包括序列、遗传、表达和功能信息)集成到一个具有统一约定和标准集的一致框架中。RefSeq集合支持以下活动:

  • 基因组注释
  • 基因特征
  • 比较基因组学
  • 报告序列变化,以及
  • 表达研究

数据库内容:背景

2011年5月参考序列该集合(Release 47)包含来自12000多个不同分类标识符的序列,从病毒到细菌再到真核生物。它代表染色体、细胞器、质粒、病毒、转录物和超过1260万个蛋白质。每个序列都有一个稳定的登录号、一个版本号和一个整数标识符(gi)。如果序列被更新,过期的版本总是可用的。RefSeq记录可以与INSDC公司通过在加入编号的第三个位置添加下划线(“_”)来记录。RefSeq登录前缀就其所代表的分子类型而言具有隐含的含义,如表1.

表1。RefSeq登录号和分子类型。

表1。

RefSeq登录号和分子类型。

更新

参考序列每天都会提供更新。这些包括添加到集合中的新记录,以及更新以反映序列或注释更改的记录,包括基因组的完整重新注释。新的和更新的记录可在Entrez公司爆炸数据库。这个RefSeq FTP站点还提供每日更新信息。

平面文件格式和带注释的特征

参考序列记录的格式类似于GenBank(基因银行)记录。RefSeq记录的新属性包括唯一的加入前缀,后跟下划线(表1)和a评论指示RefSeq的字段地位INSDC公司序列信息的来源(图第1页,1B年,1摄氏度、和一维). 对于人类RefSeq评论字段还指示RefSeq是否是参考SeqGene项目。一些RefSeq记录可能包含在底层中看不到的功能注释或数据库交叉引用(db_xrefs)INSDC公司记录。该注释由计算和手动管理提供。例如,核苷酸变异,标准时间、和tRNA特征是使用中可用的数据为RefSeq条目的子集计算的数据库SNP(第5章),UniSTS大学,并通过tRNA-scan预测(Lowe和Eddy,1997年). 对于人类和老鼠来说,外显子还计算RefSeq转录本和非订阅的特征注释假基因记录。Db_xref提供指向的链接基因命名机构,如HUGO基因命名委员会(HGNC公司)人类RefSeq记录和共识客户尽职调查(CCDS公司)项目。RefSeq蛋白也报告了由美国国立生物技术信息中心保守结构域数据库(第三章). 从相应的UniProtKB/Swiss-Prot公司物种子集的记录。其他核苷酸和蛋白质特征、出版物和评论可由合作小组或NCBI工作人员添加。

表2。RefSeq状态代码。

表2。

RefSeq状态代码。

图1A。RefSeq记录的功能。

图1A。

RefSeq记录的功能。显示以GenBank平面文件格式显示的RefSeq记录的开头。

图1B。COMMENT和PRIMARY部分。

图1B:。

评论和主要部分。基因摘要仅提供给具有REVIEWED状态的参考序列。PRIMARY块提供RefSeq组件详细信息,主要用于脊椎动物记录。

图1C。功能部分。

图1C:。

功能部分。仅显示可用特征注释的子集。

图1D。NCBI的序列查看器。

图1D:。

NCBI的序列查看器。RefSeq记录上带注释的特征可以以图形格式显示(注意图1A中的链接“Graphics”)。可以通过“配置”链接修改显示。这个(更多…)

组装和维护RefSeq集合

总结

这个参考序列收集是从中提取数据的结果INSDC公司提交、管理和计算,以及与权威团体的广泛合作。每个分子都尽可能准确地标注了有机体名称、菌株(或品种、生态型、品种或分离物)、该有机体的基因符号和信息蛋白质名称。与外部权威团体合作美国国立生物技术信息中心提供各种信息,包括策划的序列数据、命名法、特征注释和指向外部组织特定资源的链接。当没有建立协作时,NCBI工作人员从INSDC公司提交。每个记录都有一个评论,表明其获得的管理水平(表2)以及协作组的归属。因此,RefSeq记录可能是原始记录的基本不变的有效副本INSDC公司提交,或包括合作者或NCBI员工提供的更新或附加信息。

如果多个INSDC公司提交物代表生物体的同一分子,选择“最佳”序列表示为参考序列记录。避免了已知的突变、测序错误、克隆伪影和错误的注释。验证序列以确认基因组序列对应于注释信使核糖核酸特征与mRNA序列记录相匹配,编码区特征转化为相应的蛋白质序列。

使用不同流程管道的工作组编译参考序列不同生物的采集(图2). RefSeq记录通过几种不同的方法提供,包括:

图2。重新排序处理管道。

图2。

重新排序处理管道。存放在公共档案数据库中的序列数据可用于RefSeq处理。处理管道包括脊椎动物管理管道、计算基因组注释管道和从(更多…)

协作

参考序列欢迎与外部权威团体合作美国国立生物技术信息中心愿意提供序列、命名、注释或与表型或有机体特定资源的链接。RefSeq(参考序列)反馈表可以用于提供更正或启动协作。合作的程度可能有所不同。对于某些物种,整个RefSeq集合的序列和注释由合作的权威团体提供(参见表3例如)。对于其他人,尤其是人类和小鼠RefSeq集合,与个别科学家的大量合作有助于特定基因或完整基因家族的表示。人类和小鼠的命名也通过与HUGO基因命名委员会合作提供(HGNC公司)和小鼠基因组信息学小组(MGI公司)分别为;表4提供了其他示例。其他合作延伸到整个生物体;例如,董事会病毒基因组顾问支持病毒RefSeq集合的管理。因此,RefSeq记录可能包含由外部权威来源和/或NCBI的分析和管理提供的信息。合作小组在记录中确定。

表3。贡献RefSeq记录的合作者示例。

表3。

贡献RefSeq记录的合作者示例。

表4。

表4。

合作小组示例

的处理参考序列完全由外部集团提供的记录基本上是自动化的。定期提交序列和/或注释,验证以检测注释中的冲突,并稍作修改以将提交格式化为RefSeq记录,包括将db_xrefs添加到基因.美国国立生物技术信息中心工作人员不会直接策划注释或修改协作组提供的RefSeq记录的序列。验证过程或科学界发现的任何问题都会报告给提交小组,对注释或序列所做的任何更新都会反映在未来的RefSeq版本中。

从GenBank记录中提取

病毒、细胞器、原核生物和一些真核生物的完整基因组数据被传播到参考序列来自全基因组序列数据的记录和注释GenBank(基因银行)(也在ENA和DDBJ公司公共档案)。通常,在RefSeq记录公开之前执行初始验证步骤。结果RefSeq记录是GenBank(基因银行)提交,但作为验证步骤的结果,可能包含一些附加注释。特别是,转录本作为大多数真核生物的单独RefSeq记录提供;这个GenBank(基因银行)提交用于传播RefSeq记录的基因组序列仅实例化蛋白质,而不是转录本。

该流程由生物项目基因组数据库。这个生物项目数据库跟踪提交给的全基因组测序项目的状态GenBank(基因银行),其他类型的大型项目,并提供有机体的概述以及与数据和其他资源的链接。由此产生的基因组参考序列数据表示在基因组数据库,包括细菌、古菌、真核生物、类病毒、病毒、质粒和细胞器。这个基因组该网站提供原核生物和一些真核生物基因组的自定义显示、分析和工具(请参阅表5).

表5。选定的Entrez基因组资源。

表5。

选定的Entrez基因组资源。

注意,大多数真核生物基因组的处理更为复杂,需要从GenBank(基因银行),并且独立发生,这主要是因为数据量要大得多。

提取GenBank(基因银行)用于处理的全基因组数据参考序列记录分为四个主要类别:染色体,微生物基因组,小型完整基因组,和目标基因座.

染色体

从单个克隆(它们本身可以从INSDC公司)传播到参考序列记录。对于某些基因组,RefSeq表示使用研究团体感兴趣的单位;例如,一些RefSeq基因组记录黑腹果蝇代表染色体臂,而不是完整的染色体。RefSeq记录也可用于尚未完全测序但可用于单个染色体的完整序列的一些基因组。这些完整的染色体RefSeq记录可以通过美国国立生物技术信息中心计算注释管道,或者它们可能由特定组织的合作小组策划,并在发布之前接受NCBI验证。

微生物基因组

对于微生物物种,历史上所有完整和草图基因组都提交给GenBank(基因银行)已传播到参考序列收藏。由于正在生成大量基因组数据,这不再成立,因此从新的GenBank(基因银行)仅为跨越分类学多样性而提交的材料;这意味着通常每个物种提供一个基因组RefSeq。如果存在显著的序列多样性,或者如果亚种或亚组需要由美国国立生物技术信息中心对于给定的物种,可能存在多个RefSeq。

小型完整基因组

参考序列代表细胞器、病毒和质粒基因组的记录基于单个GenBank(基因银行)记录。对于细胞器和病毒基因组,如果不止一个GenBank(基因银行)提交可用于一个物种,通常只选择一个物种传播到RefSeq集合。在决定哪些因素时,要考虑各种因素,包括注释级别、应变信息和社区输入GenBank(基因银行)提交以代表。没有质粒分类学;GenBank(基因银行)如果提交物是更大的注册基因组测序项目的一部分,或者与其他质粒相比显示出显著的序列差异,则将其传播到RefSeq集合。

目标基因座

这个RefSeq目标位置项目是一项合作努力,以管理和维护用于生物鉴定和分类的分子标记。最初的重点是核糖体RNA,尽管预计会扩展到其他信息序列。发件人GenBank(基因银行)提交,该项目为核糖体的小亚单位创建RefSeq记录核糖核酸(原核生物16S,真核生物18S)和大亚单位核糖体RNA(原核动物23S,真核生物28S)。截至2010年11月,细菌和古细菌中有3331条16S rDNA RefSeq记录,真菌中有137条18S rDNA和97条28S rDNA RefSeq记录。

计算基因组注释管道

美国国立生物技术信息中心计算一些基因组的基因组序列数据注释,包括一些微生物、脊椎动物(例如、人、鼠、鼠、牛、斑马鱼等)和无脊椎动物(例如蜜蜂、橡子虫和豌豆蚜虫)。注释管道是自动化的,并产生基因组、转录物和蛋白质(适当时)参考序列记录。转录本和蛋白质产品上注释的名称基于序列相似性。注释数据会定期刷新,从该流程流生成的记录不会在注释运行之间进行管理或更新(请参阅第14章有关真核生物基因组注释管道的更多信息;有关NCBI原核生物注释管道的信息可获得的). 对于某些物种,包括人类,RefSeq记录可以通过混合方法提供。换句话说,除了通过计算生成的一组记录外,还可能存在一组精选的转录本和蛋白质记录(见下一节)。NCBI管道处理的RefSeq记录显示在NCBI中图谱浏览器(第20章),包含在中基因、和在NCBI的序列数据库中可用。

NCBI工作人员管理

的一部分参考序列数据集由美国国立生物技术信息中心员工。这一亚类包括病毒、线粒体、脊椎动物和一些无脊椎动物生物体。大多数细菌、植物和真菌记录都是通过合作或处理提交给INSDC公司; 然而,NCBI工作人员对少量细菌基因组进行了注释和整理。

微生物、病毒和线粒体RefSeq的治疗

微生物、病毒和后生动物线粒体参考序列对从原始文件传播的内容验证记录GenBank(基因银行)在公开之前提交,包括分类法、出版物和注释。此内容可以由美国国立生物技术信息中心策展人员。

对于微生物基因组,一组最小注释标准(描述在这里)在所有旧版和新版上自动提供参考序列记录。这些包括核糖体RNA、转移RNA和带有locus_tags的蛋白质编码基因。利用BLASTn工具预测核糖体RNA核糖核酸序列数据库和/或使用Infinal(Eddy,2002)和Rfam模型(Griffiths-Jones等人,2003)。使用tRNAscan-SE预测转移RNA(Lowe和Eddy,1997)。可根据外部来源或文献综述添加高于最低标准的其他注释。与关联的批注美国国立生物技术信息中心蛋白质簇数据库也按选定的间隔传播到RefSeq记录(蛋白质和基因)。这个蛋白质簇数据库是从完整基因组中收集的RefSeq蛋白,广泛组织为以下组:原始基因组和细菌基因组和质粒、病毒、原生生物、植物、叶绿体和线粒体,并根据序列相似性和蛋白质功能进行注释。这种聚类可以将整个组作为一个集合来管理,允许特征明确的蛋白质在同一个集合中为研究较少的蛋白质提供注释集群.NCBI员工使用其他数据库中的文献和信息,包括UniProtKB/Swiss-Prot公司,用标准化的蛋白质名称、生化描述和其他数据注释每个簇,然后将其转移到相关RefSeq记录中的单个蛋白质。微生物基因组RefSeq记录通常具有临时的回顾地位.

病毒基因组的注释依赖于一组已建立的病毒RefSeq基因组顾问,的成员国际病毒分类委员会,以及外部的其他专家美国国立生物技术信息中心例如艾滋病咨询门诊-1参考序列(NC_001802号)由NCBI工作人员与本书作者合作策划逆转录病毒许多腺病毒和疱疹病毒记录都是由外部专家管理的。根据文献综述,NCBI馆长可以修改客户尽职调查核糖核酸注释与GenBank(基因银行)提交,与麻疹病毒RefSeq记录一样(NC_001498号). 病毒参考序列记录管理期间使用的其他NCBI资源包括蛋白质簇数据库和PASC公司是一种病毒分类工具,用于验证跨多个分类家族的病毒RefSeq记录的分类。NCBI还维护了几个专用的注释管道,用于病毒变异流感病毒资源。手动管理的病毒RefSeq记录用地位属于检验过的已验证在RefSeq COMMENT块中。

后生动物线粒体参考序列记录、标准化蛋白质、基因和核糖核酸名称的注释独立于物种特定的命名指南。其他管理可能包括添加通用名称或缺失tRNA,并根据蛋白质簇数据库。固化后生动物线粒体记录用注释地位属于检验过的.非介形虫和植物叶绿体RefSeq记录未经整理,完全来自原始记录INSDC公司提交,并具有地位属于临时的.

对于目标基因座,来自GenBank(基因银行)提交不包括在参考序列记录。可以修改任何要素注释以表示标准格式,以及引用原始格式的集合标识符和出版物GenBank(基因银行)可以添加提交。

脊椎动物和无脊椎动物记录的治疗

高等真核生物的治疗主要集中在哺乳动物基因组上,尤其是人类和小鼠,但也包括许多其他具有现有或计划基因组组装的物种。这个参考序列对这些生物的处理提供了转录物和蛋白质记录以及代表基因簇或假基因的一些基因组区域记录;这些基因组区域记录有助于全基因组注释。因为RefSeq使用独立于基因组集合的证据来表示RNA和蛋白质,所以数据集可以表示当前不属于该基因组集合的序列。RefSeq处理集成了官方术语和其他信息,包括备用名称,基因本体论(GO)术语、文献和基因重组转录因子在中可用基因多个协作支持此描述性信息的收集(表4; 另请参见第19章).

序列输入参考序列通过计算分析、协作和内部管理相结合的管理处理。如所示图2,初始RefSeq记录的生成取决于识别基因的代表性序列。新的基因和序列数据被添加到内部版本的基因数据库由RefSeq管理员、合作者、,美国国立生物技术信息中心的基因组注释管道,以及基于NCBI的非重复序列,cDNA路线,以及INSDC公司提交。定期执行质量评估(QA)流程,以识别有问题的数据以供审查。这些评估包括对命名、序列相似性、基因组位置和潜在克隆错误的分析(例如,嵌合体)。QA步骤还利用其他NCBI资源的数据,包括同源基因,图谱浏览器、和GenBank(基因银行)相关序列。数据冲突必须在INSDC公司提交用于生成RefSeq记录。

与明确关联的序列记录基因记录可以传播到参考序列记录。序列的完整性(例如,完整与部分客户尽职调查)和基因的类别(例如、蛋白质编码、,假基因)确定是否将生成RefSeq,如果是,则确定类型(DNA,核糖核酸,信使核糖核酸加上蛋白质)。RefSeq记录不是针对不完整蛋白质、转座元件或产品类型不确定的位点(例如,蛋白质编码与否)。然而,应该注意的是,RefSeq集合确实包括合作小组提供的部分转录物和蛋白质,或者当RefSeq基于提交给INSDC公司.

一旦确定了合适的“源”序列参考序列记录是使用来自INSDC公司内部版本的提交和注释数据基因数据库。信息来自基因包括基因ID、与其他数据库的交叉引用、官方命名法、别名、替代描述性名称、地图位置和引文,包括作为GenerRIF提交的那些。RefSeq记录还需要进行编程验证,以识别注释格式错误,并以更一致的格式提供注释。此阶段的记录具有临时的,预测的,或INFERRED(参考) 地位根据现有证据支持基因记录。

参考序列非蛋白编码的处理核糖核酸基因座使用与基因记录相关的最长定义转录记录。对于非转录位点(如非转录假基因),RefSeq记录通常来自较大基因组序列的一个区域。对这些类型记录的处理很少,因为当前的重点是对蛋白质编码位点的处理;然而,这些记录为计算注释管道提供了重要的试剂,并支持非蛋白质编码基因的注释,否则这些基因可能会被遗漏或误传为预测的蛋白质编码基因。

其他参考序列提供的记录代表了更大的基因组区域,包括参考SeqGene序列、基因簇、需要重排才能表达产物的基因(免疫球蛋白和T细胞受体)以及已知基因含量差异的单倍型。这些基因组区域记录注释为美国国立生物技术信息中心策展人员通常与科学专家合作,而不是由自动处理提供。

参考SeqGene,国际基因座参考基因组的合作伙伴(液化天然气)合作,提供稳定的参考标准基因组,核糖核酸和蛋白质RefSeqs用于医学上重要的基因。这些标准支持HGVS公司用于描述病历中序列变异的表达式,因此被构造为代表标准等位基因。这个参考SeqGene通常代表一个基因,位于序列的正链上,上游5kb,下游2kb。参考SeqGene记录还包括参考序列基因的转录本。上注释的所有序列参考SeqGene复习一下地位属于已验证检验过的.

脊椎动物和一些无脊椎动物的额外管理参考序列记录应公共用户和合作者的要求或内部QA分析的指示进行。QA分析关注但不限于:,同源基因-基于不一致蛋白质长度的报告,具有重复元素的RefSeq的鉴定,关于基因与序列关联或潜在冗余基因的问题,以及在基因组上一次注释的基因的报告,但在随后的基因组再注释中没有注释。此外,还对人类和小鼠进行了基于比对的测试,以确定RefSeq记录与基因组的比对质量较差、非感觉剪接或非常短或非常长的外显子。由技术娴熟的馆长对这些记录进行审查,得到了当时可用的最新和最完整的核苷酸和蛋白质序列表示和特征注释。序列审查可以删除载体和连接子序列,扩展UTR以定义全长转录本,修改客户尽职调查与原始文档关联的注释INSDC公司源加入,或创建额外的RefSeq记录来表示替代拼接的产品。RefSeq转录本和蛋白质记录中可以添加各种特征注释。对于核苷酸记录,这些包括转录完整性的指示、poly(A)信号和位点的位置以及序列变异和核糖核酸编辑。外显子注释仅用于人类和小鼠的RefSeq转录本和非转录假基因;对于成绩单,外显子注释通过转录本与参考基因组组装的比对确定,使用拆分,对于非转录假基因,来自拆分(Splign)功能基因与假基因基因组区域。对于蛋白质记录,特征注释可能包括替代或非AUG起始密码子,酶委员会(欧盟委员会)数量、成熟肽产物、蛋白质结构域和硒代半胱氨酸残基。最后,文献综述是替代名称、别名和功能信息的另一个来源,后者可用于在RefSeq记录上构建参考序列摘要。经过完整审查过程的RefSeq记录具有检验过的 地位请注意,对于许多基因,人工管理的中间水平可能只解决与RefSeq序列有关的问题;这些记录有审查地位属于已验证等待全面审查。

审查过程可能导致更新参考序列记录,提供新的RefSeq记录,修改序列到基因关联,合并基因记录,或中断RefSeq,基因ID或两者兼而有之。如果发现RefSeq记录代表来自错误有机体的转录重复元素,则该记录将被抑制(,的INSDC公司它所基于的序列有错误的有机体注释),或者不代表“基因”。被确定代表不完整序列的记录,例如部分蛋白质序列或不完全剪接的转录本,将被暂时抑制,直到获得更完整的序列数据。仍然可以检索被抑制的记录,并且在查询结果文档摘要中会显示免责声明(图3a). 禁止的记录不包括在爆炸数据库,在计算相关序列时,在眨眼显示(BLink是预先计算的蛋白质BLAST结果),或在参考序列FTP发布。如果发现一个RefSeq与另一个公共RefSeq冗余,则一个被保留,另一个成为次要的(图3b). 如果序列与两个不同的基因记录相关联,则合并记录,以便查询基因使用其中一个原始GeneID将检索剩余的单个记录。

图3。抑制或冗余RefSeq记录。

图3。

抑制或冗余RefSeq记录。(A) Entrez文档摘要中包含标准文本语句,用于抑制RefSeq记录。(A) 如果合并了冗余RefSeq记录,则平面文件accession行上会显示两个登录号(更多…)

我们欢迎研究界的投入,以提高参考序列收藏。欢迎感兴趣的各方通过发送电子邮件至美国国立生物技术信息中心帮助台(vog.hin.mln.ibcn@ofni网站)或者使用我们的反馈表.

访问和检索

参考序列可以通过直接查询来访问记录,爆炸,文件传输协议下载,或通过几个美国国立生物技术信息中心资源,包括基因,基因组,生物项目、和图谱浏览器(表6). 此外,RefSeq记录包含在一些计算资源中,因此可以从这些页面找到指向单个RefSeq纪录的链接。来自的一些链接Entrez公司RefSeq记录的数据库基于基因关联(例如,链接来自OMIM公司;第7章),而其他则基于序列相似性或RefSeq注释内容,包括来自公共医学.RefSeq记录很容易通过其独特的登录号格式在这些资源中区分(表1).

表6。带有指向RefSeq记录链接的NCBI资源。

带有指向RefSeq记录链接的NCBI资源。

如何访问和检索参考序列记录如下所述。

Entrez查询访问

参考序列记录可以从Entrez公司系统(第十五章)通过查询登录号、符号或locus_tag、名称,或使用Entrez限制财产条款。所有RefSeq都可以在Entrez核苷酸蛋白质数据库;RefSeq和INSDC公司将包括提交内容,但在结果页面的右上角提供了一个过滤器,以便在需要时仅显示RefSeq输入。可以使用MyNCBI公司接口。或者,可以使用限制页面或通过查询财产,例如“srcdb_refseq[property]”,或中列出的其他表7.限制属性也可以用于将结果限制为分子类型,例如DNA信使核糖核酸. TheEntrez帮助文档提供了有关查询的其他信息。

表7。Entrez查询以检索RefSeq记录集。

表7。

Entrez查询以检索RefSeq记录集。

基因包含参考序列集合,还支持使用上述所有策略进行查询。RefSeq-to-Gene连接也通过直接链接提供;RefSeq记录包含指向基因报告页面,通过基因ID 数据库参考基因与客户尽职调查功能(图1C).基因在报告的RefSeq部分中报告RefSeq登录号,并链接到核苷酸蛋白质记录。中的“链接”菜单基因还提供了与RefSeq RNA、RefSeq蛋白和参考SeqGene.基因报告可能包括基因组注释数据的图形描述基因组区域、转录物和产物节,带有指向的链接核苷酸蛋白质显示。当提供此图形部分时,可以使用附加报告,其中包含以下详细信息外显子内含子边界和长度。您可以从以下位置更改显示格式完整报告基因表以访问此报告。注意,代表组装环境样品的RefSeq记录(带有NS_加入前缀)不包括在基因但可以在基因组核苷酸数据库。

参考序列中的记录基因组生物项目可以使用完整基因组分子的登录号(NC_登录前缀)或生物体名称检索数据库。这个生物项目还可以使用属性限制“srcdbrefseq[property]”查询数据库。

参考序列属于参考SeqGene集合可以从Entrez公司系统使用“RefSeqGene[keyword]”。

爆炸

参考序列成绩单记录包括在核苷酸非冗余(nr)和RefSeq信使核糖核酸序列数据库。RefSeq蛋白记录包含在蛋白质数据库。结果集中的访问,RefSeq或GenBank(基因银行),与基因记录用一个小蓝色表示G公司图标,它链接到基因报告。RefSeq基因组记录(整个染色体或支架RefSeq记录和参考SeqGene记录)在参考基因组序列数据库中或通过特定于生物体的基因组提供爆炸数据库,可以通过图谱浏览器,生物项目报告,或基因组生物学网页。参考SeqGene记录也从BLAST结果中的nr数据库和专用RefSeqGene数据库中检索。

图谱浏览器

这个美国国立生物技术信息中心 图谱浏览器支持查询方式参考序列参考SeqGene如果该资源中有注释的基因组,则为登录号。

文件传输协议

参考序列数据有三种文件传输协议地区:

共识编码序列(CCDS)项目

这个CCDS项目旨在为人类和小鼠基因组上的蛋白质编码基因提供一套完整的高质量注释。它利用了美国国立生物技术信息中心合奏以及主要由哈瓦那团队提供的专家策展威康信托桑格研究所和NCBI参考序列工作人员,追踪人类和小鼠基因组参考集合上的相同蛋白质注释,并确保它们在公共资源中得到一致和准确的表示。CCDS集合包括注释为全长的编码区域(具有初始AUG和有效停止-密码子),可以从基因组翻译而不需要移码,并使用一致剪接位点。CCDS集合中的注释基因与唯一的识别号和版本相关。版本号将随着客户尽职调查结构或基础基因组序列,尽管任何改变都需要合作协议。请参见公共医学身份证件19498102了解更多信息。

  1. Blake JA、Bult CJ、Kadin JA、Richardson JE、Eppig JT、。,小鼠基因组数据库组。小鼠基因组数据库(MGD):哺乳动物基因组学和遗传学的首要模型生物资源。编号。酸类研究。2011;39:D842-8。(公共医疗ID)[PMC免费文章:PMC3013640] [公共医学: 21051359]
  2. 棺材JM、休斯SH和E Varmus。(1997)逆转录病毒。冷泉港(纽约):冷泉港实验室出版社。[公共医学: 21433340]
  3. Dwinell MR、Worthey EA、Shimoyama M、Bakir-Gungor B、DePons J、Laulederkind S、Lowry T、Nigram R、Petri V、Smith J、Stoddard A、Twigger SN、Jacob HJ、RGD团队。2009年大鼠基因组数据库:变异、本体和途径。编号。酸研究。2009;37:D744–9。(公共医学)[PMC免费文章:PMC2686558] [公共医学: 18996890]
  4. Eddy SR.一种节省内存的动态编程算法,用于将序列与RNA二级结构进行最佳对齐。BMC生物信息学。2002;:18.(公共医疗ID)[PMC免费文章:PMC119854] [公共医学: 12095421]
  5. Griffiths-Jones S、Bateman A、Marshall M、Khanna A、Eddy SR-Rfam:RNA家族数据库。编号。酸类研究。2003;31:439–441.(公共医疗ID)[PMC免费文章:PMC165453] [公共医学: 12520045]
  6. Amberger,J.、Bocchini,C.和Hamosh,A.(2011),《人类在线孟德尔遗传的新面孔和新挑战》(OMIM®)。人类突变,32:n/a.doi:10.1002/humu.21466。(PubMed ID).21472891。[公共医学: 21472891] [交叉参考]
  7. Lowe TM,Eddy SR.tRNAscan-SE:改进检测基因组序列中转移RNA基因的程序。编号。酸类研究。1997;25:955–964.(公共医疗ID)[PMC免费文章:PMC146525] [公共医学: 9023104]
  8. Maglott D、Ostell J、Pruitt KD、Tatusova T.Entrez基因:NCBI以基因为中心的信息。编号。酸类研究。2011;39:D52–7。(公共医疗ID)[PMC免费文章:下午3:013746] [公共医学: 21115458]
  9. Marchler-Bauer A、Lu S、Anderson JB、Chitsaz F、Derbyshire MK、Deweese-Scott C、Fong JH、Geer LY、Geer RC、Gonzales NR、Gwadz M、Hurwitz DI、Jackson JD、Ke Z、Lanczycki CJ、Lu F、Marchler GH、Mullokandov M、Omelchenko MV、Robertson CL、Song JS、Thanki N、Yamashita RA、Zhang D、Zhan C、Bryant SH。CDD:蛋白质功能注释的保守域数据库。编号。酸类研究。2011;39:D225–9。(公共医疗ID)[PMC免费文章:PMC3013737] [公共医学:21109532]
  10. Pruitt KD、Harrow J、Harte RA、Wallin C、Diekhans M、Maglott DR、Searle S、Farrell CM等。共识编码序列(CCDS)项目:确定人类和小鼠基因组的共同蛋白编码基因集。基因组研究。2008;19(7):1316–1323.(公共医疗ID)[PMC免费文章:PMC2704439] [公共医学: 19498102]
  11. Pruitt KD、Tatusova T、Klimke W、Maglott DR.NCBI参考序列:现状、政策和新举措。编号。酸类研究。2009;37:D32-36。(公共医疗ID)[PMC免费文章:PMC2686572] [公共医学: 18927115]
  12. Tatusova TA、Karsch-Mizrachi I、Ostell JA。WWW Entrez中的完整基因组:数据表示和分析。生物信息学。1999;15:536–43.(公共医疗ID)[公共医学: 10487861]
  13. 网址:http://www​.ncbi.nlm.nih公司​.gov/pubmed/18996890Sprague J、Bayraktaroglu L、Clements D、Conlin T、Fashena D、Frazer K、Haendel M、Howe D、Mani P、Ramachandran S、Schaper K、Segerdell E、Song P、Sprunger B、Taylor S、Van Slyke C和M Westerfield。(2006)斑马鱼信息网:斑马鱼模型生物数据库。编号。《酸类研究》34:D581-D585(PubMed ID).16381936。[PMC免费文章:PMC1347449] [公共医学: 16381936]
  14. Seal RL、Gordon SM、Lush MJ、Wright MW、Bruford EA。genenames.org:2011年HGNC资源。核酸研究。2011;39:D519–9。(公共医疗ID)[PMC免费文章:PMC3013772] [公共医学: 20929869]
  15. Tweedie S、Ashburner M、Falls K、Leyland P、McQuilton P、Marygold S、Millburn G、Osumi-Sutherland D、Schroeder A、Seal R、Zhang Z和FlyBase Consortium。(2009)FlyBase:增强果蝇基因本体注释。编号。《酸类研究》37:D555-D559(PubMed ID),18948289。[PMC免费文章:PMC2686450] [公共医学: 18948289]

意见

最近的活动

您的浏览活动为空。

活动录制已关闭。

重新打开录制

查看更多。。。