美国国旗

美国政府的官方网站

关于RefSeq

参考序列(RefSeq)集合提供了一组全面、完整、无冗余、注释良好的序列,包括基因组DNA、转录物和蛋白质。RefSeq序列是医学、功能和多样性研究的基础。它们为基因组注释、基因鉴定和表征、突变和多态性分析(尤其是参考SeqGene记录)、表达研究和比较分析。[更多。。。]

RefSeq基因组是GenBank中所选组装基因组的拷贝。RefSeq转录和蛋白质记录由以下几个过程生成:

范围

NCBI为分类多样的生物体提供RefSeq,包括古生菌、细菌、真核生物和病毒。提供了基因组、转录物和蛋白质的参考序列。RefSeq中包括一些目标基因座项目,包括:参考SeqGene,真菌ITS、和rRNA基因座。随着数据公开可用,新的或更新的记录将添加到集合中。

参考序列增长统计

数据访问和可用性

RefSeq可通过访问爆炸、Entrez和NCBI FTP站点(参考序列发布、和RefSeq基因组)。NCBI的汇编、基因组和基因资源中也提供了信息,对于某些生物体,NCBI基因组浏览器中提供了其他信息基因组数据查看器。定义了特殊属性以便于基于条目的检索。另请参见:Entrez查询提示

显著特征

RefSeq集合的主要功能包括:

  • 非冗余
  • 显式连接的核苷酸和蛋白质序列
  • 更新以反映序列数据和生物学的当前知识
  • 数据验证和格式一致性
  • 不同的加入序列(所有加入都包含下划线“_”字符)
  • NCBI工作人员和合作者正在进行的策展,并显示审查记录

RefSeq生产流程和政策

RefSeq记录来源于公开的序列数据;不同级别的验证、附加注释和手动管理应用于RefSeq记录。NCBI参考序列通过下文所述的单独过程提供。

本页简要概述了RefSeq生产过程。另请参阅:NCBI手册,RefSeq章节 NCBI手册,基因组注释章节 RefSeq原核基因组 真核生物基因组注释政策

协作

对于某些生物体,带注释的RefSeq记录由合作小组提供。根据生物体的不同,可以在全基因组水平上建立协作,也可以为基因家族建立较小的协作。

全基因组合作包括以下记录酿酒酵母,拟南芥,黑腹果蝇、和秀丽隐杆线虫当建立这样的协作时,由协作组进行初级序列级审查。对合作提交的注释基因组数据的处理是半自动化的;数据由合作小组提供,并在NCBI进行验证,以检测明显错误(例如,带注释的CDS位置无法对提供的蛋白质进行编码),并以更统一的方式应用注释。NCBI处理可以集成其他信息,如术语或其他描述性数据。NCBI员工不会对这些记录进行额外的手动管理。NCBI可能会更新记录以纠正一般格式问题,但除此之外,只有当合作小组提供更新时,才会更新这些记录。如果报告了错误,则NCBI工作人员会将该信息转发给协作组。

协作提供的RefSeq记录确实在记录上包含提交组的指示,作为直接提交参考引用和/或在COMMENT块中。RefSeq状态(例如,REVIEWED等)要么由协作组指示,要么根据提供的注释推断。

基因组组装和注释管道

NCBI正在为一些组装的基因组序列数据提供注释,包括人类、小鼠、大鼠、蜜蜂、鸡、黑猩猩(以及其他)。此管道是自动的,数据定期刷新。从该管道产生的模型RefSeq记录具有显著的登录前缀(XM、XR、XP),来源于基因组序列,具有不同水平的转录物或蛋白质同源性支持,并且不受进一步的手动管理。

定义:

  • 模型RefSeq:真核生物基因组注释管道生成的RNA和蛋白质产品。这些记录使用登录前缀XM_、XR_和XP_。
  • 已知RefSeq:RNA和蛋白质产物,主要来源于GenBank cDNA和EST数据,并得到RefSeq真核生物保护组的支持。这些记录使用登录前缀NM_、NR_和NP_。

另请参阅:

真核转录物和蛋白质序列的NCBI管理:

一部分生物体(主要是哺乳动物)的RefSeq转录本和蛋白质记录由NCBI工作人员管理。治疗是一个持续的过程,一些记录尚未审查;管理状态显示在COMMENT块的RefSeq记录中。一些代表基因组区域(登录前缀NG_)的记录专门用于支持更全面的基因组水平注释。管理的RefSeq记录是通过一个过程创建的,该过程包括自动计算方法、协作和NCBI工作人员的手动数据审查。该过程在NCBI手册,RefSeq章节.

组合方法使用合作者提供的序列信息和自动BLAST分析来提供初始RefSeq记录。对记录进行验证,以纠正注释错误,并以更一致的格式提供注释。描述性信息,包括官方术语和其他引文,适用于记录。这些初始记录具有临时、预测或推断状态。

对这组RefSeq记录进行额外的手动管理,以提供最佳的序列记录,并修复序列错误,包括与某个位点的错误关联(如密切相关的基因家族可能发生的那样)、嵌合序列、载体或连接子污染或明显的序列错误。由于这个过程,核苷酸和蛋白质序列记录都可能发生变化。序列级审查主要由NCBI工作人员进行,但一些记录是通过协作提供的。这些记录具有“已验证”状态。在序列审查过程中,如果可用,可以应用附加注释、概要描述和其他功能信息。这些记录具有“已审阅”状态。

工艺流程包括以下步骤:

  1. 初始自动处理:

    • 合作小组的自动处理和FTP下载提供了基因和序列关联的初始定义
    • 验证和QA评估检查数据冲突和数据完整性
    • 如果通过QA阶段,则自动提供RefSeq记录。初始RefSeq记录的状态为INFERRED、PREDICTED或PROVISIONAL,可能包括增强的特征注释,包括:
      • 出版物
      • 名称、符号、别名
      • GeneID编号
      • 与其他数据库的交叉引用
      • 地图信息
  2. 固化处理(QA失败和其他基因):

    • 收集可用数据
    • 审查基因2序列关联:数据冲突通过NCBI员工审查与协作数据库合作解决;这一审查过程对于准确表示密切相关的基因至关重要。
    • 固化可进一步增强RefSeq转录本和/或蛋白质记录,包括:
      • 序列信息
        • 清除载体、连接器污染
        • 扩展UTR
        • 通过纠正测序错误或选择要表示的多态性变体来表示最佳序列,如已发表的报告、内部序列分析或个人通信中所确定的那样。
        • 当有足够的明确数据可用时,表示拼接变体记录
      • 注释信息:
        • 添加出版物
        • 添加关于基因和蛋白质功能的摘要描述
        • 添加转录变体的描述
        • 添加特征注释,如成熟蛋白质产品、多聚腺苷化信号和位点
        • 确保非典型生物学的正确表现,如硒蛋白、核糖体滑移或非AUG翻译起始位点。
  3. 多个合作支持此过程。

由于此管道中有强大的手动管理组件,因此特别欢迎来自研究社区的输入,以进一步提高此数据集的质量。此管道生成的RefSeq记录用作基因组组装和注释管道中的试剂(见上文)。

上次更新时间:2021-03-19T20:52:12Z