关于RefSeq

参考序列（RefSeq）集合提供了一组全面、完整、无冗余、注释良好的序列，包括基因组DNA、转录物和蛋白质。RefSeq序列是医学、功能和多样性研究的基础。它们为基因组注释、基因鉴定和表征、突变和多态性分析（尤其是参考SeqGene记录）、表达研究和比较分析。[更多。。。]

RefSeq基因组是GenBank中所选组装基因组的拷贝。RefSeq转录和蛋白质记录由以下几个过程生成：

范围

NCBI为分类多样的生物体提供RefSeq，包括古生菌、细菌、真核生物和病毒。提供了基因组、转录物和蛋白质的参考序列。RefSeq中包括一些目标基因座项目，包括：参考SeqGene,真菌ITS、和rRNA基因座。随着数据公开可用，新的或更新的记录将添加到集合中。

参考序列增长统计

数据访问和可用性

RefSeq可通过访问爆炸、Entrez和NCBI FTP站点(参考序列发布、和RefSeq基因组)。NCBI的汇编、基因组和基因资源中也提供了信息，对于某些生物体，NCBI基因组浏览器中提供了其他信息基因组数据查看器。定义了特殊属性以便于基于条目的检索。另请参见：Entrez查询提示

显著特征

RefSeq集合的主要功能包括：

非冗余
显式连接的核苷酸和蛋白质序列
更新以反映序列数据和生物学的当前知识
数据验证和格式一致性
不同的加入序列（所有加入都包含下划线“_”字符）
NCBI工作人员和合作者正在进行的策展，并显示审查记录

RefSeq生产流程和政策

RefSeq记录来源于公开的序列数据；不同级别的验证、附加注释和手动管理应用于RefSeq记录。NCBI参考序列通过下文所述的单独过程提供。

本页简要概述了RefSeq生产过程。另请参阅：NCBI手册，RefSeq章节 NCBI手册，基因组注释章节 RefSeq原核基因组真核生物基因组注释政策

协作

对于某些生物体，带注释的RefSeq记录由合作小组提供。根据生物体的不同，可以在全基因组水平上建立协作，也可以为基因家族建立较小的协作。

全基因组合作包括以下记录酿酒酵母,拟南芥,黑腹果蝇、和秀丽隐杆线虫当建立这样的协作时，由协作组进行初级序列级审查。对合作提交的注释基因组数据的处理是半自动化的；数据由合作小组提供，并在NCBI进行验证，以检测明显错误（例如，带注释的CDS位置无法对提供的蛋白质进行编码），并以更统一的方式应用注释。NCBI处理可以集成其他信息，如术语或其他描述性数据。NCBI员工不会对这些记录进行额外的手动管理。NCBI可能会更新记录以纠正一般格式问题，但除此之外，只有当合作小组提供更新时，才会更新这些记录。如果报告了错误，则NCBI工作人员会将该信息转发给协作组。

协作提供的RefSeq记录确实在记录上包含提交组的指示，作为直接提交参考引用和/或在COMMENT块中。RefSeq状态（例如，REVIEWED等）要么由协作组指示，要么根据提供的注释推断。

基因组组装和注释管道

NCBI正在为一些组装的基因组序列数据提供注释，包括人类、小鼠、大鼠、蜜蜂、鸡、黑猩猩（以及其他）。此管道是自动的，数据定期刷新。从该管道产生的模型RefSeq记录具有显著的登录前缀（XM、XR、XP），来源于基因组序列，具有不同水平的转录物或蛋白质同源性支持，并且不受进一步的手动管理。

定义:

模型RefSeq：真核生物基因组注释管道生成的RNA和蛋白质产品。这些记录使用登录前缀XM_、XR_和XP_。
已知RefSeq：RNA和蛋白质产物，主要来源于GenBank cDNA和EST数据，并得到RefSeq真核生物保护组的支持。这些记录使用登录前缀NM_、NR_和NP_。

另请参阅：

真核转录物和蛋白质序列的NCBI管理：

一部分生物体（主要是哺乳动物）的RefSeq转录本和蛋白质记录由NCBI工作人员管理。治疗是一个持续的过程，一些记录尚未审查；管理状态显示在COMMENT块的RefSeq记录中。一些代表基因组区域（登录前缀NG_）的记录专门用于支持更全面的基因组水平注释。管理的RefSeq记录是通过一个过程创建的，该过程包括自动计算方法、协作和NCBI工作人员的手动数据审查。该过程在NCBI手册，RefSeq章节.

组合方法使用合作者提供的序列信息和自动BLAST分析来提供初始RefSeq记录。对记录进行验证，以纠正注释错误，并以更一致的格式提供注释。描述性信息，包括官方术语和其他引文，适用于记录。这些初始记录具有临时、预测或推断状态。

对这组RefSeq记录进行额外的手动管理，以提供最佳的序列记录，并修复序列错误，包括与某个位点的错误关联（如密切相关的基因家族可能发生的那样）、嵌合序列、载体或连接子污染或明显的序列错误。由于这个过程，核苷酸和蛋白质序列记录都可能发生变化。序列级审查主要由NCBI工作人员进行，但一些记录是通过协作提供的。这些记录具有“已验证”状态。在序列审查过程中，如果可用，可以应用附加注释、概要描述和其他功能信息。这些记录具有“已审阅”状态。

工艺流程包括以下步骤：

初始自动处理：
- 合作小组的自动处理和FTP下载提供了基因和序列关联的初始定义
- 验证和QA评估检查数据冲突和数据完整性
- 如果通过QA阶段，则自动提供RefSeq记录。初始RefSeq记录的状态为INFERRED、PREDICTED或PROVISIONAL，可能包括增强的特征注释，包括：
  - 出版物
  - 名称、符号、别名
  - GeneID编号
  - 与其他数据库的交叉引用
  - 地图信息
固化处理（QA失败和其他基因）：
- 收集可用数据
- 审查基因2序列关联：数据冲突通过NCBI员工审查与协作数据库合作解决；这一审查过程对于准确表示密切相关的基因至关重要。
- 固化可进一步增强RefSeq转录本和/或蛋白质记录，包括：
  - 序列信息
    - 清除载体、连接器污染
    - 扩展UTR
    - 通过纠正测序错误或选择要表示的多态性变体来表示最佳序列，如已发表的报告、内部序列分析或个人通信中所确定的那样。
    - 当有足够的明确数据可用时，表示拼接变体记录
  - 注释信息：
    - 添加出版物
    - 添加关于基因和蛋白质功能的摘要描述
    - 添加转录变体的描述
    - 添加特征注释，如成熟蛋白质产品、多聚腺苷化信号和位点
    - 确保非典型生物学的正确表现，如硒蛋白、核糖体滑移或非AUG翻译起始位点。
多个合作支持此过程。

由于此管道中有强大的手动管理组件，因此特别欢迎来自研究社区的输入，以进一步提高此数据集的质量。此管道生成的RefSeq记录用作基因组组装和注释管道中的试剂（见上文）。

参考序列

综合参考序列