美国国旗

美国政府的官方网站

NLM GenBank和SRA数据处理

国家医学图书馆(NLM)国家生物技术信息中心(NCBI)负责管理基因序列信息的GenBank和序列读取档案(SRA)数据库。在本页和随附的图表中,您可以找到以下信息:

  • 序列数据是如何提交、处理并提供给公众的
  • 序列数据提交者和NCBI的责任
  • 数据状态的关键定义
描述数据通过数据状态类别的定向流的图表:已提交、私有和公共、已中断、已撤消和已禁止。

提交数据

序列数据提交可能由包括研究人员在内的各种个人发起,公共卫生实验室、测序中心、数据分析中心以及与数据协调中心关联的人员。提交人出于多种原因将序列数据和元数据存入GenBank或SRA,包括:

  • 遵守政府当局、出版商或资助者制定的数据共享政策(例如NIH科学数据共享政策)
  • 支持研究团体制定的原则,如百慕大原则,或展览会(可查找、可访问、可互操作和可重用)数据原则
  • 支持开放科学
  • 为公众利益服务

提交人负责格式化提交、会议的序列数据NCBI提交标准,确保他们有权提交序列数据并使用NCBI服务提交序列数据和元数据。提交时,提交人可以指定所需的公众序列数据的发布日期(例如,与期刊文章的预期发布日期保持一致)。提交人可以要求在预定发布日期或请求之前公开私人数据延长发布日期(例如,与期刊文章的预期发布日期保持一致)。

处理提交文件

NCBI负责处理提交的序列数据。处理包括执行自动化和手动检查以确保数据完整性、质量,并为提交的序列数据分配登录号。NCBI将序列数据保存在私有的处理期间以及公开发布之前的状态。

通常,NCBI按照收到的顺序处理提交的文件。然而,NCBI可能会优先处理与大流行或公共卫生紧急情况相关的提交文件。根据提交人的要求,NCBI还可以优先处理与即将发布的出版物相关的提交文件。

NCBI可以在公开发布之前的任何时候暂停处理提交的序列数据提交者的请求。在这种情况下,NCBI不会发布序列数据,并将数据保留在停产的状态。

NCBI可根据加工过程中进行的质量控制检查确定数据质量不足以公开发布。在这种情况下,NCBI将停止数据处理并用解释通知提交者。NCBI将序列数据保留在停产的状态。

公开发布和数据访问

NCBI负责通过将序列数据放入公众的状态。

NCBI通常在处理完成后或提交者指定的发布日期。NCBI还公开生成已完成处理的序列数据如果NCBI意识到数据或登录号已经发布在另一个数据库web资源中,或出版物。当序列数据公开发布时,NCBI会通知提交者。

NCBI将序列数据发布到多个存储位置,并传播以下数据网站、云平台、ftp站点、工具和应用程序编程的公共访问接口(API)。例如,NCBI使序列数据可用于登录和在NCBI网站上进行基于文本的搜索,并使用NCBI进行序列相似性搜索基本局部对齐搜索工具(爆炸)。也可以从FTP下载GenBank序列记录站点或使用NCBI访问电子公用事业应用程序编程接口。SRA序列记录可使用SRA工具包美国石油学会或上的亚马逊网络服务(AWS)和谷歌云平台(GCP)云。云平台上的SRA可用性支持快速访问大型数据集。

序列数据可能在这些NCBI存储位置、网站、,API和分析工具,因为新发布的数据在系统中传播。发布后,公开可访问的序列数据可通过网站界面中的登录号进行搜索。NCBI还对数据进行索引,以支持网站和API中基于文本的搜索(例如,按生物体名称)。

此外,NCBI与国际核苷酸序列数据库合作(INSDC)即欧洲生物信息学研究所(EBI)分子生物学实验室(EMBL)和国家遗传学研究所(NIG)日本信息与系统组织。此类交换使所有INSDC站点提供对公共可访问序列数据的全面收集的访问(INSDC成员不交换敏感受控访问人类序列数据)。因此,NCBI提供序列数据的公共访问以及提交给其他INSDC组织并由其处理的元数据,和其他INSDC组织提供对提交给NCBI的序列数据和元数据的公共访问。

NCBI还对数据进行索引,以支持网站和API中基于文本的搜索(例如,按生物体名称)。

NCBI提供的公共序列数据可由其他用户检索和重新分发,并在其他网站、数据库、工具、出版物、课程、会议记录或NCBI未管理的其他场所中显示。这些其他资源提供了检索时的快照并且可能不包含最新的更新或状态更改。

请求数据状态更改

GenBank和SRA的提交人通常负责请求更改其序列数据的状态。NCBI不直接管理提交给其他INSDC成员的序列数据的状态,这些数据库的提交者必须直接与INSDC成员合作,以更改数据的状态。

在某些情况下,提交者可能会要求在公开发布后删除其数据。NCBI负责验证请求是否有效(例如,请求来自提交者),确定请求满足本文描述的移除标准,并确定适当的移除方法。

序列数据可以通过以下两种方式之一从公共访问中删除:抑制撤退.

  • 数据包括被抑制的当提交者对数据质量或相关出版物的范围或时间变化等问题有顾虑,并且需要通过登录号保持数据可用性,以保持已发表科学记录的完整性时(见以下示例)。被抑制的数据仍然可以通过登录号公开访问,并从文本搜索和API或工具检索(例如BLAST)的索引中删除。
  • 数据包括撤回当人们担心公开数据可能造成的危害时,例如与国家安全、隐私或缺乏适当的知情同意有关的数据(参见下面的示例)。撤回的数据不能公开获取,即使是通过加入号。

当数据被抑制的撤回,NCBI更新数据状态并保留数据以供存档目的和实现未来可能的再释放。数据状态更改可能在不同时间生效跨一系列NCBI存储位置、网站、API和分析工具,包括其他INSDC成员的资源。

因为NCBI提供的公共序列数据可能会被其他用户检索和重新分配并出现在其他网站、数据库、工具、出版物、课程、会议记录中,或其他不受NCBI管理的场馆、被抑制的数据或可通过非NCBI管理的其他来源继续提取。

数据提交者可要求重新发布被禁止的数据发布数据,或确认或更新可疑数据。

提交人请求删除序列数据的有效理由示例包括:

  • 禁止公开数据:
    • 公开发布后,报告为来自单一生物体的数据被另一生物体的序列污染。
    • 已测序生物体的分类身份在公开发布后确定,尚待确认。例如,如果生物体可用于进行初始验证的其他序列很少或没有,并且初始命名后来被确定为不正确且无法更新,则可能会发生这种情况。
    • 公开发布后,发现数据中包含无法更正的错误,因此数据不适合在未来分析中重用。提交人发现的错误可能包括错误的组装、注释、元数据、样品混淆、污染或低质量序列(例如,提交的序列缺乏足够的支持证据)。
    • 数据随后被确定为不允许的提交类型或错误提交。
      • 例如,GenBank不允许在没有另一个提交者的协作或许可的情况下提交该提交者的序列数据。否则,如果提交人满足以下条件,则可以将此类数据作为第三方注释(TPA)提交TPA标准.
      • 提交人可能会错误地提交序列数据(例如,在执行提交过程的试运行时)。
    • 数据在达到提交者提供的公开发布日期时发布,并且在引用数据的发布或分析完成之前发布。
    • 提交者将GenBank或SRA中的重复数据通知NCBI(例如,由于冗余提交,或更新是作为新提交而非更新提供的)。在可能的情况下,将原始登录号作为“次要”登录号添加到新数据中,从而检索新的登录号以搜索原始登录号。如果这种跟踪不可能,通常是因为提交者没有提供从原始加入到新加入的精确映射,则原始提交的数据将被抑制。
  • 公共数据的撤回:
    • 提交人在公开可用后确定,他们没有适当的知情同意公开发布受保护的人类数据。
    • NCBI收到通知(例如,由首席研究员、实验室经理、机构或期刊),应基于渎职或欺诈收回数据。NCBI将与投诉人和/或机构合作,核实索赔。
    • NCBI收到通知,序列数据是由未经授权提交数据的人员上传的。NCBI将与首席研究员、实验室经理和/或机构合作,以核实索赔。
    • NCBI在数据处理期间错误地向公众发布序列数据。

数据状态定义

提交给GenBank和SRA的数据被指定为以下状态之一:

已停止:提交者已选择停止私人提交过程数据或NCBI在公开发布之前检测到质量问题。NCBI概述如果提交者稍后决定发布数据,则临时保留数据以支持提交者,但NCBI可能不会无限期保留停止提交的数据。

私人:私人数据无法通过任何方式公开。数据已提交正在处理和/或计划在未来发布。私人数据是预先决定和保密的,可能公开也可能不公开。

公共:公共数据完全可供搜索和分发。NCBI已完成数据的处理和发布。

已抑制:禁止显示的数据是以前公开的数据,已从NCBI基于文本的搜索和比较分析结果中删除,并且只能通过登录号访问。被抑制的数据通常有一个将来恢复公共状态的日期。

撤回:撤回的数据是以前公开的数据,已从NCBI基于文本的搜索和比较分析结果中删除,并且公众即使通过登录号也无法访问。NCBI保留数据以保持科学记录和灾难恢复,只有有限的例外(例如国家安全)。

上次更新日期:2023-01-04


上次更新时间:2023-02-10T12:29:47Z