跳到主要内容

GigaDB-提交指南

一般提交指南

GigaDB是一个中国国家基因银行受支持的存储库,用于存储与中的文章关联的数据和工具Giga科学。作为您提交的手稿的一部分,并符合报告标准提交给Giga科学我们将提供一个相关的GigaDB数据集,以托管透明性和再现性所需的数据和文件。GigaDB是一个开放存取数据库。因此,提交给GigaDB的所有数据都必须经过完全同意才能公开发布(有关我们数据政策的更多信息,请参阅我们的使用条款第页)。

工作流

下面的工作流程图详细说明了标准提交流程:

GigaScience手稿和数据提交流程流程图

工作流概述

此工作流程图概述了GigaScience的手稿和数据提交过程。它涵盖了从最初提交手稿到最终发布数据集的步骤。

工作流步骤

  1. 作者提交手稿
  2. 它是否在GigaScience的范围内?
  3. 决定:如果否,拒绝。如果是,请继续。
  4. 手稿里有数据吗?
  5. 决定:如果否,则不再有GigaDB参与。如果是,请继续。
  6. 同行评审员是否可以获得数据?
  7. 决定:如果否,请为作者提供专用FTP登录,然后作者将所有数据文件上载到GigaDB专用FTP区域并继续。如果是,请继续。
  8. 编辑向审稿人发送稿件和私人FTP登录详细信息
  9. 手稿通过审查了吗?
  10. 决定:如果否,要么拒绝,要么作者修改FTP服务器中的手稿和/或数据,然后继续。如果是,请继续。
  11. 所有数据都可用吗?
  12. 决定:如果没有,收集所有需要的数据。如果是,请继续。
  13. 所有元数据都可用吗?
  14. 决定:如果否,请收集所有必需的元数据。如果是,请继续。
  15. 光标将元数据上传到GigaDB
  16. 作者确认数据集页面了吗?
  17. 决定:如果否,作者将与策展人联系,以确保数据集页面完整且正确,然后策展人再次将元数据上传到GigaDB并生成数据集页面。如果是,则发布数据集。

当馆长联系您处理GigaDB数据集时,您将被邀请:

  • 创建GigaDB用户帐户
  • 如果尚未公开,请上传准备好的数据文件(请参阅下面的清单)
  • 提供适当的元数据
  • 校对并批准GigaDB预发布数据集页面

所需元数据

对于所有数据集,需要以下信息。大多数详细信息将直接从Giga科学提交手稿,其他细节将由馆长要求。


项目 直接从手稿导入 描述
提交作者 是的 名字、姓氏、电子邮件、机构/公司、ORCID。
作者列表 是的 名字、姓氏、ORCID
数据集标题 是的 以“支持数据”为前缀的手稿标题
数据集描述 是的 手稿摘要
资金筹措信息 是的 资助机构、计划、奖项ID和获奖者
数据集类型 从中选择受控词汇表
关键词 请列出最多5个关键字,用分号分隔。所有关键字都转换为小写。
其他信息链接 以分号分隔的列表形式指向与数据集关联的FTP服务器或网页的任何URL
缩略图图像 表示数据集的适当图像。需要标题、信用、来源和许可证(仅限CC0或公共域)详细信息。
外部加入 如果您希望在GigaDB中发布的任何数据已提交给外部资源,如EBI或NCBI,请以分号分隔的列表形式提供登录,格式为“SRA:SRPXXXXX”;生物项目:PRJNAXXXXX
Protocols.io链接 作者通过以下方式提供方法协议.io我们可以将这些嵌入到GigaDB数据集中,请提供发布的小部件URL或DOI

对于包括生物样本相关数据的数据集,我们希望样本元数据包含在GigaDB数据集中。我们知道,可用的样本元数据级别通常受到样本收集限制的限制,但作者应尽一切努力提供尽可能全面的样本元数据。

以下是与任何生物样品通常相关的属性列表。除此之外,我们强烈鼓励包含所有适当的属性,对于特定类型的数据,我们鼓励用户采用一些标准。请参阅特定于数据集类型的检查列表以获取建议。


属性 要求 描述
样品名称,绝对必填字段 推荐 使用字母数字字符串来唯一标识研究中使用的每个样本,如果您有生物样本ID,则可以使用它们。
物种税ID 推荐 请输入NCBI分类ID你研究中使用的物种。注意,这对于任何已排序的样本都是强制性的。
物种名称,绝对必填字段 推荐 请输入此样本物种的生物学(属种)名称
描述,绝对必填字段 推荐 样本的人类可读描述,在数据集中应该是唯一的,即没有两个样本是相同的,因此描述应该反映这一点。
地理位置(国家和/或海洋、地区) 推荐 样品的地理来源,由国家或海洋名称后跟特定地区名称定义。国家或海洋名称应从INSDC国家列表
地理位置(经纬度) 推荐 由经纬度定义的样品的地理来源。数值应以十进制度数和WGS84系统报告,例如-69.576435、91.883948
广泛的环境背景 推荐 请添加一个或多个ENVO术语描述采样发生的广泛环境,例如悬崖[ENVO:00000087]
当地环境背景 推荐 请添加一个或多个ENVO术语以分号分隔列表的形式描述采样所在的当地环境,例如消化道环境[ENVO:0101033]



对于所有数据集,我们希望所有数据都可以从稳定的公共开放访问源获得,并且在适当的情况下,我们将直接链接到外部源,而不是重复的数据文件。

然而,如果没有为特定文件/数据类型建立合适的存储库,我们将在服务器上托管它。

在可能的情况下,所有文件都应该是机器可读的,无需专有软件(例如无PDF、Excel或Word文件)。


对于我们托管的所有文件,我们需要以下详细信息:



项目 强制性的 描述
文件名 是的 文件的确切名称,包括相对文件路径。理想情况下,它在数据集中应该是唯一的。文件名应仅包含以下字符a-z、a-z、0-9、_、-、+、,。文件名不应包含空格,建议使用下划线(_)代替空格。
描述 是的 文件及其内容的简短可读描述
数据类型 是的 文件中的数据类型,从受控词汇表
格式 是的 大多数常用格式都是由文件扩展名自动指定的,但如果需要,可以手动更新。
MD5#值 是的 这些在我们的服务器上自动计算,并代表提交者添加到数据库中。
文件-样本关联 如果样本来自特定样本(GigaDB),则可以通过将样本ID添加到文件属性,在样本和文件之间建立显式链接。
其他属性 如果文件中包含元数据,则可以将其作为属性添加,最常见的示例是许可证


由于科学出版物的性质,需要提供的文件对于单个手稿来说通常是唯一的,但我们试图在一组最常见的数据集类型的最小检查表中捕获一些共性。这些列表仅供参考,可能会随着时间的推移而发生变化。

请参阅特定于数据集类型的检查列表以获取建议:

如果您有任何问题,请联系我们database@gigasciencejournal.com.