NIH的云数据交付服务:SRA为您的云存储桶提供更多大数据

NIH的云数据交付服务:SRA为您的云存储桶提供更多大数据

The 序列读取存档(SRA)是美国国家卫生研究院(NIH)原始、高通量测序数据的主要存储库,包含持续呈指数级增长的受控和开放访问数据集。SRA由国家医学图书馆管理国家生物技术信息中心(NCBI),数据可从NCBI的服务器以及通过平台:亚马逊网络服务(AWS)和谷歌云平台(GCP)。通过NIH的发现、实验和可持续发展(STRIDES)倡议的科学技术研究基础设施的支持,云访问成为可能。

由于SRA的规模呈指数级增长,云环境中的数据目前分区的在冷热存储中保持SRA的可持续性和可访问性。按照行业标准,热存储中的数据可以立即访问;因为热存储的主机成本更高,所以我们努力使这种分发方法与我们最频繁请求的数据集保持一致。请求频率较低的数据集可以在冷存储中使用,但可能无法立即访问。别生气!SRA不断发展以满足用户的需求。NCBI的云数据交付服务(CDDS)现在,您可以在几个小时内将公共和受控访问数据从冷存储和热存储直接发送到您选择的云存储桶。次要成本目前由NCBI处理,但确定限制适用; 在30天的请求周期内,用户最多可以从冷存储请求5TB,从热存储请求20TB。

公众可以获得这一丰富的基因组序列资源。CDDS的使用要求用户在AWS或GCP拥有账户,用户可能会产生相关的出口、存储和/或计算成本,这可能因云提供商而异。与云上的数据交互可以实现数据的速度、可靠性和可访问性,否则很难获得这些数据。然而,不需要使用云服务;SRA将继续支持使用NCBI网站和SRA工具包检索数据的现有方法。

CDDS是如何工作的?

使用选择感兴趣的文件SRA运行选择器,然后单击“云数据交付”下的按钮将数据交付到云(图1)。

图1。在SRA运行选择器中,请选择“交付数据”(标记为红色)以启动云数据交付服务(CDDS),继续提交“交付数据(Deliver Data)”请求(见图2)。

在下面的屏幕上,确认一些重要的细节,如存储桶位置和文件类型,然后单击“交付数据”按钮(图2)。

图2。确认有关您请求的重要详细信息,然后单击“传递数据”按钮提交您的数据传输请求。

根据大小和云提供商的不同,文件传输可能需要48小时,但大多数请求都会更快地完成。数据交付后,系统将发送电子邮件通知。在完成请求之前,云数据交付屏幕将显示有关请求运行中的文件类型和大小的各种详细信息。每月云数据传输限额很高,很少超过,但如果您对限额有任何疑问,请联系SRA以获取帮助,网址为sra@ncbi.nlm.nih.gov。

关于“NIH的云数据交付服务:SRA为您的云存储桶提供更多大数据

留下回复