标签:序列读取存档(SRA)

谷歌云平台(GCP)上SRA数据访问的更改

谷歌云平台(GCP)上SRA数据访问的更改

序列读取存档(SRA) 数据 通过提供这个谷歌云平台(GCP) 迁移惯性导航与制导多区域到单区域us-east-1。 预计这一迁移将于2024年5月完成。为了将此更改的影响降至最低,we建议尽快更新您的工作流程以方便地访问us-east-1地区的SRA数据. 

请注意 更改不会影响SRA数据访问亚马逊网络服务(AWS)NCBI服务器  继续阅读“谷歌云平台(GCP)上SRA数据访问的更改”

更新GenBank限定符

更新到GenBank限定符

从2024年6月起,“国家”将过渡到“地理位置”

作为今年早些时候宣布,我们将开始系统地收集提交给的序列数据的“收集位置”和“收集日期和时间”GenBank(基因银行)序列片段归档(SRA)。

作为这项工作的一部分,为了使位置数据更加准确和信息丰富,我们还改变了GenBank记录中此信息的表示方式,与BioSample中的相关字段保持一致。继续阅读“更新GenBank限定符”

Pebblescout简介:比以往更快地索引和搜索Petabyte-Scale序列资源

Pebblescout简介:比以往更快地索引和搜索Petabyte-Scale序列资源

NCBI很高兴介绍鹅卵石,一个试点web服务,允许您在非常大的核苷酸数据库中搜索序列匹配,例如NIH中的运行序列片段归档全基因组鸟枪测序项目的(SRA)和组件Genbank公司–更快、更高效!  

鹅卵石使用 短的部分您的查询序列以识别具有匹配项的数据库记录. 匹配基于数据段在数据库中出现的频率。每个查询产生的结果是匹配记录的排名列表,其中排名利用了匹配段的信息性。  继续阅读“推出Pebblescout:比以往更快地索引和搜索Petabyte规模的序列资源”

NCBI病毒:基于突变的SARS-CoV-2数据搜索

NCBI病毒:基于突变的SARS-CoV-2数据搜索

数百万SARS-CoV-2样本来自世界各地已经制作完成公开的组装和未组装序列数据在GenBank和序列读取档案(SRA)中.现在你可以找到序列了具有一个特别的变位选项 通过使用搜索这个蛋白质和氨基酸的变化(例如. S公司:F486伏).访问我们的SARS-CoV-2变型概述 NCBI病毒然后单击突变 选项卡开始吧 (图1)。 

图1:严重急性呼吸系统综合征冠状病毒2型变异株概述。箭头表示页面上的重要功能,包括用于在视图之间切换的“沿袭”和“变异”选项卡、搜索框和描述变异格式的信息框。结果也会显示出来,包括找到的包含搜索词的总记录的摘要以及结果表。   继续阅读“NCBI病毒:基于突变的SARS-CoV-2数据搜索”

马上就来!包括提交给GenBank和SRA的序列的样本位置、采集日期和时间

马上就来!包括提交给GenBank和SRA的序列的样本位置、采集日期和时间

作为之前宣布的与我们的合作伙伴合作国际核苷酸序列数据库合作(INSDC),我们将开始系统地收集提交给的序列数据的“收集位置”和“收集日期和时间”GenBank(基因银行)序列片段归档(SRA)。正在收集有关的信息采集生物样本的地点和时间与其他全球序列提交标准化工作保持一致,并将增加通过GenBank和SRA提供的数据的效用。这些变化将分阶段实施,直至2024年12月。

有什么新功能?

提交给GenBank和SRA的序列数据需要包含样本采集位置、日期和时间的信息。这些元数据将使用预先存在的字段“country”和“collection_date”输入这些字段的最低信息如下所述。我们鼓励提交者在可用时提供更多详细信息:继续阅读“即将推出!包括提交给GenBank和SRA的序列的样本位置、采集日期和时间”

优化云上对SRA COVID-19数据集的访问

优化云上对SRA COVID-19数据集的访问

为了让你更容易查找和访问序列读取存档(SRA)数据,我们正在重组和改进我们的云存储系统。  

从2023年4月开始,我们将把SARS-CoV-2规范化数据和源文件从Amazon Web Services(AWS)和Google Cloud Platform(GCP)上的COVID-19数据桶移动到美国国立卫生研究院NCBI SRA在AWS注册我们还将从AWS和GCP COVID-19存储桶中删除SARS-CoV-2原始格式数据,并将其用于AWS冷藏库。如果您需要这些数据,可以使用云数据交付服务(CDDS)。 

发生此更改后,我将在何处以及如何访问SARS-CoV-2标准化数据?

为了确保平稳过渡,我们希望您有足够的时间调整脚本和管道,以尽量减少对分析的干扰。   继续阅读“简化云上对SRA COVID-19数据集的访问”

NCBI增强SRA数据库的3种方法

NCBI增强SRA数据库的3+种方法

您是否提交或访问序列读取存档(SRA)数据?为了不断提高您的体验,NCBI正在对我们广泛使用的SRA数据库进行几项改进。SRA是最大的可公开获取的高通量测序数据存储库。档案馆接受来自所有生物体以及宏基因组和环境调查的数据。SRA存储原始测序数据和比对信息,以实现再现性,并通过数据分析促进新发现。 

NCBI正在进行哪些改进?

  • 更透明:我们最近推出了GenBank和SRA数据处理页面帮助您更好地了解序列数据是如何提交、处理和公开的。 
  • 更高效:更快的数据传输、下载和分析!我们将逐步简化您访问SRA数据SRA Lite成为标准SRA文件格式。这种简化的格式减少了平均文件大小,以便更有效地分析和存储大型数据集。 
  • 更可靠:值得信赖的消息来源!SRA是一个值得信赖的数据库,我们正在不断改进我们的流程,以确保系统的可靠性。   
  • 还有更多!  

继续阅读“NCBI增强SRA数据库的3+方法”

从序列读取档案(SRA)提交文件中清除人类序列污染

从序列读取档案(SRA)提交文件中清除人类序列污染

您是否使用人类衍生序列数据?您是否经常需要确定您的数据是否没有人类序列,因此是否适合公开发布?我们鼓励提交者在提交给SRA之前,从数据文件中筛选并删除受污染的人为读取。为了支持调查人员的这项工作,我们提供了一种工具,可以从您提交的SRA中去除人类序列污染!

人工读取删除工具(HRRT)

人工读取清除工具(HRRT;也称为人工洗涤器)可在githubDockerHub接口HRRT基于SRA分类分析工具(STAT)将以fastq文件作为输入,并生成fastq.clean文件作为输出,在该文件中,所有识别为潜在人类源的读取都用“N”屏蔽。继续阅读“从序列读取档案(SRA)提交文件中清除人类序列污染”

宣布GenBank和SRA数据处理网页

宣布GenBank和SRA数据处理网页

有兴趣了解序列数据是如何在GenBank和序列读取档案(SRA)中提交、处理和公开的吗?宣布GenBank和SRA数据处理网页

在这里,您可以了解国家生物技术信息中心(NCBI)(国家医学图书馆(NLM)的一部分)用于处理提交的数据和公开发布的程序,以及数据状态的关键定义。继续阅读“宣布GenBank和SRA数据处理网页”

dbGaP:来自数百万研究参与者、样本和数万亿基因型的数据和分析!

dbGaP:来自数百万研究参与者、样本和数万亿基因型的数据和分析!

你熟悉著名的弗雷明翰心脏研究一项针对马萨诸塞州弗雷明翰居民的多代研究始于1948年?关于基因、生活方式和饮食对心血管健康和疾病的影响,目前所知的大部分都来自这项研究。(请参见项目经理4159698从历史的角度来看。)你知道吗本研究数据超过2000项其他研究证明遗传和医学结果之间的关系以及其他表型可从NCBI获得基因型和表型数据库(dbGaP)?

dbGaP是成立于2007年作为大规模研究的人类数据存储库。您可以访问280多万研究参与者的数据,他们提供了330多万个分子样本。您可以检索患者级别的表型(例如、人口统计学、临床、暴露)数据和分子(例如,称为基因型组学、序列)数据,以及基因组规模病例对照和遗传性疾病纵向研究的关联分析结果。

dbGaP中有哪些类型的研究和数据?

dbGaP包含广泛的研究和数据类型,所有这些都与人类遗传和表型测量有关。大多数dbGaP数据来自NIH资助的研究,但最近我们扩展到包括非NIH资助研究。查找dbGaP研究、表型和分子数据集、变量、分析和文档的简单方法是通过dbGaP高级搜索(图1)。该界面允许您根据选择的选项卡按不同的特征筛选结果。

图1。dbGaP高级搜索界面。web界面顶部的选项卡允许您选择感兴趣的研究、数据集、分析等。过滤器(面)显示在左侧(请参见插图)。点击过滤器选择值,在研究总结页面上找到链接,以便直接访问数据。顶部面板:研究选项卡和相应的过滤器类别。底部面板:应用了研究(Framingham SHARe)、标记源(Affymetrix)过滤器的分子数据选项卡结果。 

继续阅读“dbGaP:来自数百万研究参与者、样本和数万亿基因型的数据和分析!”