现在序列读取存档(SRA公司)是在云端公开可用,您可以利用高性能云计算的强大功能来分析所有想要的数据,而无需下载一个字节。为了帮助你以编程方式查找数据集你感兴趣的,我们已经装载了大查询使用SRA元数据表,其中包含提交序列时提供的描述性信息。SRA元数据表的搜索取决于所提交元数据的质量和一致性,这意味着有时识别一组完整且相关的合适序列可能是一个挑战。然而,分类分析表可以成为克服这一挑战的有用工具。原因如下。
当特定物种的序列k-mers在提交的序列中匹配时,NCBI索引SRA使用一个或多个分类术语运行。The 分类分析表因此,(tax_analysis)根据从参考基因组中取样的这些独特散列的特异性和准确性特征,成为每次运行中检测到的所有分类ID的目录。我们现在已经添加了分类分析表到BigQuery,这样您可以按此筛选数十万次运行计算分类内容以收集目标数据集。将其与BigQuery分类表(将学名与分类ID连接起来)并链接回BigQuery元数据表.
探索/链接到这四个新表格在BigQuery中:
- tax_analysis_info:STAT工具结果的摘要表
- taxanalysis:使用分类分析表,根据kmer对分类树中特定有机体或分支的点击,查找任意数量的运行。
- 分类法:NCBI分类数据库,您可以在其中根据生物体名称定位taxid。
- kmer:包含映射到特定有机体的kmer,允许您继续进一步探索有机体内容。通过构建自定义kmer库,可以在下游分析中利用kmer表。
图1。SRA使用分类表和BigQuery运行taxid:694002β冠状病毒.
查看我们的有用的摘要信息以获取有关分类学分析的更多信息。
我们正在积极研究新的工具和方法,以帮助您使用云访问和计算SRA数据。我们正在BigQuery中试用此新功能,并计划将此信息添加到Amazon Cloud(AWS)中雅典娜很快。
联系我们 sra@ncbi.nlm.nih.gov让我们知道你的想法!
如果您需要帮助,请参阅我们的 教程 和 操作视频播放列表 YouTube上!