NCBI-NIAID Beyond Phylogenies Codeathon取得了成功!

NCBI-NIAID Beyond Phylogenies Codeathon取得了成功!

SARS-CoV-2基因组数据对于监测新冠肺炎大流行的病毒传播和演变、识别新出现的变异以及制定和评估对策至关重要。截至2022年9月,全世界已有1300多万SARS-CoV-2基因组测序,使其成为有史以来测序最多的病原体。基因组分析的一个基石是建立一个系统发育学,它证明了单个分离物与其余已测序基因组的相关性。然而,SARS-CoV-2基因组的数量提供了新的机会超越系统发育,以及对传统基因组分析和可视化方法的计算挑战。

NIAID(国家过敏和传染病研究所)和NCBI联合举办了一场虚拟的协同马拉松,以促进新工具的开发,利用基因组变异的大数据集进行分析和可视化。活动,超越系统发育:基因组变异的丰富分析和可视化,解决了这些挑战,重点放在以下方面:

  1. 从Variant Call Format(VCF)文件构建解释样本内基因组变异的系统发育
  2. 创建显示与基因组相关的多层元数据的系统发育可视化
  3. 在数百万基因组样本的背景下开发优化的分析方法和关联性可视化
  4. 从系统发育和基因组变异数据集自动推断。

世界各地数百名申请者响应了我们的参与呼吁,最终,来自学术、政府和行业职位的40多名参与者为此次活动共同努力。这些参与者分为六个小组,开发下表所述的具体项目。

团队 项目方法
第1组 探索了将严重急性呼吸系统综合征冠状病毒2型的进化和功能联系起来的替代可视化方法。
第2组 力求加强基因组监测仪表盘的交替可视化,以预测变异对健康差异的影响。
第三组 开发了用于变量调用格式或树文件的拖放web界面,以可视化与SARS-CoV-2的多序列比对(MSA)中显示的单核苷酸变体(SNV)链接的系统发育,作为模型。
第4组 开发了一条流线型管道(称为PhyloPRIME),以可视化数百万基因组样本与临床和监测元数据的多层关联。
第5组 优化了数百万个样本的分析和可视化,传输集群上覆盖了额外的元数据。
第6组 创建了新功能并搭建了桥梁,扩展了Taxonium.org、Cov-spectrum.org和Nextstraint.org的功能。

所有团队都探索了通过使显示器更具交互性和/或将数千个基因组数据与多个属性(包括突变流行率、临床信息、地理位置和传播联系)联系起来来改进可视化的方法。其中三个团队专注于构建基因组监测仪表盘和识别传播集群。一个团队提供了一个基于web的界面,允许您拖放输入变量调用格式(VCF)文件以构建系统发育。几个团队的目标是使用工具和算法来支持相当数量的数百万序列数据。

在共同马拉松比赛结束时,所有团队向一个广泛的基因组学/生物信息学研究社区展示。探索了许多可视化方法,从而改进了呈现基因组数据的方法。参与者还展示了他们如何评估、重用和连接已建立的算法和软件,以开发他们的共同马拉松项目(图1),并对其进行了进一步的记录在这里最后,邀请了一个拥有杰出项目的团队出席SPHERES财团–由研究人员和公共卫生官员组成的社区,利用系统发育和基因组监测来了解新冠肺炎大流行。

图1。Beyond Phylogenies Codeathon的产品/原型。可以找到更多详细信息在这里.

我们非常感谢各位的出席、参与和热情!我们期待着继续开发和实施工具,以丰富系统发育和变异分析。

问题?

如果您对NCBI代码马拉松或参与未来活动的兴趣有任何疑问,请伸出手来NCBI代码马拉松团队。

注意即将举行的外联活动!

留下回复