自动化工作流简化NGS分析的机制

NGS数据分析的瓶颈

当今下一代序列(NGS)的最大瓶颈之一是数据分析。这是令人惊讶的,因为它拥有大量的可立即使用的大型计算、可用于并行处理数千个示例的可用基础架构和简化分析的编程库。将复杂的统计运算转换为简单的英语。

那么,为什么我们大多数人对NGS数据的分析都要走几天,有些情况下甚至要走几周呢?Basepair创办人、哈佛大学医学院讲师Amit Sinha在开始着手开发Web平台时,回顾了自己10年的计算生物学经验和同事最根深蒂固的门槛我们专注于NGS数据分析过程中不必要的瓶颈。

Amit发现的问题不是技术资源不足,而是需要在多个命令行软件和程序之间转换文件,以及等待各种算法完成的浪费时间的零乱方法。而且,结果分散在几十个文件中,感兴趣的信息必须用力挖掘。

为了实现更快的替代方案,生物信息工程师将花费宝贵的时间在CLI上执行自动脚本,如果涉及数十、数百个样本,请IT部门帮助并行工作流,等等我需要依靠日常日程安排满满的团队成员。这也不是很理想。

经历了NGS数据分析过程中可能出现的所有瓶颈后,Amit创建了一个Basepair,作为一站式商店,可以获取原始fastq文件并根据选定管线自动执行复杂的分析操作。结果,完成的报告和一系列互动的图表被制作出来,研究人员和生物信息师可以进行下游分析,而不用等待算法操作陷入僵局或时间表空闲。

由于Basepair同时运行多个分析,并且所有计算都由云中强大的虚拟机托管,因此从过去分析多个样本所花费的几天到几周的时间缩短到了不到一个小时。

Basepair Web平台的主轴是一个自动化的工作流,哈佛医学院、斯坦福大学、纪念斯隆凯塔林癌症中心和其他世界级机构的团队节省了几千个小时的时间。

自动化工作流

Basepair采取了一些步骤,以确保最终用户的科学家能够以最少的点击和最少的工作时间快速准确地获得结果。此外,它还自动化了最有用的工作流程,可以立即用于NGS研究的管道,每个序列方法都有几个工作流程可用。

RNA-Seq、DNA-Seq、ChIP-Seq、或ATAC-Seq数据包含一条以生物信息学最新研究为原型的自定义管线。我们自己的生物信息师对这些管道的算法进行了微调,以确保数组数据以最高的精度解释。

更专业的用户担心的是,从同伴生物信息专家和研究所所长那里听到的这样的情况。“半夜睡眼惺忪地起床,查看NGS数据分析管道的结果,将文件转换成另一个文件。检查格式,准备下游分析的下一步,昏倒着回到床上……”您也了解了能够自动化人工任务的稳健API的有用性。关于这个稍后说明。

现在,让我们来研究RNA-Seq中可用的几个选项,以了解自动化工作流如何帮助各个工作台科学家和所有规模的研究团队同时完成工作。

RNA-Seq工作流

RNA-Seq除了用于差异基因表达分析(Differential Expression Gene,DEG)外,最常用于检测融合事件、遗传变异、新转录物和许多其他生物现象。

使用Basepair上传数据后,只需单击几次即可启动校准、发现计数管线。这条管线STAR中描述的场景,使用下列步骤创建明细表,以便在概念设计中分析体量的周长。原始数据或归一化基因表达水平featureCounts定量化 内置IGV在浏览器中可以轻松查看数据。使用Basepair,无论是6个还是6000个样例,都可以在亚马逊的云资源中并行处理它们,并快速提供结果。

当数据对准完成时DESeq2自动识别被上调的基因和被下调的基因,不仅执行主成分分析(PCA),还可以进行牛仔裤(GO)和GSEA中描述的场景,使用以下步骤创建明细表,以便在概念设计中分析体量的体积。这些分析的结果将在浏览器上显示交互式绘图和表格,这些绘图可以快速浏览数据。

为了更详细的转录组分析cufflinks/cuffdiffleafcutterGATK中描述的场景,使用以下步骤创建明细表,以便在概念设计中分析体量的体积。

API

我们总结了Python和命令行的强大API(应用程序编程接口),使其尽可能容易阅读、简单、直观。如前所述,Basepair图形用户界面已被简化为一键快速分析,但如果是几十个、几百个甚至数千个示例,则没有比添加健壮的API更好的了。

这个其他博客文章现在,我们通过几个示例来说明Python API如何帮助自动化大型NGS数据分析。单击功能区上的我在这里创建了另一个有用的帖子(要查看帮助文档,您必须登录。如果您没有帐户,您可以使用此帖子末尾的按钮在一分钟内签署两周的免费试用。)

即使你不是生物信息专家或没有开发经验,也建议你粗略地看一下帖子的例子,了解Basepair的API能做什么。Basepair还可以帮助您设置API和所有集成。请从这里咨询。有关详细信息,请参见

Basepair有超过50个工作流,并且不断增长。我们的团队正在深入挖掘最新的研究,以提供执行简单、解释简单的生物信息学分析。我们已尽可能使Basepair的API更易于阅读、更简单、更坚固。出色的API还可以帮助团队在非常短的时间内将其缩放为数千个样本。由于强大的并行处理,您可以同时执行数千个分析,因此不会为附加样本产生时间负债。

我们的完整平台免费的在这里签名尝试使用您自己的NGS数据查找自动化工作流。

这篇文章How automated workflows simplify NGS analysis来定义自定义外观。