摘要

总结:在这里,我们描述了一个在所有常见FASTQ格式变体上运行的工具套件,并提供了一条管道,用于通过质量过滤步骤操作从测序机获取的下一代测序数据。

可用性和实施:这个开源工具集是用Python实现的,已经集成到在线数据分析平台Galaxy中(公共网络访问:http://usegalaxy.org; 下载:http://getgalaxy.org). 两部短片强调了本手稿中描述的工具的功能,以及根据一组先前发布的文件测试此工具套件组件的结果,可在http://usegalaxy.org/u/dan/p/fastq

联系人: james.taylor@emory.eduanton@bx.psu.edu

补充信息: 补充数据可在生物信息学在线。

1简介

下一代测序技术的普及产生了许多数据管理和分析问题。这些问题中最麻烦的是缺乏标准化的测序器输出和工具。这个事实上的标准FASTQ有许多不同的变体(Cock等。,2009)这导致生物学家在处理下一代测序数据时遇到许多困难。

数据采集后的第一步包括准备和质量检查产生的测序数据。这些步骤通常遵循以下工作流程:(i)解析测序器输出;(ii)计算和(iii)可视化质量分数和核苷酸分布的汇总统计数据;(iv)如有必要,调整读数;以及(v)根据质量分数和其他各种操作过滤读取。在这里,我们描述了一组能够处理所有已知FASTQ变体的工具,这些工具已集成到在线数据分析平台Galaxy中(http://usegalaxy.org),允许没有任何编程经验的实验生物学家使用点击界面轻松操作测序数据。这个开源工具包没有已知的数据大小限制,是用Python实现的,允许真正的跨平台可用性。除非另有说明,否则在下一代测序(NGS)下可以找到以下所有工具:质量检查(QC)和Galaxy内的操作部分。此外,通过将该工具集集成到Galaxy中,研究人员可以访问大量其他基因组分析软件以及完全可定制的工作流(管道)系统。布兰肯伯格等。(2007,2010)、泰勒等。(2007)和http://galaxycast.org建议用户使用Galaxy熟悉基因组分析。

2一套用于绘制和分析下一代序列读数的工具

2.1 FASTA的FASTQ和质量分数文件

一些测序技术将生成包含序列和质量分数的单独文件。这两个单独的文件可以合并在一起,以创建一个FASTQ文件。为此,开发了将FASTA和QUAL结合到FASTQ工具中。指定质量分数文件是可选的,如果未指定,质量分数值将使用允许的最大质量值填充。

2.2 FASTQ美容师

FASTQ美容师工具用于验证已知的FASTQ变体并进行转换。此工具创建的数据保证符合用户指定的目标变量,包括执行质量分数最小值和最大值。整理后,用户会看到一些有关输入的信息,例如ASCII字符和十进制值范围,以及输入数据实际有效的FASTQ变量列表。尽管此工具创建的输出现在有效,但如果用户选择了错误的假定输入变量,则结果得分值可能无法反映测序技术的预期值。用户在继续分析之前,应利用提供的摘要信息进行健全性检查;例如,如果用户提供桑格编码变量(ASCII值<59),但将输入变量指定为Solexa,则此摘要信息将表明输入仅对桑格有效(这与用户的选择直接矛盾)。

2.3质量统计

由于质量分数可能会随着排序读取的长度而变化,因此确定如何修剪和筛选读取数据需要以每列(基本位置)为基础计算摘要统计信息。FASTQ Summary Statistics by column工具完成了这项任务。此工具的输出包含FASTQ文件中每个基本位置的读取计数、最小值、最大值、总和、平均值、带范围的四分位数、离群值和核苷酸计数。可以使用Boxplot工具(位于Graph/Display Data工具部分)绘制此统计摘要。

2.4读取微调器

为了防止在质量过滤过程中拒绝其他高质量的读取,或影响映射或组装过程,从低质量的读取端修剪基可能是有益的。FASTQ Trimmer by column工具允许通过使用绝对偏移量或指定基于读取长度的偏移量百分比来修剪一组读取的任一端。偏移量从每一端的0开始,并向读取的另一端增加。例如,要从36长度序列读取的每一端修剪外3个碱基,用户可以指定绝对值5和3偏移量为3或基于百分比的偏移量为8.33(0.0833×36=2.9988,四舍五入为最接近的整数=3)。

2.5质量过滤器

Filter FASTQ reads by quality score and length(按质量分数和长度过滤FASTQ)工具允许按最小和最大读取长度以及整个读取过程中的最小和最大质量分数值进行过滤,同时允许可配置数量的偏差基数。还可以构造复杂的过滤器,允许用户设置偏移量,就像使用trimmer工具一样,将其用作执行所选聚合操作的边界,并将其与用户指定的值进行比较。可以设计任意数量的复杂过滤器,并将其应用于一组排序读取。例如,要在读取的前半部分仅包括质量分数值不小于28的读取,用户可以使用基于百分比的偏移量0和50,选择最小分数聚合和较大或相等运算符(≥),并将质量分数阈值设置为28。

2.6 FASTQ操作

通过使用Manipulate FASTQ reads on variable attributes工具,可以对选定的FASTQ读取执行高度可配置的复杂操作。此工具允许用户定义一组匹配标准,用于选择FASTQ文件中要执行一组操作的读取;可以定义任意数量的匹配指令,并且read必须匹配要考虑进行操作的每个指令。匹配目前仅限于序列标识符/名称、序列内容和质量分数字符串上的用户指定模式匹配(正则表达式),默认设置为全部匹配(.*);然而,可以根据需要轻松实现其他匹配和操作选项。当读取不匹配时,将以未修改的方式将其传输到输出。通过所有匹配条件的读取将受到任意数量的用户特定操作的影响。可以对序列标识符/名称、序列内容或质量分数字符串进行操作。除了允许用户删除匹配的读取或对这些属性中的任何一个执行字符串翻译之外,还可以对序列内容进行其他操作,包括:反向补码、反转(不补码)、补码(不反转)、修剪、,生物信息学将DNA转录为RNA和副病毒,以及改变颜色空间序列中的适配基。此外,有单独的工具可以将FASTQ文件从表格格式转换为和;这允许使用任何功能强大的文本操作工具修改FASTQ数据,这些工具是与Galaxy一起预打包的。

2.7成对读取拆分和连接

FASTQ格式的配对序列数据可以有两种常见形式,一种是为每个配对序列组件使用单独的文件,另一种是使用单个FASTQ文件,两个配对序列读取端连接在一起,形成单个条目。有两种工具可以方便地使用这些数据:FASTQ Joiner用于成对末端读取,FASTQ Splitter用于连接的成对末端读取。Joiner工具接受两个单独的FASTQ文件,其中包含成对的-end读取,并创建一个文件。Splitter工具执行与Joiner工具相反的操作,它获取单个FASTQ文件,并将每个读取分为两半,创建两个单独的FASTQ文档。拆分时,在每个配对端添加一个标识符后缀;在连接时,将考虑标识符中的这些差异。

3结论

尽管FASTQ变体之间的差异可能会继续给研究人员带来困难,我们希望,该工具集的采用将通过提供允许这些变体的验证和相互转换的工具来缓解许多这些问题,这些工具集与全面的工具集一起可用。尽管该工具集的目标是简单易用且功能强大,但最终用户有责任理解其数据的分析需求;例如,固定读取长度和可变读取长度平台之间的差异。为了帮助生物学家克服与此工具集相关的标称学习曲线,每个工具界面中都会显示屏幕帮助,并且可以通过以下网址获得一系列屏幕广播,其中演示了此工具集在用户屏幕上出现时的典型分析:http://galaxycast.org

对针对Cock中提供的测试文件运行此工具集的结果的描述等。(2009)在中提供补充材料。为了防止在未来对工具集进行增强时出现潜在问题,这些文件已作为功能测试用例合并,在更新源代码时自动执行。一如既往,我们鼓励用户向galaxy-bugs@bx.psu.edu

基金:贝克曼基金会青年研究员奖(授予A.N.);NSF拨款DBI 0850103和NIH拨款HG004909(发给A.N.和J.T.);宾夕法尼亚州立大学和哈克生命科学研究院(转A.N.);埃默里大学(转J.T.);使用烟草结算基金(部分)向宾夕法尼亚州卫生部拨款。该部门明确否认对任何分析、解释或结论负责。

利益冲突:未声明。

参考文献

布兰肯伯格
D类
ENCODE数据协同分析框架:使大规模分析对生物学家友好
基因组研究。
2007
,卷。 
17
(第
960
-
964
)
布兰肯伯格
D类
Galaxy:面向实验人员的基于网络的基因组分析工具
货币。协议。分子生物学。
2010
 
第19章,单元19.10.1-21
公鸡
PJ公司
桑格FASTQ文件格式用于带有质量分数的序列,以及Solexa/Illumina FASTQ变体
核酸研究。
2009
,卷。 
38
(第
1767
-
1771
)
泰勒
J型
使用galaxy进行大规模交互式数据分析
货币。协议。生物信息学
2007
 
第10章,10.5单元

作者注释

作者希望知道,在他们看来,前两位作者应被视为联合第一作者。

副主编:John Quackenbush

这是一篇根据知识共享署名非商业许可条款发布的开放存取文章(http://creativecommons.org/licenses/by-nc/2.5)它允许在任何媒体上无限制地进行非商业性使用、分发和复制,前提是正确引用了原始作品。