摘要

总结: ShortRead(短阅读)是一个用于输入、质量评估、操作和输出高通量测序数据的包。ShortRead(短阅读)在中提供R(右)生物导体环境,允许随时访问其他设施,以进行高级统计分析、数据转换、可视化以及与各种基因组资源的集成。

可用性和实施:该软件包在R中实现,可在Bioconductor网站上获得;该包包含一个概述典型工作流程的“小插曲”。

联系人: mtmorgan@fhcrc.org

高通量DNA测序技术包括Illumina(Solexa)(宾利等。,2008),罗氏454(托雷斯等。,2008)和其他平台。这些技术产生了数百万个DNA序列,每个序列有几十到几百个核苷酸。该数据解决的生物学问题包括SNP呼叫、ChIP-seq(Mardis,2007)和RNA-seq(Mortazavi等。,2008).

我们介绍ShortRead(短阅读)包,属于生物导体(先生们等。,2004)项目。ShortRead(短阅读)延伸生物导体使用在短读DNA序列分析的初始阶段有用的工具。主要功能包括数据输入、质量评估、数据转换和访问下游分析机会。ShortRead(短阅读)是使用的重要途径生物导体用于处理高通量DNA序列数据。

1可用功能

1.1输入和输出

ShortRead(短阅读)提供了各种高通量序列数据的输入机制。一个主要的起点是从制造商软件或校准器(如质量管理体系(李等。,2008)和鲍蒂(兰米德等。,2009).ShortRead(短阅读)解析其他格式(例如fasta、fastq和任意面向列的文本文件)。产生的结果R(右)数据结构允许操作序列、质量、对齐和其他信息。输入函数透明地解析压缩(.gz格式)文件;大多数文件类型可以读取为“块”,以允许处理数据子集。ShortRead(短阅读)输入,但不专门表示细粒度的对齐描述(例如斯德哥尔摩格式)。

用于数据输出的工具包括fasta和fastq文本格式、面向任意列的读取和辅助信息输出、本机对象序列化R(右)格式,并通过使用其他R(右)软件包,如rtracklayer公司导出到常见的基因组浏览器格式,如摆动,绿色荧光粉(库恩等。,2008).

1.2质量评估

ShortRead(短阅读)包括读取质量评估(QA)、样本处理和排序工件以及对齐特征的设施。QA管道可以从基本调用及其质量分数(例如fastq或qseq文件)开始,也可以从专用对齐器的对齐数据格式开始。结果是生成了一个HTML报告,其中包含了便于解释的嵌入式叙述;软件包中包含一份示例报告。示例性结果如所示图1重点包括:(i)原始、过滤和对齐读取的数量;(ii)基本通话频率。(iii)周期特定的基本调用和读取质量(例如。图1A) ●●●●。(iv)读取次数表(读取次数表示一次、两次……的频率…,n个次)。例如,读取发生一次或几次(在图1B) 由于基本调用错误,可能是唯一的,而读取非常频繁(在图1B) 通常反映PCR或重新排序问题。(v) 初步线形质量得分汇总。还生成了特定于技术的质量度量,特别是针对Illumina的基因组分析仪(例如,特定于瓷砖的读取计数和质量)。

质量评估。(A) 不太可能从Short Read Archive登录中定向核苷酸更改和碱基调用(周期26)。(B) 左侧和右侧“尾部”分别对应于φX174控制车道中不经常和高度重复的读取。
图1。

质量评估。(A类)来自短读档案的不太可能的定向核苷酸变化和碱基调用(周期26)。(B类)左侧和右侧“尾部”分别对应于φX174控制车道中不经常和高度重复的读取。

1.3改造及下游分析

ShortRead(短阅读)为数据探索、转换和下游分析提供了便利。例如,字母按周期总结周期特异性核苷酸计数(图1A) 和基本素质。这个字母频率function总结了核苷酸在所有周期、每读基础上或整个读取集上的使用。这个桌子总结了常见的序列,如中所示图1B。ShortRead(短阅读)包含用于排序读取、查找重复项、修剪左右端以及利用生物串.

这里描述的功能通常很快,在几秒钟内就可以进行数千万次的短读;大文本文件的输入可能很慢,5000万36mer需要3-5分钟。具有4-8 GB内存的64位平台通常就足够了。

ShortRead(短阅读)提供可扩展的“过滤器”函数,用于删除满足预定义或特别的条件。例如灰尘过滤器识别并删除低复杂性读取。可以组合筛选器来制定复杂的条件。其他ShortRead(短阅读)功能是下游分析的起点。功能新闻报道总结[可能“扩展”,参见哈尔琴科等。(2008)]比对作为计算参考中每个核苷酸上的读取次数的载体。

ShortRead(短阅读)是其中之一生物导体序列分析包。生物串具有用于模式匹配、序列对齐和操作的灵活工具。牛基因组提供了表示和有效操作整个基因组的设施。I范围提供基于范围的表达和其他表达方式。rtracklayer公司从内部为基因组浏览器提供接口R(右)会议。

1.4高级功能

这个ShortRead(短阅读)该软件包包括用于处理大型重排序数据的高级功能。尤其是“通道”中的大量数据和生成鼓励了“块”处理方式。例如,的大部分QA功能ShortRead(短阅读)可以逐一进行。这个srapply(应用)函数利用了这个工作流程。典型的用法是使用文件名列表和要应用于该文件的函数。srapply(应用)将函数应用于每个文件。通常,该功能会减少文件中的数据量,例如从大量读取到车道质量的紧凑摘要。的显著特征srapply(应用)如果存在这样的资源,计算将分布在计算机群集中的处理器或节点上。

2结论

本说明介绍了生物导体ShortRead(短阅读)用于重新排序数据分析的软件包。该包允许输入R(右)不同的序列相关文件,以及通用数据格式的输出。它提供了质量评估工具和基于HTML的报告生成功能。ShortRead(短阅读)数据结构允许方便地操作数据,例如基于序列特征过滤读取。包工作流表示下游分析的入口点,使用生物导体或其他软件。未来的计划包括改进对较长和成对末端读数的支持,以及制定额外的质量量化指标;将SOLiD颜色空间模型合并到标准工作流程中的挑战排除了对这种格式的支持,而不仅仅是对转换为序列和Phred-like质量分数的数据的支持。

致谢

我们感谢早期采用者和生物导体课程参与者的有用意见。

基金:国家人类基因组研究所(批准号:P41HG004059 R.G.);EU(S.A的“染色质可塑性”研究和培训网络)。

利益冲突:未声明。

参考文献

宾利(Bentley)
博士
使用可逆终止剂化学进行精确的全人类基因组测序
自然
2008
,卷。 
456
(第
53
-
59
)
绅士
钢筋混凝土
生物导体:计算生物学和生物信息学的开放软件开发
基因组生物学。
2004
,卷。 
5
第页。 
80兰特
 
哈尔琴科
光伏
DNA结合蛋白芯片序列实验的设计与分析
自然生物技术。
2008
,卷。 
12
(第
1351
-
1359
)
库恩
马来西亚令吉
UCSC基因组浏览器数据库:2009年更新
核酸研究。
2008
,卷。 
37
(第
D755型
-
D761号
)
朗米德
B类
短DNA序列与人类基因组的超快和高效记忆比对
基因组生物学。
2009
,卷。 
10
第页。 
25兰特
 
H(H)
使用映射质量分数映射短DNA测序读取和调用变体
基因组研究。
2008
,卷。 
18
(第
1851
-
1858
)
马尔迪斯
急诊室
ChIP-seq:欢迎来到新的前沿
自然方法
2007
,卷。 
4
(第
613
-
614
)
莫塔扎维
A类
利用RNA-Seq对哺乳动物转录体进行定位和量化
自然方法
2008
,卷。 
5
(第
621
-
628
)
托雷斯
TT公司
大规模并行测序的基因表达谱分析
基因组研究。
2008
,卷。 
18
(第
172
-
177
)

作者注释

副主编:Dmitrij Frishman

这是一篇根据知识共享署名非商业许可条款发布的开放存取文章(http://creativecommons.org/licenses/by-nc/2.5/uk/)它允许在任何媒体上无限制地非商业性使用、分发和复制原始作品,前提是正确引用了原始作品。