摘要

动机:第三代测序方法比第二代方法提供更长的读取时间,并且具有明显的错误特征。虽然第二代数据有许多读取模拟器,但第三代数据的选择非常有限。

结果:我们分析了Pacific Biosciences(PacBio)SMRT测序的公共数据,开发了一个错误模型,并在名为SimLoRD的新读取模拟器中实现了该模型。它提供了选择读取长度分布和根据通过定序器的次数建模错误概率的选项。新的错误模型使SimLoRD成为可用的最真实的SMRT读取模拟器。

可用性和实施:SimLoRD可在以下位置获得开源http://bitbucket.org/genemoeinformatics/simlord/可通过Bioconda安装(http://bioconda.github.io).

联系人: Bianca.Stoecker@uni-due.de斯文·拉赫曼@uni-due.de.

补充信息: 补充数据可在生物信息学在线。

1简介

第三代测序技术如SMRT(单分子实时)测序越来越多地被使用,因为它们产生的读取时间比第二代方法长得多。SMRT的错误特征与以前的技术有着根本的不同:基本错误率更高(10-15%),但错误被认为是无偏且均匀分布的(开斋节等。, 2009)这意味着可以通过将一个分子测序数次来减少它们。随着更多生物信息学应用程序被开发用于SMRT数据或混合数据的序列分析任务,例如基因组组装、SNP调用、结构变体发现,这些工具的作者将受益于考虑到SMRT技术细节的读取模拟器。第二代技术的现有流形模拟器,如454的ART、Illumina和SOLiD读取(等。, 2012),不要这样做。

为SMRT读取设计的模拟器很少,例如PBSIM(小野等。, 2013)、FASTQSim(Shcherbina,2014年)和BLASR套装中的炼金术(Chaisson和Tesler,2012年)现在,后者与.bas.h5格式一起被弃用。PBSIM的默认值基于现在过时的化学物质,无法完全重新配置。即使调整了读取长度,条件读取质量分布也与现有数据不匹配(图1和补充)。此外,PBSIM不提供参考和模拟读取之间的SAM格式对齐。FASTQSim是一个用于读取分析和模拟的通用工具。特别是,它为SMRT仿真提供了预设参数,还允许分析现有数据集的属性并进行相应的仿真。然而,它无法提供映射信息或模拟读取的对齐,并且模拟读取的速度相当慢(8700粗糙猪笼草30核的读取需要90最小值)。模拟的长度/质量分布与数据不一致(图1和增补),并且很难直接更改参数。

图1。

实际数据集上每次读取的读取长度和平均基本质量的联合分布(D1 in表1),在SimLoRD仿真中,在PBSIM仿真中(--长度-平均 = 7000和--长度-sd = 3000)和在FASTQSim模拟中(从D1估计的参数)

为了改进现有的解决方案,我们开发了一种新的读取模拟器,名为“SimLoRD–长读取数据模拟”,使用方便,并且在技术规范更改时可以轻松重新配置。默认值根据SMRT技术的当前状态提供真实的模拟结果(2016年3月);看见图1.

2方法

由于SMRT库中已测序的DNA片段是循环的,在正向和反向链之间有适配器序列,因此一个片段可能在一次运行中被测序多次。对于通过序列的单程(子读取),错误率很高,但可以在多次通过后计算一致性(循环一致序列读取,CCS)。因此,CCS的错误率随着传递次数的增加而降低。

每个CCS根据给定(或随机生成)参考基因组进行如下模拟。首先,选择参考的随机染色体和随机起始位置。接下来,根据用户特定模型选择读取长度,通常是基因组数据的对数正态分布,以及与RNA-seq数据的库大小选择相对应的经验分布。如果参考在相关部分中包含Ns,则在读取时会随机替换这些Ns。这将产生无错误的模拟读取。为了确定基本质量和错误概率,我们首先从χ2分发(详情如下)。例如,2.37通过意味着整个读取至少读取两次,而部分(读取的0.37)读取三次。传递次数用于确定每个基的最终错误概率,从子读取的给定基线错误概率开始(替换、插入和删除不同)。遍历读取,并根据最终的错误概率对每个碱基进行更改。在此过程中,将跟踪与参考的真实对齐。概率为1/2时,完成的读取是反向完成的。

为了确定合适的分布和模拟参数,我们分析了太平洋生物科学公司(Pacific Biosciences)的两个免费数据集(D1、D2;表1). 然后使用两个不同的数据集(D3、D4)验证所识别的模型和参数。

表1。

数据集;请参阅URL参考

身份证件类型有机体中央结算系统子读取统一资源定位地址
第1页DNA粗糙脉孢菌103百万桶982兆比特
第2页核糖核酸智人481百万桶6 Gbpb条
第3页核糖核酸智人,MCF-7线1.9 Gbp15 Gbpc(c)
第4章DNA秀丽隐杆线虫350兆比特5 Gbpd日
身份证件类型有机体中央结算系统子读取统一资源定位地址
第1页DNA粗糙脉孢菌103兆比特982兆比特
第2页核糖核酸智人481兆比特6 Gbpb条
第3页核糖核酸智人,MCF-7线1.9 Gbp15 Gbpc(c)
第4章DNA秀丽隐杆线虫350兆比特5 Gbpd日
表1。

数据集;请参阅URL参考

身份证件类型有机体中央结算系统子读取统一资源定位地址
第1页DNA粗糙脉孢菌103百万桶982兆比特
第2页核糖核酸智人481兆比特6 Gbpb条
第3页核糖核酸智人,MCF-7线1.9 Gbp15 Gbpc(c)
第4章DNA秀丽隐杆线虫350兆比特5 Gbpd日
身份证件类型有机体客户服务提供商子读取统一资源定位地址
第1页DNA粗糙脉孢菌103百万桶982兆比特
第2页核糖核酸智人481兆比特6 Gbpb条
第3页核糖核酸智人,MCF-7线1.9 Gbp15 Gbpc(c)
第4章DNA秀丽隐杆线虫350兆比特5 Gbpd日

我们发现CCS读取的长度具有对数正态分布,某些参数现在是SimLoRD中的默认参数,而RNA读取通常是选择大小的,因此它们的长度应该从给定的经验分布中得出。我们还发现第页,给定读取长度,可以通过带参数的缩放的二次分布进行建模n个()(自由度)和比例参数(),两者都取决于读取长度.的确切依赖性n个已记录在附录中。如果(f)n个(x个):=1/(2n个/2Γ(n个/2))·x个n个/21e(电子)x个/2是指具有n个自由度,那么第页具有缩放密度n个(第页):=(f)n个(第页/)/.随着增加第页,基对错误概率降低。我们发现这种依赖性可以用一个有噪声的平方根函数来建模:当ε是子读取中的基对错误概率时,在CCS中它变为ετ(第页)具有τ(第页)=第页+b条+N个带参数b条和正态分布噪声N个(带附加参数;见附录)。

3 SimLoRD工具

SimLoRD是一个用Python 3实现的命令行工具,它使用上面的观察结果来模拟SMRT CCS读取。唯一需要的位置参数是模拟读取的路径前缀。参数-n决定模拟读取的次数。模拟读取与引用的真实对齐以SAM格式存储(使用.SAM而不是.fastq作为文件扩展名;这可以自定义)。可以从FASTA文件中读取参考(-rr路径)或随机生成(-gr GC长度)具有给定的GC内容和长度并存储。

存在许多控制生成的读取属性的参数(有关详细信息,请参阅附录)。选择读取长度分布有四种可能性:(i)为对数正态分布提供参数(-在SIGMA LOC秤上); (ii)设置固定的读取长度(-fl长度); (iii)从现有FASTQ文件中采样读取长度(-sf路径); (iv)从每行包含一个整数的文件中采样读取长度(-第一条路径). 可以为替换单独指定子读取的基线错误概率(-秒),个插入(-圆周率)和删除(-钯). 考虑以下示例,其中模拟了10000次读取,从参考的随机位置进行采样参考fa并写信给读取.fastq。替换、插入和删除子读取的平均错误概率分别为1%、12%和2%(总错误概率为15%)。将对齐写入阅读.sam。使用粗糙脉孢菌参考,本例采用2:10最小值。

simlond-n 10000-rr参考号fa-pi.12-pd.02-ps.01为

总之,我们提出了一个基于Python的读取模拟器(SimLoRD),其错误模型对应于第三代SMRT错误特征,默认参数基于公共数据集。相关参数可以通过命令行参数轻松调整,因此模拟器可以在开发时快速适应新化学。SimLoRD可以方便地使用标准Python工具进行安装,并且可以在所有标准平台上运行。我们希望,在开发新的分析应用程序时,许多研究人员将受益于生成模拟SMRT数据的能力。

利益冲突:未声明。

工具书类

链条箱
M.J.公司。
 
特斯勒
G.公司。
(
2012
)
使用基本局部比对和逐次精化(BLASR)绘制单分子测序读数:应用和理论
.
BMC生物信息学
13
238

开斋节
J型
. . (
2009
)
单聚合酶分子实时DNA测序
.
科学类
323
133
138
.

W公司
. . (
2012
)
ART:下一代序列读取模拟器
.
生物信息学
28
593
594
.

小野
Y(Y)
. 等人. (
2013
)
PBSIM:PacBio读取模拟器-实现精确基因组组装
.
生物信息学
29
119
121
.

谢尔比纳
答:。
(
2014
)
FASTQSim:NGS数据集的平台相关数据表征和硅内读取生成
.
BMC Res注释
7
533

补充数据