SimLoRD: Simulation of Long Read Data

Stöcker, Bianca K.; Köster, Johannes; Rahmann, Sven

doi:10.1093/bioinformatics/btw286

摘要

动机：第三代测序方法比第二代方法提供更长的读取时间，并且具有明显的错误特征。虽然第二代数据有许多读取模拟器，但第三代数据的选择非常有限。

结果：我们分析了Pacific Biosciences（PacBio）SMRT测序的公共数据，开发了一个错误模型，并在名为SimLoRD的新读取模拟器中实现了该模型。它提供了选择读取长度分布和根据通过定序器的次数建模错误概率的选项。新的错误模型使SimLoRD成为可用的最真实的SMRT读取模拟器。

可用性和实施：SimLoRD可在以下位置获得开源http://bitbucket.org/genemoeinformatics/simlord/可通过Bioconda安装(http://bioconda.github.io).

联系人： Bianca.Stoecker@uni-due.de或斯文·拉赫曼@uni-due.de.

补充信息： 补充数据可在生物信息学在线。

1简介

第三代测序技术如SMRT（单分子实时）测序越来越多地被使用，因为它们产生的读取时间比第二代方法长得多。SMRT的错误特征与以前的技术有着根本的不同：基本错误率更高（10-15%），但错误被认为是无偏且均匀分布的(开斋节等。, 2009)这意味着可以通过将一个分子测序数次来减少它们。随着更多生物信息学应用程序被开发用于SMRT数据或混合数据的序列分析任务，例如基因组组装、SNP调用、结构变体发现，这些工具的作者将受益于考虑到SMRT技术细节的读取模拟器。第二代技术的现有流形模拟器，如454的ART、Illumina和SOLiD读取(黄等。, 2012)，不要这样做。

为SMRT读取设计的模拟器很少，例如PBSIM(小野等。, 2013)、FASTQSim(Shcherbina，2014年)和BLASR套装中的炼金术(Chaisson和Tesler，2012年)现在，后者与.bas.h5格式一起被弃用。PBSIM的默认值基于现在过时的化学物质，无法完全重新配置。即使调整了读取长度，条件读取质量分布也与现有数据不匹配(图1和补充）。此外，PBSIM不提供参考和模拟读取之间的SAM格式对齐。FASTQSim是一个用于读取分析和模拟的通用工具。特别是，它为SMRT仿真提供了预设参数，还允许分析现有数据集的属性并进行相应的仿真。然而，它无法提供映射信息或模拟读取的对齐，并且模拟读取的速度相当慢（8700粗糙猪笼草30核的读取需要90 最小值）。模拟的长度/质量分布与数据不一致(图1和增补），并且很难直接更改参数。

图1。

在SimLoRD模拟和PBSIM模拟中，实际数据集（表1中的D1）上每次读取的读取长度和平均基本质量的联合分布 = 7000和--长度-sd = 3000）和在FASTQSim模拟中（从D1估计的参数）

新标签中打开下载幻灯片

实际数据集上每次读取的读取长度和平均基本质量的联合分布（D1 in表1)，在SimLoRD仿真中，在PBSIM仿真中（--长度-平均 = 7000和--长度-sd = 3000）和在FASTQSim模拟中（从D1估计的参数）

为了改进现有的解决方案，我们开发了一种新的读取模拟器，名为“SimLoRD–长读取数据模拟”，使用方便，并且在技术规范更改时可以轻松重新配置。默认值根据SMRT技术的当前状态提供真实的模拟结果（2016年3月）；看见图1.

2方法

由于SMRT库中已测序的DNA片段是循环的，在正向和反向链之间有适配器序列，因此一个片段可能在一次运行中被测序多次。对于通过序列的单程(子读取)，错误率很高，但可以在多次通过后计算一致性(循环一致序列读取，CCS）。因此，CCS的错误率随着传递次数的增加而降低。

每个CCS根据给定（或随机生成）参考基因组进行如下模拟。首先，选择参考的随机染色体和随机起始位置。接下来，根据用户特定模型选择读取长度，通常是基因组数据的对数正态分布，以及与RNA-seq数据的库大小选择相对应的经验分布。如果参考在相关部分中包含Ns，则在读取时会随机替换这些Ns。这将产生无错误的模拟读取。为了确定基本质量和错误概率，我们首先从 $χ^{2}$ 分发（详情如下）。例如，2.37通过意味着整个读取至少读取两次，而部分（读取的0.37）读取三次。传递次数用于确定每个基的最终错误概率，从子读取的给定基线错误概率开始（替换、插入和删除不同）。遍历读取，并根据最终的错误概率对每个碱基进行更改。在此过程中，将跟踪与参考的真实对齐。概率为1/2时，完成的读取是反向完成的。

为了确定合适的分布和模拟参数，我们分析了太平洋生物科学公司（Pacific Biosciences）的两个免费数据集（D1、D2；表1). 然后使用两个不同的数据集（D3、D4）验证所识别的模型和参数。

表1。

数据集；请参阅URL参考

身份证件	类型	有机体	中央结算系统	子读取	统一资源定位地址
第1页	DNA	粗糙脉孢菌	103百万桶	982兆比特	^一
第2页	核糖核酸	智人	481百万桶	6 Gbp	^b条
第3页	核糖核酸	智人，MCF-7 线	1.9 Gbp	15 Gbp	^c（c）
第4章	DNA	秀丽隐杆线虫	350兆比特	5 Gbp	^d日

身份证件	类型	有机体	中央结算系统	子读取	统一资源定位地址
第1页	DNA	粗糙脉孢菌	103兆比特	982兆比特	^一
第2页	核糖核酸	智人	481兆比特	6 Gbp	^b条
第3页	核糖核酸	智人，MCF-7 线	1.9 Gbp	15 Gbp	^c（c）
第4章	DNA	秀丽隐杆线虫	350兆比特	5 Gbp	^d日

^一 https://github.com/PacificBiosciences/DevNet/wiki/Neurospora-Crassa-（真菌）-基因组、-表观基因组和-转录组

^b条 http://blog.pacificbiosciences.com/2014/10/data-release-whole-human-transcriptome.html

^c（c） http://blog.pacificbiosciences.com/2013/12/data-release-human-mcf-7-transcriptome.html

^d日 https://github.com/PacificBiosciences/DevNet/wiki/C.elegans-data-set

新标签中打开

表1。

数据集；请参阅URL参考

身份证件	类型	有机体	中央结算系统	子读取	统一资源定位地址
第1页	DNA	粗糙脉孢菌	103百万桶	982兆比特	^一
第2页	核糖核酸	智人	481兆比特	6 Gbp	^b条
第3页	核糖核酸	智人，MCF-7 线	1.9 Gbp	15 Gbp	^c（c）
第4章	DNA	秀丽隐杆线虫	350兆比特	5 Gbp	^d日

身份证件	类型	有机体	客户服务提供商	子读取	统一资源定位地址
第1页	DNA	粗糙脉孢菌	103百万桶	982兆比特	^一
第2页	核糖核酸	智人	481兆比特	6 Gbp	^b条
第3页	核糖核酸	智人，MCF-7 线	1.9 Gbp	15 Gbp	^c（c）
第4章	DNA	秀丽隐杆线虫	350兆比特	5 Gbp	^d日

^一 https://github.com/PacificBiosciences/DevNet/wiki/Neurospora-Crassa-（真菌）-基因组、-表观基因组和-转录组

^b条 http://blog.pacificbiosciences.com/2014/10/data-release-whole-human-transcriptome.html

^c（c） http://blog.pacificbiosciences.com/2013/12/data-release-human-mcf-7-transcriptome.html

^d日 https://github.com/PacificBiosciences/DevNet/wiki/C.elegans-data-set

新标签中打开

我们发现CCS读取的长度具有对数正态分布，某些参数现在是SimLoRD中的默认参数，而RNA读取通常是选择大小的，因此它们的长度应该从给定的经验分布中得出。我们还发现第页，给定读取长度 $ℓ$ ，可以通过带参数的缩放的二次分布进行建模 $n个 (ℓ)$ （自由度）和比例参数 $秒 (ℓ)$ ，两者都取决于读取长度 $ℓ$ .的确切依赖性n个和秒在 $ℓ$ 已记录在附录中。如果 ${（f）}_{n个} (x个) : = 1 / (2^{n个 / 2} Γ (n个 / 2)) \cdot {x个}^{n个 / 2 - 1} {e（电子）}^{- x个 / 2}$ 是指具有n个自由度，那么第页具有缩放密度 $克_{n个，秒} (第页) : = {（f）}_{n个} (第页 / 秒) / 秒$ .随着增加第页，基对错误概率降低。我们发现这种依赖性可以用一个有噪声的平方根函数来建模：当ε是子读取中的基对错误概率时，在CCS中它变为 $ε^{τ (第页)}$ 具有 $τ (第页) = \sqrt{第页 + 一} - b条 + N个$ 带参数一，b条和正态分布噪声N个（带附加参数；见附录）。

3 SimLoRD工具

SimLoRD是一个用Python 3实现的命令行工具，它使用上面的观察结果来模拟SMRT CCS读取。唯一需要的位置参数是模拟读取的路径前缀。参数-n决定模拟读取的次数。模拟读取与引用的真实对齐以SAM格式存储（使用.SAM而不是.fastq作为文件扩展名；这可以自定义）。可以从FASTA文件中读取参考(-rr路径)或随机生成(-gr GC长度)具有给定的GC内容和长度并存储。

存在许多控制生成的读取属性的参数（有关详细信息，请参阅附录）。选择读取长度分布有四种可能性：（i）为对数正态分布提供参数(-在SIGMA LOC秤上); （ii）设置固定的读取长度(-fl长度); （iii）从现有FASTQ文件中采样读取长度(-sf路径); （iv）从每行包含一个整数的文件中采样读取长度(-第一条路径). 可以为替换单独指定子读取的基线错误概率(-秒)，个插入(-圆周率)和删除(-钯). 考虑以下示例，其中模拟了10000次读取，从参考的随机位置进行采样参考fa并写信给读取.fastq。替换、插入和删除子读取的平均错误概率分别为1%、12%和2%（总错误概率为15%）。将对齐写入阅读.sam。使用粗糙脉孢菌参考，本例采用2:10 最小值。

simlond-n 10000-rr参考号fa-pi.12-pd.02-ps.01为

总之，我们提出了一个基于Python的读取模拟器（SimLoRD），其错误模型对应于第三代SMRT错误特征，默认参数基于公共数据集。相关参数可以通过命令行参数轻松调整，因此模拟器可以在开发时快速适应新化学。SimLoRD可以方便地使用标准Python工具进行安装，并且可以在所有标准平台上运行。我们希望，在开发新的分析应用程序时，许多研究人员将受益于生成模拟SMRT数据的能力。

利益冲突：未声明。

工具书类

链条箱

M.J.公司。

特斯勒

G.公司。

(

2012

)

使用基本局部比对和逐次精化（BLASR）绘制单分子测序读数：应用和理论

.

BMC生物信息学

，

13

，

238

开斋节

J型

. 等. (

2009

)

单聚合酶分子实时DNA测序

.

科学类

，

323

，

133

–

138

.

黄

W公司

. 等. (

2012

)

ART：下一代序列读取模拟器

.

生物信息学

，

28

，

593

–

594

.

小野

Y（Y）

. 等人. (

2013

)

PBSIM:PacBio读取模拟器-实现精确基因组组装

.

生物信息学

，

29

，

119

–

121

.

谢尔比纳

答：。

(

2014

)

FASTQSim:NGS数据集的平台相关数据表征和硅内读取生成

.

BMC Res注释

，

7

，

533

下载所有幻灯片

月份：	总浏览次数：
2016年11月	6
2016年12月	2
2017年1月	28
2017年2月	32
2017年3月	69
2017年4月	35
2017年5月	20
2017年6月	34
2017年7月	14
2017年8月	30
2017年9月	27
2017年10月	28
2017年11月	23
2017年12月	316
2018年1月	476
2018年2月	338
2018年3月	205
2018年4月	399
2018年5月	438
2018年6月	345
2018年7月	424
2018年8月	426
2018年9月	48
2018年10月	38
2018年11月	51
2018年12月	34
2019年1月	30
2019年2月	50
2019年3月	48
2019年4月	69
2019年5月	70
2019年6月	44
2019年7月	59
2019年8月	41
2019年9月	67
2019年10月	77
2019年11月	41
2019年12月	48
2020年1月	54
2020年2月	60
2020年3月	56
2020年4月	61
2020年5月	47
2020年6月	103
2020年7月	82
2020年8月	48
2020年9月	23
2020年10月	47
2020年11月	88
2020年12月	55
2021年1月	47
2021年2月	59
2021年3月	95
2021年4月	78
2021年5月	85
2021年6月	79
2021年7月	78
2021年8月	80
2021年9月	73
2021年10月	40
2021年11月	72
2021年12月	53
2022年1月	63
2022年2月	68
2022年3月	83
2022年4月	109
2022年5月	97
2022年6月	74
2022年7月	81
2022年8月	101
2022年9月	93
2022年10月	88
2022年11月	79
2022年12月	50
2023年1月	65
2023年2月	52
2023年3月	75
2023年4月	93
2023年5月	78
2023年6月	64
2023年7月	52
2023年8月	77
2023年9月	31
2023年10月	72
2023年11月	48
2023年12月	49
2024年1月	71
2024年2月	59
2024年3月	62
2024年4月	54

文章内容

SimLoRD：长读取数据的模拟

摘要

1简介

2方法

3 SimLoRD工具

工具书类

补充数据

引文

意见

海拔高度

电子邮件警报

通过引用文章

最新的

阅读次数最多

被引用次数最多

寻找你的下一个机会？

文章内容

SimLoRD：长读取数据的模拟

摘要

1简介

2方法

3 SimLoRD工具

工具书类

补充数据

引文

意见

海拔高度

电子邮件警报

通过引用文章

最新的

阅读次数最多

被引用次数最多

寻找你的下一个机会？

此功能仅对订阅服务器可用