摘要
1简介
第三代测序技术如SMRT(单分子实时)测序越来越多地被使用,因为它们产生的读取时间比第二代方法长得多。SMRT的错误特征与以前的技术有着根本的不同:基本错误率更高(10-15%),但错误被认为是无偏且均匀分布的(开斋节等。, 2009)这意味着可以通过将一个分子测序数次来减少它们。随着更多生物信息学应用程序被开发用于SMRT数据或混合数据的序列分析任务,例如基因组组装、SNP调用、结构变体发现,这些工具的作者将受益于考虑到SMRT技术细节的读取模拟器。第二代技术的现有流形模拟器,如454的ART、Illumina和SOLiD读取(黄等。, 2012),不要这样做。
为SMRT读取设计的模拟器很少,例如PBSIM(小野等。, 2013)、FASTQSim(Shcherbina,2014年)和BLASR套装中的炼金术(Chaisson和Tesler,2012年)现在,后者与.bas.h5格式一起被弃用。PBSIM的默认值基于现在过时的化学物质,无法完全重新配置。即使调整了读取长度,条件读取质量分布也与现有数据不匹配(图1和补充)。此外,PBSIM不提供参考和模拟读取之间的SAM格式对齐。FASTQSim是一个用于读取分析和模拟的通用工具。特别是,它为SMRT仿真提供了预设参数,还允许分析现有数据集的属性并进行相应的仿真。然而,它无法提供映射信息或模拟读取的对齐,并且模拟读取的速度相当慢(8700粗糙猪笼草30核的读取需要90 最小值)。模拟的长度/质量分布与数据不一致(图1和增补),并且很难直接更改参数。
图1。
实际数据集上每次读取的读取长度和平均基本质量的联合分布(D1 in表1),在SimLoRD仿真中,在PBSIM仿真中(--长度-平均 = 7000和--长度-sd = 3000)和在FASTQSim模拟中(从D1估计的参数)
为了改进现有的解决方案,我们开发了一种新的读取模拟器,名为“SimLoRD–长读取数据模拟”,使用方便,并且在技术规范更改时可以轻松重新配置。默认值根据SMRT技术的当前状态提供真实的模拟结果(2016年3月);看见图1.
2方法
由于SMRT库中已测序的DNA片段是循环的,在正向和反向链之间有适配器序列,因此一个片段可能在一次运行中被测序多次。对于通过序列的单程(子读取),错误率很高,但可以在多次通过后计算一致性(循环一致序列读取,CCS)。因此,CCS的错误率随着传递次数的增加而降低。
每个CCS根据给定(或随机生成)参考基因组进行如下模拟。首先,选择参考的随机染色体和随机起始位置。接下来,根据用户特定模型选择读取长度,通常是基因组数据的对数正态分布,以及与RNA-seq数据的库大小选择相对应的经验分布。如果参考在相关部分中包含Ns,则在读取时会随机替换这些Ns。这将产生无错误的模拟读取。为了确定基本质量和错误概率,我们首先从分发(详情如下)。例如,2.37通过意味着整个读取至少读取两次,而部分(读取的0.37)读取三次。传递次数用于确定每个基的最终错误概率,从子读取的给定基线错误概率开始(替换、插入和删除不同)。遍历读取,并根据最终的错误概率对每个碱基进行更改。在此过程中,将跟踪与参考的真实对齐。概率为1/2时,完成的读取是反向完成的。
为了确定合适的分布和模拟参数,我们分析了太平洋生物科学公司(Pacific Biosciences)的两个免费数据集(D1、D2;表1). 然后使用两个不同的数据集(D3、D4)验证所识别的模型和参数。
身份证件. | 类型. | 有机体. | 中央结算系统. | 子读取. | 统一资源定位地址. |
---|
第1页 | DNA | 粗糙脉孢菌 | 103百万桶 | 982兆比特 | 一 |
第2页 | 核糖核酸 | 智人 | 481百万桶 | 6 Gbp | b条 |
第3页 | 核糖核酸 | 智人,MCF-7 线 | 1.9 Gbp | 15 Gbp | c(c) |
第4章 | DNA | 秀丽隐杆线虫 | 350兆比特 | 5 Gbp | d日 |
身份证件. | 类型. | 有机体. | 中央结算系统. | 子读取. | 统一资源定位地址. |
---|
第1页 | DNA | 粗糙脉孢菌 | 103兆比特 | 982兆比特 | 一 |
第2页 | 核糖核酸 | 智人 | 481兆比特 | 6 Gbp | b条 |
第3页 | 核糖核酸 | 智人,MCF-7 线 | 1.9 Gbp | 15 Gbp | c(c) |
第4章 | DNA | 秀丽隐杆线虫 | 350兆比特 | 5 Gbp | d日 |
身份证件. | 类型. | 有机体. | 中央结算系统. | 子读取. | 统一资源定位地址. |
---|
第1页 | DNA | 粗糙脉孢菌 | 103百万桶 | 982兆比特 | 一 |
第2页 | 核糖核酸 | 智人 | 481兆比特 | 6 Gbp | b条 |
第3页 | 核糖核酸 | 智人,MCF-7 线 | 1.9 Gbp | 15 Gbp | c(c) |
第4章 | DNA | 秀丽隐杆线虫 | 350兆比特 | 5 Gbp | d日 |
身份证件. | 类型. | 有机体. | 客户服务提供商. | 子读取. | 统一资源定位地址. |
---|
第1页 | DNA | 粗糙脉孢菌 | 103百万桶 | 982兆比特 | 一 |
第2页 | 核糖核酸 | 智人 | 481兆比特 | 6 Gbp | b条 |
第3页 | 核糖核酸 | 智人,MCF-7 线 | 1.9 Gbp | 15 Gbp | c(c) |
第4章 | DNA | 秀丽隐杆线虫 | 350兆比特 | 5 Gbp | d日 |
我们发现CCS读取的长度具有对数正态分布,某些参数现在是SimLoRD中的默认参数,而RNA读取通常是选择大小的,因此它们的长度应该从给定的经验分布中得出。我们还发现第页,给定读取长度,可以通过带参数的缩放的二次分布进行建模(自由度)和比例参数,两者都取决于读取长度.的确切依赖性n个和秒在已记录在附录中。如果是指具有n个自由度,那么第页具有缩放密度.随着增加第页,基对错误概率降低。我们发现这种依赖性可以用一个有噪声的平方根函数来建模:当ε是子读取中的基对错误概率时,在CCS中它变为具有带参数一,b条和正态分布噪声N个(带附加参数;见附录)。
3 SimLoRD工具
SimLoRD是一个用Python 3实现的命令行工具,它使用上面的观察结果来模拟SMRT CCS读取。唯一需要的位置参数是模拟读取的路径前缀。参数-n决定模拟读取的次数。模拟读取与引用的真实对齐以SAM格式存储(使用.SAM而不是.fastq作为文件扩展名;这可以自定义)。可以从FASTA文件中读取参考(-rr路径)或随机生成(-gr GC长度)具有给定的GC内容和长度并存储。
存在许多控制生成的读取属性的参数(有关详细信息,请参阅附录)。选择读取长度分布有四种可能性:(i)为对数正态分布提供参数(-在SIGMA LOC秤上); (ii)设置固定的读取长度(-fl长度); (iii)从现有FASTQ文件中采样读取长度(-sf路径); (iv)从每行包含一个整数的文件中采样读取长度(-第一条路径). 可以为替换单独指定子读取的基线错误概率(-秒),个插入(-圆周率)和删除(-钯). 考虑以下示例,其中模拟了10000次读取,从参考的随机位置进行采样参考fa并写信给读取.fastq。替换、插入和删除子读取的平均错误概率分别为1%、12%和2%(总错误概率为15%)。将对齐写入阅读.sam。使用粗糙脉孢菌参考,本例采用2:10 最小值。
simlond-n 10000-rr参考号fa-pi.12-pd.02-ps.01为
总之,我们提出了一个基于Python的读取模拟器(SimLoRD),其错误模型对应于第三代SMRT错误特征,默认参数基于公共数据集。相关参数可以通过命令行参数轻松调整,因此模拟器可以在开发时快速适应新化学。SimLoRD可以方便地使用标准Python工具进行安装,并且可以在所有标准平台上运行。我们希望,在开发新的分析应用程序时,许多研究人员将受益于生成模拟SMRT数据的能力。
利益冲突:未声明。
工具书类
(
2012
)使用基本局部比对和逐次精化(BLASR)绘制单分子测序读数:应用和理论
.BMC生物信息学
,13
,238
. 等. (
2009
)单聚合酶分子实时DNA测序
.科学类
,323
,133
–138
.
. 等. (
2012
)ART:下一代序列读取模拟器
.生物信息学
,28
,593
–594
.
. 等人. (
2013
)PBSIM:PacBio读取模拟器-实现精确基因组组装
.生物信息学
,29
,119
–121
.
(
2014
)FASTQSim:NGS数据集的平台相关数据表征和硅内读取生成
.BMC Res注释
,7
,533
©作者2016。牛津大学出版社出版。保留所有权利。有关权限,请发送电子邮件至:日记.permissions@oup.com