跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
科学代表。2018; 8: 10931.
2018年7月19日在线发布。 数字对象标识:10.1038/s41598-018-29334-5
预防性维修识别码:PMC6053456型
PMID:30026559

Oxford Nanopore的MinION测序装置在微生物全基因组测序应用中的评估

关联数据

补充资料

摘要

MinION测序器(牛津纳米孔技术公司)是一种范式转换设备,可以快速、实时、长时间读取核酸序列。然而,这项技术能力的外部基准测试尚未广泛报道,也没有对其在次优样本类型的现场分析中的效用进行彻底评估。本研究的目的是评估MinION测序器在细菌基因组和宏基因组应用中的能力,特别强调生成序列数据的质量、产量和准确性。国家微生物学实验室(加拿大公共卫生署)的两个独立实验室使用当前可用的流动细胞、测序化学和实验时可用的软件,对一组重复的微生物进行了测序。通过这组实验,总体测序产量和质量得到了提高。所有2D实验的测序比对精度都很高,达到97%,但1D测序的精确度略低(94%)。1D序列比2D序列长得多。这两种测序化学在构建基因组组合方面表现同样出色。使用本地和PCR条形码方法都有条形码交叉的证据。尽管现场测序的样本具有次优性质,但可归因于炭疽杆菌在这种情况下使用的目标生物体同样无法被检测到。总之,本报告展示了这项技术的快速发展及其在对公共卫生重要的微生物分离物基因组测序中的应用。

介绍

牛津纳米孔技术公司(ONT)的MinION是一种袖珍型设备,将纳米孔测序技术应用于核酸分析,具有广泛的应用,包括实时细菌宏基因组群落分析、亚型划分和生物全基因组测序的长阅读支架,仅举几例1虽然这项技术还在不断发展,但MinION的小型、灵活的物理功能和长阅读能力已使其用于一些重要的微生物研究,包括埃博拉、寨卡病毒的研究和万古霉素耐药肠球菌的检测2——5。在未知样本分类领域的生物威胁因子识别方面,这种能力很有希望,因为它有可能对这些因子进行无偏见的识别和表征,并通过捕获其他外来DNA来帮助样本的来源归属。

尽管这种测序方法具有潜在的范式转换性质,但实验化学和数据分析的发展速度使得在远程或实验室环境中对MinION设备进行外部基准测试或操作验证变得麻烦。此外,还没有广泛描述该技术在广泛错误类别、偏差和运行间可变性方面的局限性。虽然大型财团,如MinION分析和参考财团(MARC6,7此外,尚未对其在特征良好或次优样品中的宏基因组检测能力进行广泛的外部评估。

为了记录ONT的MinION设备目前使用R9.4流动池和2D、1D和快速1D化学生成的数据质量,我们机构内的两个独立实验室小组负责对一组特征良好的样品进行测序,并将生成的数据与从其他测序方法以及可用的NCBI参考中收集的数据进行比较。在写这篇手稿时,2D测序是一种生成高质量数据的选择方法,在这种测序中,DNA分子的两条链通过发夹适配器将链连接起来,按顺序进行测序。1D和快速1D测序都涉及对每个DNA分子的单链进行评估,从而产生质量稍低的数据,尽管测序效率较高。该分析的目的是独立评估MinION设备随着时间的推移而成熟的测序能力,解决准确性、再现性、,从头开始理想样品和低质量样品(典型的现场场景)中的装配连续性和测序偏差。我们还描述了ONT MinION在国家生物安全演习中的使用,以评估其对现场受生物威胁剂污染的展品进行快速现场调查的能力。国家微生物学实验室(加拿大温尼伯NML)是一家世界级的机构,在涉及对公共卫生和生物法医学分析具有重要意义的微生物的分析的参考和诊断测试以及方案开发方面均处于领先地位。它也是加拿大公共卫生安全微生物应急小组的业务中心。对于每一项任务,准确而现实地衡量新技术的优势和局限性都很重要。因此,评估MinION的测序能力是确保实验室和远程环境中临床和研究观察准确性的重要一步。

结果

从2016年至2017年,在9个月内进行了15次跑步。实验测试了二维、二维条形码测序、一维条形码测序和一维快速试剂盒,并应用了数据生成时最新的软件版本进行分析(补充表1).

流动池质量-孔数

收到的所有R9.4和R9.4 spotON流动池的孔数均超过保证水平(800个孔)。测量使用时的孔隙率,结果如补充表所示2早期R9.4流式细胞(非SpotON)在使用前储存了较长时间(根据ONT为4°C),测序时的质量大部分低于收到时的质量。后来的流动池(R9.4 SpotON)在储存后质量相同,甚至更高,这可能是因为MinKNOW软件实施的孔隙评估协议发生了变化。

排序产量

每轮测序产量如图所示1,表示读取总数和可用(通过)读取数。Epi2Me(Metrichor的基于云的基本呼叫软件)将第一组样本分为通过或失败,成功地对序列进行了2D分析、解复用,该分类应用的最低平均质量分数为6。第二个框中包含albacore调用的读取based的运行,并包含所有成功进行2D basecalling并进行解复用的读取,而不管最终的质量分数如何。在最后4次运行中,基本呼叫和解复用由MinKNOW(1D)执行。此外,还生成并描述了跳过的读取(测序时MinKNOW未处理的读取)。2D、1D和快速1D套件的平均通过读取次数分别为61848次(最多273102次)、160132次(最多598238次)和9641次(最多29632次)。注意,L1-2D-FAB37836-PCR和L1-1D-FAF18512-NAT运行都生成了比任何其他运行中生成的数据多得多的数据。此数量的数据在复制2D或1D运行中没有重复。根据我们的经验,以及牛津Nanopore用户社区中其他人的描述,大多数序列数据是在测序的前八个小时生成的,对应于第一组孔积极测序的时间。重要的是,在后来的运行中,Albacore的输出数据缺乏自动过滤,这在一定程度上是被称为“通过”的读取比例增加的原因。然而,这确实使我们能够评估原始数据的质量以及各种质量控制指标对下游分析的影响。在生成的可用读数中,随着研究的进展,读数质量普遍提高,早期运行的特点是读数更短,输出数据质量更低(图2).

保存图片、插图等的外部文件。对象名为41598_2018_29334_Fig1_HTML.jpg

在每个测试的流细胞上,DNA产量以进一步分析的读取次数(通过)和根据内部Epi2Me过滤参数或无法解复用(失败)排除的读取次数表示。FAB-R9.4;FAF-R9.4现场。第一组样本使用Epi2Me进行评估,第二组样本由Albacore进行,第三组样本由MinKNOW直接基调用进行评估*该样品在测序开始后1小时内进行了第二次补充。

保存图片、插图等的外部文件。对象名为41598_2018_29334_Fig2_HTML.jpg

使用fastqc计算此分析中包含的每个MinION运行的每2000个碱基对窗口的平均质量32。随着读取长度的增加,行会进一步延伸。早期运行的特点是读取时间较短,生成的输出数据质量较低。L1-2D-FAB29623分为前处理和后处理,指使用清洗缓冲液前后的读取质量。

连续添加样本对数据生成的影响

为了解决“堆叠”的影响,在清洗步骤后或简单地将二次样品添加到正在运行的MinION流动池中,实验室1(L1)进行了测序西班牙人Y.罗迪顺序。什么时候?西班牙人首先测序,然后停止测序软件,应用洗涤缓冲液并重新开始运行,我们观察到重新启动后活性测序孔急剧下降(1092至555)。在清洗前的四个小时内,生成了9003个2D通过读数。其中99.8%成功映射到西班牙人对应于35.9倍的计算平均覆盖率。鉴于这是目前唯一沉积在流动池中的生物体,预计其纯度较高。在随后的48小时内,流动池在应用清洗缓冲液和添加Y.罗迪,只生成了751个成功的2D调用读取。在这751个读数中,31.2%对应于西班牙人基因组,而67%映射到Y.罗迪均未实现超过1x的基因组覆盖率。

相比之下,当我们在没有应用中间清洗步骤的情况下进行类似分析时,在添加二次样品(也在四小时添加)后,没有孔隙丢失。共收集了8个小时的数据,在两次运行中,较小的西班牙人首先测序,然后是较大的Y.罗迪和vice-versa。第一次运行生成6038次二维读取,而第二次运行生成71618次二维读取。尽管产生的读取数差异很大,但由测序4小时后添加的有机体组成的测序数据的相对比例也很低。在第一次运行中西班牙人首先排序,只有5.2%的总读取与罗伊代Y基因组。在后一次运行中Y.罗德海首先测序,与该生物体相对应的读取数占总读取数的91.1%,而西班牙人读数仅占0.4%。有趣的是,在这次运行中,超过8%的读取未映射。许多未映射的读取可能与西班牙人pFSC454质粒,在本次分析时无法在Refseq中进行比较。

2D和1D实验中本地和PCR条形码的保真度

对于2D-PCR运行,平均有8.4%的读取没有根据条形码序列成功解复用,另外0.1%的读取被归类为属于实验中未包含的条形码。在2D-native运行中,未分类读取的数量低于初始实验的PCR多重运行中观察到的数量(3.3%),但在后期运行中增加到43%,这表明Albacore软件应用的更新解复用算法由于条形码检测算法的改变而导致大量序列被排除。在所有运行中,被错误分类为属于未使用条形码的读取可以忽略不计(分别为0.02%和0)。在对1D本机运行的分析中也观察到了这种更严格的要求,其中35%的读取未分类,只有23个(<0.01%)是由于不存在条形码。

大多数成功解复用的读取可以映射到正确的参考基因组。然而,在2D PCR条形码运行中,平均有0.3%的额外读取,0.8%的2D本地条形码运行,1%的1D本地条形码运行映射到与其共同测序的生物体基因组。

基于映射的对齐,用于确定覆盖统计信息和偏差区域

参考基因组的覆盖率与从测序运行中获得的通过读取数直接相关(图). 虽然有趣的是,实验室2(L2)的数据表明分离基因组优先测序,与任何质粒相比,覆盖率约为2:1。

保存图片、插图等的外部文件。对象名为41598_2018_29334_Fig3_HTML.jpg

箱线图描述了本分析中每个参考基因组的平均基因组覆盖率。序列生物及其相应的平均覆盖水平按所述进行着色。

通过比较不同的测序方法(1D天然、2D PCR/天然条形码),我们确定测序数据的错误模式在不同方法之间相似,PCR方法的错误略有增加,1D测序的错误率有所增加(图4). 2D测序精度很高,所有2D实验的比对碱基一致性接近或超过97%。一维测序的比对精度虽然低于二维实验,但仍高于94%。1D插入、删除和替换率均高于所进行的任何一个2D条形码实验。索引大小的平均长度为1.5-1.85个碱基对(bp),这表明大多数错误的碱基调用都是由跳过或添加单个碱基造成的。在L2的数据中,误差主要由与均聚物拉伸相关的indels引起(补充图1). 在L1生成的数据中没有进行同样的观察,这表明用于分析的参考的质量在解释错误率计算中很重要:虽然L1样本具有高质量的完整基因组,用作NCBI的参考,但L2的参考由来自从头开始用高深度MiSeq数据组装和抛光MinION数据。

保存图片、插图等的外部文件。对象名为41598_2018_29334_Fig4_HTML.jpg

本分析中包含的各种测序运行中生成的数据的错误特征。(A类)精确匹配参考映射段的基的比例。(B类)每100个对齐底座的插入。(C类)每100个对齐基数的删除数。(D类)每100个校准底座的替换。

从头开始MinION测序读数的组装和一致连接的累积准确性

从头开始使用Canu成功地从1D和2D数据集生成了程序集。当L1测序的生物体的平均覆盖率大于20时,在所有样本中识别出正确的连续体数量。即,一个与罗伊代Y在中检测到染色体罗伊代Y样本和两个包括一个染色体和质粒匹配序列的连接被检测到西班牙人组件连接尺寸也与参考尺寸大致相当。然而,对于L1执行的第一次本地条形码2D运行,生成的读取数不符合Canu建议使用的20倍阈值。在这种情况下,大于预期长度西班牙人染色体和两个额外的小连接被生成。对于较大的,Y.罗迪,基因组根本无法生成,最大的contig只产生了164kbp的长度。对于来自L2的PCR条形码运行,两个包含的生物体都没有测序到足够的深度,以便构建完整的连续序列。在本次运行中大肠杆菌样本为839kbp泄殖腔大肠杆菌。当使用1D和2D天然化学进行测序以为每个生物体生成合适的基因组支架时,获得了足够的深度泄殖腔大肠杆菌染色体长约4.6 Mbp,带有单个质粒,以及大肠杆菌4.7 Mbp,带有一组额外的三个质粒序列。

1D数据集的排序深度要求

为了评估生成准确数据所需的数据量从头开始组装,同时最大化同时测序的样本数量,特别是在使用一维化学时,L1-1D-FAF18512-NAT条形码序列在不同测序深度下被稀疏化,每次迭代时评估组装错误率和对齐精度。对于较小的基因组(~1.9Mbp),西班牙人理论上,10000(10k)次通过的读取足以产生一个与基因组大小近似的单个contig,而对于Y.罗迪,需要20 k次分类为通过的读取,以类似地生成适当数量和大小的contigs(图5). 有趣的是西班牙人pFSC454质粒在20k读取稀疏区中未被可靠检测到,这表明我们的随机读取选择可能是偶然地从该结构中删除了读取,或者组装参数必须在质粒检测的高覆盖率运行环境中进行调整。当根据检测到的SNP和满足与参考对齐所需的断点来比较这些组件的准确性时,即使使用了30k通过读取,contigs也会保留错误。对于西班牙人程序集检测到的替换数和索引数从10k读取迭代减少到30k读取迭代(分别为173-99个替换和9357-6988个索引)。然而,重要的是,即使使用完整的数据集,与NCBI参考相比,也检测到了替换和indel错误。在这些迭代中也始终存在六个断点,这表明更大规模的基因组重排表征了所产生的组装,并且这些重排不能随着阅读深度的增加而减轻。对于较大的Y.罗迪基因组,在10k迭代中检测到的断点数量大约是20k或30k的两倍(分别为420个对262个和266个)。还有大规模的插入。每个组件的取代量约为18k,而indel从10k组件的43k下降到30k组件的24k多一点(补充表). 使用Pilon进行错误纠正时8应用MiSeq Nextera XT后,SNP错误减少,但两种生物体的断点数量(代表组装错误)都没有改善。FLYE,一种Abruijn方法9进行了评估,以确定在这种类型的数据集上它是否比Canu更有优势。虽然速度快得多,但使用此方法不会影响装配质量。

保存图片、插图等的外部文件。对象名为41598_2018_29334_Fig5_HTML.jpg

通过1D测序和本机条形码生成的fastq读取子采样后生成的连接字的装配特征。虚线是NCBI报告的参考基因组大小。

质量修剪参数对一维数据质量的影响

与Metrichor/Epi2me和MinKNOW不同,在基本调用过程中,使用Albacore调用的读取基本不会自动分类为通过或失败。因此,为了评估从头开始对于1D MinION条形码运行的程序集,使用L1-1D-FAF18512-NAT的完整数据集评估了基于不同特征的微调读取的效果。适配器污染对程序集和读取数据的影响通过在不同级别微调读取端或应用Porechop进行评估7。在两端保守地将读取值减少100,或者不保守地减少50个碱基对,或者应用Porechop对生成的连续或检测到的变体而言,对读取错误率或组装质量没有显著影响。接下来评估了应用不同长度和质量截止值的效果,测试了每个参数,结果排除了不同数量的数据。超过10k(3%)的阅读量Y.罗迪当最小长度为1000个碱基时,隔离物被排除在外。对于西班牙人样本,约14k(7%)读数被删除。还评估了10和20的平均读取质量阈值,删除了58和77个序列Y.罗迪西班牙人质量阈值分别为10,平均质量为20时为286368(72%)和126804(62%)。对于质量大于20且长度大于1000个碱基的样品,也进行了共过滤,其中287936(73%)和126804(63%)从Y.罗迪西班牙人样品。

有趣的是,在这些滤波方法之间引入的对准误差方面,测序数据质量几乎没有差异。装配精度和覆盖范围(补充表)在整个contig中,所有方法之间也是相似的,可能是因为Canu在contig生成之前进行了大量的内部筛选。纳米抛光剂的使用10减少了indel错误的频率,但在减少较大的重排和反转方面不太成功。对于西班牙人数据显示,所有方法产生的基因组包含约1.95M个碱基对,与参考数据一致。所有这些都产生了可归因于pFSC454质粒的第二个contig。每种方法产生的这种质粒的组装体都比NCBI报道的16k碱基对长(新西兰_CP018094; 2017年4月16日),当最小质量设置为20(包括当质量和长度被过滤时的迭代)时,修剪结束过滤63k个碱基对的约110k个碱基对,以及其余分析的38k个碱基对。对于Y.罗迪分析,每种过滤方法都产生了4.5M个碱基对的大重叠群。有趣的是,对于使用20个质量过滤阈值且长度大于1000的迭代,还生成了四个长度从17k到40k的连续序列。BLAST搜索确定这些是西班牙人基因组,这表明在经过实质性过滤的样本中,来自其他同时运行的样本的次级污染物基因组,特别是那些基因组较小的样本,可能会构成要组装的读取的足够大的比例。这些连续体的覆盖率远低于有意测序的相关基因组的覆盖率(5x),这表明应用连续体覆盖率阈值可以减少在运行中生成足够数量的读取时对污染物集合的报告。

通过断点和倒置与参考相比较发现的错误装配在所有迭代中都被检测到,并且在应用更稳健的筛选程序或使用纳米抛光剂后没有显著改善(补充表). 没有一种过滤方法能够成功地从contigs中删除所有错误,这表明,尽管在本实验中实现了高度覆盖,但它在准确组装基因组方面仍然无效,或者这些生物体的NCBI Refseq条目中存在错误。

MinION 1D快速试剂盒性能的部署前评估

快速1D测序产生的大多数读数是在测序的前16小时内产生的。然而,大多数被MinKNOW分类为失败或被跳过(未执行基本调用)(图1). MinKNOW通过的读取的中间质量西班牙人跑步10次。MinKNOW在西班牙人run中,7532个样本中的5839个使用长鳍白藜芦醇成功地进行了基调用,而fastq数据则是使用多孔醇提取的。然而,这些数据的中位数质量(5.5,孔醇默认设置)低于被归类为通过MinKNOW设备的测序读取。当关闭基于长度的过滤时,跳过读取的中值质量为6。MinKNOW跳过的读取的基本调用也大大增加了分析的周转时间,此步骤需要额外15小时的处理时间。出于这个原因,决定以后的实验只关注名为“MinKNOW通过”的数据库。Median quality for the pass reads of theY.rohdie公司跑步次数为9次。值得注意的是,新制备的DNA没有用于这组实验,这可能解释了生成的读取数量减少的原因。

随后将本实验中归类为通过的排序读取与西班牙人(新西兰CP018093.1型)和Y.rohdie公司(新西兰第009787.1页)基因组,使用NanoOK(表1). 读取质量和对齐的基础标识低于之前描述的一维数据。为了评估我们正确识别病原体的能力,尽管质量有所下降,但我们在一台具有48个2.30 GHz核心的台式计算机上通过kraken运行了测序fastqs。来自伊斯帕尼氏F.hispaniensis在1241.935秒中处理了run。1077(84.34%)被正确分类,200(15.66%)被未分类、错误或未分配到家庭级别以下。对于Y.rohdie公司分析表明,在1680.814秒内处理了5044个序列,其中4279个(84.83%)被分类,765个(15.17%)未分类、错误或未分配到家族水平。我们还评估了读取质量过滤对通过的读取的影响,应用平均q-核心截点8,以确定这是否对将读取分类到适当分类组的能力产生影响。当我们将此过滤器应用于西班牙人数据显示,1043个序列超过了这个阈值,其中97.03%的序列在属水平上得到了正确分类。对于Y.罗迪4105个序列通过了这个阈值,94.91%的序列分类正确(属)。这些实验的结果用于在实验室外进行的分析中为决策提供信息。

表1

使用MinION测序设备和ONT的1D快速试剂盒(SQK-RAD002)生成的数据的序列质量。

读取次数对齐读取对齐的基础标识每100个对齐的相同基数每对齐100个插入每100个对齐的删除基数每100个对齐的替换
L1-1D-FAF06136-RAP-通过1277121889.04%79.50%2.91%7.80%9.79%
L1-1D-FAF05394-RAP-合格5044473192.04%82.83%1.53%8.47%7.16%

所示数据来自实验室中运行的一对分离物,并用于使用NanoOK对技术性能进行基准测试。西班牙人 = 西氏弗朗西塞菌;Y.罗迪 = 罗氏耶尔森菌.

对远程生成的数据进行排序

样品一由“纯”组成炭疽杆菌Volum株基因组DNA(1.3 ng/uL;6.5 ng测序),总共测序了五个小时,产生的数据比在理想实验条件下进行的典型测序少得多(表2). 样品二,TE中的拭子,其中5 uL含有炭疽杆菌(3.3 ng)和对照人类基因组DNA(5 ug),产生了更多数据(表2). 对于样品二的测序,在测序开始一小时后,将第二个文库制剂添加到相同的流动池中,导致产生相当数量的序列数据,以在23小时的运行时间后从非快速试剂盒测试中获得输出。值得注意的是,在这些实验中,使用的DNA浓度远低于ONT建议的27 ng/uL。尽管存在这一挑战,但对于两次运行,大约一个小时后就可以获得足够的序列数据,以便进行分析。

表2

主要测序输出指标描述了从加拿大偏远地区进行的两次MinION运行中获得的数据。

L1-1D-FAF06136-RAPL1-1D-FAF05394-RAP公司样品1 T1样品1 T-final样品2 T1**样品2 T-final
经过的时间26小时26小时49分钟5小时60分钟23小时
生成的序列总数3346731462338914855329254619
通过(minKNOW)序列127850444722611132829623
本地基本调用方跳过的读取75321114021920442495866
通过(平均q>8)序列10434105365199410132971

**此时添加了由相同样品制备的第二个库。

病原体鉴定和生物分诊能力

为了全面评估MinION的生物分类能力,使用了几种工具对测序读数进行分类分配,以提高鉴定的可信度。T1时的样本1有78.4%的读数分配给蜡样芽孢杆菌由kraken分类,20.27%被归类为炭疽杆菌另外8%分配给蜡样芽孢杆菌苏云金芽孢杆菌在属水平上,88.5%的读数被分类为芽孢杆菌,其余未分类。对该样品进行这些比例的最终分析(T-final)。T1的特征序列分析显示两个序列映射到基因组特征序列,103映射到pXO1或pXO2。在T-final中,该样本有18个序列映射到4个基因组特征序列,另外还有418个序列映射至pXO1和pXO2。使用MASH分析数据11(T1和T-final)提供了与炭疽杆菌炭疽杆菌基因组。综上所述,这些数据表明我们能够准确识别炭疽杆菌在使用MinION技术开始测序一小时后,在一个纯净的低浓度样品中,该时间点相当于传统的实时PCR。

在T1阶段,样本2具有大约83%的分类序列。绝大多数(81.2%)对应于智人。此时,只有两次读取被成功调用为炭疽杆菌,而12人(1.1%)被确定为大肠杆菌考虑到该样本似乎代表一个混合社区,MASH未用于分析。T1的特征序列分析确定无炭疽杆菌然而,当不使用阈值时,检测到一个到基因组特征的读取映射和一个到pXO1质粒的读取映射。因此,准备了额外的文库,并将其添加到流动池中,以确定该样本是否确实对炭疽杆菌。再等待23小时后,14.5%的序列未分类,大多数分类为智人(83.94%). 13次阅读被确定为蜡状芽孢杆菌组,只有三个对应于炭疽杆菌。其余读数分类为大肠杆菌(27; 0.47%). 特征序列分析确定了三个读数,它们以高置信度(得分>50)映射到pXO1或pXO2。在没有应用质量阈值的情况下,成功地映射了168个读取,大多数98.2%映射到任一质粒。

讨论

ONT开发的MinION设备与传统的下一代测序平台相比有几个据称的优势,包括核酸的直接测序,允许进行DNA修饰检测和直接RNA测序,实时数据采集和分析,以及生成长读取的能力1,12——17然而,这种方法的新颖性以及缺乏独立的研究来对技术的能力进行基准测试,这是一个需要解决的基本知识缺口。MARC进行的两项研究评估了较旧版本流式细胞(R7孔)的测序能力,以及随后使用2D和快速1D试剂盒更新的R9细胞的测序性能6,7新R9.4孔的开发带来的测序能力的急剧变化,导致需要对许多生物体进行额外的研究和评估。本研究描述了两个独立的实验室部门在一个机构外运行ONT的MinION设备的经验,使用更新的R9.4测序流动池和相应的2D、1D和1D快速化学分析一组四个特征良好的菌株。

虽然重复运行之间的一致协议是实验设计的理想选择,但在基于MinION测序的动态快速进化背景下,我们无法在所有实验中保持方法之间的技术一致性。重要的是,自本研究结束以来,2D测序已被1D取代,这是这种进化的象征2化学,其中DNA双链的正向和反向链在没有物理连接的情况下进行测序,快速试剂盒已经更新(RAD002至RAD004)。通过1D排序2该方法已被证明可以生成与2D质量类似的数据,实验协议大大简化,随后产生的读取次数也会增加17此方法需要更新的(R9.5)流动池和相应的化学物质,并且需要以类似的方式进行分析,以评估其效用。RAD004试剂盒也被描述为与旧版试剂盒相比,在测序效率方面有所改进。

总的来说,在我们的实验过程中,MinION设备的测序能力大大提高,在以后的运行中产生了更高的DNA序列产量。变化,尤其是MinION软件的变化,以及技术上更简单的1D协议的采用,似乎是后期运行产量增加的主要原因。然而,在这两个实验室中,运行之间存在显著的不一致性,与平均值相比,任何一个实验室产生的产量都显著较高或较低。这些运行歪曲了结果,并使严格基于样本数量和输入DNA的每个流动细胞的预期产量的估计具有挑战性。快速工具包似乎在两次运行之间生成了类似数量的数据,尽管在第二次现场运行中,生成了额外的库准备并在1一个小时的测序,产生了更多的数据,这一过程,连同低输入试剂盒的使用,可能对低浓度样品有益。

可能影响输出数据的一个因素是输入库的质量。根据我们的经验,使用ONT推荐和提供的方案和试剂生成2D测序文库具有挑战性。方案不同阶段的DNA数量评估表明,对于2D分析,发夹标记步骤和随后的珠纯化(最后一步),导致大量DNA丢失。因此,必须在装载到流动池的DNA文库数量低于建议数量的情况下进行多次运行。为了缓解这一挑战,从2D到1D和快速1D的转变对最大化运行之间的排序输出产生了有益的影响。一维2可能会有类似的效果,同时保留由两条链测序产生的高质量数据。

尽管简化了快速测序试剂盒的协议,但快速协议仍需要高浓度和高质量的DNA,以及使用专业实验室设备和技术合格的工作人员,以支持成功使用所需的精确度。为了满足高浓度DNA的要求,已经描述了实施全基因组扩增(WGA)或DNA浓缩技术的各种方案修改18,19,并与其他测序方法(即MiSeq)一起使用。此外,还提供了更新的低输入MinION库准备套件。然而,在我们手中,这些方法显著增加了实验时间和复杂性(数据未显示),使其无法用于快速操作分析。为了评估MinION在“现实世界”场景中的能力,在这种场景中,只有低数量和高质量的DNA可用,我们选择使用原始提取的DNA作为快速1D测序试剂盒的输入来评估该技术的测序能力,而不需要额外的步骤,这些步骤在实验室环境中可能具有更大的实用性。低测序产量是Y。罗迪和F。西班牙人在实验室进行了观察,这可能反映了DNA制备中存在污染物,或者提取和测序之间的时间稍长。重要的是,我们的现场结果证明了MinION测序仪检测高后果病原体DNA的能力,即使是从DNA浓度远低于ONT建议输入快速测序试剂盒的样本中。

我们的研究结果表明,所有2D序列的测序准确率均高于96%,而使用1D化学进行测序的测序精确度则高于94%,这表明该技术有望在许多学科中得到应用。尽管迄今为止取得了进展,但在同源聚合物序列中准确调用碱基仍然存在问题,通常会导致一个或几个碱基的明显插入或缺失20这一局限性以前也在其他技术中描述过,均聚物是精确测序的一个重大且众所周知的挑战21的确,值得考虑的是,当前的参考文献集也因这些具有挑战性的序列而出现错误22有趣的是,在L2数据集中,均聚物拉伸似乎被更一致地误称。这种差异可能是生物体特有的,也可能是两个实验室在分析中使用的不同参考类型的副产品。在没有高质量参考基因组的情况下,这一观察对于评估数据质量特别有意义。

生成共识序列和从头开始使用MinION的基因组组装是这项技术的一个激动人心的应用,因为生成的长读取允许解析使用短读取技术无法组装的重复区域或复杂序列。然而,为了实现高一致性准确性,需要从单个有机体进行多次读取以提供高覆盖率,从而降低技术的错误率。此外,来自其他生物的污染序列必须仅以微不足道的数量存在。在我们手中,仅仅根据DNA输入到文库准备中的数量来预测运行输出是不可能的。在这方面,同样重要的是我们发现实验中使用的条形码对之间存在读取错误。对于数量有限且后果严重的样品,或那些未知且纯度存在问题的样品,必须考虑全流动池,以确保生成高质量数据。此外,可以使用MinION和短读测序生成的数据对样品进行测序,以便准确调用SNP和进行indel分析。对于可能存在额外非基因组DNA(即质粒)的生物体,应仔细考虑从头开始需要组装来减轻污染物测序(由同时测序的生物体或环境物种)对解释的影响。在我们的数据中,在生成高质量数据的运行中从头开始感兴趣生物体的组装基因组较高,而污染物的组装基因组较低。尽管如此,在评估这种低覆盖率的污染物接触是否实际上可以与样本中实际存在的低拷贝质粒区分时,必须谨慎。

ONT提出的另一种提高吞吐量的策略是临时堆叠样本,可能在运行之间存储流单元。值得注意的是,我们的数据与其他人的发现保持一致5,23结果表明,清洗后的流动细胞发生了实质性降解,以及之前运行中的DNA携带。因此,任何堆叠运行都需要额外应用条形码,因此具有与上述类似的限制。例如,当首先对一个特别重要的样品进行测序,然后对一个较低值的样品进行排序,以便最大化每个流动池的测序潜力时,这种方法可能会被证明是有用的。

为了确定今后是否应执行一维滤波以提高数据质量,我们评估了滤波器参数对输出的影响。有趣的是,在这些数据集中,应用一个纳入阈值似乎并没有直接受益于从头开始测序输出或测序错误率,对病原体检测的影响有限,尽管是有益的。同样值得注意的是,即使应用我们最严格的过滤标准(长度>1000,质量>20),也无法过滤出来自联合运行样本的污染序列数据。这表明错误条形码读取的质量很高,因此不容易通过标准过滤实践去除,除非样本之间的混合读取数量足够低,否则有理由担心混合样本中的一个样本会出现小的重叠。因此,必须通过基于分类学的事后过滤来解决潜在的污染读取问题(当远距离相关的生物体同时测序时),或者通过如上所述在流动细胞上一次只运行一个样本来解决。

本研究中描述的工作旨在提供有关ONTs MinION设备状态的新信息,用于细菌生物的全基因组测序,并评估其在混合样本中检测病原体的能力。虽然这项技术在研究和临床应用方面都有明显的实质性好处,但有几个缺点,包括错误率高、试剂盒和试剂的频繁修改以及运行间变异性高,目前限制了该平台的广泛采用和应用。然而,即使在本研究的短时间内,数据输出的大幅改善(如果表明该技术的持续进化轨迹)可能会进一步推动长序列读取分析领域的范式转变。随着这项技术的发展开始稳定,人们将对其益处和局限性有更深入的了解,实验之间的比较和测序输出的更准确估计将成为可能。

方法

MinION分析在加拿大温尼伯NML的加拿大公共卫生署(PHAC)的两个独立实验室独立进行。现场分析是在加拿大一个安全地点的移动实验室进行的。这两个实验室都是MinION早期访问计划的一部分,并在2016年9月至2017年3月期间获得了用品和试剂。实验室1(L1)对一对特征良好的参考基因组进行了分析罗氏耶尔森菌(DSM 18270)和西氏弗朗西塞菌(DSM 22475),以及作为远程测序练习一部分的“未知”样本。培养和提取条件见补充方法。这些生物体之前已经在家中测序,因此有Illumina MiSeq(Illuminia,Madison,WI,USA)数据以及NCBI中描述的封闭、高质量参考基因组。第二个实验室(L2)分析的样本特征不太明确阴沟肠杆菌大肠杆菌分离物。已知它们含有基于质粒的抗菌耐药基因,并被用作MinION检测和组装对抗菌耐药(AMR)至关重要的质粒的能力的概念证明。测试的测序方法包括连续添加样品的重复2D测序、使用PCR和本地条形码试剂盒同时对两个样品进行2D测速、使用本地条形码对样品进行同步1D测序以及对单个样品进行快速1D测速(补充表1).

MinION库的准备和排序

收到流动细胞后,在测序前再次使用平台QC脚本(MinKNOW,补充表1). 流动细胞被替换到其包装中,用副膜和胶带密封,并在4°C下保存,直至使用。补充表中描述了用于每个实验的库准备套件和流动池1。所有文库制备均按照ONT提供的方案进行,但最终制备步骤除外,即样品在20°C和65°C下培养10分钟。两种条形码试剂盒使用的初始DNA量均大于100 ng(L1-2D-FAB47257-NAT除外)。使用Covaris g管(美国沃本D-Mark Biosystems公司)以4200 rpm的转速离心两次1分钟,以剪切分离DNA。PCR条形码试剂盒的具体条件见补充方法。用于L1和L2分析的纯化产品在30μl中用水洗脱。对于条形码库,每个生物体的等量输入到最终库中。按照ONT的指示,将完成的库加载到R9.4流动池中。

为了测量开始测序后添加连续样品的效果,在允许测序运行一段时间(4或8小时)后添加第二个生物体的DNA,进行堆叠运行。此外,在添加第二个样品之前应用清洗步骤的效果也在并排比较中进行了评估。考虑到技术的快速发展以及版本发布之间的短时间间隔,每次运行都使用测序时可用的最新方法和协议生成数据。Mk1B MinION设备用于数据采集。

实验室分析

ONT、其子公司Metrichor或开源提供的几个软件工具用于评估本报告中描述的MinION运行生成的序列数据。原始序列读取要么上传到Epi2Me接口(英国牛津Metrichor),这是一个基于云的MinION数据分析平台,用于基本呼叫和解复用,要么通过NML服务器上的Albacore(英国牛津Nanopore Technologies)进行处理(补充表1),或通过MinKNOW实时调用base。在可能的情况下,使用Epi2me对每次运行的测序丰度和质量的基本指标进行检查。通过Epi2Me质量参数的基本调用数据(q意思是 > 6) 以fast5格式从云端下载,并使用Poretools(0.6.0)转换为fastq或fasta24。只有指定为通过的读取才包括在进一步的分析中。2D样本使用Albacore/MinKNOW进行基本调用,无论是否具有解复用功能(v>1.1.2),都通过该程序生成了fastq文件。Albacore(目前)不应用任何质量过滤,因此,对于重复的本地条形码,所有成功生成的读数都包含在下游分析中。对于无法使用Albacore成功解复用的复制PCR条形码运行(由于与软件的引物不兼容),在基本调用解复用后使用了Epi2me,没有对输出数据应用额外的过滤。使用NanoOK评估质量25(v 0.95;1.22),使用LAST对齐算法执行读取对齐26(v809)。使用的参考基因组来自NCBI(西班牙人–新西兰FSC454CP018093.1型;Y.罗迪–新西兰YRACP009787.1)或来自从头开始用Canu汇编读取数据27,并使用Pilon抛光输出轮廓8在没有高质量基因组参考的情况下。

从头开始对于单个序列覆盖率大于20倍的运行,使用Canu进行组装27(1.3)使用Pilon(1.22)和纳米抛光剂(0.8.5)抛光轮廓,以评估优化的装配质量8,9。L1生成的1D运行产生了多余的数据,并导致使用Canu中的默认或自定义参数执行装配所需的时间大幅增加。因此,基于a-bruijn的更快速方法(Flye 2.3.2)9也进行了评估。为了确定1D读取的有用阈值排序要求,我们使用定制的bash脚本随机对此次运行获得的读取进行子采样排序,并尝试用canu重新组装每个结果数据集。该数据集还用于确定不同覆盖水平下的读取质量阈值,方法是评估其对从头开始使用Seqtk(trimfq)的装配质量28、porechop和Japsa(jsa.np.filter)29使用dnadiff将组装物与参考基因组进行比较30.

所有软件都使用默认参数,因为管道协议的微调超出了本手稿的范围。在适当的情况下,使用R(v.3.4.0)对重要质量指标的调查进行统计分析和可视化。

基于现场的分析

随后对MinKNOW软件分类为通过的Fast5文件进行了处理和分析。Japsa套餐29用于从fast5文件中提取fastq读取(npreader),并将读取筛选为最小平均质量阈值8(jsa.np.filter)。然后使用kraken和默认参数对符合既定标准的测序读取进行分类31,以及一个自定义数据库,其中包含各种生物威胁因子、常见环境和共生细菌和病毒以及人类和蓖麻毒素基因组DNA作为参考(数据库大小21.6 GB)(补充表4). 该数据库是使用2017年1月9日从NCBI refseq收集中获得的基因组构建的。作为对未知样本的进一步验证性测试,将序列与一组特定于炭疽杆菌(七个基因组特征加上pXO1和pXO2质粒),使用bwa-mem(补充方法)在内部开发。第一个样本也通过MASH进行检测,以进一步确认生物体的身份11此时,没有使用自动化脚本,但是,在数据传输后不到30分钟,就对在一小时时间点获得的数据进行了分析。

本研究期间生成的数据集可在生物项目PRJNA454306下的SRA存储库中获得。

本文所表达的观点和意见仅为作者的观点和意见,不代表加拿大公共卫生局或加拿大政府的观点和意见。

电子辅助材料

补充方法和结果(241K,docx)

补充表3(14K,xlsx)

补充表4(300万,xlsx)

致谢

本研究部分由加拿大安全保障计划(CSSP-2015-T1-2153)和加拿大公共卫生署基因组研究与发展计划(GRDI)的拨款资助。资助者在研究设计、数据收集和分析、决定出版或准备手稿方面没有任何作用。

作者贡献

A.D.T.撰写手稿文本,进行分析和实验;L.M.进行了分析和实验;C.J.U.和L.S.进行了实验;K.A.概念化;M.R.M.概念化、监督、资源;C.R.C.概念化、资源和项目监督。所有作者都审阅了手稿。

笔记

相互竞争的利益

作者声明没有相互竞争的利益。

脚注

电子辅助材料

补充信息本文随附于10.1038/s41598-018-29334-5。

出版商备注:Springer Nature在公布的地图和机构关联中的管辖权主张方面保持中立。

工具书类

1Simpson JT等。使用纳米孔测序检测DNA胞嘧啶甲基化。自然方法。2017;14:407–410. doi:10.1038/nmeth.4184。[公共医学] [交叉参考][谷歌学者]
2Tarumoto N等。牛津纳米孔MinION测序器在万古霉素耐药肠球菌MLST基因分型中的应用。J.医院感染。2017;96:296–298. doi:10.1016/j.jhin.2017.02.020。[公共医学] [交叉参考][谷歌学者]
三。Benítez-Páez A等人。使用MinION TM便携式纳米孔测序仪在物种水平上研究微生物多样性的多焦点和长扩增子测序方法。巨大的科学。2017;6:1-12.doi:10.1093/gigascience/gix043。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
4Quick J,等。直接从临床样本中对寨卡病毒和其他病毒基因组进行MinION和Illumina测序的多重PCR方法。《国家协议》。2017;12:1261–1276. doi:10.1038/nprot.2017.066。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
5Greninger AL等。通过实时纳米孔测序分析快速鉴定临床样本中的病毒病原体。基因组医学。2015;7:99.doi:10.1186/s13073-015-0220-9。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
6Ip CLC等。MinION分析和参考联盟:第1阶段数据发布和分析。F1000研究。2015;4:1075. [PMC免费文章][公共医学][谷歌学者]
7Jain M等人,《MinION分析和参考联盟:R9.0化学的第2阶段数据发布和分析》。F1000研究。2017;6:760.doi:10.12688/f1000research.11354.1。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
8Walker BJ等。Pilon:综合微生物变异检测和基因组组装改进的综合工具。公共科学图书馆一号。2014;9:e112963.doi:10.1371/journal.pone.0112963。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
9Kolmogorov,M.、Yuan,J.、Lin,Y.和Pevzner,P.使用重复图组装长期易出错读数。生物Rxiv247148 (2018). [公共医学]
10新泽西州洛曼、奎克·J、辛普森·JT。仅使用纳米孔测序数据重新组装完整的细菌基因组。自然方法。2015;12:733–735. doi:10.1038/nmeth.3444。[公共医学] [交叉参考][谷歌学者]
11Ondov BD,et al.Mash:使用MinHash快速估算基因组和元基因组距离。基因组生物学。2016;17:132.doi:10.1186/s13059-016-0997-x。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
12Rand AC等。利用高通量纳米孔测序绘制DNA甲基化图谱。自然方法。2017;14:411–413. doi:10.1038/nmeth.4189。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
13Oikonomopoulos S,Wang YC,Djambazian H,Badescu D,Ragoussis J.牛津纳米孔MinION测序用于cDNA群体定量和定性评估的基准。科学。代表。2016;6:31602.doi:10.1038/srep31602。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
14A.拜恩。.纳米孔长读RNA序列揭示了单个B细胞表面受体之间广泛的转录变异。生物Rxiv(2017).[PMC免费文章][公共医学]
15尤基尔琴,P。.使用实时纳米孔测序对脑肿瘤进行同一天的基因组和表观基因组诊断。神经病理学学报. 1–13 (2017).[PMC免费文章][公共医学]
16Bates M,Polepole P,Kapata N,Loose M,O’Grady J.高度便携式MinION纳米孔测序技术在医院结核病感染监测中的应用。国际分枝杆菌学杂志。2016;5:S24.doi:10.1016/j.ijmyco.2016.10.035。[公共医学] [交叉参考][谷歌学者]
17多个贡献者。牛津纳米孔社区。网址:community.nanoporetech.com。(访问日期:2018年3月12日)(2018年)。
18黄L,马F,查普曼A,卢S,谢XS。单细胞全基因组扩增和测序:方法和应用。每年。基因组学评论。2015;16:79–102. doi:10.1146/annurev-genom-090413-025352。[公共医学] [交叉参考][谷歌学者]
19Normand E等。三种全基因组扩增方法用于检测单个细胞基因组畸变的比较。普雷纳特。诊断。2016;36:823–830. doi:10.1002/pd.4866。[公共医学] [交叉参考][谷歌学者]
20Boía V,BrejováB,VinařT.DeepNano:MinION纳米孔读取中用于基调用的深度递归神经网络。公共科学图书馆一号。2017;12:e0178751.doi:10.1371/journal.pone.0178751。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
21Shin S,Park J.各种下一代测序系统中序列特异性错误的表征。分子生物晶体。2016;12:914–22. doi:10.1039/C5MB00750J。[公共医学] [交叉参考][谷歌学者]
22Mukherjee S、Huntemann M、Ivanova N、Kyrpides NC、Pati A.通过Illumina PhiX控制大规模污染微生物分离基因组。站立。基因组科学。2015;10:18.doi:10.1186/1944-3277-10-18。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
23Ma,X.,Stachler,E.和Bibby,K.牛津纳米孔MinION测序对16S rRNA微生物组特征的评估。生物Rxiv(2017).
24Loman NJ,Quinlan AR。孔隙:用于分析纳米孔序列数据的工具包。生物信息学。2014;30:3399–3401. doi:10.1093/bioinformatics/btu555。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
25Leggett RM、Heavens D、Caccomo M、Clark MD、Davey RP。NanoOK:纳米孔测序数据、质量和误差曲线的多参考比对分析。生物信息学。2016;32:142–4. [PMC免费文章][公共医学][谷歌学者]
26Kiełbasa SM,Wan R,Sato K,Horton P,Frith MC。适应性种子驯化基因组序列比较。基因组研究。2011年;21:487–93. doi:10.1101/gr.113985.110。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
27Koren S等人。Canu:通过自适应k-mer加权和重复分离实现可扩展且准确的长读汇编。基因组研究。2017;27:722–736. doi:10.1101/gr.215087.116。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
28Li,H.SeqTK:FASTA/Q格式处理序列的工具包。网址:https://github.com/lh3/seqtk(访问日期:2017年7月14日)。
29Cao MD、Ganesamoorthy D、Cooper MA、Coin LJM。使用npReader实时分析和可视化MinION测序数据。生物信息学。2016;32:764–6. doi:10.1093/bioinformatics/btv658。[公共医学] [交叉参考][谷歌学者]
30Kurtz S等人。用于比较大型基因组的通用开放软件。基因组生物学。2004;5:R12.doi:10.1186/gb-2004-5-2-R12。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
31Wood DE,Salzberg SL.Kraken:使用精确比对进行超快速宏基因组序列分类。基因组生物学。2014;15:R46.doi:10.1186/gb-2014-15-3-R46。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
32Andrews,S.FastQC:高通量序列数据的质量控制工具。网址:https://www.bioinformatics.babraham.ac.uk/projects/fastqc/(2017).

文章来自科学报告由以下人员提供自然出版集团