摘要

动机

人类基因组测序现在已成为常规,组装鸟枪读数变得越来越可行。然而,由于DNA的长链缺乏连锁信息,组装体通常无法告知染色体尺度结构,这是一个新的测序协议正在解决的缺陷,例如GemCode和Chromium从10×基因组学。

结果

在这里,我们介绍了ARCS,这是一个应用程序,它利用链接读取中包含的条形码信息,将基因组草案进一步组织成高度连续的集合。我们展示了ABySS的相邻性智人使用适度覆盖(25倍)的铬数据,基因组组装可以增加6倍以上。我们期望ARCS在利用链接读取数据中包含的条形码信息来连接基因组组装草图中的高质量序列方面具有广泛的用途。

补充信息

补充数据可在生物信息学在线。

1引言

铬测序文库准备协议×基因组学(10×G、 Pleasanton,CA)以Illumina测序技术(加利福尼亚州圣地亚哥)为基础,提供索引/条形码信息以及短读,以将后者定位在长DNA片段上,从而受益于高通量平台的规模经济。序列读数为20至200kb分子是条形码/链接的,该技术的应用主要集中在人类基因组中的可变碱基阶段(多复变函数等。, 2016;等。, 2016)。

使用10生成链接读取的能力×G类似于Illumina TruSeq(库列绍夫等。, 2014). 后一种技术为全基因组鸟枪组装项目提供了有用的补充信息,因为它生成的伪长读数可能有助于解决长重复。然而,为了生成伪长读取,TruSeq需要以下对象的联合本地化读取的高覆盖率数据先验的片段集合(默认情况下,对用户透明),基本上为其目标基因组生成低片段覆盖率数据。因此,TruSeq为哺乳动物大小的基因组提供足够的片段覆盖率可能相对昂贵。相反,Chromium平台通常为每个条形码分子提供低覆盖率,限制了其用于单个片段组装。然而,它弥补了吞吐量的限制,提供了更高的片段覆盖率。

最近,这种数据类型被用于构建基因组组装草图(莫斯托和等。, 2016),使用一个设计用于构建序列的软件,该软件使用邻接保持转置序列(CPT-seq)和另一个远程信息数据源(Hi-C)(阿迪等。, 2014). 在他们的论文中,莫斯托和等。(2016)使用GemCode测序(铬的前体,从10×G) 覆盖率为97倍,证明了该技术在支架构建基因组草案方面的潜力。

在这里,我们提出了ARCS,即Chromium Scaffolding算法的集合取整,这是一种利用高容量长测序片段的丰富信息内容进一步将基因组草图序列组织成具有大染色体片段特征的连续集合的方法。我们使用最新的瓶装基因组(GIAB)人类基因组序列数据(祖克等。, 2016),并将ARCS与fragScaff进行比较,后者是出版物中唯一一种利用10×构建基因组组装草图的G链接阅读(莫斯托和等。, 2016). 在fragScaff脚手架算法中,对条形码对齐文件进行解析,以确定哪些条形码映射到每个序列的末尾。对于每对可能的序列结束,计算共享条形码分数度量。这些值为每个序列末端生成共享条形码部分的分布。根据这些分布将边添加到脚手架图中,从而在共享大量条形码时链接序列结束节点。对于每个连接的组件,确定最大重量最小生成树(MST),然后迭代将任何分支合并到MST的主干中,以生成最终的支架。

我们还向最近出版的架构师Architect提供了类似的基准(库列绍夫等。, 2016)显示其对Illumina TruSeq合成长序列的底层短读(读云)有效,并建议适用于铬数据。Architect算法利用读取云的证据,首先根据输入的条形码读取对齐,识别每个脚手架的条形码“命中”。然后,构建脚手架图,根据共享条码点击次数和两个脚手架之间共享条码点击的比例创建边缘。在修剪潜在的伪边之后,将收缩明确的边以生成最终的输出支架。

我们展示了我们的实现如何在广泛的参数范围内生成比fragScaff和Architect更连续、更准确的程序集,同时使用更少的时间和计算资源。使用来自不同实验的两个人类链接读取数据集,我们证明了ARCS脚手架预先存在的人类基因组草图可以产生与新发布的10×G超新星从头开始的汇编程序(韦森菲尔德等。, 2017). ARCS用C实现 ++ 并在Unix上运行。

2材料和方法

2.1 ARCS算法

模块化管道统称为ARCS,首先在草图组件中对序列进行配对,然后为脚手架布置配对信息。在序列配对阶段(图1),将处理BAM格式的输入对齐,以获取与不同序列对齐的相同条形码的读取对集。如果有足够数量的对齐读取对(参数–c,默认设置为5)。每个链接代表一个条形码/分子连接序列的证据。要解释条形码排序错误,请仅使用指定多重性范围内的条形码(参数–米)考虑(默认值为50–10 000)。多重性是指每个条形码的读取频率,范围定义了ARCS考虑的特定读取片段。

图1。

ARCS算法。(1)10×G铬读数(蓝色、绿色、橙色和紫色箭头)与草图基因组对齐。(2)序列按长度分成两半,每个序列的末端被视为头部(H)或尾部(T)区域(用灰色方框表示,末端的长度由ARCS参数控制–e(电子)). 计算来自同一条形码并与序列的头部(H)或尾部(T)区域对齐的读取对的数量。这些计数使用地图数据结构存储在内存中,其中关键是条形码序列。该值将序列ID和“H”或“T”的元组映射到读取对数的计数。()统计序列对之间支持每个链路方向(H-H、H-T、T-H、T-T)的条形码数量。计数使用附加的地图数据结构存储在内存中,其中键是表示两个潜在链接序列的一对,值是表示支持每个可能链接方向的条形码数量的整数向量。对于提供链接证据的给定条形码,与潜在对中两个序列的“H”或“T”区域对齐的条形码读取的分布必须与均匀分布显著不同。然后生成一个点文件,对链接证据进行编码,其中两个序列(节点)之间的链接(边)仅在最大支持的链接方向占主导地位时添加

由于我们对序列排序和定向感兴趣,我们考虑在每个序列的5′端和3′端对齐的读取(在参数定义的窗口内–e(电子),默认为30 000)。此参数有效地设置了序列末尾的最大窗口长度,其中Chromium读数对齐。不考虑在这些窗口外对齐的读取。因此,根据输入组件的相邻程度,调整–e(电子)较低或较高的值将导致较短的contigs或关注较长的contigs。当ARCS遇到较短的序列(少于指定序列的两倍–e(电子)长度),头部和尾部区域的长度被指定为总序列长度的一半。这一点很重要,因为–e(电子)将影响在任意两个序列之间创建边时如何减轻模糊性。此外,在读取BAM文件时,仅读取与至少具有指定序列标识(参数–秒,默认设置为98%),将考虑以适当的对进行映射并与非零映射质量对齐。这确保了只有高质量的比对才能为后续链接阶段提供证据,因为涉及长重复区域读取或嵌合读取的比对将被跳过。因此,由于缺乏明确的对齐读取支持,以长重复结束的连接将不会在下游阶段链接。

序列的相对方向是通过读取对齐位置推断出来的。使用读取对齐,我们首先确定具有相同条形码的读取子集,这些条形码位于序列的一端(图1,步骤1);在每个序列中,5′端区域被任意标记为头部(H),3′端被标记为尾部(T)。与序列的头部或尾部对齐的相同条形码的读取对数(在–e(电子)末端的bp或更小)在读取BAM文件时进行计数。对于给定的条形码,我们跟踪映射到序列的“H”或“T”的读取次数(图1,步骤2)。

校准文件读入内存后,每个可能的序列对都有足够数量的校准读取给定条形码(–c)已考虑。对于潜在对中的每个序列,使用二项式检验来计算观察到的与序列5′或3′端对齐的读数分布是否与均匀分布显著不同(阈值P(P) = 0.05,由参数设置–r(右)). 同样,支持四种可能的链接方向(H-H、H-T、T-H、T-T)中的每一个的链接条形码的数量在每个潜在序列对的地图数据结构中进行统计(图1,步骤3)。

使用每个序列对的链接方向计数,构建一个图形数据结构,其中节点是序列,边表示它们之间的链接。只有当链接方向(由序列对的头部和尾部区域的顺序定义)是支持条形码中最具代表性的组合时,才会形成边。序列之间的配对完成后,ARCS以图形描述语言(gv)格式输出单个文件。

2.2脚手架

在布局构建阶段的准备工作中,ARCS的gv文件被转换为一个tab-sparated value(tsv)文件,其中列出了所有可能的定向序列对,间隙大小任意设置为10的支持条形码的数量bp。这可以通过提供的python脚本(makeTSVfile.py)来实现。由于起源分子内读取的位置信息未知,因此估计间隙大小不是一个简单的问题,需要更复杂的方法。如前所述,使用LINKS中实现的算法读取后一个tsv文件并构建脚手架(沃伦等。, 2015)(v1.7及更高版本)。

简而言之,从最长序列作为种子序列开始,通过考虑ARCS建议的所有可能的序列对,逐步构建布局(补充图S1a),调整可能对相对于种子的方向。由于链接的序列对可能不明确(一个给定的序列可能链接到多个序列),因此只有当连接序列对的链接数等于或大于最小值时,序列才被连接(补充图S1b,LINKS参数–l个,默认值为5)并满足最小序列截止(LINKS参数–z,默认为500)。当第二个支持边缘与最上面支持边缘的条码链接的比率等于或低于阈值时,可以解决不明确的配对问题(补充图S1b,LINKS参数–a,默认为0.3;我们建议使用更高的值,例如–a在ARCS内运行LINKS时为0.7和0.9)。补充信息,我们展示了LINKS脚手架图的一部分,展示了–a搭建本研究中使用的实验人体数据集的参数(补充图S1c). 当序列合并在3′处耗尽时,支架在5′处按照相同的程序扩展。

我们指出,用户可以自行决定在ARCS管道中使用其他独立的脚手架算法,而不是LINKS。例如,我们试验过深渊脚手架(杰克曼等。2017年),它实现了一种非贪婪的基于图形的方法,并发现结果与LINKS的结果相当。模块化管道可以确保将来在ARCS中使用改进的架子工,而无需更改代码库。

2.3数据来源

我们使用两个人类铬数据集来说明ARCS在基线序列集合上的性能。

第一个数据集来自GIAB的一名阿什肯纳兹女性个体(NA24143)(缩放等。, 2016),使用各种Illumina库协议进行测序(登录号NIST HG004 NA24143 SRS823307;补充表S1). 为整个基因组做准备从头开始的序列组装(这里称为基线组装),我们下载了Illumina全基因组鸟枪(WGS)2×250 bp配对-end和6 kbp配对测序读数。使用NxTrim v0.4.0删除mate-pair读取中的适配器序列(奥康奈尔等。, 2015)(带参数–norc–joinreads–preserve-mp). NxTrim还将读取分为mate-pair、paired-en、single-end或unknown。只有分类为mate-pair的读取随后才用于汇编。BFC v181修正了配对和配对读取(李,2015)(使用参数–s3G). 我们还下载了10个×出于以下目的,从同一存储库进行G链接读取从头开始的与Supernova组装,与ARCS、Architect和fragScaff搭建基线组件(补充表S1)。

第二个人的基因组(NA12878)由10人测序和组装×G.相应的原始覆盖范围,约为156倍,NA12878 10×G Chromium数据从10×基因组公司网站(补充表S1)。

2.4数据分析

组装全基因组鸟枪配对-end和配对读取从头开始的带有ABySS v2.0(杰克曼等。2017年)使用命令:absis-pe名称 = hsapiens公司净现值 = 64k = 144 = 15v(v) = -五 = 40 = 1000n个 = 10S公司 = 1000–10 000N个 = 7mp6k_de(英里/小时)=–平均值mp6千牛顿 = 1图书馆 = 聚乙烯400最大功率 = mp6k,其中pe400和mp6k是列出所有包含配对-end排序和MPET读取的文件的变量。所得的连接物和支架被用作链接阅读支架的人类基因组基线草图组件(补充表S2)。

10个×G Chromium测序数据从容器BAM文件转换为FASTQ格式(NA24143)或用10×G远程测距仪(韦森菲尔德等。, 2017;等。, 2016)生成包含条形码的交错FASTQ文件(NA12878)(补充表S3). 对于前一个数据集,读取的条形码是从BAM文件中的RX标记中提取的。对于这两个Chromium数据集,条形码被附加到读取名称后的下划线后面。然后使用BWA mem v0.7.15(默认值,-t吨12) (Li和Durbin,2010年),并按名称排序。我们在此处提供有关如何准备和校准铬读数的说明:ftp://ftp.bcgsc.ca/补充/ARCS

根据作者的建议,fragScaff的输入还包括一个N基床文件。该文件包含使用脚手架输入时所有未确定的基础拉伸的坐标,并由其提供的脚本fasta_make_Nbase_bedpl生成。还包括通过执行blastn v2.4.0对齐生成的重复床文件(阿尔特舒尔等。, 1990)将输入程序集的–单词大小36,–perc_标识95中,–出口6) 并使用提供的脚本blastselfalignmentfilter.pl转换对齐。

在单独的实验中,NA24143和NA12878 10×G链接读取数据与Supernova v1.1组合从头开始的所述的汇编程序(韦森菲尔德等。, 2017)。

在上面描述的数据上运行的脚手架脚本位于ftp://ftp.bcgsc.ca/补充/ARCS,提供所使用的命令行和参数。相应的程序集也通过相同的URL提供。

在单独的三次重复实验中,我们分为100、200、300个样本M NA24143和46M,200–1400M NA12878 10号×G读取对测试读取覆盖率对ARCS、Architect和fragScaff性能的影响,以便为基线脚手架装配草图搭建脚手架。在每个文件子集上,我们运行ARCS(–c5–r(右)0.05–e(电子)30000–z3000–米NA12878为50–6000;–米NA24143为50–1000)和链接(–l个5–a0.9),建筑师(–吨5–rc-abs-小时–rc-rel-edge-thr0.2–rc-rel-prun-thr0.2)和fragScaff(–b个1–米3000–E30000–j个1–u个2–C5). 对于每个覆盖级别和工具,我们计算了平均连续性和断点数(作为计算错误装配的代理)。

使用abys-samtobreak确定重新折叠组件中的断点(-G公司3088269832-我500.) (杰克曼等。2017年). 简单地说,支架首先在N处断裂,以生成序列“scaftig”。组装支架与参考人类基因组GRCh38和BWA mem(v0.7.15,使用–新特拉克标志)(Li和Durbin,2010年). 当移植物与给定的参考染色体序列不共线时,就会识别出断点。这包括支架中的扫描顺序与各自的染色体比对不一致,和/或来自给定支架的扫描与两条或多条染色体比对的情况。扫描之间的距离(即组装间隙的长度)没有仔细检查草图和参考基因组之间的长度一致性。报告的NG50和NGA50长度指标是使用基因组大小3 088 269 832计算的bp。使用128 Intel(R)Xeon(R)CPU E7-8867 v3,2.50在DELL服务器上进行了计算性能基准测试GHz,2.6TB RAM。

3结果

为了生成NA24143的contig和scaffold基线,我们首先用ABySS-2.0组装成对-end和mat-pair数据(杰克曼等。, 2017). 然后,我们用BWA将铬读数与这些组件对齐(Li和Durbin,2010年). 使用结果比对作为输入,我们运行ARCS(v1.0.0)、Architect(v0.1)和fragScaff(v140324),以按照建议进一步构建contig和3kbp及更长的构建基线序列(莫斯托和等。, 2016). 我们研究了多参数组合对支架的影响(补充表S4),报告从序列比对到参考人类基因组的相邻长度度量和断点数量。

3.1使用NA24143 GIAB铬数据搭建脚手架

我们测量了ARCS、Architect和fragScaff搭建基线组件后,结果组件的连续性(NG50和NGA50长度度量)和正确性(补充表S2). 在此过程中,我们测试了各种参数的影响,包括特定于脚手架的参数–a、–u–rc-rel-edge-thr相应工具中的(缩写rel)参数(图2). 通常,这些参数通过评估链接的有效性来影响脚手架的严格性。

图2。

脚手架装配的连续性和正确性()contig或(b条)使用ARCS(橙色)、Architect(红色)和fragScaff(绿色)读取铬含量为10×G的脚手架基线组件。我们展示了脚手架参数的影响–a(ARCS),–rc-rel-edge-thr(缩写rel,Architect)和–u个(fragScaff)。Y轴显示NGA50至NG50长度的范围,以表明由单个NA24143和参考基因组GRCh38之间的实际基因组变异(通过断点分析捕获)引起的不确定性。为了进行比较,我们还显示了NA12878和NA24143 10×G数据集(蓝色)的Supernova组件的相同度量。X轴显示将生成的程序集与引用对齐时发生的断点数

莫斯托和等。(2016)使用fragScaff参数报告了他们的最佳组合–j个1和–u个3,促使我们探索–j个–u个在我们的数据集上。这些参数被描述为每个节点调用P(P)-值截断和分数修正,以考虑fragScaff中往复的链接,这些是之前在研究中通过以下方法优化的参数阿迪等。(2014)在Architect中,参数–rc-abs-小时控制临时连接脚手架图中两个序列顶点所需的最小共享条形码点击数。建筑师参数–rc-rel-edge-thr–rc-rel-prun-thr分别控制在图形中创建和修剪边所需的相对条码支持。

为了评估正确性,我们将组装物与人类参考GRCh38的主要染色体序列对齐,并使用absis-samtobreak计算观察到的断点数量(杰克曼等。, 2017). 在contig级别(图2a)我们观察到,虽然ARCS和fragScaff组件(在–a0.9和–u个2)具有相似的序列连续性(303 034的NG50与304 926与fragScaff相比,ARCS组件的断点数量不足三分之一(2030与6345)。在上下文中,相应的ARCS和fragScaff组合的断点分别比基线重叠群组合多16.3%和263.4%(补充表S5和S6). 这表明,虽然生成的fragScaff组件高度相邻,但它们可能包含更多的错误组装。尽管进行了广泛的参数调整,但基线控制组件的架构师脚手架并没有产生明显的收益(图2a补充表S7)。

在脚手架层(图2b表1),我们观察到,当比较每种工具的最连续组件时,ARCS比Architect和fragScaff实现了更大的序列连续性和正确性(NG50(Mbp)/断点,19.5/3027对5.0/3076对13.1/3438,按顺序)(补充表S5–S7). 我们观察到,虽然当工具使用支架作为输入时,fragScaff和ARCS之间的错误组装数量差异为411,但当使用contigs时,错误组装数量增加了一个数量级,达到4315。ARCS、Architect和fragScaff组件的断点分别比基线脚手架组件多3.6、5.2和17.6%,这表明ARCS和其他架子工的断点为10×当要重新折叠的草稿更加连续时,G数据工作得最好。为了观察fragScaff和ARCS组合中的411个额外断点是否是大规模的组装错误,我们将相应的组合与参考人类基因组进行了比对,并绘制了它们的比对图(图3)。

表1。

从带有ARCS的人(NA24143)ABySS基础支架组件中构建3kbp及更大序列的连接度量、断点、总墙锁时间和峰值内存使用(–c5–e(电子)30000–r(右)0.05–l个5) ,建筑师(–吨5–rc-abs-小时–rc-rel-prun-thr0.2;–rc-rel-edge-thr表中缩写为“rel”)和fragScaff(–C5–E30000–j个1)

工具ARCS公司ARCS公司ARCS公司弗拉格斯卡夫弗拉格斯卡夫弗拉格斯卡夫建筑师建筑师超新星b条
参数 = 0.3 = 0.7 = 0.9单位 = 2单位 = 单位 = 4相对值=0.2相对值=0.3不适用
n: 50065 19164 99364 922个64 44564 62564 86965 78065 86223 693
NG50(兆比特)11.7415.1319.4813.1313.0111.745.014.9313.47
NGA50(兆位)7.7810.22116.416.626.524.384.385.38
N50(Mbp)12.9117.9821.8215.8015.4013.075.725.6215.03
最大脚手架(Mbp)66.1897.8697.8693.3372.7868.0726.4126.4195.16
断点298530033027343833553231307629913879
墙锁时间(h:min)0:550:550:552:031:561:596:125:3950:43
峰值内存(GB)3.43.43.416.514.814.19.69.6389
工具ARCS公司ARCS公司ARCS公司弗拉格斯卡夫弗拉格斯卡夫弗拉格斯卡夫建筑师建筑师超新星b条
参数 = 0.3 = 0.7 = 0.9单位 = 2单位 = 单位 = 4相对值=0.2相对值=0.3不适用
n: 500个65 19164 99364 92264 44564 62564 86965 78065 86223 693
NG50(兆比特)11.7415.1319.4813.1313.0111.745.014.9313.47
NGA50(百万比特)7.7810.22116.416.626.524.384.385.38
N50(Mbp)12.9117.9821.8215.8015.4013.075.725.6215.03
最大脚手架(Mbp)66.1897.8697.8693.3372.7868.0726.4126.4195.16
断点298530033027343833553231307629913879
挂钟时间(小时:分钟)0:550:550:552:031:561:596:125:3950:43
峰值内存(GB)3.43.43.416.514.814.19.69.6389

脚手架特定参数。

b条

超新星是一个从头开始的汇编程序,它的脚手架阶段不能与它的其余工作流解耦。

表1。

从带有ARCS的人(NA24143)ABySS基础支架组件中构建3kbp及更大序列的连接度量、断点、总墙锁时间和峰值内存使用(–c5–e(电子)30000–r(右)0.05–l个5) ,建筑师(–吨5–rc-abs-小时–rc-rel-prun-thr0.2;–rc-rel-edge-thr表中缩写为“rel”)和fragScaff(–C5–E30000–j个1)

工具ARCS公司ARCS公司ARCS公司弗拉格斯卡夫弗拉格斯卡夫弗拉格斯卡夫建筑师建筑师超新星b条
参数 = 0.3 = 0.7 = 0.9单位 = 2单位 = 单位 = 4相对值=0.2相对值=0.3不适用
n: 50065 19164 99364 922个64 44564 62564 86965 78065 86223 693
NG50(兆比特)11.7415.1319.4813.1313.0111.745.014.9313.47
NGA50(兆位)7.7810.22116.416.626.524.384.385.38
N50(Mbp)12.9117.9821.8215.8015.4013.075.725.6215.03
最大脚手架(Mbp)66.1897.8697.8693.3372.7868.0726.4126.4195.16
断点298530033027343833553231307629913879
墙锁时间(h:min)0:550:550:552:031:561:596:125:3950:43
峰值内存(GB)3.43.43.416.514.814.19.69.6389
工具ARCS公司ARCS公司ARCS公司弗拉格斯卡夫弗拉格斯卡夫弗拉格斯卡夫建筑师建筑师超新星b条
参数 = 0.3 = 0.7 = 0.9单位 = 2单位 = 单位 = 4相对值=0.2相对值=0.3不适用
n: 500个65 19164 99364 92264 44564 62564 86965 78065 86223 693
NG50(兆比特)11.7415.1319.4813.1313.0111.745.014.9313.47
NGA50(百万比特)7.7810.22116.416.626.524.384.385.38
N50(Mbp)12.9117.9821.8215.8015.4013.075.725.6215.03
最大脚手架(Mbp)66.1897.8697.8693.3372.7868.0726.4126.4195.16
断点298530033027343833553231307629913879
挂钟时间(小时:分钟)0:550:550:552:031:561:596:125:3950:43
峰值内存(GB)3.43.43.416.514.814.19.69.6389

脚手架特定参数。

b条

超新星是一个从头开始的汇编程序,它的脚手架阶段不能与它的其余工作流解耦。

图3。

马戏团(克日温斯基等。, 2009)保守装配一致性图()ARCS公司(–c5–e(电子)30000–r(右)0.05–l个5–a0.3)和(b条)弗拉格斯卡夫(–C5–E 30000–j个1–u个4) 基线脚手架组件的脚手架。来自最大177个(ARCS)和175个(fragScaff)支架的Scaftigs,包含75%(N75)的基因组,与具有BWA mem的GRCh38对齐。GRCh38染色体从左侧的1(底部,棕色)到X(顶部,深灰色)递增显示,而支架(黑色轮廓)显示在边缘的右侧。连接显示,基因组和支架之间存在100 kbp或更大的对齐区域。大规模的错误装配可以作为中断色带显示。染色体上的圆圈表示着丝粒,而染色体上的黑色区域表示参考中的空白

与ARCS相比,基线支架序列的fragScaff支架产生了更大规模的错配,表现为染色体间易位(图3). 我们注意到,增加fragScaff–j个放松时的参数(表示通过节点传递链接)–u个(分数截止乘数)产生的组件的邻接性与ARCS相匹敌(分别为16.9 Mbp和19.5 Mbp NG50),但以组件错误增加为代价(补充表S5和S6). 重叠和脚手架基线组件的建筑师脚手架产生了重叠数字的边际增加(图2,表1补充表S7),为什么我们只能推测。

我们还比较了测试参数范围内所有三种工具的资源效率(参见ftp://ftp.bcgsc.ca/补充/ARCS/benchmarks)并报告其在contig和基线scaffold序列的最相邻程序集上的运行时和内存使用情况(表1补充表S8). ARCS在运行时间(平均比fragScaff快2倍)和脚手架上的内存使用(与fragScoff相比,内存少4倍)方面优于Architect和fragScff。应该注意的是,Architect和fragScaff的运行时间随输入序列数的增加呈二次增长,这使得它们对于具有大量输入序列(超过250000个)的程序集来说是低效的选择。在基线contig程序集上运行Architect大约需要7个时间天(187h) 对于大多数参数组合,当参数–吨设置为5(补充表S8). 相比之下,该工具在脚手架基线组件上的等效运行速度更快(6h) 因为要处理的序列少了20倍(表1补充表S2). 连续和脚手架基线组件上ARCS的执行速度一致,均以大约1的速度完成小时(1小时12最小值和55最小值)。

3.2使用NA12878铬数据搭建脚手架

最近,10×G发布了他们的从头开始的名为Supernova的组装软件,实现了脚手架阶段,是专门为组装Chromium数据而开发的(韦森菲尔德等。, 2017). 作者提出了各种人类基因组组装,每个组装产生的N50邻接长度为15Mbp或更高,考虑到10kbp或更大的支架。我们对NA12878个体156倍铬测序数据进行了超新星实验,并证实了其结果(补充表S9). 当应用与我们研究中使用的相同的支架序列长度截止值时(500bp),我们报告了在兆基范围(14.7 Mbp)内,根据基因组大小校正的N50长度度量值NG50,这与ARCS使用应用于基线支架组件(NG50)的相同数据集所能实现的最大值一致 = 18.3 Mbp)。一个51倍NA24143铬读数的超新星组装产生了类似的相邻基因组草图(NG50 = 13.5 Mbp),尽管总装配断点数量较高(图2b,补充表S9). 有趣的是,在对断点进行调查后,我们承认更少的事件 ≥1在最大的N75超新星支架中观察到kb(数据未显示)。

3.3顺序覆盖对脚手架的影响

尽管NA12878铬读取数据的覆盖范围比NA24143大得多(超过5×更深的,补充表S3数据集5与3),我们观察到ARCS在两个数据集上的表现一致。也许更有趣的是,在N50长度与覆盖率更高的Chromium数据集(使用NA24143和NA12878数据集时,分别为21.8和22.2 Mbp)的相邻性方面,只有边际收益–e(电子)30 000–r(右)0.05–c5–l个5–a0.9)尽管在后者中进行了406次额外合并(64 516对64 922个脚手架,分别与NA12878和NA24143合并,补充表S9). 当我们对这两个10进行子抽样时×G数据,我们观察到约20倍的序列读取人类基因组的覆盖率(约200M个读取对)足以使用ARCS实现接近最佳的搭建结果(补充图S2和表S10)。这表明,在本文测试的条件下,使用草图组件并设置参数,即使提供的数据较少,该解决方案也可能以最佳方式工作。我们确实强调了描述条形码内读取多重性分布的重要性,以调整运行时参数,因为分布可能因数据集而异,正如NA24143和NA12878所观察到的那样(补充图S3)。

比较ARCS和fragScaff(参数–E30 000–C5–j个1–u个2) 和架构师(参数-t吨5–rc-abs-小时–钢筋混凝土rel边缘thr0.2–rc-rel-prun-thr0.2),也发现ARCS在评估的所有折叠覆盖子集中产生NGA50指标更高的组件(补充表S9、S11、S12和图S2)。这表明,在低(~4.0倍)到高(~127倍)序列覆盖率条件下,ARCS不仅对所提供的链接读取的覆盖率可靠,而且比其他架构师产生更多的连续程序集。

4讨论

在这里,我们演示了一种新算法ARCS的实用性,它使用10×基因组学读取位置信息以构建人类基因组草图。我们注意到,即使在呈现相对低覆盖率(25倍)的链接读取数据时,ARCS也能表现良好,从完全由短(250bp)测序读数。我们希望这一表现可以推广到从头开始的其他复杂基因组的组装和支架。

与fragScaff和Architect相比,ARCS生成了更多连续且正确的组件。虽然使用不太严格的参数运行fragScaff会产生与ARCS具有类似邻接度量的组件(分别为16.9 Mbp和19.5 Mbp NG50),但fragScoff组件包含的错误组件明显更多(3813 Mbp和3027 Mbp)。值得注意的是,ARCS是专门为利用10×G数据,其中fragScaff设计用于CPT-seq数据的脚手架(阿迪等。, 2014),这可能会对生成的脚手架产生影响。此外,虽然fragScaff使用了一种更全局的方法,即基于脚手架图的连接组件使用最大权重最小生成树,但基于局部链接支持信息遍历ARCS图。尽管需要进一步研究以充分了解ARCS和fragScaff之间的组装正确性差异,但这两个因素都可能影响组装错误的发生。

尽管进行了彻底的参数扫描,但我们发现Architect并没有显著改善基线的连续性智人程序集。除了用于Illumina TruSeq读取云的工具设计之外(库列绍夫等。, 2016)在我们的实验中,架构师对序列进行排序和定向的方法可能会影响所产生的装配连续性。虽然在链接序列时,我们的脚手架方法将考虑最多支持边和第二支持边之间的条形码链接比率,但架构师要求序列对由图中明确的边链接。这一要求可能限制了对于更复杂的图产生的装配连续性,因为修剪阶段可能无法删除所有虚假边。

我们证明了智人如果使用10,连续组件可以增加六倍以上×G数据,可能误差仅略有增加,平均值为±196年标准偏差±与基线contig程序集相比,总共有77个断点。然而,这种方法也有局限性。如所述阿迪等。(2014),当使用条形码时,由于与序列对齐的条形码读取池的数量较低,很难将短序列重叠群自信地放置到支架中。此外,由于条形码分子的长度可能超过100 kbp(古德温等。, 2016),它们可能跨越几个完整的短输入序列,防止ARCS从读取对齐位置提取方向信息,因为它们没有优先对齐到一端。当脚手架碎片组件(N50长度 < 10 kbp)。为了缓解这个问题,可以降低每个条形码所需的最小对齐读取数,以防止忽略可能的链接。跨分子的条形码重用或重复导致的链接读取的不正确对齐也会在序列配对阶段引入错误链接,可能导致脚手架期间的错误合并。尽管,凭借铬技术×基因组学通过增加片段分割的数量和限制条形码的重复使用来改进GemCode协议,我们预计随着技术的进一步成熟,这一趋势将继续下去。虽然给定片段内连接读数的位置信息尚不清楚,这使得估计基因组组装中的间隙或重叠大小具有挑战性,但它仍然是一种有吸引力的支架构建基因组草案的技术。当该技术应用于脚手架的后期阶段,当草图序列组件的相邻性较高时,尤其如此。

与其他生物信息学软件一样,微调参数以获得最佳结果需要进行大量测试。对于ARCS,我们通常发现每个序列边缘需要五个或更多对齐的读取对,并将读取对齐窗口设置为30 kbp(ARCS–c–e(电子)参数),在可能的情况下,在装配连续性和精度之间提供最佳平衡。对于LINKS,控制合并所需支持条形码的最小数量的能力是最关键的,增加支持条形码的数量可以减少虚假连接的可能性。本文中提供的评估作为指导,表明每个序列边缘只需要五个或更多条形码,就能产生与起始基线装配精度类似的连续装配。我们建议使用一系列参数测试ARCS,并重申脚手架在相邻性和精度方面的最佳效果,以及起始装配草图的相邻性和质量。

最近,10×G发布了他们的从头开始的汇编算法,Supernova(韦森菲尔德等。, 2017)专为铬测序技术设计。它在组装过程的早期使用读取位置信息,而不是像ARCS和本研究中测试的其他工具那样仅在支架阶段使用。这有助于防止组装项目早期阶段的错误组装,缓解支架基因组草图时错误传播的问题。另一方面,独立的工具可以对已有的草稿进行回顾性搭建,并有利于基因组整理工作(狩猎等。, 2014). 然而,正如我们在这里看到的那样,现有支架技术的执行程度各不相同,对这项任务的专门生物信息学解决方案的需求至关重要。

据我们所知,ARCS是第一个公开可用的独立应用程序,用于构建基因组草图,该草图专为使用10×基因组学相关阅读。ARCS以开源形式免费提供给公众使用。

基金

这项工作得到了美国国立卫生研究院国家人类基因组研究所的部分支持(授予编号R01HG007182)。IB通过Genome Canada、Genome Quebec、Genume British Columbia和Genome Alberta为Spruce-Up(243FOR)项目收到了额外资金(www.spruce-up.ca网站). 此处报告的内容仅由作者负责,不一定代表国家卫生研究院或其他资助组织的官方观点。

利益冲突:未声明。

工具书类

阿迪
 
答:。
等(
2014
)
体外,通过转座酶邻接进行从头基因组组装的长程序列信息
.
基因组研究
.,
24
,
2041
2049
.

阿尔特舒尔
 
S.F.公司。
等(
1990
)
基本本地对齐搜索工具
.
分子生物学杂志
.,
215
,
403
410
.

古德温
 
美国。
等(
2016
)
成熟:下一代测序技术十年
.
Genet国家牧师
.,
17
,
333
351
.

狩猎
 
M。
等(
2014
)
装配脚手架工具的综合评估
.
基因组生物学
.,
15
,
第42页。

杰克曼
 
S.D.公司。
等(
2017
)
ABySS 2.0:使用bloom过滤器对大型基因组进行资源高效组装
.
基因组研究
.,doi:10.1101/gr.214346.116。

库列绍夫
 
五、。
等(
2014
)
使用长阅读和统计方法进行全基因组单倍型分析
.
自然生物技术
.,
32
,
261
266
.

库列绍夫
 
五、。
等(
2016
)
合成长阅读云的基因组组装
.
生物信息学
,
32
,
i216型
i224型
.

克日温斯基
 
M。
等(
2009
)
马戏团:比较基因组学的信息美学
.
基因组研究
.,
19
,
1639
1645
.

 
H。
(
2015
)
BFC:纠正Illumina测序错误
.
生物信息学
,
31
,
2885
2887
.

 
H。
,
杜宾
R。
(
2010
)
使用Burrows–Wheeler变换快速准确地进行长读取对齐
.
生物信息学
,
26
,
589
595
.

莫斯托和
 
年。
等(
2016
)
一种新的人类基因组序列组装和分阶段的混合方法
.
自然方法
,
13
,
587
590
.

多复变函数
 
V.M.公司。
等(
2016
)
父母相关的成人罕见基因敲除对健康和人口的影响
.
科学类
,
352
,
474
477
.

奥康奈尔
 
J。
等(
2015
)
NxTrim:Illumina配对读数的优化修剪
.
生物信息学
,
31
,
2035
2037
.

沃伦
 
相对湿度。
等(
2015
)
链接:带有长读取的草图基因组的可伸缩、无对齐脚手架
.
超级科学
,
4
,
35

威森菲尔德
 
不包括在内。
等(
2017
)
二倍体基因组序列的直接测定
.基因组研究.,
27
,
757
767
.

 
G.X.Y.(通用)。
等(
2016
)
高通量链式测序的单体型生殖系和癌症基因组
.
自然生物技术
.,
34
,
303
311
.

缩放
 
J.M.公司。
等(
2016
)
对七个人类基因组进行广泛测序,以确定基准参考材料的特征
.
科学。数据
,
,
160025
.

作者注释

作者希望大家知道,在他们看来,Sarah Yeo、Lauren Coombe和RenéL.Warren的作者应被视为联合第一作者。

这是一篇根据知识共享署名非商业许可条款发布的开放存取文章(http://creativecommons.org/licenses/by-nc/4.0/)它允许在任何媒体上进行非商业性重复使用、分发和复制,前提是正确引用了原始作品。如需商业再使用,请联系日记.permissions@oup.com
副编辑: 塞克·萨赫纳尔普
塞克·萨赫纳尔普
助理编辑
搜索此作者的其他作品:

补充数据