跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2015年8月4日4:35。
doi:10.1186/s13742-015-0076-3。 2015年电子收集。

链接:带有长读取的草图基因组的可伸缩、无对齐脚手架

附属公司

链接:带有长读取的草图基因组的可伸缩、无对齐脚手架

雷内·沃伦等。 Gigascience公司. .

摘要

背景:由于组装问题的复杂性,我们还没有完整的基因组序列。序列重复和短读无法捕获足够的基因组信息来解决这些问题区域,加剧了将读操作组装成完整基因组的困难。在这方面,已有的和新兴的长阅读技术显示出巨大的前景,但其当前相关的较高错误率通常需要计算基础校正和/或额外的生物信息学预处理,才能发挥价值。

结果:我们提出了LINKS,即长间隔核苷酸K-mer Scaffolder算法,这是一种利用纳米孔序列数据和其他含错误序列数据的序列特性构建高质量基因组集合的方法,而无需进行读取比对或碱基校正。在这里,我们展示了如何通过使用β-释放的牛津纳米孔技术有限公司(Oxford Nanopore Technologies Ltd.)长时间读取,将ABySS大肠杆菌K-12基因组组装的邻近性增加五倍以上,以及LINKS如何利用酿酒酵母W303纳米孔读取中的长时间信息来生成其所产生的邻近性和正确性的组装与竞争应用程序相当或更好。我们还展示了巨型白云杉(Picea glauca)草图组件(PG29,20 Gbp)的重新折叠,并演示了LINKS如何扩展到更大的基因组。

结论:这项研究强调了纳米孔读数在基因组支架中的当前用途,尽管它们目前存在局限性,但随着纳米孔测序技术的进步,这些局限性预计会减弱。我们期望LINKS在利用长读连接大小基因组组装草图的高质量序列方面具有广泛的用途。

关键词:基因组组装;链接;纳米孔测序;下一代测序;脚手架。

PubMed免责声明

数字

图1
图1
完整2D ONT长读k分子中的唯一性大肠杆菌K-12基因组参考。k个-mers是从完整2D R7 ONT数据[6]和大肠杆菌K-12子体。MG1655(登录号U00096.2)参考基因组序列。Bloom过滤器[35]由后者构建k个-mers从以前的文件中提取出来,用于查询匹配序列的过滤器。k个 = 15给出了特定性、产量和唯一性与手头数据集的最佳折衷
图2
图2
LINKS算法。轮廓(三个厚黑色矩形)可以随意切成k个-mers和那些k个-mers用于构建Bloom过滤器(绿色箭头)。处理长读取(蓝色矩形),并k个-mer对'和“以与输入距离(−)相对应的间隔提取d日),和窗阶(−t吨),但存储在内存中(步骤1,右侧矩阵)k个-在Bloom过滤器中可以找到一对mer(深蓝色箭头,绿色复选标记)(步骤1)。k个-不在Bloom过滤器中的mer用浅蓝色箭头(红色复选标记)表示。轮廓被切成碎片k个-mers再次使用相同的k个值,但仅当其对(在步骤1中标识)存在于内存中时才存储在内存中(步骤2,右侧矩阵)。在步骤3中,当k个-mers的序列不同。从步骤1(圆形箭头)迭代数据结构,并从步骤2中的数据结构验证位置(开始、结束)和多重性(多重),从而提供连续链接(虚线箭头),这些链接存储在内存中(步骤3,右侧矩阵)。在步骤4中,脚手架布局是通过将所有contigs合并到脚手架中、验证相邻项并仅在用户定义的参数支持时进行合并来生成的(>=最小链接数和<=备用与主连接之间的最大连接比)。在最终布局中,连续编号后面的正数符号表示连续编号之间的连续方向一致且不变,而负数符号表示相对于连续编号1和2,反向绞线上的连续编号3。在本例中,连续梁1、2和3合并为一个脚手架,使用距离计算连续梁之间的平均间隙/重叠尺寸(d日)在k个-mers及其位置(第页)在各自长度的重叠群中L(左)使得间隙(正值)或重叠(负值)长度=d日– ((L(左)1-第页1) + (第页2 + k个))
图3
图3
用牛津纳米孔技术公司的长读数构建高质量的短读数组件。公开可用的ONT长读大肠杆菌K-12 MG1655,美国。Typhi和酿酒酵母W303最近推出[–8]。我们已经使用这些数据进行了重新筛选大肠杆菌K-12,酿酒酵母S288c和酿酒酵母W303使用LINKS、AHA和SSPACE-LR对仅Illumina数据进行基线装配,并通过绘制NG50长度的连续性和QUAST[24]报告的错误装配数量(黑色正方形、绿色三角形、蓝色菱形)来评估结果装配的质量。此外,我们重新设置了基线美国。Typhi Illumina组件使用R7 2D ONT数据与LINKS进行迭代(11x),并将其与报告的SPAdes混合Illumina+ONT组件进行比较[7](红色圆圈)。我们将结果与Celera Assemblies(CA)的Illumina校正ONT读取(NaS和Nanocorr抛光)和ONT校正ONT读(Nanocort/Nanopolling)[4,8,26]进行了比较。如图所示,重新折叠软件在所有R7化学2D(2D)、原始或Nanocorrected读取上运行。对于美国。Typhi、AHA和SSPACE-LR重新折叠的组件具有可比性,其相应的数据点重叠(参考表2)。数据点大小根据每次实验中生成的支架数量进行标准化。分数越小,结果越好(支架越少)
图4
图4
链接重新折叠白云杉(P.glauca公司,PG29品种)基因组k个-mer对来源于白云杉WS77111基因型草案汇编。在PG29 V3 ABySS装配序列支架(Genbank:GCA_000411955.3,4.2 M支架≥500 bp,左下面板,红线),使用来自WS77111 V1草图组件的序列数据(Genbank:PRJNA242552,4.3 M支架≥500 bp,右上面板,蓝线),进行84529次合并(右上面板),并将PG29组件相邻度增加1.5倍,以达到114888 bp的NG50长度[23](4.1 M支架≥500个基点;左上面板)。我们已经使用可扩展的间隙填充软件Sealer[34]验证了云杉的最终LINKS组件,MPET从4、8和12kbp库读取数据(左下面板)。后者的验证及其大幅减少的回报k个-mer间隔随着间隙长度的增加而跟踪(右下角面板)。我们注意到LINKS重新搭建白云杉组件是为了展示可扩展性

类似文章

引用人

工具书类

    1. Koren S,Phillippy AM。一条染色体,一个连续体:来自长阅读测序和组装的完整微生物基因组。货币。操作。微生物。2014;23摄氏度:110–120。-公共医学
    1. Chin CS、Alexander DH、Marks P、Klammer AA、Drake J、Heiner C等。来自长读取SMRT测序数据的非杂交成品微生物基因组组合。自然方法。2013;10:563–69. doi:10.1038/nmeth.2474。-内政部-公共医学
    1. Berlin K,Koren S,Chin C-S,Drake J,Landolin JM,Phillippy AM。用单分子测序和位置敏感散列组装大基因组。国家生物技术。2015;33:623–30. doi:10.1038/nbt.3238。-内政部-公共医学
    1. Madoui MA、Engelen S、Cruaud C、Belser C、Bertrand L、Alberti A等。使用纳米孔引导的长时间无错误DNA读取进行基因组组装。BMC基因组学。2015;16:327.-项目管理咨询公司-公共医学
    1. Clarke J,Wu HC,Jayasinghe L,Patel A,Reid S,Bayley H。单分子纳米孔DNA测序的连续碱基鉴定。自然纳米技术。2009;4:265–70. doi:10.1038/nnano.2009.12。-内政部-公共医学

出版物类型