跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2017年5月;27(5):787-792.
doi:10.1101/gr.213405.116。 Epub 2017年1月27日。

大基因组和高度重复基因组的杂交组装山羊草是面包小麦的祖先,使用MaSuRCA mega-reads算法

附属公司

大基因组和高度重复基因组的杂交组装山羊草是面包小麦的祖先,使用MaSuRCA mega-reads算法

Aleksey V Zimin先生等。 基因组研究. 2017年5月.

摘要

单分子测序技术产生的长测序读数提供了显著改善基因组集合邻接性的可能性。今天最大的挑战是长时间读取的错误率相对较高,目前约为15%。高错误率使得很难单独使用这些数据,特别是对于高度重复的植物基因组。原始数据中的错误会导致共识基因组序列中的插入或删除错误(indels),这反过来会给下游分析带来重大问题;例如,单个indel可能会改变阅读框并错误地截断蛋白质序列。这里,我们描述了一种算法,该算法通过将长时间、高错误读取与更短但更准确的Illumina测序读取相结合来解决高错误率问题,Illuminia测序读取的平均错误率小于1%。我们的混合汇编算法结合了这两种类型的读取来构造兆读,它既长又准确,然后使用CABOG汇编器组装兆读,该汇编器专为长读而设计。我们将此技术应用于该物种Illumina和PacBio序列的大型数据集山羊草,一个巨大且极为重复的植物基因组,抵抗了之前的组装尝试。我们表明,所得到的组装连续体远大于任何以前的组装,N50连续体大小为486807个核苷酸。我们将contigs与独立生成的光学图进行比较,以评估其大规模精度,并与一组基于细菌人工染色体(BAC)的高质量组件进行比较,从而评估基本级精度。

PubMed免责声明

数字

图1。
图1。
mega-reads算法概述。Illumina读取低错误率(左上角)用于构建更长的超读(绿线),而这些超读又用于构建这些读操作中所有15个mer的数据库。然后使用15聚体指数对PacBio读数(紫色线)和超级读数进行比对。不一致的超负荷显示为扭结线;这些被丢弃,剩下的超读被合并,使用PacBio读作为模板,生成预兆读(黄色)。这些被进一步合并,以产生最终的mega-reads,并产生跨越差距的链接伴侣。
图2。
图2。
使用不同PacBio覆盖率和100×Illumina覆盖率的mega-reads算法改变基因组集合的N50 contig大小拟南芥基因组。在60×时,9.15Mb的N50大小接近该基因组可能的最大N50 contig大小,该大小由染色体臂的大小决定。

类似文章

引用人

参考文献

    1. Berlin K、Koren S、Chin CS、Drake JP、Landolin JM、Phillippy AM,2015年。用单分子测序和位置敏感散列法组装大基因组。国家生物技术33:623–630。-公共医学
    1. Chin CS、Alexander DH、Marks P、Klammer AA、Drake J、Heiner C、Clum A、Copeland A、Huddleston J、Eichler EE等,2013年。来自长阅读SMRT测序数据的非杂交、成品微生物基因组组合。Nat方法10:563–569。-公共医学
    1. Delcher AL、Phillippy A、Carlton J、Salzberg SL,2002年。大规模基因组比对和比较的快速算法。核酸研究30:2478–2483。-项目管理咨询公司-公共医学
    1. 董杰、冯毅、库马尔·D、张伟、朱特、罗MC、梅辛·J,2016年。从长序列读取重建玉米染色体区域的串联基因拷贝分析。国家科学院院刊113:7949–7956。-项目管理咨询公司-公共医学
    1. Hackl T、Hedrich R、Schultz J、Forster F.,2014年。proovread:通过迭代短读共识进行大规模高精度PacBio校正。生物信息学30:3004–3011。-项目管理咨询公司-公共医学

出版物类型

LinkOut-更多资源