摘要
单分子测序技术产生的长测序读数提供了显著改善基因组集合邻接性的可能性。今天最大的挑战是长时间读取的错误率相对较高,目前约为15%。高错误率使得很难单独使用这些数据,特别是对于高度重复的植物基因组。原始数据中的错误会导致共识基因组序列中的插入或删除错误(indels),这反过来会给下游分析带来重大问题;例如,单个indel可能会改变阅读框并错误地截断蛋白质序列。这里,我们描述了一种算法,该算法通过将长时间、高错误读取与更短但更准确的Illumina测序读取相结合来解决高错误率问题,Illuminia测序读取的平均错误率小于1%。我们的混合汇编算法结合了这两种类型的读取来构造兆读,它既长又准确,然后使用CABOG汇编器组装兆读,该汇编器专为长读而设计。我们将此技术应用于该物种Illumina和PacBio序列的大型数据集山羊草,一个巨大且极为重复的植物基因组,抵抗了之前的组装尝试。我们表明,所得到的组装连续体远大于任何以前的组装,N50连续体大小为486807个核苷酸。我们将contigs与独立生成的光学图进行比较,以评估其大规模精度,并与一组基于细菌人工染色体(BAC)的高质量组件进行比较,从而评估基本级精度。
©2017 Zimin等人。;由冷泉港实验室出版社出版。
PubMed免责声明
类似文章
-
高度准确的长读数对于实现生物多样性基因组学的潜力至关重要。
Hotaling S、Wilcox ER、Heckenhauer J、Stewart RJ、Frandsen PB。
Hotaling S等人。
BMC基因组学。2023年3月16日;24(1):117. doi:10.1186/s12864-023-09193-9。
BMC基因组学。2023
PMID:36927511
免费PMC文章。
-
通过有效解析长读取的重复序列,组装染色体规模的连续序列。
杜赫,梁C。
杜赫等。
国家公社。2019年11月25日;10(1):5360. doi:10.1038/s41467-019-13355-3。
国家公社。2019
PMID:31767853
免费PMC文章。
-
基因组技术的改进:在作物基因组学中的应用。
Yuan Y,拜耳体育,Batley J,Edwards D。
袁毅等。
生物技术趋势。2017年6月;35(6):547-558. doi:10.1016/j.tibtech.2017.02.009。Epub 2017年3月9日。
生物技术趋势。2017
PMID:28284542
审查。
-
利用光学图谱和染色体构象捕获数据改善和校正三种植物的长读基因组组装的邻接性。
Jiao WB、Accinelli GG、Hartwig B、Kiefer C、Baker D、Severing E、Willing EM、Piednoel M、Woetzel S、Madrid-Herrero E、Huettel B、Hümann U、Reinhard R、Koch MA、Swan D、Clavijo B、Coupland G、Schneeberger K。
焦万斌等。
基因组研究2017年5月;27(5):778-786. doi:10.1101/gr.213652.116。Epub 2017年2月3日。
基因组研究2017。
PMID:28159771
免费PMC文章。
-
PacBio测序及其应用。
罗兹A,Au KF。
Rhoads A等人。
基因组蛋白质组学生物信息学。2015年10月;13(5):278-89. doi:10.1016/j.gpb.2015.08.002。Epub 2015年11月2日。
基因组蛋白质组学生物信息学。2015
PMID:26542840
免费PMC文章。
审查。
引用人
-
综合比较分析日本航空公司普通小麦的基因家族(小麦)及其D-亚基因组供体山羊草.
翟Z、车Y、耿S、刘S、张S、崔D、邓Z、傅M、李Y、邹X、刘J、李A、毛L。
翟Z等。
工厂(巴塞尔)。2024年4月30日;13(9):1259. doi:10.3390/plants13091259。
工厂(巴塞尔)。2024
PMID:38732475
免费PMC文章。
-
葡萄PacBio长读测序的样品和文库准备。
Salava H、Deák T、Czepe C、Maghuly F。
Salava H等人。
方法分子生物学。2024;2787:183-197. doi:10.1007/978-0716-3778-4_12。
方法分子生物学。2024
PMID:38656490
-
木瓜科被子植物少珠紫堇质体和线粒体基因组的动态变化。
公园S、公园B、公园S。
Park S等人。
BMC植物生物学。2024年4月22日;24(1):303。doi:10.1186/s12870-024-05025-4。
BMC植物生物学。2024
PMID:38644497
免费PMC文章。
-
水陆两栖植物Rorippa aquatica的染色体水平基因组组装揭示了其异源四倍体起源和淹没后异叶性的机制。
Sakamoto T、Ikematsu S、Nakayama H、MandákováT、Gohari G、Sakamoton T、Li G、Hou H、Matsunaga S、Lysak MA、Kimura S。
Sakamoto T等人。
公共生物。2024年4月18日;7(1):431. doi:10.1038/s42003-024-06088-7。
公共生物。2024
PMID:38637665
免费PMC文章。
-
分析两种枫树的全基因组甲基化:利用纳米孔技术进行精细检测的方法。
McEvoy SL、Grady PGS、Pauloski N、O'Neill RJ、Wegrzyn JL。
McEvoy SL等人。
演变应用程序。2024年4月17日;17(4):e13669。doi:10.1111/eva.13669。eCollection 2024年4月。
演变应用程序。2024
PMID:38633133
免费PMC文章。
参考文献
-
- Berlin K、Koren S、Chin CS、Drake JP、Landolin JM、Phillippy AM,2015年。用单分子测序和位置敏感散列法组装大基因组。国家生物技术33:623–630。-公共医学
-
- Chin CS、Alexander DH、Marks P、Klammer AA、Drake J、Heiner C、Clum A、Copeland A、Huddleston J、Eichler EE等,2013年。来自长阅读SMRT测序数据的非杂交、成品微生物基因组组合。Nat方法10:563–569。-公共医学
-
- Delcher AL、Phillippy A、Carlton J、Salzberg SL,2002年。大规模基因组比对和比较的快速算法。核酸研究30:2478–2483。-项目管理咨询公司-公共医学
-
- 董杰、冯毅、库马尔·D、张伟、朱特、罗MC、梅辛·J,2016年。从长序列读取重建玉米染色体区域的串联基因拷贝分析。国家科学院院刊113:7949–7956。-项目管理咨询公司-公共医学
-
- Hackl T、Hedrich R、Schultz J、Forster F.,2014年。proovread:通过迭代短读共识进行大规模高精度PacBio校正。生物信息学30:3004–3011。-项目管理咨询公司-公共医学
引用