Hybrid assembly of the large and highly repetitive genome of Aegilops tauschii, a progenitor of bread wheat, with the MaSuRCA mega-reads algorithm

doi:10.1101/gr.213405.116

.2017年5月；27(5):787-792.

doi:10.1101/gr.213405.116。 Epub 2017年1月27日。

大基因组和高度重复基因组的杂交组装山羊草是面包小麦的祖先，使用MaSuRCA mega-reads算法

附属公司

¹美国马里兰州巴尔的摩约翰霍普金斯医学院麦库西克-纳桑遗传医学研究所计算生物学中心，邮编：21205。
²美国马里兰州大学物理科学与技术研究所，马里兰州大学公园，邮编：20742。
^三美国加利福尼亚州戴维斯市加利福尼亚大学植物科学系，邮编：95616。
⁴美国马里兰州贝塞斯达国立卫生研究院国家人类基因组研究所，邮编：20892。
⁵美国宾夕法尼亚州匹兹堡市卡内基梅隆大学计算生物学系，邮编：15213。
⁶美国马里兰州大学数学和物理系，马里兰州大学公园，邮编：20742。
⁷美国马里兰州巴尔的摩市约翰斯·霍普金斯大学生物医学工程系、计算机科学系和生物统计学系，邮编21218。

PMID： 28130360
预防性维修识别码：项目编号：5411773
内政部： 10.1101/gr.213405.116

大基因组和高度重复基因组的杂交组装山羊草是面包小麦的祖先，使用MaSuRCA mega-reads算法

Aleksey V Zimin先生等。基因组研究. 2017年5月.

.2017年5月；27(5):787-792.

doi:10.1101/gr.213405.116。 Epub 2017年1月27日。

附属公司

¹美国马里兰州巴尔的摩约翰霍普金斯医学院麦库西克-纳桑遗传医学研究所计算生物学中心，邮编：21205。
²美国马里兰州大学物理科学与技术研究所，马里兰州大学公园，邮编：20742。
^三美国加利福尼亚州戴维斯市加利福尼亚大学植物科学系，邮编：95616。
⁴美国马里兰州贝塞斯达国立卫生研究院国家人类基因组研究所，邮编：20892。
⁵美国宾夕法尼亚州匹兹堡卡内基梅隆大学计算生物学系15213。
⁶美国马里兰州大学数学和物理系，马里兰州大学公园，邮编：20742。
⁷约翰霍普金斯大学生物医学工程、计算机科学和生物统计学系，美国马里兰州巴尔的摩21218。

PMID： 28130360
预防性维修识别码：项目编号：5411773
内政部： 10.1101/gr.213405.116

摘要

单分子测序技术产生的长测序读数提供了显著改善基因组集合邻接性的可能性。今天最大的挑战是长时间读取的错误率相对较高，目前约为15%。高错误率使得很难单独使用这些数据，特别是对于高度重复的植物基因组。原始数据中的错误会导致共识基因组序列中的插入或删除错误（indels），这反过来会给下游分析带来重大问题；例如，单个indel可能会改变阅读框并错误地截断蛋白质序列。这里，我们描述了一种算法，该算法通过将长时间、高错误读取与更短但更准确的Illumina测序读取相结合来解决高错误率问题，Illuminia测序读取的平均错误率小于1%。我们的混合汇编算法结合了这两种类型的读取来构造兆读，它既长又准确，然后使用CABOG汇编器组装兆读，该汇编器专为长读而设计。我们将此技术应用于该物种Illumina和PacBio序列的大型数据集山羊草，一个巨大且极为重复的植物基因组，抵抗了之前的组装尝试。我们表明，所得到的组装连续体远大于任何以前的组装，N50连续体大小为486807个核苷酸。我们将contigs与独立生成的光学图进行比较，以评估其大规模精度，并与一组基于细菌人工染色体（BAC）的高质量组件进行比较，从而评估基本级精度。

PubMed免责声明

数字

**图1。**
mega-reads算法概述。Illumina读取低错误率(*左上角*)用于构建更长的超读（绿线），而这些超读又用于构建这些读操作中所有15个mer的数据库。然后使用15聚体指数对PacBio读数（紫色线）和超级读数进行比对。不一致的超负荷显示为扭结线；这些被丢弃，剩下的超读被合并，使用PacBio读作为模板，生成预兆读（黄色）。这些被进一步合并，以产生最终的mega-reads，并产生跨越差距的链接伴侣。

**图2。**
使用不同PacBio覆盖率和100×Illumina覆盖率的mega-reads算法改变基因组集合的N50 contig大小*拟南芥*基因组。在60×时，9.15Mb的N50大小接近该基因组可能的最大N50 contig大小，该大小由染色体臂的大小决定。

请参阅PMC中的此图像和版权信息

类似文章

高度准确的长读数对于实现生物多样性基因组学的潜力至关重要。
Hotaling S、Wilcox ER、Heckenhauer J、Stewart RJ、Frandsen PB。 Hotaling S等人。 BMC基因组学。2023年3月16日；24(1):117. doi:10.1186/s12864-023-09193-9。 BMC基因组学。2023 PMID：36927511 免费PMC文章。
通过有效解析长读取的重复序列，组装染色体规模的连续序列。
杜赫，梁C。杜赫等。国家公社。2019年11月25日；10(1):5360. doi:10.1038/s41467-019-13355-3。国家公社。2019 PMID：31767853 免费PMC文章。
基因组技术的改进：在作物基因组学中的应用。
Yuan Y，拜耳体育，Batley J，Edwards D。袁毅等。生物技术趋势。2017年6月；35(6):547-558. doi:10.1016/j.tibtech.2017.02.009。Epub 2017年3月9日。生物技术趋势。2017 PMID：28284542 审查。
利用光学图谱和染色体构象捕获数据改善和校正三种植物的长读基因组组装的邻接性。
Jiao WB、Accinelli GG、Hartwig B、Kiefer C、Baker D、Severing E、Willing EM、Piednoel M、Woetzel S、Madrid-Herrero E、Huettel B、Hümann U、Reinhard R、Koch MA、Swan D、Clavijo B、Coupland G、Schneeberger K。焦万斌等。基因组研究2017年5月；27(5):778-786. doi:10.1101/gr.213652.116。Epub 2017年2月3日。基因组研究2017。 PMID：28159771 免费PMC文章。
PacBio测序及其应用。
罗兹A，Au KF。 Rhoads A等人。基因组蛋白质组学生物信息学。2015年10月；13(5):278-89. doi:10.1016/j.gpb.2015.08.002。Epub 2015年11月2日。基因组蛋白质组学生物信息学。2015 PMID：26542840 免费PMC文章。审查。

查看所有类似文章

引用人

综合比较分析日本航空公司普通小麦的基因家族(小麦)及其D-亚基因组供体山羊草.
翟Z、车Y、耿S、刘S、张S、崔D、邓Z、傅M、李Y、邹X、刘J、李A、毛L。翟Z等。工厂（巴塞尔）。2024年4月30日；13(9):1259. doi:10.3390/plants13091259。工厂（巴塞尔）。2024 PMID：38732475 免费PMC文章。
葡萄PacBio长读测序的样品和文库准备。
Salava H、Deák T、Czepe C、Maghuly F。 Salava H等人。方法分子生物学。2024;2787:183-197. doi:10.1007/978-0716-3778-4_12。方法分子生物学。2024 PMID：38656490
木瓜科被子植物少珠紫堇质体和线粒体基因组的动态变化。
公园S、公园B、公园S。 Park S等人。 BMC植物生物学。2024年4月22日；24（1）：303。doi:10.1186/s12870-024-05025-4。 BMC植物生物学。2024 PMID：38644497 免费PMC文章。
水陆两栖植物Rorippa aquatica的染色体水平基因组组装揭示了其异源四倍体起源和淹没后异叶性的机制。
Sakamoto T、Ikematsu S、Nakayama H、MandákováT、Gohari G、Sakamoton T、Li G、Hou H、Matsunaga S、Lysak MA、Kimura S。 Sakamoto T等人。公共生物。2024年4月18日；7(1):431. doi:10.1038/s42003-024-06088-7。公共生物。2024 PMID：38637665 免费PMC文章。
分析两种枫树的全基因组甲基化：利用纳米孔技术进行精细检测的方法。
McEvoy SL、Grady PGS、Pauloski N、O'Neill RJ、Wegrzyn JL。 McEvoy SL等人。演变应用程序。2024年4月17日；17（4）：e13669。doi:10.1111/eva.13669。eCollection 2024年4月。演变应用程序。2024 PMID：38633133 免费PMC文章。

查看所有“被引用”文章

参考文献

1. Berlin K、Koren S、Chin CS、Drake JP、Landolin JM、Phillippy AM，2015年。用单分子测序和位置敏感散列法组装大基因组。国家生物技术33:623–630。-公共医学
1. Chin CS、Alexander DH、Marks P、Klammer AA、Drake J、Heiner C、Clum A、Copeland A、Huddleston J、Eichler EE等，2013年。来自长阅读SMRT测序数据的非杂交、成品微生物基因组组合。Nat方法10:563–569。-公共医学
1. Delcher AL、Phillippy A、Carlton J、Salzberg SL，2002年。大规模基因组比对和比较的快速算法。核酸研究30:2478–2483。-项目管理咨询公司-公共医学
1. 董杰、冯毅、库马尔·D、张伟、朱特、罗MC、梅辛·J，2016年。从长序列读取重建玉米染色体区域的串联基因拷贝分析。国家科学院院刊113:7949–7956。-项目管理咨询公司-公共医学
1. Hackl T、Hedrich R、Schultz J、Forster F.，2014年。proovread：通过迭代短读共识进行大规模高精度PacBio校正。生物信息学30:3004–3011。-项目管理咨询公司-公共医学

出版物类型

行动
行动

MeSH术语

行动
行动
行动
行动
行动
行动
行动
行动
行动
行动
行动

赠款和资金

R01 HG006677/HG/NGHRI NIH HHS/美国

LinkOut-更多资源

全文源
其他文献来源
- scite智能引文

[1] Berlin K、Koren S、Chin CS、Drake JP、Landolin JM、Phillippy AM，2015年。用单分子测序和位置敏感散列法组装大基因组。国家生物技术33:623–630。-公共医学

[2] Berlin K、Koren S、Chin CS、Drake JP、Landolin JM、Phillippy AM，2015年。用单分子测序和位置敏感散列法组装大基因组。国家生物技术33:623–630。-公共医学

[3] Chin CS、Alexander DH、Marks P、Klammer AA、Drake J、Heiner C、Clum A、Copeland A、Huddleston J、Eichler EE等，2013年。来自长阅读SMRT测序数据的非杂交、成品微生物基因组组合。Nat方法10:563–569。-公共医学

[4] Chin CS、Alexander DH、Marks P、Klammer AA、Drake J、Heiner C、Clum A、Copeland A、Huddleston J、Eichler EE等，2013年。来自长阅读SMRT测序数据的非杂交、成品微生物基因组组合。Nat方法10:563–569。-公共医学

[5] Delcher AL、Phillippy A、Carlton J、Salzberg SL，2002年。大规模基因组比对和比较的快速算法。核酸研究30:2478–2483。-项目管理咨询公司-公共医学

[6] Delcher AL、Phillippy A、Carlton J、Salzberg SL，2002年。大规模基因组比对和比较的快速算法。核酸研究30:2478–2483。-项目管理咨询公司-公共医学

[7] 董杰、冯毅、库马尔·D、张伟、朱特、罗MC、梅辛·J，2016年。从长序列读取重建玉米染色体区域的串联基因拷贝分析。国家科学院院刊113:7949–7956。-项目管理咨询公司-公共医学

[8] 董杰、冯毅、库马尔·D、张伟、朱特、罗MC、梅辛·J，2016年。从长序列读取重建玉米染色体区域的串联基因拷贝分析。国家科学院院刊113:7949–7956。-项目管理咨询公司-公共医学

[9] Hackl T、Hedrich R、Schultz J、Forster F.，2014年。proovread：通过迭代短读共识进行大规模高精度PacBio校正。生物信息学30:3004–3011。-项目管理咨询公司-公共医学

[10] Hackl T、Hedrich R、Schultz J、Forster F.，2014年。proovread：通过迭代短读共识进行大规模高精度PacBio校正。生物信息学30:3004–3011。-项目管理咨询公司-公共医学

将引文保存到文件

电子邮件引文

添加到集合

添加到我的书目

您保存的搜索

为外部引文管理软件创建文件

您的RSS源

大基因组和高度重复基因组的杂交组装山羊草是面包小麦的祖先，使用MaSuRCA mega-reads算法

附属公司

大基因组和高度重复基因组的杂交组装山羊草是面包小麦的祖先，使用MaSuRCA mega-reads算法

作者

附属公司

摘要

数字

类似文章

引用人

参考文献

出版物类型

MeSH术语

赠款和资金

LinkOut-更多资源

全文源

其他文献来源

摘要

数字

类似文章

引用人

参考文献

出版物类型

MeSH术语

相关信息

赠款和资金

LinkOut-更多资源

全文源

其他文献来源