跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
比较研究
.2014年3月3日;15(3):R42。
doi:10.1186/gb-2014-15-3-r42。

装配脚手架工具的综合评估

比较研究

装配式脚手架工具的综合评价

马丁·亨特等。 基因组生物学. .

摘要

背景:基因组组装通常是一个两阶段的过程:先组装contig,然后使用配对测序读取将contig连接到支架中。脚手架通常是报告装配统计数据的重点;更长的支架极大地促进了基因组序列在下游分析中的使用,并且以更大的数字作为组装性能的度量是很有吸引力的。然而,支架极易出错,尤其是在使用短读取生成时,这可能直接导致程序集统计信息膨胀。

结果:在这里,我们为第二代测序数据提供了第一个独立的脚手架工具评估。我们发现,根据所使用的工具和数据集,结果的质量存在很大差异。即使是极为简单的完美输入测试用例,也会产生一些令人惊讶的结果,这些测试用例旨在阐明每种算法的行为。我们使用来自金黄色葡萄球菌、球形红杆菌、恶性疟原虫和智人基因组的真实和模拟测序数据进一步分析了支架的性能。模拟数据的结果质量很高,其中一些工具产生了完美的输出。然而,在使用实际数据时,至少有10%的连接仍然无法识别。

结论:架子工的可用性、速度以及在连续梁之间进行的正确和错误连接的数量各不相同。实际数据的结果突出了进一步改进工具的机会。总的来说,SGA、SOPRA和SSPACE通常优于我们数据集上的其他工具。然而,结果的质量在很大程度上取决于读取映射器和基因组复杂性。

PubMed免责声明

数字

图1
图1
测试用例11的数据生成和结果。(a)为测试生成连接字和读取对。(b)图形形式的测试和每个架子工的输出。每个节点表示一个5kb的contig,每个边表示读取对证据,并用读取深度标记。绿色节点和边表示正确的解决方案。错误路径为黑色。每个工具后面括号中的数字表示该工具输出配置的次数。没有编号的工具在所有运行中产生相同的输出。
图2
图2
模拟contigs、人造contigs和序列标签。(a)金黄色葡萄球菌参考序列。(b)从汇编输出生成人工重叠群。(c)标记类型。标记1和2是正确的连接。标记2和4演示了跳过的标记,因为输出脚手架跳过了标记3。标记3也不会出现在输出中,因此是一个丢失的标记。标签4和5的方向错误,标签5和6属于参考中的不同序列。
图3
图3
基因组尺度数据结果。(a)金黄色葡萄球菌GAGE数据,(b)恶性疟原虫组合长短数据和(c)人类14号染色体结合了短插入和长插入数据。散点图显示了每个架子工正确连接和错误连接之间的关系。方框图显示了在不同的分数组合上迭代时汇总分数的分布。箱线图中的白色圆圈表示我们选择的权重系统的分数,该系统侧重于惩罚错误(权重:正确连接=80,错误连接=160,丢失标记=160,跳过标记=40,运行时间=1)。

类似文章

引用人

工具书类

    1. Pagani I、Liolios K、Jansson J、Chen I-M、Smirnova T、Nosrat B、Markowitz VM、Kyrpides NC。基因组在线数据库(GOLD)v.4:基因组和宏基因组项目及其相关元数据的状态。核酸研究,2012;40:D571–D579。doi:10.1093/nar/gkr1100。-内政部-项目管理咨询公司-公共医学
    1. Huson DH、Reinert K、Myers EW。用于contig scaffolding的贪婪路径边缘算法。美国医学杂志。2002;49:603–615. doi:10.1145/585265.585267。-内政部
    1. Salzberg SL、Phillippy AM、Zimin A、Puiu D、Magoc T、Koren S、Treangen TJ、Schatz MC、Delcher AL、Roberts M、Marçais G、Pop M、Yorke JA。GAGE:基因组组装和组装算法的关键评估。基因组研究2012;22:557–567. doi:10.1101/gr.131383.111。-内政部-项目管理咨询公司-公共医学
    1. Earl D、Bradnam K、St John J、Darling A、Lin D、Fass J、Yu HOK、Buffalo V、Zerbino DR、Diekhans M、Nguyen N、Ariyaratne PN、Sung W-K、Ning Z、Haimel M、Simpson JT、Fonseca NA、Birol I、Docking TR、Ho IY、Rokhsar DS、Chikhi R、Lavenier D、Chapuis G、Naquin D、Maillet N、Schatz MC、Kelley DR、Phillippy AM、,Koren S.等人。Assemblathon 1:从头开始的短读组装方法的竞争评估。基因组研究2011;21:2224–2241. doi:10.1101/gr.126599.111。-内政部-项目管理咨询公司-公共医学
    1. Bradnam KR、Fass JN、Alexandrov A、Baranay P、Bechner M、Birol I、Boisvert S、Chapman JA、Chapuis G、Chikhi R、Chitsaz H、Chou W-C、Corbeil J、Del Fabbro C、Docking TR、Durbin R、Earl D、Emrich S、Fedotov P、Fonseca NA、Ganapathy G、Gibbs RA、Gnerre S、Godzaridis E、Goldstein S、Haimel M、Hall G、Hausler D、Hiatt JB、Ho IY。等。组装2:评估三种脊椎动物基因组组装的从头开始方法。巨大的科学。2013;2:10. doi:10.1186/2047-217X-2-10。-内政部-项目管理咨询公司-公共医学

LinkOut-更多资源