克里斯托弗·萨林;保罗·梅德韦杰夫 从头开始使用贪婪的、基于质量值的算法对长读转录组数据进行聚类。 (英语) Zbl 1412.92105号 Cowen,Lenore J.(编辑),《计算分子生物学研究》。第23届国际年会,RECOMB 2019,美国华盛顿特区,2019年5月5日至8日。诉讼程序。查姆:斯普林格。莱克特。注释计算。科学。11467, 227-242 (2019). 摘要:使用PacBio Iso-Seq和牛津纳米孔技术对转录物进行长期测序已被证明是许多生物体复杂亚型景观研究的核心。然而,当前从头开始基于长读取数据的转录重建算法有限,使得这些技术的潜力无法实现。一个常见的瓶颈是缺乏可扩展且准确的算法来根据源基因家族对长读进行聚类。为了应对这一挑战,我们开发了isONclust,这是一种贪婪的聚类算法(为了扩展),并利用质量值(为了处理可变错误率)。我们在三个模拟数据集和五个生物数据集上测试了isONcluster,涵盖了生物体、技术和阅读深度。我们的结果表明,isONclust在整体准确性和/或对大型数据集的可扩展性方面都比以前的方法有了实质性的改进。我们的工具位于https://github.com/ksahlin/isONclust网站.关于整个系列,请参见[Zbl 1408.92004号]. 引用于1文件 MSC公司: 92C40型 生物化学、分子生物学 68周05 非数值算法 软件:Cd命中;遮阳伞;SimLoRD公司;紧身胸衣;MeShClust公司;d2_群集;DNACLUST公司;彩虹;LSC公司;石斑鱼;易集群2;星号;最小值2;github;马什;是ONclust;幻灯片排序;科根(Cogent);MMseqs2系列 PDF格式BibTeX公司 XML格式引用 \textit{K.Sahlin}和\textit{P.梅德韦杰夫},Lect。注释计算。科学。11467,227--242(2019;Zbl 1412.92105) 全文: DOI程序