isONclust公司

使用贪婪的、基于质量值的算法对长读转录组数据进行从头聚类。牛津大学已经证明了许多生物景观和复杂的生物异构体的生物序列研究。然而,目前基于长时间读取数据的从头转录重建算法有限,使得这些技术的潜力无法实现。一个常见的瓶颈是缺乏可伸缩和精确的算法来根据长阅读的基因家族进行聚类。为了解决这一挑战,我们开发了isONclust,一种贪婪(为了扩展)并利用质量值(为了处理可变错误率)的聚类算法。我们在三个模拟的和五个生物数据集上测试isONclust,这些数据集跨越了生物体、技术和阅读深度。我们的结果表明,isONclust在总体准确性和/或对大型数据集的可伸缩性方面都比以前的方法有了实质性的改进。我们的工具在https://github.com/ksahlin/isONclust上提供。