网簇

MeShClust:一个智能的DNA序列聚类工具。序列聚类是分析DNA序列的基本步骤。广泛使用的序列聚类软件工具利用贪婪的方法,这些方法不能保证产生最佳结果。这些工具对一个决定簇内序列相似性的参数非常敏感。通常情况下,生物学家可能不知道确切的序列相似性。因此,如果提供的参数不准确,由这些工具生成的簇可能与包含数据的实际簇不匹配。为了克服这一局限性,我们采用了meanshift算法,一种无监督的机器学习算法,在图像处理和计算机视觉等领域已经成功地应用了数千次。与贪婪算法不同,mean-shift算法背后的理论保证了对模式的收敛,例如聚类中心。这里我们描述了均值漂移算法在DNA序列聚类中的首次应用。MeShClust是meanshift算法在生物信息学中的应用之一。此外,我们应用有监督机器学习来预测由整体比对所产生的一致性分数。我们证明了MeShClust在用户提供的序列相似性参数不是很精确的情况下也能高精度地对DNA序列进行聚类。