d2_簇

d2_聚类:一种有效的EST和全长cDNA序列聚类方法。目前正在进行一些努力,通过聚类或组装的方式大规模地压缩单读表达序列标签(ESTs)和全长转录数据。这些项目的一个目标是构建基因索引,其中转录物被划分为索引类(或簇),这样当且仅当它们代表相同的基因时,它们才被放入同一索引类。精确的基因索引有助于基因表达研究和廉价和早期的部分基因序列发现,这些EST是从尚未被定位克隆或直接通过基因组测序获得的基因中获得的。我们描述了d2_cluster,这是一种聚集算法,它可以根据最小连接或“传递闭包”规则将转录数据库快速准确地划分为索引类。然后,我们评估了d2_集群相对于其他集群工具的相对效率。由于优生的高质量和广泛的接受度而被选为比较对象。结果表明,虽然d2êu簇与UniGene的结果一致性在83%~90%之间,但d2峎簇的连接率比UniGene高8%~20%。最后,我们提出了第一次发表的序列聚类算法的欠聚类和过度聚类(换句话说,I型和II型错误)的严格评估,尽管高度相同的基因副对数的存在意味着在解释II型错误时必须小心。这些d2_簇错误率的上界估计分别为0.4%和0.8%。也就是说,d2_簇合物的灵敏度和选择性分别大于99.6%和99.2%。