德巴克

DeBaCl:一个用于基于密度的交互式聚类的Python包。Hartigan(1975)的水平集树方法提供了一种基于概率和高度可解释的数据集聚类行为编码。通过将数据模式的层次结构表示为密度估计器水平集的树状图,该方法为探索性分析和聚类提供了许多优势,特别是对于复杂和高维数据。水平集树估计有几个R包,但由于计算效率低、缺乏交互式图形功能以及从理论上讲依赖于渐近近似,它们的实际用途受到限制。为了让从业者更容易地捕捉到levelset树的优点,我们编写了Python包DeBaCl用于基于密度的集群。在本文中,我们将说明DeBaCl的水平集树估计如何用于困难的聚类任务和交互式图形数据分析。该软件包旨在通过提高计算效率和用户高度定制来促进水平集树的实际应用。此外,DeBaCl中实现的灵活算法具有有限的样本精度,如最近有关密度聚类的文献所示。最后,我们展示了层次集树框架可以很容易地扩展到处理功能数据。