×

相关聚类。 (英文) Zbl 1089.68085号

摘要:我们考虑以下聚类问题:我们有一个关于\(n \)个顶点(项)的完整图,其中每个边\(u,v)\标记为+或–取决于\(u \)和\(v \)是否被视为相似或不同。目标是生成顶点的分区(簇),尽可能与边标签一致。也就是说,我们需要一个最大化簇内+边数量,加上簇间–边数量的簇(等效地,最小化分歧数量:簇内–边数量加上簇之间+边数量)。这个公式是从一个文档聚类问题出发的,在这个问题中,我们从过去的数据中学习到一个两两相似度函数,目标是以尽可能与(f)相关的方式划分当前文档集;它也可以被视为一种“不可知论学习”问题。
这种聚类公式的一个有趣的特点是,不需要将簇数(k)指定为单独的参数,例如在度量中,如\(k)-median或min-sum或min-max聚类。相反,在我们的公式中,最佳簇数可以是1到\(n)之间的任何值,这取决于边缘标签。我们研究了最小化分歧和最大化协议的近似算法。为了尽量减少分歧,我们给出了一个常数因子近似值。为了最大限度地达成协议,我们根据Goldreich、Goldwasser和Ron(1998)以及de la Veg(1996)的想法制定了一个PTAS。我们还展示了如何将这些结果推广到带有边标签的图([-1,+1]\),并给出了随机噪声情况下的一些结果。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68兰特 计算机科学中的图论(包括图形绘制)
PDF格式BibTeX公司 XML格式引用
全文: 内政部