×

用特征向量在图中寻找基于密度的子空间簇。 (英语) Zbl 1260.68356号

摘要:表示属性信息和网络信息的数据源在当今的应用中广泛可用。为了充分发挥知识提取的潜力,聚类等挖掘技术应该同时考虑这两种信息类型。最近的聚类方法将子空间聚类与稠密子图挖掘相结合,以识别属性子集相似且在网络中紧密连接的对象组。虽然这些方法成功地绕过了全空间聚类的问题,它们有限的簇定义仅限于某些形状的簇。在这项工作中,我们引入了一种基于密度的簇定义,它考虑了子空间中的属性相似性以及局部图密度,使我们能够检测任意形状和大小的簇。此外,我们通过只选择最有趣的非冗余集群来避免结果中的冗余。基于该模型,我们引入了聚类算法DB-CSC,该算法使用不动点迭代方法有效地确定聚类解。我们解析地证明了该不动点迭代的正确性和复杂性。在深入的实验中,我们证明了DB-CSC与相关方法相比的优势。

MSC公司:

68吨10 模式识别、语音识别
68兰特 计算机科学中的图论(包括图形绘制)

关键词:

图聚类稠密子图网络

软件:

Inc群集SA集群
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aggarwal C,Wang H(2010)管理和挖掘图形数据。纽约州施普林格·Zbl 1185.68458号
[2] Agrawal R,Gehrke J,Gunopulos D,Raghavan P(1998)数据挖掘应用中高维数据的自动子空间聚类。摘自:SIGMOD,第94-105页。西雅图SIGMOD
[3] Assent I,Krieger R,Müller E,Seidl T(2008)EDSC:高效基于密度的子空间聚类。In:CIKM,第1093-1102页。格拉斯哥CIKM
[4] Beyer KS、Goldstein J、Ramakrishnan R、Shaft U(1999)“最近的邻居”何时有意义?In:ICDT,第217-235页。勃朗峰ICDT
[5] Dorogovtsev S,Goltsev A,Mendes J(2006)《复杂网络的K核心组织》。物理评论稿96(4):40–601·Zbl 1130.94024号
[6] Du N,Wu B,Pei X,Wang B,Xu L(2007)大型社交网络中的社区检测。在:WebKDD/SNA-KDD,第16-25页。SNA-KDD,圣何塞
[7] Ester M,Kriegel HP,S J,Xu X(1996)一种基于密度的算法,用于在带有噪声的大型空间数据库中发现簇。收录于:KDD,第226-231页。KDD,波特兰
[8] Ester M,Ge R,Gao BJ,Hu Z,Ben-Moshe B(2006)属性数据和关系数据的联合聚类分析:连通k中心问题。输入:SDM。贝塞斯达SDM
[9] Günnemann S,Müller E,Färber I,Seidl T(2009)高维数据子空间中正交概念的检测。收录于:CIKM,第1317-1326页。CIKM,香港
[10] Günnemann S,Färber I,Boden B,Seidl T(2010)子空间聚类与稠密子图挖掘:两种范式的综合。收录于:ICDM,第845-850页。悉尼ICDM
[11] Günnemann S,Kremer H,Seidl T(2010)不确定数据的子空间聚类。收入:SDM,第385-396页。贝塞斯达SDM
[12] Günnemann S,Boden B,Seidl T(2011)DB-CSC:基于密度的方法,用于具有特征向量的图中的子空间聚类。在:ECML/PKDD(1),第565–580页。ECML,雅典
[13] Günnemann S,Färber I,Müller E,Assent I,Seidl T(2011)《子空间聚类的外部评估措施》。摘自:CIKM,第1363-1372页。格拉斯哥CIKM
[14] Hanisch D、Zien A、Zimmer R、Lengauer T(2002)《生物网络和基因表达数据的协同聚类》。生物信息学18:145–154·doi:10.1093/bioinformatics/18.suppl_1.S145
[15] Hinneburg A,Keim DA(1998)在有噪声的大型多媒体数据库中进行聚类的有效方法。收录:KDD,第58–65页。纽约KDD
[16] Janson S,Luczak M(2007)k核问题的简单解决方案。随机结构算法30(1-2):50–62·Zbl 1113.05091号 ·doi:10.1002/rsa.201447
[17] Kailing K,Kriegel HP,Kroeger P(2004)高维数据的密度连通子空间聚类。收入:SDM,第246-257页。贝塞斯达SDM
[18] Kriegel HP,Kröger P,Zimek A(2009)聚类高维数据:关于子空间聚类、基于模式的聚类和相关性聚类的调查。Trans-Nowl Discov数据3(1):1–58·数字对象标识代码:10.1145/1497577.1497578
[19] Kubica J、Moore AW、Schneider JG(2003)大型链路数据集上的可牵引群检测。在:ICDM,第573–576页。悉尼ICDM
[20] Long B,Wu X,Zhang ZM,Yu PS(2006)关于k部图的无监督学习。收录:KDD,第317–326页。KDD,波特兰
[21] Long B,Zhang ZM,Yu PS(2007)关系聚类的概率框架。In:KDD,第470-479页。KDD,波特兰
[22] Moise G,Sander J(2008)《在高维数据中发现非冗余的、具有统计意义的区域:投影和子空间聚类的新方法》。摘自:KDD,第533-541页。波特兰KDD
[23] Moser F,Colak R,Rafiey A,Ester M(2009)利用特征向量从图中挖掘内聚模式。包含:SDM,第593-604页。贝塞斯达SDM
[24] Müller E,Assent I,Günnemann S,Krieger R,Seidl T(2009)相关子空间聚类:挖掘高维数据中最有趣的非冗余概念。收录于:ICDM,第377-386页。悉尼ICDM
[25] Müller E,Günnemann S,Assent I,Seidl T(2009)评估高维数据子空间投影中的聚类。包含:VLDB,第1270–1281页。VLDB,新加坡
[26] Parsons L,Haque E,Liu H(2004)高维数据的子空间聚类:综述。SIGKDD探索6(1):90–105·Zbl 05442873号 ·数字对象标识代码:10.1145/1007730.1007731
[27] 裴J,蒋D,张A(2005)关于挖掘交叉图拟流体。在:KDD,第228–238页。KDD,波特兰
[28] 阮J,张伟(2007)网络社区发现的高效谱算法及其在生物和社会网络中的应用。收录于:ICDM,第643-648页。悉尼ICDM
[29] Ulitsky I,Shamir R(2007)使用网络拓扑和高通量数据识别功能模块。BMC系统生物学1(1):8·doi:10.1186/1752-0509-1-8
[30] Zhou Y,Cheng H,Yu JX(2009)基于结构/属性相似性的图聚类。PVLDB 2(1):718–729
[31] Zhou Y,Cheng H,Yu JX(2010)聚类大型属性图:一种有效的增量方法。收录于:ICDM,第689-698页。悉尼ICDM
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。