×

一种新的异构网络概率聚类模型。 (英语) Zbl 1454.62195号

摘要:由多类型对象和各种关系组成的异构网络在现实世界中普遍存在。以前关于聚类异构网络的大多数工作要么将其转换为同构网络,要么根据特定对象、结构或假设简化异构建模。然而,很少有研究考虑所有相关对象和关系,以及在集成相关对象和减少对象间关系所产生的噪声之间进行权衡。本文提出了一种通用的异构网络聚类概率图模型。首先,我们基于我们的基本假设提出了一种新的图形表示:不同的关系类型产生不同的权重分布来指定两个对象之间的簇内概率,并且簇围绕簇核形成。然后,我们导出了一个称为PROCESS的高效算法,代表异构网络的概率聚类模型。PROCESS采用平衡控制的消息传递算法和数学编程进行推理和估计。实验结果表明,我们的方法是有效的,在来自异构网络的合成数据和实际数据上都显著优于最新的算法。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62H22个 概率图形模型
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aggarwal,C.C.和Wang,H.(2010年)。管理和挖掘图形数据。柏林:斯普林格·Zbl 1185.68458号 ·doi:10.1007/978-1-4419-6045-0
[2] Blei,D.M.、Ng,A.Y.和Jordan,M.I.(2003年)。潜在的dirichlet分配。机器学习研究杂志,3,993-1022·Zbl 1112.68379号
[3] Brandes,U.、Gaertler,M.和Wagner,D.(2003年)。图聚类算法实验。第十一届欧洲算法年会论文集,第568-579页。
[4] Cao,L.、Ou,Y.和Yu,P.(2012年)。将行为分析与应用程序相结合。IEEE知识与数据工程汇刊,241378-1392·doi:10.1109/TKDE.2011.129
[5] Deng,H.、Han,J.、Ji,H.,Li,H..、Lu,Y.和Wang,H..(2013)。探索和推断用户-用户伪友谊,用于异构网络的情感分析。《第13届SIAM数据挖掘国际会议论文集》,第378-386页·Zbl 07260401号
[6] Deng,H.、Han,J.、Zhao,B.、Yu,Y.和Lin,C.X.(2011)。异构信息网络上有偏传播的概率主题模型。第17届ACM SIGKDD知识发现和数据挖掘国际会议论文集,第1271-1279页。
[7] Frey,B.J.和MacKay,D.J.C.(1997年)。一场革命:有圈图中的信念传播。第11届神经信息处理系统年会论文集,第479-485页。
[8] Frey,B.J.和Dueck,D.(2007年)。通过在数据点之间传递消息进行聚类。科学,315972-976·Zbl 1226.94027号 ·doi:10.1126/science.1136800
[9] Girvan,M.和Newman,M.E.J.(2002)。社会和生物网络中的社区结构。《美国国家科学院院刊》,997821·Zbl 1032.91716号 ·doi:10.1073/pnas.122653799
[10] Hartigan,J.A.和Wong,M.A.(1979年)。算法AS 136:k均值聚类算法。英国皇家统计学会杂志。C辑(应用统计学),28,100-108·Zbl 0447.62062号
[11] Hofmann,T.(1999)。概率潜在语义索引。第22届ACM SIGIR国际信息检索研究与开发年会论文集,第50-57页·Zbl 0998.68234号
[12] Kernighan,B.W.和Lin,S.(1970年)。一种用于划分图的有效启发式过程。贝尔系统技术期刊,49,291-307·Zbl 0333.05001号 ·文件编号:10.1002/j.1538-7305.1970.tb01770.x
[13] Kschichang,F.R.、Frey,B.J.和Loeliger,H.A.(2001)。因子图和求和算法。IEEE信息理论汇刊,47498-519·Zbl 0998.68234号 ·数字对象标识代码:10.1109/18.910572
[14] Long,B.、Zhang,Z.M和Yu,P.S.(2007年)。多类型关系数据的谱聚类。第13届ACM SIGKDD知识发现和数据挖掘国际会议论文集,第470-479页。
[15] Long,B.,Zhang,Z.M.,Wu,X.,&Yu,P.S.(2006)。多类型关系数据的谱聚类。第23届机器学习国际会议论文集,第585-592页。
[16] Manning,C.D.、Raghavan,P.和Schutze,H.(2008)。信息检索导论。剑桥:剑桥大学出版社·Zbl 1160.68008号 ·doi:10.1017/CBO9780511809071
[17] McEliece,R.J.、MacKay,D.J.C.和Cheng,J.F.(1998年)。Turbo译码是Pearl的信念传播算法的一个实例。IEEE通讯选定领域杂志,16,140-152·数字对象标识代码:10.1109/49.661103
[18] Nemhauser,G.L.和Wolsey,L.A.(1988年)。整数和组合优化。纽约:Wiley·Zbl 0652.90067号 ·doi:10.1002/9781118627372
[19] Ng,A.Y.、Jordan,M.I.和Weiss,Y.(2001)。关于谱聚类:分析和算法。《第15届神经信息处理系统年会论文集》,第849-856页·Zbl 1226.94027号
[20] Papadimitriou,C.H.和Steiglitz,K.(1998年)。组合优化:算法和复杂性。纽约:多佛出版社·Zbl 0944.90066号
[21] Perozzi,B.、Akoglu,L.、Sanchez,P.和Muller,E.(2014)。大型属性图中的聚焦聚类和离群点检测。《第20届ACM SIGKDD知识发现和数据挖掘国际会议论文集》,第1346-1355页。
[22] Philip,S.Y.(2010)。链接挖掘:模型、算法和应用程序。柏林:斯普林格。
[23] Rattigan,M.J.、Maier,M.和Jensen,D.(2007年)。使用网络结构索引进行图形聚类。第24届机器学习国际会议论文集,第783-790页。
[24] Shiga,M.、Takigawa,I.和Mamitsuka,H.(2007)。一种将数字向量与模块化网络最佳组合的谱聚类方法。第13届ACM SIGKDD知识发现和数据挖掘国际会议论文集,第647-656页。
[25] Sun,Y.、Han,J.、Zhao,P.、Yin,Z.、Cheng,H.和Wu,T.(2009年a)。RankClus:将聚类与排序相结合,用于异构信息网络分析。《第十二届扩展数据库技术国际会议论文集》,第565-576页·Zbl 0333.05001号
[26] Sun,Y.、Norick,B.、Han,J.、Yan,X.、Yu,P.和Yu,X.(2012a)。在异构信息网络中集成元路径选择和用户引导的对象聚类。《第18届ACM SIGKDD知识发现和数据挖掘国际会议论文集》,第1348-1356页。
[27] Sun,Y.、Yu,Y.和Han,J.(2009b)。基于星级网络模式的异构信息网络聚类。第15届ACM SIGKDD知识发现和数据挖掘国际会议论文集,第797-806页。
[28] Sun,Y.、Aggarwal,C.C.和Han,J.(2012b)。不完全属性异构信息网络的关系强度感知聚类。VLDB捐赠会议记录,5(5),394-405·doi:10.14778/2140436.2140437
[29] Tang,W.,Lu,Z.,&Dhillon,I.S.(2009年a)。使用多个图进行聚类。第九届IEEE数据挖掘国际会议论文集,第1016-1021页·Zbl 0333.05001号
[30] Tang,L.,Wang,X.,&Liu,H.(2009年b)。通过异质交互分析发现群体。第九届IEEE数据挖掘国际会议论文集,第503-512页·Zbl 1226.94027号
[31] Xu,X.,&Deng,Z.H.(2011)。BibClus:通过消息在中心链接结构上传递的书目网络聚类算法。第11届IEEE数据挖掘国际会议论文集,第864-873页。
[32] Xu,Z.,Ke,Y.,Wang,Y.、Cheng,H.和Cheng,J.(2012)。基于模型的属性图聚类方法。《ACM SIGMOD数据管理国际会议论文集》,第505-516页。
[33] Yedidia,J.S.、Freeman,W.T.和Weiss,Y.(2003)。理解信念传播及其推广。《探索新千年的人工智能》,第236-239页。
[34] Ypma,T.J.(1995)。Newton-Raphson方法的历史发展。SIAM评论,37(4),531-551·Zbl 0842.01005号 ·数字对象标识代码:10.1137/1037125
[35] Yu,X.,Ren,X.、Sun,Y.、Gu,Q.、Sturt,B.、Khandelwal,U.、Norick,B.和Han,J.(2014)。个性化实体推荐:一种异构信息网络方法。《第七届ACM网络搜索和数据挖掘国际会议论文集》,第283-292页。
[36] Zhou,Y.,&Liu,L.(2013)。基于社会影响的异构信息网络聚类。第19届ACM SIGKDD知识发现和数据挖掘国际会议论文集,第338-346页·Zbl 0842.01005号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。