×

聚类布尔张量。 (英语) Zbl 1405.68298号

摘要:随着时间的推移而演变的图(例如友谊网络)是数据的一个示例,它们自然地表示为二进制张量。与使用矩阵因式分解分析图的邻接矩阵类似,我们可以通过因式分解来分析张量。不幸的是,张量因式分解是计算困难的问题,尤其是通常比矩阵对应项困难得多。在布尔张量因式分解的情况下,输入张量和所有因子都需要是二进制的,我们使用布尔代数,这种困难很大程度上来自于重叠分量的可能性。然而,在许多应用程序中,我们非常乐意对至少一种模式进行分区。例如,在上述时间演变的友谊网络中,朋友组可能重叠,但网络捕获的时间点总是不同的。本文研究了这种划分对布尔张量因式分解的计算复杂性有何影响,并提出了一种新的聚类算法。该算法也可以被视为一种特别正则化的聚类算法,可以处理极高维的观测。我们以最大化相似性为目标分析了我们的算法,并认为这比最小化差异性更有意义。作为副产品,我们获得了一个PTAS和一个有效的0.828近似算法,用于秩-1二进制分解。我们的布尔张量聚类算法实现了高可扩展性、高相似度以及对合成数据集和真实数据集的良好泛化。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)

软件:

MDL4BMF公司雅高
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Alon N,Sudakov B(1999)关于两个分割问题。J算法33:173-184·Zbl 0937.68136号 ·doi:10.1006/jagm.1999.1024
[2] Bělohlávek R,Glodeanu C,Vychodil V(2012)使用三元概念对三元二进制数据进行最优因式分解。订单30(2):437-454·Zbl 1266.68168号 ·doi:10.1007/s11083-012-9254-4
[3] Cantador I,Brusilovsky P,Kuflik T(2011)《推荐系统中信息异质性和融合的第二次研讨会》(HetRec’11)。In:第五届ACM推荐系统会议(RecSys’11)
[4] Carroll JD,Chang JJ(1970)通过“Eckart-Young”分解的N向推广分析多维标度中的个体差异。《心理测量学》35(3):283-319·Zbl 0202.19101号 ·doi:10.1007/BF02310791
[5] Cerf L,Besson J,Robardet C,Boulicaut JF(2009)闭合模式满足n元关系。ACM事务处理知识发现数据3(1):1·数字对象标识代码:10.1145/1497577.1497580
[6] Cerf L,Besson J,Nguyen KNT,Boulicaut JF(2013)n元关系中的封闭和噪声容忍模式。数据最小知识发现26(3):574-619·Zbl 1267.68176号 ·doi:10.1007/s10618-012-0284-8
[7] Chi EC,Kolda TG(2012)关于张量、稀疏性和非负因子分解。SIAM J矩阵分析应用33(4):1272-1299·兹比尔1262.15029 ·数字对象标识代码:10.1137/10859063
[8] Dagum L,Menon R(1998)OpenMP:共享内存编程的行业标准API。IEEE计算科学与工程杂志5(1):46-55·数字对象标识代码:10.1109/99.660313
[9] Erdős D,Miettinen P(2013a)通过布尔张量-塔克分解发现事实。第22届ACM信息与知识管理国际会议(CIKM’13),第1569-1572页
[10] Erdõs D,Miettinen P(2013b)Walk'n'Merge:布尔张量分解的一种可扩展算法。摘自:第13届IEEE数据挖掘国际会议(ICDM’13),第1037-1042页
[11] Harshman RA(1970)PARAFAC程序的基础:“解释性”多模态因子分析的模型和条件。技术代表16,加州大学洛杉矶分校语音学工作论文
[12] Huang H,Ding C,Luo D,Li T(2008)同步张量子空间选择和聚类:高阶SVD和k-means聚类的等价性。摘自:第14届ACM SIGKDD国际知识发现和数据挖掘会议(KDD’08),第327-335页
[13] Ignatov DI、Kuznetsov SO、Magizov RA、Zhukov LE(2011)《从三概念到三星系团》。In:第13届粗糙集、模糊集、数据挖掘和粒度计算国际会议(RSFDGrC’11),第257-264页
[14] Jegelka S,Sra S,Banerjee A(2009)张量聚类的近似算法。在:国际算法学习理论会议(ALT’09),第368-383页·Zbl 1262.68151号
[15] Jiang P(2014)高维离散数据的模式提取和聚类。伊利诺伊大学香槟分校博士论文
[16] Kim M,Candan KS(2011)张量-关系代数框架内的近似张量分解。摘自:第20届ACM国际信息与知识管理会议(CIKM’11),第1737-1742页
[17] Kim M,Candan KS(2012)分解-按归一化(DBN):利用近似函数依赖进行有效张量分解。摘自:第21届ACM信息与知识管理国际会议(CIKM’12),第355-364页
[18] Kim M,Candan KS(2014)在并集上下推张量分解,以促进物化分解的重用。摘自:欧洲数据库机器学习和知识发现会议(ECML PKDD’14),第688-704页
[19] Kleinberg J,Papadimitriou C,Raghavan P(1998)数据挖掘的微观经济学观点。数据最小知识发现2(4):311-324·doi:10.1023/A:1009726428407
[20] Kleinberg JM,Papadimitriou CH,Raghavan P(2004)分割问题。美国医学会杂志51(2):263-280·Zbl 1317.90329号 ·数字对象标识代码:10.1145/972639.972644
[21] Kolda TG,Bader BW(2009)张量分解和应用。SIAM版本51(3):455-500·Zbl 1173.65029号 ·doi:10.1137/07070111X
[22] Leenen I、Van Mechelen I、De Boeck P、Rosenberg S(1999)《INDCLAS:三向分层阶级模型》。心理测量学64(1):9-24·Zbl 1365.62456号 ·doi:10.1007/BF02294316
[23] Liu X,De Lathauwer L,Janssens F,De Moor B(2010)通过HOSVD对多个信息源进行混合聚类。摘自:第七届神经网络进展国际会议第二部分(ISNN’10),第337-345页
[24] Miettinen P(2009)《数据挖掘的矩阵分解方法:计算复杂性和算法》。赫尔辛基大学计算机科学系博士论文
[25] Miettinen P(2010)稀疏布尔矩阵分解。摘自:第十届IEEE数据挖掘国际会议(ICDM’10),第935-940页
[26] Miettinen P(2011)布尔张量因式分解。摘自:第11届IEEE数据挖掘国际会议(ICDM’11),第447-456页
[27] Miettinen P,Vreeken J(2014)MDL4BMF:布尔矩阵因式分解的最小描述长度。ACM事务处理知识发现数据8(4):18·数字对象标识代码:10.1145/2601437
[28] Miettinen P,Mielikäinen T,Gionis A,Das G,Mannila H(2008)离散基问题。IEEE Trans Knowl Data Eng 20(10):1348-1362·doi:10.1109/TKDE.2008.53
[29] Papadimitriou CH,Steiglitz K(1998)组合优化:算法和复杂性。多佛出版公司,米诺拉·Zbl 0944.90066号
[30] Papalexakis EE,Faloutsos C,Sidiropoulos ND(2012)ParCube:稀疏可并行张量分解。在:欧洲数据库中的机器学习和知识发现会议(ECML PKDD’12),第521-536页
[31] Papalexakis EE,Sidiropoulos N,Bro R(2013)《从K-means到更高方向的联合聚类:具有稀疏潜在因子的多线性分解》。IEEE传输信号处理61(2):493-506·doi:10.1109/TSP.2012.225052
[32] Rissanen J(1978)《最短数据描述建模》。自动化14(5):465-471·Zbl 0418.93079号 ·doi:10.1016/0005-1098(78)90005-5
[33] Seppänen JK(2005)一类超立方体分割算法的近似比的上界。通知流程Lett 93(3):139-141·Zbl 1173.68870号 ·doi:10.1016/j.ipl.2004.10.006
[34] Suchanek FM,Kasneci G,Weikum G(2007)Yago:语义知识的核心。In:第16届万维网国际会议(WWW’07),第697-706页
[35] Tucker LR(1966)关于三模式因子分析的一些数学注释。《心理测量学》31(3):279-311·doi:10.1007/BF02289464
[36] Viswanath B、Mislove A、Cha M、Gummadi KP(2009)《关于脸书中用户交互的演变》。In:第二届ACM在线社交网络研讨会(WOSN'09),第37-42页
[37] Yates A,Etzioni O(2009)确定网络上对象和关系同义词的非监督方法。《艺术情报研究杂志》34:255-296·Zbl 1182.68189号
[38] Zhao L,Zaki MJ(2005)TRICLUSTER:挖掘3D微阵列数据中相干簇的有效算法。摘自:ACM SIGMOD国际数据管理会议(SIGMOD'05),第694-705页
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。