萨斯基亚·梅茨勒;保利·米提宁 聚类布尔张量。 (英语) Zbl 1405.68298号 最小已知数据。迪斯科。 第5号第29页,1343-1373页(2015年). 摘要:随着时间的推移而演变的图(例如友谊网络)是数据的一个示例,它们自然地表示为二进制张量。与使用矩阵因式分解分析图的邻接矩阵类似,我们可以通过因式分解来分析张量。不幸的是,张量因式分解是计算困难的问题,尤其是通常比矩阵对应项困难得多。在布尔张量因式分解的情况下,输入张量和所有因子都需要是二进制的,我们使用布尔代数,这种困难很大程度上来自于重叠分量的可能性。然而,在许多应用程序中,我们非常乐意对至少一种模式进行分区。例如,在上述时间演变的友谊网络中,朋友组可能重叠,但网络捕获的时间点总是不同的。本文研究了这种划分对布尔张量因式分解的计算复杂性有何影响,并提出了一种新的聚类算法。该算法也可以被视为一种特别正则化的聚类算法,可以处理极高维的观测。我们以最大化相似性为目标分析了我们的算法,并认为这比最小化差异性更有意义。作为副产品,我们获得了一个PTAS和一个有效的0.828近似算法,用于秩-1二进制分解。我们的布尔张量聚类算法实现了高可扩展性、高相似度以及对合成数据集和真实数据集的良好泛化。 引用于1文件 MSC公司: 68T05型 人工智能中的学习和自适应系统 62H30型 分类和区分;聚类分析(统计方面) 关键词:张量;群集;布尔代数;近似;分解,分解 软件:MDL4BMF公司;雅高 PDF格式BibTeX公司 XML格式引用 \textit{S.Metzler}和\textit{P.Miettinen},数据最小知识。发现。29,第5号,1343---1373(2015;Zbl 1405.68298) 全文: 内政部 arXiv公司 参考文献: [1] Alon N,Sudakov B(1999)关于两个分割问题。J算法33:173-184·Zbl 0937.68136号 ·doi:10.1006/jagm.1999.1024 [2] Bělohlávek R,Glodeanu C,Vychodil V(2012)使用三元概念对三元二进制数据进行最优因式分解。订单30(2):437-454·Zbl 1266.68168号 ·doi:10.1007/s11083-012-9254-4 [3] Cantador I,Brusilovsky P,Kuflik T(2011)《推荐系统中信息异质性和融合的第二次研讨会》(HetRec’11)。In:第五届ACM推荐系统会议(RecSys’11) [4] Carroll JD,Chang JJ(1970)通过“Eckart-Young”分解的N向推广分析多维标度中的个体差异。《心理测量学》35(3):283-319·Zbl 0202.19101号 ·doi:10.1007/BF02310791 [5] Cerf L,Besson J,Robardet C,Boulicaut JF(2009)闭合模式满足n元关系。ACM事务处理知识发现数据3(1):1·数字对象标识代码:10.1145/1497577.1497580 [6] Cerf L,Besson J,Nguyen KNT,Boulicaut JF(2013)n元关系中的封闭和噪声容忍模式。数据最小知识发现26(3):574-619·Zbl 1267.68176号 ·doi:10.1007/s10618-012-0284-8 [7] Chi EC,Kolda TG(2012)关于张量、稀疏性和非负因子分解。SIAM J矩阵分析应用33(4):1272-1299·兹比尔1262.15029 ·数字对象标识代码:10.1137/10859063 [8] Dagum L,Menon R(1998)OpenMP:共享内存编程的行业标准API。IEEE计算科学与工程杂志5(1):46-55·数字对象标识代码:10.1109/99.660313 [9] Erdős D,Miettinen P(2013a)通过布尔张量-塔克分解发现事实。第22届ACM信息与知识管理国际会议(CIKM’13),第1569-1572页 [10] Erdõs D,Miettinen P(2013b)Walk'n'Merge:布尔张量分解的一种可扩展算法。摘自:第13届IEEE数据挖掘国际会议(ICDM’13),第1037-1042页 [11] Harshman RA(1970)PARAFAC程序的基础:“解释性”多模态因子分析的模型和条件。技术代表16,加州大学洛杉矶分校语音学工作论文 [12] Huang H,Ding C,Luo D,Li T(2008)同步张量子空间选择和聚类:高阶SVD和k-means聚类的等价性。摘自:第14届ACM SIGKDD国际知识发现和数据挖掘会议(KDD’08),第327-335页 [13] Ignatov DI、Kuznetsov SO、Magizov RA、Zhukov LE(2011)《从三概念到三星系团》。In:第13届粗糙集、模糊集、数据挖掘和粒度计算国际会议(RSFDGrC’11),第257-264页 [14] Jegelka S,Sra S,Banerjee A(2009)张量聚类的近似算法。在:国际算法学习理论会议(ALT’09),第368-383页·Zbl 1262.68151号 [15] Jiang P(2014)高维离散数据的模式提取和聚类。伊利诺伊大学香槟分校博士论文 [16] Kim M,Candan KS(2011)张量-关系代数框架内的近似张量分解。摘自:第20届ACM国际信息与知识管理会议(CIKM’11),第1737-1742页 [17] Kim M,Candan KS(2012)分解-按归一化(DBN):利用近似函数依赖进行有效张量分解。摘自:第21届ACM信息与知识管理国际会议(CIKM’12),第355-364页 [18] Kim M,Candan KS(2014)在并集上下推张量分解,以促进物化分解的重用。摘自:欧洲数据库机器学习和知识发现会议(ECML PKDD’14),第688-704页 [19] Kleinberg J,Papadimitriou C,Raghavan P(1998)数据挖掘的微观经济学观点。数据最小知识发现2(4):311-324·doi:10.1023/A:1009726428407 [20] Kleinberg JM,Papadimitriou CH,Raghavan P(2004)分割问题。美国医学会杂志51(2):263-280·Zbl 1317.90329号 ·数字对象标识代码:10.1145/972639.972644 [21] Kolda TG,Bader BW(2009)张量分解和应用。SIAM版本51(3):455-500·Zbl 1173.65029号 ·doi:10.1137/07070111X [22] Leenen I、Van Mechelen I、De Boeck P、Rosenberg S(1999)《INDCLAS:三向分层阶级模型》。心理测量学64(1):9-24·Zbl 1365.62456号 ·doi:10.1007/BF02294316 [23] Liu X,De Lathauwer L,Janssens F,De Moor B(2010)通过HOSVD对多个信息源进行混合聚类。摘自:第七届神经网络进展国际会议第二部分(ISNN’10),第337-345页 [24] Miettinen P(2009)《数据挖掘的矩阵分解方法:计算复杂性和算法》。赫尔辛基大学计算机科学系博士论文 [25] Miettinen P(2010)稀疏布尔矩阵分解。摘自:第十届IEEE数据挖掘国际会议(ICDM’10),第935-940页 [26] Miettinen P(2011)布尔张量因式分解。摘自:第11届IEEE数据挖掘国际会议(ICDM’11),第447-456页 [27] Miettinen P,Vreeken J(2014)MDL4BMF:布尔矩阵因式分解的最小描述长度。ACM事务处理知识发现数据8(4):18·数字对象标识代码:10.1145/2601437 [28] Miettinen P,Mielikäinen T,Gionis A,Das G,Mannila H(2008)离散基问题。IEEE Trans Knowl Data Eng 20(10):1348-1362·doi:10.1109/TKDE.2008.53 [29] Papadimitriou CH,Steiglitz K(1998)组合优化:算法和复杂性。多佛出版公司,米诺拉·Zbl 0944.90066号 [30] Papalexakis EE,Faloutsos C,Sidiropoulos ND(2012)ParCube:稀疏可并行张量分解。在:欧洲数据库中的机器学习和知识发现会议(ECML PKDD’12),第521-536页 [31] Papalexakis EE,Sidiropoulos N,Bro R(2013)《从K-means到更高方向的联合聚类:具有稀疏潜在因子的多线性分解》。IEEE传输信号处理61(2):493-506·doi:10.1109/TSP.2012.225052 [32] Rissanen J(1978)《最短数据描述建模》。自动化14(5):465-471·Zbl 0418.93079号 ·doi:10.1016/0005-1098(78)90005-5 [33] Seppänen JK(2005)一类超立方体分割算法的近似比的上界。通知流程Lett 93(3):139-141·Zbl 1173.68870号 ·doi:10.1016/j.ipl.2004.10.006 [34] Suchanek FM,Kasneci G,Weikum G(2007)Yago:语义知识的核心。In:第16届万维网国际会议(WWW’07),第697-706页 [35] Tucker LR(1966)关于三模式因子分析的一些数学注释。《心理测量学》31(3):279-311·doi:10.1007/BF02289464 [36] Viswanath B、Mislove A、Cha M、Gummadi KP(2009)《关于脸书中用户交互的演变》。In:第二届ACM在线社交网络研讨会(WOSN'09),第37-42页 [37] Yates A,Etzioni O(2009)确定网络上对象和关系同义词的非监督方法。《艺术情报研究杂志》34:255-296·Zbl 1182.68189号 [38] Zhao L,Zaki MJ(2005)TRICLUSTER:挖掘3D微阵列数据中相干簇的有效算法。摘自:ACM SIGMOD国际数据管理会议(SIGMOD'05),第694-705页 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。