×

三元形式概念分析和三元聚类:搜索最佳模式。 (英语) Zbl 1343.68196号

摘要:本文给出了三元数据中“最优模式”的几种定义,以及五种三元聚类算法在真实数据集和合成数据集上的实验比较结果。评估的标准包括资源效率、噪声容限和质量分数,包括模式的基数、密度、覆盖率和多样性。理想的三分体图案是一个完全致密的最大长方体(形式上的三分面体)。正在考虑的这个概念的放宽是:OAC-三簇;三聚类在最小二乘准则下最优;我们证明了搜索最优的三簇覆盖是一个NP完全问题,而确定此类覆盖的数量是完全的。我们进行了大量的计算实验,根据提出的标准,在帕累托最优原则的指导下,我们得出了在给定数据集上选择解决方案的明确策略。

MSC公司:

68T05型 人工智能中的学习和自适应系统
2017年第68季度 问题的计算难度(下限、完备性、近似难度等)
68立方英尺 知识表示
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Asses,Y.、Buzmakov,A.、Bourquard,T.、Kuznetsov,S.O.和Napoli,A.(2012)。基于FCA和新兴模式的混合分类方法——生物抑制剂分类的应用。第九届概念格及其应用国际会议论文集,第211-222页。
[2] Banerjee,A.、Dhillon,I.S.、Ghosh,J.、Merugu,S.和Modha,D.S.(2007年)。Bregman共聚类和矩阵近似的广义最大熵方法。机器学习研究杂志,81919-1986·Zbl 1222.68139号
[3] Barkow,S.、Bleuler,S.,Prelic,A.、Zimmermann,P.和Zitzler,E.(2006年)。BicAT:双聚类分析工具箱。生物信息学,22(10),1282-1283·doi:10.1093/bioinformatics/btl099
[4] Belohlávek,R.和Vychodil,V.(2010年)。通过一种新的矩阵分解方法发现二进制数据中的最佳因子。《计算机与系统科学杂志》,76(1),3-20·Zbl 1180.15026号 ·doi:10.1016/j.jcss.2009.05.002
[5] Belohlávek,R.、Baets,B.D.、Outrata,J.和Vychodil,V.(2009)。通过概念格归纳决策树。《国际通用系统杂志》,38(4),455-467·Zbl 1183.68462号 ·doi:10.1080/03081070902857563
[6] Belohlávek,R.、Glodeanu,C.和Vychodil,V.(2013)。使用三元概念对三元二进制数据进行最优分解。订单,30(2),437-454·Zbl 1266.68168号 ·doi:10.1007/s11083-012-9254-4
[7] Belohlávek,R.、Outrata,J.和Trnecka,M.(2014)。布尔因子分解作为布尔数据分类预处理方法的影响。数学与人工智能年鉴,72(1-2),3-22·兹比尔1305.15036 ·doi:10.1007/s10472-014-9414-x
[8] Benz,D.、Hotho,A.、Jäschke,R.、Krause,B.、Mitzlaff,F.、Schmitz,C.等人(2010年)。社交书签和出版物管理系统Bibsonomy-一个用于评估和演示web 2.0研究的平台。VLDB期刊,19(6),849-875·doi:10.1007/s00778-010-0208-4
[9] Besson,J.、Robardet,C.、Boulicaut,J.F.和Rome,S.(2005年)。基于约束的概念挖掘及其在微阵列数据分析中的应用。智能数据分析,9(1),59-82。
[10] Biedermann,K.,《Powerset三位一体》,第1453209-221号(1998年),柏林·Zbl 0912.06008号 ·doi:10.1007/BFb0054916
[11] Blinova,V.G.、Dobrynin,D.A.、Finn,V.K.、Kuznetsov,S.O.和Pankratova,E.S.(2003)。采用JSM方法进行毒理学分析。生物信息学,19(10),1201-1207·doi:10.1093/bioinformatics/btg096
[12] Buzmakov,A.、Egho,E.、Jay,N.、Kuznetsov,S.O.、Napoli,A.和Raíssi,C.(2013)。序列模式结构的投影(应用于护理轨迹)。摘自:第十届概念格及其应用国际会议论文集,第199-208页。
[13] 卡皮内托。C.和Romano,G.(1993年)。Galois:概念聚类的一种有序理论方法。摘自:《ICML93论文集》,Amherst,(第33-40页)·Zbl 1024.68020号
[14] Carpineto,C.和Romano,G.(1996年)。一个格概念聚类系统及其在浏览检索中的应用。机器学习,2495-122。
[15] Carpineto,C.和Romano,G.(2005年)。概念数据分析理论和应用。纽约:Wiley·Zbl 1152.68624号
[16] Carpineto,C.、Michini,C.和Nicolussi,R.(2009年)。一种基于概念格的SVM文本分类核。收录于:ICFCA 2009,(第LNAI 5548卷,第237-250页)。柏林:斯普林格。
[17] Cerf,L.、Besson,J.、Robardet,C.和Boulicaut,J.F.(2009年)。闭合模式满足n元关系。ACM数据知识发现汇刊,3,3:1-3:36·数字对象标识代码:10.1145/1497577.1497580
[18] Cerf,L.、Besson,J.、Nguyen,K.N.和Boulicaut,J.F.(2013)。n元关系中的封闭和容错模式。数据挖掘和知识发现,26(3),574-619·Zbl 1267.68176号 ·doi:10.1007/s10618-012-0284-8
[19] Cimiano,P.、Hotho,A.和Staab,S.(2005年)。使用形式化概念分析从文本语料库中学习概念层次。《人工智能研究杂志》,24,305-339·兹比尔1080.68700
[20] Dhillon,I.S.(2001)。使用二部谱图划分对文档和单词进行共聚类。摘自:第七届ACM SIGKDD知识发现和数据挖掘国际会议论文集,ACM,KDD’01,第269-274页。
[21] DiMaggio,P.A.、Subramani,A.、Judson,R.S.和Floudas,C.A.(2010年)。使用稠密和稀疏矩阵重排序和逻辑回归的优化方法,从体外数据预测体内毒性的新框架。毒理学,118(1),251-265·doi:10.1093/toxsci/kfq233
[22] du Boucher-Ryan,P.,&Bridge,D.G.(2006)。使用正式概念分析进行协作推荐。基于知识的系统,19(5),309-315·doi:10.1016/j.knosys.2005.11.017
[23] Duquenne,V.(1996)。格分析和障碍关联的表示。社交网络,18(3),217-230·doi:10.1016/0378-8733(95)00274-X
[24] Eklund,P.、Ducrou,J.和Dau,F.(2012年)。使用形式概念分析的信息检索中的概念相似度和相关类别。《国际通用系统杂志》,41(8),826-846·doi:10.1080/03081079.2012.707451
[25] Eren,K.、Deveci,M.、Kucuktunc,O.和Catalysturek,U.V.(2013年)。基因表达数据双聚类算法的比较分析。生物信息学简报,14(3),279-292。
[26] Fiedler,M.(1973)。图的代数连通性。捷克斯洛伐克数学杂志,23(98),298-305·Zbl 0265.05119号
[27] Freeman,L.C.(1996)。派系、伽罗瓦格和人类社会群体的结构。社交网络,18,173-187·doi:10.1016/0378-8733(95)00271-5
[28] Fu,H.,Fu,H,Njiwoua,P.,&Nguifo,E.M.(2004)。基于FCA的监督分类算法的比较研究。载:《第二届形式概念分析国际会议论文集》,ICFCA 2004,澳大利亚悉尼,2004年2月23日至26日,第313-320页·Zbl 1294.68073号
[29] Ganter,B.(1987)。形式上的算法开始分析。收录于:甘特B、威勒R、沃尔夫KE(eds)Beiträge zur Begriffsanalysis,B.I.Wissenschaftsverlag,曼海姆,第241-254页。
[30] Ganter,B.和Kuznetsov,S.O.(2003)。假设和版本空间。收录于:A.de Moor、W.Lex和B.Ganter(编辑),ICCS,计算机科学课堂讲稿,第2746卷,第83-95页。柏林:斯普林格·Zbl 1274.68311号
[31] Ganter,B.和Wille,R.(1999)。形式概念分析:数学基础(第1版)。新泽西州塞考克斯:斯普林格·Zbl 0909.06001号 ·doi:10.1007/978-3-642-59830-2
[32] Gao,B.、Liu,T.Y.、Zheng,X.、Cheng,Q.S.和Ma,W.Y.(2005)。星型结构高阶异构数据联合聚类的一致二部图联合划分。摘自:第十一届ACM SIGKDD数据挖掘知识发现国际会议论文集,ACM,纽约州纽约市,KDD’05,第41-50页·1080.68700兹罗提
[33] Garey,M.R.和Johnson,D.S.(1979年)。计算机与难处理性:NP-完备性理论指南。纽约:W.H.Freeman·Zbl 0411.68039号
[34] Georgii,E.、Tsuda,K.和Schölkopf,B.(2011年)。权重张量中的多路集合枚举。机器学习,82(2),123-155·Zbl 1237.68144号 ·doi:10.1007/s10994-010-5210-y
[35] Gnatyshak,D.、Ignatov,D.I.、Semenov,A.和Poelmans,J.(2012)。通过双聚类和三聚类深入了解社交网络。收录于:BIR,Springer,《商业信息处理讲义》,第128卷,第162-171页。
[36] Gnatyshak,D.、Ignatov,D.I.和Kuznetsov,S.O.(2013)。从三分FCA到三分聚类:一些三分聚类算法的实验比较。《第十届概念格及其应用国际会议论文集》,法国拉罗谢尔,2013年10月15-18日,第249-260页·Zbl 1024.68020号
[37] Golub,G.和van Loan,C.(1989年)。矩阵计算。巴尔的摩:约翰·霍普金斯大学出版社·Zbl 0733.65016号
[38] Hanczar,B.和Nadif,M.(2010年)。双聚类打包:应用于微阵列数据。收录于:《数据库中的机器学习和知识发现》,LNCS,第6321卷,第490-505页。柏林:斯普林格·Zbl 1302.68253号
[39] Ignatov,D.I.和Kuznetsov,S.O.(2008)。基于概念的互联网广告推荐。Belohlavek,R.,Kuznetsov,S.O.(编辑),《第六届国际会议概念格及其应用会议记录》(CLA'08),(第157-166页)。奥洛穆克:帕拉基大学。
[40] Ignatov,D.I.和Kuznetsov,S.O.(2009年)。在重复web文档附近进行聚类的频繁项集挖掘。Rudolph,S.、Dau,F.、Kuznetsov,S.O.(编辑),ICCS,计算机科学课堂讲稿,第5662卷,第185-200页。柏林:斯普林格。
[41] Ignatov,D.I.、Kuznetsov,S.O.、Magizov,R.A.和Zhukov,L.E.(2011)。从三概念到三簇。《粗糙集、模糊集、数据挖掘和粒度计算》,LNCS,第6743卷,第257-264页。柏林:斯普林格。
[42] Ignatov,D.I.、Kuznetsov,S.O.和Poelmans,J.(2012)。基于概念的网络广告双聚类。摘自:IEEE计算机学会ICDM研讨会,第123-130页。
[43] Ignatov,D.I.、Kuznetsov,S.O.、Poelmans,J.和Zhukov,L.E.(2013)。三概念能成为三簇吗?《国际通用系统杂志》,42(6),572-593·Zbl 1298.68237号 ·doi:10.1080/03081079.2013.798899
[44] Ignatov,D.I.、Nenova,E.、Konstantinova,N.和Konstantinov,A.V.(2014)。用于协同过滤的布尔矩阵分解:基于FCA的方法。《人工智能:方法、系统和应用》,LNCS,第8722卷,第47-58页。柏林:斯普林格。
[45] Jäschke,R.、Hotho,A.、Schmitz,C.、Ganter,B.和Stumme,G.(2006年)。TRIAS是一种挖掘冰山三参数的算法。第六届数据挖掘国际会议论文集,IEEE计算机学会,华盛顿特区,ICDM’06,第907-911页·Zbl 0265.05119号
[46] Ji,L.,Tan,K.L.,&Tung,A.K.H.(2006)。挖掘三维数据集中的频繁闭立方体。第32届超大数据库国际会议论文集,2006年VLDB,第811-822页·Zbl 1298.68237号
[47] Kaytoue,M.、Kuznetsov,S.O.、Napoli,A.和Duplessis,S.(2011年)。在形式概念分析中使用模式结构挖掘基因表达数据。信息科学,181(10),1989-2001·doi:10.1016/j.ins.2010.07.007
[48] Kaytoue,M.、Kuznetsov,S.O.、Macko,J.和Napoli,A.(2014)。双聚类满足三元概念分析。数学与人工智能年鉴,70(1-2),55-79·Zbl 1302.68253号 ·doi:10.1007/s10472-013-9379-1
[49] Koester,B.(2006年)。使用FooCA进行概念知识检索:使用上下文和概念层次结构改进web搜索引擎结果。《第六届数据挖掘工业会议论文集》,ICDM 2006,第176-190页。
[50] Krolak-Schwerdt,S。;奥利克,P。;Ganter,B.,Tripat:分析三模二进制数据的模型,298-307(1994),柏林·Zbl 0817.62050号
[51] 库兹涅佐夫,S.(2004)。机器学习和形式化概念分析。在概念格中,LNCS,第2961卷,第287-312页。柏林:斯普林格·Zbl 1198.68194号
[52] Kuznetsov,S.和Samokhin,M.(2005)。学习用于化学应用的标记图的闭集。在ILP 2005中,LNCS(LNAI),第3625卷,第190-208页。柏林:斯普林格·Zbl 1134.68476号
[53] Kuznetsov,S.O.和Obiedkov,S.A.(2002年)。比较生成概念格的算法的性能。《实验与理论人工智能杂志》,14(2-3),189-216·Zbl 1024.68020号 ·doi:10.1080/09528130210164170
[54] Latapy,M.、Magnien,C.和Vecchio,N.D.(2008年)。大型双模网络分析的基本概念。社交网络,30(1),31-48·doi:10.1016/j.socnet.2007.04.006
[55] Lehmann,F.和Wille,R.(1995)。形式概念分析的三元方法。《第三届概念结构国际会议论文集:应用实现和理论》(第32-43页)。伦敦:斯普林格。
[56] Li,A.和Tuck,D.(2009年)。一种结合表达数据和基因调控信息的有效三聚类算法。基因调控与系统生物学,349-64。
[57] Liu,K.,Fang,B.,&Zhang,W.(2010)。民间分类法中的无监督标记意义消歧。计算机杂志,5(11),1715-1722。
[58] Madeira,S.C.和Oliveira,A.L.(2004)。生物数据分析的双聚类算法:综述。IEEE/ACM计算生物学和生物信息学汇刊,1(1),24-45·doi:10.1109/TCBB.2004.2
[59] Meulders,M.、DeBoeck,P.、Kuppens,P.和Van Mechelen,I.(2002年)。三元三模数据的约束潜在类分析。分类杂志,19(2),277·Zbl 1020.62114号 ·doi:10.1007/s00357-001-0046-6
[60] Miettinen,P.(2011)。布尔张量因式分解。在Cook,D.、Pei,J.、Wang,W.、Zaïane,O.和Wu,X.(编辑),2011年国际数据挖掘大会,第11届IEEE数据挖掘国际会议,IEEE计算机学会(第447-456页)。温哥华:CPS·Zbl 0265.05119号
[61] Mirkin,B.(1996年)。数学分类和聚类。多德雷赫特:克鲁沃·Zbl 0874.90198号 ·doi:10.1007/978-1-4613-0457-9
[62] Mirkin,B.G.和Kramarenko,A.V.(2011年)。二进制数据分析中的近似双聚类和三聚类框。《粗糙集、模糊集、数据挖掘和粒度计算》,LNCS,第6743卷,(第248-256页)。柏林:斯普林格。
[63] Nanopoulos,A.、Gabriel,H.H.和Spiliopoulou,M.(2009年)。社会标签系统中的谱聚类。Vossen,G.,Long,D.D.E.,Yu,J.X.(编辑),WISE,Springer,计算机科学课堂讲稿,第5802卷,(第87-100页)。
[64] Nanopoulos,A.、Rafailidis,D.、Symeonidis,P.和Manolopoulos,Y.(2010年)。Musicbox:基于社交标签的立方分析的个性化音乐推荐。IEEE音频、语音和语言处理汇刊,18(2),407-412·doi:10.1109/TASL.2009.2033973
[65] Outrata,J.(2010)。机器学习中数据预处理的布尔因子分析。第九届机器学习和应用国际会议,2010年12月12日至14日,ICMLA(第899-902页)。华盛顿特区。
[66] Pasquier,N.、Bastide,Y.、Taouil,R.和Lakhal,L.(1999)。使用闭项集格高效挖掘关联规则。信息系统,24(1),25-46·Zbl 0983.68511号 ·doi:10.1016/S0306-4379(99)00003-4
[67] Poelmans,J.、Ignatov,D.I.、Viaene,S.、Dedene,G.、Kuznetsov,S.O.(2012)。文本挖掘科技论文:基于FCA的信息检索研究综述。在Perner,P.(Ed.),ICDM,计算机科学课堂讲稿,第7377卷(第273-287页)。柏林:斯普林格·Zbl 1267.68176号
[68] Poelmans,J.、Ignatov,D.I.、Kuznetsov,S.O.和Dedene,G.(2013a)。知识处理中的形式概念分析:应用调查。应用专家系统,40(16),6538-6560·doi:10.1016/j.eswa.2013.05.009
[69] Poelmans,J.、Kuznetsov,S.O.、Ignatov,D.I.和Dedene,G.(2013b)。知识处理中的形式概念分析:模型和技术综述。应用专家系统,40(16),6601-6623·doi:10.1016/j.eswa.2013.05.007
[70] Roth,C.、Obiedkov,S.A.和Kourie,D.G.(2008)。用形式概念分析简洁地表示知识社区分类法。国际计算机科学基础杂志,19(2),383-404·Zbl 1156.68588号 ·doi:10.1142/S0129054108005735
[71] Rudolph,S.(2007年)。使用FCA将闭包算子编码为神经网络。第15届概念结构国际会议论文集,2007年7月22日至27日,ICCS 2007(第321-332页)。谢菲尔德·Zbl 1213.68608号
[72] Shi,J.和Malik,J.(2000)。标准化切割和图像分割。IEEE模式分析和机器智能汇刊,22(8),888-905·数字对象标识代码:10.1109/34.868688
[73] Spyropoulou,E.、De Bie,T.和Boley,M.(2014)。多关系数据中有趣的模式挖掘。数据挖掘与知识发现,28(3),808-849·Zbl 1294.68073号 ·doi:10.1007/s10618-013-0319-9
[74] Symeonidis,P.、Nanopulos,A.、Papadopoulos,A.N.和Manolopoulos,Y.(2008)。基于常量和相干值的最近邻聚类协作过滤。信息检索,11(1),51-75·doi:10.1007/s10791-007-9038-4
[75] Tarca,A.L.,Carey,V.J.,wen Chen,X.,Romero,R.,&Drhici,S.(2007)。机器学习及其在生物学中的应用。《公共科学图书馆计算生物学》,3(6),e116·doi:10.1371/journal.pcbi.0030116
[76] Tsopzé,N.、Nguifo,E.M.和Tindo,G.(2007年)。CLANN:用于监督分类的基于概念格的人工神经网络。第五届概念格及其应用国际会议论文集,CLA 2007。
[77] Tsymbal,A.、Pechenizkiy,M.和Cunningham,P.(2005)。集成特征选择搜索策略的多样性。信息融合,6(1),83-98·doi:10.1016/j.inffus.2004.04.003
[78] Valiant,L.G.(1979年)。枚举和可靠性问题的复杂性。SIAM计算机杂志,8(3),410-421·Zbl 0419.68082号 ·数字对象标识代码:10.1137/0208032
[79] Vander Wal,T.(2007)。通俗的铸币和定义。http://vanderwal.net/folksonomy.html。2012年3月12日访问·兹比尔1266.68168
[80] Visani,M.、Bertet,K.和Ogier,J.(2011年)。Navigala:基于Galois晶格导航的原始符号分类器。伊兹普里,25(4),449-473。
[81] Voutsadakis,G.(2002年)。多元概念分析。订单,19(3),295-304·Zbl 1013.06006号 ·doi:10.1023/A:1021252203599
[82] Wille,R.(1995)。三元概念分析的基本定理。订单,12149-158·Zbl 0835.06005号 ·doi:10.1007/BF01108624
[83] Zaki,M.J.(2001)。Spade:挖掘频繁序列的有效算法。机器学习,42,31-60·Zbl 0970.68052号 ·doi:10.1023/A:1007652502315
[84] Zaki,M.J.和Aggarwal,C.C.(2006年)。Xrules:一种有效的XML数据结构分类算法。机器学习,62(1-2),137-170·Zbl 1470.68207号 ·doi:10.1007/s10994-006-5832-2
[85] Zaki,M.J.和Xiao,C.(2005)。挖掘闭项集及其格结构的有效算法。IEEE知识与数据工程汇刊,17(4),462-478·doi:10.1109/TKDE.2005.60
[86] Zhao,L.和Zaki,M.J.(2005)。Tricluster:在3D微阵列数据中挖掘相干簇的有效算法。在奥兹坎,F.(编辑),SIGMOD会议,(第694-705页)。纽约:ACM。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。