×

多层次和多维项目集的汇总和可视化。 (英语) Zbl 1457.68230号

摘要:频繁项集(FI)挖掘旨在从事务集合中发现相关模式。在这项工作中,我们重点关注多层次和多维数据,这些数据通过多个特征以不同的详细程度对主题进行了丰富的描述。到目前为止,对金融机构的总结只进行了少量讨论,并具体提到了多层次和多维度的金融机构。在本文中,我们通过提出SUSHI来填补这一空白,SUSHI是一个总结和可视化探索多层次和多维度金融机构的框架。具体而言,SUSHI基于(i)金融机构的相似性函数,该函数考虑了金融机构的外延(基于支持)和内涵(基于特征)性质;(ii)关于支持度和相似性的反单调性的理论结果,这使我们能够提出一种有效的聚类算法来生成层次摘要;以及(iii)总结可视化和探索的两种综合方法:一种是基于图形的方法,强调集群之间的关系;另一种是以树为基础的方法,着重强调每个集群的代表与该集群中其他金融机构之间的关系。根据选择集群代表的三种不同策略,使用真实数据集和合成数据集对SUSHI进行评估,评估总结的有效性、效率和可理解性。总体而言,SUSHI的表现优于以前的方法,是加快金融情报分析的宝贵工具。此外,选择集群代表的三种策略中的一种是最有效的。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
68吨10 模式识别、语音识别
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Afrati,F.N。;Gionis,A。;Mannila,H.,《逼近频繁集集》,Proc。SIGKDD,12-19(2004)
[2] 阿格拉瓦尔,R。;Srikant,R.,《大型数据库中挖掘关联规则的快速算法》,Proc。VLDB,487-499(1994)
[3] Ahmed,M.,《数据摘要:一项调查》,Knowl。信息系统。,58, 2, 249-273 (2019)
[4] Bagaria,V.K。;卡马特,G.M。;Ntranos,V.公司。;张明杰。;Tse,D.,几乎在最近的时间里通过多武器匪徒制造Medoids,AISTATS。AISTATS,《机器学习研究论文集》,84500-509(2018),PMLR
[5] Baralis,E。;卡利略,L。;Cerquitelli,T。;德埃利亚,V。;Garza,P.,支持驱动的广义项集抽取机会主义聚合,Proc。IS,102-107(2010)
[6] Bederson,B.B。;施奈德曼,B。;Wattenberg,M.,有序和量子树图:有效利用二维空间来显示层次结构,ACM Trans。图表。,21, 4, 833-854 (2002)
[7] 波托雷尔,G。;Serrurier,M。;Hurter,C.,用嵌套循环布局和捆绑算法可视化频繁项集,Proc。ISVC,396-405(2013)
[8] Carbonell,J.G。;Goldstein,J.,《MMR的使用,基于多样性的重新排序文档和生成摘要》,Proc。SIGIR,335-336(1998)
[9] V·钱多拉。;Kumar,V.,《总结——将数据压缩为信息表示法》,Knowl。信息系统。,12, 3, 355-378 (2007)
[10] Chon,K。;黄,S。;Kim,M.,Gminer:一种基于GPU的大规模数据频繁项集快速挖掘方法,Inf.Sci。,439-440, 19-38 (2018)
[11] 戴维森,I。;Ravi,S.S.,《在聚合层次聚类中使用实例级约束:理论和实证结果》,Data Min.Knowl。发现。,18, 2, 257-282 (2009)
[12] Day,W.H。;Edelsbrunner,H.,凝聚层次聚类方法的高效算法,J.Classif。,1, 1, 7-24 (1984) ·Zbl 0563.62034号
[13] Djenouri,Y。;Drias,H。;Bendjoudi,A.,使用知识挖掘修剪不相关的关联规则,IJBIDM,9,2,112-144(2014)
[14] Djenouri,Y。;Lin,J.C。;Nørvåg,K。;Ramanpiaro,H.,基于事务分解的高效模式挖掘,ICDE,1646-1649(2019),IEEE
[15] Ellson,J。;甘斯纳,E.R。;Koutsofios,E。;南卡罗来纳州北部。;Woodhull,G.,Graphviz——开源图形绘制工具,graph drawing,483-484(2001)·兹比尔1054.68583
[16] Ertek,G。;Demiriz,A.,关联挖掘结果可视化框架,Proc。ISCIS,593-602(2006)
[17] Francia,M。;Golfarelli,M。;Rizzi,S.,《多级和多维项目集的相似函数》,Proc。SEBD(2018)
[18] 甘斯纳,E.R。;Koutsofios,E。;南卡罗来纳州北部。;Vo,K.,《绘制有向图的技术》,IEEE Trans。柔和。工程师,19,3,214-230(1993)
[19] Golfarelli,M。;Rizzi,S.,《数据仓库设计:现代原理和方法》(2009),麦格劳-希尔出版社
[20] Gunopulos,D。;哈尔登,R。;Mannila,H。;Toivonen,H.,《数据挖掘、超图横向和机器学习》,Proc。SIGACT-SIGMOD-SIGART,209-216(1997)
[21] Han,J。;Cheng,H。;Xin,D。;Yan,X.,《频繁模式挖掘:现状和未来方向》,Data Min.Knowl。发现。,15, 1, 55-86 (2007)
[22] Han,J。;Fu,Y.,在大型数据库中挖掘多级关联规则,IEEE Trans。知识。数据工程,11,5,798-804(1999)
[23] Han,J。;裴,J。;Yin,Y。;Mao,R.,《无候选生成的频繁模式挖掘:频率模式树方法》,Data Min.Knowl。发现。,8, 1, 53-87 (2004)
[24] 霍普拉罗斯,D。;塔里,Z。;Khalil,I.,《网络流量监测数据摘要》,J.Netw。计算。申请。,37, 194-205 (2014)
[25] 金·R。;阿布·阿塔,M。;Xiang,Y。;阮,N.,《有效和高效项目集模式总结:基于回归的方法》,Proc。SIGKDD,399-407(2008)
[26] Keim,D.A.,信息可视化和可视化数据挖掘,IEEE Trans。视觉。计算。图表。,8, 1, 1-8 (2002)
[27] Leung,C.K。;Carmichael,C.L.,FpVAT:支持频繁模式挖掘的可视化分析工具,SIGKDD Explor。,11,2,39-48(2009年)
[28] Lim,S.J.,《关于视觉频繁项集挖掘》,Proc。ICDIM,46-51(2009)
[29] 刘,G。;张,H。;Wong,L.,《寻找代表性模式集的灵活方法》,IEEE Trans。知识。数据工程,26,7,1562-1574(2014)
[30] Luna,J.M。;Fournier-Viger,P。;Ventura,S.,《频繁项集挖掘:25年回顾》,Wiley Interdiscip。版本数据最小知识。发现。,9, 6 (2019)
[31] 哺乳动物,M。;Vreeken,J.,通过聚类属性总结分类数据,data Min.Knowl。发现。,26, 1, 130-173 (2013) ·Zbl 1260.68339号
[32] 纽林,J。;Fleuret,F.,亚二次精确中值算法,AISTATS。AISTATS,《机器学习研究论文集》,54,185-193(2017),PMLR
[33] Nguyen,L.T.T。;Vu、V.V。;Lam,M.T.H.先生。;Duong,T.T.M。;Manh,L.T。;Nguyen,T.T.T。;Vo,B。;Fujita,H.,《挖掘高效用封闭项集的有效方法》,《信息科学》。,495, 78-99 (2019)
[34] 北卡罗来纳州帕斯基尔。;巴斯蒂德,Y。;陶伊,R。;Lakhal,L.,发现关联规则的频繁闭合项集,Proc。ICDT,398-416(1999)
[35] Poernomo,A.K。;Gopalkrishnan,V.,《CP-summary:浏览频繁项集的简明表示法》,Proc。SIGKDD,687-696(2009)
[36] Shneiderman,B.,《树木地图的树木可视化:二维空间填充方法》,ACM Trans。图表。,11, 1, 92-99 (1992) ·Zbl 0791.68166号
[37] Shneiderman,B.,The eyes have it:信息可视化的数据类型分类任务,Proc。视觉语言研讨会,336-343(1996)
[38] Song,W。;Liu,M.,高实用项集挖掘可视化工具,Proc。CSE,244-248(2014年)
[39] Takigawa,I。;Mamitsuka,H.,高效挖掘δ-容差闭频繁子图,Mach。学习。,82, 2, 95-121 (2011) ·兹比尔1237.68168
[40] 瓦纳哈利,M.K。;Patil,N.,一种高效的并行行枚举算法,用于从高维数据集挖掘频繁的海量闭合项集,Inf.Sci。,496, 343-362 (2019)
[41] Wang,J。;Karypis,G.,《关于有效总结分类数据库》,Knowl。信息系统。,9, 1, 19-37 (2006)
[42] Xiang,Y。;金·R。;Fuhry,D。;Dragan,F.F.,《用重叠超矩形总结事务数据库》,Data Min.Knowl。发现。,23, 2, 215-251 (2011) ·Zbl 1235.68068号
[43] Xin,D。;Han,J。;严,X。;Cheng,H.,挖掘压缩频率模式集,Proc。VLDB,709-720(2005)
[44] 严,X。;Cheng,H。;Han,J。;Xin,D.,《总结项目集模式:基于概要的方法》,Proc。SIGKDD,314-323(2005)
[45] Yang,L.,在平行坐标系中修剪和可视化广义关联规则,IEEE Trans。知识。数据工程,17,1,60-70(2005)
[46] Yu,W.,使用空间嵌入网络和关联规则从出租车轨迹数据中发现频繁移动路径,IEEE Trans。智力。运输。系统。,2015年3月20日至86日(2019年)
[47] Zaki,F.A.M。;Zulkurnain,N.F.,RARE:在高维数据中挖掘巨大的闭合项集,Knowl。基于系统。,161, 1-11 (2018)
[48] 张,S。;Z.Jin。;Lu,J.,《频繁项集挖掘的摘要查询》,J.Syst。软质。,83, 3, 405-411 (2010)
[49] 张,X。;邓,Z.,高效用项集的挖掘总结,Knowl。基于系统。,84, 67-77 (2015)
[50] Zihayat,M。;An,A.,《在数据流上挖掘top-k高效用模式》,《信息科学》。,285, 138-161 (2014) ·Zbl 1355.68237号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。