计算机科学››2024,第51卷››问题(5): 70-84.数字对象标识:10.11896/jsjkx.230300003

•数据库、大数据和数据科学• 以前的文章   下一篇文章

多样化上衣-k个大型图的模式挖掘

何媛、王欣、沈玲珍  

  1. 西南石油大学计算机学院,中国成都610500
  • 收到:2023-02-28 修订过的:2023-06-21 在线:2024-05-15 出版:2024-05-08
  • 关于作者:何渊,1996年生,研究生。他的主要研究兴趣包括数据挖掘和机器学习。
    王欣,1981年生,博士,教授,博士生导师,CCF成员(编号D0922M)。他的主要研究兴趣包括数据库中的知识发现、人工智能、机器学习和数据挖掘。
  • 支持单位:
    四川省科技创新人才基金(2022JDRC0009)。

摘要:频繁模式挖掘是图挖掘中最重要的问题之一。FPM问题定义为挖掘所有模式,在一个大图形中频率高于用户定义的阈值。近年来,随着社交网络等的普及,基于单字符的FPM受到了越来越多的关注。研究人员已经开发了相当多的技术,但大多数技术都存在计算成本高、结果检查不方便和并行计算不方便等问题。为了解决这些问题,本文提出了一种发现多元化顶层的方法-k个单个大图形的模式。本文首先设计了一个多样化函数来测量模式的多样性,然后开发了一个具有早期终止特性的分布式算法DisTopk,以有效地识别多样化的顶部-k个模式,来自分布式存储图。对真实图形和合成图形进行的实验结果表明,DisTopk可以挖掘多种顶部-k个模式比传统算法更有效。

关键词: 频繁模式挖掘, 顶部-k个模式, 结果多样化, 分布式开采, 提前终止

CLC编号:

  • TP311型
[1] HUAN J,WANG W,PRINS J,et al.SPIN:从图数据库中挖掘最大频繁子图[C]//第十届ACM SIGKDD知识发现与数据挖掘国际会议论文集。纽约:ACM,2004:581-586。
[2] YAN X F,HAN J W.CloseGraph:挖掘闭合频繁图模式[C]//第九届ACM SIGKDD知识发现和数据挖掘国际会议论文集。纽约:ACM,2003:286-295。
[3] ZHU F,QU Q,LO D,et al.在大规模网络中挖掘top-k大型结构模式[J]。VLDB捐赠会议记录,2020,4(11):807-818。
[4] KURAMOCHI M,KARYPIS G.在大型稀疏图中寻找频繁模式[J]。数据挖掘与知识发现,2005,11(3):243-271。
[5] ELSEIDY M,ABDELHAMID E,SKIADOPOULOS S,等.GraMi:单个大型图中的频繁子图和模式挖掘[J]。VLDB捐赠会议记录,2014,7(7):517-528。
[6] ASHRAF N,HAQUE R R,ISLAM M等。WeFreS:单个大型图中的加权频繁子图挖掘[C]//第19届数据挖掘工业会议。伊拜出版社,2019:201-215。
[7] LEN T,VO B,NGUYEN L B Q等。在单个大型图中挖掘加权子图[J]。信息科学,2020514(C):149-165。
[8] 李磊,丁鹏,陈华,等.大型社交图中的频繁模式挖掘[J]。IEEE计算智能新兴主题汇刊,2021,6(3):638-648。
[9] 波格瓦德·K·M、克里格尔·H·P、威克思鲁特。频繁动态子图中的模式挖掘[C]//第六届数据挖掘国际会议。皮斯卡塔韦:IEEE,2006:818-822。
[10] WACKERSREUTHER B,WACKERFREUTHER P,OSWALD A,et al.动态网络中的频繁子图发现[C]//第八届图形挖掘与学习研讨会论文集。纽约:ACM,2010:155-162。
[11] ABDELHAMID E,CANIM M,SADOGHI M,等.大型演化图的增量频繁子图挖掘[J]。IEEE知识与数据工程汇刊,2017,29(12):2710-2723。
[12] DEAN J,GHEMAWAT S.MapReduce:大型集群上的简化数据处理[J]。ACM通讯,2008,51(1):107-113。
[13] MALEWICZ G,AUSTERN M H,BIK A J C,et al.Pregel:大规模图形处理系统[C]//2010 ACM SIGMOD国际数据管理会议论文集。纽约:ACM,2010:135-146。
[14] GONZALEZ J E,XIN R S,DAVE A,et al.Graphx:分布式数据流框架中的图形处理[C]//第十一届USENIX操作系统设计与实现研讨会。伯克利:USENIX,2014:599-613。
[15] 朱X,陈伟,郑伟,等.双子座:以计算为中心的分布式图形处理系统[C]//USENIX第十二届操作系统设计与实现研讨会。伯克利:USENIX,2016:301-316。
[16] TEIXEIRA C H C,FONSECA A J,SERAFINI M,et al.Arabesque:分布式图挖掘系统[C]//第25届操作系统原理研讨会论文集。纽约:ACM,2015:425-440。
[17] DIAS V,TEIXEIRA C H C,GUEDES D,等.分形:通用图形模式挖掘系统[C]//2019年国际数据管理会议论文集。纽约:ACM,2019:1357-1374。
[18] ABDELHAMID E,ABDELAZIZ I,KALNIS P,et al.Scalemine:单个大图中的可伸缩并行频繁子图挖掘[C]//高性能计算、网络、存储和分析国际会议论文集。美国:IEEE,2016:716-727。
[19] TALUKDER N,ZAKI M J.大规模网络中图形挖掘的分布式方法[J]。数据挖掘与知识发现,2016,30(5):1024-1052。
[20] CHEN H,LIU M,ZHAO Y,et al.G-miner:一个高效的面向任务的图形挖掘系统[C]//第十三届欧洲系统会议论文集。纽约:ACM,2018:1-12。
[21]闫德,QU W,郭刚,等.前缀FPM:一种通用的频繁模式和闭合模式挖掘的并行框架[J]。VLDB期刊,2022,31(2):253-286。
[22]CHEN J,QIAN X.Khuzdul:高效可扩展分布式图形模式挖掘引擎[C]//第28届ACM编程语言和操作系统体系结构支持国际会议论文集,第2卷。纽约:ACM,2023:413-426。
[23]PRATEEK A,KHAN A,GOYAL A,等.大型网络中关联子图的top-k对挖掘[J]。VLDB捐赠会议记录,2020,13(9):1511-1524。
[24]王X,LAN Z,HE Y A,等.挖掘近最优top-k模式的一种经济高效的方法[J]。专家系统与应用,2022202:117262。
[25]NATARAJAN D,RANU S.Resling:一个可扩展的通用框架,用于挖掘前k个代表性子图模式[J]。知识与信息系统,2018,54(1):123-149。
[26]DAWASHI R.ITUFP:一种从不确定数据中交互式挖掘Top-K频繁模式的快速方法[J]。专家系统与应用,2023214:119156。
[27]曾杰,阎X,韩M,等.基于核的知识图top-k频繁模式快速发现[C]//2021 IEEE第37届国际数据工程会议(ICDE)。IEEE,2021:936-947。
[28]王X,向M,ZHAN H,等.分布式Top-k模式挖掘[C]//亚太网(APWeb)和网页信息管理(WAIM)网络与大数据联合国际会议。查姆施普林格,2021:203-220。
[29]SEMERTZIDIS K,PITOURA E.托普-k个时态图上的持久图模式查询[J]。IEEE知识与数据工程汇刊,2018年,31(1):181-194。
[30]GOLLAPUDI S,SHARMA A.结果多样化的公理方法[C]//第18届万维网国际会议论文集。纽约:ACM,2009:381-390。
[31]VIEIRA M R,RAZENTE H L,BARIONI M C N,et al.Divdb:查询结果多样化系统[J]。VLDB捐赠会议记录,2011年4月(12):1395-1398。
[32]王X,DOU Z,SAKAI T,et al.使用意图层次结构评估搜索结果多样性[C]//第39届国际ACM SIGIR信息检索研究与开发会议论文集。纽约:ACM,2016:415-424。
[33]胡斌,张毅,陈伟,等.第20届万维网国际会议论文集.搜索意图多样性在点击模型中的表征[C]//。纽约:ACM,2011:17-26。
[34]WELCH M J,CHO J,OLSTON C.信息查询的搜索结果多样性[C]//第20届万维网国际会议论文集。纽约:ACM,2011:237-246。
[35]YU C,LAKSHMANAN L,AMER-YAHIA S。创造世界需要多样化:推荐系统的多样化[C]//第十二届扩展数据库技术国际会议论文集:数据库技术的进步。纽约:ACM,2009:368-378。
[36]黄X,CHENG H,LI R H,等.大型网络中的Top-k结构多样性搜索[J]。VLDB捐赠会议记录,2013,6(13):1618-1629。
[37]袁力,秦力,林X,等.多元化top-k集团搜索[J]。VLDB杂志,2016年,25:171-196。
[38]YANG Z,FU A W C,LIU R.在大图中的多元top-k子图查询[C]//2016年国际数据管理会议论文集。纽约:ACM,2016:1167-1182。
[39]李杰,蔡T,邓K,等.社会网络中的社区多元化影响最大化[J]。信息系统,2020,92:101522。
[40]CORDELLA L P,FOGGIA P,SANSONE C,et al.匹配大型图的(子)图同构算法[J]。IEEE模式分析和机器智能事务,2004,26(10):1367-1372。
[41]BRINGMANN B,NIJSSEN S.单线图中的频率是多少?[C] //第十二届亚太地区知识发现和数据挖掘进展会议记录。柏林:施普林格出版社,2008:858-863。
[42]FIEDLER M,BORGELT C.单大图中的子图支持[C]//IEEE第七届数据挖掘研讨会国际会议。美国:IEEE,2007:399-404。
[43]GUDES E,SHIMONY S E,VANETIK N。使用不相交路径发现频繁图模式[J]。IEEE知识与数据工程汇刊,2006,18(11):1441-1456。
[44]KARYPIS G,KUMAR V.不规则图的并行多级k路划分方案[C]//1996年ACM/IEEE超级计算会议论文集。美国:IEEE计算机协会,1996年。
[1] 沙玉吉、王欣、何燕晓、钟雪燕、方瑜。带计数量词的频繁模式挖掘与应用[J] ●●●●。计算机科学,2023,50(11A):230100041-12。
[2] 吴成峰,蔡丽,李进,梁宇。基于多源位置数据的居民出行频繁模式挖掘[J] ●●●●。计算机科学,2021,48(7):155-163。
[3] 邓国强,唐敏,梁庄昌。稀疏多项式插值的分治算法[J] ●●●●。计算机科学,2019,46(5):298-303。
[4] 雷东、王涛和马云飞。基于AC算法的比特流频繁模式挖掘[J] ●●●●。计算机科学,2017,44(1):128-133。
[5] 丁健、韩萌和李娟。概念漂移数据流挖掘技术综述[J] ●●●●。计算机科学,2016,43(12):24-29。
[6] .分布式数据流挖掘研究进展[J] ●●●●。计算机科学,2012,39(1):1-8。
[7] 高昂,杨扬,王月薇。挖掘工作流频繁模式的新算法研究[J] ●●●●。计算机科学,2009,36(9):231-233。
[8] 吴健、李兴明。通信网络中报警关联的高效分布式挖掘算法[J] ●●●●。计算机科学,2009,36(11):204-207。
[9] 邓松、王汝川、任训毅。网格服务上GEP的分布式函数挖掘[J] ●●●●。计算机科学,2009,36(11):177-181。
[10] 何海涛,张世玲(燕山大学信息科学与工程学院,秦皇岛066004)。 [J] ●●●●。计算机科学,2008,35(3):200-202。
[11] . [J] ●●●●。计算机科学,2006,33(9):76-80。
已查看
全文


摘要

引用

  共享   
  讨论   
找不到建议阅读的文章!