×

具有模式挖掘保证的灵活约束采样。 (英语) Zbl 1411.68097号

摘要:模式采样被认为是解决臭名昭著的模式爆炸的一种潜在方法。不是枚举满足约束的所有模式,而是按给定质量度量的比例对单个模式进行采样。已经提出了几种采样算法,但在(1)可使用的质量度量和约束方面的灵活性,和/或(2)采样精度方面的保证方面,每种算法都有其局限性。因此,我们出席柔韧性是第一个支持广泛质量度量和约束的灵活模式采样器,同时为采样精度提供了强有力的保证。为了实现这一点,我们将模式挖掘视为一个约束满足问题,并基于SAT中采样解决方案的最新进展以及现有的模式挖掘算法。此外,所提出的算法适用于各种模式语言,这使我们能够引入和处理抽样模式集的新任务。我们引入并实证评估了柔韧性:(1)一种通用变体,用于解决众所周知的项集采样任务和新的模式集采样任务,以及这些任务中的广泛表达约束,(2)一种专用变体,利用现有的频繁项集技术实现大幅加速。实验表明Flexics公司准确高效,使其成为基于模式的数据探索的有用工具。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62D05型 抽样理论、抽样调查
68吨10 模式识别、语音识别
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Aggarwal CC,Han J(eds)(2014)频繁模式挖掘。施普林格国际出版公司,纽约·Zbl 1297.68010号
[2] Agrawal R、Mannila H、Srikant R、Toivonen H、Verkamo AI(1996)关联规则的快速发现。收录:Fayyad U、Piatetsky-Shapiro G、Smyth P、Uthurusamy R(eds)《知识发现和数据挖掘进展》。AAAI出版社,门罗公园,第307-328页
[3] Albrecht M,Bard G(2012)《M4RI图书馆》。M4RI团队。https://bitbucket.org/malb/m4ri
[4] Berlingerio M,Pinelli F,Calabrese F(2013)ABACUS:多维网络中基于频繁模式挖掘的社区发现。数据最小知识发现27(3):294-320·Zbl 1281.68173号 ·doi:10.1007/s10618-013-0331-0
[5] Boley M,Grosskreutz H(2009)稠密数据中频繁集数量的近似。知识信息系统21(1):65-89·doi:10.1007/s10115-009-0212-4
[6] Boley M,Gärtner T,Grosskreutz H(2010)计数和无阈值局部模式挖掘的形式概念抽样。摘自:第十届SIAM数据挖掘国际会议记录(SDM’10),第177-188页
[7] Boley M,Lucchese C,Paurat D,Gärtner T(2011)通过有效的两步随机程序直接进行局部模式采样。摘自:第17届ACM SIGKDD知识发现和数据挖掘会议记录(KDD’11),第582-590页
[8] Boley M,Moens S,Gärtner T(2012)使用过去的耦合进行线性空间直接模式采样。摘自:第18届ACM SIGKDD知识发现和数据挖掘会议记录(KDD’12),第69-77页
[9] Boley M、Mampaey M、Kang B、Tokmakov P、Wrobel S(2013)通过内隐偏好和性能学习的一键式挖掘交互局部模式发现。摘自:ACM SIGKDD交互式数据探索和分析研讨会论文集(IDEA’13),第28-36页
[10] Bonchi F、Giannotti F、Lucchese C、Orlando S、Perego R、Trasarti R(2009)探索性模式发现的基于约束的查询系统。信息系统34(1):3-27·doi:10.1016/j.is.2008.02.007
[11] Bouillaguet C,Delaplace C(2016)稀疏高斯消去模\[p\]p:更新。摘自:第18届科学计算中的计算机代数国际研讨会论文集(CASC’16),第101-116页·兹比尔1453.65086
[12] Bringmann B、Nijssen S、Tatti N、Vreeken J、Zimmermann A(2010)《模式挖掘集》。摘自:欧洲机器学习和知识发现原理与实践会议的教程(ECML/PKDD’10)
[13] BuciléC,Gehrke J,Kifer D,White W(2003)Dualminer:带约束项集的双调节算法。数据最小知识发现7(3):241-272·doi:10.1023/A:1024076020895
[14] Calders,T。;里戈蒂,C。;Boulicaut,JF;Boulicaut,JF(编辑);Raedt,L.(编辑);Mannila,H.(编辑),关于频繁集的压缩表示的调查,64-80(2006),柏林·数字对象标识代码:10.1007/116155764
[15] Carvalho DR、Freitas AA和Ebecken N(2005)评估客观规则兴趣度度量与实际人类兴趣之间的相关性。摘自:第九届欧洲数据挖掘和知识发现原则会议记录(PKDD'05),第453-461页
[16] Chakraborty S、Meel KS、Vardi MY(2013)可扩展且几乎统一的SAT证人生成器。摘自:第25届计算机辅助验证国际会议记录(CAV’13),第608-623页
[17] Chakraborty S、Fremont DJ、Meel KS、Vardi MY(2014)SAT的分布感知采样和加权模型计数。摘自:第28届AAAI人工智能会议论文集(AAAI’14),第1722-1730页
[18] Chakraborty S、Fremont DJ、Meel KS、Seshia SA、Vardi MY(2015)《并行可扩展统一SAT见证生成》。摘自:第21届系统构建和分析工具和算法国际会议论文集(TACAS’15),第9035卷,第304-319页
[19] De Raedt L,Zimmermann A(2007)基于约束的模式集挖掘。摘自:第七届SIAM数据挖掘国际会议记录(SDM’07),第237-248页
[20] Dzyuba V,van Leeuwen M(2017)《学习什么重要——采样有趣的模式》。摘自:第21届亚太知识发现和数据挖掘会议记录(PAKDD’17)(新闻稿)
[21] Ermon S、Gomes CP、Sabharwal A、Selman B(2013a)嵌入和项目:使用通用散列进行离散采样。高级神经信息处理系统26:2085-2003
[22] Ermon S、Gomes CP、Sabharwal A、Selman B(2013b)《通过散列和优化缓解维数灾难:离散积分》。摘自:第30届机器学习国际会议(ICML’13)会议记录,第334-342页
[23] Geerts F、Goethals B、Mielikäinen T(2004)《平铺数据库》。摘自:第七届发现科学国际会议记录(DS’04),第278-289页·Zbl 1110.68373号
[24] Giacometi A,Soulet A(2016)频繁模式离群点检测的任意时间算法。国际数据科学杂志2(3):119-130·doi:10.1007/s41060-016-0019-9
[25] Gomes CP,van Hoeve Wj,Sabharwal A,Selman B(2007a)使用广义XOR约束计算CSP解决方案。摘自:第22届AAAI人工智能会议记录(AAAI'07),第204-209页
[26] Gomes CP,Sabharwal A,Selman B(2007b)使用XOR约束对组合空间进行近均匀采样。高级神经信息处理系统19:481-488
[27] Guns T,Nijssen S,De Raedt L(2011)项目集挖掘:约束编程视角。人工智能175(12-13):1951-1983·Zbl 1353.68233号 ·doi:10.1016/j.artint.2011.05.002
[28] Guns T,Nijssen S,De Raedt L\[(2013)k\]k-约束下的模式集挖掘。IEEE Trans Knowl Data Eng 25(2):402-418·doi:10.1010/TKDE.2011.204
[29] Hasan MA,Zaki MJ(2009)图形模式的输出空间采样。程序VLDB Endow 2(1):730-741·doi:10.14778/1687627.1687710
[30] Kemmar A、Ugarte W、Loudni S、Charnois T、Lebbah Y、Boizumault P、Crémilleux B(2014)《利用基于CP的框架挖掘相关序列模式》。摘自:第26届IEEE人工智能工具国际会议论文集(ICTAI’14),第552-559页
[31] Khiari M,Boizumault P,Crémilleux B(2010)用于挖掘n元模式的约束编程。摘自:第16届约束规划原理与实践国际会议论文集(CP'10),第552-567页
[32] Knobbe A,Ho E(2006)模式团队。摘自:第十届欧洲数据挖掘和知识发现原则会议记录(PKDD’06),第577-584页
[33] Lemmerich F,Becker M,Puppe F(2013)基于差异的泛化软件子组发现估计。摘自:《欧洲机器学习与知识发现原理与实践会议论文集》(ECML/PKDD’13),第288-303页
[34] Meel K、Vardi M、Chakraborty S、Fremont D、Seshia S、Fried D、Ivrii A、Malik S(2016)《限制采样和计数:通用散列满足SAT求解》。附:超越NP AAAI研讨会会议记录
[35] Nijssen,S。;Zimmermann,A。;Aggarwal,CC(编辑);Han,J.(编辑),基于约束的模式挖掘,147-163(2014),纽约
[36] Nijssen S,Guns T,De Raedt L(2009)ROC空间中的相关项集挖掘:约束编程方法。摘自:第15届ACM SIGKDD知识发现和数据挖掘会议记录(KDD’09),第647-655页
[37] Paramonov S、van Leeuwen M、Denecker M、De Raedt L(2015)关系查询挖掘的声明性建模练习。In:第25届归纳逻辑编程国际会议(ILP’15)会议记录
[38] Pei J,Han J(2000),我们能将更多约束推进到频繁模式挖掘中吗?摘自:第六届ACM SIGKDD知识发现和数据挖掘会议记录(KDD’00),第350-354页
[39] Ramakrishnan N、Kumar D、Mishra B、Potts M、Helm R(2004)《转向汽车车轮:挖掘重新描述的交替算法》。摘自:第十届ACM SIGKDD知识发现和数据挖掘会议记录(KDD’04),第266-275页
[40] Shervashidze N,Vishwanathan S,Petri T,Mehlhorn K,Borgwardt KM(2009)《用于大型图形比较的高效graphlet内核》。摘自:第十二届国际人工智能与统计会议记录(AISTATS’09),第488-495页
[41] Soos M(2010)基于DPLL的SAT解算器中的增强高斯消去。摘自:SAT语用研讨会论文集(POS’10),第2-14页
[42] Uno T,Kiyomi M,Arimura H(2005)LCM第3版:数组、位图和前缀树的协作,用于频繁项集挖掘。摘自:第一届开源数据挖掘国际研讨会论文集:频繁模式挖掘实现(OSDM’05),第77-86页
[43] Zaki MJ,Parthasarathy S,Ogihara M,Li W(1997)关联规则快速发现的新算法。摘自:第三届ACM SIGKDD知识发现和数据挖掘会议记录(KDD’97),第283-296页
[44] Zimmermann,A。;Nijssen,S。;Aggarwal,CC(编辑);Han,J.(编辑),《监督模式挖掘及其在分类中的应用》,425-442(2014),纽约·Zbl 1298.68249号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。