×

挖掘概率自动机:序列模式挖掘的统计视图。 (英语) Zbl 1470.68119号

摘要:在过去十年中,序列模式挖掘一直是众多研究工作的核心。现在可以从随时间收集的大量序列中有效地提取用户行为的知识。这在各个领域都有应用,例如超市购物、网站访问等。然而,序列挖掘算法在控制提取错误发现或忽略真实知识的风险方面做得很少。本文研究了实现相关序列挖掘过程的理论条件。然后,本文提供了序列挖掘的统计视图,它具有以下优点:首先,它以概率自动机的形式使用原始序列的紧凑和广义表示。其次,它集成了统计约束,以确保提取重要模式。最后,它在保护隐私的环境中提供了一个有趣的解决方案,以尊重个人信息。给出了一个在车流建模中的应用,显示了我们算法的能力(交流异步电动机)在没有任何私人信息的情况下发现频繁的路线。与经典序列挖掘算法的比较(垃圾邮件)这表明了我们方法的有效性。

MSC公司:

68T05型 人工智能中的学习和自适应系统
65年第68季度 形式语言和自动机
90B20型 运筹学中的交通问题

软件:

铁锹
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Agrawal,R.和Srikant,R.(1995)。挖掘序列模式。第11届数据工程国际会议论文集(第3-14页)。洛斯·阿拉米托斯:IEEE计算机学会。
[2] Agrawal,R.和Srikant,R.(2000)。隐私保护数据挖掘。《ACM SIGMOD数据管理会议记录》(第439-450页)。纽约:ACM。
[3] Ayres,J.、Flannick,J.,Gehrke,J.和Yiu,T.(2002)。使用位图表示的顺序模式挖掘。《第八届知识发现和数据挖掘国际会议论文集》(第429-435页)。纽约:ACM。
[4] Bayardo,R.J.和Agrawal,R.(2005)。通过优化k-匿名来保护数据隐私。《第21届数据工程国际会议论文集》(第217-228页)。洛斯·阿拉米托斯:IEEE计算机学会。
[5] Benjamini,Y.和Hochberg,Y.(1995年)。控制错误发现率:一种新的强大的多重测试方法。英国皇家统计学会期刊B辑,57289-300·Zbl 0809.62014号
[6] Borges,J.和Levene,M.(1998年)。挖掘超文本数据库中的关联规则。《第四届知识发现和数据挖掘国际会议论文集》(第149-153页)。
[7] Borges,J.和Levene,M.(1999)。用户导航模式的数据挖掘。在WEBKDD’99中:来自网络使用分析和用户分析国际研讨会的修订论文(第92-111页)。柏林:斯普林格。
[8] Borges,J.和Levene,M.(2004)。一种用于web使用挖掘的基于动态聚类的马尔可夫模型。在CoRR中:计算研究库。反恐精英。IR/0406032004年6月。
[9] Callut,J.(2007)。马尔可夫模型中的首次通过时间动力学及其在HMM中的应用:归纳、序列分类和图挖掘。卢旺天主教大学博士论文。
[10] Carrasco,R.C.和Oncina,J.(1994年)。通过状态合并方法学习随机正则文法。第二届语法推理国际学术讨论会论文集(第862卷,第139-152页)。柏林:斯普林格。
[11] de la Higuera,C.(2005)。语法推理的书目研究。模式识别,38(9),1332-1348·doi:10.1016/j.patcog.2005.01.003
[12] Dupont,P.、Denis,F.和Esposito,Y.(2005)。概率自动机和隐马尔可夫模型之间的联系:概率分布、学习模型和归纳算法。模式识别,38(9),1349-1371·Zbl 1101.68651号 ·doi:10.1016/j.patcog.2004.03.020
[13] Dupont,P.、Callut,J.、Dooms,G.、Monette,J.-N.和Deville,Y.(2006)。从图中的随机游动中提取相关子图(2006-2007年技术报告)。UCL/FSA/INGI,2006年11月。
[14] Evfimievski,A.V.、Srikant,R.、Agrawal,R.和Gehrke,J.(2004)。关联规则的隐私保护挖掘。信息系统,29(4),343–364·doi:10.1016/j.is.2003.09.001
[15] Fisher,R.A.(1922年)。从列联表中解释X平方,以及皇家统计学会P.Journal of the Royal Statistical Society的计算,85,87–94·doi:10.2307/2340521
[16] Garofalakis,M.、Rastogi,R.和Shim,K.(2002年)。使用正则表达式约束挖掘序列模式。IEEE知识与数据工程汇刊,14(3),530-552·doi:10.1109/TKDE.2002.1000341
[17] Gionis,A.、Mannila,H.、Mielikainen,T.和Tsaparas,P.(2006年)。通过交换随机化评估数据挖掘结果。2006年KDD:第12届知识发现和数据挖掘国际会议记录(第167-176页)。
[18] Gold,E.M.(1978)。从给定数据识别自动机的复杂性。信息与控制,37(3),302-320·Zbl 0376.68041号 ·doi:10.1016/S0019-9958(78)90562-4
[19] Han,J.、Altman,R.B.、Kumar,V.、Mannila,H.和Pregibon,D.(2002年)。数据挖掘中新兴的科学应用。ACM通信,45(8),54–58·doi:10.1145/545151.545179
[20] Hingston,P.(2002)。使用有限状态自动机进行序列挖掘。《第25届澳大利亚计算机科学会议论文集》(第105-110页)。澳大利亚计算机学会。
[21] 霍夫丁(1963)。有界随机变量和的概率不等式。《美国统计协会杂志》,58(301),13-30·Zbl 0127.10602号 ·doi:10.2307/2282952
[22] Holm,S.(1979年)。一种简单的顺序拒绝多重测试程序。斯堪的纳维亚统计杂志,6,65–70·Zbl 0402.62058号
[23] Klemettinen,M.、Mannila,H.和Toivonen,H.(1999)。交互式探索电信网络报警序列分析仪中的有趣发现。信息与软件技术,41(9),557-567·Zbl 1147.68360号 ·doi:10.1016/S0950-5849(99)00019-1
[24] Kosala,R.和Blockeel,H.(2000)。Web挖掘研究:一项调查。SIGKDD探索,2(1),1-15·数字对象标识代码:10.1145/360402.360406
[25] Laur,P.、Nock,R.、Symphor,J.和Poncelet,P.(2007a)。挖掘演化数据流中的频繁模式。模式识别,40(2),492-503·Zbl 1118.68144号 ·doi:10.1016/j.patcog.2006.03.006
[26] Laur,P.、Symphor,J.、Nock,R.和Poncelet,P.(2007b)。用于挖掘序列模式和改进数据流增量更新过程的统计支持。智能数据分析,11(1),29–47·Zbl 1118.68144号
[27] Mannila,H.、Toivonen,H.和Verkamo,A.I.(1997年)。发现事件序列中的频繁事件。数据挖掘和知识发现,1(3),259–289·doi:10.1023/A:1009748302351
[28] Megiddo,N.和Srikant,R.(1998年)。发现预测关联规则。在知识发现和数据挖掘(第274-278页)。
[29] 牛顿·E·M、斯威尼·L和马林·B(2005年)。通过消除人脸图像的身份来保护隐私。IEEE知识与数据工程汇刊,17(2),232-243·doi:10.1109/TKDE.2005.32
[30] Pearson,K.(1900)。基于这样一个准则,即在相关变量系统的情况下,给定的偏离概率系统可以合理地假设是由随机抽样引起的。哲学杂志,50157-175。
[31] Pei,J.、Han,J.和Wang,W.(2002)。在大型数据库中挖掘具有约束的序列模式。第11届信息和知识管理国际会议记录(第18-25页)。纽约:ACM。
[32] Reber,A.S.(1967年)。人工语法的内隐学习。言语学习和言语行为杂志,6855–863·doi:10.1016/S0022-5371(67)80149-X
[33] Shaffer,J.(1995)。多重假设测试。心理学年鉴,46,561-584·doi:10.1146/annurev.ps.46.020195.003021
[34] Spiliopoulou,M.和Pohle,C.(2001)。用于衡量和提高网站成功率的数据挖掘。数据挖掘和知识发现,5(1–2),85–114·Zbl 1006.68627号 ·doi:10.1023/A:1009800113571
[35] Srikant,R.和Agrawal,R.(1996)。挖掘序列模式:泛化和性能改进。第五届扩展数据库技术国际会议论文集(第1057卷,第3-17页)。柏林:斯普林格。
[36] Sweeney,L.(2002)。k-匿名:保护隐私的模型。国际不确定性、模糊性和基于知识的系统杂志,10(5),557–570·Zbl 1085.68589号 ·doi:10.1142/S0218488502001648
[37] Valiant,L.G.(1984)。可学习理论。第16届ACM计算理论研讨会论文集(第436–445页)。纽约:ACM·兹伯利0587.68077
[38] Verykios,V.S.、Bertino,E.、Fovino,I.N.、Provenza,L.P.、Saygin,Y.和Theodoridis,Y..(2004)。隐私保护数据挖掘领域的最新技术。SIGMOD记录,33(1),50–57·doi:10.1145/974121.974131
[39] Webb,G.I.(2007)。发现重要模式。机器学习,68(1),1-33·Zbl 1470.68195号 ·数字对象标识代码:10.1007/s10994-007-5006-x
[40] Zaki,M.J.(2000年)。范畴域中的序列挖掘:合并约束。第九届信息和知识管理国际会议记录(第422-429页)。纽约:ACM。
[41] Zaki,M.J.(2001)。Spade:挖掘频繁序列的有效算法。机器学习,42(1-2),31-60·Zbl 0970.68052号 ·doi:10.1023/A:1007652502315
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。