×

使用分布式特征构造和ILP进行基于一致性的建模。 (英语) Zbl 1458.68162号

摘要:归纳逻辑编程(ILP)的一个特别成功的角色是作为一种工具,用于发现有用的关系特征,以便在预测模型中随后使用。从概念上讲,使用ILP构建关系特征的情况取决于将这些特征视为函数,而自动发现这些特征必然需要某种形式的一阶学习。实际上,目前文献中有几篇报告表明,使用ILP发现的关系特征增强任何现有特征都可以显著提高模型的预测能力。虽然该方法足够简单,但仍需要做大量工作来扩大其规模,以更充分地探索ILP系统可以构建的可能特征空间。这在原则上是无限的,实际上是非常大的。应用程序仅限于从这个空间中进行启发式或随机选择。在本文中,我们通过允许特征和模型以分布式方式构建。也就是说,存在一个计算单元网络,每个计算单元使用一个ILP引擎来构造少量特征,然后构建一个(本地)模型。然后,我们采用一种基于共识的异步算法,其中相邻节点共享信息并更新本地模型。这种基于闲话的信息交换导致了非平稳马尔可夫链的形成。对于一类模型(具有凸损失函数的模型),可以证明(使用超鞅收敛定理)该算法将导致所有节点收敛到一致模型。实际上,实现这种融合可能会很慢。然而,我们在合成数据集和实际数据集上的结果表明,在相对较短的时间内,网络中的“最佳”节点达到的模型的预测精度与在非分布式环境中使用更多计算工作获得的预测精度相当(最佳节点被确定为权重最先收敛的节点)。

MSC公司:

68T05型 人工智能中的学习和自适应系统
60J20型 马尔可夫链和离散时间马尔可夫过程在一般状态空间(社会流动、学习理论、工业过程等)上的应用
68N17号 逻辑编程
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿加瓦尔,A;夏佩尔,O;杜迪克,M;Langford,J,《可靠有效的三级线性学习系统》,《机器学习研究杂志》,第15期,第1111-1133页,(2014年)·Zbl 1318.68135号
[2] Agrawal,R.和Srikant,R.(1995)。挖掘序列模式。集成电路驱动单元. ·Zbl 1185.68171号
[3] Antunes,C.&Oliveira,A.L.(2003)。带间隙约束的序列模式挖掘的模式增长方法的推广。百万分之几. ·Zbl 1029.68558号
[4] Aseervatham,S.、Osmani,A.和Viennet,E.(2006年)。bitSPADE:使用位图表示的基于格的序列模式挖掘算法。ICDM公司.
[5] Ayres,J.、Gehrke,J.、Yiu,T.和Flannick,J.(2002年)。使用位图表示的顺序模式挖掘。KDD公司.
[6] Benezit,F;Dimakis,AG;蒂兰,P;Vetterli,M,通过随机路径平均实现序最优共识,IEEE信息理论汇刊,56,5150-5167,(2010)·Zbl 1366.94010号 ·doi:10.1109/TIT.2010.2060050
[7] Bertsekas,D.P.和Tsitsiklis,J.N.(1997年)。并行和分布式计算:数值方法. ·Zbl 0743.65107号
[8] Blum,A,在无限属性空间中学习布尔函数,机器学习,9373-386,(1992)·Zbl 0766.68108号
[9] Bottou,L.(2010)。具有随机梯度下降的大规模机器学习。第19届国际计算统计会议记录(COMPSTAT’2010)第177-187页·Zbl 1103.68484号
[10] Bottou,L.和Bousquet,O.(2011年)。大规模学习的权衡。机器学习优化(第351-368页)。
[11] Bottou,L.和Bousquet,O.(2011年)。大规模学习的权衡。机器学习优化(第351-368页)。麻省理工学院出版社。
[12] 博伊德,S;Ghosh,A;Prabhakar,B;Shah,D,《随机八卦算法》,IEEE/ACM交易网络,142508-2530,(2006)·Zbl 1283.94005号
[13] 博伊德,S;帕里赫,N;楚,E;佩莱托,B;Eckstein,J,《通过交替方向乘数法进行分布式优化和统计学习》,机器学习的基础和趋势,3,1-122,(2011)·Zbl 1229.90122号 ·doi:10.1561/220000016
[14] Carlson,A.、Cumby,C.、Rosen,J.和Roth,D.(1999)。雪学建筑。UIUCDCS-R-99-2101技术报告,UIUC计算机科学部,5。
[15] Chalamalla,A.、Negi,S.、Venkata Subramaniam,L.和Ramakrishnan,G.(2008)。识别特定于班级的话语模式。CIKM公司第1193-1202页。
[16] Christoudias,C.M.、Urtasun,R.和Darrell,T.(2008)。用于多视图对象识别的无监督分布式特征选择。MIT-CSAIL-TR-2008-009技术报告,麻省理工学院。
[17] Cybenko,G,分布式内存多处理器的动态负载平衡,《并行与分布式计算学报》,第7期,第279-301页,(1989年)·doi:10.1016/0743-7315(89)90021-X
[18] Darken,C.和Moody,J.(1990年)。关于随机优化的学习速率计划的注释。神经信息处理系统进展会议论文集第832-838页。
[19] 达斯,K;巴杜里,K;Kargupta,H,大型对等网络的本地异步分布式隐私保护特征选择算法,知识与信息系统,24,341-367,(2010)·doi:10.1007/s10115-009-0274-3
[20] Davis,J.、Burnside,E.、de Castro Dutra,I.、Page D.和Costa,V.S.(2005a)。学习贝叶斯规则网络的集成方法。机器学习:ECML 2005第84-95页。
[21] Davis,J.、Burnside,E.S.、de Castro Dutra,I.、Page,D.、Ramakrishnan,R.、Costa,V.S.和Shavlik,J.W.(2005年b)。统计关系学习的视图学习:应用于乳房X射线照相术。第十九届国际人工智能联合会议记录第677-683页。
[22] Davis,J.、Ong,I.、Struyf,J.,Burnside,E.、Page,D.和Costa,V.S.(2007年)。统计关系学习的表征变化。第20届国际人工智能联合会议记录第2719-2726页·Zbl 1280.68197号
[23] Dehaspe,L.和De Raedt,L.(1995)。并行归纳逻辑编程。数据库中的机器学习和知识发现。MLnet统计熟悉研讨会会议记录(第112-117页)。
[24] 德克尔,O;吉拉德·巴赫拉赫,右;奥沙米尔;Xiao,L,使用微型备份进行最优分布式在线预测,《机器学习研究杂志》,第13期,第165-202页,(2012)·Zbl 1283.68404号
[25] Dimakis,A.G.、Sarwate,A.D.和Wainwright,M.J.(2006年)。地理流言:传感器网络的高效聚合。第五届传感器网络信息处理国际会议第69-76页·兹比尔1390.94150
[26] 杜奇,J;阿加瓦尔,A;Wainwright,M,《分布式优化的双重平均:收敛分析和网络缩放》,IEEE自动控制汇刊,57592-606,(2012)·Zbl 1369.90156号 ·doi:10.1109/TAC.2011.2161027
[27] Džeroski,S.(1993年)。在归纳逻辑编程中处理不完美的数据。第四届斯堪的纳维亚人工智能会议记录第111-125页。
[28] 费舍尔,JM;美国北卡罗来纳州林奇;Paterson,MS,用一个错误的过程不可能达成分布式共识,ACM杂志,32,374-382,(1985)·Zbl 0629.68027号 ·数字对象标识代码:10.1145/3149.214121
[29] Fonseca,N.A.、Silva,F.和Camacho,R.(2005)。并行化ILP系统的策略。第十五届归纳逻辑程序设计国际会议论文集第136-153页。
[30] Garcia,D.J.、Hall,L.O、Goldgof,D.B.和Kramer K.(2006)。一种基于随机子集的并行特征选择算法。并行数据挖掘国际研讨会会议记录.
[31] Garofalakis,M.N.、Rastogi,R.和Shim,K.(1999)。精神:带有正则表达式约束的序列模式挖掘。超大规模数据库.
[32] Han,Y.,&Wang,J.(2009)。最优规则组合的l1正则化框架。ECML/PKDD公司.
[33] Jawanpuria,P.、Nath,J.S.和Ramakrishnan,G.(2011年)。使用层次核的高效规则集成学习。ICML公司第161-168页。
[34] Jelasity,M.、Guerraoui,R.、Kermarrec,A.和Steen,M.(2004)。对等抽样服务:基于非结构化八卦实现的实验评估。中间件2004第3231卷,第79-98页。
[35] Jelasity,M;Montresor,A;Babaoglu,Ù,大型动态网络中基于Gossip的聚合,计算系统上的ACM事务,23,219-252,(2005)·doi:10.1145/1082469.1082470
[36] Ji,X.、Bailey,J.和Dong,G.(2006)。带间隙约束的最小可区分子序列模式挖掘。知识和信息系统.
[37] John,G.H.、Kohavi,R.和Pfleger,K.(1994年)。无关特征和子集选择问题。第十一届机器学习国际会议记录第121-129页·Zbl 1369.90156号
[38] Joshi,S.、Ramakrishnan,G.和Srinivasan,A.(2008)。使用理论指导采样和随机搜索构建特征。ILP公司第140-157页·兹比尔1283.68404
[39] Kempe,D.、Dobra,A.和Gehrke,J.(2003)。基于流言的聚合信息计算。第44届IEEE计算机科学基础年会论文集第482-491页。
[40] 金,RD;Srinivasan,A,使用归纳逻辑编程从分子结构预测啮齿动物致癌性生物测定,环境健康展望,1041031-1040,(1996)·doi:10.1289/ehp.96104s51031
[41] 金,RD;麻格尔顿,SH;Srinivasan,A;Sternberg,MJ,《由机器学习导出的结构-活性关系:通过归纳逻辑编程使用原子及其键连接性预测诱变性》,美国国家科学院学报,93,438-42,(1996)·doi:10.1073/pnas.93.1.438
[42] Kudo,T.、Maeda,E.和Matsumoto,Y.(2004)。boosting在图分类中的应用。钳口.
[43] Landwehr,N;Kersting,K;雷德,LD,整合朴素贝叶斯和箔,机器学习研究杂志,8,481-507,(2007)·Zbl 1222.68242号
[44] Langford,J.、Smola,A.和Zinkevich,M.(2009年)。慢学习者速度快。神经信息处理系统研究进展第2331-2339页。
[45] 拉尔森,J;Michalski,RS,VL决策规则的归纳推理,SIGART Bulletin,63,38-44,(1977)·doi:10.1145/1045343.1045369
[46] Lavrac,N.和Dzeroski,S.(1993年)。归纳逻辑程序设计:技术与应用(第10001页)。纽约州纽约市:劳特利奇·Zbl 0830.68027号
[47] Littlestone,N,《当不相关属性大量存在时快速学习:一种新的线性阈值算法》,机器学习,2285-318,(1988)
[48] Liu,H.和Motoda,H.(1998年)。用于知识发现和数据挖掘的特征选择波士顿:Kluwer学术出版社·Zbl 0908.68127号 ·doi:10.1007/978-1-4615-5689-3
[49] 洛佩兹,FG;托雷斯,MGA;巴蒂斯塔,BM;JAM佩雷斯;Moreno-Vega,JM,通过并行分散搜索解决特征子集选择问题,欧洲运筹学杂志,169477-489,(2006)·Zbl 1079.90174号 ·doi:10.1016/j.ejor.2004.08.010
[50] Mangasarian,L,无约束优化中的并行梯度分布,SIAM控制与优化杂志,331916-1925,(1995)·Zbl 0843.90111号 ·doi:10.1137/S0363012993250220
[51] Michie,D.、Bain,M.和Hayes-Michie(1990)。亚认知技能的认知模型。在M.J.Grimble J.McGee和P.Mowforth(编辑)中,基于知识的工业控制系统(第71-99页)。伦敦IEE的Peter Peregrinus·Zbl 0803.68100号
[52] Montresor,A.和Jelasity,M.,PeerSim。(2009). 一个可扩展的P2P模拟器。第九届对等网络国际会议记录(P2P’09)第99-100页。
[53] Muggleton,S,《归纳逻辑编程:推导、成功与不足》,SIGART Bulletin,5,5-11,(1994)·数字对象标识代码:10.1145/181668.181671
[54] Muggleton,S,《逆蕴涵与程序》,新一代计算,13245-286,(1995)·doi:10.1007/BF03037227
[55] 麻格尔顿,SH;桑托斯,JCA;Tamaddoni-Nezhad,A,Toplog:ILP使用逻辑程序声明性偏见,《逻辑编程》,5366,687-692,(2008)·Zbl 1185.68171号
[56] Nagesh,A.、Ramakrishnan,G.、Chiticariu,L.、Krishnamurthy,R.、Dharkar,A.和Bhattacharyya,P.(2012)。实现高效的命名实体规则归纳,以实现可定制性。EMNLP-CoNLL公司第128-138页。
[57] Nair,N.、Saha,A.、Ramakrishnan,G.和Krishnaswamy,S.(2012年)。在结构化输出空间中使用分层核进行规则集成学习。啊啊啊.
[58] Nienhuys-Cheng,S.和De Wolf,R.(1997)归纳逻辑程序设计基础纽约:Springer·Zbl 1293.68014号
[59] 牛,F;雷奇特,B;雷,C;赖特,SJ,霍格沃德!:并行化随机梯度下降的无锁方法,神经信息处理系统进展,24,693-701,(2011)
[60] Nowozin,S.、Bakir,G.和Tsuda,K.(2007年)。用于动作分类的判别子序列挖掘。CVPR公司.
[61] Pei,J.(2004)。通过模式增长挖掘序列模式:PrefixSpan方法。机器学习研究杂志, 16-11.
[62] Pei,J.、Han,J.和Wang,W.(2005)。基于约束的序列模式挖掘:模式增长方法。智能信息系统杂志.
[63] 裴,J;韩,J;Yan,X,从序列模式挖掘到结构化模式挖掘:一种模式增长方法,《计算机科学与技术杂志》,9,257-279,(2004)
[64] Plotkin,G.D.(1971)。归纳推理的自动方法爱丁堡大学博士论文。
[65] Ramakrishnan,G.、Joshi,S.、Balakrishna,S.和Srinivasan,A.(2007年)。使用ILP构造特征,从半结构化文本中提取信息。ILP公司第211-224页·Zbl 1136.68501号
[66] Ratnaparkhi,A,《学习用最大熵模型解析自然语言》,机器学习,34151-175,(1999)·Zbl 0917.68170号 ·doi:10.1023/A:1007502103375
[67] Roth,D.(1998)。学习解决自然语言歧义:一种统一的方法。人工智能创新应用进展第806-813页。
[68] Rückert,U.和Kramer,S.(2003)。k项dnf学习中的随机局部搜索。第20届机器学习国际会议论文集(ICML-03)第648-655页。
[69] Rückert,U.、Kramer,S.和De Raedt,L.(2002)。k项dnf学习中的相变和随机局部搜索。第13届欧洲机器学习会议记录第405-417页·兹比尔1014.68519
[70] Ryan,M.、Hall,K.和Mann,G.(2010年)。结构化感知器的分布式训练策略。计算语言学协会北美分会年会第456-464页。
[71] Saha,A.、Srinivasan,A.和Ramakrishnan,G.(2012年)。什么样的关系特征对统计学习有用?ILP公司. ·Zbl 1382.68203号
[72] Sanov,IN,《关于随机变量大偏差的概率》,Mat.Sbornik,42,11-44,(1957)
[73] Shah,D,《绯闻算法》,《网络写作基础与趋势》,第3期,第1-125页,(2009年)·Zbl 1185.68072号
[74] Singh,S.、Kubica,J.、Larsen,S.和Sorokina,D.(2009年)。logistic回归的并行大规模特征选择。传感和诊断模块第1172-1183页。
[75] Specia,L.、Srinivasan,A.、Ramakrishnan,G.和Graças Volpe Nunes,M.(2006年)。使用归纳逻辑编程进行词义消歧。ILP公司第409-423页·Zbl 1201.68133号
[76] Specia,L;Srinivasan,A;乔希,S;罗马克里希南,G;Gracas,M,《特征构建辅助词义消歧的研究》,机器学习,76109-136,(2009)·Zbl 1470.68229号 ·doi:10.1007/s10994-009-5114-x
[77] Srinivasan,A.&Bain,M.(2014)。关系数据流在线模型的实证研究。新南威尔士州计算机科学与工程学院201401技术报告·Zbl 1453.68158号
[78] Srinivasan,A.(1999)。aleph手册。
[79] Srinivasan,A.和King,R.D.(1996年)。归纳逻辑编程的特征构建:结构属性辅助的生物活动定量预测研究。第六届归纳逻辑编程研讨会会议记录第1314卷,第89-104页。
[80] Srinivasan,A;Ramakrishnan,G,《使用设计实验对ILP进行参数筛选和优化》,《机器学习研究杂志》,12,627-662,(2011)·兹比尔1280.68197
[81] 斯里尼瓦桑,A;麻格尔顿,SH;MJE斯特恩伯格;King,RD,《诱变性理论:一阶和基于特征的诱导研究》,人工智能,85,277-299,(1996)·doi:10.1016/0004-3702(95)00122-0
[82] 孙忠(2014)。基于mapreduce的并行特征选择。计算机工程和网络,第277卷,共页电气工程课堂讲稿第299-306页。
[83] Sutton,R.(1992)《通过梯度下降调整偏差:增量版本的三角洲-三角洲》。第十届全国人工智能会议纪要第171-176页。
[84] Tao,T.(2011)。测量理论导论. ·Zbl 1231.28001号
[85] Tsitsiklis,J.N.(1984)。分散决策和计算中的问题麻省理工学院EECS系博士论文。
[86] Tsitsiklis,J.N.、Bertsekas,D.P.和Athans,M.(1986年)。分布式异步确定性和随机梯度优化算法。IEEE自动控制汇刊,31. ·Zbl 0602.90120号
[87] Varga,R.S.(1962年)。矩阵迭代分析. ·Zbl 0133.08602号
[88] Zelezny,F;Srinivasan,A;Page,CD,ILP中的随机重新启动搜索,机器学习,64,183-208,(2006)·Zbl 1103.68484号 ·doi:10.1007/s10994-006-7733-9
[89] 赵,Z;考克斯,J;杜林,D;Sarle,W,《大规模并行特征选择:基于方差保持的方法》,ECML/PKDD,7523,237-252,(2012)·Zbl 1273.68310号
[90] Zhou,Y.、Porwal,U.、Zhang,C.、Ngo,H.Q.、Nguyen,L.、Ré,C.和Govindaraju,V.(2014)。受组测试启发的并行特征选择。神经信息处理系统年会第3554-3562页。
[91] Zinkevich,M.、Weimer,M.,Smola,A.J.和Li,L.(2010年)。并行随机梯度下降。钳口,第4卷,第4页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。