×

使用频繁项集挖掘嫁接组合二进制模型。 (英语) 兹比尔1458.68172

摘要:我们考虑二元属性的所有逻辑连接上的线性预测器类,在本文中我们称之为组合二元模型类。基于内容的建模具有很高的知识可解释性,但从标记数据中对其进行幼稚的学习,就连词的长度而言,需要指数级的计算成本。另一方面,在大规模数据集的情况下,长连词对于学习预测因子是有效的。为了克服这一计算困难,我们提出了一种算法,二进制数据集的GRABGRAB的核心思想是对嫁接算法中最耗时的一步采用加权频繁项集挖掘,该算法旨在通过迭代方法求解大规模的L_1-RERM问题。此外,我们的实验表明,CBM的线性预测因子在预测准确性和知识发现方面是有效的。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Agrawal R,Srikant R(1994)挖掘关联规则的快速算法。摘自:第20届超大数据库国际会议论文集,第487-499页
[2] 艾森斯坦,H。;Pitt,L.,《论析取范式公式的可学习性》,《马赫学习》,第19、3、183-208页(1995年)·Zbl 0831.68094号
[3] 安德鲁,V。;尤齐洛夫,Jmk;Mathews,Dh,根据预测的二级结构形成自由能变化检测非编码RNA,BMC Bioninform,7,1,173(2006)·doi:10.1186/1471-2105-7-173
[4] 巴尔迪,P。;萨多夫斯基,P。;Whiteson,D.,《通过深度学习在高能物理中寻找奇异粒子》,Nat Commun,54308(2014)·doi:10.1038/ncomms5308
[5] Bayardo RJ Jr(1998)从数据库中高效挖掘长模式。摘自:1998年ACM SIGMOD国际数据管理会议记录,第85-93页
[6] Bishop,Cm,模式识别和机器学习(信息科学和统计)(2006年),Secaucus:Springer-Verlag New York Inc.,Secaucs·Zbl 1107.68072号
[7] 布雷曼,L。;弗里德曼,J。;斯通,Cj;Olshen,Ra,分类和回归树(1984),博卡拉顿:CRC出版社,博卡拉顿·Zbl 0541.62042号
[8] Bshouty,Nh,通过单调理论精确学习布尔函数,Inf Compute,123,1,146-153(1995)·Zbl 1096.68634号 ·doi:10.1006/inco.1995.1164
[9] Chen T,Guestrin C(2016)XGBoost:一个可扩展的树木提升系统。摘自:第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集,美国纽约州纽约市ACM,KDD’16,第785-794页。doi:10.1145/2939672.29339785
[10] Cheng H,Yan X,Han J,Hsu CW(2007)有效分类的判别频繁模式分析。在:2007年IEEE第23届数据工程国际会议论文集。IEEE,第716-725页
[11] 科洛伯特,R。;Bengio,S。;Bengio,Y.,用于超大规模问题的SVM并行混合,神经计算,14,5,1105-1114(2002)·兹比尔1003.68135 ·doi:10.1162/089976602753633402
[12] Dantzig,Gb;Wolfe,P.,线性规划的分解原理,Oper Res,8,1,101-111(1960)·Zbl 0093.32806号 ·doi:10.1287/opre.8.1.101
[13] Desaulniers,G。;脱硅剂,J。;所罗门,Mm,专栏生成(2006),柏林:施普林格,柏林
[14] Deshpande,M。;Kuramochi,M。;北威尔士。;Karypis,G.,《基于频繁子结构的化合物分类方法》,IEEE Trans-Knowl Data Eng,17,8,1036-1050(2005)·doi:10.1109/TKDE.2005.127
[15] 风扇,Re;Chang,Kw;谢长廷;王,Xr;Lin,Cj,LIBLINEAR:大型线性分类库,J Mach Learn Res,1871-1874年8月9日(2008)·Zbl 1225.68175号
[16] 盖恩,I。;Gunn,S。;Ben-Hur,A。;Dror,G.,NIPS 2003特征选择挑战的结果分析,Adv Neural Inf Process Syst,17545-552(2005)
[17] Ho-TK(1995)随机决策森林。摘自:第三届文件分析和识别国际会议记录,第1卷。IEEE,第278-282页
[18] Ho,Tk,构建决策林的随机子空间方法,IEEE Trans-Pattern Ana Mach Intell,20,8832-844(1998)·数字对象标识代码:10.1109/34.709601
[19] Ho TK,Kleinberg EM(1996)构建任意复杂度的可投影分类器。摘自:第13届模式识别国际会议论文集,第2卷。IEEE,第880-885页
[20] 工藤,T。;Maeda,E。;Matsumoto,Y.,《增强在图形分类中的应用》,高级神经信息处理系统,17,729-736(2004)
[21] Lichman M(2013)UCI机器学习库。http://archive.ics.uci.edu/ml。2019年8月30日访问
[22] 伦德伯格(Sm Lundberg);Lee,Si,解释模型预测的统一方法,Adv Neural Inf Process Syst,304765-4774(2017)
[23] 佩德雷戈萨,F。;瓦罗佐,G。;Gramfort,A。;米歇尔,V。;蒂里昂,B。;O.格栅。;布隆德尔,M。;普雷滕霍弗,P。;韦斯,R。;Dubourg,V.公司。;范德普拉斯,J。;帕索斯,A。;库纳波,D。;布鲁彻,M。;佩罗,M。;Duchesnay,E.,Scikit-learn:Python中的机器学习,J Mach learn Res,122825-2830(2011)·Zbl 1280.68189号
[24] Perkins,S。;拉克,K。;Theiler,J.,《嫁接:通过函数空间中的梯度下降进行快速增量特征选择》,J Mach Learn Res,31333-1356(2003)·兹比尔1102.68578
[25] Platt JC(1999)《内核方法的进展》。麻省理工学院出版社,马萨诸塞州剑桥,美国。使用序列最小优化的支持向量机快速训练章节,第185-208页
[26] Prokhorov D(2001)IJCNN 2001神经网络竞赛。在:2001年国际神经网络联合会议上的幻灯片演示。http://www.geocities.ws/ijcnn/nnc_ijcnn01.pdf。2019年8月30日访问
[27] Quinlan,Jr,C4.5:机器学习程序(1993),伯灵顿:摩根考夫曼出版社
[28] Ribeiro MT、Singh S、Guestrin C(2016)我为什么要信任你?解释任何分类器的预测。摘自:第22届ACM SIGKDD知识发现和数据挖掘国际会议记录,第1135-1144页
[29] 里什,I。;Grabarnik,G.,《稀疏建模:理论、算法和应用》(2014),博卡拉顿:CRC出版社,博卡拉通
[30] Saigo,H。;Uno,T。;Tsuda,K.,挖掘复杂基因型特征预测HIV-1耐药性,生物信息学,23,18,2455-2462(2007)·doi:10.1093/bioinformatics/btm353
[31] 夏皮雷,Re;Freund,Y.,《Boosting:基础与算法》(2012),剑桥:麻省理工学院出版社,剑桥·Zbl 1278.68021号
[32] 肖-泰勒,J。;Cristianini,N.,《模式分析的内核方法》(2004),纽约:剑桥大学出版社,纽约
[33] Tsuda K,Kudo T(2006)加权子结构挖掘聚类图。摘自:第23届机器学习国际会议记录,第953-960页
[34] Uno T,Asai T,Uchida Y,Arimura H(2003)LCM:一种枚举频繁闭项集的有效算法。收录:关于频繁项集挖掘实现的第三届IEEE数据挖掘国际会议论文集,见CEUR研讨会论文集,第90卷。http://ceur-ws.org/Vol-90/。2019年8月30日访问
[35] Uno T,Kiyomi M,Arimura H(2004)LCM第2版:频繁/闭合/最大项集的高效挖掘算法。收录:第四届IEEE数据挖掘国际会议关于频繁项集挖掘实现的会议记录,可作为CEUR研讨会记录,第126卷查阅。http://ceur-ws.org/Vol-126/。2019年8月30日访问
[36] Uno T,Kiyomi M,Arimura H(2005)LCM第3版:数组、位图和前缀树的协作,用于频繁项集挖掘。摘自:第一届开源数据挖掘国际研讨会论文集:频繁模式挖掘实现,第77-86页
[37] Zaki MJ,Parthasarathy S,Ogihara M,Li W(1997)关联规则快速发现的新算法。摘自:第三届知识发现和数据挖掘国际会议记录,第283-286页
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。