×

autoBOT:进化神经符号表示法,用于可解释的低资源文本分类。 (英语) Zbl 07432828号

总结:从文本中学习已经在工业和科学界广泛采用。虽然最先进的神经语言模型在文本分类方面显示出非常有希望的结果,但它们的(预)训练成本很高,需要大量数据和数亿或更多参数的调整。本文探讨了自动演化的文本表示如何作为可解释的低资源分支模型的基础,这些模型具有竞争性性能,需要进行自动超参数调整。我们提出了autoBOT(自动代币袋),这是一种适用于低资源学习场景的autoML方法,其中训练所需的硬件和数据量都是有限的。该方法包括一个进化算法,该算法联合优化给定文本的各种稀疏表示(包括单词、子单词、POS标记、基于关键字、基于知识图和关系特征)和两种类型的文档嵌入(非解析表示)。autoBOT的关键思想是,进化不是在学习者级别进行,而是在表示级别进行。与进化集成模型的竞争性autoML方法以及BERT和RoBERTa等最先进的神经语言模型相比,该方法在14个真实世界的分类任务上提供了竞争性的分类性能。此外,该方法是可以解释的,因为输入空间各部分的重要性是所提议的优化过程产生的最终解决方案的一部分,为元传递学习提供了潜力。

MSC公司:

68T05年 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Agarwal,B.,Mittal,N.(2014)使用机器学习方法的文本分类——一项调查。摘自:《第二届软计算问题解决国际会议论文集》(SocProS 2012),2012年12月28日至30日(第701-709页)。斯普林格。
[2] 贝林科夫,Y。;Glass,J.,神经语言处理中的分析方法:一项调查,计算语言学协会汇刊,7,49-72(2019)·doi:10.1162/tacla_00254
[3] Beyer,HG;惠普公司Schwefel;Wegener,I.,《如何分析进化算法》,理论计算机科学,287,1,101-130(2002)·Zbl 1061.90119号 ·doi:10.1016/S0304-3975(02)00137-8
[4] Bird,S。;克莱因,E。;Loper,E.,《使用Python进行自然语言处理:使用自然语言工具包分析文本》(2009),加利福尼亚州:O'Reilly Media Inc,California·Zbl 1187.68630号
[5] Bougouin,A.,Boudin,F.,Daille,B.(2013)TopicRank:基于图形的关键词提取主题排名。摘自:第六届自然语言处理国际联席会议记录(第543-551页)。亚洲自然语言处理联合会,日本名古屋。
[6] 坎波斯,R。;钒锰矿。;Pasquali,A。;Jorge,AM;Nunes,C。;Jatowt,A。;帕西,G。;Piwowarski,B。;Azzopardi,L。;Hanbury,A.,《单个文档基于文本特征的自动关键词提取方法》,《信息检索进展》,684-691(2018),德国:Springer,Germany·doi:10.1007/978-3-319-76941-7_63
[7] 钱伯斯,LD,《遗传算法实用手册:应用》(2000),佛罗里达:CRC出版社,佛罗里达·Zbl 0954.68122号 ·doi:10.1201/9781420035568
[8] Chang,CC;Lin,CJ,LIBSVM:支持向量机库,ACM智能系统与技术汇刊,2,3,1-27(2011)·数字对象标识代码:10.1145/1961189.1961199
[9] Davis,L.,《遗传算法手册》(1991),伦敦:查普曼和霍尔出版社,伦敦
[10] De Rainville,F.M.,Fortin,F.A.,Gardner,M.A.,Parizeau,M.,Gagné,C.(2012)Deap:进化算法的python框架。摘自:《第14届遗传和进化计算年会论文集》(第85-92页)。
[11] 德布,K。;Jain,H.,使用基于参考点的非支配排序方法的进化多目标优化算法,第一部分:用方框约束解决问题,IEEE事务进化计算,18,4,577-601(2013)·doi:10.1109/TEVC.2013.281535
[12] Demšar,J.,多数据集上分类器的统计比较,机器学习研究杂志。,7,1-30(2006年)·Zbl 1222.68184号
[13] Denysiuk,R。;Gaspar-Cunha,A。;Delbem,AC,解决多目标背包问题的神经进化,专家系统与应用,116,65-77(2019)·doi:10.1016/j.eswa.2018.09.004
[14] Devlin,J.,Chang,M.W.,Lee,K.,Toutanova,K.(2019)BERT:语言理解深度双向变换器的预训练。摘自:计算语言学协会北美分会2019年会议记录:人类语言技术,第1卷(长篇和短篇论文)(第4171-4186页)。明尼苏达州明尼阿波利斯:计算语言学协会。
[15] Dorronsoro,B.,Pinel,F.(2017)结合机器学习和遗传算法解决独立任务调度问题。2017年IEEE第三届控制论国际会议(CYBCONF)(第1-8页)。电气与电子工程师协会。
[16] Dua,D.,Graff,C.(2017)《UCI机器学习知识库》。http://archive.ics.uci.edu/ml。
[17] Eiben,A.E.,Aarts,E.H.,Van Hee,K.M.(1990)遗传算法的全局收敛:马尔可夫链分析。摘自:《自然并行问题解决国际会议论文集》(第3-12页)。斯普林格。
[18] El-Beltagy,SR;Rafea,A.,KP-Miner:英语和阿拉伯语文档的关键词提取系统,信息系统,34,1,132-144(2009)·doi:10.1016/j.is.2008.05.002
[19] English,T.M.(1996)进化和遗传优化器的评估:无免费午餐。在:进化编程(第163-169页)。
[20] Fellbaum,C.(2012)WordNet。应用语言学百科全书。
[21] Feurer,M.、Klein,A.、Eggensperger,K.、Springenberg,J.T.、Blum,M.和Hutter,F.(2019)Auto-sklearn:高效稳健的自动化机器学习。收录于:textit自动机器学习(第113-134页)。斯普林格。
[22] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,《统计学习的要素》(2001),美国纽约:斯普林格系列,美国纽约·Zbl 0973.62007号
[23] Gijsbers,P。;Vanschoren,J.,Gama:遗传自动化机器学习助理,《开源软件杂志》,4,33,1132(2019)·doi:10.21105/joss.01132
[24] Greene,D.,Cunningham,P.(2006)《内核文档聚类中对角优势问题的实用解决方案》,载于:W.W.Cohen,A.W.Moore(eds.)《机器学习》,第二十届国际会议论文集(ICML 2006),美国宾夕法尼亚州匹兹堡,2006年6月25-29日,ACM国际会议文集(第377-384页)。ACM公司。
[25] Hajj,N。;Rizk,Y。;Awad,M.,使用改进的皮层算法对体育文章进行主观分类的框架,神经计算与应用,31,11,8069-8085(2019)·doi:10.1007/s00521-018-3549-3
[26] He,Y.,Lin,J.,Liu,Z.,Wang,H.,Li,L.J.,Han,S.(2018)Amc:Automl,用于移动设备上的模型压缩和加速。摘自:《欧洲计算机视觉会议论文集》(第784-800页)。
[27] Ishibuchi,H.,Tsukamoto,N.,Nojima,Y.(2008)《进化多目标优化:简短回顾》。摘自:2008年IEEE进化计算大会会议记录(IEEE计算智能世界大会)(第2419-2426页)。电气与电子工程师协会。
[28] PC詹宁斯;Lysgaard,S.公司。;Hummelshöj,JS;Vegge,T。;Bligaard,T.,机器学习加速计算材料发现的遗传算法,NPJ计算材料,5,1,1-6(2019)·doi:10.1038/s41524-019-0181-4
[29] Jing,K.,Xu,J.(2019)神经网络语言模型调查。arXiv预打印arXiv:1906.03591
[30] Jouppi,N.P.、Young,C.、Patil,N.、Patterson,D.、Agrawal,G.、Bajwa,R.、Bates,S.、Bhatia,S.,Boden,N.,Borchers,A.等人(2017)张量处理单元的数据中心内性能分析。摘自:第44届计算机体系结构国际研讨会论文集(第1-12页)。
[31] Khosrovian,K.,Pfahl,D.,Garousi,V.(2008)Gensim 2.0:软件过程评估的可定制过程仿真模型。摘自:《软件过程国际会议记录》(第294-306页)。斯普林格。
[32] Kipf,T.N.,Welling,M.(2017)图卷积网络半监督分类。参见:2017年4月24日至26日在法国土伦举行的第五届国际学习代表会议记录,ICLR 2017,会议跟踪记录。OpenReview.net。
[33] Komer,B.,Bergstra,J.,Eliasmith,C.(2014)Hyperopt-sklearn:scikit-learn的自动超参数配置。In:ICML关于AutoML的研讨会(第50页)。Citeser。
[34] Kotthoff,L。;桑顿,C。;呼,HH;Hutter,F。;Leyton-Brown,K.,《汽车-WEKA 2.0?:WEKA中的自动模型选择和超参数优化,机器学习研究杂志,18,25,1-5(2017)
[35] Kowsari,K。;Jafari Meimandi,K。;Heidarysafa,M。;Mendu,S。;巴恩斯,L。;Brown,D.,《文本分类算法:调查》,Information,10,4,150(2019)·doi:10.3390/info10040150
[36] 拉夫拉奇,N。;Škrlj,B。;Robnik-Šikonja,M.,《命题化和嵌入:同一硬币的两面》,机器学习,109,7,1465-1507(2020)·Zbl 1522.68469号 ·doi:10.1007/s10994-020-05890-8
[37] Le,Q.V.,Mikolov,T.(2014)句子和文档的分布式表示。摘自:《第31届机器学习国际会议论文集》,ICML 2014,中国北京,2014年6月21日至26日,JMLR研讨会和会议论文集第32卷(第1188-1196页)。JMLR.org。
[38] Li,X.,Roth,D.(2002)学习问题分类器。参见:《第19届国际计算语言学会议论文集》(COLING 2002),第1卷(第1-7页)。
[39] Liu,Y.、Ott,M.、Goyal,N.、Du,J.、Joshi,M.,Chen,D.、Levy,O.、Lewis,M.和Zettlemoyer,L.、Stoyanov,V.(2019)RoBERTa:一种稳健优化的BERT预训练方法。
[40] 马德里,J.(2019)Autotext:AutoML用于文本分类。https://inaoe.repositorioinstitucional.mx/jspui/bitstream/1009/1950/1/MadridPJG.pdf
[41] 曼宁,CD;Raghavan,P。;Schütze,H.,评分、术语加权和向量空间模型,信息检索导论,100,2-4(2008)
[42] Martinc,M.,Škrjanec,I.,Zupan,K.,Pollak,S.(2017)Pan 2017作者简介-性别和语言多样性预测。收录:CLEF的工作笔记和论文。
[43] Mihalcea,R.,Tarau,P.(2004)《文本等级:给文本带来秩序》。摘自:2004年自然语言处理实证方法会议记录(第404-411页)。西班牙巴塞罗那:计算语言学协会。
[44] 米罗恩祖克,MM;Protasiewicz,J.,《文本分类最先进要素的最新概述》,《应用专家系统》,106,36-54(2018)·doi:10.1016/j.eswa.2018.03.058
[45] Misra,R.,Arora,P.(2019)使用混合神经网络进行讽刺检测。
[46] Mitchell,M.,《遗传算法导论》(1998),马萨诸塞州剑桥市,美国:麻省理工学院出版社·Zbl 0906.68113号 ·doi:10.7551/mitpress/3927.001.0001
[47] 莫尔,F。;韦弗,M。;Hüllermier,E.,Ml-plan:通过分层规划实现自动机器学习,机器学习,107,8,1495-1515(2018)·Zbl 1473.68157号 ·doi:10.1007/s10994-018-5735-z
[48] 莫拉迪,M。;多夫纳,G。;Samwald,M.,《用于量化生物医学文本摘要中信息内容的深层语境嵌入》,《生物医学中的计算机方法和程序》,184,105117(2020)·doi:10.1016/j.cmpb.2019.105117
[49] Myers,IB,《Myers-Briggs类型指标:手册》(1962年),德国:咨询心理学家出版社,德国·doi:10.1037/1444-000
[50] Nakov,P.、Rosenthal,S.、Kozareva,Z.、Stoyanov,V.、Ritter,A.、Wilson,T.(2013)。2013年第二学期任务2:在推特上进行情绪分析。第2卷:第七届语义评估国际研讨会会议记录(SemEval,第二届词汇和计算语义学联合会议(*SEM),312-320(2013),美国佐治亚州亚特兰大:计算语言学协会,美国佐治亚州亚特兰大
[51] Olson,R.S.,Moore,J.H.(2019)《Tpot:自动化机器学习的基于树的管道优化工具》。摘自:自动机器学习(第151-160页)。斯普林格。
[52] 佩德雷戈萨,F。;瓦罗佐,G。;Gramfort,A。;米歇尔,V。;蒂里昂,B。;Grisel,O.,Scikit-learn:Python中的机器学习,《机器学习研究杂志》,第12期,第2825-2830页(2011年)·Zbl 1280.68189号
[53] Pilat,M.,Křen,T.,Neruda,R.(2016)通过强类型遗传编程实现数据挖掘工作流方案的异步演化。2016年IEEE第28届人工智能工具国际会议(ICTAI)(第577-584页)。电气与电子工程师协会。
[54] 波拉克,S。;科塞曼,R。;Daelemans,W。;Lavrač,N.,通过结合话语分析和文本挖掘来检测报纸文章中的对比模式,语用学,国际语用学协会季刊。,21, 4, 647-683 (2011) ·doi:10.1075/prag.21.407pol
[55] Qian,M.,Zhai,C.(2014)文本图像网络新闻数据多视图聚类的无监督特征选择。收录人:J.Li、X.S.Wang、M.N.Garofalakis、I.Soboroff、T.Suel、M.Wang(编辑)第23届ACM信息与知识管理国际会议论文集(1963-1966页)。中国上海:ACM。
[56] Rappl,G.,《关于一类随机搜索算法的线性收敛性》,ZAMM应用数学与力学杂志/Zeitschrift für Angewandte Mathematik und Mechanik,69,1,37-45(1989)·Zbl 0686.65042号 ·doi:10.1002/zamm.19890690119
[57] Reif,M。;沙法特,F。;Dengel,A.,分类器进化参数优化的元学习,机器学习,87,3,357-380(2012)·doi:10.1007/s10994-012-5286-7
[58] 罗斯,S。;恩格尔,D。;北卡罗来纳州克莱默。;Cowley,W.,《从单个文档中自动提取关键字》,1-20(2010),新泽西:威利在线图书馆,新泽西
[59] Rudin,C.,停止解释高风险决策的黑箱机器学习模型,转而使用可解释的模型,Nature machine Intelligence,1,5206-215(2019)·数字对象标识代码:10.1038/s42256-019-0048-x
[60] Sennrich,R.、Haddow,B.、Birch,A.(2016)使用子单词单位的罕见单词的神经机器翻译。收录于:计算语言学协会第54届年会会议记录(第1卷:长篇论文)(第1715-1725页)。德国柏林:计算语言学协会。
[61] Škrlj,B.,Repar,A.,Pollak,S.(2019)RaKUn:通过无监督学习和元顶点聚合进行基于排名的关键词提取。摘自:统计语言和语音处理国际会议(第311-323页)施普林格。
[62] Snoek,J.、Larochelle,H.、Adams,R.P.(2012)机器学习算法的实用贝叶斯优化。摘自:P.L.Bartlett、F.C.N.Pereira、C.J.C.Burges、L.Bottou、K.Q.Weinberger(编辑)《神经信息处理系统进展》第25期:2012年第26届神经信息处理体系年会。2012年12月3日至6日在美国内华达州塔霍湖举行的会议记录(第2960-2968页)。
[63] 斯佩尔,R。;Chin,J。;哈瓦西,C。;辛格,SP;Markovitch,S.,Conceptnet 5.5:通用知识的开放式多语言图表,《第三十届AAAI人工智能会议进程》,4441-4451(2017),美国加州旧金山:美国加州旧金山AAAI出版社
[64] KO斯坦利;克伦,J。;雷曼,J。;Miikkulainen,R.,《通过神经进化设计神经网络》,《自然机器智能》,2019年第1期,第24-35页·数字对象标识代码:10.1038/s42256-018-0006-z
[65] Sterckx,L.、Demeester,T.、Deleu,J.、Develder,C.(2015)快速关键词提取的主题词重要性。载于:《第24届万维网国际会议记录》(第121-122页)。纽约:ACM。
[66] 塞格迪,C。;洛夫,S。;Vanhoucke,V。;阿莱米,AA;辛格,SP;Markovitch,S.,《Inception-v4,Inception-resnet and the impact of the remain connections on learning》,《第三十届AAAI人工智能会议进程》,4278-4284(2017),美国加利福尼亚州旧金山:美国加利福尼亚州三藩市AAAI出版社
[67] 桑顿,C。;Hutter,F。;呼,HH;莱顿-布朗,K。;迪隆,伊斯兰国;Koren,Y。;加尼,R。;TE参议员;布拉德利,P。;帕雷克,R。;He,J。;格罗斯曼,RL;Uthurusamy,R.,Auto-weka:分类算法的组合选择和超参数优化,第19届ACM SIGKDD知识发现和数据挖掘国际会议KDD 2013,847-855(2013),美国伊利诺伊州芝加哥:ACM,美国伊利诺斯州芝加哥·doi:10.1145/2487575.2487629
[68] 瓦菲,H。;De Jong,K.,使用遗传算法的特征空间变换,IEEE智能系统及其应用,13,2,57-65(1998)·数字对象标识代码:10.1109/5254.671093
[69] Virtanen,P。;Gommers,R。;奥列芬特,TE;哈伯兰,M。;Reddy,T。;库纳波,D。;Burovski,E。;彼得森,P。;Weckesser,W。;Bright,J.,Scipy 10 Python科学计算的基本算法,《自然方法》,17,3,261-272(2020)·doi:10.1038/s41592-019-0686-2
[70] 万,X。;Xiao,J.,利用邻域知识提取单文档关键词,AAAI会议论文集,8855-860(2008)
[71] Wolf,T.、Debut,L.、Sanh,V.、Chaumond,J.、Delangue,C.、Moi,A.、Cistac,P.、Rault,T..、Louf,R.、Funtowicz,M.、Davison,J.,Shleifer,S.、von Platen,P.,Ma,C.、Jernite,Y.、Plu,J..、Xu,C.、Le Scao,T、Gugger,S..、Drame,M.,Lhoest,Q.、Rush,A.(2020)《变形金刚:最先进的自然语言处理》。摘自:《2020年自然语言处理实证方法会议记录:系统演示》(第38-45页)。计算语言学协会,在线。doi:10.18653/v1/2020。emnlp-demos。https://www.aclweb.org/antology/2020.emnlp-demos.6。
[72] DH Wolpert;Macready,WG,优化的无免费午餐定理,IEEE进化计算汇刊,1,1,67-82(1997)·doi:10.1109/4235.585893
[73] Yang,C.,Akimoto,Y.,Kim,D.W.,Udell,M.(2019)Oboe。第25届ACM SIGKDD知识发现与数据挖掘国际会议论文集。
[74] Yang,Z.、Dai,Z.,Yang,Y.、Carbonell,J.G.、Salakhutdinov,R.、Le,Q.V.(2019)Xlnet:语言理解的广义自回归预训练。摘自:H.M.Wallach、H.Larochelle、A.Beygelzimer、F.d'Alché-Buc、E.B.Fox、R.Garnett(eds.)《神经信息处理系统的进展》32:2019年神经信息处理系统年会(第5754-5764页),加拿大不列颠哥伦比亚省温哥华:NeurIPS 2019。
[75] Zampieri,M.、Malmasi,S.、Nakov,P.、Rosenthal,S.,Farra,N.、Kumar,R.(2019)预测社交媒体中攻击性帖子的类型和目标。收录于:textit2019年计算语言学协会北美分会会议记录:人类语言技术,第1卷(长篇和短篇论文)(第1415-1420页)。明尼苏达州明尼阿波利斯市语言学:计算协会。
[76] 齐默,M。;Doncieux,S.,Bootstrapping(q)-从神经进化结果学习机器人,IEEE认知和发展系统汇刊,10,1,102-119(2017)·doi:10.1109/TCDS.2016.2628817
[77] Zoph,B.,Vasudevan,V.,Shlens,J.,Le,Q.V.(2018)可扩展图像识别的学习可转移架构。2018年IEEE计算机视觉和模式识别会议CVPR 2018(第8697-8710页)。美国犹他州盐湖城:IEEE计算机协会。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。