×

用于多类文本分类的单词类嵌入。 (英文) Zbl 1473.68195号

摘要:预先训练的单词嵌入编码了自然语言的一般词汇语义和词汇规则,并已被证明在许多NLP任务中都很有用,包括词义消歧、机器翻译和情感分析等。在有监督的任务中,例如多类文本分类(本文的重点),似乎很有吸引力的是使用对特定任务信息进行编码的特殊嵌入来增强单词表示。我们建议(监督)单词类嵌入(WCEs),并表明,当连接到(无监督)预训练单词嵌入时,它们大大促进了按主题分类的多类深度学习模型的训练。我们的实证证据表明,WCE使用六种流行的神经体系结构和六种广泛使用且公开可用的数据集进行多类文本分类,在多类分类准确性方面取得了一致的改进。这种方法的另一个优点是,它在概念上简单且易于实现。我们实现WCE的代码可在以下网址公开获取:https://github.com/AlexMoreo/word-class-embeddings网站.

MSC公司:

68T50型 自然语言处理
62H30型 分类和区分;聚类分析(统计方面)
68T07型 人工神经网络与深度学习
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 安藤,RK;Zhang,T.,《从多任务和未标记数据中学习预测结构的框架》,J Mach Learn Res,61817-1853(2005)·Zbl 1222.68133号
[2] Baker D,McCallum AK(1998)文本分类中的词语分布聚类。摘自:《第21届ACM信息检索研究与开发国际会议论文集》(SIGIR 1998),澳大利亚墨尔本,第96-103页。doi:10.1145/290941.290970
[3] Baldi P(2011)自动编码器、无监督学习和深层架构。摘自:美国贝尔维尤2011年ICML无监督和转移学习研讨会会议记录,第37-49页
[4] Baroni M、Dinu G、Kruszewski G(2014),别计算,预测!上下文计算与上下文预测语义向量的系统比较。在:计算语言学协会第52届年会论文集(ACL 2014),美国巴尔的摩,第238-247页。doi:10.3115/v1/p14-1023
[5] Bekkerman,R。;El-Yaniv,R。;蒂什比,N。;Winter,Y.,《分布词簇与文本分类用词》,J Mach Learn Res,31183-1208(2003)·Zbl 1102.68528号
[6] Y.本吉奥。;杜恰姆,R。;文森特,P。;Jauvin,C.,神经概率语言模型,J Mach Learn Res,31137-1155(2003)·Zbl 1061.68157号
[7] Berardi G、Esuli A、Macdonald C、Ounis I、Sebastiani F(2015)《用于敏感性识别的半自动文本分类》。摘自:《第24届ACM信息和知识管理国际会议记录》(CIKM 2015),澳大利亚墨尔本,第1711-1714页。数字对象标识代码:10.1145/2806416.2806597
[8] Bhatia K、Jain H、Kar P、Varma M、Jain P(2015)《极端多标签分类的稀疏局部嵌入》。摘自:《第29届神经信息处理系统年会论文集》(NIPS 2015),加利福尼亚州蒙特利尔,第730-738页
[9] 布莱,DM;Ng、AY;Jordan,MI,潜在狄利克雷分配,《马赫学习研究杂志》,31993-1022(2003)·Zbl 1112.68379号
[10] Blitzer J、McDonald R、Pereira F(2006)《结构对应学习的领域适应》。摘自:《自然语言处理实证方法第四届会议论文集》(EMNLP 2006),澳大利亚悉尼,第120-128页。数字对象标识代码:10.3115/1610075.1610094
[11] Bojanowski,P。;格雷夫,E。;Joulin,A。;Mikolov,T.,用子词信息丰富词向量,Trans-Assoc Compute Linguist,5135-146(2017)·doi:10.1162/tacla_00051
[12] Bullinaria,JA;Levy,JP,《从单词共现统计中提取语义表示:一项计算研究》,Behav Res Methods,39,3,510-526(2007)·doi:10.3758/bf03193020
[13] Camacho-Collados,J。;Pilehvar,MT,《从词到义的嵌入:意义向量表征的调查》,J Artif Intell Res,63,743-788(2018)·Zbl 1486.68194号 ·doi:10.1613/jair.1.11259
[14] Caruana R(1993)《多任务学习:基于知识的归纳偏见来源》。摘自:《第十届机器学习国际会议论文集》(ICML 1993),美国阿默斯特,第41-48页。doi:10.1016/b978-1-55860-307-3.50012-5
[15] 科洛伯特,R。;韦斯顿,J。;博图,L。;卡伦,M。;Kavukcuoglu,K。;Kuksa,P.,《从头开始的自然语言处理(几乎)》,J Mach Learn Res,122493-2537(2011)·Zbl 1280.68161号
[16] 科尔特斯,C。;Vapnik,V.,《支持向量网络》,《马赫学习》,第20、3、273-297页(1995年)·兹比尔08316.8098
[17] DauméH(2007)令人沮丧的简单领域适应。摘自:计算语言学协会第45届年会会议记录(ACL 2007),捷克布拉格,第256-263页
[18] Debole F,Sebastiani F(2003)《监督自动文本分类的术语权重》。在:第18届ACM应用计算研讨会论文集(SAC 2003),美国墨尔本,第784-788页。doi:10.1145/952532.952688
[19] Deerwester,S.公司。;杜梅斯,ST;福纳斯,GW;蒂克斯·兰道尔;Harshman,R.,通过潜在语义分析进行索引,《美国社会科学杂志》,41,6,391-407(1990)·doi:10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9
[20] Devlin J,Chang M,Lee K,Toutanova K(2019)BERT:用于语言理解的深层双向变压器预培训。摘自:美国计算语言学协会北美分会2019年会议记录(NAACL 2019),美国明尼阿波利斯,第4171-4186页
[21] Dong,Y。;刘,P。;朱,Z。;王,Q。;Zhang,Q.,基于融合模型的标签嵌入和文本分类的自我交互关注,IEEE Access,830548-30559(2020)·doi:10.1109/access.2019.2954985
[22] Dumais ST,Platt J,Heckerman D,Sahami M(1998)文本分类的归纳学习算法和表示。在:第七届ACM信息和知识管理国际会议论文集(CIKM 1998),美国贝塞斯达,第148-155页。数字对象标识代码:10.1145/288627.288651
[23] Erhan,D。;Y.本吉奥。;科尔维尔,A。;宾夕法尼亚州Manzagol;文森特,P。;Bengio,S.,为什么无监督的预培训有助于深度学习?,J Mach Learn Res,11,625-660(2010)·Zbl 1242.68219号
[24] Forman G(2004)文本分类中多类特征选择的陷阱和解决方案。摘自:《第21届机器学习国际会议论文集》(ICML 2004),加州班夫,第38-45页。doi:10.1145/1015330.1015356
[25] Garneau N,Leboeuf J,Lamontagne L(2019)下游任务中外来词嵌入的上下文生成。摘自:《第32届加拿大人工智能会议论文集》,加利福尼亚州金斯顿,第563-569页。doi:10.1007/978-3-030-18305-960
[26] Glrot X,Bengio Y(2010)《理解深度前馈神经网络训练的困难》。摘自:第13届国际人工智能与统计会议记录(AISTATS 2010),意大利恰拉古纳,第249-256页
[27] González,P。;卡斯塔尼奥,A。;内华达州查拉;del Coz,JJ,《量化学习综述》,ACM Comput Surv,50,5,74:1-74:40(2017)·数字对象标识代码:10.1145/3117807
[28] Grave E、Mikolov T、Joulin A、Bojanowski P(2017)高效文本分类的技巧包。摘自:计算语言学协会欧洲分会第十五届会议记录(EACL 2017),西班牙巴伦西亚,第427-431页。doi:10.18653/v1/e17-2068
[29] 古普塔,S。;Kanchinadam,T。;科纳坦,D。;Fung,G.,用于文本分类表示的任务优化单词嵌入,Front Appl Math Stat,5,67(2019)·doi:10.3389/fams.2019.0067
[30] Harris,ZS,分布结构,Word,10,2-3,146-162(1954)·doi:10.1007/978-94-017-6059-136
[31] Hersh W,Buckley C,Leone T,Hickman D(1994)OHSUMED:一种交互式检索评估和新的大型文本研究集。摘自:第17届ACM信息检索研究与开发国际会议论文集(SIGIR 1994),爱尔兰都柏林,第192-201页。doi:10.1007/978-14471-2099-5_20
[32] Hochreiter,S。;Schmidhuber,J.,《长短期记忆,神经计算》,第9、8、1735-1780页(1997年)·doi:10.1162/neco.1997.9.8.1735
[33] Hsu DJ,Kakade SM,Langford J,Zhang T(2009),通过压缩感知进行多标签预测。摘自:第23届神经信息处理系统年会会议记录(NIPS 2009),加利福尼亚州温哥华,第772-780页
[34] 江,M。;梁,Y。;X·冯。;范,X。;裴,Z。;薛,Y。;Guan,R.,基于深度信念网络和softmax回归的文本分类,神经计算应用,29,1,61-70(2018)·doi:10.1007/s00521-016-2401-x
[35] Jin P,Zhang Y,Chen X,Xia Y(2016)《文本分类的袋式嵌入》。摘自:第26届国际人工智能联合会议(IJCAI 2016)会议记录,美国纽约,第2824-2830页
[36] Joachims T(1998)使用支持向量机进行文本分类:使用许多相关特征进行学习。在:第10届欧洲机器学习会议论文集(ECML 1998),德国开姆尼茨,第137-142页。doi:10.1007/bfb0026683
[37] Joachims T(2001)支持向量机文本分类的统计学习模型。收录于:第24届ACM信息检索研究与开发会议记录(SIGIR 2001),美国新奥尔良,第128-136页。数字对象标识代码:10.1145/383952.383974
[38] Kim Y(2014)句子分类的卷积神经网络。摘自:2014年自然语言处理实证方法会议记录(EMNLP 2014),多哈,QA,第1746-1751页
[39] Kim Y、Jernite Y、Sontag D、Rush AM(2016),角色感知神经语言模型。摘自:美国凤凰城第30届AAAI人工智能会议记录(AAAI 2016),第2741-2749页
[40] Kingma DP,Ba J(2015)Adam:一种随机优化方法。收录于:美国圣地亚哥第三届国际学习代表大会(ICLR 2015)会议记录
[41] Lai S,Xu L,Liu K,Zhao J(2015)文本分类递归卷积神经网络。摘自:第29届美国人工智能学会人工智能会议(AAAI 2015)会议记录,美国奥斯汀,第2267-2273页
[42] 兰,M。;Tan,CL;苏,J。;Lu,Y.,用于自动文本分类的监督和传统术语加权方法,IEEE Trans-Pattern Ana Mach Intell,31,4,721-735(2009)·doi:10.1109/TPAMI.2008.110
[43] Le HT,Cerisara C,Denis A(2018)卷积网络是否需要深度进行文本分类?。摘自:美国新奥尔良AAAI 2018情感内容分析研讨会论文集,第29-36页
[44] LeCun,Y。;Y.本吉奥。;Hinton,G.,《深度学习》,《自然》,521,7553,436-444(2015)·doi:10.1038/nature14539
[45] Lei X,Cai Y,Xu J,Ren D,Li Q,Leung HF(2019)将任务导向表征引入文本分类。附:第24届高级应用数据库系统国际会议(DASFAA 2019)会议记录,泰国清迈,第401-415页
[46] 利维,O。;戈德堡,Y。;Dagan,I.,《利用单词嵌入经验教训改进分布相似性》,Trans-Assoc Compute Linguist,3211-225(2015)·doi:10.11162/tacl_a_00134
[47] Levy O,Goldberg Y(2014)神经词嵌入作为隐式矩阵分解。摘自:《第28届神经信息处理系统年会论文集》(NIPS 2014),加利福尼亚州蒙特利尔,第2177-2185页
[48] Lewis DD(1992)文本分类任务中短语和聚类表示的评估。摘自:《第15届ACM信息检索研究与开发国际会议论文集》(SIGIR 1992),丹麦科本港,第37-50页
[49] Lin,J.,《神经炒作与弱基线比较》,SIGIR论坛,52,1,40-51(2019年)·数字对象标识代码:10.1145/3308774.3308781
[50] Luong T,Pham H,Manning CD(2015)《基于注意力的神经机器翻译的有效方法》。摘自:《2015年自然语言处理实证方法会议论文集》(EMNLP 2015),里斯本,PT,第1412-1421页
[51] McCann B、Bradbury J、Xiong C、Socher R(2017)《翻译中的学习:语境化词向量》。摘自:美国长滩第31届神经信息处理系统年会(NIPS 2017)会议记录,第6294-6305页
[52] Mikolov T,Chen K,Corrado G,Dean J(2013a)向量空间中单词表示的有效估计。In:美国斯科茨代尔第一届学习表征国际会议(ICLR 2013)研讨会记录
[53] Mikolov T,Grave E,Bojanowski P,Puhrsch C,Joulin A(2018)预训练分布式单词表征的进展。收录于:日本宫崎骏市第十一届国际语言资源与评估会议(LREC 2018)会议记录
[54] Mikolov T、Sutskever I、Chen K、Corrado GS、Dean J(2013b)《单词和短语的分布式表示及其组成》。摘自:《第27届神经信息处理系统年会论文集》(NIPS 2013),美国塔霍湖,第3111-3119页
[55] Mnih A,Kavukcuoglu K(2013)利用噪声对比估计有效学习单词嵌入。摘自:第27届神经信息处理系统年会论文集(NIPS 2013),美国塔霍湖,第2265-2273页
[56] Moreo,A。;埃苏利,A。;Sebastiani,F.,《跨语言和跨领域情感分类的分布对应索引》,J Artif Intell Res,55,131-163(2016)·Zbl 1329.68213号 ·数字对象标识代码:10.1613/jair.4762
[57] Moreo,A。;埃苏利,A。;Sebastiani,F.,《文本分类的权重学习》,IEEE Trans Knowl Data Eng,32,2,302-316(2020)·Zbl 1386.68185号 ·doi:10.1109/TKDE.2018年2883446
[58] Moreo A,Pedrotti A,Sebastiani F(2021)跨语言文本分类的异构文档嵌入。收录:第36届ACM应用计算研讨会论文集(SAC 2021),韩国光州doi:10.1145/3412841.3442093(即将出版)
[59] Morik K、Brockhausen P、Joachims T(1999),将统计学习与基于知识的方法相结合。重症监护监护案例研究。摘自:第16届机器学习国际会议论文集(ICML 1999),Bled,SL,第268-277页
[60] Pang,B。;Lee,L.,《意见挖掘和情绪分析》,《Found Trends Inf Ret》,第2期,第1-2期,第1-135页(2008年)·doi:10.1561/1500000011
[61] 帕帕斯,N。;Henderson,J.,Gile:用于文本分类的广义输入标签嵌入,Trans Assoc Compute Linguist,7139-155(2019)·doi:10.1162/tacla_00259
[62] Pennington J,Socher R,Manning C(2014)手套:单词表示的全局向量。摘自:2014年自然语言处理实证方法会议记录(EMNLP 2014),多哈,QA,第1532-1543页
[63] Peters ME、Neumann M、Iyyer M、Gardner M、Clark C、Lee K、Zettlemoyer L(2018)深层语境化词语表征。收录于:美国新奥尔良计算语言学协会北美分会2018年会议记录(NAACL 2018),第2227-2237页
[64] Ren H,Zeng Z,Cai Y,Du Q,Li Q,Xie H(2019)文本分类的加权嵌入模型。附:第24届高级应用数据库系统国际会议(DASFAA 2019)会议记录,泰国清迈,第419-434页
[65] Riloff E,Wiebe J,Phillips W(2005)利用主观分类改进信息提取。摘自:美国人工智能协会第十二届会议记录(AAAI 2005),匹兹堡,美国,第1106-1111页
[66] Rumelhart,DE;通用电气公司Hinton;威廉姆斯,RJ,通过反向传播错误学习表征,《自然》,3236088533-536(1986)·Zbl 1369.68284号 ·数字对象标识代码:10.1038/323533a0
[67] Saerens,M。;拉丁纳,P。;Decastecker,C.,《将分类器的输出调整为新的先验概率:一个简单的程序》,《神经计算》,14,1,21-41(2002)·Zbl 1026.62065号 ·doi:10.11162/089977602753284446
[68] Sahlgren M(2005)随机索引简介。In:丹麦哥本哈根TKE语义索引方法和应用研讨会论文集
[69] Socher R,Perelygin A,Wu J,Chuang J,Manning CD,Ng A,Potts C(2013)情感树库语义合成的递归深度模型。摘自:2013年自然语言处理实证方法会议记录(EMNLP 2013),美国西雅图,第1631-1642页
[70] Soucy P,Mineau GW(2005)《向量空间模型中文本分类的超越TFIDF权重》。摘自:第19届国际人工智能联合会议记录(IJCAI 2005),英国爱丁堡,第1130-1135页
[71] 北斯利瓦斯塔瓦。;辛顿,G。;Krizhevsky,A。;Sutskever,I。;Salakhutdinov,R.,《辍学:防止神经网络过度拟合的简单方法》,J Mach Learn Res,1929-1958(2014)·Zbl 1318.68153号
[72] Steinberger R、Pouliquen B、Widiger A、Ignat C、Erjavec T、Tufis D、Varga D(2006)《JRC-Acquis:20多种语言的多语种平行语料库》。摘自:第五届国际语言资源与评估会议记录(LREC 2006),Genova,IT,第2142-2147页
[73] 唐J,瞿M,梅Q(2015)PTE:通过大规模异质文本网络的预测性文本嵌入。摘自:《第21届ACM知识发现和数据挖掘国际会议论文集》(KDD 2015),澳大利亚悉尼,第1165-1174页
[74] 范德马滕,L。;Hinton,G.,使用t-SNE可视化数据,J Mach Learn Res,92579-2605(2008)·Zbl 1225.68219号
[75] Vaswani A、Shazeer N、Parmar N、Uszkoreit J、Jones L、Gomez AN、Kaiser L、Polosukhin I(2017)关注是你所需要的。摘自:美国长滩第31届神经信息处理系统年会(NIPS 2017)会议记录,第5998-6008页
[76] Wang G,Li C,Wang W,Zhang Y,Shen D,ZhangX,Henao R,Carin L(2018)文本分类中单词和标签的联合嵌入。摘自:计算语言学协会第56届年会(ACL 2018)会议记录,澳大利亚墨尔本,第2321-2331页
[77] 王S,曼宁CD(2012)基线和双字:简单、良好的情绪和主题分类。摘自:计算语言学协会第50届年会会议记录(ACL 2012),韩国济州岛,第90-94页
[78] Yang,Y。;Chute,CG,《文本分类和检索的基于示例的映射方法》,ACM Trans-Inf Syst,12,3,252-277(1994)·数字对象标识代码:10.1145/183422.183424
[79] Yang Z,Dai Z,Yang Y,Carbonell JG,Salakhutdinov R,Le QV(2019b)XLNet:语言理解的广义自回归预训练。摘自:第33届神经信息处理系统年会(NeurIPS 2019)会议记录,加利福尼亚州温哥华,第5754-5764页
[80] Yang W,Lu K,Yang P,Lin J(2019a)对“神经炒作”进行了批判性研究:弱基线和神经排名模型有效性增益的可加性。摘自:《第42届ACM信息检索研究与开发会议论文集》(SIGIR 2019),法国巴黎,第1129-1132页。doi:10.1145/331184.3331340
[81] 姚S,于德,肖克(2019)通过潜在语义插补增强领域词嵌入。摘自:美国安克雷奇第25届ACM知识发现和数据挖掘会议记录(KDD 2019),第557-565页。数字对象标识代码:10.1145/3292500.3330926
[82] Yu HF、Jain P、Kar P、Dhillon I(2014)《缺少标签的大规模多标签学习》。摘自:《第31届机器学习国际会议论文集》(ICML 2014),中国北京,第593-601页
[83] 张,L。;王,S。;Liu,B.,《情绪分析的深度学习:一项调查》,Wiley Interdiscip Rev Data Min Knowl Discov,8,4,e1253(2018)·doi:10.1002/widm.1253
[84] Zhang X,Zhao J,LeCun Y(2015)文本分类的特征级卷积网络。摘自:《第29届神经信息处理系统年会论文集》(NIPS 2015),加利福尼亚州蒙特利尔,第649-657页
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。