×

LMMS重载:基于变压器的意义嵌入,用于消除歧义和其他。 (英语) Zbl 07505971号

摘要:基于神经方法的分布语义是自然语言处理的基石,与人类意义表征也有着惊人的联系。最近的基于Transformer的语言模型已经证明能够产生上下文单词表示,可靠地传递特定意义的信息,仅仅是作为自我视觉的产物。先前的研究表明,这些上下文表示可以用于准确地将大量意义库存表示为意义嵌入,在一定程度上,基于距离的词义消歧(WSD)任务解决方案优于专门为该任务训练的模型。然而,如何使用这些神经语言模型(NLM)来生成意义嵌入,从而更好地利用每个NLM的意义表示能力,还有很多需要理解的地方。在这项工作中,我们引入了一种更具原则性的方法来利用来自NLM所有层的信息,这是通过对14种NLM变体的探索性分析得到的信息。我们还强调了与特定任务模型相比,这些感觉嵌入的多功能性,将其应用于除WSD之外的几个与感觉相关的任务,同时证明了使用我们提出的方法比以前专注于感觉嵌入的工作提高了性能。最后,我们讨论了关于层和模型性能变化的意外发现,以及下游任务的潜在应用。

MSC公司:

68次发射 人工智能
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿马纳布罗,P。;Tien,E。;Cheung,W。;罗,Z。;马伟(Ma,W.)。;马丁·L·J。;Riedl,M.O.,《故事实现:将情节事件扩展为句子》(《AAAI人工智能会议论文集》,第34卷(2020年)),7375-7382
[2] Armendariz,C.S.(亚美尼亚)。;Purver先生。;波拉克,S。;Ljubešić,N。;乌尔恰尔,M。;武利奇,I。;Pilehvar,M.T.,SemEval-2020任务3:上下文中的分级单词相似性,(第十四届语义评估研讨会论文集(2020年),国际计算语言学委员会:巴塞罗那国际计算语言委员会),36-49
[3] Armendariz,C.S。;Purver,M。;乌尔恰尔,M。;波拉克,S。;Ljubešić,N。;Granroth-Wilding,M.,CoSimLex:评估上下文中分级单词相似性的资源,(第十二届语言资源和评估会议论文集。第十二届语言学资源和评估大会论文集,法国马赛(2020年),欧洲语言资源协会),5878-5886
[4] Athiwaratkun,B。;Wilson,A。;Anandkumar,A.,《多义词嵌入的概率快速文本》(Probabilistic FastText for multi-sense word embedding),《计算语言学协会第56届年会论文集》,《计算语言协会第56次年会论文汇编》,第1卷(2018年),计算语言学协会:澳大利亚墨尔本计算语言学协会),1-11
[5] Barba,E。;普罗科皮奥,L。;Navigli,R.,ConSeC:作为连续意义理解的词义消歧,(2021年自然语言处理经验方法会议论文集,计算语言学协会:计算语言学在线协会和多米尼加共和国卡纳角),1492-1503
[6] 本德,E.M。;Koller,A.,《走向NLU:数据时代的意义、形式和理解》,(计算语言学协会第58届年会(2020年)会议记录),5185-5198,在线:计算语言学协会
[7] Y.本吉奥。;杜恰姆,R。;文森特,P。;Janvin,C.,神经概率语言模型,J.Mach。学习。第31137-1155号决议(2003年)·Zbl 1061.68157号
[8] Y.本吉奥。;杜恰姆,R。;文森特,P。;Jauvin,C.,神经概率语言模型,J.Mach。学习。第31137-1155号决议(2003年)·Zbl 1061.68157号
[9] 贝维拉夸,M。;纳维利,R.,突破80强
[10] 布莱,D.M。;Ng,A.Y。;Jordan,M.I.,《潜在迪里克莱分配》,J.Mach。学习。决议,3,993-1022(2003)·Zbl 1112.68379号
[11] 布莱文斯,T。;Zettlemoyer,L.,《利用有光泽的双编码技术消除词义歧义的长尾效应》,(计算语言学协会第58届年会(2020年)会议记录),1006-1017,在线:计算语言学协会
[12] Bojanowski,P。;格雷夫,E。;Joulin,A。;Mikolov,T.,用子词信息丰富词向量,Trans。关联计算。语言学家。,5135-146(2017)
[13] 布朗,T.B。;曼恩,B。;莱德,N。;Subbiah,M。;卡普兰,J。;Dhariwal,P。;Neelakantan,A。;Shyam,P。;萨斯特里,G。;Askell,A。;阿加瓦尔,S。;Herbert-Voss,A。;Krueger,G。;Henighan,T。;儿童,R。;A.拉梅什。;齐格勒,D.M。;吴杰。;温特,C。;黑塞,C。;陈,M。;西格勒,E。;利特温,M。;格雷,S。;国际象棋,B。;克拉克·J。;伯纳,C。;McCandlish,S。;Radford,A。;Sutskever,I。;Amodei,D.,语言模型是少数学生(2020年),CoRR
[14] 蔡振国。;吉尔伯特,R.A。;Davis,M.H。;盖斯克尔,M.G。;Farrar,L。;阿德勒,S。;Rodd,J.M.,《口音调节词义的获取:口语单词识别的说话人模型的证据》,Cogn。心理医生。,98, 73-101 (2017)
[15] Camacho-Collados,J。;Pilehvar,M.T.,《从单词到意义的嵌入:意义向量表示的调查》,J.Artif。智力。决议,63,743-788(2018)·Zbl 1486.68194号
[16] Camacho-Collados,J。;皮勒瓦尔,M.T。;科利尔,N。;Navigli,R.,SemEval-2017任务2:多语言和跨语言语义词相似性,(第11届国际语义评估研讨会论文集。第11届国际语义评估研讨会论文集,SemEval-2017(2017),计算语言学协会:温哥华计算语言学协会,加拿大),15-26
[17] Camacho-Collados,J。;Pilehvar,M.T。;Navigli,R.,NASARI:一种新的项目语义感知表示方法,(计算语言学协会北美分会2015年会议记录:人类语言技术(2015),计算语言学协会:计算语言学协会,科罗拉多州丹佛), 567-577
[18] Camacho-Collados,J。;Pilehvar,M.T。;Navigli,R.,Nasari:整合显性知识和语料库统计,以实现概念和实体的多语言表示,Artif。智力。,240, 36-64 (2016) ·Zbl 1386.68184号
[19] Chronis,G。;嗯,K。什么时候主教不象车?当它像一个拉比!用于估计语义关系的多原型BERT嵌入,(第24届计算自然语言学习会议论文集(2020)),227-244,在线:计算语言学协会
[20] 科拉·D·。;Mensa,E。;Radicioni,D.P.,LessLex:将多语言嵌入链接到LEXical项的SenSe表示,计算。语言学家。,46, 289-333 (2020)
[21] 科拉·D·。;Mensa,E。;Radicioni,D.P.,用语义嵌入计算语义相似性的新度量,Knowl-基于系统。,第206条,第106346页(2020年)
[22] 科拉·D·。;Mensa,E。;Radicioni,D.P.,《感官识别数据:词汇语义数据集》,《数据简介》,第32期,第106267条,pp.(2020)
[23] 科洛伯特,R。;Weston,J.,使用新型神经网络架构进行快速语义提取,(计算语言学协会第45届年会论文集(2007),计算语言学协会:计算语言学协会布拉格,捷克共和国),560-567
[24] 科洛伯特,R。;Weston,J.,《自然语言处理的统一架构:具有多任务学习的深层神经网络》(第25届机器学习国际会议论文集(2008)),160-167
[25] 科洛伯特,R。;韦斯顿,J。;博图,L。;卡伦,M。;Kavukcuoglu,K。;Kuksa,P.,自然语言处理(几乎)从头开始,J.Mach。学习。第12号决议,2493-2537(2011年)·Zbl 1280.68161号
[26] 戴,Z。;杨,Z。;Yang,Y。;Carbonell,J。;Le,Q。;Salakhutdinov,R.,Transformer-XL:定长语境下的专注语言模型,(计算语言学协会第57届年会(2019年)会议记录,计算语言学协会:计算语言学协会,意大利佛罗伦萨),2978-2988
[27] Deerwester,S.公司。;Dumais,S.T。;Furnas,G.W。;Landauer,T.K。;Harshman,R.,通过潜在语义分析进行索引,美国社会科学院。,41391-407(1990年)
[28] S.C.Deerwester,S.T.Dumais,G.W.Furnas,R.A.Harshman,T.K.Landauer,K.E.Lochbaum,L.A.Streeter,使用潜在语义结构的计算机信息检索,1989年,美国专利4839853。
[29] 德夫林,J。;Chang,M.-W。;Lee,K。;Toutanova,K.,BERT:针对语言理解的深层双向变压器预培训,(计算语言学协会北美分会2019年会议纪要:人类语言技术。计算语言学协会2019年北美分会会议纪要,人类语言技术,第一卷(2019),计算语言学协会:计算语言学协会(明尼苏达州明尼阿波利斯),4171-4186
[30] 道奇,J。;Ilharco,G。;施瓦茨,R。;Farhadi,A。;哈吉什尔齐,H。;Smith,N.,《微调预处理语言模型:权重初始化、数据顺序和提前停止》(2020年)
[31] 东,Z。;Dong,Q。;Hao,C.,Hownet与意义的计算(2006)
[32] 呃,K.,当你知道鳄鱼的同伴时,你对它了解多少?,塞芒。布拉马特。,9, 1-63 (2016)
[33] Ethayarajh,K.,语境化的单词表示如何?比较BERT、ELMo和GPT-2嵌入件的几何形状,(《2019年自然语言处理实证方法会议和第九届国际自然语言处理联合会议论文集》,《2019年度自然语言处理经验方法会议论文集和第九次自然语言处理国际联合会议论文录》,EMNLP-IJCNLP(2019),计算语言学协会:中国香港计算语言学协会),55-65
[34] Fellbaum,C.,Wordnet:电子词汇数据库(1998),麻省理工学院出版社·Zbl 0913.68054号
[35] Firth,J.,《1930-1955年语言学理论概要》,(语言分析研究(1957),语言学会:牛津语言学会),转载于Palmer,F.(1968年编辑)J.R.Firth的论文选集,Longman,Harlow
[36] Firth,J.R.,《语义学技术》,译。菲尔。《社会学杂志》,34,36-73(1935)
[37] 弗莱科娃,L。;Gurevych,I.,《Supersense embeddings:a unified model for Supersense interpretation,prediction,and use》(《计算语言学协会第54届年会论文集》,《计算语言学学会第54届年度会议论文集》长论文,第1卷(2016),计算语言学协会:计算语言学协会(德国柏林),2029-241
[38] Goldberg,Y.,《自然语言处理的神经网络方法》,Synth。莱克特。语言技术。,10, 1-309 (2017)
[39] 郭,C。;普莱斯,G。;孙,Y。;Weinberger,K.Q.,《关于现代神经网络的校准》,(Precup,D.;Teh,Y.W.,《第34届机器学习国际会议论文集》,《PMLR机器学习研究论文集》第70卷(2017),1321-1330
[40] Hamilton,W.L。;Leskovec,J。;Jurafsky,D.,历时词嵌入揭示了语义变化的统计规律,(《计算语言学协会第54届年会论文集》,《计算语言学学会第54届年度会议论文集》长篇论文,第1卷(2016),计算语言学协会:计算语言学协会(德国柏林),1489-1501
[41] Harris,Z.S.,《分布结构》,Word,第10期,第146-162页(1954年)
[42] 休伊特,J。;Manning,C.D.,在单词表示中寻找语法的结构探针,(计算语言学协会北美分会2019年会议记录:人类语言技术。计算语言学协会北美分会2019年会议记录:人类语言技术,长短论文,第1卷(2019),计算语言学协会:明尼苏达州明尼阿波利斯计算语言学协会,4129-4138
[43] 黄,E。;Socher,R。;曼宁,C。;Ng,A.,《通过全球语境和多个单词原型改进单词表征》,(计算语言学协会第50届年会会议记录,计算语言学学会第50届年度会议记录,长篇论文,第1卷(2012),计算语言学协会:韩国济州岛计算语言学协会),873-882
[44] 黄,L。;Sun,C。;邱,X。;Huang,X.,GlossBERT:BERT用于利用光泽知识进行词义消歧,(《2019年自然语言处理实证方法会议和第九届国际自然语言处理联合会议论文集》,《2019年度自然语言处理经验方法会议论文集和第九次自然语言处理国际联合会议论文录》,EMNLP-IJCNLP(2019),计算语言学协会:中国香港计算语言学协会),3509-3514
[45] 伊亚科巴奇,I。;Pilehvar,M.T。;Navigli,R.,SensEmbed:学习单词和关系相似性的意义嵌入,(《计算语言学协会第53届年会和第7届国际自然语言处理联合会议论文集》,《计算语言学学会第53届年会和第七届国际自然语文处理联合会议文献集》,长篇论文,第1卷)(2015),计算语言学协会:中国北京计算语言学协会,95-105
[46] Ide,N。;贝克,C.F。;费尔巴姆,C。;Passonneau,R.J.,《人工注释的子语料库:一个为人民服务的社区资源》(《计算语言学协会第48届年会会议记录》,《计算语言学学会第48届年会记录》,短文,瑞典乌普萨拉(2010)),68-73
[47] 卡帕尼帕蒂,P。;托斯特,V。;Sankalp Patel,S。;怀特黑德,S。;阿卜杜拉齐兹,I。;Balakrishnan,A。;Chang,M。;Fadnis,K。;Gunasekara,C。;马克尼,B。;马泰,N。;Talamadupula,K。;Fokoue,A.,《使用图卷积网络将知识注入文本蕴涵任务》(《AAAI人工智能会议论文集》,第34卷(2020年)),8074-8081
[48] Klein,D.E。;Murphy,G.L.,《多义词的表征》,J.Mem。Lang.,45,259-282(2001)
[49] Krishna,R。;Zhu,Y。;格罗斯,O。;约翰逊,J。;哈塔,K。;Kravitz,J。;陈,S。;Kalandis,Y。;李立杰。;Shamma,D.A。;伯恩斯坦,M。;Fei Fei,L.(视觉基因组:使用众包密集图像注释连接语言和视觉(2016))
[50] 工藤,T。;Richardson,J.,《句子片段:一种用于神经文本处理的简单且与语言无关的子词标记器和脱标记器》,(2018年自然语言处理经验方法会议论文集:系统演示(2018),计算语言学协会:计算语言学协会,比利时布鲁塞尔), 66-71
[51] 库兹涅佐夫,I。;Gurevych,I.,《框架问题:语言形式主义对探索结果的影响》,(《2020年自然语言处理经验方法会议论文集》,《2020年天然语言处理经验法会议论文集,EMNLP(2020)》),171-182,在线:计算语言学协会
[52] 兰,Z。;陈,M。;古德曼,S。;Gimpel,K。;Sharma,P。;Soricut,R.,Albert:《语言表征的自我监督学习》(国际学习表征会议(2020年))
[53] Landauer,T.K。;Dumais,S.T.,《柏拉图问题的解决方案:知识获取、归纳和表征的潜在语义分析理论》,《心理学》。修订版,104、211(1997)
[54] 莱文,Y。;Lenz,B。;O.达根。;O型闸板。;帕德诺斯,D。;谢里尔,O。;沙列夫·施瓦茨,S。;Shashua,A。;Shoham,Y.,SenseBERT:将一些意义引入BERT,(计算语言学协会第58届年会(2020年)会议记录),4656-4667,在线:计算语言学协会
[55] 刘易斯,M。;刘,Y。;戈亚尔,N。;Ghazvininejad,M。;Mohamed,A。;利维,O。;斯托亚诺夫,V。;Zettlemoyer,L.,BART:用于自然语言生成、翻译和理解的去噪序列到序列预训练,(计算语言学协会第58届年会论文集(2020)),7871-7880,在线:计算语言学协会
[56] 李,J。;Jurafsky,D.,《多义嵌入能提高自然语言理解吗?》?,(《2015年自然语言处理实证方法会议论文集》(2015),计算语言学协会:计算语言学协会,葡萄牙里斯本),1722-1732
[57] Lin,B.Y。;陈,X。;陈,J。;Ren,X.,KagNet:常识推理的知识软件图形网络,(《2019年自然语言处理实证方法会议和第九届国际自然语言处理联合会议论文集》,《2019年度自然语言处理经验方法会议论文集和第九次自然语言处理国际联合会议论文录》,EMNLP-IJCNLP(2019),计算语言学协会:中国香港计算语言学协会),2829-2839
[58] 刘,N.F。;加德纳,M。;贝林科夫,Y。;彼得斯,M.E。;Smith,N.A.,语境表征的语言知识和可转移性,(计算语言学协会北美分会2019年会议纪要:人类语言技术。计算语言学协会2019年北美分会会议纪要,人类语言技术,第一卷(2019),计算语言学协会:明尼苏达州明尼阿波利斯计算语言学协会,1073-1094
[59] 刘,Y。;奥特,M。;戈亚尔,N。;杜,J。;乔希,M。;陈,D。;利维,O。;刘易斯,M。;Zettlemoyer,L。;Stoyanov,V.,Roberta:一种稳健优化的BERT预训练方法(2019),CoRR
[60] Loureiro,D。;Camacho Collados,J.,《不要忽视显而易见的东西:关于歧义词在词义消歧中的作用》,(《2020自然语言处理实证方法会议论文集》。《2020自然语言处理实证方法会议论文集》,EMNLP(2020),3514-3520,在线:计算语言学协会
[61] Loureiro,D。;Jorge,A.,《语言建模有意义:通过WordNet传播表示以实现全面的词义消歧》,(计算语言学协会第57届年会(2019年)会议记录,计算语言学协会:计算语言学协会,意大利佛罗伦萨),5682-5691
[62] Loureiro,D。;Jorge,A.,LIAAD在SemDeep-5挑战:上下文中的单词(WiC),(第五届语义深度学习研讨会论文集。第五届语义学深度学习研讨会文献集,SemDepep-5(2019),计算语言学协会:中国澳门计算语言学协会),1-5
[63] Loureiro,D。;Rezaee,K。;Pilehvar,M.T。;Camacho-Collados,J.,词义消歧语言模型的分析与评价,计算机。语言学家。,1-55 (2021)
[64] Lund,K。;Burgess,C.,《从词汇共现中生成高维语义空间》,Behav。研究方法仪器。计算。,28, 203-208 (1996)
[65] 曼奇尼,M。;Camacho-Collados,J。;伊亚科巴奇,I。;Navigli,R.,《通过联合知识强化培训将单词和词义嵌入到一起》,(《第21届计算自然语言学习会议论文集》,《第21次计算自然语言教学会议论文集,CoNLL 2017(2017)》,计算语言学协会:加拿大温哥华计算语言学协会),100-111
[66] McCoy,T。;Pavlick,E。;Linzen,T.,《错误原因的正确性:诊断自然语言推理中的句法启发法》,(计算语言学协会第57届年会(2019年)会议记录,计算语言学协会:计算语言学协会,意大利佛罗伦萨),3428-3448
[67] 美国麦当劳。;拉姆斯卡,M.,《检验分布假设:语境对语义相似性判断的影响》(《认知科学学会第23届年会论文集》(2001)),611-616
[68] O.梅拉穆德。;Goldberger,J。;Dagan,I.,context2vec:学习通用语境嵌入双向LSTM,(第20届SIGNLL计算自然语言学习会议论文集(2016),计算语言学协会:计算语言学协会,德国柏林),51-61
[69] Merrill,W。;Goldberg,Y。;施瓦茨,R。;Smith,N.A.,《从未接地形式获得意义的可证明局限性:未来的语言模型将理解什么?(2021)
[70] 梅耶,C.M。;Gurevich,I.,Wiktionary:专家构建词典的新对手?探索合作词典编纂的可能性(2012年)
[71] Mickus,T。;Paperno,D。;常数,M。;van Deemter,K.,你什么意思,伯特?评估bert作为分布语义模型(《语言学计算学会学报》,第3卷(2020年))
[72] Mikolov,T。;Sutskever,I。;Chen,K。;Corrado,G。;Dean,J.,单词和短语的分布式表示及其合成性,(第26届国际神经信息处理系统会议论文集-第2卷。第26届神经信息处理系统国际会议论文集-第2卷,NIPS’13(2013),Curran Associates Inc.:美国纽约州红钩市Curran Associates Inc.,3111-3119
[73] 米科洛夫,T。;Sutskever,I。;Chen,K。;科拉多,G.S。;Dean,J.,单词和短语的分布式表示及其组合,(神经信息处理系统进展(2013)),3111-3119
[74] 米勒,G.A。;乔多罗,M。;南卡罗来纳州兰德斯。;莱科克,C。;Thomas,R.G.,《使用语义一致性进行意义识别》,(《人类语言技术:普莱恩斯博罗研讨会论文集》,《人类语言科技:新泽西州普莱恩斯博罗研讨会文献集》,1994年3月8日至11日(1994))
[75] Navigli,R.,《词义消歧:调查》,ACM Comput。调查。,41, 10:1-10:69 (2009)
[76] 纳维格利,R。;Ponzetto,S.P.,(BabelNet:构建一个非常大的多语言语义网络(2010)),216-225
[77] Neelakantan,A。;Shankar,J。;帕索斯,A。;McCallum,A.,向量空间中每个单词多个嵌入的有效非参数估计,(《2014年自然语言处理经验方法会议论文集》,《2014年天然语言处理实证方法会议论文录》,EMNLP(2014),计算语言学协会:计算语言学协会(卡塔尔多哈),1059-1069
[78] 奥斯古德,C.E。;Suci,G.J。;Tannenbaum,P.H.,《意义的测量》,第47卷(1957年),伊利诺伊大学出版社
[79] 奥特,M。;Edunov,S。;Baevski,A。;风扇,A。;毛重,S。;Ng,N。;Grangier,D。;Auli,M.,fairseq:一个快速、可扩展的序列建模工具包,(计算语言学协会北美分会2019年会议记录,计算语言学协会2019年北美分会会议记录,演示(2019),计算语言学协会:明尼苏达州明尼阿波利斯计算语言学协会),48-53
[80] Pasini,T.,《多语种词义消歧中的知识获取瓶颈问题》,(《第二十届国际人工智能联合会议论文集》,第二十届人工智能国际联合会议论文,IJCAI-20,日本横滨(2020))
[81] 佩列维纳,M。;阿雷菲耶夫,N。;比曼,C。;Panchenko,A.,《理解单词嵌入》(《第一届NLP表征学习研讨会论文集》(2016年),计算语言学协会:计算语言学协会,德国柏林),174-183
[82] 彭宁顿,J。;Socher,R。;Manning,C.,GloVe:单词表示的全球向量,(《2014年自然语言处理经验方法会议论文集》,《2014年天然语言处理实证方法会议论文录》,EMNLP(2014),计算语言学协会:卡塔尔多哈计算语言学协会), 1532-1543
[83] 佩雷拉,F。;卢,B。;普里切特,B。;Ritter,S。;格什曼,S.J。;Kanwisher,N。;博特维尼克,M。;Fedorenko,E.,《从大脑激活中寻找语言意义的通用解码器》,国家通讯社。,2018年1月9日至13日
[84] 彼得斯,M。;Neumann,M。;Iyyer,M。;加德纳,M。;克拉克,C。;Lee,K。;Zettlemoyer,L.,深层语境化词语表征,(《计算语言学协会北美分会2018年会议纪要:人类语言技术》,计算语言学协会北美洲分会2018年度会议纪要,人类语言技术,第1卷(2018),计算语言学协会:计算语言学协会(路易斯安那州新奥尔良),2227-2237
[85] 彼得斯,M。;Neumann,M。;Zettlemoyer,L。;Yih,W.-t.,《剖析上下文词嵌入:架构和表示》,(2018年自然语言处理实证方法会议论文集,计算语言学协会:计算语言学协会,比利时布鲁塞尔),1499-1509
[86] 彼得斯,M.E。;Neumann,M。;洛根·R。;施瓦茨,R。;乔希,V。;辛格,S。;Smith,N.A.,《知识增强的上下文词语表征》,(《2019年自然语言处理实证方法会议和第九届国际自然语言处理联合会议论文集》,《2019年度自然语言处理经验方法会议论文集和第九次自然语言处理国际联合会议论文录》,EMNLP-IJCNLP(2019),计算语言学协会:中国香港计算语言学协会),43-54
[87] Piantadosi,S.T。;Tily,H。;Gibson,E.,《语言中歧义的交际功能》,《认知》,122280-291(2012)
[88] Pilehvar,M.T。;Camacho-Collados,J.,WiC:用于评估上下文敏感意义表示的词中文本数据集,(计算语言学协会北美分会2019年会议纪要:人类语言技术。计算语言学协会2019年北美分会会议纪要,人类语言技术,第一卷(2019),计算语言学协会:明尼苏达州明尼阿波利斯计算语言学协会,1267-1273
[89] Pilehvar,M.T。;Camacho-Collados,J。;纳维格利,R。;Collier,N.,《将词义无缝集成到下游NLP应用程序中》,(计算语言学协会第55届年会会议记录,计算语言学学会第55届年度会议记录,长篇论文,第1卷(2017),计算语言学协会:加拿大温哥华计算语言学协会),1857-1869
[90] Pilehvar,M.T。;Collier,N.,De-confilated semantic representations,(2016年自然语言处理实证方法会议论文集,计算语言学协会:德克萨斯州奥斯汀计算语言学协会),1680-1690
[91] (Radach,R.;Deubel,H.;Vorstius,C.;Hofmann,M.,《第19届欧洲眼动会议摘要》(2017))。(Radach,R.;Deubel,H.;Vorstius,C.;Hofmann,M.,《第19届欧洲眼动会议摘要》(2017)),《眼动杂志》。决议,10(2017年)
[92] Radford,A。;吴杰。;儿童,R。;卢安(D.Luan)。;阿莫代伊·D·。;Sutskever,I.,语言模型是无监督的多任务学习者(2019年)
[93] 拉斐尔,C。;北沙泽尔。;罗伯茨。;Lee,K。;Narang,S。;马泰纳,M。;周,Y。;李伟(Li,W.)。;Liu,P.J.,用统一的文本到文本转换器探索迁移学习的极限,J.Mach。学习。决议,21,1-67(2020)·兹比尔07255171
[94] 拉加纳托,A。;Camacho-Collados,J。;Navigli,R.,《词义消歧:一个统一的评估框架和实证比较》,(计算语言学协会欧洲分会第十五届会议记录,计算语言学协会第十五届欧洲分会会议记录,长篇论文,第1卷(2017),计算语言学协会:计算语言学协会(西班牙巴伦西亚),99-110
[95] Reif,E。;袁,A。;Wattenberg,M。;维埃加斯,F.B。;科宁,A。;皮尔斯,A。;Kim,B.,《可视化和测量伯特的几何形状》,(Wallach,H.;Larochelle,H.,Beygelzimer,A.;dAlche-Buc,F.;Fox,E.;Garnett,R.,《神经信息处理系统的进展》,第32卷(2019年),Curran Associates,Inc.),8594-8603
[96] 雷辛格,J。;Mooney,R.J.,词义的多原型向量空间模型,(《人类语言技术:计算语言学协会北美分会2010年年度会议》(2010),计算语言学协会:加利福尼亚州洛杉矶计算语言学协会),109-117
[97] Rodd,J.M.,《进入语义空间:以歧义为中心的词语访问解释》,《心理学视角》。科学。,15,411-427(2020),PMID:31961780
[98] 罗杰斯,A。;科瓦莱瓦,O。;Rumshisky,A.,《BERTology入门:我们对BERT工作原理的了解》,Trans。关联计算。语言学家。,8, 842-866 (2020)
[99] Rothe,S。;Schütze,H.,AutoExtend:将单词嵌入扩展到词集和词素的嵌入,(《计算语言学协会第53届年会和第7届国际自然语言处理联合会议论文集》,《计算语言学学会第53届年会和第七届国际自然语文处理联合会议文献集》,长篇论文,第1卷)(2015),计算语言学协会:中国北京计算语言学协会,1793-1803
[100] Rousseeuw,P.J.,《Silhouettes:聚类分析解释和验证的图形辅助》,J.Comput。申请。数学。,20, 53-65 (1987) ·Zbl 0636.62059号
[101] 俄勒冈州Russakovsky。;邓,J。;苏,H。;克劳斯,J。;Satheesh,S。;马,S。;黄,Z。;Karpathy,A。;科斯拉,A。;伯恩斯坦,M。;A.C.Berg。;Fei-Fei,L.,ImageNet大规模视觉识别挑战,国际计算机杂志。视觉。,115, 211-252 (2015)
[102] Salton,G.,《智能系统》(检索结果和未来计划(1971))
[103] Salton,G。;Wong,A。;Yang,C.-S.,用于自动索引的向量空间模型,Commun。ACM,18613-620(1975年)·Zbl 0313.68082号
[104] 斯卡里尼,B。;帕西尼,T。;Navigli,R.,SensEmBERT:用于多语词义消歧的上下文增强意义嵌入,(《第三十四届人工智能会议论文集》(2020年),人工智能促进协会),8758-8765
[105] 斯卡里尼,B。;帕西尼,T。;Navigli,R.,《语境越多,表现越好:语境化意义嵌入用于全面词义消歧》,(《2020年自然语言处理经验方法会议论文集》,《2020年天然语言处理经验法会议论文集,EMNLP(2020)》),3528-3539,在线:计算语言学协会
[106] Schuler,K.K.,《动词网络:一个广泛、全面的动词词典》(2006),宾夕法尼亚大学博士论文
[107] Schutze,H.,意义的维度,(超级计算'92:1992 ACM/IEEE超级计算会议论文集(1992),IEEE),787-796
[108] Soler,A.G。;Apidianaki,M.,《让我们玩一对一游戏:伯特可以揭示单词的多义水平和意义的可分割性》,(计算语言学协会学报。计算语言学协会杂志,TACL(2021))
[109] 斯佩尔,R。;Chin,J。;Havasi,C.,Conceptnet 5.5:通用知识的开放式多语言图表,(《第三十届AAAI人工智能会议论文集》,第三十届APAI人工智慧会议论文集,AAAI'17(2017),AAAI出版社),4444-4451
[110] Tandon,N。;德梅洛,G。;Weikum,G.,WebChild 2.0:细粒度常识知识提炼,(2017年ACL会议录,系统演示(2017),计算语言学协会:加拿大温哥华计算语言学协会),115-120
[111] 我·坦尼。;达斯,D。;Pavlick,E.,BERT重新发现了经典的NLP管道,(计算语言学协会第57届年会(2019年)会议记录,计算语言学协会:计算语言学协会,意大利佛罗伦萨),4593-4601
[112] 我·坦尼。;夏,P。;陈,B。;王,A。;Poliak,A。;McCoy,R.T。;Kim,N。;Durme,B.V。;鲍曼,S.R。;达斯,D。;Pavlick,E.,你从上下文中学到了什么?语境化词语表征中的句子结构探索(2019年国际学习表征会议)
[113] 瓦斯瓦尼,A。;北沙泽尔。;北卡罗来纳州帕尔马。;Uszkoreit,J。;Jones,L。;A.N.戈麦斯。;凯撒,Ł。;Polosukhin,I.,《注意力是你所需要的一切》(神经信息处理系统进展(2017)),5998-6008
[114] 小瓶,L。;Lecouteux,B。;Schwab,D.,UFSAC:语义注释语料库和工具的统一,(第十一届国际语言资源与评估会议论文集。第十一届语言资源与评价国际会议论文集,2018(2018)LREC,欧洲语言资源协会(ELRA):欧洲语言资源协会(ELRA)宫崎骏,日本)
[115] 小瓶,L。;Lecouteux,B。;Schwab,D.,通过WordNet的语义知识进行语义词汇压缩以消除神经词义歧义,(第十届全球WordNet会议(2019年)论文集,全球WordnetAssociation:Global WordNet Association Wroclaw,Poland),108-117
[116] 沃伊塔,E。;森里奇,R。;Titov,I.,《变换器中表示的自下而上的演变:一项以机器翻译和语言建模为目标的研究》,(《2019年自然语言处理实证方法会议和第九届国际自然语言处理联合会议论文集》,《2019年度自然语言处理经验方法会议论文集和第九次自然语言处理国际联合会议论文录》,EMNLP-IJCNLP(2019),计算语言学协会:中国香港计算语言学协会),4396-4406
[117] Voita,E。;Talbot,D。;莫伊塞耶夫,F。;Sennrich,R。;Titov,I.,《分析多人的自我关注:专业化的人负责繁重的工作,其余的人可以修剪,》(计算语言学协会第57届年会(2019年)会议记录,计算语言学协会:计算语言学协会,意大利佛罗伦萨),5797-5808
[118] Vu,T。;Parker,D.S.,k-Embeddings:学习使用上下文的单词的概念嵌入,(计算语言学协会北美分会2016年会议记录:人类语言技术(2016),计算语言学协会:计算语言学协会,加利福尼亚州圣地亚哥), 1262-1267
[119] 武利奇,I。;彭蒂,E.M。;Litschko,R。;格拉瓦什,G。;Korhonen,A.,《探索词汇语义的预处理语言模型》,(《2020年自然语言处理经验方法会议论文集》,《2020年天然语言处理经验法会议论文集,EMNLP(2020)》),7222-7240,在线:计算语言学协会
[120] 王,A。;Pruksachatkun,Y。;Nangia,N。;辛格,A。;J·迈克尔。;希尔,F。;利维,O。;Bowman,S.,《Superglue:通用语言理解系统的粘性基准》(Wallach,H.;Larochelle,H.,Beygelzimer,a.;dAlche-Buc,F.;Fox,E.;Garnett,R.,《神经信息处理系统的进展》,第32卷(2019年),Curran Associates,Inc.)
[121] 维特根斯坦,L.,《哲学研究,翻译》,GEM Anscombe,261,49(1953)
[122] 沃尔夫,T。;首次亮相,L。;Sanh,V。;乔蒙德,J。;Delangue,C。;莫伊,A。;耳蜗,P。;Rault,T。;R楼。;Funtowicz,M。;戴维森·J。;Shleifer,S。;冯·普拉滕,P。;马,C。;Jernite,Y。;Plu,J。;徐,C。;Le Scao,T。;Gugger,S。;德拉姆,M。;洛伊斯特,Q。;Rush,A.,《变形金刚:最先进的自然语言处理》,(2020年自然语言处理经验方法会议论文集:系统演示(2020)),38-45,在线:计算语言学协会
[123] Yaghoobzadeh,Y。;Schütze,H.,单词嵌入表征的内禀子空间评估,(计算语言学协会第54届年会论文集,计算语言学协会54届年会刊,长篇论文,第1卷(2016),计算语言学协会:计算语言学协会(德国柏林),236-246
[124] 杨,Z。;戴,Z。;Yang,Y。;Carbonell,J。;Salakhutdinov,R.R。;Le,Q.V.,Xlnet:语言理解的广义自回归预训练,(神经信息处理系统进展(2019)),5753-5763
[125] Yarowsky,D.,无监督词义消歧与监督方法的比较,(计算语言学协会第33届年会(1995年),计算语言学协会:美国马萨诸塞州剑桥计算语言学协会),189-196
[126] 袁,D。;J·理查森。;多尔蒂,R。;埃文斯,C。;Altendorf,E.,用神经模型进行半监督词义消歧,(《2016年COLING会议记录》,第26届国际计算语言学会议:技术论文(2016),2016年COLING组委会:2016年COLING组委会,日本大阪),1374-1385
[127] 周,X。;萨普,M。;斯瓦亚米迪普塔,S。;Choi,Y。;Smith,N.,有毒语言检测中自动借记的挑战,(计算语言学协会欧洲分会第16届会议论文集:主要卷(2021年)),3143-3155,在线:计算语言学协会
[128] Zhu,Y。;基罗斯,R。;泽梅尔,R。;Salakhutdinov,R。;Urtasun,R。;托拉尔巴,A。;Fidler,S.,《调整书籍和电影:通过观看电影和阅读书籍实现故事般的视觉解释》(IEEE计算机视觉国际会议论文集(2015)),19-27
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。