×

对于形态丰富的语言,Subwords是fastText的唯一替代品。 (英语) Zbl 1477.68450号

摘要:在这项工作中,我们提出了基于子单词的替代方法来替代fastText单词嵌入算法。替代方法是对原始fastTexts模型的修改,但只依赖子单词信息,消除了对单词级向量的依赖,同时有助于大幅减少嵌入的大小。所提出的模型在其子词信息提取方法上有所不同:字符\(n \)-格、后缀和字节对编码单元。我们测试了3种形态丰富的语言:芬兰语、俄语和德语的形态分析和柠檬化任务中的模型。将结果与其他最近的基于子战场的模型进行了比较,结果始终较高。

MSC公司:

68T50型 自然语言处理
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Pinter,Y.、Guthrie,R.和Eisenstein,J.,《使用子单词RNN模拟单词嵌入》,Proc。2017年自然语言处理实证方法会议,哥本哈根,2017年,第102-112页。
[2] Schick,T.和Schutze,H.,《注意模仿:通过关注信息上下文更好地嵌入单词》,Proc。2019年计算语言学协会北美分会会议:人类语言技术,明尼阿波利斯,2019年,第1卷,第489-494页。
[3] Zhao,J.、Mudgal,S.和Liang,Y.,使用子单词包概括单词嵌入,Proc。2018年自然语言处理实证方法研讨会,布鲁塞尔,2018年,第601-606页。
[4] Sasaki,S.、Suzuki,J.和Inui,K.,基于子词的词嵌入紧凑重建,Proc。2019年计算语言学协会北美分会会议:人类语言技术,明尼阿波利斯,2019年,第1卷,第3498-3508页。
[5] Heinzerling,B.和Strube,M.,BPEmb:275种语言中的无标记预处理子词嵌入,Proc。第十一届国际语言资源与评估大会(LREC 2018),宫崎骏,2018年。
[6] Zhu,Y.、Vulić,I.和Korhonen,A.,《利用子词信息学习单词表征的系统研究》,Proc。2019年《计算语言学协会北美分会:人类语言技术》,明尼阿波利斯,2019年,第1卷,第912-932页。
[7] Bojanowski,P。;格雷夫,E。;Joulin,A。;Mikolov,T.,用子词信息丰富词向量,Trans。关联计算。语言学家。,5, 135-146 (2017) ·doi:10.1162/tacla_00051
[8] Grave,E.、Bojanowski,P.、Gupta,P.,Joulin,A.和Mikolov,T.,学习157种语言的单词向量,Proc。第十一届国际语言资源与评估大会(LREC 2018),宫崎骏,2018年。
[9] Shibata,Y.等人,《字节对编码:一种加速模式匹配的文本压缩方案》,九州大学技术代表:信息学系,1999年,编号:DOI-TR-161。
[10] Pennington,J.、Socher,R.和Manning,C.D.,Glove:单词表示的全局向量,Proc。2014年自然语言处理实证方法会议(EMNLP),多哈,2014年,第1532-1543页。
[11] 《字符或语素:如何表示单词?》?,程序。第三次NLP代表性学习研讨会,墨尔本,2018,第144-153页。
[12] Devlin,J.等人,BERT:用于语言理解的深层双向变换器的预培训,Proc。2019年计算语言学协会北美分会会议:人类语言技术,明尼阿波利斯,2019年,第1卷,第4171-4186页。
[13] Mikolov,T.等人,《分布式单词表征预训练进展》,Proc。第十一届国际语言资源与评估大会(LREC 2018),宫崎骏,2018年。
[14] Zhu,Y.等人,关于子词信息对真正低资源语言中的形态学任务的重要性,Proc。第23届计算自然语言学习大会(CoNLL),香港,2019年,第216-226页。
[15] Zeman,D.等人,CoNLL 2018共享任务:从原始文本到通用依赖的多语言解析,Proc。CoNLL 2018共同任务:从原始文本到普遍依赖的多语言分析,布鲁塞尔,2018年,第1-21页。
[16] Rybak,P.和Wróblewska,A.,用于标记、解析和柠檬化的半监督神经系统,Proc。CoNLL 2018共享任务:从原始文本到通用依赖关系的多语言解析,布鲁塞尔,2018,第45-54页。
[17] Srivastava,R.K.、Greff,K.和Schmidhuber,J.,公路网,2015年,arXiv:1505.00387。
[18] Diederik Kingma和Jimmy Ba,Adam:随机优化方法,Proc。2015年第三届国际学习代表大会,圣地亚哥,2015年。
[19] Zeman,D.,Popel,M.,Straka,M.、Hajiá,J.、Nivre,J.,Ginter,F.、Lootolahti,J.和Pyysalo,S.、Petrov,S.,Potthast,M.和Tyers,F.,Badmaeva,E.,Gokirmak,M.;Nedoluzhko,A.和Cinková,S.;Haji,J..,Jr.,HlaváčováC.D.曼宁、S.舒斯特、S.雷迪、D.塔吉、。,Habash,N.、Leung,H.、de Marneffe,M.-C.、Sanguinetti,M.、Simi,M..、Kanayama,H.,de Paiva,V.、Droganova,K.、Alonso,H.M.、乔尔特金。,Sulubacak,U.,Uszkoreit,H.,Macketanz,V.,Burchartt,A.,Harris,K.,Marheinecke,K..,Rehm,G.,Kayadelen,T.,Attia,M.,Elkahky,A.,Yu,Z.,Pitler,E.,Lertpradit,S.,Mandl J,R.和Li,J。,CoNLL 2017共享任务:程序中从原始文本到通用依赖的多语言解析。CoNLL 2017共享任务:从原始文本到普遍依赖的多语言分析,计算语言学协会,2017年,第1-19页。
[20] Boguslavsky,I.,SynTagRus——一个深度注释的俄语语料库,收录于《话语中的情感》,2014年,第367-380页。
[21] Haverinen,K.,《为芬兰语构建基本资源:图尔库依赖树库》,语言研究评估。,48, 493-531 (2014) ·doi:10.1007/s10579-013-9244-1
[22] Kilian,F.、Kohn,A.、Beuck,N.和Menzel,W.,《因为规模很重要:汉堡依赖树库》,Proc。语言资源和评估会议(LREC 2014),雷克雅未克,2014年。
[23] Turdakov,D.、Astrakhantsev,N.、Nedumov,Y.、Sysoev,A.、Andrianov,I.、Mayorov,V.、Fedorenko,D.、Korshunov,A.和Kuznetsov,S.,《文本分析框架》,Proc。仪表系统。程序。RAS(Proc.ISP RAS),2014年,第26卷,第1期,第421-438页。
[24] 安德里亚诺夫,I.A。;马约罗夫,V.D。;Turdakov,D.Y.E.,基于方面的情感分析的现代方法,Proc。仪表系统。程序。RAS,27,5-22(2015)·doi:10.15514/ISPRAS-2015-27(5)-1
[25] Zeman,D.、Nivre,J.、Abrams,M.等人,《普遍依赖性2.5》,查尔斯·大学数学与物理学院形式与应用语言学研究所(UFAL)LINDAT/CLARIAH-CZ数字图书馆,2019年。http://hdl.handle.net/1234/1-3105。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。