文件Zbl 1477.68450-zbMATH打开

对于形态丰富的语言，Subwords是fastText的唯一替代品。（英语） Zbl 1477.68450号

程序。计算。柔和。 47，编号1，56-66（2021）.

摘要：在这项工作中，我们提出了基于子单词的替代方法来替代fastText单词嵌入算法。替代方法是对原始fastTexts模型的修改，但只依赖子单词信息，消除了对单词级向量的依赖，同时有助于大幅减少嵌入的大小。所提出的模型在其子词信息提取方法上有所不同：字符\（n \）-格、后缀和字节对编码单元。我们测试了3种形态丰富的语言：芬兰语、俄语和德语的形态分析和柠檬化任务中的模型。将结果与其他最近的基于子战场的模型进行了比较，结果始终较高。

MSC公司：

68T50型

自然语言处理

软件：

BERT（误码率）；亚当；德塞拉；手套

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Pinter，Y.、Guthrie，R.和Eisenstein，J.，《使用子单词RNN模拟单词嵌入》，Proc。2017年自然语言处理实证方法会议，哥本哈根，2017年，第102-112页。
[2]	Schick，T.和Schutze，H.，《注意模仿：通过关注信息上下文更好地嵌入单词》，Proc。2019年计算语言学协会北美分会会议：人类语言技术，明尼阿波利斯，2019年，第1卷，第489-494页。
[3]	Zhao，J.、Mudgal，S.和Liang，Y.，使用子单词包概括单词嵌入，Proc。2018年自然语言处理实证方法研讨会，布鲁塞尔，2018年，第601-606页。
[4]	Sasaki，S.、Suzuki，J.和Inui，K.，基于子词的词嵌入紧凑重建，Proc。2019年计算语言学协会北美分会会议：人类语言技术，明尼阿波利斯，2019年，第1卷，第3498-3508页。
[5]	Heinzerling，B.和Strube，M.，BPEmb：275种语言中的无标记预处理子词嵌入，Proc。第十一届国际语言资源与评估大会（LREC 2018），宫崎骏，2018年。
[6]	Zhu，Y.、Vulić，I.和Korhonen，A.，《利用子词信息学习单词表征的系统研究》，Proc。2019年《计算语言学协会北美分会：人类语言技术》，明尼阿波利斯，2019年，第1卷，第912-932页。
[7]	Bojanowski，P。；格雷夫，E。；Joulin，A。；Mikolov，T.，用子词信息丰富词向量，Trans。关联计算。语言学家。，5, 135-146 (2017) ·doi:10.1162/tacla_00051
[8]	Grave，E.、Bojanowski，P.、Gupta，P.，Joulin，A.和Mikolov，T.，学习157种语言的单词向量，Proc。第十一届国际语言资源与评估大会（LREC 2018），宫崎骏，2018年。
[9]	Shibata，Y.等人，《字节对编码：一种加速模式匹配的文本压缩方案》，九州大学技术代表：信息学系，1999年，编号：DOI-TR-161。
[10]	Pennington，J.、Socher，R.和Manning，C.D.，Glove:单词表示的全局向量，Proc。2014年自然语言处理实证方法会议（EMNLP），多哈，2014年，第1532-1543页。
[11]	《字符或语素：如何表示单词？》？，程序。第三次NLP代表性学习研讨会，墨尔本，2018，第144-153页。
[12]	Devlin，J.等人，BERT：用于语言理解的深层双向变换器的预培训，Proc。2019年计算语言学协会北美分会会议：人类语言技术，明尼阿波利斯，2019年，第1卷，第4171-4186页。
[13]	Mikolov，T.等人，《分布式单词表征预训练进展》，Proc。第十一届国际语言资源与评估大会（LREC 2018），宫崎骏，2018年。
[14]	Zhu，Y.等人，关于子词信息对真正低资源语言中的形态学任务的重要性，Proc。第23届计算自然语言学习大会（CoNLL），香港，2019年，第216-226页。
[15]	Zeman，D.等人，CoNLL 2018共享任务：从原始文本到通用依赖的多语言解析，Proc。CoNLL 2018共同任务：从原始文本到普遍依赖的多语言分析，布鲁塞尔，2018年，第1-21页。
[16]	Rybak，P.和Wróblewska，A.，用于标记、解析和柠檬化的半监督神经系统，Proc。CoNLL 2018共享任务：从原始文本到通用依赖关系的多语言解析，布鲁塞尔，2018，第45-54页。
[17]	Srivastava，R.K.、Greff，K.和Schmidhuber，J.，公路网，2015年，arXiv:1505.00387。
[18]	Diederik Kingma和Jimmy Ba，Adam：随机优化方法，Proc。2015年第三届国际学习代表大会，圣地亚哥，2015年。
[19]	Zeman，D.，Popel，M.，Straka，M.、Hajiá，J.、Nivre，J.，Ginter，F.、Lootolahti，J.和Pyysalo，S.、Petrov，S.，Potthast，M.和Tyers，F.，Badmaeva，E.，Gokirmak，M.；Nedoluzhko，A.和Cinková，S.；Haji，J..，Jr.，HlaváčováC.D.曼宁、S.舒斯特、S.雷迪、D.塔吉、。，Habash，N.、Leung，H.、de Marneffe，M.-C.、Sanguinetti，M.、Simi，M..、Kanayama，H.，de Paiva，V.、Droganova，K.、Alonso，H.M.、乔尔特金。，Sulubacak，U.，Uszkoreit，H.，Macketanz，V.，Burchartt，A.，Harris，K.，Marheinecke，K..，Rehm，G.，Kayadelen，T.，Attia，M.，Elkahky，A.，Yu，Z.，Pitler，E.，Lertpradit，S.，Mandl J，R.和Li，J。，CoNLL 2017共享任务：程序中从原始文本到通用依赖的多语言解析。CoNLL 2017共享任务：从原始文本到普遍依赖的多语言分析，计算语言学协会，2017年，第1-19页。
[20]	Boguslavsky，I.，SynTagRus——一个深度注释的俄语语料库，收录于《话语中的情感》，2014年，第367-380页。
[21]	Haverinen，K.，《为芬兰语构建基本资源：图尔库依赖树库》，语言研究评估。，48, 493-531 (2014) ·doi:10.1007/s10579-013-9244-1
[22]	Kilian，F.、Kohn，A.、Beuck，N.和Menzel，W.，《因为规模很重要：汉堡依赖树库》，Proc。语言资源和评估会议（LREC 2014），雷克雅未克，2014年。
[23]	Turdakov，D.、Astrakhantsev，N.、Nedumov，Y.、Sysoev，A.、Andrianov，I.、Mayorov，V.、Fedorenko，D.、Korshunov，A.和Kuznetsov，S.，《文本分析框架》，Proc。仪表系统。程序。RAS（Proc.ISP RAS），2014年，第26卷，第1期，第421-438页。
[24]	安德里亚诺夫，I.A。；马约罗夫，V.D。；Turdakov，D.Y.E.，基于方面的情感分析的现代方法，Proc。仪表系统。程序。RAS，27，5-22（2015）·doi:10.15514/ISPRAS-2015-27（5）-1
[25]	Zeman，D.、Nivre，J.、Abrams，M.等人，《普遍依赖性2.5》，查尔斯·大学数学与物理学院形式与应用语言学研究所（UFAL）LINDAT/CLARIAH-CZ数字图书馆，2019年。http://hdl.handle.net/1234/1-3105。

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

对于形态丰富的语言，Subwords是fastText的唯一替代品。（英语） Zbl 1477.68450号

MSC公司：

软件：

参考文献：

示例

领域

操作员

对于形态丰富的语言，Subwords是fastText的唯一替代品。 （英语） Zbl 1477.68450号

MSC公司：

软件：

参考文献：

对于形态丰富的语言，Subwords是fastText的唯一替代品。（英语） Zbl 1477.68450号