@在过程{peters-martins-2020-one,title=“一个尺寸适合所有多语言模型”,author=“彼得斯、本和安德烈·马丁斯“,editor=“尼古莱、加勒特和戈尔曼、凯尔和瑞安·科特雷尔”,booktitle=“第17届SIGMORPHON语音学、音韵学和形态学计算研究研讨会论文集”,月=七月,年份=“2020”,address=“在线”,publisher=“计算语言学协会”,url=“https://aclantology.org/2020.sigmorphon-1.4”,doi=“10.18653/v1/2020。sigmorphon-1.4”,pages=“63--69”,abstract=“本文介绍了DeepSPIN{'}提交给SIGMORPHON 2020共享任务的任务0和1。对于这两个任务,我们提出了多语言模型,联合训练所有语言的数据。我们不执行特定于语言的超参数调整{--}我们的每一份提交文件都对所有语言使用相同的模型。我们的基本架构是带有entmax注意力和损失的稀疏序列到序列模型,它允许我们的模型学习稀疏的局部对齐,同时仍然可以使用基于梯度的技术进行训练。对于任务1,我们使用基于RNN和基于变换的稀疏模型都取得了很好的性能。对于Task 0,我们将基于RNN的模型扩展到多编码器设置,在该设置中,单独的模块对引理和屈折序列进行编码。尽管我们的模型缺乏特定于语言的调优,但它们在Task 0中并列第一,在Task 1中排名第三。”,}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“peters-martins-2020-one”><标题信息>一种尺寸的所有多语言模型</titleInfo><name type=“personal”>本彼得斯<角色><roleTerm authority=“marcorrator”type=“text”>作者</roleTerm></角色></name><name type=“personal”>安德烈F</namePart><namePart type=“given”>T</namePart>马丁斯<角色><roleTerm authority=“marcorrator”type=“text”>作者</roleTerm></角色></name><originInfo>发布日期:2020-07发布日期:</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>第17届SIGMORPHON语音、语音和形态学计算研究研讨会论文集</titleInfo><name type=“personal”>加勒特尼古莱<角色>编辑器</角色></name><name type=“personal”>凯尔戈尔曼<角色>编辑器</角色></name><name type=“personal”>Ryan科特雷尔<角色>编辑器</角色></name><originInfo>计算语言学协会<位置>在线</place></originInfo>会议出版物</relatedItem><abstract>本文介绍了DeepSPIN提交给SIGMORPHON 2020共享任务的任务0和任务1。对于这两项任务,我们都提供了多语言模型,联合培训所有语言的数据。我们没有执行特定于语言的超参数调优-我们提交的每个文件对所有语言都使用相同的模型。我们的基本架构是带有entmax注意力和损失的稀疏序列到序列模型,它允许我们的模型学习稀疏的局部对齐,同时仍然可以使用基于梯度的技术进行训练。对于任务1,我们使用基于RNN和基于变换的稀疏模型都取得了很好的性能。对于任务0,我们将基于RNN的模型扩展到多编码器设置,其中单独的模块对引理和拐点序列进行编码。尽管我们的模型缺乏特定语言的调优,但它们在任务0中并列第一,在任务1中并列第三。</abstract>彼得斯-马丁斯-2020-one<identifier type=“doi”>10.18653/v1/2020。sigmorphon-1.4<位置><网址>https://aclantology.org/2020.sigmorphon-1.4</url></位置><部分><日期>2020-07</日期><扩展单元=“page”><开始>63<结束>69</范围></部分></mods></mods集合>
%0会议记录%T One Size适用于所有多语言模型%A Peters,Ben%A Martins,AndréF.T。%加勒特·Y·尼古拉%Y Gorman、Kyle%Y Cotterell,瑞安%第17届SIGMORPHON语音学、音韵学和形态学计算研究研讨会论文集%D 2020年%7月8日%计算语言学协会%C在线%F peters-martins-2020-one公司%X本文介绍了DeepSPIN提交给SIGMORPHON 2020共享任务的任务0和任务1。对于这两项任务,我们都提供了多语言模型,联合培训所有语言的数据。我们没有执行特定于语言的超参数调优-我们提交的每个文件对所有语言都使用相同的模型。我们的基本架构是带有entmax注意力和损失的稀疏序列到序列模型,它允许我们的模型学习稀疏的局部对齐,同时仍然可以使用基于梯度的技术进行训练。对于任务1,我们使用基于RNN和基于变换的稀疏模型都取得了很好的性能。对于Task 0,我们将基于RNN的模型扩展到多编码器设置,其中单独的模块对引理和屈折序列进行编码。尽管我们的模型缺乏特定于语言的调优,但它们在Task 0中并列第一,在Task 1中排名第三。%R 10.18653/v1/2020西格莫芬-1.4%U型https://aclantology.org/2020.sigmorphon-1.4%U型https://doi.org/10.18653/v1/2020 sigmorphon-1.4%电话63-69
降价(非正式)
[一种尺寸的所有多语言模型](https://aclantology.org/2020.sigmorphon-1.4)(彼得斯和马丁斯,SIGMORPHON 2020)
国际计算语言学协会
- 本·彼得斯和安德烈·F·T·马丁斯。2020一种尺寸的所有多语言模型.英寸第17届SIGMORPHON语音学、音韵学和形态学计算研究研讨会论文集,第63-69页,在线。计算语言学协会。