Ixamed的提交说明WMT公司20生物医学共享任务:使用领域适应术语的优点和局限性

Xabier Soto公司,Olatz Perez-de-Viñaspre公司,戈卡·拉巴卡,梅特·奥罗诺兹


摘要
在本文中,我们描述了Ixa为参与WMT20生物医学共享任务而开发的系统,使用三种语言对,en-eu、en-es和es-en。在定义我们的方法时,我们将重点放在有效利用最近为训练机器翻译(MT)系统编译的语料库来翻译Covid-19相关文本,以及重用以前编译的语料和生物医学或临床领域开发的系统。关于所使用的技术,我们基于之前将临床文本翻译成巴斯克语的工作中的发现,利用临床术语将机器翻译系统适应临床领域。然而,在手动检查了我们的系统生成的一些输出后,对于大多数提交,我们最终使用的是仅使用基本语料库训练的系统,因为包括临床术语在内的系统生成输出的长度比相应的参考短。因此,我们提出了在英语和西班牙语之间翻译摘要的简单基准;在将英文摘要和术语翻译成巴斯克语(en-eu)时,我们将每种文本的最佳en-es系统与我们的es-eu系统连接起来。我们根据BLEU评分给出了自动评估结果,并分析了包括临床术语对生成输出的平均句子长度的影响。根据最近关于负责任地使用GPU进行NLP研究的建议,我们根据训练MT系统所消耗的功率估算了产生的CO2排放量。
选集ID:
2020.wmt-1.96年
体积:
第五届机器翻译会议记录
月份:
十一月
年份:
2020
地址:
在线的
编辑:
洛伊克兵营,Ondřej Bojar公司,费提·布加雷斯,拉金·查特吉,玛尔塔·R·科斯塔,克里斯蒂安·费德曼,马克·费舍尔,亚历山大·弗雷泽,伊维特·格雷厄姆,帕科·古兹曼,巴里·哈多,马蒂亚斯·哈克,安东尼奥·吉梅诺·耶佩斯,菲利普·科恩,安德烈·马丁斯,森田真本,克里斯托夫·蒙兹,长田正树,中泽俊一(Toshiaki Nakazawa),马泰奥·内格里
地点:
WMT公司
SIG公司:
SIGMT公司
出版商:
计算语言学协会
注:
页:
875–880
语言:
网址:
https://aclantology.org/2020.wmt-1.96
内政部:
比比键:
引用(ACL):
夏比尔·索托、奥拉兹·佩雷兹·德维尼亚斯佩雷、戈卡·拉巴卡和梅特·奥罗诺兹。2020Ixamed对WMT20生物医学共享任务的提交说明:使用领域适应术语的优点和局限性.英寸第五届机器翻译大会论文集,第875-880页,在线。计算语言学协会。
引用(非正式):
Ixamed对WMT20生物医学共享任务的提交说明:使用领域适应术语的优点和局限性(Soto等人,WMT 2020)
复制引文:
PDF格式:
https://aclantology.org/2020.wmt-1.96.pdf
视频:
 https://slideslive.com/38939549