硬件-TSC公司的参与WMT公司2021年大规模多语翻译任务

俞正哲戴梦伟李宗耀亨朝商陈晓宇(Xiaoyu Chen)吴章林郭嘉欣王明翰李志磊张敏(音)郝阳应钦


摘要
本文介绍了华为翻译服务中心(HW-TSC)提交给WMT 2021大型多语言翻译任务的情况。我们参加了Samll Track#2,包括6种语言:爪哇语(Jv)、印尼语(Id)、马来语(Ms)、塔加路语(Tl)、泰米尔语(Ta)和英语(En),在受限条件下有30个方向。我们使用Transformer架构,并通过具有较大参数的多个变量获得最佳性能。我们训练一个单一的多语言模型来翻译所有30个方向。我们对提供的大规模双语和单语数据集进行详细的预处理和过滤。我们使用了几种常用的策略来训练模型,例如反向翻译、正向翻译、集成知识提取、适配器微调。我们的模型最终取得了具有竞争力的结果。
选集ID:
2021.wmt-1.55年
体积:
第六届机器翻译会议记录
月份:
十一月
年份:
2021
地址:
在线的
编辑:
洛伊克·巴罗Ondrej Bojar公司费提·布加雷斯拉金·查特吉玛尔塔·科斯塔·朱萨克里斯蒂安·费德曼马克·费舍尔亚历山大·弗雷泽马库斯·弗雷塔格伊维特·格雷厄姆罗曼·格兰基维奇帕科·古兹曼巴里·哈多马蒂亚斯·哈克安东尼奥·吉梅诺·耶佩斯菲利普·科恩汤姆·科米安德烈·马丁斯森田真本克里斯托夫·蒙兹
地点:
WMT公司
SIG公司:
SIGMT公司
出版商:
计算语言学协会
注:
页:
456–463
语言:
网址:
https://aclantology.org/2021.wmt-1.55
内政部:
比比键:
引用(ACL):
俞正哲、魏代萌、李宗耀、尚恒超、陈晓宇、吴章林、郭嘉欣、王明翰、雷立志、张敏、杨浩和秦颖。2021HW-TSC参与WMT 2021大型多语言翻译任务.英寸第六届机器翻译会议记录,第456–463页,在线。计算语言学协会。
引用(非正式):
HW-TSC参与WMT 2021大型多语言翻译任务(Yu等人,WMT 2021)
复制引文:
PDF格式:
https://aclcollectory.org/2021.wmt-1.55.pdf