具有基础模型和最佳传输的语音翻译:通用产品代码IWSLT公司23

Ioannis Tsiamas公司,杰拉尔德·加列戈,何塞·福诺洛萨,Marta R.Costa-jussá


摘要
本文描述了UPC机器翻译小组提交给IWSLT 2023离线语音翻译任务的情况。我们的语音翻译系统使用语音(wav2vec 2.0)和文本(mBART50)的基础模型。我们将语音和文本编码器的暹罗语预训练步骤与CTC和Optimal Transport相结合,以使语音表示适应文本模型的空间,从而最大限度地从MT进行转移学习。经过预训练后,我们在ST上使用交叉熵和知识提取对系统进行端到端微调。除了可用的ST语料库外,我们还使用SegAugment创建了合成数据,以更好地使我们的模型适应IWSLT测试集的自定义分段。我们最好的单一模型在MuST-C tst-COMMON上获得31.2 BLEU点,在IWLST.tst2020上获得29.8点,在新发布的IWSLT上获得33.4点。ACLdev2023。
选集ID:
2023.iwslt-1.38年
体积:
第20届国际口语翻译大会(IWSLT 2023)会议记录
月份:
七月
年份:
2023
地址:
加拿大多伦多(现场和在线)
编辑:
伊丽莎白·塞尔斯基,马塞洛·费德里科,海洋木瓜
地点:
IWSLT公司
SIG公司:
SIGSLT公司
出版商:
计算语言学协会
注:
页:
397–410
语言:
网址:
https://aclantology.org/2023.iwslt-1.38
内政部:
10.18653/v1/2023.iwslt-1.38
比比键:
引用(ACL):
Ioannis Tsiamas、Gerard I.Gállego、Jose Fonollosa和Marta R.Costa-jussá。2023基于基础模型和最佳传输的语音翻译:IWSLT23的UPC.英寸第20届国际口语翻译大会(IWSLT 2023)会议记录,第397-410页,加拿大多伦多(同人和在线)。计算语言学协会。
引用(非正式):
基于基础模型和最优传输的语音翻译:IWSLT23的UPC(Tsiamas等人,IWSLT 2023)
复制引文:
PDF格式:
https://aclantology.org/2023.iwslt-1.38.pdf