Speech Translation with Foundation Models and Optimal Transport: UPC at IWSLT23

Ioannis Tsiamas; Gerard I. Gállego; José Fonollosa; Marta R. Costa-jussà

doi:10.18653/v1/2023.iwslt-1.38

具有基础模型和最佳传输的语音翻译：通用产品代码在IWSLT公司23

Ioannis Tsiamas公司,杰拉尔德·加列戈,何塞·福诺洛萨,Marta R.Costa-jussá

摘要

本文描述了UPC机器翻译小组提交给IWSLT 2023离线语音翻译任务的情况。我们的语音翻译系统使用语音（wav2vec 2.0）和文本（mBART50）的基础模型。我们将语音和文本编码器的暹罗语预训练步骤与CTC和Optimal Transport相结合，以使语音表示适应文本模型的空间，从而最大限度地从MT进行转移学习。经过预训练后，我们在ST上使用交叉熵和知识提取对系统进行端到端微调。除了可用的ST语料库外，我们还使用SegAugment创建了合成数据，以更好地使我们的模型适应IWSLT测试集的自定义分段。我们最好的单一模型在MuST-C tst-COMMON上获得31.2 BLEU点，在IWLST.tst2020上获得29.8点，在新发布的IWSLT上获得33.4点。ACLdev2023。

选集ID：: 2023.iwslt-1.38年
体积：: 第20届国际口语翻译大会（IWSLT 2023）会议记录
月份：: 七月
年份：: 2023
地址：: 加拿大多伦多（现场和在线）
编辑：: 伊丽莎白·塞尔斯基,马塞洛·费德里科,海洋木瓜
地点：: IWSLT公司
SIG公司：: SIGSLT公司
出版商：: 计算语言学协会
注：
页：: 397–410
语言：
网址：: https://aclantology.org/2023.iwslt-1.38
内政部：: 10.18653/v1/2023.iwslt-1.38
比比键：
引用（ACL）：: Ioannis Tsiamas、Gerard I.Gállego、Jose Fonollosa和Marta R.Costa-jussá。2023基于基础模型和最佳传输的语音翻译：IWSLT23的UPC.英寸第20届国际口语翻译大会（IWSLT 2023）会议记录，第397-410页，加拿大多伦多（同人和在线）。计算语言学协会。
引用（非正式）：: 基于基础模型和最优传输的语音翻译：IWSLT23的UPC（Tsiamas等人，IWSLT 2023）
复制引文：
PDF格式：: https://aclantology.org/2023.iwslt-1.38.pdf

PDF格式引用搜索