但是用于的系统IWSLT公司2023阿拉蒂人-H(H)indi低资源语音翻译任务

Santosh Kesiraju公司,卡雷尔·贝内什,马克西姆·蒂霍诺夫,扬·切尔诺克


摘要
本文描述了系统提交的马拉地语到印地语低资源语音翻译任务。我们的主要提交基于端到端直接语音翻译系统,而对比系统是级联系统。这两个系统的主干都是一个Hindi-Marathi双语ASR系统,该系统接受了2790小时的不完全转录语音训练。端到端语音翻译系统直接从ASR初始化,然后对直接语音翻译进行微调,并附带翻译的CTC损失。级联系统的机器翻译模型是从跨语言语言模型初始化的,然后使用1.6M个平行句子对其进行微调。我们所有的系统都是在公共数据集上从头开始培训的。最后,我们使用一个语言模型来重新定义n个最佳假设。我们的第一次提交达到30.5和39.6 BLEU,而对比系统在官方开发和测试集上分别获得21.7和28.6 BLEU。本文还对所进行的几个实验进行了分析,并概述了在低资源场景中改进语音翻译的策略。
选集ID:
2023.iwslt-1.19年
体积:
第20届国际口语翻译大会(IWSLT 2023)会议记录
月份:
七月
年份:
2023
地址:
加拿大多伦多(现场和在线)
编辑:
伊丽莎白·萨莱斯基,马塞洛·费德里科,海洋木瓜
地点:
IWSLT公司
SIG公司:
SIGSLT公司
出版商:
计算语言学协会
注:
页:
227–234
语言:
网址:
https://aclantology.org/2023.iwslt-1.19
内政部:
10.18653/v1/2023.iwslt-1.19
比比键:
引用(ACL):
Santosh Kesiraju、Karel Beneš、Maksim Tikhonov和Jan Cournock。2023IWSLT 2023马拉地语-印地语低资源语音翻译任务的BUT系统.英寸第20届国际口语翻译大会(IWSLT 2023)会议记录,第227–234页,加拿大多伦多(面对面和在线)。计算语言学协会。
引用(非正式):
IWSLT 2023马拉地语-印地语低资源语音翻译任务的BUT系统(Kesiraju等人,IWSLT 2023)
复制引文:
PDF格式:
https://aclantology.org/2023.iwslt-1.19.pdf