BUT Systems for IWSLT 2023 Marathi - Hindi Low Resource Speech Translation Task

Santosh Kesiraju; Karel Beneš; Maksim Tikhonov; Jan Černocký

doi:10.18653/v1/2023.iwslt-1.19

但是用于的系统IWSLT公司2023米阿拉蒂人-H（H）indi低资源语音翻译任务

Santosh Kesiraju公司,卡雷尔·贝内什,马克西姆·蒂霍诺夫,扬·切尔诺克

摘要

本文描述了系统提交的马拉地语到印地语低资源语音翻译任务。我们的主要提交基于端到端直接语音翻译系统，而对比系统是级联系统。这两个系统的主干都是一个Hindi-Marathi双语ASR系统，该系统接受了2790小时的不完全转录语音训练。端到端语音翻译系统直接从ASR初始化，然后对直接语音翻译进行微调，并附带翻译的CTC损失。级联系统的机器翻译模型是从跨语言语言模型初始化的，然后使用1.6M个平行句子对其进行微调。我们所有的系统都是在公共数据集上从头开始培训的。最后，我们使用一个语言模型来重新定义n个最佳假设。我们的第一次提交达到30.5和39.6 BLEU，而对比系统在官方开发和测试集上分别获得21.7和28.6 BLEU。本文还对所进行的几个实验进行了分析，并概述了在低资源场景中改进语音翻译的策略。

选集ID：: 2023.iwslt-1.19年
体积：: 第20届国际口语翻译大会（IWSLT 2023）会议记录
月份：: 七月
年份：: 2023
地址：: 加拿大多伦多（现场和在线）
编辑：: 伊丽莎白·萨莱斯基,马塞洛·费德里科,海洋木瓜
地点：: IWSLT公司
SIG公司：: SIGSLT公司
出版商：: 计算语言学协会
注：
页：: 227–234
语言：
网址：: https://aclantology.org/2023.iwslt-1.19
内政部：: 10.18653/v1/2023.iwslt-1.19
比比键：
引用（ACL）：: Santosh Kesiraju、Karel Beneš、Maksim Tikhonov和Jan Cournock。2023IWSLT 2023马拉地语-印地语低资源语音翻译任务的BUT系统.英寸第20届国际口语翻译大会（IWSLT 2023）会议记录，第227–234页，加拿大多伦多（面对面和在线）。计算语言学协会。
引用（非正式）：: IWSLT 2023马拉地语-印地语低资源语音翻译任务的BUT系统（Kesiraju等人，IWSLT 2023）
复制引文：
PDF格式：: https://aclantology.org/2023.iwslt-1.19.pdf

PDF格式引用搜索