基于鲁棒随机等待k-Tokens策略的语音同步翻译训练

张林林(Linlin Zhang),范凯,加君布,黄忠强


摘要
同步语音翻译(SimulST)是一项旨在确保低延迟情况下语音的高质量翻译的任务。尽管如此,情态差异(例如,未知单词边界)音频和文本之间存在挑战。这种差距阻碍了同步文本翻译(SimulMT)策略的有效应用,并影响了离线语音翻译的性能。为了解决这个问题,我们首先利用蒙特利尔强制对准器(MFA)并利用音频转录对对声学编码器进行预训练,并引入一种标记级交叉模式对准,允许等待-k个SimulMT的政策以更好地适应SimulST。这种标记级边界对齐简化了预测读/写操作的决策过程,就像解码器直接处理文本标记一样。随后,为了优化SimulST任务,我们提出了一种鲁棒的随机等待-k个-代币策略。该策略允许单个模型满足各种延迟要求,并最大限度地减少推理过程中边界对齐的错误累积。我们在MuST-C数据集上的实验表明,我们的方法在翻译质量和延迟之间取得了更好的平衡。
选集ID:
2023.emnlp-main.484年
体积:
2023年自然语言处理实证方法会议记录
月份:
十二月
年份:
2023
地址:
新加坡
编辑:
Houda Bouamor公司,胡安·皮诺,卡利卡-巴厘岛
地点:
EMNLP公司
SIG公司:
出版商:
计算语言学协会
注:
页:
7814–7831
语言:
网址:
https://aclantology.org/2023.emnlp-main.484
内政部:
10.18653/v1/2023.emnlp-main.484
比比键:
引用(ACL):
张林林(Linlin Zhang)、范凯(Kai Fan)、卜佳军(Jiajun Bu)和黄忠强(Zhongqiang Huang)。2023基于鲁棒随机等待k-Tokens策略的语音同步翻译训练.英寸2023年自然语言处理实证方法会议记录,第7814–7831页,新加坡。计算语言学协会。
引用(非正式):
基于鲁棒随机等待k-Tokens策略的语音同步翻译训练(Zhang等人,EMNLP 2023)
复制引文:
PDF格式:
https://aclcollectory.org/2023.emnlp-main.484.pdf
视频:
 https://aclantology.org/2023.emnlp-main.484.mp4网址