Training Simultaneous Speech Translation with Robust and Random Wait-k-Tokens Strategy

Linlin Zhang; Kai Fan; Jiajun Bu; Zhongqiang Huang

doi:10.18653/v1/2023.emnlp-main.484

基于鲁棒随机等待k-Tokens策略的语音同步翻译训练

摘要

同步语音翻译（SimulST）是一项旨在确保低延迟情况下语音的高质量翻译的任务。尽管如此，情态差异(例如，未知单词边界）音频和文本之间存在挑战。这种差距阻碍了同步文本翻译（SimulMT）策略的有效应用，并影响了离线语音翻译的性能。为了解决这个问题，我们首先利用蒙特利尔强制对准器（MFA）并利用音频转录对对声学编码器进行预训练，并引入一种标记级交叉模式对准，允许等待-k个SimulMT的政策以更好地适应SimulST。这种标记级边界对齐简化了预测读/写操作的决策过程，就像解码器直接处理文本标记一样。随后，为了优化SimulST任务，我们提出了一种鲁棒的随机等待-k个-代币策略。该策略允许单个模型满足各种延迟要求，并最大限度地减少推理过程中边界对齐的错误累积。我们在MuST-C数据集上的实验表明，我们的方法在翻译质量和延迟之间取得了更好的平衡。

选集ID:: 2023.emnlp-main.484年
体积：: 2023年自然语言处理实证方法会议记录
月份：: 十二月
年份：: 2023
地址：: 新加坡
编辑：: Houda Bouamor公司,胡安·皮诺,卡利卡-巴厘岛
地点：: EMNLP公司
SIG公司：
出版商：: 计算语言学协会
注：
页：: 7814–7831
语言：
网址：: https://aclantology.org/2023.emnlp-main.484
内政部：: 10.18653/v1/2023.emnlp-main.484
比比键：
引用（ACL）：: 张林林（Linlin Zhang）、范凯（Kai Fan）、卜佳军（Jiajun Bu）和黄忠强（Zhongqiang Huang）。2023基于鲁棒随机等待k-Tokens策略的语音同步翻译训练.英寸2023年自然语言处理实证方法会议记录，第7814–7831页，新加坡。计算语言学协会。
引用（非正式）：: 基于鲁棒随机等待k-Tokens策略的语音同步翻译训练（Zhang等人，EMNLP 2023）
复制引文：
PDF格式：: https://aclcollectory.org/2023.emnlp-main.484.pdf
视频：: https://aclantology.org/2023.emnlp-main.484.mp4网址

PDF格式引用搜索视频