@进行中{zhang-etal-2023培训,title=“使用稳健和随机等待-k-Tokens策略训练同步语音翻译”,author=“张、林林和Fan、Kai和Bu、Jiajun和黄忠强”,editor=“Bouamor、Houda和皮诺、胡安和巴厘岛,卡利卡”,booktitle=“2023年自然语言处理实证方法会议记录”,月=12月,年=“2023”,address=“新加坡”,publisher=“计算语言学协会”,url=“https://aclantology.org/2023.emnlp-main.484”,doi=“10.18653/v1/2023.emnlp-main.484”,pages=“7814--7831”,abstract=“同步语音翻译(SimulST)是一项致力于确保低延迟情况下语音的高质量翻译的任务。尽管如此,模态缺口(例如,未知单词边界)音频和文本之间存在挑战。这种差距阻碍了同步文本翻译(SimulMT)策略的有效应用,并影响了离线语音翻译的性能。为了解决这个问题,我们首先利用蒙特利尔强制对准器(MFA),并在预训练声学编码器时使用音频转录对,并引入标记级交叉模式对准,允许SimulMT的wait-$k$策略更好地适应SimulST。这种标记级边界对齐简化了预测读/写操作的决策过程,就像解码器直接处理文本标记一样。随后,为了优化SimulST任务,我们提出了一种健壮的随机等待-$k$-令牌策略。该策略允许单个模型满足各种延迟要求,并最大限度地减少推理过程中边界对齐的误差积累。我们在MuST-C数据集上的实验表明,我们的方法在翻译质量和延迟之间取得了更好的平衡。",}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“zhang-etal-2023-培训”><标题信息><title>使用健壮和随机等待-k-Tokens策略训练同步语音翻译</titleInfo><name type=“personal”>林林<namePart type=“family”>张<角色>作者</角色></name><name type=“personal”><namePart type=“given”>Kai风扇<角色>作者</角色></name><name type=“personal”>佳骏Bu<角色>作者</角色></name><name type=“personal”>中强<namePart type=“given”>黄<namePart type=“family”><角色>作者</角色></name><originInfo>2023-12年发布日期</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>2023年自然语言处理实证方法会议记录</titleInfo><name type=“personal”>侯达布阿莫尔<角色><roleTerm authority=“marcorrator”type=“text”>编辑器</roleTerm></角色></name><name type=“personal”>胡安皮诺<角色><roleTerm authority=“marcorrator”type=“text”>编辑器</roleTerm></角色></name><name type=“personal”>卡利卡语<namePart type=“family”>巴厘岛</namePart><角色><roleTerm authority=“marcorrator”type=“text”>编辑器</roleTerm></角色></name><originInfo>计算语言学协会<位置>新加坡</place></originInfo>会议出版物</relatedItem>同步语音翻译(SimulST)是一项旨在确保低延迟情况下高质量语音翻译的任务。尽管如此,音频和文本之间的模态差异(例如,未知单词边界)仍然是一个挑战。这种差距阻碍了同步文本翻译(SimulMT)策略的有效应用,并影响了离线语音翻译的性能。为了解决这个问题,我们首先利用蒙特利尔强制对齐器(MFA)并利用音频转录对对声学编码器进行预训练,并引入标记级交叉模式对齐,使SimulMT的wait-k策略能够更好地适应SimulST。这种标记级边界对齐简化了预测读/写操作的决策过程,就像解码器直接处理文本标记一样。随后,为了优化SimulST任务,我们提出了一种稳健的随机等待k-tokens策略。该策略允许单个模型满足各种延迟要求,并最大限度地减少推理过程中边界对齐的错误累积。我们在MuST-C数据集上的实验表明,我们的方法在翻译质量和延迟之间取得了更好的平衡</摘要><identifier type=“citekey”>zhang-etal-2023培训</identifier>10.18653/v1/2023.emnlp-main.484<位置><网址>https://aclantology.org/2023.emnlp-main.484</url></位置><部分>2023-12年<扩展单元=“page”><开始>7814</开始>7831</范围></部分></mods></modsCollection>
%0会议记录%基于鲁棒随机等待k-Tokens策略的T训练语音同步翻译%A Zhang,林林%一个粉丝,Kai%阿卜、佳君%阿黄、中强%Y Bouamor,Houda公司%胡安·皮诺%Y巴厘岛,卡利卡%2023年自然语言处理实证方法会议论文集%D 2023年%12月8日%计算语言学协会%C新加坡%F zhang-etal-2023-培训%X同步语音翻译(SimulST)是一项旨在确保低延迟情况下高质量语音翻译的任务。尽管如此,音频和文本之间的模态差异(例如,未知单词边界)仍然是一个挑战。这种差距阻碍了同步文本翻译(SimulMT)策略的有效应用,并影响了离线语音翻译的性能。为了解决这个问题,我们首先利用蒙特利尔强制对齐器(MFA)并利用音频转录对对声学编码器进行预训练,并引入标记级交叉模式对齐,使SimulMT的wait-k策略能够更好地适应SimulST。这种标记级边界对齐简化了预测读/写操作的决策过程,就像解码器直接处理文本标记一样。随后,为了优化SimulST任务,我们提出了一种稳健的随机等待k-tokens策略。该策略允许单个模型满足各种延迟要求,并最大限度地减少推理过程中边界对齐的错误累积。我们在MuST-C数据集上的实验表明,我们的方法在翻译质量和延迟之间取得了更好的平衡。%R10.18653/v1/2023.emnlp-main.484%U型https://aclantology.org/2023.emnlp-main.484%U型https://doi.org/10.18653/v1/2023.emnlp-main.484%电话:7814-7831
降价(非正式)
[使用鲁棒和随机等待-k-Tokens策略训练同步语音翻译](https://acl选集.org/2023.emnlp-main.484)(Zhang等人,EMNLP 2023)
国际计算语言学协会
- 张林林(Linlin Zhang)、范凯(Kai Fan)、卜佳军(Jiajun Bu)和黄忠强(Zhongqiang Huang)。2023基于鲁棒随机等待k-Tokens策略的语音同步翻译训练.英寸2023年自然语言处理实证方法会议记录,第7814–7831页,新加坡。计算语言学协会。