国际标准协会 档案文件 2020年国际演讲
国际标准协会 档案文件 2020年国际演讲

用于语音识别和直接翻译的相对位置编码

Ngoc-Quan Pham、Thanh-Le Ha、Tuan-Nam Nguyen、Thai-Son Nguyen、Elizabeth Salesky、Sebastian Stüker、Jan Niehues、Alex Waibel

变压器模型是强大的序列到序列架构能够将语音输入直接映射到转录本或翻译。然而,此模型中的位置建模机制该模型是为文本建模量身定制的,因此对于声学来说不太理想输入。在这项工作中,我们采用了相对位置编码方案到语音转换器,其中关键的添加是相对距离在自关注网络的输入状态之间。因此网络能更好地适应语音中的可变分布数据。我们的实验表明,我们得到的模型达到了最佳效果非增强中Switchboard基准的识别结果条件,以及MuST-C语音翻译中的最佳发布结果基准。我们还表明,该模型能够更好地利用合成数据比Transformer更适合可变句子分割语音翻译的质量。


doi:10.21437/Interspeech.2020-2526

引用:Pham,N.-Q.,Ha,T.-L.,Nguyen,T.-N.,Nugyen,T--S.,Salesky,E.,Stüker,S.,Niehues,J.,Waibel,A.(2020)《语音识别和直接翻译的相对位置编码》。程序。Interspeech 2020,31-35,doi:10.21437/Interspeech.2020-2526

@正在进行{pham20_interspeech,作者={Ngoc Quan Pham和Thanh Le Ha和Tuan Nam Nguyen和Thai Son Nguyen和Elizabeth Salesky和Sebastian Stüker和Jan Niethues和Alex Waibel},title={{语音识别和直接翻译的相对位置编码}},年=2020年,booktitle={Proc.Interspeech 2020},页数={31--35},doi={10.21437/Interspeech.2020-2526},issn={2958-1796}}