Very Deep Self-Attention Networks for End-to-End Speech Recognition

Pham, Ngoc-Quan; Nguyen, Thai-Son; Niehues, Jan; Müller, Markus; Waibel, Alex

doi:10.21437/Interspeech.2019-2702

用于端到端语音识别的深度自注意网络

Ngoc-Quan Pham、Thai-Son Nguyen、Jan Niehues、Markus Müller、Alex Waibel

最近，语音识别的端到端序列到序列模型在研究界引起了极大的兴趣。上一次时体系结构的选择围绕着时延神经网络（TDNN）和长短期记忆（LSTM）递归神经网络，我们提出通过Transformer架构使用自我关注作为替代方案。我们的分析表明，深度变压器网络具有较高的学习能力容量能够超过以前的端到端方法的性能甚至可以与传统的混合动力系统相匹配。此外，我们还进行了培训两个编码器最多48个变压器层的超深模型和解码器与随机剩余连接相结合提高泛化能力和训练效率。结果模型在Switchboard上优于所有以前的端到端ASR方法基准测试。这些模型的组合实现了9.9%和17.7%的WERSwitchboard和CallHome测试集。这一发现带来了我们的端到端模型与以前的混合系统具有竞争力。此外，通过模型集成，变形金刚可以超越某些混合系统，这两种结构都更复杂和培训程序。

doi:10.21437/Interspeech.2019-2702

引用：Pham，N.-Q.，Nguyen，T.-S.，Niehues，J.，Müller，M.，Waibel，A.（2019）《端到端语音识别的非常深入的自我注意网络》。程序。Interspeech 2019，66-70，doi:10.21437/Interspeech.2019-2702

@正在进行{pham19_interspeech，author={Ngoc-Quan Pham、Thai-Son Nguyen、Jan Niehues、Markus Müller和Alex Waibel}，title={{端到端语音识别的深度自我注意网络}}，年份=2019，booktitle={Proc.Interspeech 2019}，pages={66-70}页，doi={10.21437/Interspeech.2019-2702}，issn={2308-457X}}