Contextual Speech Recognition in End-to-end Neural Network Systems Using Beam Search

Williams, Ian; Kannan, Anjuli; Aleksic, Petar; Rybach, David; Sainath, Tara

doi:10.21437/Interspeech.2018-2416

端到端神经网络系统中基于波束搜索的上下文语音识别

Ian Williams、Anjuli Kannan、Petar Aleksic、David Rybach、Tara Sainath

最近的工作表明，端到端（E2E）语音识别体系结构（如Listen Attend and Spell（LAS））可以在LVCSR任务中实现最先进的质量结果。这种架构的一个优点是它不需要单独训练发音模型、语言模型和声学模型。然而，此属性也引入了一个缺点：不可能从整个系统中单独调整语言模型贡献。因此，将动态的上下文信息（例如附近的餐馆或即将发生的事件）纳入识别需要与传统系统中应用的方法不同的方法。我们引入了一种技术，通过在波束搜索的每个步骤调整神经网络的输出可能性，调整推理过程以利用上下文信号。我们将该方法应用于LAS E2E模型，并在包含人工和真实上下文信息的语音搜索任务上进行了实验，结果表明了该方法的有效性。在最佳情况下，我们的系统将WER从9.2%降低到3.8%。结果表明，该技术在将上下文纳入E2E系统预测中是有效的。

doi:10.21437/Interspeech.2018-2416

引用：Williams，I.、Kannan，A.、Aleksic，P.、Rybach，D.、Sainath，T.（2018）《使用波束搜索的端到端神经网络系统中的上下文语音识别》。程序。Interspeech 2018，2227-2231，doi:10.21437/Interspeech 2018-2416

@正在进行{威廉姆斯18人谈话，author={Ian Williams、Anjuli Kannan、Petar Aleksic、David Rybach和Tara Sainath}，title={{使用波束搜索的端到端神经网络系统中的上下文语音识别}}，年份=2018年，booktitle={Proc.Interspeech 2018}，页码={2227--2231}，doi={10.21437/Interspeech.2018-2416}，issn={2958-1796}}