国际标准协会 档案文件 2018年国际演讲
国际标准协会 档案文件 2018年国际演讲

端到端神经网络系统中基于波束搜索的上下文语音识别

Ian Williams、Anjuli Kannan、Petar Aleksic、David Rybach、Tara Sainath

最近的工作表明,端到端(E2E)语音识别体系结构(如Listen Attend and Spell(LAS))可以在LVCSR任务中实现最先进的质量结果。这种架构的一个优点是它不需要单独训练发音模型、语言模型和声学模型。然而,此属性也引入了一个缺点:不可能从整个系统中单独调整语言模型贡献。因此,将动态的上下文信息(例如附近的餐馆或即将发生的事件)纳入识别需要与传统系统中应用的方法不同的方法。我们引入了一种技术,通过在波束搜索的每个步骤调整神经网络的输出可能性,调整推理过程以利用上下文信号。我们将该方法应用于LAS E2E模型,并在包含人工和真实上下文信息的语音搜索任务上进行了实验,结果表明了该方法的有效性。在最佳情况下,我们的系统将WER从9.2%降低到3.8%。结果表明,该技术在将上下文纳入E2E系统预测中是有效的。


doi:10.21437/Interspeech.2018-2416

引用:Williams,I.、Kannan,A.、Aleksic,P.、Rybach,D.、Sainath,T.(2018)《使用波束搜索的端到端神经网络系统中的上下文语音识别》。程序。Interspeech 2018,2227-2231,doi:10.21437/Interspeech 2018-2416

@正在进行{威廉姆斯18人谈话,author={Ian Williams、Anjuli Kannan、Petar Aleksic、David Rybach和Tara Sainath},title={{使用波束搜索的端到端神经网络系统中的上下文语音识别}},年份=2018年,booktitle={Proc.Interspeech 2018},页码={2227--2231},doi={10.21437/Interspeech.2018-2416},issn={2958-1796}}