语音识别的核近似方法

Avner May、Alireza Bagheri Garakani、Zhiyun Lu、Dong Guo、Kuan Liu、Aurélien Bellet、Linxi Fan、Michael Collins、Daniel Hsu、Brian Kingsbury、Michael Picheny、Fei Sha。

年份:2019年,数量:20,版本:59,页码:1−36


摘要

我们研究了核方法在自动语音识别声学建模任务中的性能,并将其与深度神经网络(DNN)的性能进行了比较。为了将核方法扩展到大型数据集,我们使用了Rahimi和Recht(2007)的随机傅里叶特征方法。我们提出了两种新的技术来提高内核声学模型的性能。首先,我们提出了一种简单但有效的特征选择方法,它减少了达到固定性能水平所需的随机特征数量。其次,我们提出了一些与在heldout集上计算时的语音识别性能密切相关的指标;我们通过使用这些指标来决定何时停止培训,从而提高了性能。此外,我们还表明,Sainath等人(2013a)的线性瓶颈方法除了加快训练速度和使模型更加紧凑外,还显著提高了内核模型的性能。通过利用这三种方法,内核方法在四个语音识别数据集(包括TIMIT和Broadcast News基准测试任务)中获得的令牌错误率比完全连接的DNN高0.5到0.1美元。

PDF格式 BibTeX公司