Kernel Approximation Methods for Speech Recognition

Avner May; Alireza Bagheri Garakani; Zhiyun Lu; Dong Guo; Kuan Liu; Aurélien Bellet; Linxi Fan; Michael Collins; Daniel Hsu; Brian Kingsbury; Michael Picheny; Fei Sha

我们研究了核方法在自动语音识别声学建模任务中的性能，并将其与深度神经网络（DNN）的性能进行了比较。为了将核方法扩展到大型数据集，我们使用了Rahimi和Recht（2007）的随机傅里叶特征方法。我们提出了两种新的技术来提高内核声学模型的性能。首先，我们提出了一种简单但有效的特征选择方法，它减少了达到固定性能水平所需的随机特征数量。其次，我们提出了一些与在heldout集上计算时的语音识别性能密切相关的指标；我们通过使用这些指标来决定何时停止培训，从而提高了性能。此外，我们还表明，Sainath等人（2013a）的线性瓶颈方法除了加快训练速度和使模型更加紧凑外，还显著提高了内核模型的性能。通过利用这三种方法，内核方法在四个语音识别数据集（包括TIMIT和Broadcast News基准测试任务）中获得的令牌错误率比完全连接的DNN高0.5到0.1美元。

语音识别的核近似方法

摘要