计算机科学>机器学习
标题: 去噪LM:提高语音识别中纠错模型的极限
摘要: 语言模型(LM)长期以来一直被用于改善自动语音识别(ASR)系统的结果,但它们没有意识到ASR系统所产生的错误。 纠错模型是为了修复ASR错误而设计的,然而,与传统的LM相比,它们没有什么改进,主要是因为缺少有监督的训练数据。 在本文中,我们提出了去噪LM(DLM),它是一种使用大量合成数据训练的$\textit{scale}$错误校正模型,大大超过了以前的尝试,同时实现了最新的ASR性能。 我们使用文本到语音(TTS)系统合成音频,将音频输入ASR系统以产生噪声假设,然后与原始文本配对以训练DLM。 DLM有几个$\textit{关键成分}$:(i)升级模型和数据; (ii)多扬声器TTS系统的使用; (iii)多种噪声增强策略的组合; 以及(iv)新的解码技术。 使用Transformer CTC ASR,DLM在Librispeech上的$\textit{test clean}$上实现了1.5%的字错误率(WER),在$\textit{test other}$上实现了3.3%的字错误率,据我们所知,这是在不使用外部音频数据的情况下报告的最佳数字,甚至与使用外部音频数据的自我监督方法相匹配。 此外,单个DLM适用于不同的ASR,大大超过了传统的基于LM的波束搜索重搜索的性能。这些结果表明,经过适当研究的误差校正模型有潜力取代传统的LM,这是ASR系统达到新精度的关键。