Denoising LM: Pushing the Limits of Error Correction Models for Speech Recognition

Gu, Zijin; Likhomanenko, Tatiana; Bai, He; McDermott, Erik; Collobert, Ronan; Jaitly, Navdeep

计算机科学>机器学习

arXiv公司：2405.15216（个）

【于2024年5月24日提交】

标题：去噪LM：提高语音识别中纠错模型的极限

作者：紫金谷,塔蒂亚娜·利霍马连科,何白,埃里克·麦克德莫特,罗南·科洛伯特,纳维德普·贾特利

查看PDF HTML（实验性）

摘要：语言模型（LM）长期以来一直被用于改善自动语音识别（ASR）系统的结果，但它们没有意识到ASR系统所产生的错误。纠错模型是为了修复ASR错误而设计的，然而，与传统的LM相比，它们没有什么改进，主要是因为缺少有监督的训练数据。在本文中，我们提出了去噪LM（DLM），它是一种使用大量合成数据训练的$\textit{scale}$错误校正模型，大大超过了以前的尝试，同时实现了最新的ASR性能。我们使用文本到语音（TTS）系统合成音频，将音频输入ASR系统以产生噪声假设，然后与原始文本配对以训练DLM。DLM有几个$\textit{关键成分}$：（i）升级模型和数据；（ii）多扬声器TTS系统的使用；（iii）多种噪声增强策略的组合；以及（iv）新的解码技术。使用Transformer CTC ASR，DLM在Librispeech上的$\textit｛test clean｝$上实现了1.5%的字错误率（WER），在$\textit｛test other｝$上实现了3.3%的字错误率，据我们所知，这是在不使用外部音频数据的情况下报告的最佳数字，甚至与使用外部音频数据的自我监督方法相匹配。此外，单个DLM适用于不同的ASR，大大超过了传统的基于LM的波束搜索重搜索的性能。这些结果表明，经过适当研究的误差校正模型有潜力取代传统的LM，这是ASR系统达到新精度的关键。

评论：	正在审查中
学科：	机器学习（cs.LG）; 计算与语言（cs.CL）；声音（cs.SD）；音频和语音处理（eess.AS）
引用为：	arXiv公司：2405.15216【cs.LG】
	（或 arX病毒：2405.15216v1【cs.LG】对于此版本）
	https://doi.org/10.48550/arXiv.2405.15216

提交历史记录

发件人：Tatiana Likhomanenko[查看电子邮件]
[第1版]2024年5月24日星期五05:05:12 UTC（523 KB）

计算机科学>机器学习

标题：去噪LM：提高语音识别中纠错模型的极限

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>机器学习

标题：去噪LM：提高语音识别中纠错模型的极限

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目