Unsupervised domain adaptation for speech recognition with unsupervised error correction

Mai, Long; Carson-Berndsen, Julie

计算机科学>声音

arXiv:2209.12043（cs）

【2022年9月24日提交】

标题：基于无监督纠错的语音识别无监督域自适应

作者：龙迈,朱莉·卡森·伯恩德森

查看PDF

摘要：当转录来自未知域的音频时，自动语音识别（ASR）系统的转录质量会显著降低。我们提出了一种用于无监督ASR域自适应的无监督错误纠正方法，旨在恢复由域失配引起的转录错误。与依赖转录音频进行训练的现有校正方法不同，我们的方法只需要目标域的未标记数据，其中应用伪标记技术来生成校正训练样本。为了减少对伪数据的过度拟合，我们还提出了一个编码器-解码器校正模型，该模型可以考虑对话上下文和声学特征等附加信息。实验结果表明，与非自适应ASR系统相比，该方法可以显著降低误码率。该修正模型也可以应用于其他适应方法之上，从而带来10%的相对额外改进。

评论：	2022年Interspeech
学科：	声音（cs.SD）; 人工智能；机器学习（cs.LG）；音频和语音处理（eess.AS）
引用为：	arXiv:2209.12043[标准差]
	（或 arXiv:2209.12043v1[cs.SD]对于此版本）
	https://doi.org/10.48550/arXiv.2209.12043

提交历史记录

发件人：Long Mai Thanh[查看电子邮件]
[第1版]2022年9月24日星期六16:05:23 UTC（1210 KB）

计算机科学>声音

标题：基于无监督纠错的语音识别无监督域自适应

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>声音

标题：基于无监督纠错的语音识别无监督域自适应

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目