Arabic Dysarthric Speech Recognition Using Adversarial and Signal-Based Augmentation

Baali, Massa; Almakky, Ibrahim; Shehata, Shady; Karray, Fakhri

计算机科学>声音

arXiv公司：2306.04368（cs）

【于2023年6月7日提交】

职务：基于对抗和信号增强的阿拉伯语发音困难语音识别

作者：马萨·巴利,易卜拉欣·阿尔马基,谢迪·沙哈塔,法赫里·卡雷

查看PDF

摘要：尽管自动语音识别（ASR）取得了重大进展，但即使使用高资源语言，最先进的ASR系统也难以处理受损语音。在阿拉伯语中，这一挑战被放大了，从发音障碍者那里收集数据的复杂性也增加了。在本文中，我们旨在通过多阶段增强方法来提高阿拉伯语构音障碍自动语音识别的性能。为此，我们首先提出了一种基于信号的方法，通过修改速度和节奏，从健康的阿拉伯语语音中生成发音障碍的阿拉伯语语音。我们还提出了一个第二阶段并行波生成（PWG）对抗模型，该模型基于英语构音障碍数据集进行训练，以捕获与语言无关的构音障碍语音模式，并进一步增加信号调节语音样本。此外，我们还针对不同构音障碍程度的阿拉伯语Conformer提出了一种微调和文本纠正策略。我们的微调Conformer对来自阿拉伯语通用语音数据集的合成发音障碍语音实现了18%的单词错误率（WER）和17.2%的字符错误率（CER）。这表明，与仅根据健康数据训练的基线模型相比，WER显著提高了81.8%。我们对真实的英语构音障碍语音进行了进一步验证，结果表明，与仅在健康英语LJSpeech数据集上训练的基线相比，WER提高了124%。

评论：	接受2023年Interspeech
学科：	声音（cs.SD）; 计算与语言（cs.CL）；音频和语音处理（eess.AS）
引用为：	arXiv公司：2306.04368[cs.SD]
	（或 arXiv:2306.04368v1[cs.SD]对于此版本）
	https://doi.org/10.48550/arXiv.2306.04368

提交历史记录

发件人：马萨·巴利[查看电子邮件]
[第1版]2023年6月7日星期三12:01:46 UTC（15668 KB）

计算机科学>声音

职务：基于对抗和信号增强的阿拉伯语发音困难语音识别

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>声音

职务：基于对抗和信号增强的阿拉伯语发音困难语音识别

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目