计算机科学>声音
职务: 基于对抗和信号增强的阿拉伯语发音困难语音识别
摘要: 尽管自动语音识别(ASR)取得了重大进展,但即使使用高资源语言,最先进的ASR系统也难以处理受损语音。 在阿拉伯语中,这一挑战被放大了,从发音障碍者那里收集数据的复杂性也增加了。 在本文中,我们旨在通过多阶段增强方法来提高阿拉伯语构音障碍自动语音识别的性能。 为此,我们首先提出了一种基于信号的方法,通过修改速度和节奏,从健康的阿拉伯语语音中生成发音障碍的阿拉伯语语音。 我们还提出了一个第二阶段并行波生成(PWG)对抗模型,该模型基于英语构音障碍数据集进行训练,以捕获与语言无关的构音障碍语音模式,并进一步增加信号调节语音样本。 此外,我们还针对不同构音障碍程度的阿拉伯语Conformer提出了一种微调和文本纠正策略。 我们的微调Conformer对来自阿拉伯语通用语音数据集的合成发音障碍语音实现了18%的单词错误率(WER)和17.2%的字符错误率(CER)。 这表明,与仅根据健康数据训练的基线模型相比,WER显著提高了81.8%。 我们对真实的英语构音障碍语音进行了进一步验证,结果表明,与仅在健康英语LJSpeech数据集上训练的基线相比,WER提高了124%。