Comparing Supervised Models and Learned Speech Representations for Classifying Intelligibility of Disordered Speech on Selected Phrases

Venugopalan, Subhashini; Shor, Joel; Plakal, Manoj; Tobin, Jimmy; Tomanek, Katrin; Green, Jordan R.; Brenner, Michael P.

doi:10.21437/Interspeech.2021-1913

对无序语音的自动分类可以提供一个客观的识别语言障碍的存在和严重程度的工具。分类方法还可以帮助识别难以识别的教ASR系统可变表现形式的语音样本言语障碍。在这里，我们开发并比较了不同的深度学习无序语音的可懂度分类技术选定的短语。我们从661名不同的演讲者中收集了样本患有各种自我报告的疾病，说了29个单词或短语，由语言病理学家对其总体评价使用五点李克特量表的可懂度。然后我们评估使用3种方法开发的分类器：（1）卷积神经网络（CNN）接受任务训练，（2）分类器接受非语义训练使用无监督目标的CNN语音表示[1] ，和（3）基于声学（编码器）嵌入训练的分类器来自一个根据典型语音训练的ASR系统[2]。我们发现ASR编码器的嵌入大大优于其他两种对无序语音的检测和分类。进一步分析表明ASR嵌入通过口语短语聚类语音，而非语义嵌入按说话人对语音进行聚类。此外，更长短语比单句更能说明理解力不足话。

比较监督模型和习得语音表示对所选短语上无序语音的可理解性进行分类

Subhashini Venugopalan、Joel Shor、Manoj Plakal、Jimmy Tobin、Katrin Tomanek、Jordan R.Green、Michael P.Brenner