Advancing Stuttering Detection via Data Augmentation, Class-Balanced Loss and Multi-Contextual Deep Learning

Sheikh, Shakeel A.; Sahidullah, Md; Hirsch, Fabrice; Ouni, Slim

计算机科学>声音

arXiv公司：2302.11343（cs）

【于2023年2月21日提交】

职务：基于数据增强、类平衡损失和多上下文深度学习的口吃检测

作者：沙克尔·A·谢赫,萨希杜拉夫人,Fabrice Hirsch公司,修身Ouni

查看PDF

摘要：口吃是一种神经发育性言语障碍，其特征是不受控制的话语（插话）和核心行为（阻断、重复和延长），是由言语感觉运动的失败引起的。由于其复杂性，口吃检测（SD）是一项困难的任务。如果在早期发现，它可以帮助言语治疗师观察和纠正口吃者的言语模式（PWS）。PWS的口吃语音通常数量有限，且高度不平衡。为此，我们通过多分支（MB）方案解决了SD域中的类不平衡问题，并通过加权类在总体损失函数中的贡献，导致SEP-28k数据集上的结巴类相对于基线（StutterNet）有了巨大改进。为了解决数据稀缺问题，我们在多分支训练方案的基础上研究了数据增强的有效性。在宏观F1核心（F1）中，强化训练的表现优于MB StutterNet（干净），相对优势为4.18%。此外，我们提出了一种多上下文（MC）口吃网，它利用了口吃语音的不同上下文，与基于单个上下文的MB口吃网相比，F1的整体性能提高了4.48%。最后，我们已经表明，在跨语料库场景中应用数据增强可以在F1中提高整体SD表现，相对于干净训练，提高幅度为13.23%。

评论：	IEEE生物医学健康信息学杂志2023收录
学科：	声音（cs.SD）; 机器学习（cs.LG）；音频和语音处理（eess.AS）
引用为：	arXiv公司：2302.11343[cs.SD]
	（或 arXiv:2302.11343v1[cs.SD]对于此版本）
	https://doi.org/10.48550/arXiv.2302.11343

提交历史记录

发件人：Shakel Ahmad Sheikh[查看电子邮件]
[第1版]2023年2月21日星期二14:03:47 UTC（1480 KB）

计算机科学>声音

职务：基于数据增强、类平衡损失和多上下文深度学习的口吃检测

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>声音

职务：基于数据增强、类平衡损失和多上下文深度学习的口吃检测

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目