计算机科学>声音
职务: 基于数据增强、类平衡损失和多上下文深度学习的口吃检测
摘要: 口吃是一种神经发育性言语障碍,其特征是不受控制的话语(插话)和核心行为(阻断、重复和延长),是由言语感觉运动的失败引起的。 由于其复杂性,口吃检测(SD)是一项困难的任务。 如果在早期发现,它可以帮助言语治疗师观察和纠正口吃者的言语模式(PWS)。 PWS的口吃语音通常数量有限,且高度不平衡。 为此,我们通过多分支(MB)方案解决了SD域中的类不平衡问题,并通过加权类在总体损失函数中的贡献,导致SEP-28k数据集上的结巴类相对于基线(StutterNet)有了巨大改进。 为了解决数据稀缺问题,我们在多分支训练方案的基础上研究了数据增强的有效性。 在宏观F1核心(F1)中,强化训练的表现优于MB StutterNet(干净),相对优势为4.18%。 此外,我们提出了一种多上下文(MC)口吃网,它利用了口吃语音的不同上下文,与基于单个上下文的MB口吃网相比,F1的整体性能提高了4.48%。 最后,我们已经表明,在跨语料库场景中应用数据增强可以在F1中提高整体SD表现,相对于干净训练,提高幅度为13.23%。