计算机工程与应用››2024,第60卷››发行(10): 164-172.内政部:10.3778/j.issn.1002-8331.2301-0080

•模式识别和人工智能• 以前的文章   下一篇文章

多型号融合VoxSRC22扬声器对讲系统

杜宇轩、周若华  

  1. 北京土木工程与建筑大学电气与信息工程学院,北京102616
  • 在线:2024-05-15 出版:2024-05-15

多模型融合的VoxSRC22说话人日志系统

杜雨轩,周若华  

  1. 北京建筑大学 电气与信息工程学院,北京 102616

摘要:为了有效地解决说话人日记化问题,提出了一种新的说话人日志化方法。该方法由六个模块组成,包括语音活动检测(VAD)、语音增强、说话人嵌入提取器、说话者聚类、重叠语音检测(OSD)和结果融合。语音增强技术的应用可以提高语音活动检测的性能。不同的说话人嵌入提取器和聚类算法的有效结合可以进一步降低说话人日记化错误率。系统融合后对重叠语音进行处理,可以获得最佳性能。实验结果表明,在VoxCeleb说话人识别挑战(VoxSRC)2022评估集上,该系统的性能优于基线72%,说话人日记错误率(DER)为5.48%,Jaccard错误率(JER)为32.10%,排名第四。

关键词: 说话人日记, 语音活动检测, 扬声器嵌入, 扬声器组, 结果融合

摘要:为有效解决谁在什么时候说话”的问题,提出一种说话人日志方法。该方法由六个模块组成,包括语音活动检测(语音活动检测,VAD)、语音增强、说话人嵌入提取器、说话人聚类、重叠语音检测(重叠语音检测,OSD)和结果融合。利用语音增强技术可以改善语音活动检测的性能。有效地结合不同的说话人嵌入提取器和聚类算法可以进一步降低系统错误率。在系统融合后处理重叠语音展示了最佳结果。实验结果表明,最佳系统的性能相对基线提升了72%,VoxCeleb说话人识别挑战赛(VoxCeleb扬声器识别挑战,VoxSRC)2022评估集上分别实现了5.48%的说话人日志错误率(日记错误率,DER)和32.10%的杰卡德错误率(雅卡错误率,JER),名称四

关键词: 说话人日志, 语音活动检测, 声纹嵌入, 说话人聚类, 结果融合