Multi-Model Fusion VoxSRC22 Speaker Diarization System

doi:10.3778/j.issn.1002-8331.2301-0080

摘要

摘要：为了有效地解决说话人日记化问题，提出了一种新的说话人日志化方法。该方法由六个模块组成，包括语音活动检测（VAD）、语音增强、说话人嵌入提取器、说话者聚类、重叠语音检测（OSD）和结果融合。语音增强技术的应用可以提高语音活动检测的性能。不同的说话人嵌入提取器和聚类算法的有效结合可以进一步降低说话人日记化错误率。系统融合后对重叠语音进行处理，可以获得最佳性能。实验结果表明，在VoxCeleb说话人识别挑战（VoxSRC）2022评估集上，该系统的性能优于基线72%，说话人日记错误率（DER）为5.48%，Jaccard错误率（JER）为32.10%，排名第四。

关键词： 说话人日记，语音活动检测，扬声器嵌入，扬声器组，结果融合

摘要：为有效解决“谁在什么时候说话”的问题，提出一种说话人日志方法。该方法由六个模块组成，包括语音活动检测（语音活动检测，VAD）、语音增强、说话人嵌入提取器、说话人聚类、重叠语音检测（重叠语音检测，OSD）和结果融合。利用语音增强技术可以改善语音活动检测的性能。有效地结合不同的说话人嵌入提取器和聚类算法可以进一步降低系统错误率。在系统融合后处理重叠语音展示了最佳结果。实验结果表明，最佳系统的性能相对基线提升了72%，VoxCeleb说话人识别挑战赛（VoxCeleb扬声器识别挑战，VoxSRC）2022评估集上分别实现了5.48%的说话人日志错误率（日记错误率，DER）和32.10%的杰卡德错误率（雅卡错误率，JER），名称四

关键词: 说话人日志, 语音活动检测, 声纹嵌入, 说话人聚类, 结果融合

杜宇轩，周若华。多模式融合VoxSRC22扬声器识别系统[J]。计算机工程与应用，2024，60（10）：164-172。

杜雨轩, 周若华. 多模型融合的VoxSRC22说话人日志系统[J] ●●●●。计算机工程与应用, 2024, 60(10): 164-172.

工具书类

[1] 安古拉·X，波赞奈特·S，埃文斯·N，等。说话人日记化：近期研究综述[J]。IEEE音频、语音和语言处理汇刊，2012，20（2）：356-370。
[2] GISH H，SIU M H，ROHLICEK R.用于语音识别和说话人识别的说话人分离[C]//《1991年声学、语音和信号处理国际会议论文集》，1991:873-876。
[3] SIU M H，YU G，GISH H。多人语音波形分割的无监督序贯学习算法[C]//1992年IEEE声学、语音和信号处理国际会议论文集，1992:189-192。
[4] ROHLICEK J R，AYUSO D，BATES M，et al.Gisting conversation speech[C]//1992年IEEE声学、语音和信号处理国际会议论文集，1992:113-116。
[5] 凌锦雯，陆伟，刘青松，等. 利用EHMM和CLR的说话人分割聚类算法[J] ●●●●。小型微型计算机系统, 2012, 33(6): 1389-1392.
凌建伟，陆伟，刘秋生，等.基于EHMM和CLR的说话人日记化[J]。中国计算机系统学报，2012，33（6）：1389-1392。
[6] CHEN S，GOPALAKRISHNAN P.演讲者，通过贝叶斯信息标准进行环境和频道变化检测和聚类[C]//DARPA广播新闻转录和理解研讨会论文集，1998，8:127-132。
[7] 钟家生，胡杰，娜格蕾娜A，等。现场对话：野外说话人日记[J]。arXiv:2007.012162020年。
[8] 徐志京, 张铁海. 加权全序列卷积神经网络方法的帕金森声纹识别研究[J] ●●●●。小型微型计算机系统, 2020, 41(12): 2683-2688.
徐志杰，张天海.基于加权深全序列卷积神经网络的帕金森声纹识别[J]。中国计算机系统杂志，2020，41（12）：2683-2688。
[9] LANDINI F，GLEMBEK O，MATěJKA P，et al.voxconverse挑战中的but dialization系统分析[C]//2021 IEEE声学、语音和信号处理国际会议论文集，2021:5819-5823。
[10] VARIANI E，LEI X，MCDERMOTT E，et al.用于小足迹文本相关说话人验证的深度神经网络[C]//2014 IEEE声学、语音和信号处理国际会议论文集，2014:4052-4056。
[11] HEIGOLD G，MORENO I，BENGIO S，et al.端到端文本相关说话人验证[C]//2016 IEEE声学、语音和信号处理国际会议论文集，2016:5115-5119。
[12] 王强，道尼C，WAN L，等.用LSTM进行说话人日记化[C]//2018 IEEE声学、语音和信号处理国际会议论文集，2018:5239-5243。
[13] 李清，KREYSSIG F L，ZHANG C，等.说话人日记的判别神经聚类方法[C]//2021年IEEE口语技术研讨会论文集，2021:574-581。
[14] PARK T J，HAN K J，KUMAR M，等.基于归一化最大特征间隙的说话人二值化自动调谐谱聚类[J]。IEEE信号处理快报，2019，27:381-385。
[15] KENNY P，REYNOLDS D，CASTALDO F.使用因素分析的电话对话日记[J]。IEEE信号处理选定主题杂志，2010，4（6）：1059-1070。
[16] 兰迪尼·F，PROFANT J，DIEZ M，等.说话人区分中x向量序列（VBx）的贝叶斯HMM聚类：理论、实现与标准任务分析[J]。计算机语音与语言，2022，71:101254。
[17] RAJ D，GARCIA-PERERA L P，HUANG Z，et al.DOVER-Lap:一种组合重叠软件日记化输出的方法[C]//2021 IEEE口语技术研讨会论文集，2021:881-888。
[18] RYANT N，SINGH P，KRISHNAMOHAN V，等.第三次DIHARD日记化挑战[J]。arXiv:2012.014772020年。
[19] CARLETTA J.释放杀手语料库：创建多元化AMI会议语料库的经验[J]。语言资源与评价，2007，41（2）：181-190。
[20] OTTERSON S，OSTENDORF M.在说话人日记化中有效使用重叠信息[C]//2007 IEEE自动语音识别与理解研讨会论文集，2007:683-686。
[21]布雷丁·H，尹·R，科里亚·J·M，等.皮亚诺特。音频：说话人日记化的神经构建块[C]//2020年IEEE声学、语音和信号处理国际会议论文集，2020年：7124-7128。
[22] 龙华, 张林濮, 邵玉斌, 等. 说话人特征约束的多任务卷积网络语音增强[J] ●●●●。小型微型计算机系统, 2021, 42(10): 2178-2183.
LONG H，ZHANG L P，SHAO Y B，等.基于说话人特征约束的多任务卷积网络语音增强[J]。中国计算机系统杂志，2021，42（10）：2178-2183。
[23]何凯，张X，任S，等.图像识别的深度剩余学习[C]//2016 IEEE计算机视觉与模式识别会议论文集，2016:770-778。
[24]娜格蕾娜A，钟家生，谢伟，等.VoxCeleb：大规模野外说话人验证[J]。计算机语音与语言，2020，60:101027。
[25]SNYDER D，CHEN G，POVEY D.MUSAN：一个音乐、语音和噪音语料库[J]。arXiv:15100.084842015年。
[26]KO T，PEDDINTI V，POVEY D等。用于鲁棒语音识别的混响语音数据增强研究[C]//2017年IEEE声学、语音和信号处理国际会议论文集，2017:5220-5224。
[27]王伟，秦X，程M，等.2022年VoxCeleb说话人识别挑战的DKU-SMIIP日记系统[C]//VoxSrc研讨会论文集，2022年。
[28]蔡Q，HONG G，YE Z，et al.2022年VoxCeleb说话人识别挑战的Kriston AI系统[J]。arXiv:2209.114332022。
[29]PARK D，YU Y，PARK K W，et al.2022 VoxCeleb说话人识别挑战日记化任务的GIST-AiTeR系统[J]。arXiv:2209.103572022年。
[30]TEVISSEN Y，BOUDY J，PETITPONT F.新闻桥接-电信SudParis VoxCeleb扬声器识别挑战2022系统描述[J]。arXiv:2301.074912023年。
[31]CHOI J H，JEOUNG Y R，KYUNG J，et al.HYU提交的2022年VoxCeleb说话人识别挑战[Z]。汉阳大学。电子工程系，2022年。

多型号融合VoxSRC22扬声器对讲系统

多模型融合的VoxSRC22说话人日志系统

PDF格式

知识

摘要

引用本文

分享这篇文章

工具书类

相关文章15

推荐文章

韵律学

[1]	徐熙、韩润平、高敬新。基于Conformer的实时多场景说话人识别模型[J] ●●●●。计算机工程与应用，2024，60（7）：147-156。
[2]	王世奇、曾庆宁、龙超、熊松龄、齐晓晓。用于语音增强和检测的多任务学习[J] ●●●●。计算机工程与应用，2021，57（20）：197-202。
[3]	赖松轩、李延雄。为说话人聚类生成初始聚类[J] ●●●●。计算机工程与应用，2017，53（3）：149-153。
[4]	恩德1、陈亚科1、毛哲龙2。基于FastICA的低信噪比下L-PLC语音的非连续传输[J] ●●●●。计算机工程与应用，2016，52（9）：108-111。
[5]	吴伟、李延雄、王子丽、陈竹云。基于语速差异的新闻发布会录音主讲人检测[J] ●●●●。计算机工程与应用，2015，51（4）：222-225。
[6]	王晓华、瞿磊。基于时频参数融合的自适应语音活动检测算法[J] ●●●●。计算机工程与应用，2015，51（20）：203-207。
[7]	田望兰、李佳生。深度信任网络在语音活动检测中的改进使用[J] ●●●●。计算机工程与应用，2014，50（20）：207-210。
[8]	孙占先、周飞煌、王江。语音端点检测的自适应算法[J] ●●●●。计算机工程与应用，2014，50（1）：206-210。
[9]	王景芳1、宁匡锋2。Toeplitz中含噪语音的语音活动鲁棒检测[J] ●●●●。计算机工程与应用，2013，49（18）：217-222。
[10]	侯丽霞、曾益成、焦蓓。强噪声环境下基于改进HHT的语音端点检测[J] ●●●●。计算机工程与应用，2012，48（28）：139-142。
[11]	王京芳。实时语音活动鲁棒检测[J] ●●●●。计算机工程与应用，2011，47（20）：147-150。
[12]	李强、黄兵、王淼。基于顺序统计滤波器的小波改进语音活动检测[J] ●●●●。计算机工程与应用，2011，47（19）：144-146。
[13]	刘福星、何玄森。基于三阶累积量的语音信号活性检测算法[J] ●●●●。计算机工程与应用，2011，47（17）：137-139。
[14]	刘仁清、顾志如。3G移动终端中信号音检测的实现[J] ●●●●。计算机工程与应用，2011，47（13）：131-133。
[15]	王刚锦、赵欢、胡连。基于小波变换C的语音活动检测方法₀复杂性[J] ●●●●。计算机工程与应用，2010，46（29）：134-136。