×

用于声源跟踪的集成语音活动检测的粒子滤波器。 (英语) Zbl 1168.94468号

摘要:在嘈杂和混响环境中,使用麦克风阵列进行声源定位和跟踪(ASLT)的问题带来了许多具有挑战性的困难。在考虑涉及人类说话者的真实世界情况时,主要问题之一是语音信号的时间不连续性:即使在低到中等噪声和混响水平的实际环境中,语音中存在的静音间隙也很容易误导跟踪算法。当前可用的声源跟踪算法的一个自然扩展是集成了语音活动检测(VAD)方案。我们描述了一种基于粒子滤波(PF)方法的新ASLT算法,其中VAD测量值在PF实现的统计框架内进行融合。该方法的跟踪精度结果基于图像方法生成的合成音频样本,而实时实现该算法并使用混响室中记录的真实音频数据获得的性能结果则发布在其他地方。与之前提出的PF算法相比,实验结果表明,当跟踪发出真实语音信号的源时,本文所述方法的鲁棒性得到了提高,而真实语音信号通常涉及话语之间的显著沉默间隙。

MSC公司:

第94页第13页 信息与通信理论中的探测理论
93E11号机组 随机控制理论中的滤波
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] doi:10.1109/TSA.2003.818112·doi:10.1109/TSA.2003.818112
[2] doi:10.1109/TSA.2004.833004·doi:10.1109/TSA.2004.833004
[3] doi:10.1016/S0165-1684(02)00206-2·Zbl 0994.94014号 ·doi:10.1016/S0165-1684(02)00206-2
[4] 网址:10.1155/S111086570330602X·Zbl 1036.94511号 ·网址:10.1155/S111086570330602X
[5] 数字对象标识代码:10.1155/S1110865703212038·Zbl 1065.94520号 ·doi:10.1155/S1110865703212038
[6] doi:10.1109/78.978374·doi:10.1109/78.978374
[7] doi:10.1049/ip-f-2.1993.0015·doi:10.1049/ip-f-2.1993.0015
[8] doi:10.1109/TASSP.1976.1162830·doi:10.1109/TASSP.1976.1162830
[9] 数字对象标识代码:10.1121/1.1911004·数字对象标识代码:10.1121/1.1911004
[10] 数字对象标识代码:10.1121/1.382599·数字对象标识代码:10.1121/1.382599
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。