×

歧管上的数据驱动多麦克风扬声器定位。 (英语) Zbl 1461.94037号

摘要:语音增强是音频信号处理的核心问题,在手机、电话会议系统、智能助理和助听器等各种设备中都有商业应用。声源定位是语音增强算法设计中的一个重要组成部分。扬声器定位也直接适用于许多其他与音频相关的任务,例如,自动摄像机转向、电话会议系统和机器人试听。
从信号处理的角度来看,说话人定位是将多通道语音信号映射到三维源坐标的任务。为了获得这种映射的可行解决方案,需要准确描述各个声信道捕获的源波传播。事实上,声道可以被视为表征混响室内每个声源位置的空间指纹。这些指纹代表了外壳表面和物体的复杂反射图案。因此,它们通常由大量系数建模,从而产生复杂的高维表示。
我们声称,在静态声学环境中,尽管具有高维表示,声信道之间的差异主要归因于声源位置的变化。因此,声信道变化的真实固有维数明显小于通常用于表示它们的变量数量;也就是说,声学信道属于低维流形,可以使用非线性降维技术从数据中推断。在真实声学环境中进行的综合实验研究证明了所提出的基于流形的范式的有效性。
基于这一结果,利用新的数学工具在流形上学习,包括扩散映射、半监督学习、再生核Hilbert空间中的优化和高斯过程推理,开发了几种高性能的定位和跟踪方法。我们提出了两种定位算法,这两种算法是为两个话筒组成的单个话筒阵列设计的。通过合并与每个阵列相关的不同流形的信息,将这些算法扩展到多个分布式阵列。数据驱动传播模型将抽象流形上的运动与实际震源位移联系起来,从而实现了对移动震源的跟踪。该数据驱动传播模型与经典定位方法相结合,采用混合算法,将经典定位和数据驱动定位这两个世界联系在一起,同时兼得两者的优点。我们表明,所提出的算法优于最先进的定位方法,并在具有挑战性的噪声和混响环境中获得了高精度。

MSC公司:

94甲12 信号理论(表征、重建、滤波等)
94-02 与信息与传播理论相关的研究展览(专著、调查文章)
PDF格式BibTeX公司 XML格式引用
全文: 内政部