杂志的下一篇文章
用于室内定位的无人地面车辆机会指纹数据库快速维护信号
期刊上的上一篇文章
基于合成波长和单波长超外差干涉的大范围无歧义高分辨率光学加速度测量方法
 
 
订购文章重印
字体类型:
宋体 佐治亚州 宋体,Verdana
字体大小:
澳大利亚 澳大利亚 澳大利亚
行距:
列宽:
背景:
第条

利用深度学习实现端到端声学定位:从音频信号到声源位置坐标

通过
胡安·曼努埃尔·维拉·迪亚兹
,
丹尼尔·皮萨罗
哈维尔·马西亚斯·瓜拉萨
*
西班牙马德里,28805,阿尔卡拉大学电子系
*
信件应寄给的作者。
传感器 2018,18(10), 3418;https://doi.org/10.3390/s18103418
收到的提交文件:2018年7月29日/修订日期:2018年9月14日/接受日期:2018年10月6日/发布日期:2018年10月12日
(本文属于物理传感器)

摘要

:
本文提出了一种基于卷积神经网络(CNN)的利用麦克风阵列进行室内声源定位的新方法。在提出的解决方案中,CNN的设计目的是使用原始音频信号作为输入信息,直接估计单个声源的三维位置,避免使用手工制作的音频特征。鉴于可用的本地化数据量有限,本文提出了一种基于两步的训练策略。我们首先使用近距离谈话录音生成的半合成数据来训练我们的网络。我们模拟了信号从源传输到麦克风阵列时所遭受的时间延迟和失真。然后,我们使用少量实际数据微调此网络。我们的实验结果在真实房间中记录的公开数据集上进行了评估,结果表明,该方法能够生成网络,显著改进基于SRP-PHAT公司策略以及基于卷积递归神经网络(CRNN)的最新提案中提出的策略。此外,我们的实验表明,我们的CNN方法的性能与说话者的性别无关,也与所使用的信号窗口的大小无关。

1.简介

先进感知系统的发展和科学研究在过去几十年中显著增长,近年来由于越来越复杂的传感器的可用性,使用具有越来越高计算能力的计算节点,以及基于深度学习的强大算法策略的出现(所有这些策略实际上都进入了大众消费市场)。感知系统的目的是自动分析从不同传感器获取的复杂而丰富的信息,以获取有关被感知环境及其内正在进行的活动的精细信息。这些环境中的科学工作涵盖了从基本传感器技术到信号处理和模式识别的研究领域。它们还为系统能够分析人类活动的理念开辟了道路,为我们提供了先进的交互能力和服务。
在这种情况下,人类的本地化(有趣的感知系统的元素)是一项需要解决的基本任务,以便系统能够实际开始提供有关正在进行的活动的更高级别信息。如果没有精确的定位,人类与其物理环境之间的进一步高级交互就无法成功实现。
科学界已经投入了大量的精力来构建基于不同传感器的健壮可靠的室内定位系统[1,2,]。在这种情况下,首选非侵入性技术,因此无需人类携带电子或无源设备进行定位。主要用于室内定位的两种非侵入性技术是基于视频系统和声学传感器的技术。
本文着重于从放置在已知位置的一组麦克风阵列捕获的未知宽带音频源(例如人声)进行基于音频的定位。本文的主要目的是直接利用麦克风阵列捕获的信号,自动获取给定环境中检测到的声源位置。
尽管在这方面已经有很多建议,声源定位仍然是一个热门的研究课题。本文提出了一种端到端训练的卷积神经网络(CNN)结构来解决声学定位问题。我们的有线电视新闻网将话筒捕捉到的原始信号作为输入,并将声源的3D位置作为输出。
使用神经网络进行声音处理的想法并不新鲜,近年来已经流行起来(特别是在语音识别方面[4]). 在ASL的背景下,最近开发了深度学习方法[5,6,7,8,9,10,11,12,13,14,15,16,17,18]。这些工作大多集中于获取声源的到达方向(DOA)。它们还向网络提供从音频信号中提取的特征向量。据我们所知,这是文献中首次直接使用语音信号作为输入,旨在直接在三维空间中估计房间内的震源位置坐标。在其他领域,如计算机视觉领域,基于卷积神经网络的分类和回归方法已被证明可以避免手工特征,从而提高其准确性[19,20].
我们的提案通过使用半合成数据和实际数据进行评估,其性能优于基于转向响应能力的传统解决方案(SRP公司) [21](仍在最先进的系统中积极使用[22,23,24,25]),也显示出比最近提出的基于卷积递归神经网络的方案更好的结果[18].
论文的其余部分组织如下。 第2节包括对声源定位最新技术的回顾研究,特别强调深度学习方法的使用。第3节描述了基于CNN的提案,并详细介绍了培训和微调策略。实验工作详见第4节、和第5节总结了本文的主要结论和贡献,并对今后的工作提出了一些设想。

2.最新技术

文献中包含许多解决声源定位(ASL)问题的方法。根据有关这一主题的经典文献综述,这些方法大致可分为三类[26,27]:基于时延、基于波束形成和基于高分辨率谱估计的方法。这种分类依赖于这样一个事实,即ASL传统上被视为基于信号传播模型定义的信号处理问题[26,27,28,29,30,31,32,33,34]但最近,文献中的一系列建议也考虑了基于利用优化技术和相关测量的数学特性的策略[35,36,37,38,39],以及机器学习策略的使用[40,41,42],旨在获得从特定特征到源位置的直接映射[43]这是一个开始应用深度学习方法的领域,本节稍后将对此进行进一步描述。
基于时间延迟的方法(也称为间接方法),通常使用广义相关函数(GCC)计算不同空间分离麦克风对组合的到达时间差(TDOA)[28]。在第二步中,TDOA与话筒位置的知识相结合,生成位置估计[26,44].
基于波束形成的技术[23,27,30,34]尝试通过优化与每个位置相关的空间统计来估计震源位置,例如转向响应功率(SRP公司)该方法基于麦克风阵列朝特定位置方向转向时接收到的信号功率进行统计。SRP-PHAT公司是一种广泛使用的基于波束形成的说话人定位算法,在参考文献。[21](尽管公式与全局相干场(GCF)见参考。[45])它将SRP方法的鲁棒性与相位变换(PHAT)滤波相结合,提高了算法对信号和房间条件的鲁棒性,使其成为现实说话人定位系统的理想策略[31,32,46,47,48]。还有其他基于波束形成的方法,如最小方差无失真响应(MVDR)[33]它是应用最广泛的自适应波束形成器。
关于基于谱估计的方法,多信号分类算法(MUSIC)[49]由于它能够处理任意几何形状和多个同时存在的窄带源,因此得到了广泛的应用。当任务的信噪比较低时,MUSIC的性能可能会受到混响环境的影响[27]。它还需要对多源场景中活动源的数量进行良好的估计。
在过去几年中,深度学习方法[50]在计算机视觉等不同的信号处理和机器学习领域处于领先地位[20,51]和语音识别[52,53,54]一般来说,在任何需要发现观测信号与生成信号的潜在过程之间复杂关系的领域。
将神经网络用于ASL的想法并不新鲜。早在九十年代初和本世纪的第一个十年,《参考文献》(Refs)等作品就已经问世。[40,55,56]提出了神经网络技术在这一领域的应用。然而,目前对现实和广泛的数据集进行评估是不可行的,而且这些提议的范围有些有限。
随着深度神经网络在机器学习所有领域的出现和应用的大量增加,也为ASL提出了有前景的工作[5,6,7,8,9,10,11,12,13,14,15,16,17,18,57,58,59,60,61]。这主要是由于网络体系结构的复杂功能和更仔细的实现细节,以及具有更高计算能力的高级硬件体系结构的可用性。
在ASL中使用神经网络的不同建议之间的主要差异在于体系结构、输入特性、网络输出(目标)和实验设置(使用真实或模拟数据)。
关于提供给神经网络的信息,一些工作使用了与ASL问题物理相关的特征。一些提案使用了从GCC或实际有意义的相关函数中导出的特征,因为这些相关函数与传统方法中用于生成位置估计的TDOA密切相关。已发表的著作直接使用GCC或GCC-PHAT系数[6,17]以及从中派生的功能[11,58]或从相关矩阵[5,60],甚至与其他系数组合,例如倒谱系数[9]。其他工作则侧重于利用双耳线索[13,57,59]甚至尝试使用CNN发现双耳特征[16]。其他人使用了窄带SRP值[14]。后一种方法比相关值更进一步,因为SRP函数实际上集成了多个GCC估计,从而可以很容易地从中生成声能图。
与前面描述的使用与定位问题直接相关的细化特征的作品不同,其他作品直接使用频域特征[8,12,18,61]。在某些情况下,这些是由一般时间-频率表示的频谱图生成的[7,10]。与之前的方法相比,这些方法向前迈进了一步,因为它们赋予网络自动学习光谱线索和位置相关信息之间关系的责任[15]。在这最后一篇参考文献中,作者结合了这两种策略,因为他们使用了光谱特征,但以跨光谱方式进行计算,也就是说,他们将所有可用话筒的值合并到所谓的跨光谱图(CSM)中。
在所有参考作品中,作者都没有直接使用原始声音信号,我们有兴趣评估CNN架构在直接利用原始输入信息方面的能力。在这一点上,我们必须提到,使用线性和完全可恢复变换直接导出的光谱特征的作品[7,8,10,12,18,61]例如,STFT频谱(因此包含的信息量与时域信号相同)也使用了原始声学信息。我们并不认为使用时域信号比使用频域或互谱特征更好,但我们希望利用加窗时域信号,而无需进一步预处理作为网络的输入,以评估其可行性是否是ASL任务中的有效输入特征。
关于估计目标,大多数工作都是针对声源到达方向(DOA)的估计[6,7,11,12,14,58],或与DOA相关的测量,例如方位角[13,57,59,61],仰角[16],或位置方位和范围[9]。一些提案提出的问题不是作为直接估计(回归),而是作为预先定义的一组可能的位置相关值之间的分类问题[5,8,10,60,61](方位角、预定义网格中的位置等)。其他作品试图估算清洁的声源图[15]或学习时间频率掩码作为ASL之前的预处理阶段[62].
仅在两部参考作品中[17,18]作者试图直接求出声源的坐标值。参考文献。[17],源坐标是在二维空间中估计的,参考文献。[18],考虑了三维空间,但估计位置计算为x个,、和z传声器周围单位球体上DOA的轴坐标。在我们的提案中,我们再次对进一步评估CNN架构在全三维空间中直接生成通用笛卡尔坐标的能力感兴趣。
关于ASL任务中考虑的活动源的数量,大多数工作都考虑了单一源的情况,但在过去几年中,多源定位场景也得到了解决[7,12,18]。我们将重点放在单震源情况下,因为我们的目标是通过估计震源位置的三维笛卡尔坐标来评估端到端方法的可行性。
最后,关于实验装置,以前的大多数工作都使用模拟数据进行训练或训练和测试[5,6,7,8,10,11,13,14,15,16,57,58,59,60,61,62]通常通过卷积干净(无回声)语音和脉冲响应(房间、头部相关或DOA相关(方位角、仰角))。只有他们中的一些人实际使用了真实的录音[9,11,14,17,57,58]我们认为,必须能够评估提案在实际条件下的实际影响。
因此,在本文中,我们描述了一种CNN架构,在该架构中,我们直接利用提供给神经网络的原始声信号,目的是直接估计给定环境中声源三维位置的坐标。考虑到ASL问题的全面覆盖,这就是我们将此策略称为端到端策略的原因。使用公开数据库中的半合成数据和真实数据对提案进行评估。

3.系统说明

3.1. 问题陈述

我们的系统从一组M(M)麦克风。给定参考坐标原点,用3D坐标矢量定义震源位置 = x个 z 传声器的位置已知,并用坐标向量定义 = , x个 , , z 具有 = 1 , , M(M) 。从捕获的音频信号麦克风表示为 x个 ( t吨 ) 此信号用采样频率离散化 (f) 定义为 x个 [ n个 ] 为了简单起见,我们假设 x个 [ n个 ] 长度有限N个样品。这对应于一个持续时间为的小音频窗口 w个 = N个 / (f) ,这是我们系统中的设计参数。我们将包含信号所有时间样本的向量表示为 x个 :
x个 = x个 [ 0 ] x个 [ N个 1 ] .
我们寻求解决的问题是找到以下回归函数((f)):
= (f) x个 1 , , x个 M(M) , 1 , , M(M) ,
根据麦克风记录的信号获取扬声器的位置。
在经典的简化方法中,(f)假设从不同麦克风接收的信号主要不同于延迟,延迟取决于源相对于麦克风的相对位置。然而,这种假设不适用于信号受到多径传播引起的混响效应以及漫反射和环境噪声的严重影响的环境。
考虑到上述影响和音频信号的随机性,方程的回归函数(2)无法进行分析性估计。在本文中,我们提出了一种直接获取(f)使用深度学习。我们代表(f)使用卷积神经网络(CNN),该网络是从麦克风信号端到端学习的。在我们的系统中,我们假设麦克风的位置是固定的。因此,我们放弃了从方程式中了解其位置的要求(2)这是我们的网络通过以下回归问题隐式学习到的:
= (f) n个 e(电子) t吨 ( x个 1 , , x个 M(M) ) ,
哪里 (f) n个 e(电子) t吨 表示由具有下面描述的拓扑结构的CNN表示的函数。

3.2、。网络拓扑结构

我们的神经网络拓扑如所示图1它基于两个阶段:通过1D卷积FIR滤波器进行滤波和和增强,然后是标准的全连接网络。我们认为这种架构非常适合音频分析,尤其是在窗口大小固定的情况下,就像我们的情况一样。
该网络由五个一维卷积块和两个完全连接的块组成。根据方程式(),网络输入是来自麦克风的加窗信号集,网络输出是声源的估计位置。
表1显示了拟议网络拓扑中卷积滤波器的大小和数量。我们使用了大小为7(第1层和第2层)、大小为5(第3层和第4层)和大小为3(第5层)的过滤器。前两个卷积层中的滤波器数量为96,其余层中的为128。如所示图1,有些图层配备了最大池与相应卷积滤波器具有相同池大小的滤波器。最后两层是完全连接的层,一层隐藏500个节点,另一层是输出层。除输出层外,所有层的激活功能均为“ReLU”。在训练期间,我们包括一名辍学者,其可能性为 0.5 在完全连接的层中,以防止过盈。
有了这种拓扑结构,网络还可以非常快速地进行端到端训练和在小型GPU中运行。

3.3. 培训策略

我们的实验设置中包含的可用真实数据量,用于正确训练CNN模型(参见第4节)总的来说是有限的。为了解决这个问题,我们提出了一种培训策略,包括两个步骤:
第1步.
该网络使用半合成数据进行训练。近距离语音记录和一组随机生成的源位置用于生成由一组麦克风捕获的信号的模拟版本,这些麦克风与实际数据记录中使用的环境具有相同的几何形状。为了生成数据,还考虑了目标环境声学行为的其他考虑因素(特定噪声类型、噪声级等)。这种类型的数据集实际上可以制作成训练网络所需的大小。
第2步.
该网络使用真实数据进行精细化。使用步骤1中获得的初始化权重,在目标物理环境中捕获的数据库的简化子集上训练网络。

3.3.1. 半合成数据集生成

在这一步中,从任何可用的近距离(电波)语料库中提取音频信号,并用于生成半合成数据。有许多适用于此任务的可用数据集(免费或商业分发)。因此,我们的半合成数据集可以制作成训练CNN所需的大小。
对于此任务,位置矢量是随机生成的( q个 = q个 , x个 q个 , q个 , z )带有 = 1 , , 使用覆盖将要使用的物理空间(房间)的均匀分布的声源。
用于训练网络的损失函数是网络给出的估计位置之间的均方误差( )和目标位置矢量( q个 ). 它遵循表达式
L(左) ( Θ ) = 1 = 1 q个 2 ,
哪里 Θ 表示网络的权重。公式(4)使用基于随机梯度下降(SGD)算法的迭代优化将未知权重函数最小化[63]。目标权重( θ Θ )一旦在优化过程中满足终止准则,则最终得到。有关训练算法的更多详细信息,请参阅第4节.
为了真实地模拟麦克风从给定源位置接收到的信号,我们必须考虑两个主要问题:
  • 信号传播注意事项:这受目标房间的脉冲响应影响。可以使用不同的替代方案来模拟这种效果,例如将消声信号与真实房间脉冲响应卷积,如参考文献。[60]对于大环境中的一般位置,或使用房间响应模拟方法(例如图像方法),可能很难获取[64]参考文献中使用。[65]为此目的。
  • 房间的噪音条件和记录过程条件:这些可能是由于房间中的附加设备(计算机、风扇、空调系统等)以及信号采集设置中的问题造成的。可以通过假设附加噪声条件和选择噪声类型以及最好在目标房间中估计的声学效果来解决这些问题。
在我们的案例中,关于第一个问题,我们决定使用最简单的方法作为我们的初始选择,只考虑从源位置到每个麦克风的传播延迟,这取决于它们的相对位置和房间中的声速。
我们的仿真模型没有考虑其他影响,例如室内信号的混响或其他环境噪声条件。因此,我们不需要更多关于房间的具体知识,例如墙壁和家具的位置和材料。
N个 = (f) d日 c(c) 表示移动信号以模拟麦克风受到的到达延迟所需的样本数,其中 (f) 是信号的采样频率, d日 是声源和第个麦克风,以及c(c)是声音在空气中的速度( c(c) = 343 房间20米/秒 C) ●●●●。一般来说, N个 不是整数。因此,需要一种方法来模拟信号中的子采样偏移。为了实现延迟 N个 x个 第页 c(c) (窗口信号N个来自close-talk数据集的样本)以获取 x个 ,使用以下转换:
X 第页 c(c) = F类 { x个 第页 c(c) } x个 = A类 F类 1 { X 第页 c(c) D类 } , w个 t吨 小时 D类 = 1 , e(电子) j个 2 π N个 N个 , e(电子) j个 4 π N个 N个 , , e(电子) j个 ( N个 1 ) 2 π N个 N个
哪里 x个 第页 c(c) 首先转换到频域( X 第页 c(c) )使用离散傅里叶变换操作员( F类 ),且⊙为元素级产品。然后,其相位根据 N个 通过相位矢量 D类 ,信号被转换回时域 x个 使用离散傅里叶逆变换操作人员 F类 1 . A类 是应用于遵循均匀随机分布的信号的振幅因子,每个麦克风的振幅因子不同( A类 [ 0.01 , 0.03 ] 在中描述的实验装置中第4节). 我们使用随机振幅,因为我们明确希望网络关注话筒之间的相位或延迟差异。这些随机振幅将消除麦克风方向性的影响,这是因为我们假设它们具有全向响应(就像在我们的实验设置中一样)。
关于第二个问题,我们模拟了到达麦克风的信号中的噪声和干扰,以便信号的信噪比和频谱含量尽可能与真实数据中的信号相似。为了提供所采用方法的示例,本节介绍了IDIAP房间的具体情况(请参见第4.1.1节)这是在我们的真实数据实验和Albayzin语音语料库中使用的(参见第4.1.2节)用于生成合成数据。
在IDIAP室中,基于频谱图的分析表明,录音被频谱中约25 Hz的音调污染,而在无回声条件下不会出现这种音调。这可能是房间设备的结果,即录音硬件设置中产生的电气噪音。我们确定这个音调的频率实际上在20赫兹到30赫兹之间变化。因此,在合成数据生成过程中,我们污染来自语音语料库的信号在这个确定的范围内具有随机频率的加法音调,我们还根据表达式添加了高斯白噪声:
x个 第页 c(c) n个 e(电子) w个 [ n个 ] = x个 第页 c(c) [ n个 ] + k ( 2 π (f) 0 n个 / (f) + ϕ 0 ) + k η η w个 n个 [ n个 ] ,
哪里 k 是污染音调信号的缩放因子(类似于在目标房间记录中发现的音调幅度, 0.1 在我们的案例中), (f) 0 [ 20 , 30 ] 赫兹, ϕ 0 [ 0 , π ] 第页 d日 , η w个 n个 是高斯白噪声信号,并且 k η 是一个噪声比例因子,用于生成与目标房间记录中的信噪比(SNR)类似的信号。
应用此过程后,半合成信号数据集就可以用于神经网络训练过程。

3.3.2。微调程序

前一步是再现麦克风阵列配置的简单声学特性以及存在特定类型和级别的加性噪声,但还有其他现象,如存在扩散噪声、多径传播和混响,这些现象的模拟更为复杂。为了从目标物理环境中引入这些声学特性,我们使用目标房间中的少量实际记录数据对网络模型进行了微调。
微调过程包括使用半合成数据初始化训练阶段获得的网络权重后,使用真实环境中记录的一些序列训练网络。
尽管还有其他方法,如参考文献[5],在实施了无监督DNN以使参数适应未知数据的情况下,我们认为我们的微调过程是足够的,因为,首先,这是一个有监督的过程,可以获得更好的性能,其次,因为并不是所有的测试数据集序列都被使用了,只有少数用于微调过程,剩下的留到测试阶段。

4.实验工作

在本节中,我们描述了中描述的训练策略的两个步骤中使用的数据集第3.3节以及与之相关的详细信息。然后,我们定义了实验装置的一般条件以及用于将我们的提案与其他最先进方法进行比较的误差指标,最后,我们从我们要改进的基线性能开始,展示了我们的实验结果。

4.1. 数据集集合

4.1.1. IDIAP AV16.3语料库:用于测试和微调

我们使用AV16.3数据库中的音频记录评估了我们的提案[66],一个记录在智能会议室瑞士IDIAP研究所。我们还将该房间的物理布局用于半合成数据生成过程。
这个IDIAP智能会议室是一个3.6 m×8.2 m×2.4 m的长方形房间,中间有一张4.8 m×1.2 m的长方桌。桌子表面有两个半径为0.1 m的圆形麦克风阵列,每个阵列由八个规则分布的麦克风组成,如所示图2两个阵列的中心相距0.8米。它们之间的中点被视为坐标参考系的原点。会议室的详细说明见参考文献[67].
数据集由多个记录序列组成,以16 KHz的频率同步采样,所涉及的说话人数量及其活动具有广泛的实验条件。一些可用的音频序列被分配了一个相应的注释文件,该文件包含说话者每次讲话时嘴部的真实地面实况位置(3D坐标)。具有语音活动的声帧的分割首先由人工操作员在某些时间点手动检查,以确保其正确性,随后,通过插值技术将其扩展到覆盖剩余的记录时间。帧偏移分辨率被定义为40ms。完整的数据集可在参考文献中在线访问[68].
在本文中,我们重点关注该数据集的注释序列,该序列以单个说话人为特征,其主要特征如所示表2这使我们能够直接将我们的性能与参考文献中提出的方法进行比较。[35]这被证明比SRP-PHAT公司算法。注意,前三个序列涉及在不同位置讲话时保持静止的说话人,后两个序列涉及移动的说话者;所有的演讲者都不一样。我们将这些序列称为第01节,s02,第03节,第11节、和第15节为简洁起见。
根据考虑的顺序,扬声器和麦克风阵列之间的距离在间隔(209,243)cm、(46,156)cm和(118,192)cm中分别具有最大值、最小值和平均值。

4.1.2. Albayzin语音语料库:用于半合成数据集生成

Albayzin语音语料库[69]由三个子语料库组成,包含16 kHz 16位信号,由304名卡斯蒂利亚西班牙语演讲者在专业录音室中使用高品质近距离话筒录制。
我们使用该数据集生成半合成数据,如第3.3.1节。在这三个子语料库中,我们只使用了所谓的语音语料库 [70]它由6800个语音平衡的句子组成。这种语音平衡特性使该数据集非常适合生成我们的半合成数据,因为它涵盖了所有可能的声学上下文。

4.2. 培训和微调详细信息

在半合成数据集生成过程中,如第3.3.1节,我们生成了随机位置( q个 )在以下间隔内具有均匀分布的值: q个 , x个 [ 0 , 3.6 ] 米, q个 , [ 0 , 8.2 ] m和 q个 , z [ 0.92 , 1.53 ] m、 这对应于说话人嘴部位置在IDIAP公司房间[66].
关于方程式所述损失函数的优化策略(4),我们雇佣了亚当 [71]优化器(SGD的变体,具有可变的学习率)沿200个周期运行,批量大小为100个样本。的学习率亚当优化器被修复为 α = 10 ,根据参考[71] ( β 1 = 0.9 , β 2 = 0.99 ϵ = 10 8 ). 在训练阶段,每个历元总共随机生成7200个不同的输入数据帧,另外生成800个用于验证。
实验用三种不同的窗口长度(80ms、160ms和320ms)进行,每个窗口长度运行一次训练阶段,获得三种不同的网络模型。在每个培训课程中,随机选择200个音频记录,并从每个记录中随机抽取40个不同的窗口。同样,200个声源位置矢量( q个 )随机生成,因此每个位置生成40个相同信号的窗口。
对于中描述的微调过程第3.3.2节,我们主要使用序列第11节第15节其特点是扬声器在说话时在房间里移动,以及序列第01节,第02页第03节在最后的实验中。这个亚当优化器还用于微调。在这种情况下,我们将学习率固定为 α = 10 4 ,而其余参数设置为建议值。
如中所述第4.6节,我们还进行了实验来评估添加额外序列的相关性(第01节,第02页、和第03节)以补充提供的微调数据第11节第15节。我们还在微调和评估数据中提及性别和身高问题。

4.3. 实验装置

在我们的实验中,序列第01节,第02页、和第03节用于测试我们网络的性能,如上所述,用于补充序列第11节第15节用于微调。
在这项工作中,我们使用了一个简单的麦克风阵列配置,在资源受限的环境中评估我们的提案,如参考文献。[35]。为此,我们使用了四个话筒(AV16.3数据集中16个话筒中的编号1、5、11和15),分组为两对话筒。四个话筒的配置与参考文献中选择的配置相同[35]提供两对正交话筒。所选麦克风对配置如所示图2c、 其中相同颜色的麦克风被认为属于相同的麦克风对。我们评估了80 ms、160 ms和320 ms声帧长度的相关结果,以准确评估改进在多大程度上与不同的声学时间分辨率一致。
我们实验工作的主要兴趣是评估基于CNN的端到端方法(我们将称之为CNN)是否可以与其他传统定位方法相竞争。我们将CNN的方法与标准方法进行了比较SRP-PHAT公司参考文献中提出的方法和最新策略。[35]我们称之为GMBF。该GMBF方法基于使用稀疏约束将生成模型拟合到GCC-PHAT信号,并与以下方面的显著改进相关联SRP-PHAT公司在中印度洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋洋数据集[35,72]。与CNN方法相反,GMBF装配程序不需要培训。我们还将我们的方法与另一个最近发布的基于卷积递归神经网络(CRNN)的ASL策略进行了比较[18],范围类似。
在提供比较的基准结果后SRP-PHAT公司GMBF和我们的建议,在不应用微调程序的情况下,我们随后描述了三个实验,我们在这里简要总结了这三个实验:
  • 在第一个实验中,我们评估了使用单个序列进行微调过程时的性能改进。
  • 在第二个实验中,我们评估了添加额外微调序列的影响。
  • 在第三个实验中,我们评估了在细化过程中添加静态序列时的最终性能改进。
在这些实验之后,我们评估了半合成训练加上微调方法与仅从头开始训练网络之间的差异,以验证微调策略的贡献。
最后,我们将我们的建议与参考文献中描述的建议进行了比较。[18],作者善意地提供了源代码[73].

4.4. 评估指标

我们基于CNN的方法产生了一组空间坐标 k = k , x个 k , k , z 这是当前说话人位置作为时间瞬间的估计值k。通过欧几里德距离将这些位置估计值与包含实际位置的转录文件中标记的位置估计值进行比较, k G公司 T型 (基本事实)演讲者的。
我们通过采用参考文献[35]并在CHIL项目下开发[74]。它被称为MOTP(多目标跟踪精度)定义为
M(M) O(运行) T型 P(P) = k = 1 N个 P(P) | k G公司 T型 k | 2 N个 P(P) ,
哪里 N个 P(P) 表示沿时间的位置估计总数, k 估计的位置矢量,以及 k G公司 T型 是标记的地面真值位置矢量。
我们将我们的实验结果和GMBF方法的结果与SRP-PHAT公司通过测量MOTP的相对改善,其定义如下:
Δ 第页 M(M) O(运行) T型 P(P) = 100 M(M) O(运行) T型 P(P) S公司 R(右) P(P) P(P) H(H) A类 T型 M(M) O(运行) T型 P(P) 第页 第页 o个 第页 o个 M(M) O(运行) T型 P(P) S公司 R(右) P(P) P(P) H(H) A类 T型 [ % ] .

4.5. 比较基准结果

序列的基线结果第01节,第02页第03节如所示表3以及评估的时间窗口大小(在显示本文结果的所有表格中,粗体字体突出显示给定数据序列和窗口长度的最佳数据)。下表显示了SRP-PHAT公司标准算法策略(SRP列),参考文献[35](列GMBF),以及本文中的建议,而不应用微调程序(列CNN)。我们还显示了与SRP-PHAT相比,GMBF和CNN的相对改进。
基线结果的主要结论如下:
  • 正如预期的那样,MOTP值随着帧大小的增加而提高,因为对于更长的窗口信号长度,将估计出更好的相关性值。标准SRP-PHAT算法的最佳MOTP值约为69 cm,GMBF的最佳MOPP值约为48 cm。
  • 标准SRP-PHAT算法的平均MOTP值在76 cm到96 cm之间,而GMBF的平均MOPP值在59 cm到78 cm之间。
  • GMBF策略,如参考文献[35]与SRP-PHAT相比,实现了非常相关的改进,平均相对改进约为 20 % 峰值改善值几乎为 30 % .
  • 我们的美国有线电视新闻网战略目前仅使用半合成数据进行训练,但从性能上来看,该战略远未达到SRP-PHAT或GMBF。这一结果使我们认为,还有其他影响只存在于实际数据中,例如影响网络的混响,因为它们没有在训练数据中正确建模。这可以通过引入模拟房间传播效果的模拟算法来解决(例如图像源方法[64,75])生成更真实的半合成数据。这将在未来的工作中进行评估。
因此,考虑到上面的讨论,我们决定应用中讨论的微调策略第3.3.2节实验细节如所述第4.2节。结果如所示表3与我们的CNN方法在不同微调(和训练)条件下获得的结果进行了比较,如下所述。

4.6. 结果和讨论

我们应用微调程序的第一个实验第15节作为微调子集。
表4显示了GMBF(列GMBF)和CNN使用此微调策略(列CNNf15)获得的结果。表中的结果表明,在大多数情况下,CNNf15比SRP-PHAT公司基线(两种情况除外s03其中存在轻微的降解)。与SRP-PHAT相比,CNNf15的平均表现持续改善 1.8 % 11.3 % 然而,在所有情况下,CNNf15仍然落后于GMBF,只有一个(对于第02页和80毫秒)。
我们的结论是,微调过程能够有效地补充来自合成数据的训练模型,从而获得优于SRP-PHAT的结果。由于以下几点,这一点特别重要。
  • 微调数据量有限(只有36秒,对应436帧,如所示表2)从而为进一步改进开辟了道路,只需有限的数据记录工作。
  • 用于微调的扬声器在说话时大多是移动的,而在测试序列中,扬声器在说话时是静止的。这意味着,微调材料包含的活跃位置远比测试序列多,网络能够提取测试位置的相关信息。
  • 我们的CNN对较长信号窗口大小的减少所取得的改进表明,扬声器的速度(因此,扬声器在信号窗口中的位移)可能会对结果产生影响。我们评估了移动扬声器序列中扬声器的平均速度, 0.72 米/秒第11节、和 0.48 序列15为m/s。它们似乎对位置估计没有重大相关影响。我们还评估了不同序列中各个信号帧内的震源位移分布。80 ms窗口的平均位移距离为4–6 cm,160 ms窗口为7–11 cm,320 ms窗口为15–20 cm。当我们考虑最大位移距离时,这些值对于80 ms窗口为7–27 cm,对于160 ms窗口为14–34 cm,对于320 ms窗口为28–46 cm。这些位移可能会对结果产生明显的影响,这可能是我们的方法对较长窗口尺寸的改进效果较低的原因。
  • 用于微调的扬声器是男性,获得的结果是男性扬声器(序列第01节第03节)和雌性(序列第02页)似乎没有表现出任何性别依赖性偏见,这意味着性别问题似乎在网络模型的适当适应中没有发挥作用。
尽管对微调方法进行了相关改进,但仍远未使该方法适用于ASL场景中的进一步竞争性开发(前提是我们有GMBF替代方案),因此我们下一步的目标是增加微调材料的数量。
在我们的第三个实验中,我们使用一个附加的移动扬声器顺序,即通过包括第15节第11节在微调子集中。
表5显示了使用第15节第11节(CNNf15+11列)。在这种情况下,与仅使用相比有了额外的改进第15节因为进行了微调,只有一种情况下CNNf15+11没有超过SRP-PHAT(轻微退化 0.3 % ).
基于CNN的方法再次显示,与SRP-PHAT相比 7.5 % 16.2 % .
在这种情况下,新添加的序列(第11节微调的持续时间仅为33 s),对应于一个随机移动的男性扬声器,结果表明,它的加入有助于进一步改进基于CNN的提案,但在所有情况下,它仍然落后于GMBF,但结果越来越接近。这表明应考虑进一步增加微调材料。
我们的最后一个实验包括微调网络,包括附加的静态说话人序列。为了确保培训(包括微调)和测试材料完全独立,我们对第15节,第11节以及每个实验运行中未测试的静态序列,如所示表6.
表7显示了此微调场景的结果。主要结论如下:
  • 对于所有窗口大小,基于CNN的方法显示出比GMBF更好的平均行为。CNN相对于SRP-PHAT的平均绝对改善率比GMBF高出10分以上,达到 32.8 % 在CNN案件中 22.9 % 在GMBF中。
  • 考虑到单个序列,CNN在序列方面明显优于GMBF第01节第02页,情况稍差第03节.
  • 考虑到最佳个人结果,CNN的最大改进是 41.6 % (第01节,320 ms),而GMBF的最高结果是 29.9 % (第03节,320毫秒)。
  • 正如预期的那样,添加静态序列的效果是有益的,前提是声学调谐示例是从相似但不相同的位置生成的,因为扬声器的高度不同,并且它们在房间中的位置在序列之间并不严格相等。
  • 所获得的改进是显著的,并以额外的微调序列为代价。然而,这种额外的成本仍然是合理的,因为这种额外的微调材料的持续时间有限,平均约为400秒( 6.65 最小值)。
最后,总结一下,图3显示了平均MOTP相对于SRP-PHAT公司我们的CNN建议使用不同的微调子集获得,并将其与所有信号窗口大小的GMBF结果进行比较。
从我们的建议获得的结果来看,很明显,对裸CNN训练的改进贡献最大的是有限数据的微调过程(CNNf15,相比之下表3表4),而使用额外的微调材料持续改善了结果(表5表7). 再次值得注意的是,这些改进始终独立于考虑的演讲者的身高和性别,以及微调子集中使用的演讲器的静态或动态活动之间是否匹配。这表明网络实际上学习了与定位问题相关的声学线索。因此,我们得出结论,我们的建议是解决ASL任务的一个合适且有前景的策略。

4.7. 微调策略的验证

比较结果时表3表4,并且考虑到在应用微调策略时的巨大改进,可以假设使用半合成数据的初始训练是有限的。基于这个论点,我们进行了额外的训练实验,我们只是训练了网络从头开始使用中所示实验中使用的相同序列表4,表5表7,目的是评估半合成训练与微调相结合的实际效果,而不是仅用实际房间数据进行训练。训练策略和参数与从半合成数据训练网络时使用的策略和参数相同,详见第4.2节.
表8显示了使用不同序列的这两个选项之间的比较。所示数字是每种情况下所有测试序列的平均值。从头开始的训练方法的结果包含在tr−sc列中,而我们提议的组合半合成训练和微调策略的结果则包含在tr+ft列中。
使用时第15节在培训和微调过程中(第一排表8),tr+ft方法的平均改进在 1.8 % 11.3 % 所有窗口长度的平均改进为 5.3 % 而tr−sc平均改善在 20.6 % 4.3 % 平均值为 7 % .
使用时第15节第11节在训练和微调过程中(第二排表8),tr+ft方法的平均改进在 7.5 % 16.3 % 所有窗口长度的平均改进为 12 % 而tr−sc平均改善在 29.4 % 0.6 % 平均值为 12.1 % .
最后,当使用中描述的序列时表6(第三排表8),tr+ft方法的平均改进在 30.6 % 32.8 % 在所有窗口长度上的平均改进 31.3 % ,而tr−sc的平均改善在 2.3 % 17.3 % 平均值为 11 % .
因此,在所有评估案例中,半合成训练和微调组合方法明显优于从头开始的训练策略,从而验证了我们的方法。

4.8. 与深度学习方法的比较

在本节中,我们还将我们的提案与最近的深度学习ASL方法SELDnet进行了比较[18],其源代码可在参考[73]。SELDnet是一种CRNN体系结构,它使用音频信号的信号频谱作为输入(在每个音频信道上计算的谱图的相位和幅度分量),并能够处理多个重叠的声音事件。
SELDNet生成两种不同的输出:
  • 分类输出:SELDnet的第一个输出能够在输入音频信号中每个连续帧的类别列表中对声音事件进行分类。
  • 回归输出:第二个输出估计音频输入中每个连续帧上检测到的DOA矢量。该向量参数化为x个,、和z传声器周围单位球体上DOA的轴坐标,据称这将导致网络比使用基于角度的参数化的网络学习效果更好。
正如作者建议的那样,我们在特征提取、网络模型和训练过程中使用了SELDnet设计参数的默认值,为了与我们的方法进行比较,我们考虑了以下问题:
  • SELDnet使用大小为的音频窗口 w个 并提取连续的重叠帧来计算用作输入的频谱分量。为了与我们的网络进行比较,我们用不同的 w个 S公司 :80毫秒、160毫秒和320毫秒。
  • 由于我们使用的是只有一个说话人同时出现的音频序列,因此我们为用于训练的所有音频窗口指定了相同的标签(“speech”)。
  • 我们需要SELDnet来推断 x个 , , z 目标源的坐标,而不是DOA矢量。这只需要我们在培训期间更改目标输出,因为网络模型根本不会更改它。我们的空间坐标也在区间内进行了标准化 [ 1 , 1 ] 与SELDnet的回归输出兼容。最终输出坐标再次反规范化为公制坐标,以继续进行MOTP计算。
  • 在资源受限的情况下,我们采用了与我们的提案中相同的实验程序(初始半合成训练,然后进行微调),只使用两对话筒。实验条件是我们获得最佳性能的条件(包括表7)也就是说,使用中描述的测试和微调序列表6.
表9在参考文献中显示了提案的相对改进[18](SELDnet列)和我们在SRP-PHAT上的CNN方法(CNNf15+11+st列)。
可以清楚地看到,就定位精度而言,SELDnet产生的结果比我们的CNN方法差,实际上它的性能比标准的SRP-PHAT算法差。

5.结论

在本文中,我们提出了一种音频定位CNN,它是从原始音频信号到源位置的端到端训练。我们表明,这种方法非常有前途,因为它优于最先进的方法[35,72]和那些使用SRP-PHAT公司当有足够的微调数据可用时。它的表现也优于最近基于CRNN的提案。此外,我们的实验表明,与基线方法相比,CNN方法对不同性别的说话者和不同的窗口大小表现出良好的抵抗力。。鉴于目前用于音频定位的数据记录量有限,我们在论文中建议首先使用半合成数据训练网络,然后使用少量真实数据进行微调。这是其他领域中防止过拟合的常见策略,与使用实际数据从头开始训练网络相比,我们发现它显著提高了系统性能。
在未来的工作中,我们计划改进半合成数据的生成,包括混响效果,并详细测试性别和语言对系统性能的影响。此外,我们计划通过开发用于音频本地化的大型语料库来包含更多真实数据,该语料库将提供给科学界用于研究目的。此外,我们还将讨论多源场景,并将进行广泛评估,以评估该提案对更复杂和多变的采集场景(包括更多话筒对和不同房间)的影响。这一广泛的评估将包括与ASL任务中其他基于DNN的提案的明确比较。

作者贡献

概念化,D.P。;方法论、写作审查、编辑和可视化,D.P.、J.M.V.-D.和J.M.-G。;调查,J.M.V.-D。;撰写初稿,J.M.V.-D。;软件、D.P.和J.M.V.-D。;资源J.M.-G。;融资收购,D.P.和J.M.-G。

基金

这项工作的部分资金由西班牙经济和竞争力部在HEIMDAL(TIN2016-75982-C2-R)、ARTEMISA(TIN206-80939-R)和SPACES-UAH(TIN203-47630-C2-1-R)项目下提供,阿尔卡拉大学在CCGP2017/EXP-025和CCG2016/EXP-010项目下提供。胡安·曼努埃尔·维拉·迪亚兹(Juan Manuel Vera-Diaz)由马德里社区和FEDER出资,合同参考号为PEJD-2017-PRE/TIC-4626。

利益冲突

作者声明没有利益冲突。

工具书类

  1. 托雷斯·索利斯,J。;福克,T.H。;Chau,T.《室内定位技术综述:地形失定向导航辅助》。环境智能; Molina,F.J.V.,编辑。;IntechOpen:克罗地亚里耶卡,2010年;第3章。[谷歌学者] [交叉参考] [绿色版本]
  2. Ruiz-López,T。;加里多,J.L。;班加西,K。;Chung,L.《室内定位系统调查:预见质量设计》。分布式计算与人工智能; 施普林格:德国柏林/海德堡,2010年;第373–380页。[谷歌学者]
  3. Mainetti,L。;Patrono,L。;Sergi,I.室内定位系统调查。2014年9月17日至19日在克罗地亚斯普利特举行的2014年第22届软件、电信和计算机网络国际会议(SoftCOM)会议记录;第111-120页。[谷歌学者]
  4. 塞纳,T.N。;R.J.维斯。;K.W.威尔逊。;Narayanan,A。;Bacchiani,M.扬声器位置和麦克风间距不变的原始多通道波形声学建模。2015年12月13日至17日,美国亚利桑那州斯科茨代尔IEEE自动语音识别与理解研讨会(ASRU)会议记录;第30–36页。[谷歌学者] [交叉参考]
  5. 武田,R。;Komatani,K.利用熵最小化对深度神经网络进行无监督自适应,用于声源定位。2017年3月5日至9日在美国洛杉矶新奥尔良举行的2017 IEEE声学、语音和信号处理国际会议(ICASSP)会议记录;第2217–2221页。[谷歌学者] [交叉参考]
  6. 孙,Y。;陈,J。;袁,C。;Rahardja,S.,概率神经网络室内声源定位。IEEE传输。Ind.Electron公司。 2018,65, 6403–6413. [谷歌学者] [交叉参考] [绿色版本]
  7. Chakrabarty,S。;Habets,E.A.P.使用经过噪声训练的卷积神经网络进行多扬声器定位。arXiv公司, 2017; arXiv:1712.04276v1。[谷歌学者]
  8. 雅尔塔,N。;Nakadai,K。;Ogata,T.使用深度学习模型进行声源定位。J.机器人。麦查顿。 2017,29, 37–48. [谷歌学者] [交叉参考]
  9. Ferguson,E.L。;威廉姆斯S.B。;Jin,C.T.使用卷积神经网络在多径环境中定位声源。arXiv公司, 2017; arXiv:1710.10948。[谷歌学者]
  10. Hirvonen,T.使用卷积神经网络对空间音频位置和内容进行分类。2015年第138届音频工程学会会议记录,波兰华沙,2015年5月7日至10日;第2卷。[谷歌学者]
  11. He,W。;莫特利切克,P。;Odobez,J.用于多个说话人检测和定位的深度神经网络。arXiv公司, 2017; arXiv:1711.11565。[谷歌学者]
  12. Adavanne,S。;Politis,A。;Virtanen,T.使用卷积递归神经网络的多声源波达方向估计。arXiv公司, 2017; arXiv:1710.10059。[谷歌学者]
  13. 马,N。;T·梅。;Brown,G.J.利用深层神经网络和头部运动在混响环境中对多个声源进行稳健的双耳定位。IEEE/ACM传输。音频语音语言处理。 2017,25, 2444–2453. [谷歌学者] [交叉参考] [绿色版本]
  14. Salvati,D。;德里奥利,C。;Foresti,G.L.利用CNN改进噪声和混响条件下的声源定位。IEEE传输。Emerg.顶部。计算。智力。 2018,2, 103–116. [谷歌学者] [交叉参考]
  15. 马伟(Ma,W.)。;Liu,X.用于深度学习声源定位的相位麦克风阵列。arXiv公司,2018年;arXiv:1802.04479。[谷歌学者]
  16. Thuillier,E。;Gamper,H。;Tashev,I.用卷积神经网络发现空间音频特征。2018年4月15日至20日,加拿大阿联酋卡尔加里,IEEE声学、语音和信号处理国际会议(ICASSP)会议记录。[谷歌学者]
  17. 韦斯佩里尼,F。;Vecchiotti,P。;普林西比,E。;斯夸蒂尼,S。;Piazza,F.使用深度神经网络在多个房间定位扬声器。计算。语音语言。 2018,49, 83–106. [谷歌学者] [交叉参考]
  18. Adavanne,S。;Politis,A。;Nikunen,J。;Virtanen,T.使用卷积递归神经网络对重叠声源进行声事件定位和检测。arXiv公司, 2018; arXiv:1807.00129。[谷歌学者]
  19. Simonyan,K。;用于大规模图像识别的极深卷积网络。arXiv公司, 2014; arXiv:1409.1556。[谷歌学者]
  20. Krizhevsky,A。;Sutskever,I。;Hinton,G.E.ImageNet使用深度卷积神经网络进行分类。2012年12月3日至6日,美国内华达州太浩湖,第25届国际神经信息处理系统会议记录;Curran Associates Inc.:美国纽约州Red Hook,2012年;第1卷,第1097-1105页。[谷歌学者]
  21. DiBiase,J.使用麦克风阵列在混响环境中定位说话人的高精度、低延迟技术。2000年,美国罗得岛州普罗维登斯布朗大学博士论文。[谷歌学者]
  22. 路易斯安那州奈斯。;马丁斯,W.A。;利马,M.V.S。;Biscainho,L.W.P。;Costa,M.V.M。;Gonçalves,F.M。;赛义德,A。;Lee,B.使用传声器阵列对声源定位进行分层搜索的定向响应功率算法。IEEE传输。信号处理。 2014,62, 5171–5183. [谷歌学者] [交叉参考]
  23. Cobos,M。;García-Pineda,M。;Arevalillo-Herráez,M.指导声通带信号的响应功率定位。IEEE信号处理。莱特。 2017,24,717–721页。[谷歌学者] [交叉参考]
  24. He,H。;王,X。;周,Y。;Yang,T.一种用于声源定位的具有权衡预白化的转向响应功率方法。J.声学。美国南部。 2018,143, 1003–1007. [谷歌学者] [交叉参考] [公共医学]
  25. Salvati,D。;德里奥利,C。;Foresti,G.L.《转向响应功率算法中基于灵敏度的区域选择》。信号处理。 2018,153, 1–10. [谷歌学者] [交叉参考]
  26. Brandstein,医学硕士。;Silverman,H.F.使用麦克风阵列进行语音源定位的实用方法。计算。语音语言。 1997,11, 91–126. [谷歌学者] [交叉参考] [绿色版本]
  27. DiBiase,J。;西尔弗曼,H。;Brandstein,M.混响室中的稳健定位。麦克风阵列 2001, 157–180. [谷歌学者] [交叉参考]
  28. 克纳普,C。;Carter,G.估计时延的广义相关方法。IEEE传输。阿库斯特。语音信号处理。 1976,24, 320–327. [谷歌学者] [交叉参考]
  29. 张,C。;Florencio,D。;张,Z。为什么PHAT在低噪音、混响环境中工作良好?2008年3月30日至4月4日,美国内华达州拉斯维加斯,IEEE声学、语音和信号处理国际会议记录;第2565-2568页。[谷歌学者] [交叉参考]
  30. Dmochowski,J.P。;Benesty,J.指导声源定位的波束形成方法。现代通信中的语音处理; 信号处理中的Springer主题;Cohen,I.、Benesty,J.、Gannot,S.编辑。;施普林格:德国柏林/海德堡,2010年;第3卷,第307-337页。[谷歌学者] [交叉参考]
  31. Cobos,M。;A.马蒂。;Lopez,J.J.一种改进的SRP-PHAT函数,用于具有可缩放空间采样的鲁棒实时声源定位。IEEE信号处理。莱特。 2011,18, 71–74. [谷歌学者] [交叉参考] [绿色版本]
  32. Butko,T。;Pla、F.G。;塞古拉,C。;纳德乌,C。;Hernando,J.双源声事件检测和定位:在智能室中在线实施。2011年8月29日至9月29日在西班牙巴塞罗那举行的2011年第19届欧洲信号处理会议记录;第1317-1321页。[谷歌学者]
  33. 哈贝茨,E.A.P。;Benesty,J。;甘诺,S。;Cohen,I.语音增强用MVDR波束形成器。现代通信中的语音处理:挑战与展望; 信号处理中的Springer主题;Cohen,I.、Benesty,J.、Gannot,S.编辑。;施普林格:德国柏林/海德堡,2010年;第3卷,第225-254页。[谷歌学者] [交叉参考]
  34. Marti,A。;Cobos,M。;洛佩兹,J.J。;Escolano,J.一种用于高精度声源定位的转向响应功率迭代方法。J.声学。美国南部。 2013,134, 2627–2630. [谷歌学者] [交叉参考] [公共医学]
  35. 维拉斯科,J。;Pizarro,D。;Macias-Guarasa,J.使用基于生成模型的稀疏约束拟合的声传感器阵列进行声源定位。传感器 2012,12, 13781–13812. [谷歌学者] [交叉参考] [公共医学] [绿色版本]
  36. Padois,T。;斯加德,F。;O.杜特雷斯。;Berry,A.使用稀疏约束在时域中比较声源定位方法。2015年8月9日至12日,在美国加利福尼亚州旧金山举行的2015-44届国际噪声控制工程大会和展览会上发表。[谷歌学者]
  37. 维拉斯科,J。;Pizarro,D。;Macias-Guarasa,J。;Asaei,A.时差矩阵:代数性质及其在缺失数据鲁棒去噪中的应用。IEEE传输。信号处理。 2016,64, 5242–5254. [谷歌学者] [交叉参考]
  38. Compagnoni,M。;Pini,A。;坎克里尼,A。;Bestagini,P。;Antonacci,F。;Tubaro,S。;Sarti,A.一种去除时差测量异常值的几何统计方法。IEEE传输。信号处理。 2017,65, 3960–3975. [谷歌学者] [交叉参考]
  39. 萨拉里,S。;Chan,F。;陈,Y.T。;Read,W.利用压缩传感测量和Hadamard矩阵进行时差估计。IEEE传输。Aerosp.航空公司。电子。系统。 2018. [谷歌学者] [交叉参考]
  40. Murray,J.C。;埃尔文,H.R。;Wermter,S.使用互相关和递归神经网络的机器人声源定位架构。神经网络。 2009,22, 173–189. [谷歌学者] [交叉参考] [公共医学]
  41. Deleforge,A.声学空间映射:声源分离和定位的机器学习方法。2013年,法国圣马丁·德赫雷斯格勒诺布尔大学博士论文。[谷歌学者]
  42. Salvati,D。;德里奥利,C。;Foresti,G.L.关于在麦克风阵列波束形成中使用机器学习进行远场声源定位。2016年IEEE第26届信号处理机器学习国际研讨会(MLSP)会议记录,意大利萨勒诺,2016年9月13-16日;第1-6页。[谷歌学者] [交叉参考]
  43. 拉斯康,C。;Meza,I.机器人声源定位:综述。机器人。自动。系统。 2017,96, 184–210. [谷歌学者] [交叉参考]
  44. 斯托伊卡,P。;Li,J.演讲稿——距离差测量的震源定位。IEEE信号处理。美格。 2006,23, 63–66. [谷歌学者] [交叉参考]
  45. Omologo,M。;Svaizer,P.声事件定位中交叉功率谱相位的使用。IEEE传输。语音音频处理。 1997,5, 288–292. [谷歌学者] [交叉参考] [绿色版本]
  46. Dmochowski,J。;Benesty,J。;计算可行震源定位的广义转向响应功率法。IEEE传输。音频语音语言处理。 2007,15, 2510–2526. [谷歌学者] [交叉参考]
  47. 巴达利,A。;瓦林,J.M。;米肖,F。;Aarabi,P.评估机器人人工试听的实时音频定位算法。2009年10月11日至15日,美国密苏里州圣路易斯,IEEE/RSJ智能机器人和系统国际会议论文集;第2033-2038页。[谷歌学者] [交叉参考]
  48. Do,H。;Silverman,H.SRP-PHAT使用麦克风阵列数据帧定位同时多个说话人的方法。2010年3月14日至19日在美国德克萨斯州达拉斯举行的2010年IEEE声学语音和信号处理国际会议(ICASSP)会议记录;第125-128页。[谷歌学者] [交叉参考]
  49. Schmidt,R.多发射极位置和信号参数估计。IEEE传输。天线传播。 1986,34, 276–280. [谷歌学者] [交叉参考]
  50. 古德费罗,I。;Y.本吉奥。;科尔维尔,A。;Y.本吉奥。深度学习; 麻省理工学院出版社:英国剑桥,2016年;第1卷。[谷歌学者]
  51. 他,K。;张,X。;Ren,S。;Sun,J.用于图像识别的深度残差学习。2016年6月26日至7月1日,美国内华达州拉斯维加斯,2016年IEEE计算机视觉和模式识别会议记录;第770-778页。[谷歌学者]
  52. 辛顿,G。;邓,L。;Yu,D。;Dahl,G.E。;穆罕默德,A。;北卡罗来纳州贾特利。;高级,A。;Vanhoucke,V。;Nguyen,P。;塞纳,T.N。;等。语音识别中声学建模的深度神经网络:四个研究小组的共同观点。IEEE信号处理。美格。 2012,29, 82–97. [谷歌学者] [交叉参考]
  53. 格雷夫斯,A。;Jaitly,N.使用递归神经网络实现端到端语音识别。2014年6月21-26日,中国北京,第31届国际机器学习大会论文集;第32卷,第1764-1772页。[谷歌学者]
  54. 邓,L。;Platt,J.C.集成语音识别的深度学习。2014年9月14日至18日,新加坡,国际言语传播协会第十五届年会会议记录。[谷歌学者]
  55. 斯坦伯格,B.Z。;M.J.Beran。;Chin,S.H。;Howard,J.H.,一种用于源定位的神经网络方法。J.声学。美国南部。 1991,90, 2081–2090. [谷歌学者] [交叉参考]
  56. 基准,M.S。;Palmieri,F。;Moiseff,A.使用双耳线索进行声音定位的人工神经网络。J.声学。美国南部。 1996,100, 372–383. [谷歌学者] [交叉参考] [公共医学]
  57. Youssef,K。;Argentieri,S。;Zarader,J.L.稳健双耳声音定位的基于学习的方法。2013年IEEE/RSJ智能机器人和系统国际会议论文集,日本东京,2013年11月3日至7日;第2927-2932页。[谷歌学者] [交叉参考]
  58. Xiao,X。;赵,S。;钟,X。;Jones,D.L。;Chng,E.S。;Li,H.一种基于学习的方法,用于噪声和混响环境中的波达方向估计。2015年IEEE声学、语音和信号处理国际会议(ICASSP)会议记录,澳大利亚南布里斯班,2015年4月19-24日;第2814–2818页。[谷歌学者] [交叉参考]
  59. 马,N。;布朗,G。;May,T.利用深层神经网络和头部运动在混响条件下对多个扬声器进行双耳定位。2015年9月6日至10日在德国德累斯顿举行的2015年国际演讲会议记录;第3302–3306页。[谷歌学者]
  60. 武田,R。;Komatani,K.,基于独立定位模型的深度神经网络判别多声源定位。2016年IEEE口语技术研讨会(SLT)会议记录,2016年12月13日至16日,美国加利福尼亚州圣地亚哥;第603–609页。[谷歌学者] [交叉参考]
  61. 武田,R。;Komatani,K.基于深度神经网络的声源定位,具有利用相位信息的定向激活功能。2016年IEEE声学、语音和信号处理国际会议(ICASSP)会议记录,2016年3月20日至25日,中国上海;第405-409页。[谷歌学者] [交叉参考]
  62. 佩蒂拉,P。;Cakir,E.基于转向响应功率的卷积神经网络稳健方向估计。2017年3月5日至9日在美国洛杉矶新奥尔良举行的2017 IEEE声学、语音和信号处理国际会议(ICASSP)会议记录;第6125–6129页。[谷歌学者] [交叉参考]
  63. Le,Q.V。;Ngiam,J。;科茨,A。;拉希里,A。;普罗克诺,B。;Ng,A.Y.关于深度学习的优化方法。2011年6月28日至7月2日在美国华盛顿州贝尔维尤举行的第28届国际机器学习会议记录;第265-272页。[谷歌学者]
  64. 艾伦,J.B。;Berkley,D.A.高效模拟小房间声学的图像方法。J.声学。美国南部。 1979,65, 943–950. [谷歌学者] [交叉参考]
  65. 维拉斯科,J。;马丁·阿尔古达斯,C.J。;Macias-Guarasa,J。;Pizarro,D。;Mazo,M.提出并验证了混响场景中SRP-PHAT功率图的分析生成模型。信号处理。 2016,119, 209–228. [谷歌学者] [交叉参考]
  66. 拉图德,G。;Odobez,J.M。;Gatica-Perez,D.AV16.3:用于说话人定位和跟踪的视听语料库。2004年MLMI会议记录,2004年6月21日至23日,瑞士马蒂尼; 计算机科学讲义;Bengio,S.,Bourard,H.,编辑。;施普林格:柏林/海德堡,德国,2004年;第3361卷,第182-195页。[谷歌学者]
  67. 哥伦比亚特区摩尔。IDIAP智能会议室; 技术报告;IDIAP研究所:瑞士马蒂尼,2004年。[谷歌学者]
  68. Lathoud,G.AV16.3数据集。2004年。在线提供:http://www.idiap.ch/dataset/av16-3/(2012年10月11日查阅)。
  69. 协会,E.E.L.R.Albayzin语料库。在线提供:http://catalogue.elra.info/en-us/repository/browse/albayzin-corpus/b50c9628a9dd11e7a093ac9e1701ca0253c876277d534e7ca4aca155a5611535/(2018年10月9日访问)。
  70. 莫雷诺,A。;Poch,D。;博纳方特,A。;莱伊达,E。;利斯特里,J。;马里诺,J.B。;Nadeu,C.Albayzin语音数据库:语音语料库的设计。1993年9月22日至25日,德国柏林,第三届欧洲语音通信与技术会议记录。[谷歌学者]
  71. Kingma,D.P。;Ba,J.Adam:一种随机优化方法。arXiv公司, 2014; arXiv:1412.6980。[谷歌学者]
  72. Velasco-Cerpa,J.F.混响环境中声源定位的数学建模和优化策略。2017年,西班牙马德里阿尔卡拉大学高级政治学院博士论文。[谷歌学者]
  73. Adavanne,S。;Politis,A。;Nikunen,J。;Virtanen,T.源代码:使用卷积递归神经网络(SELDnet)对重叠声源进行声事件定位和检测。2018.在线提供:https://github.com/sharathadavanne/seld-net网站(2018年10月9日访问)。
  74. Mostefa,D。;加西亚,M。;Bernardin,K。;Stiefelhagen,R。;J.麦克多诺。;沃伊特,M。;Omologo,M。;Marques,F。;埃克内尔,H。;Pnevmatikakis,A.明确评估计划,文件CHIL-Clear-V1.1 2006-02-21。2006年。在线提供:http://www.clear-evaluation.org/clear06/downloads/chil-clear-v1.1-2006-02-21.pdf(2012年10月11日访问)。
  75. 莱曼,E.A。;Johansson,A.M.漫反射模型,用于有效模拟房间脉冲响应的图像源。IEEE传输。音频语音语言处理。 2010,18, 1429–1439. [谷歌学者] [交叉参考]
图1。使用的网络拓扑。
图1。使用的网络拓扑。
传感器18 03418 g001
图2。()简化的俯视图IDIAP智能会议室; (b条)从视频帧中提取的房间真实图片;(c(c))本提案中使用的麦克风设置。
图2。()简化的俯视图IDIAP智能会议室; (b条)从视频帧中提取的房间真实图片;(c(c))本提案中使用的麦克风设置。
传感器18 03418 g002
图3。使用不同微调子集(适用于所有窗口大小)对GMBF和CNN相对于SRP-PHAT的MOTP相对改进。
图3。使用不同微调子集(适用于所有窗口大小)对GMBF和CNN相对于SRP-PHAT的MOTP相对改进。
传感器18 03418 g003
表1。网络卷积层摘要。
表1。网络卷积层摘要。
阻止过滤器内核
卷积块1967
卷积块2967
卷积块31285
卷积块41285
卷积块5128
表2。 IDIAP智能会议室使用的序列。
表2。 IDIAP智能会议室使用的序列。
序列(Sequence,缩写)扬声器平均高度(cm)*持续时间(s)基本真相帧数描述
seq01-1p-0000(第01节)54.32082248在16个位置中的每一个位置都有一个男性扬声器,在讲话时处于静止状态。扬声器面对麦克风阵列。
序列号02-1p-000(s02)62.51712411在16个位置中的每一个位置都有一位女性扬声器,在讲话时处于静止状态。扬声器面对麦克风阵列。
seq03-1p-0000(第03节)70.32202636在16个位置中的每一个位置都有一个男性扬声器,在讲话时处于静止状态。扬声器面对麦克风阵列。
序列11-1p-0100(第11条)53.533481一个男性演讲者,说话时随意移动,面对阵列。
序列15-1p-0100(第15节)79.536436一位男性演讲者,一边走动一边交替演讲,长时间保持沉默。无约束条件
*平均扬声器高度参考系统坐标,并参考扬声器的嘴巴高度。
表3。SRP-PHAT策略(SRP列)的基线结果[35](列GMBF)和用合成数据训练的卷积神经网络(CNN),无需对序列应用微调程序(列CNN)第01节,第02页第03节适用于不同的窗口大小。与SRP-PHAT相比,MOTP(多目标跟踪精度)值显示了相对改进。
表3。SRP-PHAT策略(SRP列)的基线结果[35](列GMBF)和用合成数据训练的卷积神经网络(CNN),无需对序列应用微调程序(列CNN)第01节,第02页第03节适用于不同的窗口大小。与SRP-PHAT相比,MOTP(多目标跟踪精度)值显示了相对改进。
80毫秒160毫秒320毫秒
SRP公司GMBF公司美国有线电视新闻网SRP公司GMBF公司美国有线电视新闻网SRP公司GMBF公司美国有线电视新闻网
s01 M(M) O(运行) T型 P(P) ( ) Δ 第页 M(M) O(运行) T型 P(P) 1.020 0.795 1.615 0.910 0.686 1.526 0.830 0.588 1.464
22.1 % 58.3 % 24.6 % 67.7 % 29.1 % 76.4 %
第02页 M(M) O(运行) T型 P(P) ( ) Δ 第页 M(M) O(运行) T型 P(P) 0.960 0.864 2.124 0.840 0.759 1.508 0.770 0.694 1.318
10 % 121.3 % 9.6 % 79.5 % 9.9 % 71.2 %
第03节 M(M) O(运行) T型 P(P) ( ) Δ 第页 M(M) O(运行) T型 P(P) 0.900 0.686 1.559 0.770 0.563 1.419 0.690 0.484 1.379
23.8 % 73.2 % 26.9 % 84.3 % 29.9 % 99.9 %
平均 M(M) O(运行) T型 P(P) ( ) Δ 第页 M(M) O(运行) T型 P(P) 0.957 0.778 1.763 0.836 0.666 1.481 0.760 0.585 1.385
18.7 % 84.3 % 20.4 % 77.1 % 22.9 % 82.3 %
表4。战略的结果[35](列GMBF);和CNN对序列进行了微调第15节(CNNf15列)。
表4。战略的结果[35](列GMBF);和CNN对序列进行了微调第15节(CNNf15列)。
80毫秒160毫秒320毫秒
GMBF公司细胞神经网络f15通用最小流量CNNf15号GMBF公司CNNf15号
第01节 M(M) O(运行) T型 P(P) ( ) Δ 第页 M(M) O(运行) T型 P(P) 0.795 0.875 0.686 0.833 0.588 0.777
22.1 % 14.2 % 24.6 % 8.5 % 29.1 % 6.4 %
第02页 M(M) O(运行) T型 P(P) ( ) Δ 第页 M(M) O(运行) T型 P(P) 0.864 0.839 0.759 0.801 0.694 0.731
10 % 12.6 % 9.6 % 4.6 % 9.9 % 5.1 %
第03节 M(M) O(运行) T型 P(P) ( ) Δ 第页 M(M) O(运行) T型 P(P) 0.686 0.835 0.563 0.806 0.484 0.734
23.8 % 7.2 % 26.9 % - 4.7 % 29.9 % - 6.4 %
平均 M(M) O(运行) T型 P(P) ( ) Δ 第页 M(M) O(运行) T型 P(P) 0.778 0.849 0.666 0.813 0.585 0.746
18.7 % 11.3 % 20.4 % 2.8 % 22.9 % 1.8 %
表5。参考文献中所述策略相对于SRP-PHAT的相对改进[35](列GMBF)和CNN与序列微调第15节第11节(CNNf15+11列)。
表5。参考文献中所述策略相对于SRP-PHAT的相对改进[35](列GMBF)和CNN与序列微调第15节第11节(CNNf15+11列)。
80毫秒160毫秒320毫秒
GMBF公司CNNf15+11号GMBF公司CNNf15+11号GMBF公司CNNf15+11号
第01节 M(M) O(运行) T型 P(P) ( ) Δ 第页 M(M) O(运行) T型 P(P) 0.795 0.805 0.686 0.750 0.588 0.706
22.1 % 21.1 % 24.6 % 17.6 % 29.1 % 14.9 %
第02页 M(M) O(运行) T型 P(P) ( ) Δ 第页 M(M) O(运行) T型 P(P) 0.864 0.809 0.759 0.716 0.694 0.712
10 % 15.7 % 9.6 % 14.8 % 9.9 % 7.5 %
第03节 M(M) O(运行) T型 P(P) ( ) Δ 第页 M(M) O(运行) T型 P(P) 0.686 0.792 0.563 0.732 0.484 0.692
23.8 % 12 % 26.9 % 4.9 % 29.9 % 0.3 %
平均 M(M) O(运行) T型 P(P) ( ) Δ 第页 M(M) O(运行) T型 P(P) 0.778 0.802 0.666 0.732 0.585 0.703
18.7 % 16.2 % 20.4 % 12.4 % 22.9 % 7.5 %
表6。实验中使用的微调材料对应于中的CNNf15+11+st列表7.
表6。实验中使用的微调材料对应于中的CNNf15+11+st列表7.
测试顺序微调顺序
序列01第15节+第11节+第02页+第03节
序列02第15条+第11节+第01节+第03节
序列03第15节+第11节+第01节+第02页
表7。参考文献中所述策略相对于SRP-PHAT的相对改进[35](列GMBF)和CNN与中描述的序列微调表6(CNNf15+11+st列)。
表7。参考文献中所述策略相对于SRP-PHAT的相对改进[35](列GMBF)和CNN与中描述的序列微调表6(CNNf15+11+st列)。
80毫秒160毫秒320毫秒
GMBF公司CNNf15+11+st号GMBF公司CNNf15+11+st号GMBF公司CNNf15+11+st号
第01节 M(M) O(运行) T型 P(P) ( ) Δ 第页 M(M) O(运行) T型 P(P) 0.795 0.607 0.686 0.540 0.588 0.485
22.1 % 40.5 % 24.6 % 40.7 % 29.1 % 41.6 %
s02 M(M) O(运行) T型 P(P) ( ) Δ 第页 M(M) O(运行) T型 P(P) 0.864 0.669 0.759 0.579 0.694 0.545
10 % 30.3 % 9.6 % 31.1 % 9.9 % 29.2 %
第03节 M(M) O(运行) T型 P(P) ( ) Δ 第页 M(M) O(运行) T型 P(P) 0.686 0.707 0.563 0.617 0.484 0.501
23.8 % 21.4 % 26.9 % 19.9 % 29.9 % 27.4 %
平均 M(M) O(运行) T型 P(P) ( ) Δ 第页 M(M) O(运行) T型 P(P) 0.778 0.664 0.666 0.581 0.585 0.511
18.7 % 30.6 % 20.4 % 30.6 % 22.9 % 32.8 %
表8。CNN提案的结果,要么从头开始训练(tr−sc列),要么使用半合成训练+微调(tr+ft列),针对不同的训练/微调序列。
表8。CNN提案的结果,要么从头开始训练(tr−sc列),要么使用半合成训练+微调(tr+ft列),针对不同的训练/微调序列。
tr−sc/tr+ft序列 80毫秒160毫秒320毫秒
tr−sc型tr+英尺tr−sc型tr+英尺tr−sc型tr+英尺
第15节 M(M) O(运行) T型 P(P) ( ) Δ 第页 M(M) O(运行) T型 P(P) 0.915 0.849 0.875 0.813 0.916 0.746
4.3 % 11.3 % 4.6 % 2.8 % 20.6 % 1.8 %
第15节+第11节 M(M) O(运行) T型 P(P) ( ) Δ 第页 M(M) O(运行) T型 P(P) 0.951 0.802 0.900 0.732 0.983 0.703
0.6 % 16.2 % 7.6 % 12.4 % 29.4 % 7.5 %
的序列表6 M(M) O(运行) T型 P(P) ( ) Δ 第页 M(M) O(运行) T型 P(P) 0.791 0.664 0.724 0.581 0.742 0.511
17.3 % 30.6 % 13.4 % 30.6 % 2.3 % 32.8 %
表9。相对于SRP-PHAT的相对改进[18](列SELDnet);和CNN与中描述的序列进行微调表6(CNNf15+11+st列)。
表9。中的策略相对于SRP-PHAT的相对改进[18](SELDnet列);和CNN与中描述的序列进行微调表6(CNNf15+11+st列)。
80毫秒160毫秒320毫秒
SELDnet(SELDnet)CNNf15+11+st号SELDnet(SELDnet)细胞神经网络f15+11+stSELDnet(SELDnet)CNNf15+11+st号
第01节 M(M) O(运行) T型 P(P) ( ) Δ 第页 M(M) O(运行) T型 P(P) 1.037 0.607 1.039 0.540 1.076 0.485
1.7 % 40.5 % 14.2 % 40.7 % 29.6 % 41.6 %
第02页 M(M) O(运行) T型 P(P) ( ) Δ 第页 M(M) O(运行) T型 P(P) 1.035 0.669 1.003 0.579 0.981 0.545
7.8 % 30.3 % 19.4 % 31.1 % 27.4 % 29.2 %
第03节 M(M) O(运行) T型 P(P) ( ) Δ 第页 M(M) O(运行) T型 P(P) 1.017 0.707 0.991 0.617 1.020 0.501
13 % 21.4 % 28.7 % 19.9 % 47.8 % 27.4 %
平均 M(M) O(运行) T型 P(P) ( ) Δ 第页 M(M) O(运行) T型 P(P) 1.029 0.664 1.010 0.581 0.585 0.511
7.6 % 30.6 % 20.7 % 30.6 % 34.9 % 32.8 %

分享和引用

MDPI和ACS样式

维拉·迪亚兹,J.M。;Pizarro,D。;马西亚斯·瓜拉萨,J。利用深度学习实现端到端声学定位:从音频信号到声源位置坐标。传感器 2018,18, 3418.https://doi.org/10.3390/s18103418

AMA风格

Vera-Diaz JM、Pizarro D、Macias-Guarasa J。利用深度学习实现端到端声学定位:从音频信号到声源位置坐标。传感器. 2018; 18(10):3418.https://doi.org/10.3390/s18103418

芝加哥/图拉宾风格

维拉·迪亚兹、胡安·曼努埃尔、丹尼尔·皮萨罗和哈维尔·马西亚斯·瓜拉萨。2018.“使用深度学习实现端到端声学定位:从音频信号到源位置坐标”传感器18,编号10:3418。https://doi.org/10.3390/s18103418

请注意,从2016年第一期开始,该杂志使用文章编号而不是页码。请参阅更多详细信息在这里.

文章指标

返回页首顶部