利用深度学习实现端到端声学定位:从音频信号到声源位置坐标
摘要
1.简介
2.最新技术
3.系统说明
3.1. 问题陈述
3.2、。 网络拓扑结构
3.3. 培训策略
第1步 . 该网络使用半合成数据进行训练。 近距离语音记录和一组随机生成的源位置用于生成由一组麦克风捕获的信号的模拟版本,这些麦克风与实际数据记录中使用的环境具有相同的几何形状。 为了生成数据,还考虑了目标环境声学行为的其他考虑因素(特定噪声类型、噪声级等)。 这种类型的数据集实际上可以制作成训练网络所需的大小。 第2步 . 该网络使用真实数据进行精细化。 使用步骤1中获得的初始化权重,在目标物理环境中捕获的数据库的简化子集上训练网络。
3.3.1. 半合成数据集生成
房间的噪音条件和记录过程条件:这些可能是由于房间中的附加设备(计算机、风扇、空调系统等)以及信号采集设置中的问题造成的。 可以通过假设附加噪声条件和选择噪声类型以及最好在目标房间中估计的声学效果来解决这些问题。
3.3.2。 微调程序
4.实验工作
4.1. 数据集集合
4.1.1. IDIAP AV16.3语料库:用于测试和微调
4.1.2. Albayzin语音语料库:用于半合成数据集生成
4.2. 培训和微调详细信息
4.3. 实验装置
在第一个实验中,我们评估了使用单个序列进行微调过程时的性能改进。 在第二个实验中,我们评估了添加额外微调序列的影响。 在第三个实验中,我们评估了在细化过程中添加静态序列时的最终性能改进。
4.4. 评估指标
4.5. 比较基准结果
正如预期的那样,MOTP值随着帧大小的增加而提高,因为对于更长的窗口信号长度,将估计出更好的相关性值。 标准SRP-PHAT算法的最佳MOTP值约为69 cm,GMBF的最佳MOPP值约为48 cm。 标准SRP-PHAT算法的平均MOTP值在76 cm到96 cm之间,而GMBF的平均MOPP值在59 cm到78 cm之间。
4.6. 结果和讨论
用于微调的扬声器在说话时大多是移动的,而在测试序列中,扬声器在说话时是静止的。 这意味着,微调材料包含的活跃位置远比测试序列多,网络能够提取测试位置的相关信息。 我们的CNN对较长信号窗口大小的减少所取得的改进表明,扬声器的速度(因此,扬声器在信号窗口中的位移)可能会对结果产生影响。 我们评估了移动扬声器序列中扬声器的平均速度, 米/秒 第11节 、和 序列15为m/s。 它们似乎对位置估计没有重大相关影响。 我们还评估了不同序列中各个信号帧内的震源位移分布。 80 ms窗口的平均位移距离为4–6 cm,160 ms窗口为7–11 cm,320 ms窗口为15–20 cm。 当我们考虑最大位移距离时,这些值对于80 ms窗口为7–27 cm,对于160 ms窗口为14–34 cm,对于320 ms窗口为28–46 cm。 这些位移可能会对结果产生明显的影响,这可能是我们的方法对较长窗口尺寸的改进效果较低的原因。 用于微调的扬声器是男性,获得的结果是男性扬声器(序列 第01节 和 第03节 )和雌性(序列 第02页 )似乎没有表现出任何性别依赖性偏见,这意味着性别问题似乎在网络模型的适当适应中没有发挥作用。
对于所有窗口大小,基于CNN的方法显示出比GMBF更好的平均行为。 CNN相对于SRP-PHAT的平均绝对改善率比GMBF高出10分以上,达到 在CNN案件中 在GMBF中。 考虑到单个序列,CNN在序列方面明显优于GMBF 第01节 和 第02页 ,情况稍差 第03节 . 考虑到最佳个人结果,CNN的最大改进是 ( 第01节 ,320 ms),而GMBF的最高结果是 ( 第03节 ,320毫秒)。 正如预期的那样,添加静态序列的效果是有益的,前提是声学调谐示例是从相似但不相同的位置生成的,因为扬声器的高度不同,并且它们在房间中的位置在序列之间并不严格相等。 所获得的改进是显著的,并以额外的微调序列为代价。 然而,这种额外的成本仍然是合理的,因为这种额外的微调材料的持续时间有限,平均约为400秒( 最小值)。
4.7. 微调策略的验证
4.8. 与深度学习方法的比较
分类输出:SELDnet的第一个输出能够在输入音频信号中每个连续帧的类别列表中对声音事件进行分类。 回归输出:第二个输出估计音频输入中每个连续帧上检测到的DOA矢量。 该向量参数化为 x个 , 年 、和 z 传声器周围单位球体上DOA的轴坐标,据称这将导致网络比使用基于角度的参数化的网络学习效果更好。
SELDnet使用大小为的音频窗口 并提取连续的重叠帧来计算用作输入的频谱分量。 为了与我们的网络进行比较,我们用不同的 :80毫秒、160毫秒和320毫秒。 由于我们使用的是只有一个说话人同时出现的音频序列,因此我们为用于训练的所有音频窗口指定了相同的标签(“speech”)。 我们需要SELDnet来推断 目标源的坐标,而不是DOA矢量。 这只需要我们在培训期间更改目标输出,因为网络模型根本不会更改它。 我们的空间坐标也在区间内进行了标准化 与SELDnet的回归输出兼容。 最终输出坐标再次反规范化为公制坐标,以继续进行MOTP计算。
5.结论
作者贡献
基金
利益冲突
工具书类
托雷斯·索利斯,J。; 福克,T.H。; Chau,T.《室内定位技术综述:地形失定向导航辅助》。 在 环境智能 ; Molina,F.J.V.,编辑。; IntechOpen:克罗地亚里耶卡,2010年; 第3章。 [ 谷歌学者 ] [ 交叉参考 ] [ 绿色版本 ] Ruiz-López,T。; 加里多,J.L。; 班加西,K。; Chung,L.《室内定位系统调查:预见质量设计》。 在 分布式计算与人工智能 ; 施普林格:德国柏林/海德堡,2010年; 第373–380页。 [ 谷歌学者 ] Mainetti,L。; Patrono,L。; Sergi,I.室内定位系统调查。 2014年9月17日至19日在克罗地亚斯普利特举行的2014年第22届软件、电信和计算机网络国际会议(SoftCOM)会议记录; 第111-120页。 [ 谷歌学者 ] 塞纳,T.N。; R.J.维斯。; K.W.威尔逊。; Narayanan,A。; Bacchiani,M.扬声器位置和麦克风间距不变的原始多通道波形声学建模。 2015年12月13日至17日,美国亚利桑那州斯科茨代尔IEEE自动语音识别与理解研讨会(ASRU)会议记录; 第30–36页。 [ 谷歌学者 ] [ 交叉参考 ] 武田,R。; Komatani,K.利用熵最小化对深度神经网络进行无监督自适应,用于声源定位。 2017年3月5日至9日在美国洛杉矶新奥尔良举行的2017 IEEE声学、语音和信号处理国际会议(ICASSP)会议记录; 第2217–2221页。 [ 谷歌学者 ] [ 交叉参考 ] 孙,Y。; 陈,J。; 袁,C。; Rahardja,S.,概率神经网络室内声源定位。 IEEE传输。 Ind.Electron公司。 2018 , 65 , 6403–6413. [ 谷歌学者 ] [ 交叉参考 ] [ 绿色版本 ] Chakrabarty,S。; Habets,E.A.P.使用经过噪声训练的卷积神经网络进行多扬声器定位。 arXiv公司 , 2017; arXiv:1712.04276v1。 [ 谷歌学者 ] 雅尔塔,N。; Nakadai,K。; Ogata,T.使用深度学习模型进行声源定位。 J.机器人。 麦查顿。 2017 , 29 , 37–48. [ 谷歌学者 ] [ 交叉参考 ] Ferguson,E.L。; 威廉姆斯S.B。; Jin,C.T.使用卷积神经网络在多径环境中定位声源。 arXiv公司 , 2017; arXiv:1710.10948。 [ 谷歌学者 ] Hirvonen,T.使用卷积神经网络对空间音频位置和内容进行分类。 2015年第138届音频工程学会会议记录,波兰华沙,2015年5月7日至10日; 第2卷。 [ 谷歌学者 ] He,W。; 莫特利切克,P。; Odobez,J.用于多个说话人检测和定位的深度神经网络。 arXiv公司 , 2017; arXiv:1711.11565。 [ 谷歌学者 ] Adavanne,S。; Politis,A。; Virtanen,T.使用卷积递归神经网络的多声源波达方向估计。 arXiv公司 , 2017; arXiv:1710.10059。 [ 谷歌学者 ] 马,N。; T·梅。; Brown,G.J.利用深层神经网络和头部运动在混响环境中对多个声源进行稳健的双耳定位。 IEEE/ACM传输。 音频语音语言处理。 2017 , 25 , 2444–2453. [ 谷歌学者 ] [ 交叉参考 ] [ 绿色版本 ] Salvati,D。; 德里奥利,C。; Foresti,G.L.利用CNN改进噪声和混响条件下的声源定位。 IEEE传输。 Emerg.顶部。 计算。 智力。 2018 , 2 , 103–116. [ 谷歌学者 ] [ 交叉参考 ] 马伟(Ma,W.)。; Liu,X.用于深度学习声源定位的相位麦克风阵列。 arXiv公司 ,2018年; arXiv:1802.04479。 [ 谷歌学者 ] Thuillier,E。; Gamper,H。; Tashev,I.用卷积神经网络发现空间音频特征。 2018年4月15日至20日,加拿大阿联酋卡尔加里,IEEE声学、语音和信号处理国际会议(ICASSP)会议记录。 [ 谷歌学者 ] 韦斯佩里尼,F。; Vecchiotti,P。; 普林西比,E。; 斯夸蒂尼,S。; Piazza,F.使用深度神经网络在多个房间定位扬声器。 计算。 语音语言。 2018 , 49 , 83–106. [ 谷歌学者 ] [ 交叉参考 ] Adavanne,S。; Politis,A。; Nikunen,J。; Virtanen,T.使用卷积递归神经网络对重叠声源进行声事件定位和检测。 arXiv公司 , 2018; arXiv:1807.00129。 [ 谷歌学者 ] Simonyan,K。; 用于大规模图像识别的极深卷积网络。 arXiv公司 , 2014; arXiv:1409.1556。 [ 谷歌学者 ] Krizhevsky,A。; Sutskever,I。; Hinton,G.E.ImageNet使用深度卷积神经网络进行分类。 2012年12月3日至6日,美国内华达州太浩湖,第25届国际神经信息处理系统会议记录; Curran Associates Inc.:美国纽约州Red Hook,2012年; 第1卷,第1097-1105页。 [ 谷歌学者 ] DiBiase,J.使用麦克风阵列在混响环境中定位说话人的高精度、低延迟技术。 2000年,美国罗得岛州普罗维登斯布朗大学博士论文。 [ 谷歌学者 ] 路易斯安那州奈斯。; 马丁斯,W.A。; 利马,M.V.S。; Biscainho,L.W.P。; Costa,M.V.M。; Gonçalves,F.M。; 赛义德,A。; Lee,B.使用传声器阵列对声源定位进行分层搜索的定向响应功率算法。 IEEE传输。 信号处理。 2014 , 62 , 5171–5183. [ 谷歌学者 ] [ 交叉参考 ] Cobos,M。; García-Pineda,M。; Arevalillo-Herráez,M.指导声通带信号的响应功率定位。 IEEE信号处理。 莱特。 2017 , 24 ,717–721页。 [ 谷歌学者 ] [ 交叉参考 ] He,H。; 王,X。; 周,Y。; Yang,T.一种用于声源定位的具有权衡预白化的转向响应功率方法。 J.声学。 美国南部。 2018 , 143 , 1003–1007. [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] Salvati,D。; 德里奥利,C。; Foresti,G.L.《转向响应功率算法中基于灵敏度的区域选择》。 信号处理。 2018 , 153 , 1–10. [ 谷歌学者 ] [ 交叉参考 ] Brandstein,医学硕士。; Silverman,H.F.使用麦克风阵列进行语音源定位的实用方法。 计算。 语音语言。 1997 , 11 , 91–126. [ 谷歌学者 ] [ 交叉参考 ] [ 绿色版本 ] DiBiase,J。; 西尔弗曼,H。; Brandstein,M.混响室中的稳健定位。 麦克风阵列 2001 , 157–180. [ 谷歌学者 ] [ 交叉参考 ] 克纳普,C。; Carter,G.估计时延的广义相关方法。 IEEE传输。 阿库斯特。 语音信号处理。 1976 , 24 , 320–327. [ 谷歌学者 ] [ 交叉参考 ] 张,C。; Florencio,D。; 张,Z。为什么PHAT在低噪音、混响环境中工作良好? 2008年3月30日至4月4日,美国内华达州拉斯维加斯,IEEE声学、语音和信号处理国际会议记录; 第2565-2568页。 [ 谷歌学者 ] [ 交叉参考 ] Dmochowski,J.P。; Benesty,J.指导声源定位的波束形成方法。 在 现代通信中的语音处理 ; 信号处理中的Springer主题; Cohen,I.、Benesty,J.、Gannot,S.编辑。; 施普林格:德国柏林/海德堡,2010年; 第3卷,第307-337页。 [ 谷歌学者 ] [ 交叉参考 ] Cobos,M。; A.马蒂。; Lopez,J.J.一种改进的SRP-PHAT函数,用于具有可缩放空间采样的鲁棒实时声源定位。 IEEE信号处理。 莱特。 2011 , 18 , 71–74. [ 谷歌学者 ] [ 交叉参考 ] [ 绿色版本 ] Butko,T。; Pla、F.G。; 塞古拉,C。; 纳德乌,C。; Hernando,J.双源声事件检测和定位:在智能室中在线实施。 2011年8月29日至9月29日在西班牙巴塞罗那举行的2011年第19届欧洲信号处理会议记录; 第1317-1321页。 [ 谷歌学者 ] 哈贝茨,E.A.P。; Benesty,J。; 甘诺,S。; Cohen,I.语音增强用MVDR波束形成器。 在 现代通信中的语音处理:挑战与展望 ; 信号处理中的Springer主题; Cohen,I.、Benesty,J.、Gannot,S.编辑。; 施普林格:德国柏林/海德堡,2010年; 第3卷,第225-254页。 [ 谷歌学者 ] [ 交叉参考 ] Marti,A。; Cobos,M。; 洛佩兹,J.J。; Escolano,J.一种用于高精度声源定位的转向响应功率迭代方法。 J.声学。 美国南部。 2013 , 134 , 2627–2630. [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] 维拉斯科,J。; Pizarro,D。; Macias-Guarasa,J.使用基于生成模型的稀疏约束拟合的声传感器阵列进行声源定位。 传感器 2012 , 12 , 13781–13812. [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] [ 绿色版本 ] Padois,T。; 斯加德,F。; O.杜特雷斯。; Berry,A.使用稀疏约束在时域中比较声源定位方法。 2015年8月9日至12日,在美国加利福尼亚州旧金山举行的2015-44届国际噪声控制工程大会和展览会上发表。 [ 谷歌学者 ] 维拉斯科,J。; Pizarro,D。; Macias-Guarasa,J。; Asaei,A.时差矩阵:代数性质及其在缺失数据鲁棒去噪中的应用。 IEEE传输。 信号处理。 2016 , 64 , 5242–5254. [ 谷歌学者 ] [ 交叉参考 ] Compagnoni,M。; Pini,A。; 坎克里尼,A。; Bestagini,P。; Antonacci,F。; Tubaro,S。; Sarti,A.一种去除时差测量异常值的几何统计方法。 IEEE传输。 信号处理。 2017 , 65 , 3960–3975. [ 谷歌学者 ] [ 交叉参考 ] 萨拉里,S。; Chan,F。; 陈,Y.T。; Read,W.利用压缩传感测量和Hadamard矩阵进行时差估计。 IEEE传输。 Aerosp.航空公司。 电子。 系统。 2018 . [ 谷歌学者 ] [ 交叉参考 ] Murray,J.C。; 埃尔文,H.R。; Wermter,S.使用互相关和递归神经网络的机器人声源定位架构。 神经网络。 2009 , 22 , 173–189. [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] Deleforge,A.声学空间映射:声源分离和定位的机器学习方法。 2013年,法国圣马丁·德赫雷斯格勒诺布尔大学博士论文。 [ 谷歌学者 ] Salvati,D。; 德里奥利,C。; Foresti,G.L.关于在麦克风阵列波束形成中使用机器学习进行远场声源定位。 2016年IEEE第26届信号处理机器学习国际研讨会(MLSP)会议记录,意大利萨勒诺,2016年9月13-16日; 第1-6页。 [ 谷歌学者 ] [ 交叉参考 ] 拉斯康,C。; Meza,I.机器人声源定位:综述。 机器人。 自动。 系统。 2017 , 96 , 184–210. [ 谷歌学者 ] [ 交叉参考 ] 斯托伊卡,P。; Li,J.演讲稿——距离差测量的震源定位。 IEEE信号处理。 美格。 2006 , 23 , 63–66. [ 谷歌学者 ] [ 交叉参考 ] Omologo,M。; Svaizer,P.声事件定位中交叉功率谱相位的使用。 IEEE传输。 语音音频处理。 1997 , 5 , 288–292. [ 谷歌学者 ] [ 交叉参考 ] [ 绿色版本 ] Dmochowski,J。; Benesty,J。; 计算可行震源定位的广义转向响应功率法。 IEEE传输。 音频语音语言处理。 2007 , 15 , 2510–2526. [ 谷歌学者 ] [ 交叉参考 ] 巴达利,A。; 瓦林,J.M。; 米肖,F。; Aarabi,P.评估机器人人工试听的实时音频定位算法。 2009年10月11日至15日,美国密苏里州圣路易斯,IEEE/RSJ智能机器人和系统国际会议论文集; 第2033-2038页。 [ 谷歌学者 ] [ 交叉参考 ] Do,H。; Silverman,H.SRP-PHAT使用麦克风阵列数据帧定位同时多个说话人的方法。 2010年3月14日至19日在美国德克萨斯州达拉斯举行的2010年IEEE声学语音和信号处理国际会议(ICASSP)会议记录; 第125-128页。 [ 谷歌学者 ] [ 交叉参考 ] Schmidt,R.多发射极位置和信号参数估计。 IEEE传输。 天线传播。 1986 , 34 , 276–280. [ 谷歌学者 ] [ 交叉参考 ] 古德费罗,I。; Y.本吉奥。; 科尔维尔,A。; Y.本吉奥。 深度学习 ; 麻省理工学院出版社:英国剑桥,2016年; 第1卷。 [ 谷歌学者 ] 他,K。; 张,X。; Ren,S。; Sun,J.用于图像识别的深度残差学习。 2016年6月26日至7月1日,美国内华达州拉斯维加斯,2016年IEEE计算机视觉和模式识别会议记录; 第770-778页。 [ 谷歌学者 ] 辛顿,G。; 邓,L。; Yu,D。; Dahl,G.E。; 穆罕默德,A。; 北卡罗来纳州贾特利。; 高级,A。; Vanhoucke,V。; Nguyen,P。; 塞纳,T.N。; 等。语音识别中声学建模的深度神经网络:四个研究小组的共同观点。 IEEE信号处理。 美格。 2012 , 29 , 82–97. [ 谷歌学者 ] [ 交叉参考 ] 格雷夫斯,A。; Jaitly,N.使用递归神经网络实现端到端语音识别。 2014年6月21-26日,中国北京,第31届国际机器学习大会论文集; 第32卷,第1764-1772页。 [ 谷歌学者 ] 邓,L。; Platt,J.C.集成语音识别的深度学习。 2014年9月14日至18日,新加坡,国际言语传播协会第十五届年会会议记录。 [ 谷歌学者 ] 斯坦伯格,B.Z。; M.J.Beran。; Chin,S.H。; Howard,J.H.,一种用于源定位的神经网络方法。 J.声学。 美国南部。 1991 , 90 , 2081–2090. [ 谷歌学者 ] [ 交叉参考 ] 基准,M.S。; Palmieri,F。; Moiseff,A.使用双耳线索进行声音定位的人工神经网络。 J.声学。 美国南部。 1996 , 100 , 372–383. [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] Youssef,K。; Argentieri,S。; Zarader,J.L.稳健双耳声音定位的基于学习的方法。 2013年IEEE/RSJ智能机器人和系统国际会议论文集,日本东京,2013年11月3日至7日; 第2927-2932页。 [ 谷歌学者 ] [ 交叉参考 ] Xiao,X。; 赵,S。; 钟,X。; Jones,D.L。; Chng,E.S。; Li,H.一种基于学习的方法,用于噪声和混响环境中的波达方向估计。 2015年IEEE声学、语音和信号处理国际会议(ICASSP)会议记录,澳大利亚南布里斯班,2015年4月19-24日; 第2814–2818页。 [ 谷歌学者 ] [ 交叉参考 ] 马,N。; 布朗,G。; May,T.利用深层神经网络和头部运动在混响条件下对多个扬声器进行双耳定位。 2015年9月6日至10日在德国德累斯顿举行的2015年国际演讲会议记录; 第3302–3306页。 [ 谷歌学者 ] 武田,R。; Komatani,K.,基于独立定位模型的深度神经网络判别多声源定位。 2016年IEEE口语技术研讨会(SLT)会议记录,2016年12月13日至16日,美国加利福尼亚州圣地亚哥; 第603–609页。 [ 谷歌学者 ] [ 交叉参考 ] 武田,R。; Komatani,K.基于深度神经网络的声源定位,具有利用相位信息的定向激活功能。 2016年IEEE声学、语音和信号处理国际会议(ICASSP)会议记录,2016年3月20日至25日,中国上海; 第405-409页。 [ 谷歌学者 ] [ 交叉参考 ] 佩蒂拉,P。; Cakir,E.基于转向响应功率的卷积神经网络稳健方向估计。 2017年3月5日至9日在美国洛杉矶新奥尔良举行的2017 IEEE声学、语音和信号处理国际会议(ICASSP)会议记录; 第6125–6129页。 [ 谷歌学者 ] [ 交叉参考 ] Le,Q.V。; Ngiam,J。; 科茨,A。; 拉希里,A。; 普罗克诺,B。; Ng,A.Y.关于深度学习的优化方法。 2011年6月28日至7月2日在美国华盛顿州贝尔维尤举行的第28届国际机器学习会议记录; 第265-272页。 [ 谷歌学者 ] 艾伦,J.B。; Berkley,D.A.高效模拟小房间声学的图像方法。 J.声学。 美国南部。 1979 , 65 , 943–950. [ 谷歌学者 ] [ 交叉参考 ] 维拉斯科,J。; 马丁·阿尔古达斯,C.J。; Macias-Guarasa,J。; Pizarro,D。; Mazo,M.提出并验证了混响场景中SRP-PHAT功率图的分析生成模型。 信号处理。 2016 , 119 , 209–228. [ 谷歌学者 ] [ 交叉参考 ] 拉图德,G。; Odobez,J.M。; Gatica-Perez,D.AV16.3:用于说话人定位和跟踪的视听语料库。 在 2004年MLMI会议记录,2004年6月21日至23日,瑞士马蒂尼 ; 计算机科学讲义; Bengio,S.,Bourard,H.,编辑。; 施普林格:柏林/海德堡,德国,2004年; 第3361卷,第182-195页。 [ 谷歌学者 ] 哥伦比亚特区摩尔。 IDIAP智能会议室 ; 技术报告; IDIAP研究所:瑞士马蒂尼,2004年。 [ 谷歌学者 ] Lathoud,G.AV16.3数据集。 2004年。在线提供: http://www.idiap.ch/dataset/av16-3/ (2012年10月11日查阅)。 协会,E.E.L.R.Albayzin语料库。 在线提供: http://catalogue.elra.info/en-us/repository/browse/albayzin-corpus/b50c9628a9dd11e7a093ac9e1701ca0253c876277d534e7ca4aca155a5611535/ (2018年10月9日访问)。 莫雷诺,A。; Poch,D。; 博纳方特,A。; 莱伊达,E。; 利斯特里,J。; 马里诺,J.B。; Nadeu,C.Albayzin语音数据库:语音语料库的设计。 1993年9月22日至25日,德国柏林,第三届欧洲语音通信与技术会议记录。 [ 谷歌学者 ] Kingma,D.P。; Ba,J.Adam:一种随机优化方法。 arXiv公司 , 2014; arXiv:1412.6980。 [ 谷歌学者 ] Velasco-Cerpa,J.F.混响环境中声源定位的数学建模和优化策略。 2017年,西班牙马德里阿尔卡拉大学高级政治学院博士论文。 [ 谷歌学者 ] Adavanne,S。; Politis,A。; Nikunen,J。; Virtanen,T.源代码:使用卷积递归神经网络(SELDnet)对重叠声源进行声事件定位和检测。 2018.在线提供: https://github.com/sharathadavanne/seld-net网站 (2018年10月9日访问)。 Mostefa,D。; 加西亚,M。; Bernardin,K。; Stiefelhagen,R。; J.麦克多诺。; 沃伊特,M。; Omologo,M。; Marques,F。; 埃克内尔,H。; Pnevmatikakis,A.明确评估计划,文件CHIL-Clear-V1.1 2006-02-21。 2006年。在线提供: http://www.clear-evaluation.org/clear06/downloads/chil-clear-v1.1-2006-02-21.pdf (2012年10月11日访问)。 莱曼,E.A。; Johansson,A.M.漫反射模型,用于有效模拟房间脉冲响应的图像源。 IEEE传输。 音频语音语言处理。 2010 , 18 , 1429–1439. [ 谷歌学者 ] [ 交叉参考 ]