×

利用分频段中的声级验证说话人定位。 (英语) Zbl 1161.94321号

摘要:本文提出了一种基于语音信号分裂带分析和混合语音电平的联合验证定位结构。针对混响声环境中存在的问题,提出了一种基于高分辨率谱估计的基频估计算法。在失真语音的重建中,利用这些信息来减少声音噪声对发声部分的副作用。说话人验证系统检查重构语音的特征,以便在定位之前授权说话人。此过程可防止在多扬声器场景中对非讲话人,特别是不需要的扬声器进行定位和波束形成。使用高斯混合模型进行验证,并基于前面步骤中测量的每个频带的发声似然,提出了一种新的滤波方案,以有效定位授权说话人。对所提出的VSL(验证扬声器定位)前端在各种混响和噪声环境中的性能进行了评估。VSL用于通过麦克风阵列进行远程通话自动语音识别的开发,系统可以锁定特定源,因此识别质量显著提高。

MSC公司:

94甲12 信号理论(表征、重建、滤波等)
68吨10 模式识别、语音识别
94A62型 身份验证、数字签名和秘密共享
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 蒙加穆鲁,B。;Arabi,P.:《增强声音定位》,IEEE系统、人与控制论事务——B部分:控制论34,第3期(2004年6月)
[2] 艾伦,B。;Ghavami,M.:自适应阵列系统,基础和应用,(2005)
[3] 克里姆·H。;Viberg,M.:《阵列信号处理二十年》,IEEE信号处理杂志(1996年7月)
[4] Silverman,H.F.:《语音数据采集用麦克风阵列的一些分析》,《声学、语音和信号处理学报》35,第12期,1699-1711(1987年12月)
[5] D.B.Ward、R.A.Kennedy、R.C.Williamson,宽带频率不变波束形成的自适应算法,摘自:IEEE声学、语音和信号处理会议记录,第5卷,1997年4月,第3737-3740页。
[6] M.M.Goodwin,G.W.Elko,恒定束宽波束形成,收录于:IEEE声学、语音、信号处理国际会议论文集,1993年5月,第I-169-172页。
[7] Chen,J.C。;姚,K。;Hudson,R.E.:源定位和波束形成,IEEE信号处理杂志(2002年3月)·Zbl 1065.94520号
[8] A.Asaei,M.J.Taghizadeh,S.Ghanbari,H.Sameti,《实用系统的说话人测向:不同方法的比较》,摘自:第三届IEEE BENELUX/DSP山谷信号处理研讨会论文集,比利时安特卫普大都会,2007年3月,第129-133页。
[9] Knapp,C.H。;Carter,G.C.:估计时延的广义相关方法,IEEE声学事务,语音信号处理24,320-327(1976年8月)
[10] 奥莫洛戈,M。;Svaizer,P.:声事件定位中交叉功率谱相位的使用,IEEE语音音频处理事务5288-292(1997年5月)
[11] Brandstein,M。;沃德·D:麦克风阵列信号处理技术与应用,(2001年)
[12] 林,Q。;简·E。;Flanagan,J.:麦克风阵列和扬声器识别,IEEE语音和音频处理交易2,第4期(1994年10月)
[13] Giannakopoulos,T。;北卡罗来纳州塔特拉斯。;甘切夫,T。;钾盐,I。;Practical,A.:实时演讲驱动,家庭自动化前端,IEEE消费电子交易51,第2期(2005年5月)
[14] I.McCowan,J.Pelecanos,S.Sridharan,使用麦克风阵列的鲁棒说话人识别,收录于:《2001年的进展:说话人奥德赛》,2001年6月。
[15] J.Gonzalez-Rodriguez,J.Ortega-Garcia,C.Martin,L.Hernandez,《使用低复杂度麦克风阵列提高GMM说话人识别系统对噪声和混响语音的鲁棒性》,摘自:《第四届国际口语会议纪要》,第3卷,1996年10月,第1333-1336页。
[16] J.W.Stokes,J.C.Platt,S.Basu,使用麦克风阵列和带有语音频谱和到达角的联合HMM识别扬声器,收录于:IEEE多媒体和博览会国际会议,2006年7月,第1381–1384页。
[17] R.Xu,G.Mei,Z.Ren,C.Kwan,智能流量系统上的实时扬声器验证演示,载于:2004年智能多媒体、视频和语音处理国际研讨会论文集,2004年10月,第226–229页。
[18] Kinsler,L.E.:声学基础(1982)·Zbl 0125.44304号
[19] Ziomek,L.J.:声场理论和时空信号处理基础,(1995)
[20] 约翰逊·D·H。;Dudgeon,D.E.:阵列信号处理:概念和技术(1993)·Zbl 0782.94002号
[21] Ziomek,L.J.:声场理论和时空信号处理基础(1995)
[22] 斯托伊卡,P。;Moses,R.:信号的频谱分析(2005)
[23] Christensena,M.G。;Stoicab,P。;雅各布松公司。;Jensen,S.H.:《多码估计》,《爱思唯尔信号处理杂志》88,972-983(2008)·Zbl 1186.94091号 ·doi:10.1016/j.sigpro.2007.10.014
[24] M.S.Andrews、J.Picone、R.D.Delloat,《通过基于SVD的倒谱方法确定稳健螺距》,ICASPS90,第253-256页。
[25] Hess,W.:语音信号的基音确定,(1983年)
[26] 格里芬,D。;Lim,J.:多频带激励声码器,IEEE声学、语音和信号处理事务36,第8期,1223-1235(1988年8月)·Zbl 0825.94212号 ·doi:10.1109/29.1651
[27] Kondoz,A.M.:低比特率通信系统的数字语音编码,(2004)
[28] 罗曼,N。;Wang,D.:混响语音的基于音高的单耳分离,《美国声学学会杂志》120,458-469(2006年7月)
[29] Tokhura,Y.:语音识别的加权倒谱距离测量,IEEE声学、语音和信号处理事务35,第10期,1414-1422(1987年10月)
[30] Stylianou,Y.:将谐波加噪声模型应用于级联语音合成,IEEE语音和音频处理事务9,第1期(2001年1月)
[31] 徐春南,于海川,杨柏华,无背景说话人模型的说话人验证,ICASSP,2002。
[32] 雷诺德·D·A。;Rose,R.C.:使用高斯混合说话人模型的稳健文本相关说话人识别,IEEE语音和音频处理事务3,第1期(1995年)
[33] G.Singh,A.Panda,S.Bhattacharyya,T.Srikanthan,基于GMM的说话人验证的矢量量化技术,ICASSP,2003。
[34] 雷诺兹,D.A。;Quatieri,T.F。;Dunn,R.B.:使用自适应高斯混合模型进行说话人验证,数字信号处理10,19-41(2000)
[35] M.Bahrololum,M.S.Moin,基于性别识别混合高斯混合模型的说话人识别,载于《伊朗电气工程会议论文集》,2004年5月,伊朗设拉子。
[36] I.A.McCowan,《使用麦克风阵列的鲁棒语音识别》,博士论文,澳大利亚昆士兰科技大学,2001年。
[37] J.H.DiBiase,《利用麦克风阵列在混响环境中定位说话人的高精度、低延迟技术》,布朗大学博士论文,2000年5月。
[38] 艾伦·J·B。;Berkley,D.A.:有效模拟小房间声学的图像方法,《美国声学学会杂志》第6期,第4期,943-950页(1979年4月)
[39] 戴维斯,S.B。;Mermelstein,P.:连续口语句子中单音节单词识别的参数表示比较,IEEE声学、语音和信号处理事务28,357-366(1980)
[40] Juang,B.H。;拉宾纳,L.R。;Wilpon,J.G.:关于在语音识别中使用带通提升,IEEE声学、语音和信号处理事务35,第7期,954-974(1987年7月)
[41] M.J.F.Gales,基于模型的抗噪语音识别技术,博士论文,剑桥大学,1995年。
[42] W.Tager,《近场超指令》(NFSD),ICASPSP98,1998年,第2045-2048页。
[43] A.P.Varga,R.K.Moore,语音和噪声的隐马尔可夫模型分解,ICASPSP90,1990年4月,第845-848页。
[44] B.Babaali,H.Sameti,The Sharif speaker independent large vocage speech speech语音识别系统,收录于:The Second Workshop on Information Technology&其学科(WITID 2004),伊朗基什岛,2004年2月24日至26日。
[45] A.Asaei,通过波束形成技术进行稳健语音识别的声源定位,硕士论文,谢里夫工程大学,伊朗德黑兰,2007年11月。
[46] M.Brandstein,基于音高的混响语音时延估计方法,收录于:IEEE ASSP研讨会论文集《信号处理声学的应用》,1997年。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。