×

通过听觉特征检测和尖峰序列解码进行噪声背景语音识别。 (英语) Zbl 1415.94219号

摘要:噪音环境下的语音识别是计算机系统面临的一个主要挑战,但人脑会定期准确地进行识别。受神经科学启发的自动语音识别(ASR)系统可以潜在地弥合人类和机器之间的性能差距。我们提出了一个抗噪孤立词识别系统,该系统通过解码来自模拟听觉特征检测神经元群的棘波序列来工作。每个神经元都经过训练,能够选择性地对从模拟听觉神经对语音的反应中提取的简短的光谱时间模式或特征作出反应。神经种群通过其尖峰序列传递声音的时间相关结构。我们比较了两种解码棘波序列的方法——一种使用基于隐马尔可夫模型的识别器,另一种使用新的基于模板的识别方案。在后一种情况下,通过使用基于最长公共子序列长度的相似性度量,将单词的尖峰序列与从干净训练数据中获得的模板序列进行比较,从而识别单词。使用AURORA-2数据库中的孤立语音数字,我们表明,在低信噪比下,我们的组合系统优于最先进的鲁棒语音识别器。与传统的语音识别方法相比,基于峰值的编码方案和基于模板的解码都能提高噪声鲁棒性。我们的系统突出了基于尖峰的声学编码的潜在优势,并为稳健的ASR开发提供了一个生物驱动的框架。

MSC公司:

94年12月 信号理论(表征、重建、滤波等)
68吨10 模式识别、语音识别

软件:

拉斯塔马特
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aertsen,A.和Johannesma,P.I.M.(1981)。光谱-时间感受野。生物控制论,42(2),133-143·Zbl 0466.92006号
[2] Aradilla,G.、Vepa,J.和Bourlard,H.(2005)。使用数据驱动方法改进语音识别。《INTERSPEECH会议录》(第66卷,第3333-3336页)。纽约州红钩市:Curran。
[3] Axelrod,S.和Maison,B.(2004)。将隐马尔可夫模型与动态时间扭曲相结合用于语音识别。《IEEE声学、语音和信号处理国际会议论文集》,2004年(第1-173页)。新泽西州皮斯卡塔韦:IEEE,
[4] Bar-Yosef,O.和Nelken,I.(2007年)。背景噪音对猫初级听觉皮层对自然声音的神经反应的影响。计算神经科学前沿,1。
[5] Barker,J.、Cooke,M.和Green,P.(2001年)。基于干净语音模型的鲁棒ASR:噪声中连接数字识别的缺失数据技术评估。过程中。《欧洲演讲》(第1卷,第213-216页)。丹麦奥尔堡:Kornmunik Grafiske Lösninger A/S。
[6] Barker,J.、Vincent,E.、Ma,N.、Christensen,H.和Green,P.(2013)。PASCAL CHiME语音分离和识别挑战。计算机语音与语言,27(3),621-633,
[7] Bergroth,L.、Hakonen,H.和Raita,T.(2000)。最长通用子序列算法综述。2000年第七届字符串处理和信息检索国际研讨会论文集(第39-48页)。加利福尼亚州圣马特奥:IEEE计算机学会,
[8] Bitterman,Y.、Mukamel,R.、Malach,R.,Fried,I.和Nelken,I.(2008)。在人类听觉皮层的单个神经元中发现了超频调谐。《自然》,451(7175),197-201,
[9] Bourlard,H.、Hermansky,H.和Morgan,N.(1996年)。逐步提高语音识别错误率。语音通信,18(3),205-231,
[10] Bourrad,H.和Morgan,N.(1994年)。连接语音识别:一种混合方法。纽约:斯普林格,
[11] Bridle,J.S.、Brown,M.D.和Chamberlain,R.M.(1983年)。使用整词模板的连续连接词识别。无线电与电子工程师,53(4),167-175,
[12] Bromberg,I.、Qian,Q.、Hou,J.、Li,J.,Ma,C.、Matthews,B.…Tsao,Y.(2007)。语音属性自动转录项目中基于检测的ASR。《国际演讲会议录》(第1829-1832页)。纽约州红钩市:Curran。
[13] Carey,M.J.和Quang,T.P.(2005)。用于鲁棒识别的语音相似性距离加权。《国际演讲会议录》(第1257-1260页)。纽约州红钩市:Curran。
[14] Carlin,M.A.和Elhillali,M.(2013)。模型中央听觉神经元的持续放电产生对自然声音的区分性光谱时间表示。公共科学图书馆计算。生物,9(3),e1002982,
[15] Carlin,M.A.、Patil,K.、Nemala,S.K.和Elhilali,M.(2012)。基于仿生语音轮廓的鲁棒音素识别。过程中。每年13日。国际演讲委员会。协会。纽约州红钩市:Curran。
[16] Carlson,N.L.、Ming,V.L.和DeWeese,M.R.(2012年)。语音稀疏编码预测下丘的光谱时间感受野。《公共科学图书馆·计算生物学》,8(7),e1002594,
[17] Chen,C.-P.和Bilmes,J.A.(2007年)。语音特征的MVA处理。IEEE音频、语音和语言处理汇刊,15(1),257-270,
[18] Cooke,M.(2006)。噪声中言语感知的一瞥模型。美国声学学会杂志,1191562,
[19] Cooke,M.、Green,P.、Josifovski,L.和Vizinho,A.(2001年)。具有缺失和不可靠声学数据的鲁棒自动语音识别。言语交际,34(3),267-285·Zbl 1005.68756号
[20] Dahl,G.E.、Yu,D.、Deng,L.和Acero,A.(2012年)。用于大范围语音识别的上下文相关预训练深度神经网络。IEEE音频、语音和语言处理汇刊,20(1),30-42,
[21] Davis,S.和Mermelstein,P.(1980)。连读句子中单音节词识别的参数表示比较。IEEE声学、语音和信号处理汇刊,28(4),357-366,
[22] De Wachter,M.、Matton,M.,Demuynck,K.、Wambacq,P.、Cools,R.和Van Compernolle,D.(2007年)。基于模板的连续语音识别。IEEE音频、语音和语言处理汇刊,15(4),1377-1390,
[23] Dean,I.、Harper,N.S.和McAlpine,D.(2005年)。声级的神经种群编码适应于刺激统计。《自然神经科学》,8(12),1684-1689,
[24] Demuynck,K.、Seppi,D.和Van Compernolle,D.(2011年)。基于示例的自动语音识别的进展。2011年IEEE声学、语音和信号处理国际会议论文集(第4692-4695页)。新泽西州皮斯卡塔韦:IEEE,
[25] Deng,L.、Droppo,J.和Acero,A.(2005)。使用语音失真参数模型计算的特征增强不确定性动态补偿HMM方差。IEEE语音和音频处理汇刊,13(3),412-421,
[26] Deng,L.,&Huang,X.(2004)。采用语音识别的挑战。ACM通信,47(1),69-75,
[27] Deng,L.和Strik,H.(2007年)。基于结构和基于模板的自动语音识别——比较参数和非参数方法。《国际演讲会议录》(第898-901页)。纽约州红钩市:Curran。
[28] DeWeese,M.R.、Wehr,M.和Zador,A.M.(2003)。听觉皮层中的二元尖峰现象。《神经科学杂志》,23(21),7940-7949。
[29] Droppo,J.、Deng,L.和Acero,A.(2001)。评估Aurora2数据库上的SPLICE算法。《国际演讲会议录》(第1卷,第217-220页)。纽约州红钩市:Curran。
[30] Elhilali,M.、Fritz,J.B.、Klein,D.J.、Simon,J.Z.和Shamma,S.A.(2004)。初级听觉皮层精确棘波计时的动力学。神经科学杂志,24(5),1159-1172,
[31] Escbí,M.A.、Miller,L.M.、Read,H.L.和Schreiner,C.E.(2003)。自然听觉对比度改善了猫下丘的光谱时间编码。《神经科学杂志》,23(37),11489-11504。
[32] Gemmeke,J.F.和Cranen,B.(2008年)。在抗噪语音识别中使用稀疏表示进行缺失数据插补。程序。EUSIPCO 2008。新泽西州皮斯卡塔韦:IEEE。
[33] Griffiths,T.D.和Warren,J.D.(2004年)。什么是听觉对象?《自然评论神经科学》,5(11),887-892,
[34] Gütig,R.和Sompolinsky,H.(2009)。时脉不变的神经元处理。《公共科学图书馆·生物学》,7(7),e1000141,
[35] Heil,P.(2004)。再次观察听觉神经元的第一峰潜伏期。神经生物学最新观点,14(4),461-467,
[36] Hermansky,H.(1990年)。语音的感知线性预测(PLP)分析。美国声学学会杂志,871738-1752,
[37] Hermansky,H.、Ellis,D.P.和Sharma,S.(2000)。传统HMM系统的串联连接特征提取。2000年IEEE声学、语音和信号处理国际会议论文集(第3卷,第1635-1638页)。新泽西州皮斯卡塔韦:IEEE,
[38] Hinton,G.、Deng,L.、Yu,D.、Dahl,G.E.、Mohamed,A.-R、Jaitly,N.、…Sainath,T.N.(2012)。语音识别声学建模的深度神经网络:四个研究小组的共同观点。IEEE信号处理杂志,29(6),82-97,
[39] Hirsch,H.-G.和Pearce,D.(2000年)。噪声条件下语音识别系统性能评估的Aurora实验框架。《ASR2000自动语音识别:新千年ISCA教程和研究研讨会的挑战》会议记录。波恩:ISCA。
[40] Hirsch,H.-G.和Pearce,D.(2006年)。将先进的ETSI前端应用于Aurora-2任务(技术代表)。http://aurora.hsnr.de/download/Arora2_afe_v1_1.pdf
[41] Huetz,C.、Del Negro,C.、Lebas,N.、Tarroux,P.和Edeline,J.-M.(2006)。棘波计时对HVC神经元传输信息的贡献。欧洲神经科学杂志,24(4),1091-1108,
[42] Huetz,C.、Philibert,B.和Edeline,J.-M.(2009年)。用于区分麻醉豚鼠和清醒豚鼠丘脑皮层系统中同种发声的尖峰计时代码。神经科学杂志,29(2),334-350,
[43] Hyvärinen,A.和Oja,E.(2000年)。独立成分分析:算法和应用。神经网络,13(4),411-430,
[44] Jansen,A.和Niyogi,P.(2010年)。基于检测的稀疏点过程模型语音识别。2010年IEEE声学语音和信号处理国际会议论文集(第4362-4365页)。新泽西州皮斯卡塔韦:IEEE,
[45] Jelinek,F.(1997)。语音识别的统计方法。马萨诸塞州剑桥:麻省理工学院出版社·Zbl 1504.68003号
[46] Jin,D.Z.(2004)。用于识别棘波时空序列的棘波神经网络。物理评论E,69(2),021905,
[47] Jin,D.Z.(2008)。通过尖峰神经网络的有限状态自动机动力学解码时空尖峰序列。新物理杂志,10(1),015010,
[48] Kalinli,O.、Seltzer,M.L.、Droppo,J.和Acero,A.(2010年)。鲁棒自动语音识别的噪声自适应训练。IEEE音频、语音和语言处理汇刊,18(8),1889-1901,
[49] Kayser,C.、Logothetis,N.K.和Panzeri,S.(2010年)。听觉皮层神经元的毫秒编码精度。《美国国家科学院院刊》,107(39),16976-16981,
[50] Kayser,C.、Montemurro,M.A.、Logothetis,N.K.和Panzeri,S.(2009年)。尖峰相位编码增强并稳定由空间和时间尖峰模式携带的信息。神经元,61(4),597-608,
[51] Klein,D.J.、König,P.和Köring,K.P.(2003)。声音的稀疏光谱时间编码。EURASIP信号处理进展杂志,2003(7),659-667·Zbl 1084.68885号
[52] Kleinschmidt,M.(2003)。用于自动语音识别的本地化光谱-时间特征。在INTERSPEECH会议记录中。纽约州红钩市:Curran。
[53] Kwon,O.-W.和Lee,T.-W.(2004)。使用基于ICA的特征提取和转换进行音素识别。信号处理,84(6),1005-1019·Zbl 1152.68510号
[54] Las,L.、Stern,E.A.和Nelken,I.(2005)。上升听觉系统中波动掩蔽者的音调表示。神经科学杂志,25(6),1503-1513,
[55] Laudanski,J.、Edeline,J.-M.和Huetz,C.(2012)。听觉皮层中人工和自然刺激产生的光谱时间感受野之间的差异。公共图书馆综合频道,7(11),e50539,
[56] Leonard,R.(1984)。用于与说话者无关的数字识别的数据库。《IEEE声学、语音和信号处理国际会议论文集》(第9卷,第328-331页)。新泽西州皮斯卡塔韦:IEEE,
[57] Lesica,N.A.和Grothe,B.(2008年)。听觉中脑的动态光谱时间特征选择性。神经科学杂志,28(21),5412-5421,
[58] Lewicki,M.S.和Arthur,B.J.(1996年)。听觉时间上下文敏感性的层次组织。《神经科学杂志》,16(21),6987-6998。
[59] Loiselle,S.、Rouat,J.、Pressnitzer,D.和Thorpe,S.(2005)。用于语音识别的尖峰神经网络秩序编码的探索。2005年IEEE国际神经网络联合会议论文集(第2076-2080页)。新泽西州皮斯卡塔韦:IEEE,
[60] Lu,T.,&Wang,X.(2004)。听觉皮层对时变声刺激反应的信息含量。神经生理学杂志,91(1),301-313,
[61] Maier,V.和Moore,R.K.(2005年)。用于自动语音识别的情景记忆模拟研究。《国际演讲会议录》(第1245-1248页)。
[62] Martin,J.H.和Jurafsky,D.(2000年)。语音和语言处理。新泽西州上马鞍河:普伦蒂斯·霍尔。纽约州红钩市:Curran。
[63] Mesgarani,N.、Sivaram,G.、Nemala,S.K.、Elhilali,M.和Hermansky,H.(2009年)。用于音素识别的区分性光谱时间特征。过程中。《对话》(第9卷,第2983-2986页)。纽约州红钩市:Curran。
[64] Mesgarani,N.、Slaney,M.和Shamma,S.A.(2006年)。基于多尺度光谱-时间调制的语音与非语音识别。IEEE音频、语音和语言处理汇刊,14(3),920-930,
[65] Meyer,B.、Wesker,T.、Brand,T.,Mertins,A.和Kollmeier,B.(2006年)。基于逻辑语料库的语音识别中的人机比较。在语音识别和内在变异研讨会上。不适用。
[66] Mohamed,A.-r.、Dahl,G.E.和Hinton,G.(2012年)。使用深信度网络进行声学建模。IEEE音频、语音和语言处理汇刊,20(1),14-22,
[67] Moore,R.C.、Lee,T.和Theunissen,F.E.(2013)。鸟类听觉皮层中的噪声不变神经元:在噪声中听到歌声。公共科学图书馆计算生物学。,9(3),e1002942,
[68] Nahum,M.、Nelken,I.和Ahissar,M.(2008)。低水平信息和高水平感知:噪音中的言语案例。《公共科学图书馆·生物学》,6(5),e126,
[69] Nourski,K.V.、Reale,R.A.、Oya,H.、Kawasaki,H.,Kovach,C.K.、Chen,H.…Brugge,J.F.(2009)。人类听觉皮层中表示的时间压缩语音的时间包络。神经科学杂志,29(49),15564-15574,
[70] Olshausen,B.A.和Field,D.J.(2004)。感官输入的稀疏编码。神经生物学最新观点,14(4),481-487,
[71] Ostendorf,M.(1999)。超越“串珠”演讲模式。过程中。IEEE ASRU研讨会(第79-84页)。新泽西州皮斯卡塔韦:IEEE。
[72] Rabiner,L.和Juang,B.-H.(1993)。语音识别基础。新泽西州上马鞍河:普伦蒂斯·霍尔。
[73] Ramasubramanian,V.、Kulkarni,K.和Kämmerer,B.(2008)。基于音素模板的声学建模和改进的单程DP解码,用于连续语音识别。《IEEE声学、语音和信号处理国际会议论文集》(第4105-4108页)。新泽西州皮斯卡塔韦:IEEE,
[74] Rauschecker,J.P.、Tian,B.和Hauser,M.(1995)。猕猴非初级听觉皮层复杂声音的处理。科学,708111-114,
[75] Rodríguez,F.A.、Read,H.L.和Escabí,M.A.(2010年)。下丘的光谱和时间调制权衡。神经生理学杂志,103(2),887-903,
[76] Rufiner,H.、Martínez,C.、Milone,D.和Goddard,J.(2007年)。语音信号的听觉皮层表征,用于音素分类。MICAI 2007:人工智能进展(第1004-1014页)。纽约:斯普林格,
[77] Sadagopan,S.和Wang,X.(2008)。初级听觉皮层神经元群对声音的水平不变表示。神经科学杂志,28(13),3415-3426,
[78] Schädler,M.R.、Meyer,B.T.和Kollmeier,B.(2012)。用于鲁棒自动语音识别的光谱-时间调制子空间跨度滤波器组特征。美国声学学会杂志,1314132-4151,
[79] Scharenborg,O.(2007年)。跨越鸿沟:将人类和自动语音识别研究联系起来的工作回顾。言语交际,49(5),336-347,
[80] Schnupp,J.W.、Hall,T.M.、Kokelaar,R.F.和Ahmed,B.(2006)。初级听觉皮层发声刺激时间模式编码的可塑性。神经科学杂志,26(18),4785-4795,
[81] Seltzer,M.L.和Acero,A.(2011年)。因子化自适应,用于对说话人和环境可变性进行分离补偿。IEEE自动语音识别和理解研讨会(第146-151页)。新泽西州皮斯卡塔韦:IEEE,
[82] Sen,K.、Theunissen,F.E.和Doupe,A.J.(2001年)。鸣禽听觉前脑中自然声音的特征分析。神经生理学杂志,86(3),1445-1458。
[83] Seppi,D.和Van Compernolle,D.(2010年)。基于模板的自动语音识别中的数据剪枝。《国际演讲会议录》(第901-904页)。纽约州红钩市:Curran。
[84] Sivaram,G.S.、Nemala,S.K.、Elhilali,M.、Tran,T.D.和Hermansky,H.(2010)。语音识别的稀疏编码。《IEEE声学语音和信号处理国际会议论文集》(第4346-4349页)。新泽西州皮斯卡塔韦:IEEE,
[85] 斯莱尼,M.(1993)。Patterson-Holdsworth听觉滤波器组(Tech.Rep)的高效实现。加利福尼亚州库比蒂诺:苹果电脑,Perception Group。
[86] Smit,W.J.和Barnard,E.(2009年)。稀疏编码的连续语音识别。计算机语音与语言,23(2),200-219,
[87] Smith,E.和Lewicki,M.S.(2005)。使用峰值对时间相关结构进行高效编码。神经计算,17(1),19-45·Zbl 1092.94520号
[88] Smith,E.C.和Lewicki,M.S.(2006年)。高效的听觉编码。《自然》,439(7079),978-982,
[89] Sroka,J.J.和Braida,L.D.(2005)。人和机器辅音识别。语音通信,45(4),401-423,
[90] Steinschneider,M.、Volkov,I.O.、Fishman,Y.I.、Oya,H.、Arezzo,J.C.和Howard,M.A.(2005)。人类和猴子初级听觉皮层的皮层内反应支持语音起始时间语音参数编码的时间处理机制。大脑皮层,15(2),170-186,
[91] Stevens,K.N.(2002)。基于声学地标和独特特征的词汇获取模型。美国声学学会杂志,1111872年,
[92] Strik,H.(2006)。如何处理ASR中的发音变化:通过在内存中存储片段?在语音识别和内在变异研讨会上。不适用。
[93] Theunissen,F.E.、Sen,K.和Doupe,A.J.(2000)。使用自然声音获得的非线性听觉神经元的频谱时间感受野。神经科学杂志,20(6),2315-2331,
[94] Trentin,E.和Gori,M.(2001年)。语音自动识别的ANN/HMM混合模型综述。神经计算,37(1),91-126·Zbl 0963.68651号
[95] Vapnik,V.N.(1998)。统计学习理论。纽约:Wiley Interscience·Zbl 0935.62007号
[96] Versnel,H.、Zwiers,M.P.和van Opstal,A.J.(2009年)。警惕猴下丘神经元的光谱时间响应特性。神经科学杂志,29(31),9725-9739,
[97] Verstraeten,D.、Schrauwen,B.、Stroobandt,D.和Van Campenhout,J.(2005)。用液态机器进行孤立词识别:一个案例研究。信息处理信件,95(6),521-528·Zbl 1184.68257号
[98] Vinyals,O.和Ravuri,S.V.(2011年)。比较多层感知器和深信度网络串联特征的鲁棒ASR。《IEEE声学、语音和信号处理国际会议论文集》(第4596-4599页)。新泽西州皮斯卡塔韦:IEEE,
[99] Wang,X.和Kadia,S.C.(2001)。绒猴和猫听觉皮层中物种特异性灵长类发声的差异表现。神经生理学杂志,86(5),2616-2620。
[100] Young,S.J.、Evermann,G.、Gales,M.J.F.、Kershaw,D.、Moore,G.,Odell,J.J.…Woodland,P.C.(2005)。HTK图书3.4版。剑桥:剑桥大学英语系。
[101] Yuan,J.和Liberman,M.(2008)。SCOTUS语料库中的说话人识别。美国声学学会杂志,123(5),5687-5690,
[102] Zhao,S.Y.和Morgan,N.(2008年)。用于鲁棒语音识别的多流光谱-时间特征。过程中。对话(第898-901页)。纽约州红钩市:Curran。
[103] Zhung,Y.、Rui,Y.,Huang,T.S.和Mehrotra,S.(1998)。使用无监督聚类的自适应关键帧提取。《1998年国际图像处理会议论文集》(第1卷,第866-870页)。新泽西州皮斯卡塔韦:IEEE。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。