×

用于无监督音符识别的层次线性动力学系统。 (英语) 兹比尔1395.94026

摘要:在本文中,我们开发了一种基于层次线性动态系统(HLDS)的时间序列分割新框架,并测试了其在单音和复音音符识别中的性能。我们方法的中心部分是在滤波器拓扑中包含约束,而不是像机器学习中通常那样在代价函数上。仅通过减慢增强(多层)状态模型顶层的动态,该模型仍与卡尔曼最初提出的递归更新方程兼容,系统就可以直接从数据中学习所有音符,无需标签,有效地创建了一种不需要分段的时间序列聚类算法。我们分析了HLDS的特性,并表明与当前最先进的方法相比,它提供了更好的分类精度。

MSC公司:

94A08型 信息与通信理论中的图像处理(压缩、重建等)
68吨10 模式识别、语音识别
92C20美元 神经生物学
92B20型 生物研究、人工生命和相关主题中的神经网络
68T05型 人工智能中的学习和自适应系统

软件:

LSTM公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Handel,S.,《听力:听觉事件感知导论》(1993),麻省理工学院出版社,马萨诸塞州剑桥
[2] 巴林顿,L。;陈,A.B。;Lanckriet,G.,《将音乐建模为动态纹理》,IEEE Trans。音频语音语言处理。,18, 3, 602-612, (2010)
[3] 大研,P。;辛顿,G.E。;尼尔·R·M。;Zemel,R.S.,亥姆霍兹机器,神经计算。,7, 5, 889-904, (1995)
[4] Friston,K.,《皮层反应理论》,Philos。事务处理。R.Soc.B:生物。科学。,360, 1456, 815-836, (2005)
[5] Rao,R.P。;Ballard,D.H.,视觉识别的动态模型预测视觉皮层的神经反应特性,神经计算。,9, 4, 721-763, (1997)
[6] Chan,A.B。;Vasconcelos,N.,《动态纹理混合视频建模、聚类和分割》,IEEE Trans。模式分析。机器。智力。,30, 5, 909-926, (2008)
[7] Hyvärinen,A。;Hurri,J。;Hoyer,P.O.,《自然图像统计》,39,(2009),Springer·Zbl 1178.68622号
[8] 科维略,E。;Chan,A.B。;Lanckriet,G.,用于语义音乐注释的时间序列模型,IEEE Trans。音频语音语言处理。,19, 5, 1343-1359, (2011)
[9] 雷沃,M。;威廉姆斯,C.K。;Hinton,G.E.,《使用生成模型进行手写数字识别》,IEEE Trans。模式分析。机器。智力。,18, 6, 592-606, (1996)
[10] 陈,A.B。;Vasconcelos,N.,分层动态纹理,IEEE Trans。模式分析。机器。智力。,31, 10, 1862-1879, (2009)
[11] Vaizman,Y。;Granot,R.Y。;Lanckriet,G.,《音乐中情感内容的动态模式建模》,《国际音乐信息检索学会学报》,747-752,(2011)
[12] 霍普菲尔德,J.J.,《具有涌现集体计算能力的神经网络和物理系统》,Proc。国家。阿卡德。科学。,79,8,2554-2558,(1982年)·Zbl 1369.92007号
[13] 储罐,D。;霍普菲尔德,J.,《通过及时集中信息进行神经计算》,Proc。国家。阿卡德。科学。,84, 7, 1896-1900, (1987)
[14] Unnikrishnan,K。;霍普菲尔德,J.J。;Tank,D.W.,使用具有延迟连接的神经网络的连接数字扬声器相关语音识别,IEEE Trans。信号处理。,39, 3, 698-713, (1991)
[15] Warren Liao,T.,时间序列数据的聚类:一项调查,模式识别。,38, 11, 1857-1874, (2005) ·Zbl 1077.68803号
[16] Cinar,G.T.,《时频域中的自组织计算感知》(2015),佛罗里达大学(博士论文)
[17] G.T.Cinar,J.C.Principe,《使用分层线性动力系统对时间序列进行聚类》,摘自:IEEE声学、语音和信号处理国际会议论文集,IEEE,2014年,第6741-6745页。;G.T.Cinar,J.C.Principe,《使用分层线性动力系统的时间序列聚类》,收录于:IEEE声学、语音和信号处理国际会议(ICASSP)论文集,IEEE,2014年,第6741-6745页。
[18] Cinar,G.T。;Loza,C.A。;Principe,J.C.,《分层线性动力系统:时间序列聚类的新模型》,2014年IEEE神经网络国际联合会议(IJCNN)论文集,2464-2470,(2014),IEEE
[19] Kalman,R.E.,《线性滤波和预测问题的新方法》,J.Basic Eng.,82,1,35-45,(1960)
[20] Nelson,A.,用双卡尔曼滤波方法对噪声时间序列进行非线性估计和建模,(2000年),俄勒冈州科学技术研究生院,(博士论文)
[21] Panuska,V.,用于相关噪声线性系统参数估计的一种新形式的扩展卡尔曼滤波器,IEEE Trans。自动化。控制,25,2,229-235,(1980)·Zbl 0465.93080号
[22] Bryson,A.E。;Ho,Y.-C.,应用最优控制:优化、估计和控制,(1975),Taylor&Francis集团
[23] Xing,E.P。;Ng,A.Y。;M.I.乔丹。;Russell,S.,距离度量学习及其在带有副信息的聚类中的应用,高级神经信息处理。系统。,15, 505-512, (2003)
[24] Cinar,G.T。;Principe,J.C.,《利用自组织层次线性动力系统对声音信号进行音高距离研究》,《计算》。音乐J.,40,3,(2016)
[25] Ng,A.Y。;M.I.乔丹。;Weiss,Y.,《关于光谱聚类:分析和算法》,高级神经信息处理。系统。,2, 849-856, (2002)
[26] Kohonen,T.,《自组织映射》,Proc。IEEE,78,9,1464-1480,(1990)
[27] Yang,K.-F。;Li,C.-Y。;Li,Y.-J.,基于多特征的环绕抑制改进了自然图像中的轮廓检测,IEEE Trans。图像处理。,23, 12, 5020-5032, (2014) ·Zbl 1374.94426号
[28] 史密斯,E。;Lewicki,M.S.,《使用棘波预测耳蜗滤波器学习高效听觉代码》,高级神经信息处理。系统。,17, 1289-1296, (2005)
[29] 史密斯,E.C。;Lewicki,M.S.,《高效听觉编码》,《自然》,439,7079,978-982,(2006)
[30] 格拉斯伯格,B.R。;Moore,B.C.J.,《从缺口噪声数据推导听觉滤波器形状》,《听觉》。研究,47,1-2,103-138,(1990)
[31] B.C.J.摩尔。;Glasberg,B.R.,《计算滤波器带宽和激励模式的建议公式》,J.Acoust。《美国社会杂志》,74,3,750-753,(1983)
[32] U.o.I.E.M.工作室,乐器样品,1997年(http://theremin.music.uiowa.edu/; U.o.I.E.M.工作室,乐器样品,1997年(http://theremin.music.uiowa.edu/
[33] De Cheveigne,A。;Kawahara,H.,YIN,语音和音乐的基本频率估计器,J.Acoust。《美国社会杂志》,第111期,1917年,(2002年)
[34] Camacho,A.,《SWIPE:一种受锯齿波启发的语音和音乐基音估计器》(2007),佛罗里达大学(博士论文)
[35] 文森特,E。;Bertin,N。;Badeau,R.,用于多音调估计的自适应谐波频谱分解,IEEE Trans。音频语音语言处理。,18, 3, 528-537, (2010)
[36] 托洛宁,T。;Karjalainen,M.,计算效率高的多路径分析模型,IEEE Trans。语音音频处理。,8, 6, 708-716, (2000)
[37] Pertusa,A。;Inesta,J.M.,使用高斯平滑度的多基频估计,IEEE声学、语音和信号处理国际会议论文集ICASSP,105-108,(2008),IEEE
[38] Klapuri,A.,通过谐波振幅求和进行多重基频估计。,国际音乐信息检索学会学报,216-221,(2006)
[39] Bello,J.P。;Daudet,L。;Sandler,M.B.,使用频率和时域信息的自动钢琴转录,IEEE Trans。音频语音语言处理。,2014年6月14日,2242-2251,(2006年)
[40] 戴维,M。;Godsill,S。;Idier,J.,《西方复调音乐的贝叶斯分析》,J.Acoust。《美国社会》,第119、4、2498-2517页,(2006年)
[41] Marolt,M.,《自动转录复调钢琴音乐的连接主义方法》,IEEE Trans。多媒体。,6, 3, 439-449, (2004)
[42] Poliner,G.E。;Ellis,D.P.,《复调钢琴转录的辨别模型》,《欧洲钢琴学会应用》。信号处理。,2007, 1, 154, (2007) ·Zbl 1168.68532号
[43] Shin,H.-W。;Kang,S.Y。;Hallett,M。;Sohn,Y.H.,《音乐家周围抑制减少》,《实验脑研究》,219,3,403-408,(2012)
[44] Wang,Y。;Shanbhag,S.J。;费舍尔,B.J。;Peña,J.L.,猫头鹰中脑听觉空间感受野中环绕抑制的人群偏见,神经学杂志。,32, 31, 10470-10478, (2012)
[45] Livingstone,M.S。;Hubel,D.H.,灵长类初级视觉皮层内在联系的特异性,《神经科学杂志》。,4, 11, 2830-2835, (1984)
[46] 佩特科夫,N。;Subramanian,E.,具有环绕抑制的时空Gabor滤波器的运动检测、降噪、纹理抑制和轮廓增强,生物学。赛博。,97, 5-6, 423-439, (2007) ·Zbl 1248.94018号
[47] Shamma,S.A.,《听觉系统中的语音处理II:听觉神经中语音诱发活动的侧抑制和中央处理》,J.Acoust。《美国社会》,78,5,1622-1632,(1985)
[48] Chalasani,R。;Principe,J.C.,深度预测编码网络,arXiv预印本arXiv:1301.3541,(2013)
[49] 杰西翁,G。;吉尔扎克,C.A。;Puskorius,G.V。;洛杉矶费尔德坎普。;Butler,J.W.,《动态神经网络在燃气汽车排放估算中的应用》,1998年IEEE神经网络国际联合会议论文集,计算智能世界大会,第1卷,69-73,(1998),IEEE
[50] H.-G.Zimmermann,R.Grothmann,A.M.Schäfer,C.Tietz,H.Georg,用动态一致性神经网络建模大型动态系统,统计信号处理新方向(2007)203。;H.-G.Zimmermann,R.Grothmann,A.M.Schäfer,C.Tietz,H.Georg,用动态一致性神经网络建模大型动态系统,统计信号处理新方向(2007)203。
[51] 施密德胡伯,J。;Gers,F。;Eck,D.,学习非规则语言:简单递归网络和LSTM的比较,神经计算。,14, 9, 2039-2041, (2002) ·Zbl 1010.68857号
[52] 杨,J。;Yu,K。;龚,Y。;Huang,T.,使用稀疏编码进行线性空间金字塔匹配以进行图像分类,IEEE计算机视觉和模式识别会议论文集2009,1794-1801,(2009),IEEE
[53] Arbib,M.A.,《大脑理论和神经网络手册》,(2003),麻省理工出版社·Zbl 1106.92011号
[54] 费尔迪亚克,P。;Young,M.P.,灵长类皮层中的稀疏编码,Handb。脑理论神经网络。,1, 1064-1068, (1995)
[55] O.巴拉克。;里戈蒂,M。;Fusi,S.,混合选择性神经元的稀疏性控制泛化-辨别权衡,《神经科学杂志》,33,9,3844-3856,(2013)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。