Cinar、Goktug T。;Pedro M.N.塞奎拉。;何塞·C·普林西比。 用于无监督音符识别的层次线性动力学系统。 (英语) 兹比尔1395.94026 J.富兰克林研究所。 355,第4期,1638-1662(2018). 摘要:在本文中,我们开发了一种基于层次线性动态系统(HLDS)的时间序列分割新框架,并测试了其在单音和复音音符识别中的性能。我们方法的中心部分是在滤波器拓扑中包含约束,而不是像机器学习中通常那样在代价函数上。仅通过减慢增强(多层)状态模型顶层的动态,该模型仍与卡尔曼最初提出的递归更新方程兼容,系统就可以直接从数据中学习所有音符,无需标签,有效地创建了一种不需要分段的时间序列聚类算法。我们分析了HLDS的特性,并表明与当前最先进的方法相比,它提供了更好的分类精度。 MSC公司: 94A08型 信息与通信理论中的图像处理(压缩、重建等) 68吨10 模式识别、语音识别 92C20美元 神经生物学 92B20型 生物研究、人工生命和相关主题中的神经网络 68T05型 人工智能中的学习和自适应系统 软件:LSTM公司 PDF格式BibTeX公司 XML格式引用 \textit{G.T.Cinar}等人,J.Franklin Inst.355,No.4,1638--1662(2018;Zbl 1395.94026) 全文: 内政部 参考文献: [1] Handel,S.,《听力:听觉事件感知导论》(1993),麻省理工学院出版社,马萨诸塞州剑桥 [2] 巴林顿,L。;陈,A.B。;Lanckriet,G.,《将音乐建模为动态纹理》,IEEE Trans。音频语音语言处理。,18, 3, 602-612, (2010) [3] 大研,P。;辛顿,G.E。;尼尔·R·M。;Zemel,R.S.,亥姆霍兹机器,神经计算。,7, 5, 889-904, (1995) [4] Friston,K.,《皮层反应理论》,Philos。事务处理。R.Soc.B:生物。科学。,360, 1456, 815-836, (2005) [5] Rao,R.P。;Ballard,D.H.,视觉识别的动态模型预测视觉皮层的神经反应特性,神经计算。,9, 4, 721-763, (1997) [6] Chan,A.B。;Vasconcelos,N.,《动态纹理混合视频建模、聚类和分割》,IEEE Trans。模式分析。机器。智力。,30, 5, 909-926, (2008) [7] Hyvärinen,A。;Hurri,J。;Hoyer,P.O.,《自然图像统计》,39,(2009),Springer·Zbl 1178.68622号 [8] 科维略,E。;Chan,A.B。;Lanckriet,G.,用于语义音乐注释的时间序列模型,IEEE Trans。音频语音语言处理。,19, 5, 1343-1359, (2011) [9] 雷沃,M。;威廉姆斯,C.K。;Hinton,G.E.,《使用生成模型进行手写数字识别》,IEEE Trans。模式分析。机器。智力。,18, 6, 592-606, (1996) [10] 陈,A.B。;Vasconcelos,N.,分层动态纹理,IEEE Trans。模式分析。机器。智力。,31, 10, 1862-1879, (2009) [11] Vaizman,Y。;Granot,R.Y。;Lanckriet,G.,《音乐中情感内容的动态模式建模》,《国际音乐信息检索学会学报》,747-752,(2011) [12] 霍普菲尔德,J.J.,《具有涌现集体计算能力的神经网络和物理系统》,Proc。国家。阿卡德。科学。,79,8,2554-2558,(1982年)·Zbl 1369.92007号 [13] 储罐,D。;霍普菲尔德,J.,《通过及时集中信息进行神经计算》,Proc。国家。阿卡德。科学。,84, 7, 1896-1900, (1987) [14] Unnikrishnan,K。;霍普菲尔德,J.J。;Tank,D.W.,使用具有延迟连接的神经网络的连接数字扬声器相关语音识别,IEEE Trans。信号处理。,39, 3, 698-713, (1991) [15] Warren Liao,T.,时间序列数据的聚类:一项调查,模式识别。,38, 11, 1857-1874, (2005) ·Zbl 1077.68803号 [16] Cinar,G.T.,《时频域中的自组织计算感知》(2015),佛罗里达大学(博士论文) [17] G.T.Cinar,J.C.Principe,《使用分层线性动力系统对时间序列进行聚类》,摘自:IEEE声学、语音和信号处理国际会议论文集,IEEE,2014年,第6741-6745页。;G.T.Cinar,J.C.Principe,《使用分层线性动力系统的时间序列聚类》,收录于:IEEE声学、语音和信号处理国际会议(ICASSP)论文集,IEEE,2014年,第6741-6745页。 [18] Cinar,G.T。;Loza,C.A。;Principe,J.C.,《分层线性动力系统:时间序列聚类的新模型》,2014年IEEE神经网络国际联合会议(IJCNN)论文集,2464-2470,(2014),IEEE [19] Kalman,R.E.,《线性滤波和预测问题的新方法》,J.Basic Eng.,82,1,35-45,(1960) [20] Nelson,A.,用双卡尔曼滤波方法对噪声时间序列进行非线性估计和建模,(2000年),俄勒冈州科学技术研究生院,(博士论文) [21] Panuska,V.,用于相关噪声线性系统参数估计的一种新形式的扩展卡尔曼滤波器,IEEE Trans。自动化。控制,25,2,229-235,(1980)·Zbl 0465.93080号 [22] Bryson,A.E。;Ho,Y.-C.,应用最优控制:优化、估计和控制,(1975),Taylor&Francis集团 [23] Xing,E.P。;Ng,A.Y。;M.I.乔丹。;Russell,S.,距离度量学习及其在带有副信息的聚类中的应用,高级神经信息处理。系统。,15, 505-512, (2003) [24] Cinar,G.T。;Principe,J.C.,《利用自组织层次线性动力系统对声音信号进行音高距离研究》,《计算》。音乐J.,40,3,(2016) [25] Ng,A.Y。;M.I.乔丹。;Weiss,Y.,《关于光谱聚类:分析和算法》,高级神经信息处理。系统。,2, 849-856, (2002) [26] Kohonen,T.,《自组织映射》,Proc。IEEE,78,9,1464-1480,(1990) [27] Yang,K.-F。;Li,C.-Y。;Li,Y.-J.,基于多特征的环绕抑制改进了自然图像中的轮廓检测,IEEE Trans。图像处理。,23, 12, 5020-5032, (2014) ·Zbl 1374.94426号 [28] 史密斯,E。;Lewicki,M.S.,《使用棘波预测耳蜗滤波器学习高效听觉代码》,高级神经信息处理。系统。,17, 1289-1296, (2005) [29] 史密斯,E.C。;Lewicki,M.S.,《高效听觉编码》,《自然》,439,7079,978-982,(2006) [30] 格拉斯伯格,B.R。;Moore,B.C.J.,《从缺口噪声数据推导听觉滤波器形状》,《听觉》。研究,47,1-2,103-138,(1990) [31] B.C.J.摩尔。;Glasberg,B.R.,《计算滤波器带宽和激励模式的建议公式》,J.Acoust。《美国社会杂志》,74,3,750-753,(1983) [32] U.o.I.E.M.工作室,乐器样品,1997年(http://theremin.music.uiowa.edu/; U.o.I.E.M.工作室,乐器样品,1997年(http://theremin.music.uiowa.edu/ [33] De Cheveigne,A。;Kawahara,H.,YIN,语音和音乐的基本频率估计器,J.Acoust。《美国社会杂志》,第111期,1917年,(2002年) [34] Camacho,A.,《SWIPE:一种受锯齿波启发的语音和音乐基音估计器》(2007),佛罗里达大学(博士论文) [35] 文森特,E。;Bertin,N。;Badeau,R.,用于多音调估计的自适应谐波频谱分解,IEEE Trans。音频语音语言处理。,18, 3, 528-537, (2010) [36] 托洛宁,T。;Karjalainen,M.,计算效率高的多路径分析模型,IEEE Trans。语音音频处理。,8, 6, 708-716, (2000) [37] Pertusa,A。;Inesta,J.M.,使用高斯平滑度的多基频估计,IEEE声学、语音和信号处理国际会议论文集ICASSP,105-108,(2008),IEEE [38] Klapuri,A.,通过谐波振幅求和进行多重基频估计。,国际音乐信息检索学会学报,216-221,(2006) [39] Bello,J.P。;Daudet,L。;Sandler,M.B.,使用频率和时域信息的自动钢琴转录,IEEE Trans。音频语音语言处理。,2014年6月14日,2242-2251,(2006年) [40] 戴维,M。;Godsill,S。;Idier,J.,《西方复调音乐的贝叶斯分析》,J.Acoust。《美国社会》,第119、4、2498-2517页,(2006年) [41] Marolt,M.,《自动转录复调钢琴音乐的连接主义方法》,IEEE Trans。多媒体。,6, 3, 439-449, (2004) [42] Poliner,G.E。;Ellis,D.P.,《复调钢琴转录的辨别模型》,《欧洲钢琴学会应用》。信号处理。,2007, 1, 154, (2007) ·Zbl 1168.68532号 [43] Shin,H.-W。;Kang,S.Y。;Hallett,M。;Sohn,Y.H.,《音乐家周围抑制减少》,《实验脑研究》,219,3,403-408,(2012) [44] Wang,Y。;Shanbhag,S.J。;费舍尔,B.J。;Peña,J.L.,猫头鹰中脑听觉空间感受野中环绕抑制的人群偏见,神经学杂志。,32, 31, 10470-10478, (2012) [45] Livingstone,M.S。;Hubel,D.H.,灵长类初级视觉皮层内在联系的特异性,《神经科学杂志》。,4, 11, 2830-2835, (1984) [46] 佩特科夫,N。;Subramanian,E.,具有环绕抑制的时空Gabor滤波器的运动检测、降噪、纹理抑制和轮廓增强,生物学。赛博。,97, 5-6, 423-439, (2007) ·Zbl 1248.94018号 [47] Shamma,S.A.,《听觉系统中的语音处理II:听觉神经中语音诱发活动的侧抑制和中央处理》,J.Acoust。《美国社会》,78,5,1622-1632,(1985) [48] Chalasani,R。;Principe,J.C.,深度预测编码网络,arXiv预印本arXiv:1301.3541,(2013) [49] 杰西翁,G。;吉尔扎克,C.A。;Puskorius,G.V。;洛杉矶费尔德坎普。;Butler,J.W.,《动态神经网络在燃气汽车排放估算中的应用》,1998年IEEE神经网络国际联合会议论文集,计算智能世界大会,第1卷,69-73,(1998),IEEE [50] H.-G.Zimmermann,R.Grothmann,A.M.Schäfer,C.Tietz,H.Georg,用动态一致性神经网络建模大型动态系统,统计信号处理新方向(2007)203。;H.-G.Zimmermann,R.Grothmann,A.M.Schäfer,C.Tietz,H.Georg,用动态一致性神经网络建模大型动态系统,统计信号处理新方向(2007)203。 [51] 施密德胡伯,J。;Gers,F。;Eck,D.,学习非规则语言:简单递归网络和LSTM的比较,神经计算。,14, 9, 2039-2041, (2002) ·Zbl 1010.68857号 [52] 杨,J。;Yu,K。;龚,Y。;Huang,T.,使用稀疏编码进行线性空间金字塔匹配以进行图像分类,IEEE计算机视觉和模式识别会议论文集2009,1794-1801,(2009),IEEE [53] Arbib,M.A.,《大脑理论和神经网络手册》,(2003),麻省理工出版社·Zbl 1106.92011号 [54] 费尔迪亚克,P。;Young,M.P.,灵长类皮层中的稀疏编码,Handb。脑理论神经网络。,1, 1064-1068, (1995) [55] O.巴拉克。;里戈蒂,M。;Fusi,S.,混合选择性神经元的稀疏性控制泛化-辨别权衡,《神经科学杂志》,33,9,3844-3856,(2013) 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。