文件Zbl 1395.94026-zbMATH打开

Cinar、Goktug T。;Pedro M.N.塞奎拉。;何塞·C·普林西比。

用于无监督音符识别的层次线性动力学系统。（英语）兹比尔1395.94026

J.富兰克林研究所。 355，第4期，1638-1662（2018）.

摘要：在本文中，我们开发了一种基于层次线性动态系统（HLDS）的时间序列分割新框架，并测试了其在单音和复音音符识别中的性能。我们方法的中心部分是在滤波器拓扑中包含约束，而不是像机器学习中通常那样在代价函数上。仅通过减慢增强（多层）状态模型顶层的动态，该模型仍与卡尔曼最初提出的递归更新方程兼容，系统就可以直接从数据中学习所有音符，无需标签，有效地创建了一种不需要分段的时间序列聚类算法。我们分析了HLDS的特性，并表明与当前最先进的方法相比，它提供了更好的分类精度。

MSC公司：

94A08型	信息与通信理论中的图像处理（压缩、重建等）
68吨10	模式识别、语音识别
92C20美元	神经生物学
92B20型	生物研究、人工生命和相关主题中的神经网络
68T05型	人工智能中的学习和自适应系统

软件：

LSTM公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Handel，S.，《听力：听觉事件感知导论》（1993），麻省理工学院出版社，马萨诸塞州剑桥
[2]	巴林顿，L。；陈，A.B。；Lanckriet，G.，《将音乐建模为动态纹理》，IEEE Trans。音频语音语言处理。，18, 3, 602-612, (2010)
[3]	大研，P。；辛顿，G.E。；尼尔·R·M。；Zemel，R.S.，亥姆霍兹机器，神经计算。，7, 5, 889-904, (1995)
[4]	Friston，K.，《皮层反应理论》，Philos。事务处理。R.Soc.B：生物。科学。，360, 1456, 815-836, (2005)
[5]	Rao，R.P。；Ballard，D.H.，视觉识别的动态模型预测视觉皮层的神经反应特性，神经计算。，9, 4, 721-763, (1997)
[6]	Chan，A.B。；Vasconcelos，N.，《动态纹理混合视频建模、聚类和分割》，IEEE Trans。模式分析。机器。智力。，30, 5, 909-926, (2008)
[7]	Hyvärinen，A。；Hurri，J。；Hoyer，P.O.，《自然图像统计》，39，（2009），Springer·Zbl 1178.68622号
[8]	科维略，E。；Chan，A.B。；Lanckriet，G.，用于语义音乐注释的时间序列模型，IEEE Trans。音频语音语言处理。，19, 5, 1343-1359, (2011)
[9]	雷沃，M。；威廉姆斯，C.K。；Hinton，G.E.，《使用生成模型进行手写数字识别》，IEEE Trans。模式分析。机器。智力。，18, 6, 592-606, (1996)
[10]	陈，A.B。；Vasconcelos，N.，分层动态纹理，IEEE Trans。模式分析。机器。智力。，31, 10, 1862-1879, (2009)
[11]	Vaizman，Y。；Granot，R.Y。；Lanckriet，G.，《音乐中情感内容的动态模式建模》，《国际音乐信息检索学会学报》，747-752，（2011）
[12]	霍普菲尔德，J.J.，《具有涌现集体计算能力的神经网络和物理系统》，Proc。国家。阿卡德。科学。，79，8，2554-2558，（1982年）·Zbl 1369.92007号
[13]	储罐，D。；霍普菲尔德，J.，《通过及时集中信息进行神经计算》，Proc。国家。阿卡德。科学。，84, 7, 1896-1900, (1987)
[14]	Unnikrishnan，K。；霍普菲尔德，J.J。；Tank，D.W.，使用具有延迟连接的神经网络的连接数字扬声器相关语音识别，IEEE Trans。信号处理。，39, 3, 698-713, (1991)
[15]	Warren Liao，T.，时间序列数据的聚类：一项调查，模式识别。，38, 11, 1857-1874, (2005) ·Zbl 1077.68803号
[16]	Cinar，G.T.，《时频域中的自组织计算感知》（2015），佛罗里达大学（博士论文）
[17]	G.T.Cinar，J.C.Principe，《使用分层线性动力系统对时间序列进行聚类》，摘自：IEEE声学、语音和信号处理国际会议论文集，IEEE，2014年，第6741-6745页。；G.T.Cinar，J.C.Principe，《使用分层线性动力系统的时间序列聚类》，收录于：IEEE声学、语音和信号处理国际会议（ICASSP）论文集，IEEE，2014年，第6741-6745页。
[18]	Cinar，G.T。；Loza，C.A。；Principe，J.C.，《分层线性动力系统：时间序列聚类的新模型》，2014年IEEE神经网络国际联合会议（IJCNN）论文集，2464-2470，（2014），IEEE
[19]	Kalman，R.E.，《线性滤波和预测问题的新方法》，J.Basic Eng.，82，1，35-45，（1960）
[20]	Nelson，A.，用双卡尔曼滤波方法对噪声时间序列进行非线性估计和建模，（2000年），俄勒冈州科学技术研究生院，（博士论文）
[21]	Panuska，V.，用于相关噪声线性系统参数估计的一种新形式的扩展卡尔曼滤波器，IEEE Trans。自动化。控制，25，2，229-235，（1980）·Zbl 0465.93080号
[22]	Bryson，A.E。；Ho，Y.-C.，应用最优控制：优化、估计和控制，（1975），Taylor&Francis集团
[23]	Xing，E.P。；Ng，A.Y。；M.I.乔丹。；Russell，S.，距离度量学习及其在带有副信息的聚类中的应用，高级神经信息处理。系统。，15, 505-512, (2003)
[24]	Cinar，G.T。；Principe，J.C.，《利用自组织层次线性动力系统对声音信号进行音高距离研究》，《计算》。音乐J.，40，3，（2016）
[25]	Ng，A.Y。；M.I.乔丹。；Weiss，Y.，《关于光谱聚类：分析和算法》，高级神经信息处理。系统。，2, 849-856, (2002)
[26]	Kohonen，T.，《自组织映射》，Proc。IEEE，78，9，1464-1480，（1990）
[27]	Yang，K.-F。；Li，C.-Y。；Li，Y.-J.，基于多特征的环绕抑制改进了自然图像中的轮廓检测，IEEE Trans。图像处理。，23, 12, 5020-5032, (2014) ·Zbl 1374.94426号
[28]	史密斯，E。；Lewicki，M.S.，《使用棘波预测耳蜗滤波器学习高效听觉代码》，高级神经信息处理。系统。，17, 1289-1296, (2005)
[29]	史密斯，E.C。；Lewicki，M.S.，《高效听觉编码》，《自然》，439，7079，978-982，（2006）
[30]	格拉斯伯格，B.R。；Moore，B.C.J.，《从缺口噪声数据推导听觉滤波器形状》，《听觉》。研究，47，1-2，103-138，（1990）
[31]	B.C.J.摩尔。；Glasberg，B.R.，《计算滤波器带宽和激励模式的建议公式》，J.Acoust。《美国社会杂志》，74，3，750-753，（1983）
[32]	U.o.I.E.M.工作室，乐器样品，1997年(http://theremin.music.uiowa.edu/; U.o.I.E.M.工作室，乐器样品，1997年(http://theremin.music.uiowa.edu/
[33]	De Cheveigne，A。；Kawahara，H.，YIN，语音和音乐的基本频率估计器，J.Acoust。《美国社会杂志》，第111期，1917年，（2002年）
[34]	Camacho，A.，《SWIPE:一种受锯齿波启发的语音和音乐基音估计器》（2007），佛罗里达大学（博士论文）
[35]	文森特，E。；Bertin，N。；Badeau，R.，用于多音调估计的自适应谐波频谱分解，IEEE Trans。音频语音语言处理。，18, 3, 528-537, (2010)
[36]	托洛宁，T。；Karjalainen，M.，计算效率高的多路径分析模型，IEEE Trans。语音音频处理。，8, 6, 708-716, (2000)
[37]	Pertusa，A。；Inesta，J.M.，使用高斯平滑度的多基频估计，IEEE声学、语音和信号处理国际会议论文集ICASSP，105-108，（2008），IEEE
[38]	Klapuri，A.，通过谐波振幅求和进行多重基频估计。，国际音乐信息检索学会学报，216-221，（2006）
[39]	Bello，J.P。；Daudet，L。；Sandler，M.B.，使用频率和时域信息的自动钢琴转录，IEEE Trans。音频语音语言处理。，2014年6月14日，2242-2251，（2006年）
[40]	戴维，M。；Godsill，S。；Idier，J.，《西方复调音乐的贝叶斯分析》，J.Acoust。《美国社会》，第119、4、2498-2517页，（2006年）
[41]	Marolt，M.，《自动转录复调钢琴音乐的连接主义方法》，IEEE Trans。多媒体。，6, 3, 439-449, (2004)
[42]	Poliner，G.E。；Ellis，D.P.，《复调钢琴转录的辨别模型》，《欧洲钢琴学会应用》。信号处理。，2007, 1, 154, (2007) ·Zbl 1168.68532号
[43]	Shin，H.-W。；Kang，S.Y。；Hallett，M。；Sohn，Y.H.，《音乐家周围抑制减少》，《实验脑研究》，219，3，403-408，（2012）
[44]	Wang，Y。；Shanbhag，S.J。；费舍尔，B.J。；Peña，J.L.，猫头鹰中脑听觉空间感受野中环绕抑制的人群偏见，神经学杂志。，32, 31, 10470-10478, (2012)
[45]	Livingstone，M.S。；Hubel，D.H.，灵长类初级视觉皮层内在联系的特异性，《神经科学杂志》。，4, 11, 2830-2835, (1984)
[46]	佩特科夫，N。；Subramanian，E.，具有环绕抑制的时空Gabor滤波器的运动检测、降噪、纹理抑制和轮廓增强，生物学。赛博。，97, 5-6, 423-439, (2007) ·Zbl 1248.94018号
[47]	Shamma，S.A.，《听觉系统中的语音处理II：听觉神经中语音诱发活动的侧抑制和中央处理》，J.Acoust。《美国社会》，78，5，1622-1632，（1985）
[48]	Chalasani，R。；Principe，J.C.，深度预测编码网络，arXiv预印本arXiv:1301.3541，（2013）
[49]	杰西翁，G。；吉尔扎克，C.A。；Puskorius，G.V。；洛杉矶费尔德坎普。；Butler，J.W.，《动态神经网络在燃气汽车排放估算中的应用》，1998年IEEE神经网络国际联合会议论文集，计算智能世界大会，第1卷，69-73，（1998），IEEE
[50]	H.-G.Zimmermann，R.Grothmann，A.M.Schäfer，C.Tietz，H.Georg，用动态一致性神经网络建模大型动态系统，统计信号处理新方向（2007）203。；H.-G.Zimmermann，R.Grothmann，A.M.Schäfer，C.Tietz，H.Georg，用动态一致性神经网络建模大型动态系统，统计信号处理新方向（2007）203。
[51]	施密德胡伯，J。；Gers，F。；Eck，D.，学习非规则语言：简单递归网络和LSTM的比较，神经计算。，14, 9, 2039-2041, (2002) ·Zbl 1010.68857号
[52]	杨，J。；Yu，K。；龚，Y。；Huang，T.，使用稀疏编码进行线性空间金字塔匹配以进行图像分类，IEEE计算机视觉和模式识别会议论文集2009，1794-1801，（2009），IEEE
[53]	Arbib，M.A.，《大脑理论和神经网络手册》，（2003），麻省理工出版社·Zbl 1106.92011号
[54]	费尔迪亚克，P。；Young，M.P.，灵长类皮层中的稀疏编码，Handb。脑理论神经网络。，1, 1064-1068, (1995)
[55]	O.巴拉克。；里戈蒂，M。；Fusi，S.，混合选择性神经元的稀疏性控制泛化-辨别权衡，《神经科学杂志》，33，9，3844-3856，（2013）

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
实验室	回顾，摘要
第页	出版年份
车辆	评审员
立方厘米	MSC代码
美国犹他州	关键字
日期	文件类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!实验室	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

用于无监督音符识别的层次线性动力学系统。（英语）兹比尔1395.94026

MSC公司：

软件：

参考文献：

示例

领域

操作员

用于无监督音符识别的层次线性动力学系统。 （英语） 兹比尔1395.94026

MSC公司：

软件：

参考文献：

用于无监督音符识别的层次线性动力学系统。（英语）兹比尔1395.94026