×

带Itakura-Saito发散的非负矩阵分解:应用于音乐分析。 (英语) Zbl 1156.94306号

摘要:这封信介绍了关于带Itakura-Saito(IS)发散的非负矩阵因式分解(NMF)的理论、算法和实验结果。我们描述了IS-NMF是如何被叠加高斯分量的定义良好的统计模型所支持的,并且等价于方差参数的最大似然估计。该设置可以通过贝叶斯先验来适应对因素的正则化约束。特别地,本文考虑了逆伽马和伽玛-马尔可夫链先验。可以使用空间交替广义期望最大化(SAGE)算法进行估计;这就产生了一种新型的NMF算法,该算法能够保证收敛到IS代价函数的平稳点。
我们还讨论了IS散度和NMF中使用的其他成本函数之间的联系,特别是欧几里德距离和广义Kullback-Leibler(KL)散度。因此,我们描述了如何使用梯度乘法算法(NMF中的标准算法结构)执行IS-NMF,该算法在实践中观察到了收敛性,但尚未证明。
最后,我们报告了欧几里德-NMF、KL-NMF和IS-NMF算法应用于实际条件下录制的短钢琴序列的功率谱图的实验对比研究,以及各种初始化和模型阶数。然后我们展示了如何成功地使用IS-NMF对早期爵士乐的原始音乐进行去噪和上混音(单声道到立体声的转换)。这些实验表明,IS-NMF正确地捕获了音频的语义,并且比NMF更适合于以通常的欧几里德和KL代价表示音乐信号。

MSC公司:

94甲12 信号理论(表征、重建、滤波等)
94A11号机组 正交函数和其他特殊函数的应用
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abdallah S.A.,第五届国际音乐信息检索研讨会(ISMIR’04),第318页–(2004)
[2] Benaroya L.,程序。声学回声和噪声控制国际研讨会(IWAENC’06)(2006年)
[3] 内政部:10.1109/ICASSP.2003.1201756·doi:10.1109/ICASSP.2003.1201756
[4] 内政部:10.1016/j.csda.2006.11.006·Zbl 1452.90298号 ·doi:10.1016/j.csda.2006.11.006
[5] 内政部:10.1109/ICASSP.2007.366617·doi:10.1109/ICASSP.2007.366617
[6] 陈忠,Proc。IEEE声学、语音和信号处理国际会议(ICASSP’06)(2006)
[7] 数字对象标识码:10.1007/11785231_58·doi:10.1007/11785231_58
[8] DOI:10.1049/el:20060983·doi:10.1049/el:20060983
[9] 内政部:10.1007/11679363_5·doi:10.1007/11679363_5
[10] Cohen I.,Springer语音处理手册(2007)
[11] Dhillon I.S.,《神经信息处理系统的进展》19(2005)
[12] Drakakis K.,国际数学论坛3,第1853页–(2008)
[13] DOI:10.1009/29.1552·兹比尔0649.93062 ·doi:10.1109/29.1552
[14] 内政部:10.1109/78.324732·数字对象标识代码:10.1109/78.324732
[15] 内政部:10.1109/TASSP.1980.1163421·Zbl 0524.94011号 ·doi:10.1109/TASSP.1980.1163421
[16] Itakura F.,程序。第六届国际声学大会第C–17页–(1968年)
[17] 内政部:10.1162/neco.2007.19.3.780·Zbl 1127.68081号 ·doi:10.1162/neco.2007.19.3.780
[18] 内政部:10.1038/44565·Zbl 1369.68285号 ·doi:10.1038/44565
[19] Lee D.D.,《神经和信息处理系统的进展》,第13页,556–(2001)
[20] 内政部:10.1162/0899766000300015826·doi:10.1162/089976600300015826
[21] 内政部:10.1162/neco.2007.19.10.2756·Zbl 1173.90583号 ·doi:10.1162/neco.2007.19.10.2756
[22] 内政部:10.1109/TASL.2007.899291·doi:10.1109/TASL.2007.899291
[23] DOI:10.1016/j.sigpro.2005.06.007·Zbl 1163.94372号 ·doi:10.1016/j.sigpro.2005.06.007
[24] Shashanka M.,计算智能与神经科学,2008(2008)
[25] Shashanka M.,《神经信息处理系统的进展》,第20页,1313–(2008)
[26] 内政部:10.1109/TASL.2006.876726·doi:10.1109/TASL.2006.876726
[27] DOI:10.1109/ASPAA.2003.1285860·doi:10.1109/ASPAA.2003.1285860
[28] 内政部:10.1109/MSP.2004.1311138·doi:10.1109/MSP.2004.1311138
[29] 内政部:10.1109/TASL.2006.885253·doi:10.1109/TASL.2006.885253
[30] DOI:10.1109/ICASSP.2008.4517987·doi:10.1109/ICASSP.2008.4517987
[31] Young S.S.,美国统计协会物理与工程科学部门和质量与生产力部门的联合通讯,第14页,第11页–(2006)
[32] 内政部:10.1016/j.sigpro.2007.01.024·Zbl 1186.94391号 ·doi:10.1016/j.sigpro.2007.01.024
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。