×

异构数据关联分析的通用框架。 (英语) Zbl 1405.62068号

摘要:多元关联分析在许多应用中具有重要意义。尽管高维和非高斯数据(如计数值或二进制数据)普遍存在,但大多数现有方法仅适用于具有连续测量的低维数据。受计算机审计实验室500-song(CAL500)音乐注释研究的启发,我们开发了一个新的框架,用于两组高维和异构(连续/二进制/计数)数据的关联分析。我们使用指数族分布对异质随机变量建模,并利用底层自然参数矩阵的结构化分解来识别两个数据集的共享模式和单独模式。我们还介绍了一种新的关联强度测量方法,以及一种基于排列的程序来测试其重要性。设计了一种交替迭代加权最小二乘法进行模型拟合,并开发了几种变体来加快计算并实现变量选择。对CAL500数据的应用揭示了声学特征和语义注释之间的关系,并为自动音乐注释和检索提供了有效的手段。

MSC公司:

62时20分 关联度量(相关性、典型相关性等)
第62页,第35页 统计学在物理学中的应用
62J12型 广义线性模型(逻辑模型)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Barrington,L.、Chan,A.、Turnbull,D.和Lanckriet,G.(2007年)。基于语义相似度的音频信息检索。在国际声学、语音和信号处理会议上。IEEE,纽约。
[2] Bertin-Mahieux,T.、Eck,D.、Maillet,F.和Lamere,P.(2008)。Autotagger:根据大型音乐数据库中的声学特征预测社交标签的模型。J.新音乐研究37 115–135。
[3] Björck,K.和Golub,G.H.(1973)。计算线性子空间之间角度的数值方法。数学。组件27 579–594·Zbl 0282.65031号 ·doi:10.2307/2005/5662
[4] Browne,M.W.(1979)。银行间因子分析中的最大似然解。英国数学杂志。Stat.Psychol.32 75–86·Zbl 0404.62079号 ·doi:10.1111/j.2044-8317.1979.tb00753.x
[5] Chaudhuri,K.、Kakade,S.M.、Livescu,K.和Sridharan,K.(2009年)。基于典型相关分析的多视图聚类。第26届国际机器学习年会论文集129–136。纽约ACM。
[6] Chen,X.和Liu,H.(2012)。一种有效的结构化稀疏cca优化算法,并应用于eqtl映射。Stat.Biosci.4 3–26。
[7] Chen,M.、Gao,C.、Ren,Z.和Zhou,H.H.(2013)。稀疏cca通过精确调整的迭代阈值。ArXiv预印本。可在ArXiv:1311.6186上获得。
[8] Cheng,J.、Li,T.、Levina,E.和Zhu,J.(2017)。高维混合图形模型。J.计算。图表。统计数字26 367–378。
[9] Collins,M.、Dasgupta,S.和Schapire,R.E.(2001)。将主成分分析推广到指数族。在NIPS’01:第14届神经信息处理系统国际会议论文集:自然和合成617-624。麻省理工学院出版社,马萨诸塞州剑桥。
[10] Ellis,D.P.、Whitman,B.、Berenzweig,A.和Lawrence,S.(2002年)。在音乐艺术家相似性中寻求基本真理。2002年ISMIR会议记录:第三届国际音乐信息检索会议:2002年10月13日至17日,法国巴黎蓬皮杜IRCAM-Centre。
[11] Goldsmith,J.、Zipunnikov,V.和Schrack,J.(2015)。广义多水平函数标度回归和主成分分析。生物统计学71 344–353·Zbl 1390.62259号 ·doi:10.1111/biom.12278
[12] Golub,G.H.和Van Loan,C.F.(2013年)。矩阵计算,第四版,约翰霍普金斯数学科学研究。约翰·霍普金斯大学出版社,马里兰州巴尔的摩·Zbl 1268.65037号
[13] Goto,M.和Hirata,K.(2004年)。音乐信息处理的最新研究。阿库斯特。科学。Technol.25 419–425。
[14] Hastie,T.、Tibshirani,R.和Wainwright,M.(2015)。稀疏的统计学习:套索和泛化。CRC出版社,佛罗里达州博卡拉顿·Zbl 1319.68003号
[15] Herlocker,J.L.、Konstan,J.A.和Riedl,J.(2000)。解释协作过滤建议。2000年ACM计算机支持的合作工作会议论文集241-250。纽约ACM。
[16] Hotelling,H.(1936)。两组变量之间的关系。生物特征28 321–377·兹伯利0015.40705 ·doi:10.1093/biomet/28.3-4.321
[17] Jia,Y.、Salzmann,M.和Darrell,T.(2010)。具有结构稀疏性的分解潜在空间。高级神经信息处理。系统。982–990.
[18] Johnson,N.L.、Kotz,S.和Balakrishnan,N.(1997年)。离散多元分布165。纽约威利·Zbl 0868.62048号
[19] Klami,A.、Virtanen,S.和Kaski,S.(2010年)。耦合数据源的贝叶斯指数族预测。第二十六届人工智能不确定性会议286-293。AUAI出版社。
[20] Klami,A.、Virtanen,S.和Kaski,S.(2013)。贝叶斯典型相关分析。J.马赫。学习。965–1003号决议·Zbl 1320.62134号
[21] Li,G.和Gaynanova,I.(2018年)。对“异质数据关联分析的一般框架”的补充。DOI:10.1214/17-AOAS1127SUPP。
[22] Li,Q.、Cheng,G.、Fan,J.和Wang,Y.(2018)。在因子模型中接受维度的加持。J.Amer。统计师。协会113 380–389·Zbl 1398.62137号
[23] Lock,E.F.、Hoadley,K.A.、Marron,J.S.和Nobel,A.B.(2013)。用于多数据类型综合分析的联合和个体差异解释(JIVE)。附录申请。统计数据7 523–542·Zbl 1454.62355号 ·doi:10.1214/12-AOAS597
[24] Logan,B.(2000年)。用于音乐建模的Mel频率倒谱系数。在音乐信息检索国际研讨会上。
[25] Luo,C.、Liu,J.、Dey,D.K.和Chen,K.(2016)。典型变量回归。生物统计17 468–483。
[26] McCullagh,P.和Nelder,J.A.(1989)。广义线性模型,第二版,查普曼和霍尔,伦敦。[第二版MR0727836。]·Zbl 0744.62098号
[27] She,Y.(2013)。特征提取的降秩向量广义线性模型。统计接口6 197–209·Zbl 1327.62431号 ·doi:10.4310/SII.2013.v6.n2.a4
[28] Trygg,J.和Wold,S.(2003年)。O2–PLS,一种带积分OSC滤波器的两块(X–Y)潜在变量回归(LVR)方法。《化学杂志》17 53–64。
[29] Tsoumakas,G.、Spyromitros-Xioufis,E.、Vilcek,J.和Vlahavas,I.(2011年)。Mulan:用于多标签学习的Java库。J.马赫。学习。第12 2411–2414号决议·Zbl 1280.68207号
[30] Tucker,L.R.(1958年)。银行间因子分析方法。心理测量23 111–136·Zbl 0097.35102号 ·doi:10.1007/BF02289009
[31] Turnbull,D.、Barrington,L.、Torres,D.和Lanckriet,G.(2007年)。使用cal500数据集实现音乐查询的语义描述。第30届国际ACM SIGIR信息检索研究与开发会议论文集439-446。纽约ACM。
[32] Turnbull,D.、Barrington,L.、Torres,D.和Lanckriet,G.(2008)。音乐和音效的语义注释和检索。IEEE/ACM传输。音频语音语言处理16 467–476。
[33] Virtanen,S.、Klami,A.和Kaski,S.(2011年)。通过群稀疏性的贝叶斯cca。第28届机器学习国际会议(ICML 2011)论文集457-464。纽约ACM。
[34] Westerhuis,J.A.、Kourti,T.和MacGregor,J.F.(1998年)。分析多块和分层PCA和PLS模型。化学杂志12 301–321。
[35] Witten,D.M.、Tibshirani,R.和Hastie,T.(2009年)。惩罚矩阵分解,应用于稀疏主成分和典型相关分析。生物统计学10 513–534·Zbl 1437.62658号
[36] Yang,D.,Ma,Z.和Buja,A.(2014)。一种高维数据的稀疏奇异值分解方法。J.计算。图表。统计23 923–942·doi:10.1080/10618600.2013.858632
[37] Yang,Z.、Ning,Y.和Liu,H.(2014)。关于半参数指数族图形模型。ArXiv预印本。可从ArXiv:1412.8697获得。
[38] Zhou,G.、Cichocki,A.、Zhang,Y.和Mandic,D.P.(2016a)。多块数据的组分分析:通用和单个特征提取。IEEE传输。神经网络。学习。系统27 2426–2439。
[39] Zhou,G.,Zhao,Q.,Zhang,Y.,Adali,T.,Xie,S.和Cichocki,A.(2016b)。从矩阵到高阶张量的关联成分分析:生物医学数据的应用。程序。IEEE104 310–331。
[40] Zoh,R.S.、Mallick,B.、Ivanov,I.、Baladadayuthapani,V.、Manyam,G.、Chapkin,R.S、Lampe,J.W.和Carroll,R.J.(2016)。PCAN:两个非正态数据集的概率相关分析。生物统计学72 1358–1368·Zbl 1390.62325号 ·doi:10.1111/biom.12516
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。