×

学习时变马尔可夫网络的稀疏低秩矩阵正则化。 (英语) Zbl 1454.68122号

总结:在现实世界现象中观察到的统计相关性往往随时间而急剧变化。图形依赖模型,如马尔可夫网络(MN),必须处理这种时间异质性,以便对目标现象的瞬态性质得出有意义的结论。然而,在实践中,由于潜在的大量相关参数,时变依赖图的估计可能效率低下。为了克服这个问题,我们提出了一种学习时变MN的新方法,通过约束参数矩阵的秩,有效地减少了参数的数量。其基本思想是,在许多实际情况下,参数空间的有效维数相对较低。与之前的研究一样,网络的时间平滑性和稀疏性也被纳入其中。该方法被表示为光滑经验损失的凸极小化,具有(ell 1)-和核范数正则化项。该非光滑优化问题采用交替方向乘子法进行数值求解。我们以Ising模型为MN的基本例子,并在几项模拟研究中表明,核范数的降秩效应可以提高时变依赖图的估计性能。我们还演示了该方法在分析真实数据集以提高所获得网络的可解释性和可预测性方面的实用性。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H22个 概率图形模型
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Ahmed,A.和Xing,E.P.(2009年)。恢复社会和生物研究中依赖性的时变网络。《美利坚合众国国家科学院院刊》,106(29),11878-11883·doi:10.1073/pnas.0901910106
[2] Bachmann,P.和Precup,D.(2012年)。改进了时变模型中的估计。第29届国际机器学习会议(ICML’12),第1735-1742页。
[3] Banerjee,O.、Ghaoui,L.E.和d'Aspremont,A.(2008)。通过多元高斯或二进制数据的稀疏最大似然估计进行模型选择。机器学习研究杂志,9485-516·Zbl 1225.68149号
[4] Bertsekas,D.P.和Tsitsiklis,J.N.(1989年)。并行和分布式计算:数值方法。新泽西州恩格尔伍德克利夫斯:普伦蒂斯·霍尔·Zbl 0743.65107号
[5] Besag,J.(1975年)。非晶格数据的统计分析。英国皇家统计学会杂志:D辑,24(3),179-195。
[6] Besag,J.(1977年)。简单高斯场伪似然估计的效率。生物特征,64,616-618·Zbl 0372.62067号 ·doi:10.1093/biomet/64.3.616
[7] Boyd,S.、Parikh,N.、Chu,E.、Peleato,B.和Eckstein,J.(2011年)。通过交替方向乘数法进行分布式优化和统计学习。机器学习的基础和趋势,3(11),1-122·Zbl 1229.90122号
[8] Boyd,S.和Vandenberghe,L.(2004)。凸优化。马萨诸塞州剑桥:剑桥大学出版社·Zbl 1058.90049号 ·doi:10.1017/CBO9780511804441
[9] Cai,J.F.、Candès,E.J.和Shen,Z.(2010)。矩阵补全的奇异值阈值算法。SIAM优化杂志,20(4),1956-1982·Zbl 1201.90155号 ·doi:10.1137/080738970
[10] Carvalho,C.M.和West,M.(2007年)。动态矩阵变量图形模型。贝叶斯分析,2(1),69-97·Zbl 1331.62040号 ·doi:10.1214/07-BA204
[11] Chen,S.S.、Donoho,D.L.和Saunders,M.A.(1998年)。通过基追踪进行原子分解。SIAM科学计算杂志,20,33-61·兹比尔0919.94002 ·doi:10.1137/S1064827596304010
[12] Daubechies,I.、Defrise,M.和Mol,C.D.(2004)。具有稀疏约束的线性反问题的迭代阈值算法。《纯粹数学与应用数学交流》,57(11),1413-1457·Zbl 1077.65055号 ·doi:10.1002/cpa.20042
[13] Doan,X.V.和Vavasis,S.(2013年)。用核范数和\[\ell_1\]求近似秩一子矩阵Ş1-标准。SIAM优化杂志,23(4),2502-2540·Zbl 1297.90114号 ·数字对象标识代码:10.1137/100814251
[14] Eckstein,J.和Bertsekas,D.(1992年)。关于最大单调算子的Douglas-Rachford分裂方法和最近点算法。数学规划,5293-318·Zbl 0765.90073号 ·doi:10.1007/BF01581204
[15] Fazel,M.、Hindi,H.和Boyd,S.(2004年)。秩最小化及其在系统理论中的应用。《美国控制会议记录》,第3273-3278页。
[16] Figueiredo,M.和Bioucas-Dias,J.(2010年)。使用交替方向优化恢复泊松图像。IEEE图像处理汇刊,19(12),3133-3145·兹比尔1371.94128 ·doi:10.1109/TIP.2010.2053941
[17] Frey,B.J.和Dueck,D.(2007年)。通过在数据点之间传递消息进行聚类。《科学》,315(5814),972-976·Zbl 1226.94027号 ·doi:10.1126/science.1136800
[18] Friedman,J.、Hastie,T.和Tibshirani,R.(2008)。用图形套索进行稀疏逆协方差估计。生物统计学,9(3),432-441·兹比尔1143.62076 ·doi:10.1093/biostatistics/kxm045
[19] 傅文杰(1998)。惩罚回归:大桥对套索。计算与图形统计杂志,7(3),397-416。
[20] Guo,J.、Levina,E.、Michaelidis,G.和Zhu,J.(2010)。分类马尔可夫网络的联合结构估计。http://www-personal.umich.edu/国健/出版物/ising.pdf·Zbl 1369.62164号
[21] He,B.,&Yuan,X.(2012)。关于Douglas-Rachford交替方向法的\[O(1/n)O\](1/1n)收敛速度。SIAM数值分析杂志,50(2),700-709·Zbl 1245.90084号 ·数字对象标识代码:10.1137/10836936
[22] Hirayama,J.、Hyvärinen,A.和Ishii,S.(2010年)。用乘法器的交替方向方法对时变马尔可夫网络进行稀疏和低秩估计。在神经信息处理国际会议(ICONIP’10)上,计算机科学讲稿(第6443卷,第371-379页)。
[23] Höfling,H.和Tibshirani,R.(2009)。使用伪似然估计稀疏二元成对马尔可夫网络。机器学习研究杂志,10883-906·兹比尔1245.62121
[24] Hutchison,R.M.等人(2013年)。动态功能连接:承诺、问题和解释。神经影像,80,360-378·doi:10.1016/j.neuroimage.2013.05.079
[25] Hyvärinen,A.(1999年)。稀疏代码收缩:通过最大似然估计对非高斯数据进行去噪。神经计算,11(7),1739-1768·doi:10.1162/0899766999300016214
[26] Hyvärinen,A.(2006年)。全可见Boltzmann机器伪似然估计的一致性。神经计算,18(10),2283-2292·Zbl 1114.68055号 ·doi:10.1116/neco.2006.18.1283
[27] Jenatton,R.、Mairal,J.、Obozinski,G.和Bach,F.(2010年)。稀疏层次字典学习的近似方法。第27届国际机器学习会议(ICML’10),第487-494页·Zbl 1280.94029号
[28] Kolar,M.、Song,L.、Ahmed,A.和Xing,E.P.(2010年)。估计时变网络。应用统计年鉴,4(1),94-123·Zbl 1189.62142号 ·doi:10.1214/09-AOAS308
[29] Kolar,M.、Song,L.和Xing,E.P.(2009年)。具有结构变化的变系数模型的稀疏学习。《神经信息处理系统进展》22(NIPS’09),第1006-1014页·Zbl 1229.90122号
[30] Koller,D.和Friedman,N.(2009年)。概率图形模型:原理和技术。马萨诸塞州剑桥:麻省理工学院出版社·Zbl 1183.68483号
[31] Lauritzen,S.L.(1996)。图形模型。牛津:克拉伦登出版社·Zbl 0907.62001
[32] Lee,S.I.、Ganapathi,V.和Koller,D.(2007年)。使用L1正则化的马尔可夫网络的有效结构学习。《神经信息处理系统进展》19(NIPS’06),第817-824页·Zbl 0765.90073号
[33] Leonardi,N.等人(2013年)。功能连接性的主要成分:研究休息期间动态大脑连接性新方法。神经影像,83,937-950·doi:10.1016/j.neuroimage.2013.07.019
[34] Loader,C.(1999)。局部回归和似然。柏林:斯普林格·兹比尔0929.62046
[35] Mei,S.、Cao,B.和Sun,J.(2012)。在多任务学习中同时编码低秩和稀疏结构。微软技术报告,MSR-TR-2012-124。http://research.microsoft.com/apps/pubs/default.aspx?id=179139。
[36] Meier,L.、van de Geer,S.和Bühlmann,P.(2008)。该组套索用于逻辑回归。英国皇家统计学会杂志:B辑,70,53-71·Zbl 1400.62276号 ·文件编号:10.1111/j.1467-9868.2007.00627.x
[37] Meinshausen,N.、Bühlmann,P.和Zürich,E.(2006年)。用拉索选择高维图形和变量。《统计年鉴》,341436-1462·Zbl 1113.62082号 ·doi:10.1214/0090536000000281
[38] Newman,M.E.J.(2006)。网络中的模块化和社区结构。《美国国家科学院院刊》,103(23),8577-8582·doi:10.1073/pnas.0601602103
[39] Nocedal,J.和Wright,S.J.(1999)。数值优化。Springer运筹学系列。柏林:斯普林格·Zbl 0930.65067号
[40] Pearl,J.(1988)。智能系统中的概率推理:似是而非推理网络。加利福尼亚州洛斯阿尔托斯:Morgan Kaufmann·Zbl 0746.68089号
[41] Ravikumar,P.、Wainwright,M.J.和Lafferty,J.D.(2010年)。使用\[\ell_1\]选择高维Ising模型Ş1-正则logistic回归。《统计年鉴》,38(3),1287-1319·Zbl 1189.62115号
[42] Richard,E.、Savalle,P.A.和Vayatis,N.(2012年)。同时估计稀疏矩阵和低秩矩阵。《第29届机器学习国际会议论文集》(ICML'12),第1351-1358页·Zbl 1369.62164号
[43] Rocha,G.、Zhao,P.和Yu,B.(2008)。一种稀疏伪似然逆协方差估计(SPLICE)的路径跟踪算法。技术报告759,加州大学伯克利分校统计系。
[44] Schmidt,M.(2005)。minFunc:Matlab中的无约束可微多元优化。网址:http://www.cs.ubc.ca/schmidtm/Software/minFunc.html·Zbl 1114.68055号
[45] Schmidt,M.和Murphy,K.(2010年)。对数线性模型中的凸结构学习:超越两两势。《第13届国际人工智能与统计会议论文集》(AISTATS’10)(第9卷,第709-716页)。
[46] Shimazaki,H.、Amari,S.、Brown,E.N.和GrüN,S.(2012年)。多神经棘波序列数据时变高阶棘波相关的状态空间分析。PLOS计算生物学,8(3),e1002385·doi:10.1371/journal.pcbi.1002385
[47] Song,L.、Kolar,M.和Xing,E.P.(2009年)。凯勒:估计基因间的时变相互作用。生物信息学,25(12),i128-i136·doi:10.1093/bioinformatics/btp192
[48] Srebro,N.、Rennie,J.和Jaakkola,T.(2005)。最大边际矩阵分解。《神经信息处理系统进展》17(NIPS’14),第1329-1336页·Zbl 1226.94027号
[49] Tibshirani,R.(1996)。通过套索回归收缩和选择。英国皇家统计学会杂志:B辑,58(1),267-288·Zbl 0850.62538号
[50] Toh,K.C.和Yun,S.W.(2010年)。核范数正则化最小二乘问题的加速近似梯度算法。太平洋优化杂志,6615-640·Zbl 1205.90218号
[51] Tomioka,R.和Sugiyama,M.(2009年)。高效稀疏重建的对偶增广拉格朗日方法。IEEE信号处理信件,16(12),1067-1070·doi:10.1109/LSP.2009.2030111
[52] Tomioka,R.、Suzuki,T.、Sugiyama,M.和Kashima,H.(2010年)。一种学习低秩矩阵的快速增广拉格朗日算法。第27届国际机器学习年会(ICML’10)会议记录,第1087-1094页·Zbl 1189.62142号
[53] Yoshida,R.、Imoto,S.和Higuchi,T.(2005)。利用马尔可夫切换动态线性模型从时间序列微阵列数据估计时间相关基因网络。《IEEE计算系统生物信息学会议论文集》,第289-298页·Zbl 1245.90084号
[54] 袁欣(2012)。协方差选择模型的交替方向法。科学计算杂志,51(2),261-273·Zbl 1255.65031号 ·doi:10.1007/s10915-011-9507-1
[55] Yuan,M.,&Lin,Y.(2006)。分组变量回归中的模型选择和估计。英国皇家统计学会杂志:B辑,68(1),49-67·Zbl 1141.62030号
[56] Zhao,P.、Rocha,G.和Yu,B.(2009年)。用于分组和分层变量选择的复合绝对惩罚系列。《统计年鉴》,37(6A),3468-3497·Zbl 1369.62164号 ·doi:10.1214/07-AOS584
[57] Zhou,S.、Lafferty,J.和Wasserman,L.(2010)。时变无向图。机器学习,80(2-3),295-319·Zbl 1475.62174号 ·doi:10.1007/s10994-010-5180-0
[58] Zhou,K.,Zha,H.,&Song,L.(2013)。使用多维Hawkes过程在稀疏低秩网络中学习社会传染性。《第16届国际人工智能与统计会议论文集》(AISTATS’13),第641-649页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。