×

马尔可夫数据的在线矩阵分解及其在网络词典学习中的应用。 (英语) 兹伯利07306930

摘要:在线矩阵分解(OMF)是字典学习问题的基本工具,它通过减少提取的特征数量来近似表示复杂数据集。文献中大多数OMF算法的收敛保证都假定数据矩阵之间是独立的,而相关数据流的情况在很大程度上还没有研究。在本文中,我们证明了Mairal等人关于i.i.d.数据流的著名OMF算法的一个非凸推广几乎肯定会收敛到期望损失函数的临界点集,即使数据矩阵是满足温和混合条件的某些潜在Markov链的函数。这样可以更有效地从相关数据流中提取特征,因为无需对数据序列进行子采样以近似满足独立性假设。作为主要应用,我们将在线非负矩阵分解与最新的网络模式采样MCMC算法相结合,提出了一种新的网络词典学习框架,该框架以在线方式从给定网络中提取“网络词典补丁”,对网络的主要特征进行编码。我们演示了该技术及其在实际网络数据的网络去噪问题中的应用。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] 迈克尔·贝里(Michael W.Berry)和默里·布朗(Murray Browne)。使用非负矩阵分解进行电子邮件监控。计算与数学组织理论,11(3):249-2642005·Zbl 1086.68502号
[2] Michael W.Berry、Murray Browne、Amy N.Langville、V.Paul Pauca和Robert J.Plemmons。近似非负矩阵分解的算法和应用。计算统计与数据分析,52(1):155-1732007·Zbl 1452.90298号
[3] 大卫·布莱、劳伦斯·卡林和大卫·邓森。概率主题模型:专注于图形模型设计以及文档和图像分析应用。IEEE信号处理杂志,27(6):552010年。
[4] David M.Blei、Andrew Y.Ng和Michael I Jordan。潜在的分配。机器学习研究杂志,3(1月):993-10222003·Zbl 1112.68379号
[5] Rostyslav Boutchko、Debasis Mitra、Suzanne L.Baker、William J.Jagust和Grant T Gullberg。聚类启动因子分析在动态脑正电子发射断层扫描组织分类中的应用。《脑血流与代谢杂志》,35(7):1104-11112015。
[6] 斯蒂芬·博伊德和利文·范登伯格。凸优化。剑桥大学出版社,2004年·Zbl 1058.90049号
[7] 杨晨,小王,丛石,刘恩强,傅晓明,邓北兴,李兴。凤凰:使用矩阵分解的加权网络坐标系。IEEE网络与服务管理汇刊,8(4):334-3472011年。
[8] Fernanda B.Correia、Edgar D.Coelho、JoséL.Oliveira和Joel P.Arrais。处理蛋白质相互作用网络中的噪声。生物医药研究国际,2019年。
[9] 理查德·达德利(Richard M.Dudley)。高斯过程的样本函数。在RM Dudley的精选作品中,第187-224页。施普林格,2010年。
[10] 瑞克·杜勒特(Rick Durrett)。概率:理论与实例。剑桥统计与概率数学系列。剑桥大学出版社,英国剑桥,第四版,2010年·Zbl 1202.60001号
[11] 布拉德利·埃夫隆(Bradley Efron)、特雷弗·哈斯蒂(Trevor Hastie)、伊恩·约翰斯通(Iain Johnstone)和罗伯特·蒂比拉尼(Robert Tibshirani)。最小角度回归。《统计年鉴》,32(2):407-4992004·Zbl 1091.62054号
[12] 唐纳德·菲斯克。准马蒂亚莱斯。美国数学学会学报,120(3):369-3891965·Zbl 0133.40303号
[13] 尼古拉斯·吉利斯。非负矩阵因式分解的原因和方法。正则化、优化、内核和支持向量机,12(257),2014。
[14] Aditya Grover和Jure Leskovec。node2vec:网络的可扩展特性学习。2016年第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集,第855-864页。
[15] 关乃阳、陶大成、罗志刚和袁波。具有鲁棒随机逼近的在线非负矩阵分解。IEEE神经网络和学习系统汇刊,23(7):1087-10992012。
[16] Katja Kovács、István A.和Luck、Kerstin Spirohn、Yang Wang、Carl Pollis、Sadie Schlabach、Wenting Bian、Dae-Kyum Kim、Nishka Kishore和Tong Hao。基于网络的蛋白质相互作用预测。《自然通讯》,10(1):12402019年。
[17] Daniel D.Lee和H.Sebastian Seung。通过非负矩阵分解学习对象的各个部分。《自然》,401(6755):7881999·Zbl 1369.68285号
[18] Daniel D.Lee和H.Sebastian Seung。非负矩阵分解算法。神经信息处理系统进展,第556-562页,2001年。
[19] Honglak Lee、Alexis Battle、Rajat Raina和Andrew Y.Ng。高效稀疏编码算法。《神经信息处理系统进展》,第801-808页,2007年。
[20] 李慧卿、刘志浩和崔承进。半监督非负矩阵分解。IEEE信号处理快报,17(1):4-72009。
[21] 威廉·伦茨(Wilhelm Lenz)。拜特尔什赫·祖姆·弗尔斯特·恩德尼斯在费森·科斯珀恩的磁本征沙芬(Beitršge zum verstšndnis der magneticschen eigenschaften)。Physikalische Z,21:613-6151920年。
[22] Jure Leskovec和Andrej Krevl。SNAP数据集:斯坦福大学大型网络数据集收集。http://snap.stanford.edu/data,2014年6月。
[23] 朱尔·莱斯科维奇和朱利安·麦考利。学习发现自我网络中的社交圈。《神经信息处理系统进展》,第539-547页,2012年。
[24] Shlomo Levental。harris循环马氏链的一致极限定理。概率论及相关领域,80(1):101-1181988·Zbl 0638.60030号
[25] 大卫·A·莱文和尤瓦尔·佩雷斯。马尔可夫链和混合时间,第107卷。美国数学学会,2017年·Zbl 1390.60001号
[26] David Liben-Nowell和Jon Kleinberg。社交网络的链接预测问题。《美国信息科学与技术学会杂志》,58(7):1019-10312007。
[27] 林元吕和陶周。复杂网络中的链接预测:一项调查。《物理学A》,390(6):1150-11702011年。
[28] Eyal Lubetzky和Allan Sly。多项式时间内方格子混合的临界ising。数学物理中的通信,313(3):815-8362012·Zbl 1250.82008年
[29] Hanbaek Lyu、Facundo Memoli和David Sivakoff。抽样随机图同态及其在网络数据分析中的应用。arXiv:1910.094832019。
[30] Hanbaek Lyu、Yacoub Kureh、Joshua Vendrow和Mason Porter。学习网络中的低阶潜在中尺度结构。准备中,2020年。
[31] 朱利安·迈拉尔。一阶代理函数优化。在国际机器学习会议(ICML)上,第783-7912013a页。
[32] 朱利安·迈拉尔。大规模优化的随机优化最小化算法。《神经信息处理系统进展》,第2283-2291页,2013b。
[33] 朱利安·迈拉尔(Julien Mairal)、弗朗西斯·巴赫(Francis Bach)、让·庞斯(Jean Ponce)和吉列尔莫·萨皮罗(Guillermo Sapiro)。矩阵分解和稀疏编码的在线学习。机器学习研究杂志,11:19-602010·Zbl 1242.62087号
[34] Athanasius FM Marée、Verónica A Grieneisen和Paulien Hogeweg。细胞波茨模型和细胞、组织和形态发生的生物物理特性。生物学和医学中基于单细胞的模型,第107-136页。施普林格,2007年。
[35] Barry M.McCoy和Tai Tsun Wu。二维伊辛模型。Courier Corporation,2014年·Zbl 1409.82001号
[36] 宋梅(Song Mei)、于白(Yu Bai)和安德烈亚·蒙塔纳里(Andrea Montanari)。非凸损失的经验风险景观。《统计年鉴》,46(6A):2747-27742018·Zbl 1409.62117号
[37] 阿迪蒂亚·克里希纳·梅农(Aditya Krishna Menon)和查尔斯·埃尔坎(Charles Elkan)。通过矩阵分解进行链接预测。欧洲数据库机器学习和知识发现联合会议,第437-452页。施普林格,2011年。
[38] 阿瑟·门施(Arthur Mensch)、朱利安·迈拉尔(Julien Mairal)、伯特兰·蒂里昂(Bertrand Thirion)和加尔·瓦罗佐(Gaöl Varoqueux)。大矩阵分解的随机子抽样。IEEE信号处理汇刊,66(1):113-1282017·Zbl 1414.94866号
[39] Sean P.Meyn和Richard L.Tweedie。马尔可夫链和随机稳定性。施普林格·弗拉格,德国海德堡,2012年。
[40] 维诺德·奈尔和杰弗里·欣顿。整流的线性单元改进了受限的玻尔兹曼机。国际机器学习会议(ICML),第807-8142010页。
[41] Noriyuki Bob Ouchi、James A.Glazier、Jean-Paul Rieu、Arpita Upadhyaya和Yasuji Sawada。提高生物细胞模拟中细胞波茨模型的真实性。物理学A:统计力学及其应用,329(3-4):451-4582003·Zbl 1030.92010年
[42] Rose Oughtred、Chris Stark、Bobby-Joe Breitkreutz、Jennifer Rust、Lorrie Boucher、Christie Chang、Nadine Kolas、Lara O'Donnell、Genie Leung和Rochelle McAdam。生物网格相互作用数据库:2019年更新。核酸研究,47(D1):D529-D5412019。
[43] 彭建浩(Jianhao Peng)、米伦科维奇(Oligia Milenkovic)和阿加瓦尔(Abhishek Agarwal)。具有代表区域的在线凸矩阵分解。《神经信息处理系统进展》,第13242-132522019页。
[44] 布莱恩·佩罗齐(Bryan Perozzi)、拉米·阿尔罗福(Rami Al-Rfou)和史蒂文·斯基纳(Steven Skiena)。DeepWalk:社交表征的在线学习。2014年第20届ACM SIGKDD知识发现和数据挖掘国际会议论文集,第701-710页。
[45] Sirisha Rambhatla、Xingguo Li和Jarvis Haupt。Noodl:可验证的在线词典学习和稀疏编码。国际学习代表大会(ICLR),2019年。
[46] K Murali Rao。准马蒂亚莱斯。《斯堪的纳维亚数学》,24(1):79-921969年·Zbl 0193.45502号
[47] 本仁、劳伦特·普耶奥、广屯·本·朱、约翰·戴布斯和加斯帕德·德希内。非负矩阵分解:扩展结构的稳健提取。《天体物理学杂志》,852(2):1042018。
[48] Arkadiusz Sitek、Grant T.Gullberg和Ronald H.Huesman。使用惩罚最小二乘目标校正因子分析中的模糊解。IEEE医学影像交易,21(3):216-2252002。
[49] 马克·斯泰弗斯和汤姆·格里菲思。概率主题模型。潜在语义分析手册,427(7):424-440,2007。
[50] 安德拉斯·萨博(András Szabó)和罗兰·MH·默克斯(Roeland MH Merks)。肿瘤生长、肿瘤侵袭和肿瘤演化的细胞波茨模型。肿瘤学前沿,2013年3月87日。
[51] 米歇尔·塔拉格兰德。高斯过程的正则性。《数学学报》,159:99-1491987年·Zbl 0712.60044号
[52] 唐健、曲萌、王明哲、张明、闫军和梅巧珠。LINE:大规模信息网络嵌入。《第24届万维网国际会议论文集》,第1067-1077页,2015年。
[53] 利奥·塔斯拉曼和比约恩·尼尔森。正则化非负矩阵分解框架,用于基因表达数据的分析。《公共科学图书馆·综合》,7(11):e463312012。
[54] 罗伯特·提比拉尼(Robert Tibshirani)。通过套索回归收缩和选择。英国皇家统计学会杂志:B辑(方法学),58(1):267-2881996·Zbl 0850.62538号
[55] 弗拉基米尔·瓦普尼克。学习理论的风险最小化原则。《神经信息处理系统进展》,第831-838页,1992年。
[56] 吴法悦。波茨模型。《现代物理学评论》,54(1):2351982年。
[57] Lin F.Yang、Vladimir Braverman、Tuo Zhao和Mengdi Wang。基于随机游动的复杂网络的在线分解和划分。人工智能的不确定性,2019。
[58] 赵仁波(Renbo Zhao)、谭永福(Vincent YF Tan)和徐欢(Huan Xu)。具有一般分歧的在线非负矩阵分解。arXiv预印本arXiv:1608.000752016。
[59] 赵仁波(Renbo Zhao)、谭文森(Vincent Tan)和徐欢(Huan Xu)。具有一般发散的在线非负矩阵分解。《人工智能与统计》,第37-45页,2017年。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。