×

基于非负CP张量分解的大规模动态主题建模。 (英语) Zbl 1483.94023号

Demir,Ilke(编辑)等人,《数据科学进展》。根据2019年7月29日至8月2日在美国罗德岛州普罗维登斯举行的第二届数据科学和数学女性研讨会和2018年7月16日至20日在德国特里尔举行的第三届数据科学和数学女性研讨会上的演讲选出的论文。查姆:斯普林格。女性数学协会。序列号。26, 181-210 (2021).
摘要:由于数据的爆炸性增长,目前对大规模时间数据分析的需求前所未有。动态主题建模在社会和数据科学中得到了广泛的应用,其目的是学习随着时间的推移而出现、演变和消失的潜在主题。以前关于动态主题建模的工作主要使用非负矩阵分解(NMF)方法,其中数据张量的切片被分解为低维非负矩阵的乘积。然而,使用这种方法,数据的时间维度中包含的信息往往被忽视或利用不足。为了克服这个问题,我们建议采用非负CANDECOMP/PARAFAC(CP)张量分解(NNCPD)方法,将数据张量直接分解为非负向量的最小外积和,从而保留时间信息。通过对合成数据和实际数据的应用,证明了NNCPD的可行性,与基于NMF的典型方法相比,结果得到了显著改进。研究并讨论了NNCPD相对于此类方法的优势。据我们所知,这是NNCPD首次用于动态主题建模,我们的研究结果将对应用和进一步的开发产生革命性的影响。
关于整个系列,请参见[Zbl 1477.62002号].

MSC公司:

94甲16 数据分析和大数据的信息方面
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 安吉拉·安布罗西诺(Angela Ambrosino)、马里奥·塞德里尼(Mario Cedrini)、约翰·戴维斯(John B Davis)、斯特凡诺·菲奥里(Stefano Fiori)、马可·盖尔佐尼(Marco Guerzoni)和马西米利亚诺·努乔(Massimiliano。什么样的主题建模可以揭示经济学的演变。《经济方法学杂志》,25(4):329-3482018。
[2] 安提拉,皮亚;彭蒂·帕亚特罗;攻丝器,Unto;Järvinen,Olli,通过正矩阵分解法识别芬兰整体湿沉降的来源,大气环境,29,14,1705-1718(1995)·doi:10.1016/1352-2310(94)00367-T
[3] Michael W Berry、Murray Browne、Amy N Langville、V Paul Pauca和Robert J Plemmons。近似非负矩阵分解的算法和应用。计算统计与数据分析,52(1):155-1732007·Zbl 1452.90298号
[4] 安德烈·比特曼和安德烈亚斯·菲舍尔。如何使用主题建模识别心理学中的热门话题。Zeitschrift für Psychologie,2018年。
[5] Sanaz Bahargam和Evangelos Papalexakis。用于学习时间演化和新兴主题的约束耦合矩阵张量因式分解。arXiv预印arXiv:1807.00122018。
[6] J Douglas Carroll和Jih Jie Chang。通过“Eckart-Young”分解的n向推广分析多维尺度中的个体差异。《心理学》,35(3):283-3191970年·Zbl 0202.19101号
[7] 陈慧媛和李静。通过多个网络源的张量因子分解建模药物-靶点-疾病的相关相互作用。《万维网会议》,2019年第218-227页。
[8] Andrzej Cichocki、Rafal Zdunk和Shun-ichi Amari。非负矩阵和三维张量因式分解的层次算法。在独立成分分析和信号分离国际会议上,第169-176页。施普林格,2007年·Zbl 1172.94390号
[9] 安德烈·奇切基(Andrzej Cichocki);拉斐尔·扎杜克;Amari,Shun-ichi,非负矩阵和张量因子分解[课堂讲稿],IEEE信号处理杂志,25,1142-145(2007)·Zbl 1172.94390号 ·doi:10.1109/MSP.2008.4408452
[10] 陈勇(Yong Chen)、张慧(Hui Zhang)、吴俊杰(Junjie Wu)、王星光(Xingguang Wang)、刘瑞(Rui Liu)和林梦香(Mengxiang Lin)。使用具有稀疏表示的动态软正交nmf建模新兴、演化和衰退主题。2015年IEEE数据挖掘国际会议,第61-70页。IEEE,2015年。
[11] 伊格纳特·多马诺夫(Ignat Domanov)和列文·德拉特豪沃(Lieven De Lathauwer)。正则多元分解和INDSCAL的一般唯一性条件。arXiv:1405.6238【数学】,2014年5月。arXiv:1405.6238·Zbl 1330.15028号
[12] 加布里埃尔·道尔和查尔斯·埃尔坎。财务主题模型。在2009年NIPS-2009主题模型应用研讨会的工作说明:文本和超越研讨会。
[13] M.Gao、J.Haddock、D.Molitor、D.Needell、E.Sadovnik、T.Will和R.Zhang。多层主题建模的神经非负矩阵分解。程序中。多传感器自适应处理计算进展国际研讨会,2019年。
[14] Richard A Harshman等人。PARAFAC程序的基础:“解释性”多模态因子分析的模型和条件。1970
[15] Yu Ito、Shin-ichi Oeda和Kenji Yamanishi。归一化最大似然编码下非负矩阵分解的秩选择。2016年SIAM国际数据挖掘会议记录,第720-728页。SIAM,2016年。
[16] 凯伦·斯巴克·琼斯。术语特异性的统计解释及其在检索中的应用。《文献学杂志》,第28卷第1期,第11-21页,28(1):11-12,1972年·Zbl 1027.68585号
[17] 塔马拉·G·科尔达(Tamara G Kolda)和布雷特·巴德(Brett W Bader)。张量分解及其应用。SIAM综述,51(3):455-5002009·Zbl 1173.65029号
[18] 20个新闻组。Jason Rennie,2008年1月。http://qwone.com/jason/20新闻组/。
[19] Kruskal,JB,《三向数组:三线性分解的秩和唯一性及其在算术复杂性和统计学中的应用》,《线性代数应用》。,18, 2, 95-138 (1977) ·Zbl 0364.15021号 ·doi:10.1016/0024-3795(77)90069-6
[20] Ken Lang.Newsweeder:学习过滤网络新闻。《第十二届机器学习国际会议论文集》,第331-3391995页。
[21] 威廉·H·劳顿和爱德华·A·西尔维斯特。自建模曲线分辨率。技术计量学,13(3):617-6331971。
[22] Daniel D Lee和H Sebastian Seung。通过非负矩阵分解学习对象的各个部分。《自然》,401(6755):7881999·Zbl 1369.68285号
[23] 彭蒂·帕亚特罗;Tapper,Unto,《正矩阵因式分解:数据值误差估计的最佳利用非负因子模型》,《环境计量》,5,2,111-126(1994)·doi:10.1002/env.3170050203
[24] 佩德雷戈萨,F。;瓦罗佐,G。;Gramfort,A。;米歇尔,V。;蒂里昂,B。;O.格栅。;布隆德尔,M。;普雷滕霍费尔,P。;韦斯,R。;杜堡,V。;范德普拉斯,J。;帕索斯,A。;库纳波,D。;布鲁彻,M。;佩罗,M。;Duchesnay,E.,Scikit-learn:Python中的机器学习,《机器学习研究杂志》,第12期,第2825-2830页(2011年)·Zbl 1280.68189号
[25] 杨奇。从几何的角度对非负张量做一个非常简要的介绍。数学,6(11):2302018年10月·Zbl 1405.15033号
[26] 杰森·伦尼。20个新闻组。http://qwone.com/jason/20新闻组/,2008年。
[27] 宋贤亚和李秀英。使用nmf的层次表示。在神经信息处理国际会议上,第466-473页。施普林格,2013年。
[28] 安坎·萨哈和维卡斯·辛德瓦尼。社交媒体中不断发展和新兴的学习主题:一种具有时间正则化的动态nmf方法。第五届ACM网络搜索和数据挖掘国际会议论文集,第693-702页。ACM,2012年。
[29] 劳伦特·索伯(Laurent Sorber);马克·范·巴雷尔(Marc Van Barel);De Lathauwer,Lieven,结构化数据融合,IEEE信号处理选定主题期刊,9,4,586-600(2015)·doi:10.1109/JSTSP.2015.2400415
[30] 亚伯拉罕·特拉奥雷(Abraham Traoré)、马克西姆·贝拉尔(Maxime Berar)和阿兰·拉科托马蒙吉(Alain Rakotomamonjy)。非负张量字典学习。在2018年欧洲人工神经网络研讨会上。
[31] Magnus O Ulfarsson和Victor Solo。非负矩阵分解的调整参数选择。2013年IEEE声学、语音和信号处理国际会议,第6590-6594页。IEEE,2013年。
[32] N.Vervliet、O.Debals、L.Sorber、M Van Barel和L.De Lathauwer。Tensorlab 3.0,2016年3月。
[33] Tae Yano、William W Cohen和Noah A Smith。使用主题模型预测对政治博客帖子的反应。《人类语言技术学报:计算语言学协会北美分会2009年年度会议》,第477-485页。计算语言学协会,2009年。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。