×

通过NMF-EM算法同时进行降维和聚类。 (英语) Zbl 07363872号

摘要:混合模型是最流行的聚类工具之一。然而,当聚类的维数和数量较大时,对聚类的估计及其解释就变得很有挑战性。对参数的限制可用于减小尺寸。以高斯混合因子分析仪的混合为例。将MFA扩展到非高斯混合并不简单。我们对非高斯混合模型中的参数提出了一种新的约束:(K)分量参数是一个小字典中的元素(例如,(H)元素)与(Hll K)的组合。在EM算法中加入非负矩阵分解(NMF)可以同时估计字典和混合参数。我们提出了该算法的缩写词NMF-EM,在R包nmfem中实现。这种原始方法的动机是乘客根据票务数据进行聚类:我们将NMF-EM应用于两个Transdev公共交通网络的数据。在这种情况下,这些词很容易理解为时间表中的典型时段。

MSC公司:

62H30型 分类和歧视;聚类分析(统计方面)
62甲12 多元分析中的估计
62第25页 统计学在社会科学中的应用
91C20个 社会和行为科学中的集群
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿尔基尔,P。;Guedj,B.,拟贝叶斯非负矩阵因式分解的预言不等式,数学方法统计,26,1,55-67(2017)·兹比尔1381.62222 ·doi:10.3103/S1066530717010045
[2] Arlot,S。;Massart,P.,最小二乘回归惩罚的数据驱动校准,J Mach Learn Res,2009年2月10日,245-279
[3] Baek,J。;GJ麦克拉克伦;Flack,LK,《因子分析仪与公共因子加载的混合:应用于高维数据的聚类和可视化》,IEEE Trans-Pattern Ana Mach Intell,32,7,1298-1309(2009)·doi:10.1109/TPAMI.2009.149
[4] Baudry,J-P;毛吉斯,C。;Michel,B.,《斜率启发式:概述与实现》,《统计计算》,22,2,455-470(2012)·兹比尔1322.62007 ·doi:10.1007/s11222-011-9236-1
[5] Benaglia,T。;乔沃,D。;亨特博士;Young,D.,mixtools:分析有限混合模型的R包,J Stat Softw,32,6,1-29(2009)·doi:10.18637/jss.v032.i06
[6] 比尔纳基,C。;Celeux,G。;Govaert,G.,《用于评估混合模型中簇数的NEC标准的改进》,Pattern Recognit Lett,20,3,267-272(1999)·Zbl 0933.68117号 ·doi:10.1016/S0167-8655(98)00144-5
[7] Bishop C(2007)模式识别和机器学习(信息科学和统计),第1版。2006年更正第二次印刷版
[8] 布莱,DM;Ng、AY;乔丹,密歇根州,潜在迪里克莱分配,J Mach Learn Res,3,993-1022(2003)·Zbl 1112.68379号
[9] Bouveyron,C。;Brunet-Saumard,C.,《基于模型的高维数据聚类:综述》,《计算统计数据分析》,71,52-78(2014)·Zbl 1471.62032号 ·doi:10.1016/j.csda.2012.12.008
[10] Bouveyron,C。;科特迪瓦,E。;Jacques,J.,《自行车共享系统对比分析的判别功能混合模型》,Ann Appl Stat,9,4,1726-1760(2015)·Zbl 1397.62511号 ·doi:10.1214/15-AOAS861
[11] 博伊德,S。;北卡罗来纳州帕里赫。;朱,E。;佩莱托,B。;Eckstein,J.,《通过交替方向乘数法进行分布式优化和统计学习》,《发现趋势——马赫学习》,3,1,1-122(2011)·Zbl 1229.90122号 ·doi:10.1561/220000016
[12] Carel L,Alquier P(2017)非负矩阵分解作为旅行者时间剖面聚类的预处理工具。摘自:Verleysen M(ed)第25届欧洲人工神经网络研讨会论文集。第417-422页。i6doc.com网站
[13] Celeux,G。;Frühwirth-Schnatter,S。;Robert,CP,混合物分析手册(2018),博卡拉顿:CRC出版社,博卡拉顿
[14] Celeux,G。;Maugis-Rabusseau,C。;Sedki,M.,用正则化方法进行基于模型的聚类和判别分析中的变量选择,Adv Data Anal Classif,13,259-278(2018)·兹比尔1474.62216 ·doi:10.1007/s11634-018-0322-5
[15] 科特迪瓦,E。;Oukhellou,L.,《基于模型的自行车共享系统使用挖掘计数系列聚类:巴黎Vélib系统的案例研究》,ACM Trans Intell Syst Technol(TIST),5,3,39(2014)
[16] 丁C,何X,Simon H.D(2005)关于非负矩阵分解与谱聚类的等价性。摘自:2005年SIAM国际数据挖掘会议论文集。SIAM,第606-610页
[17] El Mahrsi MK、Cóme E、Baro J、Oukhellou L(2014)《通过智能卡和社会经济数据了解公共交通乘客模式:法国雷恩的案例研究》。In:ACM SIGKDD城市计算研讨会
[18] 费沃特,C。;Bertin,N。;Durrieu,J-L,带Itakura-Saito发散的非负矩阵分解:在音乐分析中的应用,神经计算,21,3,793-830(2009)·Zbl 1156.94306号 ·doi:10.1162/neco.2008.04-08-771
[19] Fop M,Murphy TB(2017),基于模型聚类的变量选择方法。arXiv预印本arXiv:1707.00306·Zbl 1496.62105号
[20] 弗雷利,C。;Raftery,AE,基于模型的聚类、判别分析和密度估计,美国统计协会杂志,97,458,611-631(2002)·Zbl 1073.62545号 ·doi:10.1198/016214502760047131
[21] Ghahramani Z,Hinton GE(1996)混合因子分析仪的EM算法。多伦多大学技术报告CRG-TR-96-1
[22] Gonzalez EF,Zhang Y(2005)加速非负矩阵分解的Lee-Seung算法。德克萨斯州休斯顿莱斯大学计算与应用数学系,技术代表TR-05-02
[23] Grün,B。;Celeux,G。;Frühwirth-Schnatter,S。;Robert,CP,基于模型的聚类,混合物分析手册,155-188(2018),博卡拉顿:CRC出版社,博卡拉顿
[24] Hamon R、Borgant P、Févotte C、Flandrin P、Robardt C(2015)《时间因素分解:系统中的周期》。参加:2015年GRETSI学术讨论会
[25] 伊哈卡,R。;Gentleman,R.,R:数据分析和图形语言,《计算图形统计杂志》,5,299-314(1996)
[26] Khan ME、Bouchard G、Murphy KP、Marlin BM(2010)混合数据因子分析的变分界限。收录:Lafferty JD、Williams CKI、Shawe-Taylor J、Zemel RS、Culotta A(编辑)《神经信息处理系统进展》,第23卷。Curran Associates公司,第1108-1116页
[27] Koren,Y。;贝尔·R。;Volinsky,C.,推荐系统的矩阵分解技术,计算机,42,8,30-37(2009)·doi:10.1010/MC.2009.263
[28] Lee,DD;Seung,HS,通过非负矩阵分解学习对象的各个部分,Nature,401,6755,788-791(1999)·Zbl 1369.68285号 ·doi:10.1038/44565
[29] Lee DL,Seung HS(2001)非负矩阵分解算法。收录:Leen TK,Dietterich TG,Tresp V(eds)神经信息处理系统进展,第13卷。麻省理工学院出版社,第556-562页
[30] Lin,C-J,非负矩阵分解的投影梯度法,神经计算,19,10,2756-2779(2007)·Zbl 1173.90583号 ·doi:10.1162/neco.2007.19.10.2756
[31] 罗,X。;周,M。;夏,Y。;Zhu,Q.,一种基于非负矩阵分解的高效推荐系统协同过滤方法,IEEE Trans-Ind-Inform,10,2,1273-1284(2014)·doi:10.1109/TII.2014.2308433
[32] 毛吉斯,C。;Celeux,G。;Martin Magniette,M-L,高斯混合模型聚类的变量选择,生物计量学,65,3701-709(2009)·Zbl 1172.62021号 ·doi:10.1111/j.1541-0420.2008.0160.x
[33] 毛吉斯,C。;Celeux,G。;Martin-Magniette,M-L,《基于模型的聚类中的变量选择:一般变量角色建模》,《计算统计数据分析》,53,11,3872-3882(2009)·Zbl 1453.62154号 ·doi:10.1016/j.csda.2009.04.013
[34] GJ麦克拉克伦;Peel,D.,有限混合模型(2004),Hoboken:Wiley,Hoboke·兹比尔0963.62061
[35] GJ麦克拉克伦;皮,D。;Bean,RW,通过混合因子分析仪建模高维数据,《计算统计数据分析》,41,3-4,379-388(2003)·Zbl 1256.62036号 ·doi:10.1016/S0167-9473(02)00183-4
[36] McNicholas,PD,基于模型的聚类,J Classif,33,3,331-373(2016)·Zbl 1364.62155号 ·doi:10.1007/s00357-016-9211-9
[37] McNicholas,PD,基于混合模型的分类(2016),博卡拉顿:CRC出版社,博卡拉顿·Zbl 1454.62005年 ·数字标识代码:10.1201/9781315373577
[38] 麦克尼古拉斯,PD;墨菲,TB,简约高斯混合模型,统计计算,18,3,285-296(2008)·doi:10.1007/s11222-008-9056-0
[39] Mei J,De Castro Y,Goude Y,Hébrail G(2017)从几个时间集合中恢复多个非负时间序列。参加:第34届国际机器学习会议(ICML)
[40] Montanari,A。;Viroli,C.,异方差因子混合分析,统计模型,10,4,441-460(2010)·Zbl 07256833号 ·doi:10.1177/1471082X0901000405
[41] 莫伦西,C。;Trépanier,M。;Agard,B.,《使用智能卡数据测量公交使用可变性》,《交通政策》,第14、3、193-203页(2007年)·doi:10.1016/j.tranpol.2007.01.01
[42] Murphy K,Gormley IC,Viroli C(2017)无限因子分析器的无限混合物:通过潜在高斯模型的非参数模型聚类。arXiv预打印arXiv:1701.07010·Zbl 1459.62118号
[43] Paisley J,Blei D,Jordan MI(2014)具有随机变分推理的贝叶斯非负矩阵分解。In:Airoldi EM、Blei D、Erosheva EA、Fienberg SE(eds)混合成员模型及其应用手册。查普曼和霍尔/CRC现代统计方法手册
[44] Pelletier M.-P、Trépanier M、Morency C(2009)《公共交通规划中的智能卡数据:回顾》。CIRRELT公司
[45] 彭,C。;Jin,X。;Wong,K-C;Shi,M。;Lió,P.,《城市出租车出行的集体人类流动模式》,《公共科学图书馆·综合》,第7、4、e34487页(2012年)·doi:10.1371/journal.pone.0034487
[46] Poussevin M,Tonnelier E,Baskiotis N,Guigue V,Gallinari P(2014)利用非负矩阵分解挖掘票务日志的使用特征。参加:社交媒体建模国际研讨会。施普林格,第147-164页
[47] Raftery,AE;Dean,N.,《基于模型聚类的变量选择》,美国统计协会期刊,101,473,168-178(2006)·Zbl 1118.62339号 ·doi:10.1198/016214500000113
[48] Randriamanamihaga AN、Cóme E、Oukhellou L、Govaert G(2013)通过泊松混合模型对Vélib的原始目的地流进行聚类。输入:ESANN
[49] Scrucca,L。;Fop,M。;墨菲,TB;Raftery,AE,mclust 5:使用高斯有限混合模型进行聚类、分类和密度估计,R J,8,1,289(2016)·doi:10.32614/RJ-2016-021
[50] Shahnaz,F。;贝里,M。;Pauca,P。;Plemmons,R.,使用非负矩阵分解进行文档聚类,Inf Process Manag,42,2,373-386(2006)·Zbl 1087.68104号 ·doi:10.1016/j.ipm.2004.11.005
[51] 斯坦利,D。;Brusco,MJ,《聚类分析中变量的选择:八种程序的实证比较》,《心理测量学》,73,1,125-144(2008)·Zbl 1143.62327号 ·doi:10.1007/s11336-007-9019-y
[52] Sun D,Févotte C(2014)带β-发散的非负矩阵分解的交替方向乘数法。2014年IEEE声学、语音和信号处理国际会议(ICASSP)。IEEE,第6201-6205页
[53] Tonnelier,E。;Baskiotis,N。;Guigue,V。;Gallinari,P.,智能卡日志中的异常检测和推特的远程评估:一个稳健的框架,神经计算,298109-121(2018)·doi:10.1016/j.neucom.2017.12.067
[54] Wolfe JH(1963)《社会领域的对象聚类分析》。加州大学硕士论文
[55] Wu M(2007)通过矩阵分解的集合进行协同过滤。收录:KDD杯和研讨会会议记录。2007年第卷
[56] Xu W,Liu Xi,Gong Y(2003)基于非负矩阵分解的文献聚类。收录:第26届ACM SIGIR信息检索研究与开发国际年会论文集。ACM,第267-273页
[57] Yang,Y.,能否分享AIC和BIC的优势?模型识别和回归估计之间的冲突,Biometrika,92,4,937-950(2005)·Zbl 1151.62301号 ·doi:10.1093/biomet/92.4.937
[58] 杨,Z。;科兰德,J。;Oja,E.,用于聚类分析的低秩双随机矩阵分解,J Mach Learn Res,17,187,1-25(2016)·Zbl 1392.62195号
[59] 郑毅。;卡普拉。;O.沃尔夫森。;Yang,H.,《城市计算:概念、方法和应用》,ACM Trans Intell Syst Technol(TIST),第5、3、38页(2014年)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。