×

使用非负矩阵分解的最优贝叶斯聚类。 (英语) Zbl 1469.62158号

摘要:基于贝叶斯模型的聚类是一种广泛应用的程序,用于发现数据集中的相关观察组。这些方法使用由MCMC估计的贝叶斯混合模型,该模型提供模型参数的后验样本和聚类划分。虽然对模型参数的推理已经很好地建立,但对聚类分区的推理却不太发达。提出了一种新的基于贝叶斯聚类模型生成的两两后验相似矩阵估计最优分割的方法。该方法使用非负矩阵因式分解(NMF)来提供相似矩阵的低阶近似。因式分解允许硬划分或软划分,并且在各种惩罚函数下表现优于几种常用的替代方法。

MSC公司:

62-08 统计问题的计算方法
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Badea,L.,使用同步非负矩阵分解提取结肠和胰腺癌常见的基因表达谱。,(太平洋生物计算研讨会,第290卷,(2008)),279-290
[2] Binder,D.A.,贝叶斯聚类分析,生物统计学,65,1,31-38,(1978)·Zbl 0376.62007号
[3] 布莱克威尔博士。;MacQueen,J.B.,通过Pólya urn方案的弗格森分布,Ann.Statist。,1, 2, 353-355, (1973) ·Zbl 0276.62010
[4] 布鲁内特,J.P。;Tamayo,P。;Golub,T.R。;Mesirov,J.P.,《利用矩阵分解发现转基因和分子模式》,Proc。国家。阿卡德。科学。,101, 12, 4164-4169, (2004)
[5] 坎贝尔,N。;Mahon,R.,《澳大利亚细粒棘球蚴属两种岩蟹变异的多元研究》。J.Zool。,22, 3, 417-425, (1974)
[6] Dahl,D.B.,共轭和非共轭Dirichlet过程混合物模型的顺序分配合并-分裂取样器,(技术报告,(2005),德克萨斯州农工大学)
[7] Dahl,D.B.,通过Dirichlet过程混合模型对表达数据进行基于模型的聚类,((2006),剑桥大学出版社),201-218
[8] 丁·C·H。;何,X。;Simon,H.D.,关于非负矩阵分解与谱聚类的等价性,(SDM,第5卷,(2005),SIAM),606-610
[9] 医学博士埃斯科瓦尔。;West,M.,《使用混合物的贝叶斯密度估计和推断》,J.Amer。统计师。协会,90,430,577-588,(1995)·兹比尔0826.62021
[10] Ferguson,T.S.,一些非参数问题的贝叶斯分析,Ann.Statist。,1, 2, 209-230, (1973) ·Zbl 0255.62037号
[11] Fortunato,S.,《图形中的社区检测》,Phys。众议员,486,3-5,75-174,(2010)
[12] 弗雷利,C。;Raftery,A.E.,基于模型的聚类、判别分析和密度估计,J.Amer。统计师。协会,97,458,611-631,(2002)·兹比尔1073.62545
[13] 弗里奇,A。;Ickstadt,K.,基于后验相似矩阵的改进聚类标准,贝叶斯分析。,4, 2, 367-391, (2009) ·兹比尔1330.62249
[14] Gaujoux,R.,NMF包简介,(2018),CRAN,R包版本0.20.6,URLhttps://cran.r-project.org/package=NMF
[15] Gaujoux,R。;Seoighe,C.,非负矩阵分解的Aflexible R包,BMC生物信息学,11,1,367,(2010),URLhttp://www.biomedcentral.com/1471-2105/11/367
[16] Gemulla,R。;Nijkamp,E。;Haas,P.J。;Sismanis,Y.,带分布随机梯度下降的大尺度矩阵分解,(第17届ACM SIGKDD国际知识发现和数据挖掘会议论文集,KDD’11,(2011),美国纽约州纽约市ACM),69-77
[17] 何,Z。;谢S。;扎杜克,R。;周,G。;Cichocki,A.,《对称非负矩阵分解:概率聚类的算法和应用》,IEEE Trans。神经网络。,22, 12, 2117-2131, (2011)
[18] Hosseini-Asl,E。;Zurada,J.M.,《524文档聚类的非负矩阵因式分解:一项调查》,(Rutkowski,L.;Korytkowski-M.;Scherer,R.;Tadeusiewicz,R.);Zadeh,L.A.;Zurada
[19] 休伯特,L。;Arabie,P.,比较分区,J.分类,2,1,193-218,(1985)
[20] 哈钦斯,L.N。;Murphy,S.M。;辛格,P。;Graber,J.H.,使用非负矩阵因子分解的位置相关基序表征,生物信息学,24,23,2684-2690,(2008)
[21] Ishwaran,H。;James,L.F.,Gibbs《破胶前期取样方法》,J.Amer。统计师。协会,96,453,161-173,(2001)·Zbl 1014.62006年
[22] Kim,H。;Park,H.,通过交替非负约束最小二乘法进行微阵列数据分析的稀疏非负矩阵分解,生物信息学,23,12,1495-1502,(2007)
[23] Kim,H。;Park,H.,基于交替非负约束最小二乘和活动集方法的非负矩阵分解,SIAM J.matrix Anal。申请。,30, 2, 713-730, (2008) ·Zbl 1162.65354号
[24] Kim,J。;Park,H.,聚类的稀疏非负矩阵分解,(技术报告GT-CSE-08-01,(2008),佐治亚理工学院)
[25] Kim,J。;Park,H.,《快速非负矩阵分解:一种活性集样方法和比较》,SIAM J.Sci。计算。,33, 6, 3261-3281, (2011) ·Zbl 1232.65068号
[26] Kuang,D。;丁,C。;Park,H.,(图聚类的对称非负矩阵分解,(2012),费城工业和应用数学学会),106-117
[27] 刘建伟。;Green,P.J.,基于贝叶斯模型的聚类程序,J.Compute。图表。统计学。,16, 3, 526-558, (2007)
[28] Lee,D.D。;Seung,H.S.,通过非负矩阵分解学习对象的部分,自然,4016755788-791,(1999)·兹比尔1369.68285
[29] Lee,D.D。;Seung,H.S.,非负矩阵分解算法,(神经信息处理系统进展,(2001)),556-562
[30] 李·T。;丁,C.,各种非负矩阵因式分解聚类方法之间的关系,(第六届国际数据挖掘会议(ICDM’06),(2006),IEEE,362-371
[31] 李·T。;Ding,C.,《聚类的非负矩阵分解:一项调查》(Aggarwal,C.C.;Reddy,C.K.,《数据聚类:算法和应用》,(2013),Chapman&Hall/CRC)
[32] A·李高。;梅纳,R.H。;普伦斯特,I.,控制贝叶斯非参数混合模型中的强化,J.R.Stat.Soc.Ser。B统计方法。,69, 4, 715-740, (2007) ·Zbl 07555373号
[33] Lin,C.J.,非负矩阵分解的投影梯度法,神经计算。,192756-2779年10月19日,(2007年)·Zbl 1173.90583号
[34] 利弗拉尼,S。;哈斯蒂,D.I。;阿齐兹,L。;帕帕托马斯,M。;Richardson,S.,Premium:使用Dirichlet过程的剖面回归混合模型的R包,J.Stat.Softw。,64,7,1-30,(2015),网址http://www.jstatsoft.org/v64/i07/
[35] 毛吉斯,C。;Celeux,G。;Martin-Magniette,M.L.,高斯混合模型聚类的变量选择,生物统计学,65,3,701-709,(2009)·Zbl 1172.62021号
[36] Medvedovic,M。;Sivaganesan,S.,基于贝叶斯无限混合模型的基因表达谱聚类,生物信息学,18,9,1194-1206,(2002)
[37] Medvedovic,M。;Yeung,K.Y。;Bumgarner,R.E.,基于贝叶斯混合模型的重复微阵列数据聚类,生物信息学,20,8,1222-1232,(2004)
[38] 梅勒,M.,《比较聚类与基于信息的距离》,《多元分析杂志》。,98, 5, 873-895, (2007) ·Zbl 1298.91124号
[39] Mejía-Roa,E。;马德里塔巴斯。;Setoain,J。;加西亚,C。;蒂拉多,F。;Pascual-Montano,A.,Nmf-mgpu:多gpu系统上的非负矩阵分解,BMC生物信息学,16,1,43,(2015)
[40] 梅利尼科夫,V。;Maitra,R.,有限混合模型和基于模型的聚类,统计调查。,4, 80-116, (2010) ·Zbl 1190.62121号
[41] Milligan,G.W。;Cooper,M.C.,《确定数据集中簇数的程序检查》,《心理测量学》,50,2,159-179,(1985)
[42] 莫雷,L.C。;Agresti,A.,《分类一致性的衡量:对随机一致性的随机统计的调整》,教育。精神病。测量。,44, 1, 33-37, (1984)
[43] Neal,R.M.,Dirichlet过程混合模型的马尔可夫链抽样方法,J.Compute。图表。统计学。,9, 2, 249-265, (2000)
[44] 佩斯利,J。;布莱,D。;Jordan,M.I.,贝叶斯非负矩阵因式分解与随机变分推理,混合成员模型及其应用手册,205-224,(2014),Chapman和Hall/CRC
[45] Pascual-Montano,A。;Carazo,J.M。;Kochi,K。;莱曼,D。;Pascual Marqui,R.D.,非光滑非负矩阵分解(nsnmf),IEEE Trans。模式分析。机器。智力。,28, 3, 403-415, (2006)
[46] 皮特曼,J。;Yor,M.,从稳定从属子导出的双参数Poisson-Dirichlet分布,Ann.Probab。,25, 2, 855-900, (1997) ·Zbl 0880.60076号
[47] F.A.金塔纳。;Iglesias,P.L.,贝叶斯聚类和产品划分模型,J.R.Stat.Soc.Ser。B统计方法。,65,2555-574,(2003年)·Zbl 1065.62115号
[48] Raftery,A.E。;Dean,N.,基于模型聚类的变量选择,J.Amer。统计师。协会,101,473,168-178,(2006)·Zbl 1118.62339号
[49] Rand,W.M.,《聚类方法评估的客观标准》,J.Amer。统计师。协会,66,336,846-850,(1971)
[50] Rasmussen,C.E.,无限高斯混合模型,(NIPS,第12卷,(1999)),554-560
[51] Rastelli,R。;Friel,N.,潜在变量聚类模型的最优贝叶斯估计,统计计算。,(2018),(印刷中)·Zbl 1430.62140号
[52] 理查森,S。;Green,P.J.,《关于成分数量未知的混合物的贝叶斯分析》(带讨论),J.R.Stat.Soc.Ser。B统计方法。,59, 4, 731-792, (1997) ·Zbl 0891.62020号
[53] Roeder,K.,以超星系团和星系空洞为例的置信集密度估计,J.Amer。统计师。协会,85,411,617-624,(1990)·Zbl 0704.62103号
[54] 沙珊卡,M。;拉吉,B。;Smaragdis,P.,作为非负因子分解的概率潜变量模型,计算。智力。神经科学。,2008,文章ID 947438,8,(2008)
[55] Vavasis,S.A.,关于非负矩阵分解的复杂性,SIAM J.Optim。,20,3,1364-1377,(2010),arXiv:https://doi.org/10.1137/070709967 ·Zbl 1206.65130号
[56] 韦德,S。;Ghahramani,Z.,《贝叶斯聚类分析:点估计和可信球》,贝叶斯分析。,13, 3, (2018) ·Zbl 1407.62241号
[57] 王,D。;聂,F。;Huang,H.,用于大规模人类行为数据聚类的快速稳健非负矩阵分解,(第二十五届国际人工智能联合会议论文集,IJCAI’16,(2016),AAAI出版社),2104-2110,URLhttp://dl.acm.org/citation.cfm?id=3060832.3060915
[58] Wang,H。;聂,F。;黄,H。;丁,C.,基于非负矩阵三因子化的高阶联合聚类及其快速实现,(2011年IEEE第11届国际数据挖掘会议,(2011)),774-783
[59] Wang,L。;Dunson,D.B.,Dirichlet过程混合模型中的快速贝叶斯推断,J.Compute。图表。统计学。,20, 1, 196-216, (2011)
[60] Wang,Y.X。;张永杰,非负矩阵分解:综合评述,IEEE Trans。知识。数据工程,25,6,1336-1353,(2013)
[61] 韦斯坦,E.W.,第二类斯特林数。统一资源定位地址http://mathworld.wolfram.com/StirlingNumbersofSecondKind.html; Weisstein,E.W.,第二类斯特林数。统一资源定位地址http://mathworld.wolfram.com/StirlingNumbersofSecondKind.html
[62] 徐伟(Xu,W.)。;刘,X。;龚毅,基于非负矩阵分解的文档聚类,(第26届国际ACM SIGIR信息检索研究与开发会议论文集,(2003),ACM),267-273
[63] 赵,H。;Poupart,P。;Zhang,Y。;Lysy,M.,Sof:概率聚类的软聚类矩阵分解,(AAAI,(2015)),3188-3195
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。