×

通过多项式PCA混合对计数数据进行贪婪聚类。 (英语) Zbl 1505.62208号

摘要:随着数据集的规模和维度都在增长,计数数据在广泛的应用中变得越来越普遍。在这方面,越来越多的工作致力于构建统计模型,直接解释数据的离散性。此外,研究表明,将降维集成到聚类中可以显著提高性能和稳定性。在本文中,我们依赖于多项式混合PCA,这是一种用于计数数据聚类的混合模型,在文献中也称为概率聚类投影模型。与潜在Dirichlet分配模型相关,它提供了主题建模同时能够将每个观测值分配给一个唯一的簇。我们引入了一种贪婪聚类算法,其中推理和聚类是通过将分类变分期望最大化算法与变分下界上的分支定界策略混合来完成的。推导了用于模型选择的综合分类似然准则,并通过数值实验对该方法的性能和鲁棒性进行了深入研究。最后,我们与居里研究院医院的专家从业者合作,说明了后者在实际应用中对解剖病理学医学报告聚类的定性兴趣。

MSC公司:

62-08 统计问题的计算方法
62H30型 分类和区分;聚类分析(统计方面)
62H25个 因子分析和主成分;对应分析
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿加瓦尔,CC;翟,C.,文本聚类算法调查,挖掘文本数据,77-128(2012),纽约:Springer,纽约·doi:10.1007/978-1-4614-3223-44
[2] Akaike,H.,信息理论和最大似然原理的扩展,Akaike广土古论文选集,199-213(1998),纽约:施普林格,纽约·doi:10.1007/978-1-4612-1694-0_15
[3] 安德斯,S。;Huber,W.,序列计数数据的差异表达分析,Genome Biol,11,10,R106(2010)·doi:10.1186/gb-2010-11-10-r106
[4] Banfield JD,Raftery AE(1993),基于模型的高斯和非高斯聚类。生物统计学803-821·Zbl 0794.62034号
[5] BergéLR,Bouveyron C,Corneli M,Latouche P(2019)文本交互数据联合聚类的潜在主题块模型。计算统计数据分析·Zbl 1507.62011年
[6] 比尔纳基,C。;Celeux,G。;Govaert,G.,《用综合完全似然评估聚类的混合模型》,IEEE Trans-Pattern Ana Mach Intell,22,7,719-725(2000)·doi:10.1109/34.865189
[7] 布莱,DM;Kucukelbir,A。;McAuliffe,JD,《变分推断:统计学家评论》,美国统计协会,112,518,859-877(2017)·doi:10.1080/01621459.2017.1285773
[8] 布莱,DM;Ng、AY;乔丹,密歇根州,《潜在的dirichlet分配》,J Mach Learn Res,1993-1022年1月3日(2003)·Zbl 1112.68379号
[9] Bouveyron C、Celeux G、Murphy TB、Raftery AE(2019)《基于模型的数据科学聚类和分类:在R.Cambridge统计和概率数学系列中的应用》。剑桥大学出版社·Zbl 1436.62006年
[10] Bouveyron,C。;Girard,S。;Schmid,C.,《高维数据聚类》,《计算统计数据分析》,52,1,502-519(2007)·Zbl 1452.62433号 ·doi:10.1016/j.csda.2007.02.009
[11] Bouveyron,C。;拉图什,P。;Zreik,R.,《文本边网络中顶点聚类的随机主题块模型》,《统计计算》,28,1,11-31(2018)·Zbl 1505.62078号 ·doi:10.1007/s11222-016-9713-7
[12] Bui QV,Sayadi K,Amor SB,Bui M(2017)将潜在狄利克雷分配和K-均值相结合用于文档聚类:基于概率的距离测度的影响。参加:亚洲智能信息和数据库系统会议。纽约州施普林格,第248-257页
[13] Buntine W(2002)对em和多项式pca的变分扩展。参加:欧洲机器学习会议。纽约州施普林格,第23-34页·Zbl 1014.68524号
[14] Buntine WL,Perttu S(2003)多项式主成分分析是多方面聚类还是降维?在AISTATS
[15] Carel L,Alquier P(2017)通过nmf-em算法同时进行降维和聚类。arXiv预打印arXiv:1709.03346
[16] Celeux,G。;Govaert,G.,《聚类的分类em算法和两种随机版本》,《计算统计数据分析》,14,3,315-332(1992)·Zbl 0937.62605号 ·doi:10.1016/0167-9473(92)90042-E
[17] Chien J-T,Lee C-H,Tan Z-H(2017)潜在迪里克莱混合模型。神经计算
[18] Chiquet,J。;Mariadassou,M。;Robin,S.,概率泊松主成分分析的变分推断,Ann Appl Stat,12,4,2674-2698(2018)·Zbl 1412.62194号 ·doi:10.1214/18-AOAS1177
[19] 坎宁安,RB;Lindenmayer,DB,稀有物种的建模计数数据:一些统计问题,生态学,86,5,1135-1142(2005)·doi:10.1890/04-0589
[20] Daudin,J-J;皮卡德,F。;Robin,S.,随机图的混合模型,统计计算,18,2,173-183(2008)·doi:10.1007/s11222-007-9046-7
[21] Defossez G、Le Guyader-Peyrou S、Uhry Z、Grosclaude P、Remontet L、Colonna M、Dantony E、Delafosse P、MoliniéF、Woronoff A-S等(2019)《1990年和2018年法国对流层中心国家癌症和致命癌症评估》。苏丹共和国。圣莫里斯(Fra):法国圣普利克
[22] 阿联酋登普斯特;新墨西哥州莱尔德;Rubin,DB,通过em算法从不完整数据中获得最大似然,J R Stat Soc:Ser B(Methodol),39,1,1-22(1977)·Zbl 0364.62022号
[23] 丁,C。;李·T。;彭伟,关于非负矩阵分解与概率潜在语义索引的等价性,《计算统计数据分析》,52,8,3913-3927(2008)·Zbl 1452.62053号 ·doi:10.1016/j.csda.2008.01.11
[24] 埃卡特,C。;Young,G.,《一个矩阵与另一个低阶矩阵的近似》,《心理测量学》,1,3,211-218(1936)·doi:10.1007/BF02288367
[25] 爱荷华州埃利斯;Elston,CW,组织学分级,乳腺病理学,225-233(2006),阿姆斯特丹:Elsevier,阿姆斯特朗·doi:10.1016/B978-0-443-06680-1.50026-0
[26] 福迪斯,JA;Gompert,Z.公司。;福尔斯特,马里兰州;Nice,CC,《生态计数数据的分层贝叶斯方法:生态学家的灵活工具》,《公共科学图书馆·综合》,6,11,e26785(2011)·doi:10.1371/journal.pone.0026785
[27] Hartigan,JA,聚类算法(1975),霍博肯:威利,霍博克·Zbl 0372.62040号
[28] Hoffman M、Bach FR、Blei DM(2010)《潜在dirichlet分配的在线学习》。Adv Neural Inf过程系统856-864
[29] Hofmann T(1999)概率潜在语义分析。摘自:第十五届人工智能不确定性会议记录。摩根考夫曼出版公司,第289-296页
[30] 霍尼克,K。;Grün,B.,主题模型:适合主题模型的r包,J Stat Softw,40,13,1-30(2011)
[31] Hotelling,H.,《将复杂的统计变量分析为主要成分》,《教育心理学杂志》,24,6,417(1933)·doi:10.1037/h0071325
[32] Lakhani SR(2012)WHO乳腺肿瘤分类。国际癌症研究机构
[33] Lazebnik S,Schmid C,Ponce J(2006)《超越特征袋:识别自然场景类别的空间金字塔匹配》。2006年IEEE计算机学会计算机视觉和模式识别会议(CVPR'06),第2卷。IEEE,第2169-2178页
[34] Lee,DD;Seung,HS,通过非负矩阵分解学习对象的各个部分,Nature,401,6755,788(1999)·Zbl 1369.68285号 ·doi:10.1038/44565
[35] Lee DD,Seung HS(2001)非负矩阵分解算法。高级神经信息处理系统556-562
[36] 刘,L。;Tang,L。;Dong,W。;姚,S。;Zhou,W.,主题建模及其在生物信息学中的当前应用概述,SpringerPlus,5,1,1608(2016)·doi:10.1186/s40064-016-3252-8
[37] Mattei P-A、Bouveyron C、Latouche P(2016)《全球稀疏概率主成分分析》。Artif Intell统计976-984
[38] McLachlan G,Peel D(2000)有限混合模型。概率统计中的威利级数·Zbl 0963.62061号
[39] 内尔德,JA;Wedderburn,RW,广义线性模型,J R Stat Soc:Seri A(Gen),135,3,370-384(1972)
[40] Osborne,J.,《关于数据转换使用的注释》,Pract Assess-Res Evalu,9,1,42-50(2005)
[41] 奥哈拉,RB;Kotze,DJ,Do not log-transform count data,Methods Ecol Evol,1,2,118-122(2010)·doi:10.1111/j.2041-210X.2010.0021.x
[42] R核心团队(2019)R:统计计算组织的语言和环境。R统计计算基金会,奥地利维也纳。https://www.R-project.org网站/
[43] Ramos J等人(2003)使用tf-idf确定文档查询中的单词相关性。收录:第一届机器学习教学会议记录,第242卷,皮斯卡塔韦,第133-142页
[44] Rand,WM,《聚类方法评估的客观标准》,美国统计协会杂志,66,336,846-850(1971)·doi:10.1080/01621459.1971.10482356
[45] Rau A、Celeux G、Martin-Magniette M-L、Maugis-Rabusseau C(2011),利用泊松混合模型聚类高通量测序数据。研究报告RR-7786,INRIA
[46] Rigouste,L。;O·卡佩。;Yvon,F.,文本聚类多项式混合模型的推断和评估,Inf Process Manag,43,5,1260-1280(2007)·doi:10.1016/j.ipm.2006.11.001
[47] Schwarz,G.,估算模型的维数,Ann Stat,6,2,461-464(1978)·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[48] Silvestre C、Cardoso MG、Figueiredo MA(2014)《确定离散混合模型中的簇数》。arXiv预打印arXiv:1409.7419
[49] Sorlie,T。;Tibshirani,R。;Parker,J。;哈斯蒂,T。;Marron,J.等人。;诺贝尔,A。;邓,S。;Johnsen,H。;佩西奇,R。;Geisler,S.,独立基因表达数据集中乳腺肿瘤亚型的重复观察,美国国家科学院学报,100,14,8418-8423(2003)·doi:10.1073/pnas.0932692100
[50] 圣皮埃尔,美联社;Shikon,V。;Schneider,DC,《生物学中的计数数据——数据转换或模型改造?》?,《生态进化》,8,6,3077-3085(2018)·doi:10.1002/ece3.3807
[51] 小费,ME;Bishop,CM,概率主成分分析仪的混合,神经计算,11,2,443-482(1999)·doi:10.1162/0899766999300016728
[52] 小费,ME;Bishop,CM,概率主成分分析,J R Stat Soc:Ser B(Stat Methodol),61,3,611-622(1999)·Zbl 0924.62068号 ·doi:10.1111/1467-9868.00196
[53] Wallach HM(2008)语言结构化主题模型。剑桥大学博士论文
[54] Watanabe,K。;阿卡霍,S。;美国奥马奇。;Okada,M.,使用变分贝叶斯混合模型同时聚类和降维,分类作为研究工具,81-89(2010),纽约:Springer,纽约·doi:10.1007/978-3642-10745-08
[55] 谢鹏,邢恩平(2013)《整合文档聚类和主题建模》。附:第30届人工智能不确定性会议论文集
[56] Xu W,Liu X,Gong Y(2003)基于非负矩阵分解的文献聚类。收录:第26届ACM SIGIR信息检索研究与开发国际年会论文集。ACM,第267-273页
[57] 于斯。;Yu,K。;Tresp,V。;Kriegel,H-P,离散数据的概率聚类投影模型,欧洲数据挖掘和知识发现原理会议,417-428(2005),纽约:Springer,纽约
[58] 兹维纳,I。;弗里希,B。;Binder,H.,《转化rna-seq数据以提高预后基因特征的性能》,《公共科学图书馆·综合》,9,1,e85150(2014)·doi:10.1371/journal.pone.0085150
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。