×

剖面可能性双聚类。 (英语) Zbl 1435.62229号

本研究的主要贡献是为适用于广泛数据分布的任何双聚类算法提供了理论保证。此外,它能够处理稀疏和密集数据矩阵。通过这些手段,开发了一种新的系统方法来分析双聚类算法的性能。在已知基准生物床数据集和美国众议院立法数据上证明了该方法的有效性。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
6220国集团 非参数推理的渐近性质
62页第10页 统计学在生物学和医学中的应用;元分析
62第25页 统计学在社会科学中的应用

软件:

电影镜头
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abbe,E.(2018)。社区检测和随机块模型:最新发展。,机器学习研究杂志,18(177):1-86·Zbl 1403.62110号
[2] Ames,B.P.(2014)。通过半定规划保证聚类和双聚类。,数学。程序。,147(1-2):429-465. ·Zbl 1297.90107号 ·doi:10.1007/s10107-013-0729-x
[3] Amini,A.A.、Chen,A.、Bickel,P.J.和Levina,E.(2013)。用于大型稀疏网络中的社区检测的伪似然方法。,安.统计师。,41(4):2097-2122. ·Zbl 1277.62166号 ·doi:10.1214/13-AOS1138
[4] Amini,A.A.和Levina,E.(2018年)。关于块模型的半定松弛。,安.统计师。,46(1):149-179. ·兹比尔1393.62021 ·doi:10.1214/17-AOS1545
[5] Arabie,P.、Boorman,S.A.和Levit,P.R.(1978年)。构建块模型:如何和为什么。,数学杂志。心理学。,17(1):21-63. ·Zbl 0375.92001号 ·doi:10.1016/0022-2496(78)90034-2
[6] Bickel,P.、Choi,D.、Chang,X.和Zhang,H.(2013)。随机块模型最大似然的渐近正态性及其变分逼近。,安.统计师。,41(4):1922-1943. ·Zbl 1292.62042号 ·doi:10.1214/13-AOS1124
[7] Bickel,P.J.和Chen,A.(2009年)。网络模型和Newman-Girvan及其他模块的非参数视图。,程序。美国国家科学院。科学。美国,106:21068-21073·Zbl 1359.62411号 ·doi:10.1073/pnas.0907096106
[8] Brown,L.D.(1986)。,《统计指数族基础及其在统计决策理论中的应用》,讲座笔记-专题系列第9卷。加利福尼亚州海沃德数理统计研究所·Zbl 0685.6202号
[9] Celisse,A.、Daudin,J.-J.和Pierre,L.(2012)。随机块模型中极大似然估计和变分估计的一致性。,电子。J.统计。,6:1847-1899. ·Zbl 1295.62028号 ·doi:10.1214/12-EJS729
[10] Cheng,Y.和Church,G.M.(2000)。表达式数据的双聚类。年,《分子生物学智能系统国际会议论文集》;ISMB。分子生物学智能系统国际会议,8:93-103。
[11] Chi,E.C.、Allen,G.I.和Baraniuk,R.G.(2017)。凸双聚类。生物统计学,73(1):10-19·Zbl 1366.62208号 ·doi:10.1111/biom.12540
[12] Choi,D.和Wolfe,P.J.(2014)。协同集群可单独交换的网络数据。,《统计年鉴》,42:29-63·Zbl 1294.62059号 ·doi:10.1214/13-AOS1173
[13] Choi,D.、Wolfe,P.J.和Airoldi,E.M.(2012)。类数量不断增加的随机块模型。,Biometrika,99:273-284·Zbl 1318.62207号 ·doi:10.1093/biomet/asr053
[14] Daudin,J.J.、Picard,F.和Robin,S.(2008)。随机图的混合模型。,统计与计算,18:173-183。
[15] Dhillon,I.S.(2001)。使用二部谱图划分对文档和单词进行共聚类。年,《第七届ACM SIGKDD知识发现和数据挖掘国际会议论文集》,第26-29页,旧金山。
[16] Eisen,M.B.、Spellman,P.T.、Brown,P.O.和Botstein,D.(1998)。全基因组表达模式的聚类分析和显示。,程序。美国国家科学院。科学。美国,95(25):14863-14868。
[17] Fishkind,D.、Sussman,D.、Tang,M.、Vogelstein,J.和Priebe,C.(2012)。模型参数未知时随机块模型的一致邻接谱划分。,SIAM矩阵分析与应用杂志,34·Zbl 1314.05186号 ·doi:10.1137/120875600
[18] Gao,C.、Lu,Y.、Ma,Z.和Zhou,H.H.(2016)。双簇结构矩阵的最优估计与完备化。,J.马赫。学习。研究,17(1):5602-5630·Zbl 1392.62151号
[19] Getz,G.、Levine,E.和Domany,E.(2000年)。基因微阵列数据的双向聚类分析。,程序。美国国家科学院。科学。美国,97:12079-12084。
[20] Golub,G.H.和Loan,C.F.V.(1996)。,矩阵计算。约翰·霍普金斯大学出版社·Zbl 0865.65009号
[21] GroupLens(1998)。MovieLens数据集。,http://grouplens.org/datasets/movielens/。
[22] Guédon,O.和Vershynin,R.(2014)。基于grothendieck不等式的稀疏网络中的社区检测。,概率论及相关领域,165:1025-1049·Zbl 1357.90111号
[23] Harpaz,R.、Perez,H.、Chase,H.S.、Rabadan,R.,Hripcsak,G.和Friedman,C.(2010)。FDA自发性报告系统中药物不良事件的双聚类。,临床药理学与治疗学,89(2):243-250。
[24] Hartigan,J.A.(1972年)。数据矩阵的直接聚类,J.Amer。统计师。协会,67(337):123-129。
[25] Hofmann,T.(1999)。协作过滤的潜在类模型。《第十六届国际人工智能联合会议论文集》,第688-693页。
[26] Holland,P.W.、Laskey,K.B.和Leinhardt,S.(1983年)。随机块模型:第一步。,社交网络,5:109-137。
[27] Jin,J.(2015)。通过分数快速社区检测。,安.统计师。,43(1):57-89. ·Zbl 1310.62076号 ·doi:10.1214/14-AOS1265
[28] Kernighan,B.W.和Lin,S.(1970年)。一种有效的启发式划分图方法。,贝尔系统技术期刊,49(1):291-307·Zbl 0333.05001号 ·文件编号:10.1002/j.1538-7305.1970.tb01770.x
[29] Kluger,Y.、Basri,R.、Chang,J.T.和Gerstein,M.(2003)。微阵列数据的光谱双聚类:共聚类基因和条件。,基因组研究,13:703-716。
[30] Lazzeroni,L.和Owen,A.(2002年)。基因表达数据的格子模型。,统计师。Sinica,12:61-86·兹比尔1004.62084
[31] Lei,J.和Rinaldo,A.(2015)。随机块模型中谱聚类的一致性。,安.统计师。,43(1):215-237·Zbl 1308.62041号 ·doi:10.1214/14-AOS1274
[32] MacQueen,J.(1967)。多元观测值分类和分析的一些方法。年,《第五届伯克利数理统计与概率研讨会论文集》,第1卷:统计学,第281-297页,加州大学伯克利分校出版社·兹比尔0214.46201
[33] Madeira,S.C.和Oliveira,A.L.(2004)。生物数据分析的双聚类算法:一项调查。,IEEE T.计算。比照,1:24-45。
[34] Mariadassou,M.和Matias,C.(2015)。潜在或随机块模型中群后验分布的收敛性。,伯努利,1:537-573·Zbl 1329.62285号 ·doi:10.350/13-BEJ579
[35] Mirkin,B.(1996)。,《数学分类和聚类》,克鲁沃学术出版社·Zbl 0874.90198号
[36] Mossel,E.、Neeman,J.和Sly,A.(2016年)。块模型的信念传播、稳健重建和最优恢复。,附录申请。概率。,26(4):2211-2256. ·Zbl 1350.05154号 ·doi:10.1214/15-AAP1145
[37] Murphy,S.A.和van der Vaart,A.W.(2000)。个人资料可能性。,J.Amer。统计师。协会,95(450):449-465·Zbl 0995.62033号 ·doi:10.1080/01621459.2000.10474219
[38] Newman,M.E.J.(2006)。网络中的模块化和社区结构。,程序。美国国家科学院。科学。美国,103(23):8577-8582。
[39] Perry,P.O.和Owen,A.B.(2010年)。验证潜在结构的旋转测试。,J.马赫。学习。研究,11:603-624·Zbl 1242.62044号
[40] Perry,P.O.和Wolfe,P.J.(2012)。网络数据的模型为空。预印本,arXiv:1201.5871。
[41] Razaee,Z.S.、Amini,A.A.和Li,J.J.(2019年)。用协变量匹配二分块模型。,机器学习研究杂志,20:1-44·Zbl 1483.62111号
[42] Rohe,K.、Chatterjee,S.和Yu,B.(2011年)。谱聚类和高维随机块模型。,安.统计师。,39(4):1878-1915. ·Zbl 1227.62042号 ·doi:10.1214/11-AOS887
[43] Rohe,K.和Yu,B.(2012年)。有向图的共聚类;随机联合块模型和谱算法。预印本,arXiv:12042296。
[44] Seldin,Y.和Tishby,N.(2009年)。用于密度估计的Pac贝叶斯泛化边界及其在共聚类中的应用。年,第12届国际人工智能与统计会议(AISTATS)。
[45] Seldin,Y.和Tishby,N.(2010年)。联合聚类及其以外的Pac-bayesian分析。,机器学习研究杂志,11:3595-3646·Zbl 1242.62060号
[46] Tan,K.M.和Witten,D.M.(2014)。可转置数据的稀疏双聚类。,计算与图形统计杂志,23(4):985-1008。
[47] Tanay,A.、Sharan,R.和Shamir,R.(2002年)。在基因表达数据中发现具有统计学意义的双聚类。,生物信息学,18补遗1:S136-44。
[48] Tarpey,T.和Flury,B.(1996年)。自我一致性:统计学中的一个基本概念。,统计师。科学。,11(3):229-243. ·Zbl 0955.62540号 ·doi:10.1214/ss/1032280215
[49] Ungar,L.和Foster,D.P.(1998年)。协作过滤的正式统计方法。1998年,CONALD。
[50] Varadhan,S.R.S.(2001)。,概率论(Courant课堂讲稿)。美国数学学会·Zbl 0980.60002号
[51] Zahn,J.M.、Poosala,S.、Owen,A.B.、Ingram,D.K.、Lustig,A.、Carter,A.、Weeraratna,A.T.、Taub,D.D.、Gorospe,M.、Mazan-Mamczarz,K.、Lakatta,E.G.、Boheler,K.R.、Xu,X.、Mattson,M.P.、Falco,G.、Ko,M.S.H.、Schlessinger,D.、Firman,J、Kummerfeld,S.K.、Wood,W.H.、Zonderman,A.B.,Kim,S.和Becker,K.G.(2007)。AGEMAP:小鼠衰老基因表达数据库。,PLOS遗传学。
[52] 赵毅(2017)。网络社区检测理论进展综述。,ArXiv,abs/1809.07691。
[53] Zhao,Y.、Levina,E.和Zhu,J.(2011)。社交网络社区抽取。,P.国家。阿卡德。科学。美国,108:7321-7326。
[54] 赵,Y·Zbl 1257.62095号 ·doi:10.1214/12-AOS1036
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。