×

大型数据集的贝叶斯非参数聚类。 (英语) Zbl 1430.62146号

摘要:我们提出了两种非参数贝叶斯方法来聚类大数据,并将其应用于基因-基因相互作用模式的基因聚类。这两种方法都使用非参数贝叶斯先验定义了基于模型的聚类,并包括对大数据仍然可行的实现。第一种方法基于预测递归,该方法需要对所研究的每个观测进行一个周期(或几个周期)的简单确定性计算。第二种方案是一种精确的方法,它将数据划分为较小的子样本,并涉及可以并行确定的本地分区。在第二步中,该方法只需要每个局部簇的足够统计信息即可导出全局簇。在模拟数据集和基准数据集下,与其他聚类算法(包括k均值、DP-mans、DBSCAN、SUGS、流变分贝叶斯和EM算法)相比,该方法具有更好的性能。我们将所提出的方法应用于对从在线搜索工具“Zodiac”中提取的基因-基因相互作用的大型数据集进行聚类

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62兰特 大数据和数据科学的统计方面
62G05型 非参数估计
第62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿贝尔,J。;A·李高。;尼波蒂,B。;Frühwirth-Schnatter,S.(编辑);Bitto,A.(编辑);Kastner,G.(编辑);Posekany,A.(编辑),基于矩特征的贝叶斯生存模型,3-14(2015),Cham·doi:10.1007/978-3-319-16238-6-1
[2] Blackwell,D.,MacQueen,J.B.:通过Pólya urn方案的弗格森分布。Ann.Stat.1,353-355(1973)·Zbl 0276.62010 ·doi:10.1214/aos/1176342372
[3] Bouchard-Cóté,A.,Vollmer,S.J.,Doucet,A.:弹性粒子采样器:不可逆无排斥马尔可夫链蒙特卡罗方法。美国法律总汇协会(2017)。https://doi.org/101080/01621459.2017.1294075 ·Zbl 1398.60084号 ·doi:10.1080/01621459.2017.1294075
[4] Caliñski,T.,Harabasz,J.:用于聚类分析的枝晶方法。Commun公司。统计理论方法3(1),1-27(1974)·Zbl 0273.62010 ·doi:10.1080/03610927408827101
[5] Cortez,P.,Cerdeira,A.,Almeida,F.,Matos,T.,Reis,J.:通过物理化学特性的数据挖掘建模葡萄酒偏好。决策支持系统。47(4), 547-553 (2009) ·doi:10.1016/j.dss.2009.05.016
[6] 达尔,DB;Vannucci,M.(编辑);Do,KA(编辑);Müller,P.(编辑),通过Dirichlet过程混合模型对表达数据进行基于模型的聚类,201-218(2006),剑桥·doi:10.1017/CBO9780511584589.011
[7] Ester,M.、Kriegel,H.P.、Sander,J.、Xu,X.:一种基于密度的算法,用于在带有噪声的大型空间数据库中发现簇。知识。发现。数据库96,226-231(1996)
[8] Fisher,R.A.:分类问题中多重测量的使用。安·尤根。179-188年(1936年)·文件编号:10.1111/j.1469-1809.1936.tb02137.x
[9] Fraley,C.、Raftery,A.E.:基于模型的聚类、判别分析和密度估计。《美国统计协会期刊》97(458),611-631(2002)·兹比尔1073.62545 ·doi:10.1198/016214502760047131
[10] Fraley,C.,Raftery,A.E.:正态混合估计和基于模型的聚类的贝叶斯正则化。J.Classif。24(2), 155-181 (2007) ·Zbl 1159.62302号 ·doi:10.1007/s00357-007-0004-5
[11] Ge,H.,Chen,Y.,Wan,M.,Ghahramani,Z.:Dirichlet过程混合模型的分布式推理。收录于:Bach,F.,Blei,D.(eds.)《第32届机器学习国际会议论文集》,《机器学习研究论文集》第37卷,第2276-2284页。法国里尔PMLR(2015)
[12] Gelfand,A.E.,Dey,D.K.:贝叶斯模型选择:渐近和精确计算。J.R.统计社会服务。B(Stat.Methodol.)56,501-514(1994)·Zbl 0800.62170号
[13] Ghoshal,S。;Hjort,NL(编辑);Holmes,C.(编辑);Müller,P.(编辑);Walker,SG(编辑),Dirichlet过程,相关的先验和后验渐近,22-34(2010),剑桥
[14] Guha,S.、Meyerson,A.、Mishra,N.、Motwani,R.、O'Callaghan,L.:聚类数据流:理论与实践。IEEE传输。知识。数据工程15(3),515-528(2003)·doi:10.1109/TKDE.2003.1198387
[15] Hennig,C.:合并高斯混合成分的方法。高级数据分析。分类。4(1), 3-34 (2010) ·Zbl 1306.62141号 ·doi:10.1007/s11634-010-0058-3
[16] Huang,Z.,Gelman,A.:使用大型数据集进行贝叶斯计算的采样。可从SSRN 1010107(2005)获得
[17] Jain,A.K.:数据聚类:超过K-means 50年。模式识别。莱特。31(8), 651-666 (2010) ·doi:10.1016/j.patrec.2009.09.011
[18] Kulis,B.,Jordan,M.I.:通过贝叶斯非参数重新审视k均值:新算法。摘自:Langford,J.,Pineau,J.(编辑)《第29届国际机器学习会议论文集》(ICML-12),第513-520页。ACM,美国纽约州纽约市(2012年)
[19] Lin,D.:通过序列变分近似在线学习非参数混合模型。摘自:《第26届神经信息处理系统国际会议论文集》,NIPS’13,第395-403页。美国Curran Associates Inc.(2013年)
[20] MacEachern,S.N.,Clyde,M.,Liu,J.S.:非参数贝叶斯模型的序贯重要性抽样:下一代。可以。《美国联邦法律大全》第27卷第2期,第251-267页(1999年)·Zbl 0957.62068号 ·doi:10.2307/3315637
[21] Mitra,R.,Müller,P.,Liang,S.,Yue,L.,Ji,Y.:组蛋白修饰的ChIP-seq数据的贝叶斯图形模型。《美国统计协会期刊》108(501)、69-80(2013)·Zbl 1379.62079号 ·doi:10.1080/01621459.2012.746058
[22] 牛顿,马萨诸塞州;FA金塔纳;Zhang,Y。;Dey,D.(编辑);Müller,P.(编辑);Sinha,D.(编辑),使用预测更新的非参数贝叶斯方法,45-61(1998),纽约·Zbl 0918.62030号 ·doi:10.1007/978-1-4612-1732-93
[23] Pennell,M.L.,Dunson,D.B.:将半参数随机效应模型拟合到大数据集。生物统计学8(4),821-834(2007)·Zbl 1267.62109号 ·doi:10.1093/biostatistics/kxm008
[24] Pettit,L.:正态分布的条件预测纵坐标。J.R.统计社会服务。B(Stat.Methodol.)52,175-184(1990)·Zbl 0699.62031号
[25] Scott,S.L.,Blocker,A.W.,Bonassi,F.V.,Chipman,H.A.,George,E.I.,McCulloch,R.E.:贝叶斯和大数据:共识蒙特卡罗算法。国际管理杂志。科学。工程管理。11(2), 78-88 (2016)
[26] Tank,A.,Foti,N.,Fox,E.:贝叶斯非参数混合模型的流变分推理。收录于:Lebanon,G.,Vishwanathan,S.V.N.(eds.)《第十八届国际人工智能与统计会议论文集》,《机器学习研究论文集》第38卷,第968-976页。PMLR,美国加利福尼亚州圣地亚哥(2015)
[27] 桑代克:谁属于这个家庭?心理测量学18(4),267-276(1953)·doi:10.1007/BF02289263
[28] Wang,L.,Dunson,D.B.:Dirichlet过程混合模型中的快速贝叶斯推断。J.计算。图表。统计数据20(1),196-216(2011)·doi:10.1198/jcgs.2010.07081
[29] Williamson,S.A.、Dubey,A.、Xing,E.P.:非参数混合模型的并行马尔可夫链蒙特卡罗。摘自:《第30届国际机器学习会议论文集》,ICML’13,第28卷,第I-98-I-106页。JMLR.org(2013)
[30] Xu,R.,Wunsch,D.等人:聚类算法综述。IEEE传输。神经网络。16(3), 645-678 (2005) ·doi:10.1109/TNN.2005.845141
[31] Zhao,W.,Ma,H.,He,Q.:基于MapReduce的并行k均值聚类。摘自:Jaatun,M.G.,Zhao,G.,Rong,C.(编辑)《云计算》,第674-679页。柏林施普林格出版社(2009)
[32] Zhu,Y.,Xu,Y.、Helseth,D.L.、Gulukota,K.、Yang,S.、Pesce,L.L.、Mitra,R.、Müller,P.、Sengupta,S.,Guo,W.等:Zodiac:通过整合TCGA数据,全面描述癌症中的遗传交互作用。J.国家。癌症研究所107(8),1-9(2015)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。