文件Zbl 1430.62146-zbMATH Open

Daiane Aparecida Zuanetti；彼得·米勒；朱一潭；杨胜杰；季、袁

大型数据集的贝叶斯非参数聚类。（英语） Zbl 1430.62146号

统计计算。 29，第2期，203-215（2019）.

摘要：我们提出了两种非参数贝叶斯方法来聚类大数据，并将其应用于基因-基因相互作用模式的基因聚类。这两种方法都使用非参数贝叶斯先验定义了基于模型的聚类，并包括对大数据仍然可行的实现。第一种方法基于预测递归，该方法需要对所研究的每个观测进行一个周期（或几个周期）的简单确定性计算。第二种方案是一种精确的方法，它将数据划分为较小的子样本，并涉及可以并行确定的本地分区。在第二步中，该方法只需要每个局部簇的足够统计信息即可导出全局簇。在模拟数据集和基准数据集下，与其他聚类算法（包括k均值、DP-mans、DBSCAN、SUGS、流变分贝叶斯和EM算法）相比，该方法具有更好的性能。我们将所提出的方法应用于对从在线搜索工具“Zodiac”中提取的基因-基因相互作用的大型数据集进行聚类

引用于6文件

MSC公司：

62H30型	分类和区分；聚类分析（统计方面）
62兰特	大数据和数据科学的统计方面
62G05型	非参数估计
第62页第10页	统计学在生物学和医学中的应用；元分析

关键词：

大数据聚类；基因-基因相互作用；预测递归；非参数贝叶斯

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	阿贝尔，J。；A·李高。；尼波蒂，B。；Frühwirth-Schnatter，S.（编辑）；Bitto，A.（编辑）；Kastner，G.（编辑）；Posekany，A.（编辑），基于矩特征的贝叶斯生存模型，3-14（2015），Cham·doi:10.1007/978-3-319-16238-6-1
[2]	Blackwell，D.，MacQueen，J.B.：通过Pólya urn方案的弗格森分布。Ann.Stat.1，353-355（1973）·Zbl 0276.62010 ·doi:10.1214/aos/1176342372
[3]	Bouchard-Cóté，A.，Vollmer，S.J.，Doucet，A.：弹性粒子采样器：不可逆无排斥马尔可夫链蒙特卡罗方法。美国法律总汇协会（2017）。https://doi.org/101080/01621459.2017.1294075 ·Zbl 1398.60084号 ·doi:10.1080/01621459.2017.1294075
[4]	Caliñski，T.，Harabasz，J.：用于聚类分析的枝晶方法。Commun公司。统计理论方法3（1），1-27（1974）·Zbl 0273.62010 ·doi:10.1080/03610927408827101
[5]	Cortez，P.，Cerdeira，A.，Almeida，F.，Matos，T.，Reis，J.：通过物理化学特性的数据挖掘建模葡萄酒偏好。决策支持系统。47(4), 547-553 (2009) ·doi:10.1016/j.dss.2009.05.016
[6]	达尔，DB；Vannucci，M.（编辑）；Do，KA（编辑）；Müller，P.（编辑），通过Dirichlet过程混合模型对表达数据进行基于模型的聚类，201-218（2006），剑桥·doi:10.1017/CBO9780511584589.011
[7]	Ester，M.、Kriegel，H.P.、Sander，J.、Xu，X.：一种基于密度的算法，用于在带有噪声的大型空间数据库中发现簇。知识。发现。数据库96，226-231（1996）
[8]	Fisher，R.A.：分类问题中多重测量的使用。安·尤根。179-188年（1936年）·文件编号：10.1111/j.1469-1809.1936.tb02137.x
[9]	Fraley，C.、Raftery，A.E.：基于模型的聚类、判别分析和密度估计。《美国统计协会期刊》97（458），611-631（2002）·兹比尔1073.62545 ·doi:10.1198/016214502760047131
[10]	Fraley，C.，Raftery，A.E.：正态混合估计和基于模型的聚类的贝叶斯正则化。J.Classif。24(2), 155-181 (2007) ·Zbl 1159.62302号 ·doi:10.1007/s00357-007-0004-5
[11]	Ge，H.，Chen，Y.，Wan，M.，Ghahramani，Z.：Dirichlet过程混合模型的分布式推理。收录于：Bach，F.，Blei，D.（eds.）《第32届机器学习国际会议论文集》，《机器学习研究论文集》第37卷，第2276-2284页。法国里尔PMLR（2015）
[12]	Gelfand，A.E.，Dey，D.K.：贝叶斯模型选择：渐近和精确计算。J.R.统计社会服务。B（Stat.Methodol.）56，501-514（1994）·Zbl 0800.62170号
[13]	Ghoshal，S。；Hjort，NL（编辑）；Holmes，C.（编辑）；Müller，P.（编辑）；Walker，SG（编辑），Dirichlet过程，相关的先验和后验渐近，22-34（2010），剑桥
[14]	Guha，S.、Meyerson，A.、Mishra，N.、Motwani，R.、O'Callaghan，L.：聚类数据流：理论与实践。IEEE传输。知识。数据工程15（3），515-528（2003）·doi:10.1109/TKDE.2003.1198387
[15]	Hennig，C.：合并高斯混合成分的方法。高级数据分析。分类。4(1), 3-34 (2010) ·Zbl 1306.62141号 ·doi:10.1007/s11634-010-0058-3
[16]	Huang，Z.，Gelman，A.：使用大型数据集进行贝叶斯计算的采样。可从SSRN 1010107（2005）获得
[17]	Jain，A.K.：数据聚类：超过K-means 50年。模式识别。莱特。31(8), 651-666 (2010) ·doi:10.1016/j.patrec.2009.09.011
[18]	Kulis，B.，Jordan，M.I.：通过贝叶斯非参数重新审视k均值：新算法。摘自：Langford，J.，Pineau，J.（编辑）《第29届国际机器学习会议论文集》（ICML-12），第513-520页。ACM，美国纽约州纽约市（2012年）
[19]	Lin，D.：通过序列变分近似在线学习非参数混合模型。摘自：《第26届神经信息处理系统国际会议论文集》，NIPS’13，第395-403页。美国Curran Associates Inc.（2013年）
[20]	MacEachern，S.N.，Clyde，M.，Liu，J.S.：非参数贝叶斯模型的序贯重要性抽样：下一代。可以。《美国联邦法律大全》第27卷第2期，第251-267页（1999年）·Zbl 0957.62068号 ·doi:10.2307/3315637
[21]	Mitra，R.，Müller，P.，Liang，S.，Yue，L.，Ji，Y.：组蛋白修饰的ChIP-seq数据的贝叶斯图形模型。《美国统计协会期刊》108（501）、69-80（2013）·Zbl 1379.62079号 ·doi:10.1080/01621459.2012.746058
[22]	牛顿，马萨诸塞州；FA金塔纳；Zhang，Y。；Dey，D.（编辑）；Müller，P.（编辑）；Sinha，D.（编辑），使用预测更新的非参数贝叶斯方法，45-61（1998），纽约·Zbl 0918.62030号 ·doi:10.1007/978-1-4612-1732-93
[23]	Pennell，M.L.，Dunson，D.B.：将半参数随机效应模型拟合到大数据集。生物统计学8（4），821-834（2007）·Zbl 1267.62109号 ·doi:10.1093/biostatistics/kxm008
[24]	Pettit，L.：正态分布的条件预测纵坐标。J.R.统计社会服务。B（Stat.Methodol.）52，175-184（1990）·Zbl 0699.62031号
[25]	Scott，S.L.，Blocker，A.W.，Bonassi，F.V.，Chipman，H.A.，George，E.I.，McCulloch，R.E.：贝叶斯和大数据：共识蒙特卡罗算法。国际管理杂志。科学。工程管理。11(2), 78-88 (2016)
[26]	Tank，A.，Foti，N.，Fox，E.：贝叶斯非参数混合模型的流变分推理。收录于：Lebanon，G.，Vishwanathan，S.V.N.（eds.）《第十八届国际人工智能与统计会议论文集》，《机器学习研究论文集》第38卷，第968-976页。PMLR，美国加利福尼亚州圣地亚哥（2015）
[27]	桑代克：谁属于这个家庭？心理测量学18（4），267-276（1953）·doi:10.1007/BF02289263
[28]	Wang，L.，Dunson，D.B.：Dirichlet过程混合模型中的快速贝叶斯推断。J.计算。图表。统计数据20（1），196-216（2011）·doi:10.1198/jcgs.2010.07081
[29]	Williamson，S.A.、Dubey，A.、Xing，E.P.：非参数混合模型的并行马尔可夫链蒙特卡罗。摘自：《第30届国际机器学习会议论文集》，ICML’13，第28卷，第I-98-I-106页。JMLR.org（2013）
[30]	Xu，R.，Wunsch，D.等人：聚类算法综述。IEEE传输。神经网络。16(3), 645-678 (2005) ·doi:10.1109/TNN.2005.845141
[31]	Zhao，W.，Ma，H.，He，Q.：基于MapReduce的并行k均值聚类。摘自：Jaatun，M.G.，Zhao，G.，Rong，C.（编辑）《云计算》，第674-679页。柏林施普林格出版社（2009）
[32]	Zhu，Y.，Xu，Y.、Helseth，D.L.、Gulukota，K.、Yang，S.、Pesce，L.L.、Mitra，R.、Müller，P.、Sengupta，S.，Guo，W.等：Zodiac:通过整合TCGA数据，全面描述癌症中的遗传交互作用。J.国家。癌症研究所107（8），1-9（2015）

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
实验室	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!实验室	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

大型数据集的贝叶斯非参数聚类。（英语） Zbl 1430.62146号

MSC公司：

关键词：

参考文献：

示例

领域

操作员

大型数据集的贝叶斯非参数聚类。 （英语） Zbl 1430.62146号

MSC公司：

关键词：

参考文献：

大型数据集的贝叶斯非参数聚类。（英语） Zbl 1430.62146号