×

伯努利混合模型的可靠聚类。 (英语) Zbl 1466.62357号

摘要:伯努利混合模型(BMM)是具有独立维数的随机二进制向量的有限混合。聚类BMM数据的问题出现在各种现实应用中,从人口遗传学到社交网络中的活动分析。在本文中,我们从理论角度分析了当簇数未知时BMM的可聚性。特别是,我们对模型的样本复杂性和维度规定了一组条件,以保证数据集的可能近似正确(PAC)-聚类性。据我们所知,这些发现是学习或聚类BMM的样本复杂性的第一个非渐近边界。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Allman,E.S.、Matias,C.和Rhodes,J.A.(2009年)。具有多个观测变量的潜在结构模型中参数的可识别性。安。统计师。37 3099-3132. ·Zbl 1191.62003号 ·doi:10.1214/09-AOS689
[2] Ashtiani,H.、Ben David,S.、Harvey,N.、Liaw,C.、Mehrabian,A.和Plan,Y.(2018)。通过样本压缩方案学习高斯混合样本的近似紧样本复杂度边界。神经信息处理系统进展3412-3421·Zbl 1499.68298号
[3] Baker,L.D.和McCallum,A.K.(1998年)。用于文本分类的单词分布聚类。第21届国际ACM SIGIR信息检索研究与开发会议论文集96-103。ACM公司。
[4] Balakrishnan,S.、Wainwright,M.J.和Yu,B.(2017年)。EM算法的统计保证:从人口到基于样本的分析。安。统计师。45 77-120. ·Zbl 1367.62052号 ·doi:10.1214/16-AOS1435
[5] Biernacki,C.、Celeux,G.和Govaert,G.(1999)。改进了NEC标准,用于评估混合模型中的簇数。模式识别。莱特。20 267-272. ·兹伯利0933.68117 ·doi:10.1016/S0167-8655(98)00144-5
[6] Bishop,C.M.(2006年)。模式识别和机器学习。机器。学习。128 1-58. ·Zbl 1107.68072号
[7] Bouveyron,C.和Brunet-Saumard,C.(2014)。基于模型的高维数据聚类:综述。计算。统计师。数据分析。71 52-78. ·Zbl 1471.62032号 ·doi:10.1016/j.csda.2012.12.008
[8] Carreira-Perpinán,M.A.和Renals,S.(2000年)。多元贝努利分布有限混合的实用可识别性。神经计算。12 141-152.
[9] Catchen,J.、Hohenlohe,P.A.、Bassham,S.、Amores,A.和Cresko,W.A.(2013年)。Stacks:人口基因组学的分析工具集。摩尔生态。22 3124-3140.
[10] Celeux,G和Soromenho,G(1996)。用于评估混合模型中簇数的熵准则。J.分类13 195-212·Zbl 0861.62051号 ·doi:10.1007/BF01246098
[11] Chan,S.-O.、Diakonikolas,I.、Servedio,R.A.和Sun,X.(2014)。通过分段多项式近似进行有效的密度估计。第四十六届ACM计算理论研讨会论文集604-613。ACM公司·Zbl 1315.68163号
[12] Courant,R.(2011)。微分学和积分学。第二卷。威利经典图书馆。纽约:Wiley·Zbl 1245.26001号
[13] Cover,T.M.和Thomas,J.A.(2012年)。《信息理论的要素》,第二版,新泽西州霍博肯:威利跨科学·兹比尔0762.94001
[14] Diakonikolas,I.(2016)。学习结构化分布。在大数据手册中。查普曼和霍尔/CRC Handb。国防部。统计方法267-283。佛罗里达州博卡拉顿:CRC出版社。
[15] Evanno,G.、Regnaut,S.和Goudet,J.(2005)。使用软件结构检测个体集群的数量:一项模拟研究。摩尔生态。14 2611-2620.
[16] Falush,D.、Stephens,M.和Pritchard,J.K.(2003年)。利用多位点基因型数据推断种群结构:连锁位点和相关等位基因频率。遗传学164 1567-1587。
[17] Figueiredo,M.A.T.和Jain,A.K.(2002年)。有限混合模型的无监督学习。IEEE传输。模式分析。机器。智力。24 381-396.
[18] Fjellstad,O.-E.和Fossen,T.I.(2016)。基于正态方差均值混合表示的广义多元logistic模型和EM算法。统计信号处理车间(SSP)1-5。IEEE标准。
[19] Fraley,C.和Raftery,A.E.(2002年)。基于模型的聚类、判别分析和密度估计。J.Amer。统计师。协会97 611-631·兹比尔1073.62545 ·doi:10.1198/016214502760047131
[20] Gershman,S.J.和Blei,D.M.(2012)。贝叶斯非参数模型教程。数学杂志。心理学56 1-12·Zbl 1237.62062号 ·doi:10.1016/j.jmp.2011.08.004
[21] Gyllenberg,M.、Koski,T.、Reilink,E.和Verlaan,M.(1994年)。细菌概率数值识别中的非唯一性。J.Appl。普罗巴伯。31 542-548. ·Zbl 0817.92002号 ·doi:10.2307/3215044
[22] Hollander,M.、Wolfe,D.A.和Chicken,E.(2014)。非参数统计方法,第三版,《概率统计中的威利级数》。新泽西州霍博肯:威利·Zbl 1279.62006号
[23] Juan,A.、GarcíA-Hernández,J.和Vidal,E.(2004)。伯努利混合气学习的EM初始化。结构、句法和统计模式识别635-643·Zbl 1104.68626号
[24] Juan,A.和Vidal,E.(2004年)。二值图像的伯努利混合模型。《模式识别》,2004年。国际公共关系委员会2004年。第17届国际会议记录,3 367-370。IEEE标准。
[25] Kalai,A.T.、Moitra,A.和Valiant,G.(2016)。解开高加索人的纠缠。Commun公司。ACM 55 113-120。
[26] Kopelman,N.M.、Mayzel,J.、Jakobsson,M.、Rosenberg,N.A.和Mayrose,I.(2015)。Clumpak:一个用于识别聚类模式和包装K.Mol.Ecol人口结构推断的程序。资源。15 1179-1191.
[27] Lazarsfeld,P.F.、Henry,N.W.和Anderson,T.W.(1968年)。潜在结构分析109。马萨诸塞州波士顿:霍顿·米夫林。
[28] Li,C.,Wang,B.,Pavlu,V.和Aslam,J.(2016)。多标签分类的条件贝努利混合。第33届机器学习国际会议论文集2482-2491。
[29] McLachlan,G.和Peel,D.(2004)。有限混合模型。概率统计威利系列:应用概率统计。纽约:Wiley Interscience。
[30] McNicholas,P.D.(2016)。基于模型的聚类。J.分类33 331-373·Zbl 1364.62155号 ·doi:10.1007/s00357-016-9211-9
[31] Mohri,M.、Rostamizadeh,A.和Talwalkar,A.(2012年)。机器学习的基础。自适应计算和机器学习。马萨诸塞州剑桥:麻省理工学院出版社·Zbl 1318.68003号
[32] Müller,P.、Quintana,F.A.、Jara,A.和Hanson,T.(2015)。贝叶斯非参数数据分析。统计学中的斯普林格系列。查姆:斯普林格·Zbl 1333.62003年
[33] Najafi,A.、Janghorbani,S.、Motahari,S.A.和Fatemizadeh,E.(2019年)。群体结构遗传数据的统计关联映射。IEEE/ACM传输。计算。生物信息。16 638-649.
[34] Orbanz,P.和Teh,Y.W.(2011年)。贝叶斯非参数模型。机器学习百科全书81-89。斯普林格。
[35] Peakall,R.和Smouse,P.E.(2006年)。GENALEX 6:Excel中的遗传分析。用于教学和研究的群体遗传软件。摩尔生态。附注6 288-295。
[36] Pella,J.和Masuda,M.(2006年)。吉布斯和分裂合并采样器,用于从基线不完整的遗传数据进行人口混合分析。可以。J.菲什。阿奎特。科学。63 576-596.
[37] Price,A.L.、Patterson,N.J.、Plenge,R.M.、Weinblatt,M.E.、Shadick,N.A.和Reich,D.(2006)。主成分分析修正了全基因组关联研究中的分层。自然遗传学。38 904-909.
[38] Pritchard,J.K.、Stephens,M.和Donnelly,P.(2000)。利用多点基因型数据推断种群结构。遗传学155 945-959。
[39] Pritchard,J.K.、Stephens,M.、Rosenberg,N.A.和Donnelly,P.(2000)。结构化人群中的关联映射。Am.J.Hum.遗传学。67 170-181.
[40] Purcell,S.、Neale,B.、Todd-Brown,K.、Thomas,L.、Ferreira,M.A.、Bender,D.、Maller,J.、Sklar,P.、De Bakker,P.I.、Daly,M.J.等人(2007年)。PLINK:一套用于全基因组关联和基于人群的连锁分析的工具。Am.J.Hum.遗传学。81 559-575.
[41] Rousseau,J.(2016)。贝叶斯非参数方法的频率特性。每年。修订状态申请。3 211-231.
[42] 施图登ỳ, M.和Vejnarová,J.(1998年)。多重信息函数作为测量随机相关性的工具。图形模型学习261-297。斯普林格·Zbl 0917.60013号
[43] Teh,Y.W.、Jordan,M.I.、Beal,M.J.和Blei,D.M.(2005)。在相关组之间共享集群:分层Dirichlet过程。神经信息处理系统进展1385-1392。
[44] Tiedeman,D.(1955)。关于类型的研究。模式分析研讨会1-14。
[45] Visscher,P.M.、Brown,M.A.、McCarthy,M.I.和Yang,J.(2012)。GWAS发现五年。Am.J.Hum.遗传学。90 7-24.
[46] Watanabe,S.(1960年)。多元相关的信息理论分析。IBM研究开发杂志。4 66-82. ·Zbl 0097.35003号 ·数字对象标识代码:10.1147/rd.41.0066
[47] Wolfe,J.H.(1970年)。多元混合分析的模式聚类。多变量。行为。第5号决议329-350。
[48] Yu,J.,Pressoir,G.,Briggs,W.H.,Bi,I.V.,Yamasaki,M.,Doebley,J.F.,McMullen,M.D.,Gaut,B.S.,Nielsen,D.M.,Holland,J.B.等人(2006年)。一种用于关联映射的统一混合模型方法,用于解释多层次的关联性。自然遗传学。38 203-208.
[49] Zhou,H.、Blangero,J.、Dyer,T.D.、Chan,K.K.、Lange,K.和Sobel,E.M.(2017)。系谱和群体数据上的快速全基因组QTL关联图谱。遗传学。流行病。41 174-186.
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。