×

在(共)聚类中统一数据单元和模型。 (英语) Zbl 1459.62105

摘要:统计学家已经意识到,任何涉及建模过程的任务(勘探、预测)在很大程度上都依赖于数据的度量单位,如果不指定夫妇(单位、型号)。在这项工作中,这一一般原则被形式化,特别侧重于在可能混合数据类型(连续和/或分类和/或计数特征)的情况下基于模型的聚类和协同聚类,并利用这个机会重新审视相关的数据单元是什么。这种形式化使我们提出了三个重要的观点:(i)耦合(单元、模型)是不可识别的,因此在同一个建模过程中总是可以有不同的解释单元/模型;(ii)将不同的“经典”单元与不同的“经典”模型相结合,应该是一个有趣的机会,可以廉价、广泛和有意义地扩展由夫妇(单元、模型)设计的整个建模过程家族;(iii)如有必要,可采用任何传统的模型选择准则来选择这一对,直到不可识别性为止。在实际数据集上的一些实验详细说明了前三个点的实际好处。

理学硕士:

62小时30分 分类和区分;聚类分析(统计方面)
PDF格式 BibTeX公司 XML 引用
全文: 内政部 哈尔

参考文献:

[1] Andrews DF,Herzberg AM(1985)数据:来自许多问题的集合。学生和研究人员的领域。柏林斯普林格·Zbl 0567.62002
[2] 安德鲁斯,伊利诺伊州;Mcnicholas,PD,基于模型的聚类、分类和多元t分布混合判别分析,Stat Comput,221021-1029,(2012)·Zbl 1252.62062
[3] 阿特金森,A。;Riani,M.,多元数据聚类的探索工具,计算机统计数据分析,52272-285,(2007)·Zbl 1452.62028
[4] 班菲尔德,JD;Raftery,AE,基于模型的高斯和非高斯聚类,生物特征学,49803-821,(1993)·Zbl 0794.62034
[5] Bertrand F、Droesbeke J-J、Saporta G、Thomas Agnan C(2017)模型选择和模型聚合。巴黎德希尼布
[6] 巴蒂亚,P。;Iovleff公司。;Govaert,G.,Blockcluster:基于模型的协同聚类的R包,J Stat Softw,76,1-24,(2015)
[7] 比尔纳基,C。;塞勒克斯,G。;Govaert,G.,用综合完全似然评估聚类的混合模型,IEEE Trans-Pattern Anal-Mach-Intell,22719-725,(2000)
[8] 比尔纳基,C。;Jacques,J.,基于插入排序算法的秩数据生成模型,Comput Stat data Anal,58162-176,(2013)·Zbl 1365.62167
[9] 比尔纳基,C。;Jacques,J.,依赖随机二进制搜索算法的多元有序数据的基于模型的聚类,Stat Comput,26929-943,(2016)·Zbl 06652986
[10] 比尔纳基,C。;Lourme,A.,稳定和可视化的高斯简约聚类模型,Stat Comput,24953-969,(2014)·Zbl 1332.62199
[11] Bock H(1981)聚类分析中的统计检验与评价方法。印度统计学会金禧国际统计会议论文集:应用和新方向,加尔各答,116-146页
[12] 拜亚尔,D。;Green,S.,《基于协变量信息的癌症患者治疗选择:对前列腺癌的应用》,Bull cancer,67477-490,(1980)
[13] 塞勒克斯,G。;Diebolt,J.,《SEM算法:从混合问题的EM算法导出的概率教师算法》,Comput Stat Q,2,73-92,(1985)
[14] 塞勒克斯,G。;Govaert,G.,高斯简约聚类模型,模式识别,28781-793,(1995)
[15] 丹普斯特,美联社;莱尔德,NM;Rubin,DB,不完全数据的最大似然性(与讨论),J R Stat Soc B,39,1-38,(1977)·Zbl 0364.62022
[16] Gallopin M,Rau A,Celeux G,Jaffrézic F(2015年),《données rna序列分类的模式转换与比较》。47èmes统计杂志
[17] Ghahramani Z,Hinton G(1997)因子分析的EM算法。多伦多大学技术报告
[18] 古德曼,洛杉矶,利用可识别和不可识别模型探索潜在结构模型,生物计量学,61215-231,(1974)·Zbl 0281.62057
[19] Govaert G(2009)数据分析。伊斯特·威利,霍博肯·Zbl 1328.62024
[20] Govaert G,Nadif M(2013)共同集群。威利,霍博肯·Zbl 1416.62309
[21] Hilbe JM(2014)建模计数数据。剑桥大学出版社
[22] 亨特,L。;Jorgensen,M.,混合模型聚类:multimix程序简介,Aust N Z J Stat,41153-171,(1999)·Zbl 0962.62061
[23] 阿肯色州贾恩,《数据聚类:超越k-means的50年》,模式识别,31651-666,(2010)
[24] Jain AK,Dubes RC(1988)数据聚类算法。新泽西州普伦蒂斯霍尔·Zbl 0665.62061
[25] Jorgensen M,Hunt L(1996)具有分类和连续变量的数据集的混合模型聚类。在:《伊斯兰国会议记录》,第375-384页
[26] 克雷宾C。;布拉特,V。;塞勒克斯,G。;Govaert,G.,分类数据潜在区块模型的估计与选择,Stat Comput,251201-1216,(2015)·Zbl 1331.62149
[27] Krantz DH,Luce RD,Suppes P,Tversky A(1971)《测量基础(加法和多项式表示法)》,第1卷,学术出版社,纽约·Zbl 0232.02040
[28] 法律,MH;菲格雷多,马特;贾恩,阿克,使用混合模型的同步特征选择和聚类,IEEE Trans-Pattern Anal-Mach-Intell,261154-1166,(2004)
[29] 勒布雷特,R。;Iovleff公司。;朗罗涅特,F。;比尔纳基,C。;塞勒克斯,G。;Govaert,G.,Rmixmod:基于模型的无监督、监督和半监督分类mixmod库的R包,J Stat Softw,64241-270,(2015)
[30] Lee S,McLachlan G(2013)Emmixuskew:拟合无限制多元偏态t混合模型。R程序包版本0.11-5
[31] Little RJ A,Rubin DB(2002)《缺失数据的统计分析》,第2版。威利,霍博肯·Zbl 1011.62004
[32] Lomet A,Govaert G,Grandvalet Y(2012)基于综合分类似然的块聚类模型选择。在:第20届计算统计国际会议(COMPSTAT 2012),法国莱马索尔,第519-530页·Zbl 1416.62349
[33] Luce RD,Krantz DH,Suppes P,Tversky A(1990)《测量基础》,第3卷,学术出版社,纽约·Zbl 0749.03001
[34] Manly,BF,指数数据转换,统计学家,25,37-42,(1976)
[35] Marbac M,Sedki M(2015)基于模型的聚类变量选择,使用集成的完全数据似然。arXiv:1501.06314年·Zbl 1384.62199
[36] 毛吉斯,C。;塞勒克斯,G。;Martin Magniette,M.,高斯混合模型聚类的变量选择,生物特征学,65701-709,(2009)·Zbl 1172.62021
[37] 毛吉斯,C。;塞勒克斯,G。;Martin Magniette,M-L,《基于模型的聚类中的变量选择:一般变量角色建模》,计算机统计数据分析,533872-3882,(2009)·Zbl 1453.62154
[38] McLachlan G,Peel D(2000)有限混合模型。威利,纽约·Zbl 0963.62061
[39] 麦克拉克伦,G。;皮尔,D.,《用混合因子分析仪模拟高维数据》,计算机统计数据分析,41379-388,(2003)·Zbl 1256.62036
[40] 麦克尼古拉斯,P。;Murphy,T.,通过潜在高斯混合模型对微阵列表达数据进行基于模型的聚类,生物信息学,212705-2712,(2010)
[41] McNicholas PD(2016)基于混合模型的分类。查普曼和霍尔,纽约·Zbl 1454.62005
[42] 麦克帕兰,D。;Gormley,IC,《基于模型的混合数据聚类:clustMD,Adv数据分析分类》,10155-169,(2016)
[43] 梅尔尼科夫,V。;Maitra,R.,有限混合模型和基于模型的聚类,Stat Surv,4,80-116,(2010)·兹布1190.62121
[44] Meynet C(2012)《非监管大维度分类变量选择》。巴黎南部大学博士论文11
[45] Meynet C,Maugis Rabusseau C(2012)基于模型聚类的稀疏变量选择过程。研究报告
[46] 穆斯塔基,I。;Papageorgiou,I.,混合变量的潜在类模型及其在考古学中的应用,计算机统计数据分析,48,65-675,(2005)·Zbl 1430.62254
[47] 潘,W。;沈,X,基于惩罚模型的聚类及其在变量选择中的应用,J Mach Learn Res,81145-1164,(2007)·Zbl 1222.68279号
[48] 普拉斯,莫;拉霍斯,VH;卡布拉尔,C.,mixsmsn:拟合斜态正态分布尺度混合的有限混合,J Stat Softw,54,1-20,(2013)
[49] Raftery,青铜币;Dean,N.,基于模型聚类的变量选择,J Am Stat Assoc,101168-178,(2006)·Zbl 1118.62339
[50] Rand,WM,聚类方法评价的客观标准,J Am Stat Assoc,66846-850,(1971)
[51] Rao CR,Miller JP,Rao DC(2007)《统计手册:流行病学和医学统计》,第27卷,爱思唯尔,纽约·Zbl 1359.62021
[52] 拉乌,A。;Maugis Rabusseau,C.,RNA序列共表达分析的转化和模型选择,Brief Bioinform,19,425-436,(2018年)
[53] 拉乌,A。;毛吉斯·拉布索,C。;马丁·马格涅特,M-L;Celeux,G.,高通量转录组测序数据与泊松混合模型的共表达分析,生物信息学,311420-1427,(2015)
[54] 雷德纳,R。;Walker,H.,《混合密度、最大似然和EM算法》,暹罗修订版,26195-239,(1984)·Zbl 0536.62021
[55] Schlimmer JC(1987)通过表征调整获得概念。加州大学欧文分校信息与计算机科学系博士论文
[56] Schwarz,G.,估计模型的维数,Ann Stat,6461-464,(1978)·Zbl 0379.62005
[57] Seber GAF,Lee AJ(2012)线性回归分析,第二版。威利,新泽西州·Zbl 1029.62059
[58] Sedki M,Celeux G,Maugis Rabusseau C(2014)SelvarMix:基于模型的聚类和判别分析中变量选择的R包,采用正则化方法。研究报告
[59] Suppes P,Krantz DH,Luce RD,Tversky A(1989)《测量基础》,第2卷,学术出版社,纽约·Zbl 0719.03003
[60] 塔迪斯,MG;沙恩。;Vannucci,M.,高维数据聚类中的贝叶斯变量选择,J Am Stat Assoc,100602-617,(2005)·Zbl 1117.62433
[61] 托马斯,I。;弗兰克豪泽,P。;Biernacki,C.,《瓦隆(比利时)建成景观的形态:使用分形指数进行分类》,Landsc城市规划,84,99-115,(2008)
[62] Venables WN,Ripley BD(2002)《现代应用统计学与S》,第4版。斯普林格,纽约·Zbl 1006.62003
[63] Wang K,McLachlan GJ,Ng SK,Peel D(2012)EMMIX skew:多元偏态正态/t分布混合的EM算法。R代码版本1.0.16。http://www.mathematics.uq.edu.au/gjm/混合软质/EMMIX倾斜
[64] Wolfe JH(1971)多正态分布混合物似然比抽样分布的蒙特卡罗研究。技术公告STB 72-2,美国海军人员研究活动,加利福尼亚州圣地亚哥
〔65〕 杨,K。;弗雷利,C。;穆鲁阿,A。;拉夫特里,A。;Ruzzo,W.,基因表达数据的基于模型的聚类和数据转换,生物信息学,17977-987,(2001)
[66] 周,H。;潘,W。;Shen,X.,基于惩罚模型的无约束协方差矩阵聚类,电子统计杂志,31473-1496,(2009)·Zbl 1326.62143
[67] Zhu X,Melnykov V(2016)有限混合模型中的Manly变换。计算机统计数据分析121:190-208·Zbl 1469.62184
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。