×

条件相关分类数据的基于模型的聚类。 (英语) Zbl 1335.62103号

摘要:通过放松变量的经典“类条件独立性假设”,提出了一种用于分类数据聚类的潜在类模型的扩展。该模型将变量分为相互依赖和相互依赖块,以考虑主要的类内相关性。通过混合两种极端分布(分别是独立性和最大依赖性)来考虑分组在类的同一块中的变量之间的依赖性。当变量与类相关时,这种方法有望减少潜在类模型的偏差。实际上,它生成了一个有意义的依赖模型,只需要几个附加参数。通过EM算法,通过最大似然估计参数。此外,为了克服块体结构搜索所涉及的组合问题的计算复杂性,使用Gibbs采样器进行模型选择。医学和生物数据集上的两个应用表明了这种新模型的相关性。结果加强了这一观点,即该模型是有意义的,并且它减少了由潜在类模型的条件独立性假设引起的偏差。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] AGRESTI,A.(2002),《分类数据分析》(第359卷),纽约:John Wiley and Sons出版社·兹比尔1018.62002
[2] ALLMAN,E.、MATIAS,C.和RHODES,J.(2009),“具有多个观测变量的潜在结构模型中参数的可识别性”,《统计年鉴》37(6A),3099-3132·Zbl 1191.62003号
[3] BANFIELD,J.和RAFTERY,A.(1993),“基于模型的高斯和非高斯聚类”,《生物统计学》,49(3),803-821·Zbl 0794.62034号
[4] BOCK,H.(1986),“定性数据的对数线性模型和熵聚类方法”,《分类作为研究工具》,编辑W.Gaul和M.Schader,阿姆斯特丹:北荷兰,第19-26页·Zbl 0588.62101号
[5] CELEUX,G.和GOVAERT,G.(1991),“离散数据和潜在类模型的聚类标准”,分类杂志8(2),157-176·Zbl 0775.62150号
[6] CELEUX,G.和GOVAERT,G.(1995),“高斯简约聚类模型”,模式识别28(5),781-793。
[7] CHAVENT,M.、KUENTZ,V.和SARACCO,J.(2010),“分类变量聚类的划分方法”,《分类作为研究工具》,柏林:施普林格出版社,第91-99页。
[8] CHENG,J.,GREINER,R.(1999),“比较贝叶斯网络分类器”,《第十五届人工智能不确定性会议论文集》,摩根考夫曼出版社,第101-108页。
[9] CHOW,C.和LIU,C.(1968),“用依赖树逼近离散概率分布”,IEEE信息理论汇刊,14(3),462-467·兹伯利0165.22305
[10] DEMPSTER,A.、LAIRD,N.和RUBIN,D.(1977),“通过EM算法从不完整数据中获得最大似然”,英国皇家统计学会期刊,B辑(方法学),39,1-38·Zbl 0364.62022号
[11] ESPELAND,M.和HANDELMAN,S.(1989),“使用潜在类模型表征和评估离散测量中的相对误差”,《生物计量学》45(2),587-599·Zbl 0718.62220号
[12] FORMANN,A.(1992),“Polytomous数据的线性Logistic潜在类分析”,《美国统计协会杂志》87(418),476-486。
[13] FRIEDMAN,N.、GEIGER,D.和GOLDSZMIDT,M.(1997)《贝叶斯网络分类器》,机器学习29(2),131-163·Zbl 0892.68077号
[14] GOLLINI,I.和MURPHY,T.(2013年),“基于模型的分类数据聚类潜在特征分析器的混合”,统计与计算,24(4),569-588·Zbl 1325.62122号
[15] GOODMAN,L.(1974)“使用可识别和不可识别模型的探索性潜在结构分析”,Biometrika 61(2),215-231·Zbl 0281.62057号
[16] GOVAERT,G.(2010),《数据分析》(第136卷),威利在线图书馆。
[17] GOVAERT,G.和NADIF,M.(2003),“块混合模型聚类”,模式识别36(2),463-473·Zbl 1452.62444号
[18] GUINOT,C.、LATREILLE,J.、MALVY,D.、PREZIOSI,P.、GALAN,P.,HERCBERG,S.和TENENHAUS,M.(2001),“使用多重对应分析和聚类分析研究饮食行为:SU.VI.MAX.队列中的食物消费问卷”,《欧洲流行病学杂志》17(6),505-516。
[19] HAGENAARS,J.(1988),“指标间直接影响的潜在结构模型——局部依赖模型”,社会学方法与研究16(3),379-405。
[20] HAND,D.和YU,K.(2001),“白痴贝叶斯:毕竟不是那么愚蠢?国际统计评论69(3),385-398·Zbl 1213.62010年
[21] HANDELMAN,S.、LEVERETT,D.、ESPELAND,M.和CURZON,J.(1986年),“密封龋齿和完好牙齿表面的临床放射学评估”,美国牙科协会杂志113(5),751-754。
[22] HARPER,D.(1972),“局部依赖性潜在结构模型”,《心理测量学》37(1),53-59·Zbl 0239.92012号
[23] HUANG,J.,NG,M.,RONG,H.和LI,Z.(2005),“K-Means类型聚类中的自动可变加权”,IEEE模式分析和机器智能汇刊,27(5),657-668。
[24] HUNT,L.和JORGENSEN,M.(1999),“理论和方法:使用MULTIMIX程序进行混合模型聚类”,《澳大利亚和新西兰统计杂志》41(2),154-171·Zbl 0962.62061号
[25] JAJUGA,K.、SOKOŁOWSKI,A.和BOCK,H.(2002),分类、聚类和数据分析:最新进展和应用,纽约:Springer Verlag·Zbl 1026.00018号
[26] JORGENSEN,M.和HUNT,L.(1996),“具有分类变量和连续变量的数据集的混合模型聚类”,《ISIS会议论文集》,第96卷),第375-384页。
[27] LEBARBIER,E.和MARY-HUARD,T.(2006年),“国际清算银行简介:理论与解释基金会”,法国社会统计杂志,147(1),39-57·Zbl 1409.62025号
[28] LEBRET,R.、IOVLEFF,S.、LANGROGNET,F.、BIERNACKI,C.、CELEUX,G.和GOVAERT,G.(2012),“Rmixmod:基于模型的无监督、监督和半监督分类Mixmod库的R包”,《统计软件杂志》,正在出版(2014)。
[29] MARBAC,M.、BIERNACKI,C.和VANDEWALLE,V.(2013年),“条件相关分类数据的基于模型的聚类”,Rapport de Recherche RR-8232,INRIA·Zbl 1335.62103号
[30] MAUGIS,C.、CELEUX,G.和MARTIN-MAGNIETTE,M.-L.(2009),“基于模型的聚类中的变量选择:通用变量角色建模”,计算统计与数据分析53(11),3872-3882·Zbl 1453.62154号
[31] MCLACHLAN,G.和KRISHNAN,T.(1997),《EMA算法》,《概率与统计威利系列:应用概率与统计》,纽约:威利国际科学·Zbl 0882.62012号
[32] MCLACHLAN,G.和PEEL,D.(2000),《有限混合模型》,《概率与统计中的威利级数:应用概率与统计》,纽约:威利国际科学出版社·Zbl 0963.62061号
[33] MEILA,M.和JORDAN,M.(2001),“混合树学习”,《机器学习研究杂志》,1,1-48·Zbl 1052.68116号
[34] MUTH´EN,B.(2008),“潜在变量杂交:新旧模型概述”,潜在变量混合模型进展1,1-24。
[35] QU,Y.,TAN,M.和KUTNER,M.(1996),“评估诊断测试准确性的潜在类别分析中的随机效应模型”,生物计量学52(3),797-810·Zbl 0875.62551号
[36] REBOUSSIN,B.、IP,E.和WOLFSON,M.(2008),“具有协变量的局部依赖潜在类别模型:美国未成年人饮酒的应用”,《皇家统计学会杂志:A辑(社会统计)》,171(4),877-897。
[37] REBOUSSIN,B.、SONG,E.、SHRESTHA,A.、LOHMAN,K.和WOLFSON,M.(2006),“未成年人饮酒问题的潜在类别分析:来自社区16-20岁样本的证据”,药物和酒精依赖83(3),199-209。
[38] RICHARDSON,S.和GREEN,P.(1997),“关于具有未知组分数量的混合物的贝叶斯分析(带讨论)”,英国皇家统计学会期刊:B系列(统计方法),59(4),731-792·Zbl 0891.62020号
[39] ROBERT,C.(2005),《贝叶斯报:普林西比与普拉蒂克》,法国版:斯普林格出版社。
[40] ROBERT,C.和CASELLA,G.(2004),蒙特卡洛统计方法,纽约:斯普林格-弗拉格出版社·Zbl 1096.62003年
[41] SCHWARZ,G.(1978),“估算模型的维数”,《统计年鉴》,第6期,第461-464页·Zbl 0379.62005年
[42] STRAUSS,S.、RINDSKOPF,D.、ASTONE-TWERELL,J.、DES JARLAIS,D.和HAGAN,H.(2006),“使用潜在类别分析确定美国无药治疗计划中丙型肝炎服务提供模式”,药物和酒精依赖83(1),15-24。
[43] VAN HATTUM,P.和HOIJTINK,H.(2009),“利用品牌战略研究进行市场细分:关于对数线性模型混合的贝叶斯推断”,《分类杂志》26(3),297-328·兹比尔1337.62144
[44] VERMUNT,J.(2003),“多层潜在阶级模型”,社会学方法33(1),213-239。
[45] VERMUNT,J.(2007),“多级混合项目反应理论模型:在教育测试中的应用”,国际统计学会第五十六届会议记录,葡萄牙里斯本,第22-28页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。