文件Zbl 1335.62103-zbMATH打开

条件相关分类数据的基于模型的聚类。（英语） Zbl 1335.62103号

J.分类。第2145-175号第32页（2015年）.

摘要：通过放松变量的经典“类条件独立性假设”，提出了一种用于分类数据聚类的潜在类模型的扩展。该模型将变量分为相互依赖和相互依赖块，以考虑主要的类内相关性。通过混合两种极端分布（分别是独立性和最大依赖性）来考虑分组在类的同一块中的变量之间的依赖性。当变量与类相关时，这种方法有望减少潜在类模型的偏差。实际上，它生成了一个有意义的依赖模型，只需要几个附加参数。通过EM算法，通过最大似然估计参数。此外，为了克服块体结构搜索所涉及的组合问题的计算复杂性，使用Gibbs采样器进行模型选择。医学和生物数据集上的两个应用表明了这种新模型的相关性。结果加强了这一观点，即该模型是有意义的，并且它减少了由潜在类模型的条件独立性假设引起的偏差。

引用于6文件

MSC公司：

62H30型

分类和区分；聚类分析（统计方面）

关键词：

分类数据;群集;相关性;EM算法;吉布斯采样器;混合物模型;型号选择

软件：

MULTIMIX公司;Rmixmod公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司哈尔

参考文献：

[1]	AGRESTI，A.（2002），《分类数据分析》（第359卷），纽约：John Wiley and Sons出版社·兹比尔1018.62002
[2]	ALLMAN，E.、MATIAS，C.和RHODES，J.（2009），“具有多个观测变量的潜在结构模型中参数的可识别性”，《统计年鉴》37（6A），3099-3132·Zbl 1191.62003号
[3]	BANFIELD，J.和RAFTERY，A.（1993），“基于模型的高斯和非高斯聚类”，《生物统计学》，49（3），803-821·Zbl 0794.62034号
[4]	BOCK，H.（1986），“定性数据的对数线性模型和熵聚类方法”，《分类作为研究工具》，编辑W.Gaul和M.Schader，阿姆斯特丹：北荷兰，第19-26页·Zbl 0588.62101号
[5]	CELEUX，G.和GOVAERT，G.（1991），“离散数据和潜在类模型的聚类标准”，分类杂志8（2），157-176·Zbl 0775.62150号
[6]	CELEUX，G.和GOVAERT，G.（1995），“高斯简约聚类模型”，模式识别28（5），781-793。
[7]	CHAVENT，M.、KUENTZ，V.和SARACCO，J.（2010），“分类变量聚类的划分方法”，《分类作为研究工具》，柏林：施普林格出版社，第91-99页。
[8]	CHENG，J.，GREINER，R.（1999），“比较贝叶斯网络分类器”，《第十五届人工智能不确定性会议论文集》，摩根考夫曼出版社，第101-108页。
[9]	CHOW，C.和LIU，C.（1968），“用依赖树逼近离散概率分布”，IEEE信息理论汇刊，14（3），462-467·兹伯利0165.22305
[10]	DEMPSTER，A.、LAIRD，N.和RUBIN，D.（1977），“通过EM算法从不完整数据中获得最大似然”，英国皇家统计学会期刊，B辑（方法学），39，1-38·Zbl 0364.62022号
[11]	ESPELAND，M.和HANDELMAN，S.（1989），“使用潜在类模型表征和评估离散测量中的相对误差”，《生物计量学》45（2），587-599·Zbl 0718.62220号
[12]	FORMANN，A.（1992），“Polytomous数据的线性Logistic潜在类分析”，《美国统计协会杂志》87（418），476-486。
[13]	FRIEDMAN，N.、GEIGER，D.和GOLDSZMIDT，M.（1997）《贝叶斯网络分类器》，机器学习29（2），131-163·Zbl 0892.68077号
[14]	GOLLINI，I.和MURPHY，T.（2013年），“基于模型的分类数据聚类潜在特征分析器的混合”，统计与计算，24（4），569-588·Zbl 1325.62122号
[15]	GOODMAN，L.（1974）“使用可识别和不可识别模型的探索性潜在结构分析”，Biometrika 61（2），215-231·Zbl 0281.62057号
[16]	GOVAERT，G.（2010），《数据分析》（第136卷），威利在线图书馆。
[17]	GOVAERT，G.和NADIF，M.（2003），“块混合模型聚类”，模式识别36（2），463-473·Zbl 1452.62444号
[18]	GUINOT，C.、LATREILLE，J.、MALVY，D.、PREZIOSI，P.、GALAN，P.，HERCBERG，S.和TENENHAUS，M.（2001），“使用多重对应分析和聚类分析研究饮食行为：SU.VI.MAX.队列中的食物消费问卷”，《欧洲流行病学杂志》17（6），505-516。
[19]	HAGENAARS，J.（1988），“指标间直接影响的潜在结构模型——局部依赖模型”，社会学方法与研究16（3），379-405。
[20]	HAND，D.和YU，K.（2001），“白痴贝叶斯：毕竟不是那么愚蠢？国际统计评论69（3），385-398·Zbl 1213.62010年
[21]	HANDELMAN，S.、LEVERETT，D.、ESPELAND，M.和CURZON，J.（1986年），“密封龋齿和完好牙齿表面的临床放射学评估”，美国牙科协会杂志113（5），751-754。
[22]	HARPER，D.（1972），“局部依赖性潜在结构模型”，《心理测量学》37（1），53-59·Zbl 0239.92012号
[23]	HUANG，J.，NG，M.，RONG，H.和LI，Z.（2005），“K-Means类型聚类中的自动可变加权”，IEEE模式分析和机器智能汇刊，27（5），657-668。
[24]	HUNT，L.和JORGENSEN，M.（1999），“理论和方法：使用MULTIMIX程序进行混合模型聚类”，《澳大利亚和新西兰统计杂志》41（2），154-171·Zbl 0962.62061号
[25]	JAJUGA，K.、SOKOŁOWSKI，A.和BOCK，H.（2002），分类、聚类和数据分析：最新进展和应用，纽约：Springer Verlag·Zbl 1026.00018号
[26]	JORGENSEN，M.和HUNT，L.（1996），“具有分类变量和连续变量的数据集的混合模型聚类”，《ISIS会议论文集》，第96卷），第375-384页。
[27]	LEBARBIER，E.和MARY-HUARD，T.（2006年），“国际清算银行简介：理论与解释基金会”，法国社会统计杂志，147（1），39-57·Zbl 1409.62025号
[28]	LEBRET，R.、IOVLEFF，S.、LANGROGNET，F.、BIERNACKI，C.、CELEUX，G.和GOVAERT，G.（2012），“Rmixmod:基于模型的无监督、监督和半监督分类Mixmod库的R包”，《统计软件杂志》，正在出版（2014）。
[29]	MARBAC，M.、BIERNACKI，C.和VANDEWALLE，V.（2013年），“条件相关分类数据的基于模型的聚类”，Rapport de Recherche RR-8232，INRIA·Zbl 1335.62103号
[30]	MAUGIS，C.、CELEUX，G.和MARTIN-MAGNIETTE，M.-L.（2009），“基于模型的聚类中的变量选择：通用变量角色建模”，计算统计与数据分析53（11），3872-3882·Zbl 1453.62154号
[31]	MCLACHLAN，G.和KRISHNAN，T.（1997），《EMA算法》，《概率与统计威利系列：应用概率与统计》，纽约：威利国际科学·Zbl 0882.62012号
[32]	MCLACHLAN，G.和PEEL，D.（2000），《有限混合模型》，《概率与统计中的威利级数：应用概率与统计》，纽约：威利国际科学出版社·Zbl 0963.62061号
[33]	MEILA，M.和JORDAN，M.（2001），“混合树学习”，《机器学习研究杂志》，1，1-48·Zbl 1052.68116号
[34]	MUTH´EN，B.（2008），“潜在变量杂交：新旧模型概述”，潜在变量混合模型进展1，1-24。
[35]	QU，Y.，TAN，M.和KUTNER，M.（1996），“评估诊断测试准确性的潜在类别分析中的随机效应模型”，生物计量学52（3），797-810·Zbl 0875.62551号
[36]	REBOUSSIN，B.、IP，E.和WOLFSON，M.（2008），“具有协变量的局部依赖潜在类别模型：美国未成年人饮酒的应用”，《皇家统计学会杂志：A辑（社会统计）》，171（4），877-897。
[37]	REBOUSSIN，B.、SONG，E.、SHRESTHA，A.、LOHMAN，K.和WOLFSON，M.（2006），“未成年人饮酒问题的潜在类别分析：来自社区16-20岁样本的证据”，药物和酒精依赖83（3），199-209。
[38]	RICHARDSON，S.和GREEN，P.（1997），“关于具有未知组分数量的混合物的贝叶斯分析（带讨论）”，英国皇家统计学会期刊：B系列（统计方法），59（4），731-792·Zbl 0891.62020号
[39]	ROBERT，C.（2005），《贝叶斯报：普林西比与普拉蒂克》，法国版：斯普林格出版社。
[40]	ROBERT，C.和CASELLA，G.（2004），蒙特卡洛统计方法，纽约：斯普林格-弗拉格出版社·Zbl 1096.62003年
[41]	SCHWARZ，G.（1978），“估算模型的维数”，《统计年鉴》，第6期，第461-464页·Zbl 0379.62005年
[42]	STRAUSS，S.、RINDSKOPF，D.、ASTONE-TWERELL，J.、DES JARLAIS，D.和HAGAN，H.（2006），“使用潜在类别分析确定美国无药治疗计划中丙型肝炎服务提供模式”，药物和酒精依赖83（1），15-24。
[43]	VAN HATTUM，P.和HOIJTINK，H.（2009），“利用品牌战略研究进行市场细分：关于对数线性模型混合的贝叶斯推断”，《分类杂志》26（3），297-328·兹比尔1337.62144
[44]	VERMUNT，J.（2003），“多层潜在阶级模型”，社会学方法33（1），213-239。
[45]	VERMUNT，J.（2007），“多级混合项目反应理论模型：在教育测试中的应用”，国际统计学会第五十六届会议记录，葡萄牙里斯本，第22-28页。

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

条件相关分类数据的基于模型的聚类。（英语） Zbl 1335.62103号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

条件相关分类数据的基于模型的聚类。 （英语） Zbl 1335.62103号

MSC公司：

关键词：

软件：

参考文献：

条件相关分类数据的基于模型的聚类。（英语） Zbl 1335.62103号