×

一种潜在变量方法,用于在高斯混合模型中聚类混合二进制和连续变量。 (英语) Zbl 1284.62384号

摘要:对于聚类对象,我们通常不仅收集连续变量,还收集二进制属性。本文提出了一种基于模型的混合二进制和连续变量聚类方法,其中每个二进制属性由一个潜在连续变量生成,该潜在连续变量用合适的阈值进行二分,潜在变量的得分由二进制数据估计。在经济学中,这些变量被称为效用函数,假设二元属性(公共服务或效用的存在与否)由这些函数的高低值决定。在遗传学中,潜在反应被解释为发展一个质量性状或表型的“责任”。潜在变量的估计分数以及观察到的连续变量允许使用多元高斯混合模型进行聚类,而不是使用离散分布和连续分布的混合。在描述了该方法之后,本文给出了模拟数据和实际数据的结果,并比较了多元高斯混合模型和联合多元和多项式分布的混合模型的性能。结果表明,对于不同尺度的变量,前一种模型在分类错误率和聚类均值的再现方面都优于混合模型。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62第20页 统计学在经济学中的应用
91C20个 社会和行为科学中的集群
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Banfield JD,Raftery AE(1993)基于模型的高斯和非高斯聚类。生物统计学48:803–821·Zbl 0794.62034号 ·doi:10.2307/2532201
[2] Bartholomew DJ,Tzamourani P(1999)态度测量中潜在特征模型的优点。社会方法研究27:525–546·doi:10.1177/0049124199027004003
[3] Bonett DG,Price RM(2005),四基色相关系数的推断方法。J教育行为统计30:213–225·doi:10.3102/10769986030002213
[4] Bock RD,Mislevy RJ(1982)《微机环境下自适应EAP能力估计》。应用心理测量6-4:431-444·doi:10.1177/014662168200600405
[5] Celeux G,Govaert G(1995)高斯简约聚类模型。图案识别28:781–793·doi:10.1016/0031-3203(94)00125-6
[6] Chaturvedi AD、Carrol JD、Green PE、Rotondo JA(1997)通过重叠的k-质心簇进行基于特征的市场细分方法。《马克研究杂志》34:370–377·doi:10.2307/3151899
[7] Chaturvedi AD、Green PE、Carrol JD(2001)《K-modes聚类》,J Classif 18:35–55
[8] Edwards JH,Edwards AWF(1984)近似四基色相关系数。生物计量学40:563
[9] Everitt BS(1988)混合模式数据聚类的有限混合模型。统计概率Lett 6:305–309·doi:10.1016/0167-7152(88)90004-1
[10] Everitt BS,Merette C(1990)混合模式数据的聚类:可能方法的比较。J应用统计17(3):284–297
[11] Glas CAW(1999)2PL和标称响应模型的修改指数。《心理测量学》64:273–294·兹比尔1291.62207 ·doi:10.1007/BF02294296
[12] Gringorten II(1971)估算天气事件联合概率的模型比较。应用气象杂志21:1926–1928
[13] Harris B(1988)四弦相关系数。收录:Kotz L,Johnson NL(eds)《统计科学百科全书》,第9卷。纽约威利,第223-225页
[14] Heckman JJ(1978)联立方程系统中的伪内生变量。经济计量学47:153–161·Zbl 0392.62093号 ·doi:10.2307/1912352
[15] Helsen K,Green PE(1991)复制聚类的计算研究及其在营销研究中的应用。《Decis Sci》22:1124–1141·doi:10.1111/j.1540-5915.1991.tb01910.x
[16] Hunt LA,Jorgensen MA(1999)使用MULTIMIX程序进行混合模型聚类。澳大利亚N Z J Stat 41:154–171·Zbl 0962.62061号 ·网址:10.1111/1467-842X.00071
[17] Jöreskog KG,Sörbom D(1999)PRELIS 2:用户参考指南。伊利诺伊州林肯伍德科学软件国际公司
[18] Juras J(1982)条件概率建模。应用气象杂志10:646–657
[19] Juras J,Pasaric Z,(2006)四分相关系数和多分相关系数在预测验证中的应用。杰菲齐卡23:59–82
[20] Lawrence CJ、Krzanowski WJ(1996),混合模式数据的混合分离。统计计算6:85–92·doi:10.1007/BF00161577
[21] Manski C(1988)二进制响应模型的识别。美国统计协会J Am Stat Assoc 83:729–738·Zbl 0684.62049号 ·doi:10.1080/01621459.1988.10478655
[22] McLachlan G,Peel D(2000)有限混合模型。纽约威利·Zbl 0963.62061号
[23] Morlini I(2011)混合模式数据聚类:基于四基色相关性的方法。收录:Fichet B、Piccolo D、Verde R、Vichi M(eds)复杂数据结构的分类和多元分析。柏林斯普林格·弗拉格,第95-103页
[24] Muraki E,Engelhard G(1985)全信息项目因子分析:EAP分数的应用。应用心理测量9(4):417–430·doi:10.1177/014662168500900411
[25] 国家标准局:(1959)二元正态分布函数及相关函数表。应用数学系列中的第50位。华盛顿特区印刷局。
[26] Nowak E(1985)Wskaznik podobienstwa wynikow podzialow。Przegley统计数据1:41–48
[27] Olsson,U(1979)多色相关系数的最大似然估计。Psichometrika普西科米特里卡44:443–460·兹比尔0428.62083
[28] Pearson K(1900)进化论的数学贡献。七、。关于无法定量测量的字符相关性。菲洛斯Trans R Soc Lond Ser A 195:147
[29] Pearson K,Heron D(1913)关于联想理论。生物特征9:159-315
[30] Reiser M(1996)多项式项目反应模型的残差分析。《心理测量学》61:509–528·Zbl 0863.62086号 ·doi:10.1007/BF02294552
[31] Reiser M,Lin Y(1999)当预期频率较小时,潜在类别模型的拟合优度测试。摘自:Sobel M,Besker M(编辑)《社会学方法论》,1999年。布莱克威尔出版社,波士顿,第81–111页
[32] Skrondal A,Rabe-Hesketh S(2004)广义潜在变量建模:多级、纵向和结构方程模型。查普曼&佛罗里达州博卡拉顿霍尔/CRC·Zbl 1097.62001
[33] Vermunt JK,Magidson J(2000)《潜在黄金用户指南》。统计创新公司,马萨诸塞州贝尔蒙特
[34] Vermunt JK,Magidson J(2002),潜在类聚类分析。收录:Hagenaars JA,McCutcheon AL(eds)Applied tential class analysis。剑桥大学出版社,剑桥,第89–106页
[35] Vermunt JK,Magidson J(2005)《潜在GOLD 4.0技术指南:基本和高级》。统计创新公司,马萨诸塞州贝尔蒙特
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。