×

基于模型的高维二进制数据聚类。 (英语) Zbl 1468.62191号

摘要:提出了一种具有公共斜率参数的潜在特征模型的混合,用于基于模型的高维二进制数据聚类,该数据类型的现有方法很少。最近关于二进制数据聚类的工作,基于一个\(d)维高斯潜变量,通过合并公共因子分析器进行了扩展。因此,这种方法有助于对集群进行低维可视化表示。通过引入随机块效应,进一步扩展了该模型。通过被视为随机变量的块特定参数来考虑每个块中的相关性。利用似然的变分近似导出了确定模型参数的快速算法。使用实际和模拟数据来演示此方法。

MSC公司:

62-08 统计问题的计算方法
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 艾特肯,公元1926年。关于代数方程的伯努利数值解。摘自:《爱丁堡皇家学会学报》,第46页,第289-305页·JFM 52.0098.05号
[2] 亚松森,A。;Newman,D.J.,UCI机器学习库,(2007)
[3] Attias,H.,图形模型的变分贝叶斯框架,高级神经。信息处理。系统。,12209-215,(2000年)
[4] 巴赫,K。;Lichman,M.,UCI机器学习库,(2013)
[5] Baek,J。;麦克拉克伦,G.J。;Flack,L.K.,《因子分析仪与公共因子加载的混合:高维数据聚类和可视化的应用》,IEEE Trans。模式分析。机器。智力。,32, 7, 1298-1309, (2010)
[6] Banfield,J.D。;Raftery,A.E.,基于模型的高斯和非高斯聚类,生物统计学,803-821,(1993)·兹比尔0794.62034
[7] 巴托洛缪,D.J。;Knott,M.,潜在变量模型和因子分析,(1999年),第7期。爱德华·阿诺德·Zbl 1066.62528号
[8] 布洛克,A.W.,2011年。fastGHQuad:Gauss-Hermite求积的快速Rcpp实现。R包版本0.2。
[9] 博克·D·R。;Aitkin,M.,项目参数的边际最大似然估计:EM算法的应用,《心理测量学》,46,4,443-459,(1981)
[10] Böhning博士。;迪茨,E。;Schaub,R。;施拉特曼,P。;Lindsay,B.,《单参数指数族密度混合物的似然比分布》,《Ann.Inst.Statist》。数学。,46, 373-388, (1994) ·Zbl 0802.62017年
[11] Bollen,K.,带潜在变量的结构方程,(1989),威利纽约·Zbl 0731.62159号
[12] 螺栓,D.M。;科恩,A.S。;Wollack,J.A.,多项选择数据的混合项目反应模型,J.Educ。行为。统计,26,4,381-409,(2001)
[13] Browne,R.P。;McNicholas,P.D.,混合类型数据的基于模型的聚类、分类和判别分析,J.Statist。计划。推理,142,11,2976-2984,(2012)·Zbl 1335.62093号
[14] Browne,R.P。;McNicholas,P.D.,估计高维中的常见主成分,高级数据分析。分类。,8, 2, 217-226, (2014) ·Zbl 1474.62183号
[15] Browne,R.P.,McNicholas,P.D.,2014年b。混合:用于聚类和分类的混合模型。R软件包版本1.1·Zbl 1325.62008号
[16] 卡农,S。;Viroli,C.,多元二进制数据的因子混合分析模型,统计模型。,12, 3, 257-277, (2012) ·Zbl 07257879号
[17] Celeux,G。;Govaert,G.,高斯简约聚类模型,模式识别。,28, 5, 781-793, (1995)
[18] 弗雷利,C。;Raftery,A.E.,基于模型的聚类、判别分析和密度估计,J.Amer。统计师。协会,97,458,611-631,(2002)·Zbl 1073.62545号
[19] Franczak,B.C。;Browne,R.P。;McNicholas,P.D.,移位非对称拉普拉斯分布的混合,IEEE Trans。模式分析。机器。智力。,36, 6, 1149-1157, (2014)
[20] 戈里尼,I。;Murphy,T.B.,分类数据基于模型聚类的潜在特征分析器混合,统计计算。,242569-588(2014年)·Zbl 1325.62122号
[21] Gunopulos,D.,Ratanamahatana,C.A.,2002年。放大朴素贝叶斯分类器:使用决策树进行特征选择。摘自:日本前桥IEEE数据挖掘国际会议数据清理和预处理研讨会论文集。
[22] 休伯特,L。;Arabie,P.,比较分区,J.分类,2,1,193-218,(1985)
[23] 洛杉矶亨特。;Jorgensen,M.A.,《混合模型聚类:混合程序简介》,奥斯汀。《新泽西州统计》,第40卷,第153-171页,(1999年)·兹比尔0962.62061
[24] Jaakkola,T.S。;Jordan,M.I.,通过变分方法进行贝叶斯参数估计,统计计算。,10, 1, 25-37, (2000)
[25] Jäckel,P.,2005年。关于多元Gauss-Hermite求积的注记。来源:www.pjaeckel.webspace.virginmedia.com/ANoteOnMultivariateGaussHermiteQuarture.pdf。
[26] Kamata,A。;Cheong,Y.F.,多层拉什模型,(von Davier,M.;Carstensen,C.H.,多元和混合分布拉什模型:扩展和应用,(2007),Springer New York)·Zbl 1117.62133号
[27] Lee,Y。;芬德利,C。;Meullenet,J.,《使用检查即用问题描述橙汁感官特性的实验考虑》,《国际食品科学杂志》。技术。,48, 1, 215-219, (2013)
[28] Lee,S.X。;McLachlan,G.J.,关于斜正态分布和斜t分布的混合,数据分析和分类进展,7,3,241-266,(2013)·Zbl 1273.62115号
[29] Lin,T.-I.,使用多元斜T分布的稳健混合建模,统计计算。,20, 3, 343-356, (2010)
[30] 麦克拉克伦,G.J。;Chang,S.U.,用于聚类分析的混合建模,《统计方法医学研究》,13,347-361,(2004)·Zbl 1053.62076号
[31] 麦克拉克伦,G。;Peel,D.,有限混合模型,(2000),威利纽约·Zbl 0963.62061号
[32] McNicholas,医学博士。;Murphy,T.B.,简约高斯混合模型,统计计算。,18, 3, 285-296, (2008)
[33] 莫里斯,K。;McNicholas,P.D.,通过移位非对称拉普拉斯分布的混合物实现基于模型的聚类的降维,Statist。普罗巴伯。莱特。,83, 9, 2088-2093, (2013) ·兹比尔1282.62153
[34] 莫里,P.M。;Browne,R.P。;McNicholas,P.D.,偏态因子分析仪的混合物,计算。统计师。数据分析。,77, 326-335, (2014) ·Zbl 1506.62132号
[35] 莫里,P.M。;McNicholas,医学博士。;Browne,R.P.,《常见偏态因子分析仪的混合物》,《统计》,3,1,68-82,(2014)
[36] 穆申,B。;Asparouhov,T.,项目反应混合模型:烟草依赖标准的应用,成瘾。行为。,31, 6, 1050-1066, (2006)
[37] Ng、S。;麦克拉克伦,G。;王凯。;Jones,L.B。;Ng,S.,聚类相关基因表达谱的随机效应成分混合模型,生物信息学,22,14,1745-1752,(2006)
[38] 帕克,K.P。;Williams,T.W.,《可测试性设计——调查》,Proc。IEEE,71,1,98-112,(1983)
[39] R核心团队,2014年。R: 统计计算语言和环境。R统计计算基金会,奥地利维也纳。
[40] Rand,W.M.,《聚类方法评估的客观标准》,J.Amer。统计师。协会,66,336,846-850,(1971)
[41] Schwarz,G.,估算模型的维数,Ann.Statist。,6, 2, 461-464, (1978) ·Zbl 0379.62005年
[42] Subedi,S。;McNicholas,P.D.,《通过正态逆高斯分布混合物进行聚类的变分贝叶斯近似》,《高级数据分析》。分类。,8, 2, 167-193, (2014) ·Zbl 1459.62122号
[43] Tipping,M.E.,高维二进制数据的概率可视化,神经信息处理系统进展,592-598,(1999)
[44] Uebersax,J.S.,使用二分或有序类别度量的Probit潜在类分析:条件独立/依赖模型,Appl。精神病。测量。,23, 4, 283-297, (1999)
[45] Vermunt,J.K.,2007年。多水平混合项目反应理论模型:在教育测试中的应用。摘自:葡萄牙里斯本国际统计研究所第五十六届会议记录,第22-28页。
[46] Vermunt,J.K.,多层数据集的潜在类和有限混合模型,医学研究中的统计方法,17,1,33-51,(2008)·Zbl 1154.62086号
[47] 弗蒙特,J.K。;Magidson,J。;Inc,S.I.,《带分类指标的因子分析:传统和潜在阶级方法的比较》,《新发展分类》。数据分析。社会行为。科学。,41-62, (2005)
[48] 弗瑞克,I。;McNicholas,P.D.,多元偏态模型EM算法的分析计算,统计学。普罗巴伯。莱特。,82, 6, 1169-1174, (2012) ·Zbl 1244.65012号
[49] 弗瑞克,I。;McNicholas,P.D.,用于基于模型的聚类和分类的解析偏斜混合模型,计算。统计师。数据分析。,71, 196-210, (2014) ·Zbl 1471.62202号
[50] Wolfe,J.H.,社会领域的对象聚类分析,(1963),加州大学伯克利分校,(硕士论文)
[51] Yoshida,R.,Higuchi,T.,Imoto,S.,2004年。基因表达数据中用于降维和组结构提取的混合因子模型。2004年IEEE计算系统生物信息学会议论文集,第161-172页。
[52] 周,H。;Lange,K.L.,《在通往主导模式的崎岖道路上》,Scand。J.Stat.,37,4,612-631,(2010年)·Zbl 1226.62027号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。