×

个体和多元离散结果联合聚类的有限混合方法。 (英语) Zbl 1465.62121号

小结:在这项工作中,我们修改了有限混合因子分析仪,以提供一种同时聚类受试者和多元离散结果的方法。联合聚类是通过对结果(列)特定参数进行适当的重新参数化来执行的。我们开发了一种用于最大似然参数估计的期望最大化类型算法,其中最大化步骤被划分为正交子块,这些子块分别表示行和列特定的参数。通过具有不同样本量、结果数量和行/列特定聚类(分区)的模拟研究来评估模型性能。我们将模型的性能与基于标准模型的双聚类方法的性能进行了比较。该方法也在考虑多元二进制响应的基准数据集上进行了验证。

MSC公司:

62小时30分 分类和区分;聚类分析(统计方面)
62甲12 多元分析中的估计
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Ghahramani Z,Hinton GE。混合因子分析仪的EM算法。技术报告,CRG-TR-96-1,8,多伦多大学;1997.[谷歌学者]
[2] McNicholas PD,Murphy TB。简约高斯混合模型。统计计算。2008;18:285-296. doi:10.1007/s1122-008-9056-0[Crossref],[Web of Science®],[Google学者]
[3] Greselin F,Ingrassia S.混合因子分析器约束参数空间中的最大似然估计。统计计算。2015;25(2):215-226. doi:10.1007/s1122-013-9427-z[Crossref],[Web of Science®],[Google学者]·Zbl 1331.62307号
[4] Murray PM、Browne RP、McNicholas PD。偏态t因子分析仪的混合物。计算统计数据分析。2014;77:326-335. doi:10.1016/j.csda.204.03.012[Crosref],[Web of Science®],[谷歌学者]·Zbl 1506.62132号
[5] Tortora C,McNicholas PD,Browne RP。广义双曲因子分析仪的混合物。高级数据分析分类。2016;10: 423-440. doi:10.1007/s11634-015-0204-z[Crossref],[Web of Science®],[Google学者]·Zbl 1414.62278号
[6] Martella F,AlfóM,Vichi M.通过扩展混合因子分析仪对基因表达数据进行双聚类。国际生物统计杂志。2008;4(1):3。doi:10.2202/1557-4679.1078[交叉引用],[谷歌学者]
[7] Martella F,AlfóM,Vichi M.微阵列数据中双聚类的层次混合模型。统计模型。2011;11(6):489-505. doi:10.1177/1471082X1001100602[Crossref],[Web of Science®],[Google学者]·Zbl 1420.62273号
[8] 维卡里·D,阿尔夫·M。基于模型的客户选择数据聚类。计算统计数据分析。2014;71:3-13. doi:10.1016/j.csda.2013.09.014[Crossref],[Web of Science®],[Google学者]·Zbl 1471.62199号
[9] Hartigan JA公司。数据矩阵的直接聚类。美国统计学会杂志,1972年;67:123-129. doi:10.1080/01621459.1972.10481214[Taylor&Francis在线],[Web of Science®],[谷歌学者]
[10] Hartigan JA公司。聚类算法。纽约:John Wiley&Sons,Inc。;1975年,【Crossref】,【谷歌学者】·Zbl 0372.62040号
[11] 博克HH。Automatische Klassifikation公司。戈廷根:范登霍克和鲁普雷希特;1974.[谷歌学者]·Zbl 0279.62013年
[12] Madeira SC,Oliveira AL.生物数据分析的双聚类算法:一项调查。IEEE/ACM关于计算生物学和生物信息学的交易。ACM;2004年,第24-45页。[谷歌学者]
[13] VanMechelen I,Schepers J.双集群的统一模型。COMPSTAT2006 Proceedings,Universitàdegli Studi di Roma La Sapienza,罗马,意大利;2006.[谷歌学者]·Zbl 1437.62048号
[14] Govaert G、Nadif M.Co-clustering:模型、算法和应用。纽约:Wiley;2013.【Crossref】,【谷歌学者】·Zbl 1416.62309号
[15] Cheng Y,Church GM。表达数据的双聚类。Proc Int Conf智能系统分子生物学。2000;8:93-103. [PubMed],[谷歌学者]
[16] 伊梅尔斯J、弗里德兰德G、伯格曼S等。揭示酵母转录网络中的模块化组织。自然遗传学。2002;31:370-377. [PubMed]、[Web of Science®]、[Google学者]
[17] Tanay A,Sharan R,Shamir R.在基因表达数据中发现具有统计意义的双簇。生物信息学。2002;18(补充1):S136-S144。doi:10.1093/生物信息学/18.suppl_1.S136[交叉引用],[公共医学],[谷歌学者]
[18] Ben-Dor A,Chor B,Karp R,et al.发现基因表达数据中的局部结构:有序保留子矩阵问题。计算机生物学杂志。2003;10:373-384. doi:10.1089/10665270360688075[Crossref],[PubMed],[Web of Science®],[Google学者]
[19] Murali TM,Kasif S.从基因表达数据中提取保守的基因表达基序。IEEE/ACM Trans-Comput生物信息。2003;8:77-88. [谷歌学者]·Zbl 1219.92024号
[20] Lee M,Shen H,Huang JZ,等。基于稀疏奇异值分解的双聚类。生物计量学。2010;66:1087-1095. doi:10.1111/j.1541-0420.2010.01392.x[Crosref],[PubMed],[Web of Science®],[谷歌学者]·Zbl 1233.62182号
[21] Kiraly A、Abonyi J、Laiho A等。用双聚类挖掘器对高通量基因表达数据进行双聚类。国际会议数据挖掘研讨会;2012年,第131-138页。[谷歌学者]
[22] 李磊,郭毅,吴伟,等。通过量化基因表达数据的双聚类优度,对五种双聚类算法进行比较和评估。2012年生物数据杂志;5:1-10. doi:10.1186/1756-0381-5-8[Crossref],[PubMed],[Web of Science®],[Google学者]
[23] Dhillon IS。使用二部谱图划分对文档和单词进行共聚类。摘自:第七届ACMSIGKDD知识发现和数据挖掘国际会议论文集。01年KDD。纽约(NY):ACM;2001年,第269-274页。[谷歌学者]
[24] Bisson G,Hussain F.Chi-sim:联合聚类任务的新相似性度量。在:机器学习和应用,ICMLA'08,第七届国际会议;2008年,第211-217页。[谷歌学者]
[25] Lazzeroni L,Owen AB。基因表达数据的格子模型。中央统计局。2002;12:61-86. [Web of Science®],[Google学者]·Zbl 1004.62084号
[26] Sheng Q,Moreau Y,De Moor B.吉布斯抽样双聚类微阵列数据。生物信息学。2003;19:196-205. doi:10.1093/生物信息学/btg1078[Crossref],[Web of Science®],[Google学者]
[27] Dhollander T,Sheng Q,Lemmens K,等。微阵列数据中的查询驱动模块发现。生物信息学。2007年;23日:2573-2580。doi:10.1093/生物信息学/btm387[Crossref],[PubMed],[Web of Science®],[Google学者]
[28] Govaert G,Nadif M.块混合模型聚类。模式识别。2003;36(2):463-473. doi:10.1016/S0031-3203(02)00074-2[Crossref],[Web of Science®],[Google学者]·Zbl 1452.62444号
[29] Govaert G,Nadif M.使用Bernoulli混合模型进行区块聚类:不同方法的比较。计算统计数据分析。2008;52:3233-3245. doi:10.1016/j.csda.2007.09.007[Crossref],[Web of Science®],[Google学者]·Zbl 1452.62444号
[30] Wyse J,Friel N.用塌陷潜在区块模型进行区块聚类。统计计算。2012;22:415-428. doi:10.1007/s1122-011-9233-4[Crossref],[Web of Science®],[Google学者]·Zbl 1322.62046号
[31] Keribin C,Brault V,Celeux G等。分类数据上潜在块模型的估计和选择。2014年统计;25:1201-1216. doi:10.1007/s1122-014-9472-2[Crossref],[Web of Science®],[Google学者]·Zbl 1331.62149号
[32] Priam R、Nadif M、Govaert G.区块生成地形图。收录于:2008年,LNAI。柏林:施普林格;2008年,第13-23页。[谷歌学者]·Zbl 1328.62389号
[33] Priam R、Nadif M、Govaert G.二元表地形伯努利块混合映射。模式分析应用。2014;17:839-847. doi:10.1007/s10044-014-0368-8[Crossref],[Web of Science®],[Google学者]·Zbl 1328.62389号
[34] 李杰,查宏。同时进行文档分类和词聚类的双向泊松混合模型。计算统计数据分析。2006年;50(1):163-180. doi:10.1016/j.csda.2004.07.013[Crosref],[Web of Science®],[谷歌学者]·Zbl 1429.62253号
[35] Lee S、Huang JZ。基于惩罚贝努利似然的二元矩阵双聚类算法。统计计算。2014;24(3):429-441. doi:10.1007/s1122-013-9379-3[Crossref],[Web of Science®],[Google学者]·Zbl 1325.62013号
[36] Melnykov V.基于模型的点击流数据双聚类。计算统计数据分析。2014年9月28日在线查询。doi:10.1016/j.csda.2014.09.016[Crossref],[Web of Science®],[Google学者]·Zbl 1468.62138号
[37] Barkow S、Bleuler S、Prelic A等。BicAT:双聚类分析工具箱。生物信息学。2006年;22(10):1282-1283. doi:10.1093/生物信息学/btl099[Crossref],[PubMed],[Web of Science®],[Google学者]
[38] Kaiser S,Leisch F.R.技术报告28中的双聚类分析工具箱,统计部:技术报告;2008.[谷歌学者]
[39] Prelic A、Bleuler S、Zimmermann P等。基因表达数据双聚类方法的系统比较和评估。生物信息学。2006年;22:1122-1129. doi:10.1093/生物信息学/btl060[Crossref],[PubMed],[Web of Science®],[Google学者]
[40] Rodriguez-Baena DS、Perez-Pulido A、Aguilar-Ruiz JS。一种从二进制数据集中提取位模式的双聚类算法。生物信息学。2011;27: 2738-2745. doi:10.1093/生物信息学/btr464[Crosref],[PubMed],[Web of Science®],[Google Scholar]
[41] Van Uitert M,Meuleman W,Wessels L.双聚类稀疏二元基因组数据。计算机生物学杂志。2008;15:1329-1345. doi:10.1089/cmb.2008.0066[Crossref],[PubMed],[Web of Science®],[Google学者]
[42] Shamir R、Maron-Katz A、Tanay A等。EXPANDER——微阵列数据分析的集成程序套件。BMC生物信息。2005;6:232. doi:10.1186/1471-2105-6-232[Crossref],[PubMed],[Web of Science®],[Google学者]
[43] Goncalves JP、Madeira SC、Oliveira AL。BiGGEsTS:时间序列基因表达数据双聚类分析的集成环境。BMC Res注释。2009;2(1),124. ISSN 1756-0500。doi:10.1186/1756-0500-2-124。请参见http://www.biomedcentral.com/1756-0500/2/124[Crossref]、[PubMed]、[Google学者]
[44] Bhatia P、Iovleff S、Govaert G.blockcluster:基于模型的联合聚类的R包。J Stat Softw。2014; 76(已提交)。[谷歌学者]
[45] Lazarsfeld PF,Henry NW。潜在结构分析。波士顿:霍顿·米夫林;1968.[谷歌学者]·Zbl 0182.52201号
[46] Bartolucci F.一类多维IRT模型,用于测试单维性和聚类项目。心理测量学。2007年;72:141-157. doi:10.1007/s11336-005-1376-9[Crossref],[Web of Science®],[Google学者]·Zbl 1286.62099号
[47] Bartolucci F,Montanari GE,Pandolfi S.通过潜在类多维IRT模型的潜在结构和项目选择的维度。心理测量学。2012;77:782-802. doi:10.1007/s11336-012-9278-0[Crossref],[Web of Science®],[Google学者]·Zbl 1284.62681号
[48] Gollini I,Murphy TB。用于分类数据基于模型聚类的潜在特征分析器的混合。统计计算。2014;24(4):569-588. doi:10.1007/s1122-013-9389-1[Crossref],[Web of Science®],[Google学者]·兹比尔1325.62122
[49] 潜在类中的Rost J.Rasch模型:两种项目分析方法的集成。应用心理测量。1990;14:271-282. doi:10.1177/014662169001400305[Crossref],[Web of Science®],[Google学者]
[50] Rost J,von Davier M.混合分布Rasch模型。收件人:费舍尔·GH、莫勒纳尔·IW、编辑。Rasch模型:基础、最新发展和应用。纽约:Springer;1995年,第257-268页。[谷歌学者]·Zbl 0825.62926号
[51] von Davier M,Yamamoto K。混合物分布和混合拉什模型。收件人:von Davier M,Carstensen CH,编辑。多元和混合分布Rasch模型。纽约:Springer;2007年,第99-115页。[谷歌学者]·Zbl 1117.62133号
[52] von Davier M,Rost J,Carstensen CH.引言:扩展Rasch模型。收件人:von Davier M,Carstensen CH,编辑。多元和混合分布Rasch模型。纽约:Springer;2007年,第1-12页。[谷歌学者]·Zbl 1117.62133号
[53] Dempster AP、Laird NM、Rubin DB。通过EM算法从不完整数据中获得最大似然。J R Stat Soc Ser B方法。1977;39:1-38。[谷歌学者]·Zbl 0364.62022号
[54] Biernacki C,Celeux G,Govaert G。为EM算法选择初始值,以获得多元高斯混合模型中的最大似然。计算统计数据分析。2003;41:561-575. doi:10.1016/S0167-9473(02)00163-9[Crossref],[Web of Science®],[Google学者]·Zbl 1429.62235号
[55] Lindstrom MJ、Bates DM、Netwon-Raphson和EM算法,用于重复测量数据的线性混合效应模型。J Amer统计协会,1998年;83:1014-1022。[谷歌学者]·Zbl 0671.65119号
[56] McNicholas PD、Murphy TB、McDaid AF等。通过简约高斯混合模型实现基于模型的聚类的串行和并行实现。计算统计数据分析。2010;54(3):711-723. doi:10.1016/j.csda.2009.02.011[Crossref],[Web of Science®],[Google学者]·Zbl 1464.62131号
[57] Seidel W,Mosler K,Alker M.关于混合模型中似然比检验的警告注释。统计数学研究所年鉴。2000;52:481-487. doi:10.1023/A:100411419204[Crossref],[Web of Science®],[Google学者]·Zbl 0960.62025号
[58] Bohning D、Dietz E、Schaub R等。单参数指数族密度混合物的似然比分布。Ann Inst统计数学。1994;46:373-388. doi:10.1007/BF01720593[Crossref],[Web of Science®],[Google学者]·兹比尔0802.62017
[59] Pilla RS、Kamarthi SV、Lindsay BG。评估多层神经网络收敛性的基于Aitken的加速方法。IEEE Trans神经网络。2001;12:998-1012. doi:10.1109/72.950130[Crossref],[PubMed],[Web of Science®],[Google学者]
[60] 林赛·BG。混合似然几何:一般理论。安·统计师。1983;11:86-94. doi:10.1214/aos/1176346059[Crossref],[Web of Science®],[Google学者]·Zbl 0512.62005号
[61] 混合模型:理论、几何和应用。NSF-CBMS概率与统计区域会议系列。加利福尼亚州数理统计研究所。第5卷;1995.[谷歌学者]·Zbl 1163.62326号
[62] Pilla RS,Lindsay BG.非参数有限混合模型的替代EM方法。生物特征。2001;88:535-550. doi:10.1093/biomet/88.2535[Crosref],[Web of Science®],[谷歌学者]·Zbl 0984.62024号
[63] 吴CFJ。关于EM算法的收敛性。安·统计师。1983;11: 95-103. doi:10.1214/aos/1176346060[Crossref],[Web of Science®],[Google学者]·Zbl 0517.62035号
[64] Akaike H.信息理论和最大似然原理的扩展。在:Petrov BN,Csaki F,编辑。第二届信息理论国际研讨会。布达佩斯:Akademiai Kiado;1973年,第267-281页。[谷歌学者]·兹bl 0283.62006年
[65] Schwarz G.估算模型的维数。安·统计师。1978;6:461-464. doi:10.1214/aos/1176344136[Crossref],[Web of Science®],[Google学者]·Zbl 0379.62005年
[66] McLachlan GJ,Peel D.有限混合模型。纽约:Wiley;2000.【Crossref】,【谷歌学者】·Zbl 0963.62061号
[67] Biernacki C,Celeux G,Govaert G。用综合完全似然评估聚类的混合模型。IEEE Trans-Pattern Ana Mach Intell公司。2000;22(7):719-725. doi:10.1109/34.865189[Crossref],[Web of Science®],[Google学者]
[68] Dasgupta A,Raftery AE.通过基于模型的聚类检测杂波空间点过程的特征.美国统计协会杂志,1998;93:294-302. doi:10.1080/01621459.1998.10474110[Taylor&Francis Online],[Web of Science®],[Google学者]·兹比尔0906.62105
[69] Teicher H.混合物的可识别性。数学统计年鉴。1961;32:244-248. doi:10.1214/aoms/1177705155[交叉引用],[谷歌学者]·Zbl 0146.39302号
[70] Teicher H.有限混合物的可识别性。数学统计年鉴。1963;34:1265-1269. doi:10.1214/aoms/1177703862[交叉引用],[谷歌学者]·Zbl 0137.12704号
[71] Yakowitz SJ,Spragins JD。关于有限混合的可识别性。数学统计年鉴。1968;39:209-214. doi:10.1214/aoms/1177798520[Crosref],[谷歌学者]·Zbl 0155.25703号
[72] Atienza N,Garcia-Heras J,Muñoz-Pichardo JM.有限混合分布可识别性的一个新条件。梅特里卡。2006年;63:215-221. doi:10.1007/s00184-005-0013-z[Crossref],[Web of Science®],[Google学者]·兹比尔1095.62016
[73] Follman DA,Lambert D.通过非参数混合推广logistic回归。美国统计协会杂志,1989年;84:295-300. doi:10.1080/01621459.1989.10478769[Taylor&Francis Online],[Web of Science®],[Google学者]
[74] Wang P,Puterman ML,Cockburn I,等。具有协变量依赖率的混合泊松回归模型。生物计量学。1996;52:381-400. doi:10.2307/2532881[Crossref],[PubMed],[Web of Science®],[Google学者]·Zbl 0875.62407号
[75] Hennig C.聚类线性回归模型的可识别性。J分类。2000;17:273-296. doi:10.1007/s003570000022[Crossref],[Web of Science®],[Google学者]·Zbl 1017.62058号
[76] Anders S,Huber W.序列计数数据的差异表达分析。基因组生物学。2010;11(10):R106。doi:10.1186/gb-2010-11-10-r106[Crossref],[PubMed],[Web of Science®],[Google学者]
[77] Robinson医学博士,Smyth GK。用于评估标记丰度差异的适度统计测试。生物信息学。2007年;23(21):2881-2887. doi:10.1093/生物信息学/btm453[Crossref],[PubMed],[Web of Science®],[Google学者]
[78] Robinson医学博士、Smyth GK。负二项离散度的小样本估计及其在SAGE数据中的应用。生物统计学。2008;9(2):321-332. doi:10.1093/biostatistics/kxm030[Crossref],[PubMed],[Web of Science®],[Google学者]·Zbl 1143.62312号
[79] Hardcastle TJ,Kelly KA公司。BaySeq:识别序列计数数据中差异表达的经验贝叶斯方法。BMC生物信息学。2010;11:422. doi:10.1186/1471-2105-11-422[Crossref],[PubMed],[Web of Science®],[Google学者]
[80] Zhou Y H,Xia K,Wright FA。一种强大而灵活的RNA序列计数数据分析方法。生物信息学。2011;27(19):2672-2678。doi:10.1093/生物信息学/btr449[Crossref],[PubMed],[Web of Science®],[Google学者]
[81] Wu H,Wang C,Wu Z.一种新的离散收缩估计器改进了RNA-seq数据中的差异表达检测。生物统计学。2013;14(2):232-243. doi:10.1093/biostatistics/kxs033[Crossref],[PubMed],[Web of Science®],[Google学者]
[82] Risso D、Schwartz K、Sherlock G等。RNA-seq数据的GC-内容标准化。加州大学伯克利分校生物统计学系291号技术报告;2011年。可从以下网址获得:http://www.bepress.com/ucbbiostat/paper291/[谷歌学者]
[83] Hubert L,Arabie P.比较分区。J分类。1985年;2: 193-218. doi:10.1007/BF01908075[Crossref],[Web of Science®],[Google学者]·Zbl 0587.62128号
[84] Frank A,Asuncion A.UCI机器学习库。欧文(CA):加利福尼亚大学信息与计算机科学学院;2010年。可从以下网址获得:http://archive.ics.uci.edu/ml。[谷歌学者]
[85] Bartolucci F,Farcomeni A.基于潜在马尔可夫异质结构的纵向数据动态logit模型的多元扩展。J Amer统计协会,2009年;104:816-831. doi:10.1198/jasa.2009.0107[Taylor&Francis Online],[Web of Science®],[Google学者]·Zbl 1388.62158号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。