×

惩罚双聚类模型及相关算法。 (英语) Zbl 1514.62474号

摘要:双聚类是两个相关维度的同时聚类,例如,个体和特征,或基因和实验条件。文献中很少提出双聚类的统计模型。相反,大多数研究都集中在寻找双聚类的算法上。它们背后的模型没有受到太多关注。因此,人们对模型的充分性和局限性以及算法的效率知之甚少。在这项工作中,我们揭示了算法背后的相关统计模型。这使我们能够概括大多数已知的流行双聚类技术,并证明用于查找双聚类的算法是正确的,并对其进行了多次改进。事实证明,大多数已知技术都有隐藏的贝叶斯味道。因此,我们采用贝叶斯框架对双聚类进行建模。我们通过惩罚格子模型提出了一种衡量双聚类复杂性(双聚类数和重叠)的方法,并提出了一个合适版本的偏差信息准则来选择双聚类数,这一问题尚未得到充分解决。我们的想法是受基因表达数据分析的启发。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] H.Akaike,统计模型识别的新视角,IEEE传输。自动化。对照19(1974年),第716-723页。doi:10.1109/TAC.1974.1100705·Zbl 0314.62039号 ·doi:10.1109/TAC.1974.1100705
[2] J.Allan、J.Carbonell、G.Doddington、J.Yamron和Y.Yang,主题检测和跟踪试点研究:最终报告《美国国防高级研究计划局广播新闻转录与理解研讨会会议记录》,美国弗吉尼亚州兰斯敦兰兹唐恩会议度假区,1998年,第194-218页。
[3] M.Ashburner、C.A.Ball、J.A.Blake、D.Botstein、H.Butler、J.M.Cherry、A.P.Davis、K.Dolinski、S.S.Dwight、J.T.Eppig、M.A.Harris、D.P.Hill、L.Issel-Tarver、A.Kasarskis、S.Lewis、J.C.Matese、J.E.Richardson、M.Ringwald、G.M.Rubin和G.Sherlock,基因本体:生物学统一的工具《自然遗传学》。25(2000),第25-29页。doi:10.1038/775556·doi:10.1038/775556
[4] J.Besag,脏照片的统计分析,J.R.Stat.Soc.Ser.,《美国国家统计年鉴》。B 48(1986),第259-302页·Zbl 0609.62150号
[5] G.E.P.Box和D.R.Cox,变换分析,J.R.Stat.Soc.Ser.,《美国国家统计年鉴》。B 26(1964年),第211-243页·Zbl 0156.40104号
[6] S.Busygin、O.Prokopyev和P.M.Pardalos,数据挖掘中的双聚类,计算。操作。第35号决议(2008年),第2964-2987页。doi:10.1016/j.cor.2007.01.005·Zbl 1144.68309号 ·doi:10.1016/j.cor.2007.01.005
[7] J.Caldas和S.Kaski,格子模型的贝叶斯双聚类《IEEE信号处理机器学习国际研讨会论文集》,第十八届,墨西哥坎昆,2008年,第291-296页。
[8] G.Celeux、F.Forbes、C.P.Robert和D.M.Titterington,缺失数据模型的偏差信息标准贝叶斯分析。1(2006年),第651-674页。doi:10.1214/06-BA122·Zbl 1331.62329号 ·doi:10.1214/06-BA122
[9] Y.Cheng和G.Church,表达式数据的双聚类《分子生物学智能系统国际会议》,第12卷,美国加利福尼亚州拉荷亚,2000年,第61-86页。
[10] S.Chu、J.DeRisi、M.Eisen、J.Mulholland、D.Botstein、P.O.Brown和I.Herskowitz,芽殖酵母产孢的转录程序《科学》282(1998),第699-705页。doi:10.1126/science.282.5389.699·doi:10.1126/science.282.5389.699
[11] A.Dempster、N.Laird和D.Rubin,通过EM算法从不完整数据中获得最大似然,J.R.Stat.Soc.Ser.,《美国国家统计年鉴》。B 39(1977),第1-38页·Zbl 0364.62022号 ·doi:10.1111/j.2517-6161.1977.tb01600.x
[12] S.Dolnicar、S.Kaiser、K.Lazarevski和F.Leisch,双聚类《旅游研究杂志》第51期(2012年),第41-49页。doi:10.1177/0047287510394192·doi:10.1177/0047287510394192
[13] M.Eisen、P.Spellman、P.Brown和D.Botstein,全基因组表达模式的聚类分析和显示《遗传学》95(1998),第14863-14868页。
[14] S.Falcon和R.绅士,使用GOstats测试GO术语关联的基因列表《生物信息学》23(2007),第257-258页。doi:10.1093/bioinformatics/btl567·doi:10.1093/bioinformatics/btl567
[15] J.Gu和S.Liu,基因表达数据的贝叶斯双聚类《生物信息学与计算生物学国际会议》,BMC基因组学,第9卷,美国内华达州拉斯维加斯,2008年,第113-120页。
[16] J.A.Hartigan,数据矩阵的直接聚类,J.Amer。统计师。《协会》第67卷(1972年),第123-129页。网址:10.1080/01621459.1972.10481214
[17] S.Hochreiter、U.Bodenhofer、M.Heusel、A.Mayr、A.Mitterecker、A.Kasim、T.Khamiakova、S.V.Sanden、D.Lin、W.Talloen、L.Bijnens、H.W.H.Gohlmann、Z.Shkedy和D.A.Clevert,FABIA:双集群采集的因子分析《生物信息学》第26卷(2010年),第1520-1527页。doi:10.1093/bioinformatics/btq227·doi:10.1093/bioinformatics/btq227
[18] M.I.Jordan和R.A.Jacobs,专家的分层混合和EM算法,神经计算。6(1994年),第181-214页。doi:10.1162/neco.1996.2.181·doi:10.1162/neco.1996.2.181
[19] H.Katsuhisa和T.Hiroyuki,基因表达谱数据中聚类边界的统计估计《生物信息学》17(2001),第1143-1151页。doi:10.1093/bioinformatics/17.12.1143·doi:10.1093/bioinformatics/17.12.1143
[20] C.考夫曼和R.塞恩,基于高斯过程先验分布的贝叶斯函数方差分析建模《国际社会贝叶斯分析》。5(2010),第123-150页。doi:10.1214/10-BA505·Zbl 1330.62341号 ·doi:10.1214/10-BA505
[21] Y.Kluger、R.Basri、J.T.Chang和M.Gerstein,微阵列数据的光谱双聚类:共聚类基因和条件《基因组研究》13(2003),第703-716页。doi:10.1101/gr.648603·doi:10.1101/gr.648603
[22] L.Lazzeroni和A.Owen,基因表达数据的格子模型,统计。Sinica 12(2002),第61-86页·Zbl 1004.62084号
[23] D.V.Lindley和A.F.M.Smith,线性模型的Bayes估计,J.R.Stat.Soc.Ser.,《美国国家统计年鉴》。B 34(1972),第1-41页·Zbl 0246.62050号
[24] A.Prelić、S.Bleuler、P.Zimmermann、A.Wille、P.Bühlmann、W.Gruissem、L.Hennig、L.Thiele和E.Zitzler,基因表达数据双聚类方法的系统比较与评价《生物信息学》22(2006),第1122-1129页。doi:10.1093/bioinformatics/btl060·doi:10.1093/bioinformatics/btl060
[25] C.P.Robert和G.Casella,蒙特卡洛统计方法,Springer,纽约,1999年·Zbl 0935.62005号 ·doi:10.1007/978-1-4757-3071-5
[26] R.Santamaria、L.Quintales和R.Theron,微阵列数据中的双聚类验证和比较方法,IDEAL 07《第八届智能数据工程与自动化学习国际会议论文集》,英国伯明翰,2007年,第780-789页。
[27] C.M.Sara和A.L.Oliveira,生物数据分析的双聚类算法综述,IEEE传输。计算。生物信息。1(2004年),第24-45页。doi:10.1109/TCBB.2004.2·doi:10.1109/TCBB.2004.2
[28] G.E.Schwarz,估算模型的维数Ann.统计师。6(1978年),第461-464页。doi:10.1214/aos/1176344136·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[29] R.Sokal和C.Michener,评估系统关系的统计方法堪萨斯大学。牛。38(1958),第1409-1438页。
[30] D.J.Spiegelholter、N.G.Best、B.P.Carlin和A.van der Linde,模型复杂性和拟合的贝叶斯度量,J.R.Stat.Soc.Ser.,《美国国家统计年鉴》。B 64(2002),第583-640页。数字对象标识代码:10.1111/1467-9868.00353·Zbl 1067.62010年 ·数字对象标识代码:10.1111/1467-9868.00353
[31] A.Tanay、R.Sharan和R.Shamir,在基因表达数据中发现具有统计意义的双聚类《生物信息学》第18卷(2002年),第S136-S144页。doi:10.1093/bioinformatics/18.suppl_1.S136·doi:10.1093/bioinformatics/18.suppl_1.S136
[32] A.Tanay、R.Sharan和R.Shamir,双聚类算法:综述,英寸计算分子生物学手册S.Aluru主编,《计算机和信息科学丛书》,查普曼和霍尔/CRC出版社,佛罗里达州博卡拉顿,2005年·doi:10.1201/9781420036275.ch26
[33] H.Turner、T.Bailey和W.Krzanowski,通过系统性能测试证明改进了微阵列数据的双聚类,计算。统计师。数据分析。48(2005),第235-254页。doi:10.1016/j.csda.2004.02.003·Zbl 1429.62267号 ·doi:10.1016/j.csda.2004.02.003
[34] J.H.Ward,优化目标函数的分层分组,J.Amer。统计师。《协会》第58卷(1963年),第234-244页。doi:10.1080/016214591963.10500845
[35] J.Zhang,双聚类的贝叶斯模型及其应用《J.R.Stat.Soc.B 59》(2010年),第635-656页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。