×

基于因子图和最大和算法的双聚类方法。 (英语) Zbl 1428.62270号

摘要:双聚类是一个本质上复杂的问题,其目的是对给定的数据矩阵同时进行行聚类和列聚类。一些最近的方法使用因子图对该问题进行建模,以便利用其能力为设计良好的功能分解打开高效优化方法的大门。然而,尽管这些模型提供了有希望的结果,但它们无法扩展到合理大小的数据矩阵。在本文中,我们通过提出一种基于因子图的双聚类新方法,朝着解决这个问题迈出了一步,该方法产生了高质量的解决方案,并且比以前的方法具有更好的规模。具体来说,我们将双聚类视为对单个双聚类的顺序搜索,并提出了一个可以使用max-sum算法高效求解的二元紧致因子图。已在四个数据集(两个合成数据集和两个真实数据集)上对拟议方法进行了测试并与最新方法进行了比较,与基于因子图的先前方法和其他最新方法相比,取得了令人鼓舞的结果。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Henriques,R。;Antunes,C。;Madeira,S.C.,基于模式挖掘的双聚类结构视图,模式识别。,48, 3941-3958 (2015)
[2] Cheng,K.-O。;法律,N.-F。;Siu,W.C.,用于估计微阵列基因表达数据中缺失值的基于迭代双聚类的最小二乘框架,模式识别。,45, 1281-1289 (2012)
[3] Yan,D。;Wang,J.,基于相关基因和条件提取的基因表达数据的双聚类,模式识别。,46, 1170-1182 (2013)
[4] 赵,H。;Chan,K.L。;Cheng,L.-M。;Yan,H.,减少基因表达数据几何双聚类中噪声影响的概率松弛标记框架,模式识别。,42, 2578-2588 (2009) ·Zbl 1175.68409号
[5] Oghabian,A。;Kilpinen,S。;Hautaniemi,S。;Czeizler,E.,双聚类方法生物相关性和在基因表达分析中的应用,PLoS One,9,e90801(2014)
[7] 马德拉,S。;Oliveira,A.,《生物数据分析的双聚类算法调查》,IEEE Trans。计算。生物信息学。,1, 24-44 (2004)
[8] Dolnicar,S。;凯撒,S。;Lazarevski,K。;Leisch,F.,《双聚类克服市场细分中的数据维度问题》,J.Travel Res.,51,41-49(2012)
[9] Mukhopadhyay,A。;Maulik,美国。;Bandyopadhyay,S。;Coello,C.A.C.,数据挖掘多目标进化算法综述,第二部分,进化。计算。IEEE传输。,2014年20月18日至35日
[12] Lazzeroni,L。;Owen,A.,基因表达数据的格子模型,Stat.Sin。,12, 61-86 (2002) ·Zbl 1004.62084号
[13] Hochreiter,S。;博登霍夫,美国。;Heusel,M。;迈尔,A。;Mitterecker,A。;Kasim,A。;Khamiakova,T。;Van Sanden,S。;Lin,D。;Talloen,W.,Fabia factor analysis for bicluster acquisition,生物信息学,26,1520-1527(2010)
[14] 盖茨,G。;莱文,E。;Domany,E.,基因微阵列数据的耦合双向聚类分析,Proc。国家。阿卡德。科学。美国,9712079-12084(2000)
[16] Hartigan,J.A.,数据矩阵的直接聚类,J.Am.Stat.Assoc.,67,123-129(1972)
[19] Bishop,C.M.,模式识别和机器学习,1(2006),springer:springer New York·Zbl 1107.68072号
[20] Kschichang,F。;弗雷,B。;Loeliger,H.-A.,因子图和和积算法,基础理论IEEE Trans。,47, 498-519 (2001) ·Zbl 0998.68234号
[21] 弗雷,B。;Dueck,D.,通过在数据点之间传递消息进行聚类,《科学》,315972-976(2007)·Zbl 1226.94027号
[22] 阿吉,S.M。;McEliece,R.J.,《广义分配定律》,《基础理论》,IEEE Trans。,46, 325-343 (2000) ·Zbl 0998.65146号
[24] 韦斯,Y。;Freeman,W.,任意拓扑高斯图形模型中信念传播的正确性,神经计算。,13, 2173-2200 (2001) ·Zbl 0992.68055号
[26] Ben-Dor,A。;Chor,B。;卡普,R。;Yakhini,Z.,《发现基因表达数据中的局部结构——顺序-保留子矩阵问题》,J.Compute。《生物学》,10373-384(2003)
[28] 马丁斯,A.F。;Figueiredo,文学硕士。;阿吉亚尔,P.M。;N.A.史密斯。;Xing,E.P.,Ad3图形模型中地图推理的交替方向双重分解,J.Mach。学习。决议,第16号,第495-545页(2015年)·Zbl 1337.68226号
[29] 古普塔,N。;Aggarwal,S.,Mib使用互信息进行双聚类基因表达数据,模式识别。,43, 2692-2697 (2010) ·兹比尔1207.68281
[30] Kschichang,F.R。;弗雷,B.J。;Loeliger,H.-A.,因子图和和积算法,基础理论IEEE Trans。,47, 498-519 (2001) ·Zbl 0998.68234号
[32] 北卡罗来纳州威伯格。;Loeliger,H.-A。;Kotter,R.,《一般图上的代码和迭代解码》,欧洲运输协会。电信通讯。,6, 513-525 (1995)
[35] 伊梅尔斯,J。;Bergmann,S。;Barkai,N.,使用大规模基因表达数据定义转录模块,生物信息学,1993-2003年第20期(2004年)
[36] Sokal,R.R.,《评估系统关系的统计方法》,堪萨斯大学。公牛。,38, 1409-1438 (1958)
[37] Tanay,A。;沙兰,R。;Shamir,R.,《在基因表达数据中发现具有统计意义的双聚类》,生物信息学,18,S136-S144(2002)
[38] 杨,J。;Wang,H。;Wang,W。;Yu,P.S.,用于分析基因表达谱的改进双聚类方法,国际期刊Artif。因特尔。工具,14771-789(2005)
[40] Prelic,A。;布鲁勒,S。;齐默尔曼,P。;Wille,A。;Bühlmann,P。;格鲁伊斯姆,W。;Hennig,L。;Thiele,L。;Zitzler,E.,双聚类方法的比较基因表达数据的双聚类方法系统比较和评估,生物信息学,22,1122-1129(2006)
[44] Gasch,A.P。;斯佩尔曼,P.T。;Kao,C.M。;卡梅尔·哈雷尔,O。;艾森,M.B。;斯托兹,G。;博茨坦,D。;Brown,P.O.,《酵母细胞对环境变化的反应中的基因组表达程序》,《分子生物学》。细胞,114241-4257(2000)
[45] 罗杰斯,S。;Girolma,M。;坎贝尔,C。;Breitling,R.,cdna微阵列数据集的潜在过程分解,计算机。生物信息。IEEE/ACM传输。,2, 143-156 (2005)
[46] 比西戈,M。;洛瓦托,P。;Perina,A。;法索利,M。;Delledonne,M。;佩佐蒂,M。;Polverari,A。;Murino,V.,《研究主题模型在表达微阵列数据分类中的能力》,IEEE/ACM Trans。计算。生物信息。(TCBB),9,1831-1836(2012年)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。