×

进化软联合聚类:公式、算法和应用。 (英语) Zbl 1405.62087号

摘要:我们使用进化共聚类方法考虑时变数据的共聚类。现有方法基于谱学习框架,因此缺乏概率解释。我们在本文中通过开发一个概率模型来克服这一限制。该模型假设观测数据是通过两步过程生成的,该过程取决于历史上的联合集群。这使我们能够以概率原则的方式捕捉时间平滑度。为了进行最大似然参数估计,我们提出了一种基于EM的算法。我们还建立了所提出的EM算法的收敛性。该模型的一个吸引人的特点是,它自然会导致软共聚类分配。我们在合成数据集和真实数据集上评估了该方法。实验结果表明,我们的方法始终优于基于谱方法的先验方法。为了充分利用我们方法的实际影响,我们进一步对果蝇属基因表达模式图像。我们使用网格生成管道将特定发育时间点的空间基因表达信息编码到数据矩阵中。然后,我们使用我们的进化联合聚类方法,在多个时间点同时对胚胎结构域和基因进行联合聚类。结果表明,基因和胚胎结构域的共簇反映了潜在的生物学。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62M10个 统计学中的时间序列、自相关、回归等(GARCH)
62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aggarwal CC,Han J,Wang J,Yu PS(2003)《进化数据流聚类框架》。摘自:第29届超大数据库国际会议记录,第81-92页
[2] Ashburner M、Ball CA、Blake JA、Botstein D、Butler H、Cherry JM、Davis AP、Dolinski K、Dwight SS、Eppig JT、Harris MA、Hill DP、Issel Tarver L、Kasarskis A、Lewis S、Matese JC、Richardson JE、Ringwald M、Rubin GM、Sherlock G(2000)基因本体论:生物学统一的工具。《自然遗传学》25:25-29·doi:10.1038/75556
[3] Asur S,Parthasarathy S,Ucar D(2007):描述交互图进化行为的基于事件的框架。摘自:第13届ACM SIGKDD知识发现和数据挖掘国际会议记录,第913-921页
[4] Bach FR,Jordan MI(2006)学习频谱聚类,并将其应用于语音分离。J Mach学习研究7:1963-2001·Zbl 1222.68138号
[5] Chakrabarti D,Kumar R,Tomkins A(2006)进化聚类。摘自:第12届ACM SIGKDD国际知识发现和数据挖掘会议记录,第554-560页
[6] Cheng Y,Church GM(2000)表达数据的双聚类。摘自:第八届分子生物学智能系统国际会议记录,第93-103页
[7] Chi Y,Song X,Zhou D,Hino K,Tseng BL(2009)关于进化谱聚类。ACM Trans Knowl Discov Data 3:17:1-17:30
[8] Cho H,Dhillon IS(2008)使用最小平方和残差共聚类法对人类癌症微阵列进行共聚类。IEEE/ACM Trans-Comput Biol Bioinform 5:385-400·doi:10.1109/TCBB.2007.70268
[9] Chung FRK(1997)《谱图理论》,第92卷。美国数学学会。
[10] Deodhar M,Ghosh J(2010)SCOAL:同步联合聚类和从复杂数据中学习的框架。ACM Trans Knoll Discov数据4(3):11:1-11:31
[11] Dhillon IS,Guan Y,Kulis B(2004)《核k-means:谱聚类和归一化切割》。摘自:第十届ACM SIGKDD知识发现和数据挖掘国际会议记录,第551-556页
[12] Dhillon IS,Mallela S,Modha DS(2003),信息论联合聚类。摘自:第九届ACM SIGKDD知识发现和数据挖掘国际会议论文集,第89-98页
[13] Dhillon IS(2001)使用二部谱图划分对文档和单词进行共聚类。摘自:第七届ACM SIGKDD知识发现和数据挖掘国际会议记录,第269-274页
[14] Frise E、Hammonds AS、Celniker SE(2010)《空间果蝇胚胎表达景观的系统图像驱动分析》。分子系统生物学6:345·doi:10.1038/msb2009.102
[15] Giannakidou E、Koutsonikola V、Vakali A、Kompatsiaris Y(2008)共聚类标记和社会数据源。摘自:2008年第九届网络时代信息管理国际会议记录,第317-324页
[16] Golub GH,van Loan CF(1996)《矩阵计算》,第3版。约翰·霍普金斯大学出版社,马里兰州巴尔的摩·Zbl 0865.65009号
[17] Green N,Rege M,Liu X,Bailey R(2011)进化谱联合聚类。摘自:2011年神经网络国际联合会议,第1074-1081页
[18] Hartigan JA(1972)《数据矩阵的直接聚类》,美国统计协会杂志67(337):123-129·网址:10.1080/01621459.1972.10481214
[19] Jain AK、Murty MN、Flynn PJ(1999)《数据聚类:综述》。ACM计算机调查31:264-323·数字对象标识代码:10.1145/331499.331504
[20] Kluger Y,Basri R,Chang JT,Gerstein M(2003)微阵列数据的光谱双聚类:共聚类基因和条件。基因组研究13(4):703-716·doi:10.101克/克648603
[21] Kumar S、Jayaraman K、Panchanathan S、Gurunathan R、Marti-Subirana A、Newfeld SJ(2002)BEST:一种新的计算方法,用于比较果蝇发育早期阶段的基因表达模式。遗传学169:2037-2047
[22] Kumar S、Konikoff C、Van Emden B、Busick C、Davis KT、Ji S、Lin-Wei W、Ramos H、Brody T、Panchanathan S、Ye J、Karr TL、Gerold K、McCutchan M、Newfeld SJ(2011)Flyexpress:果蝇胚胎发生基因时空模式的可视化挖掘和出版物。生物信息学27(23):3319-3320·doi:10.1093/bioinformatics/btr567
[23] Lécuyer E,Yoshida H,Parthasarathy N,Alm C,Babak T,Cerovina T,Hughes TR,Tomancak P,Krause HM(2007)mRNA定位的全球分析揭示了mRNA在组织细胞结构和功能中的重要作用。手机131:174-187·doi:10.1016/j.cell.2007.08.003
[24] Lécuyer E,Tomancak P(2008)绘制基因表达宇宙。当前操作基因开发18(6):506-512·doi:10.1016/j.gde.2008.08.003
[25] Lee DD,Seung HS(1999)通过非负矩阵分解学习对象的各个部分。性质401:788-791·Zbl 1369.68285号 ·doi:10.1038/44565
[26] Leskovec J、Kleinberg J、Faloutsos C(2007)《图形演变:致密化和收缩直径》。ACM Trans Knoll Discov数据1(1):2
[27] Li J,Tao D(2013)简单指数族PCA。IEEE Trans Neural Netw学习系统24(3):485-497·doi:10.1109/TNNLS.2012.2234134
[28] Lin Y-R,Chi Y,Zhu S,Sundaram H,Tseng BL(2009),分析动态社会网络中的社区及其演变。ACM Trans Knowl发现数据3:8:1-8:31
[29] Li J,Tao D(2013)图像分析的贝叶斯因子协方差模型。附:国际人工智能联合会议记录
[30] 利夫内,OE;Golub,GH,无文章标题,通过二规范化进行缩放。数字算法,35,97-120(2004)·Zbl 1050.65049号 ·doi:10.1023/B:NUMA.000016606.32820.69
[31] Long B,Wu X,Zhang ZM,Yu PS(2006)关于k部图的无监督学习。摘自:第十二届ACM SIGKDD知识发现和数据挖掘国际会议记录,第317-326页
[32] Long B,Zhang ZM,Yu PS(2005)基于块值分解的协聚类。摘自:第十一届ACM SIGKDD数据挖掘知识发现国际会议论文集。ACM,第635-640页
[33] Luxburg U(2007)光谱聚类教程。统计计算17:395-416·数字对象标识代码:10.1007/s11222-007-9033-z
[34] Madeira SC,Oliveira AL(2004)《生物数据分析的双聚类算法:一项调查》。IEEE/ACM跨计算机生物信息1:24-45·doi:10.1109/TCBB.2004.2
[35] 梅Q,翟CX(2005)从文本中发现进化主题模式:时间文本挖掘的探索。摘自:第十一届ACM SIGKDD知识发现和数据挖掘国际会议记录,第198-207页
[36] Ng AY、Jordan MI、Weiss Y(2001)《关于光谱聚类:分析和算法》。高级神经信息处理系统14:849-856
[37] Saha A,Sindhwani V(2012)《社交媒体中的学习演变和新兴主题:具有时间规范的动态NMF方法》。摘自:第五届ACM网络搜索和数据挖掘国际会议记录,第693-702页
[38] Sandmann T、Girardot C、Brehme M、Tongprasit W、Stolc V、Furlong EEM(2007)果蝇早期中胚层发育的核心转录网络。基因Dev 21(4):436-449·数字对象标识代码:10.1101/gad.1509007
[39] Shewchuk JR(1996)三角形:设计2D质量网格生成器和delaunay三角剖分器。林MC,马诺查D(主编)《应用计算几何:面向几何工程》,计算机科学课堂讲稿第1148卷。柏林施普林格,第203-222页。来自第一届ACM应用计算几何研讨会
[40] Shi J,Malik J(2000)标准化切割和图像分割。IEEE Trans-Pattern Ana Mach Intell 22(8):888-905
[41] Stathopoulos A,Levine M(2005)基因组调控网络与动物发育。开发单元9(4):449-462·doi:10.1016/j.devcel.2005.09.005
[42] Sun J,Faloutsos C,Papadimitriou S,Yu PS(2007)GraphScope:大型时间演化图的无参数挖掘。摘自:第13届ACM SIGKDD知识发现和数据挖掘国际会议记录,第687-696页
[43] Tao D,Li X,Wu X,Maybank SJ(2007)步态识别的一般张量判别分析和gabor特征。IEEE Trans-Pattern Ana Mach Intell 29(10):1700-1715·doi:10.1109/TPAMI.2007.1096
[44] 田兵X,张Z,于PS,龙B(2012)进化聚类的生成模型。ACM跨知识发现数据6(2):7
[45] Tomancak P、Berman B、Beaton A、Weiszmann R、Kwan E、Hartenstein V、Celniker S、Rubin G(2007)《果蝇胚胎发生期间基因表达模式的全球分析》。基因组生物学8(7):R145·doi:10.1186/gb-2007-8-7-r145
[46] Tomancak P、Beaton A、Weiszmann R、Kwan E、Shu S、Lewis SE、Richards S、Ashburner M、Hartenstein V、Celniker SE、Rubin GM(2002)《果蝇胚胎发生期间基因表达模式的系统测定》。基因组生物学3(12):0081-0088
[47] Tong H,Papadimitriou S,Philip SY,Faloutsos C(2008)时间演化二部图的邻近跟踪。摘自:SIAM国际数据挖掘会议记录,第704-715页
[48] Volker Hartenstein(1995)《果蝇发育地图集》。冷泉港实验室出版社,纽约
[49] Wang F,Li P,König AC(2011a)通过在线非负矩阵分解实现高效文档聚类。摘自:SIAM数据挖掘国际会议论文集。SIAM,第908-919页
[50] Wang F,Li T,Zhang C(2008)通过矩阵分解的半监督聚类。摘自:SIAM数据挖掘国际会议论文集。SIAM,第1-12页
[51] Wang F,Tong H,Lin C-Y(2011b)走向进化非负矩阵分解。附:第二十五届AAAI人工智能会议记录
[52] Yu,K。;于斯。;Tresp,V。;Weiss,Y.(编辑);Schölkopf,B.(编辑);Platt,J.(编辑),图的软聚类,第18期,1553-1560(2006),马萨诸塞州剑桥
[53] Zha H,He X,Ding C,Simon H,Gu M(2001)二部图划分与数据聚类。摘自:第十届信息与知识管理国际会议论文集,第25-32页
[54] Zhang W,Feng D,Li R,Chernikov A,Chrisochoides N,Osgood C,Konikoff C,Newfeld S,Kumar S,Ji S(2013)果蝇基因表达模式图像分析的网格生成和机器学习框架。BMC生物信息14:372·doi:10.1186/1471-2105-14-372
[55] Zhang W,Ji S,Zhang R(2013)进化软联合聚类。摘自:2013年SIAM数据挖掘国际会议论文集。工业和应用数学学会,宾夕法尼亚州费城,第121-129页
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。