摘要
背景
方法
结果
结论
介绍
背景
定义 1 .
模式挖掘
定义 2 .
定义 三 .
定义 4 .
定义 5 .
定义 6 .
基于模式的双聚类
定义 7 .
BicPAM:基于模式的双聚类
BicPAM大纲
挖掘步骤
定义 8 .
.
映射步骤
关闭步骤
影响基于模式的双簇的质量
处理缺少的值
处理不同级别的噪音
产生替代的双簇结构
允许更灵活的双集群类型
加性乘法假设下的相干性
定义 9 .
对称假设下的相干性
定义 10 .
BicPAM算法及其复杂性分析
结果
合成数据中双聚类方法的比较
合成数据中的性能分析
效率限制
(非)常数双团簇的恢复
采矿选项
映射选项
交割期权
实际数据中的结果
功能富集
转录调控
一致性
基于模式的双聚类方法的比较
结论
软件可用性
工具书类
Madeira SC,Oliveira AL:生物数据分析的双聚类算法:一项调查。 IEEE/ACM传输。 计算。 生物。生物信息学。 2004, 1: 24-45. 10.1109/TCBB.2004.2。 Hochreiter S、Bodenhofer U、Heusel M、Mayr A、Mitterecker A、Kasim A、Khamiakova T、Van Sanden S、Lin D、Talloen W、Bijnens L、Göhlmann HWH、Shkedy Z、Clevert DA:FABIA:双集群收购的因子分析。 生物信息学。 2010, 26 (12): 1520-1527. 10.1093/bioinformatics/btq227。 Bebek G,Yang J:PathFinder:从蛋白质相互作用网络中挖掘信号转导途径片段。 BMC生物信息学。 2007, 8: 335-10.1186/1471-2105-8-335. 丁C,张毅,李T,霍尔布鲁克SR:双聚集蛋白复合物与双液查找算法的相互作用。 ICDM。 2006年,IEEE计算机协会,美国华盛顿特区,178-187。 刘杰,王伟:OP-聚类:高维空间中的趋势聚类。 ICDM。 2003年,IEEE计算机学会,美国华盛顿特区,187- Lazzeroni L,Owen A:基因表达数据的格子模型。 中国统计局。 2002, 12: 61-86. Odibat O,Reddy C:挖掘任意位置重叠的联合簇的通用框架。 传感与诊断模块。 2011年,美国亚利桑那州SIAM,343-354。 张磊,陈C,步J,陈Z,蔡D,韩J:局部歧视协同聚类。知识数据工程IEEE Trans。 2012, 24 (6): 1025-1035. 10.1109/TKDE.2011.71。 Tanay A,Sharan R,Shamir R:在基因表达数据中发现具有统计意义的双聚类。 生物信息学。 2002, 18: 136-144. 10.1093/bioinformatics/18.suppl_1.S136。 Serin A,Vingron M:DeBi:使用频繁项集方法发现差异表达的双簇。 算法分子生物学。 2011, 6: 1-12. 10.1186/1748-7188-6-18. Okada Y,Okubo K,Horton P,Fujibuchi W:基因表达模块的穷尽搜索方法及其在人体组织数据中的应用。 IAENG IJ计算机科学。 2007, 34: 119-126. 韩杰,程浩,辛丁,严X:频繁模式挖掘:现状和未来方向。 数据最小知识。 发现。 2007, 15: 55-86. 2007年10月10日/10618-006-0059-1。 Okada Y,Fujibuchi W,Horton P:使用封闭项集枚举算法发现基因表达模块的双聚类方法。 IPSJ生物信息学汇刊。 2007年,48(SIG5):39-48。 Pandey G、Atluri G、Steinbach M、Myers CL、Kumar V:双聚类的关联分析方法。KDD。 2009年,美国纽约州纽约市ACM,677-686。 Martinez R、Pasquier C和Pasquier N:GenMiner:从基因组数据中挖掘信息关联规则。 圣经。 2007年,IEEE CS,美国硅谷,15-22。 Yang J,Wang W,Wang H,Yu P:Delta聚类:捕获大数据集中的子空间相关性。 在 集成电路驱动单元 美国圣何塞; 2002年5月17日至528日。 Califano A,Stolovitzky G,Tu Y:表型分类的基因表达微阵列分析。 在 程序。 国际竞争情报。 系统。 摩尔生物 美国圣何塞; 2000:75–85. Murali TM,Kasif S:从基因表达数据中提取保守的基因表达基序。 在 太平洋生物计算研讨会 .美国夏威夷州利休; 2003:77–88. Ben-Dor A,Chor B,Karp R,Yakhini Z:发现基因表达数据中的局部结构:序提供子矩阵问题。 重组。 2002年,美国纽约州纽约市ACM,49-57。 Getz G,Levine E,Domany E:基因芯片数据的耦合双向聚类分析。 美国国家科学院院刊。 2000, 97 (22): 12079-12084. 10.1073/pnas.210134797。 Tang C,Zhang L,Ramanathan M,ZhangA:相关双向聚类:基因表达数据分析的无监督方法。 比贝。 2001年,IEEE计算机协会,美国华盛顿特区,41- Busygin S,Jacobsen G,KrÃd’mer E,Ag C:双重共轭聚类应用于白血病微阵列数据。 ICDM IW对高维数据进行聚类。 2002年,IEEE,比利时布鲁塞尔, Hartigan JA:数据矩阵的直接聚类。美国统计协会杂志。 1972, 67 (337): 123-129. 10.1080/01621459.1972.10481214. Sheng Q,Moreau Y,Moor BD:Gibbs采样的双聚类微阵列数据。 在 出口控制委员会 .法国巴黎; 2003:196–205. 王浩,王伟,杨杰,于PS:基于大数据集中模式相似性的聚类。 SIGMOD公司。 2002年,美国纽约州纽约市ACM,394-405。 Carmona-Saez P、Chagoyen M、Rodriguez A、Trelles O、Carazo J、Pascual-Montano A:通过关联规则发现对基因表达进行综合分析。 BMC生物信息学。 2006, 7: 1-16. 10.1186/1471-2105-7-1. Henriques R,Madeira SC:BiP:使用灵活的格子模型有效发现重叠的双星簇。 BIOKDD、ACM SIGKDD。 2014年,美国纽约州纽约市ACM, Henriques R,Madeira S:BicSPAM:使用顺序模式的灵活双聚类。 BMC生物信息学。 2014, 15: 130-10.1186/1471-2105-15-130. Agrawal R,Imieliński T,Swami A:挖掘大型数据库中项目集之间的关联规则。 SIGMOD Rec.1993,22(2):207-216。 10.1145/170036.170072. Bellay J、Atluri G、Sing TL、Toufighi K、Costanzo M、Ribeiro PSM、Pandey G、Baller J、VanderSluis B、Michaut M、Han S、Kim P、Brown G、Andrews B、Boone C、Kumar V、Myers C:通过全球模块分解将遗传交互置于上下文中。 基因组研究,2011,21(8):1375-1387。 10.1101/gr.117176.110。 Uno T,Kiyomi M,Arimura H:LCM第3版:数组、位图和前缀树的协作,用于频繁项集挖掘。 OSDM。 2005年,ACM,伊利诺伊州芝加哥,77-86。 Burdick D,Calimlim M,Gehrke J:MAFIA:事务数据库的最大频繁项集算法。 ICDE。 2001年,IEEE CS,德国海德堡,443-452。 Pasquier N,Bastide Y,Taouil R,Lakhal L:使用闭项集格高效挖掘关联规则。 信息系统。 1999, 24: 25-46. 10.1016/S0306-4379(99)00003-4。 Mahfouz M,Ismail M:BIDENS:基于迭代密度的双聚类算法及其在基因表达分析中的应用。 世界学院。 《科学、工程和技术》第37卷。 2009年,美国河滨WASET.org,342-348。 Alves R、Rodríguez-Baena DS、Aguilar-Ruiz JS:基因关联分析:基因表达数据的频繁模式挖掘调查。 生物信息学简介。 2010, 11 (2): 210-224. 10.1093/bib/bbp042。 Atluri G、Bellay J、Pandey G、Myers C、Kumar V:发现遗传相互作用数据中的相干值双链。 在 生物识别码 :ACM; 2000 Gupta R,Rao N,Kumar V:从噪声基因表达数据中发现容错双聚类。 BMC生物信息学。 2011, 12 (12): 1-17. 10.1186/1471-2105-12-S12-S1。 黄毅,熊浩,吴伟,宋SY:挖掘定量最大超液化模式:结果总结。 第十届亚太地区知识发现和数据挖掘进展会议记录,PAKDD’06。 2006年,海德堡:柏林斯普林格·弗拉格,552-556。 Steinbach M,Tan PN,Xiong H,Kumar V:概括支持的概念。 第十届ACM SIGKDD知识发现和数据挖掘国际会议论文集,KDD’04。 2004年,美国纽约州纽约市ACM,689-694。 Han EH,Karypis G,Kumar V:Min-apriori:一种在具有连续属性的数据中查找关联规则的算法。 计算机科学系。 明尼苏达大学,明尼阿波利斯,1997年。 Agrawal R,Srikant R:大型数据库中关联规则挖掘的快速算法。 VLDB中。 1994年,摩根·考夫曼,美国旧金山,487-499。 韩J,裴J,尹Y:挖掘频繁模式而不产生候选代。 SIGMOD Rec.2000,29(2):1-12。 10.1145/335191.335372。 Zaki MJ,Gouda K:使用差异集进行快速垂直挖掘。 KDD。 2003年,美国纽约州纽约市ACM,326-335。 Henriques R、Madeira SC、Antunes C:F2G:高效发现完整模式。 ECML/PKDD nfMCP。 2013年,布拉格斯普林格, Zaki MJ,Xiao CJ:挖掘闭项集及其格结构的高效算法。 IEEE TKDE。 2005, 17 (4): 462-478. Pan F,Cong G,Tung AKH,Yang J,Zaki MJ:卡彭特:在长生物数据集中寻找闭合模式。 KDD。 2003年,美国哥伦比亚特区华盛顿ACM,637-642。 Pan F,Tung A,Cong G,Xu X:COBBLER:结合列和行枚举进行闭合模式发现。 SSDM中。 2004年,IEEE,希腊圣托里尼岛,21-30。 de Souto M、de Araujo D、Costa I、Soares R、Ludermir T、Schliep A:基因表达数据集聚类分析标准化程序的比较研究。 IJCNN。 2008年,IEEE,中国香港,2792-2798。 Xin D,Cheng H,Yan X,Han J:提取冗余感知top-k模式。 第十二届ACM SIGKDD知识发现和数据挖掘国际会议论文集,KDD’06。 2006年,美国纽约州纽约市ACM,444-453。 严X,程H,韩J,辛D:总结项目集模式:基于轮廓的方法。 第十一届ACM SIGKDD数据挖掘知识发现国际会议论文集,KDD’05。 2005年,美国纽约州纽约市ACM,邮编:314-323。 Troyanskaya O、Cantor M、Sherlock G、Brown P、Hastie T、Tibshirani R、Botstein D、Altman RB:DNA微阵列缺失值估计方法。 生物信息学。 2001, 17 (6): 520-525. 10.1093/bioinformatics/17.6.520。 Donders A、van der Heijden G、Stijnen T、Moons K:综述:缺失值插补的温和介绍。 临床流行病学。 2006, 59 (10): 1087-91. 10.1016/j.临床.2006.01.014。 Hellem T,Dysvik B,Jonassen I:L插补:用最小二乘法准确估计微阵列数据中的缺失值。 《核酸研究》2004,32(3):34+10.1093/nar/gnh026。 http://cran.r-project.org/doc/contrib/Ricci-distributions-en.pdf (2014年11月11日访问)。 Ramesh G,Maniatty WA,Zaki MJ:数据挖掘中的可行项集分布:理论与应用。 数据原理研讨会。 系统。 2003年,美国圣地亚哥ACM出版社,284-295。 Assent I,Krieger R,Muller E,Seidl T:DUSC:维度无偏子空间聚类。In ICDM公司 ; 2007 Sequeira K,Zaki M:SCHISM:有趣子空间挖掘的新方法。 国际J总线智能数据最小值2005,1(2):137-160。 10.1504/IJBIDM.2005.008360。 PrelićA、Bleuler S、Zimmermann P、Wille A、Bühlmann P,Gruissem W、Hennig L、Thiele L、Zitzler E:基因表达数据双聚类方法的系统比较和评估。 生物信息学。 2006, 22 (9): 1122-1129. 10.1093/bioinformatics/btl060。 BozdaóD,Kumar AS,Catalysturek UV:双聚类算法的比较分析。 业务连续性委员会。 2010年,美国纽约州纽约市ACM,265-274。 Patrikainen A,Meila M:比较子空间聚类。 IEEE TKDE。 2006, 18 (7): 902-916. Munkres J:分配和运输问题的算法。 Soc Ind应用数学。 1957, 5: 32-38. 10.1137/0105003. Cheng Y,Church GM:表达数据的双重聚类。 在 分子生物学智能系统 :AAAI出版社; 2000:93–103. Berriz GF、King OD、Bryant B、Sander C、Roth FP:用FuncAssociate表征基因集。 生物信息学。 2003, 19: 2502-2504. 10.1093/bioinformatics/btg363。 Pontes B,Giráldez R,Aguilar-Ruiz JS:基因表达数据的基于可配置模式的进化双聚类。 算法分子生物学。 2013, 8: 4-10.1186/1748-7188-8-4. Ihmels J,Bergmann S,Barkai N:使用大规模基因表达数据定义转录模块。 生物信息学。 2004, 20 (13): 1993-2003. 10.1093/bioinformatics/bth166。 Barkow S、Bleuler S、PrelićA、Zimmermann P、Zitzler E:BicAT:双聚类分析工具箱。 生物信息学。 2006, 22 (10): 1282-1283. 10.1093/bioinformatics/btl099。 Madeira S,Teixeira MNPC,Sá-Correia I,Oliveira A:使用线性时间双聚类算法识别时间序列基因表达数据中的调节模块。 IEEE/ACM Trans-Comput生物信息学。 2010, 1: 153-165. 10.1109/TCBB.2008.34。 http://www.bioinf.jku.at/software/fabia/gene_expression.html . http://chemogenomics.stanford.edu/supplements/03nuc/datasets.html . Rosenwald A,dlblc团队:使用分子分析预测弥漫性大B细胞淋巴瘤化疗后的生存率。 《英国医学杂志》,2002,346(25):1937-1947。 10.1056/NEJMoa012914。 Lee W,Tillo D,Bray N,Morse RH,Davis RW,Hughes TR,Nislow C:酵母核小体占据的高分辨率图谱。 自然遗传学。 2007, 39 (10): 1235-1244. 10.1038/ng2117。 Gasch AP、Spellman PT、Kao CM、Carmel-Harel O、Eisen MB、Storz G、Botstein D、Brown PO:酵母细胞对环境变化响应的基因组表达程序。 分子生物学细胞。 2000, 11 (12): 4241-4257. 10.1091/mbc.11.12.4241。 Martin D、Brun C、Remy E、Mouren P、Thieffry D、Jacq B:GOToolBox:基于基因本体的基因数据集功能分析。 基因组生物学。 2004年,12:101-10.1186/gb-2004-5-12-r101。 Wlodkowic D、Skommer J、McGuinness D、Hillier C、Darzynkiewicz Z:ER–高尔基网络–抗癌治疗的未来目标。 Leuk研究,2009,33(11):1440-1447。 2016年10月10日/j.leukres.2009.05.025。 Bracken AP,Bond U:酵母细胞中热休克蛋白对小核糖核蛋白颗粒的重新组装和保护。 雷纳。 1999, 5 (12): 1586-1596. 10.1017/S13558382999991203。 Lee AP,Yang Y,Brenner S,Venkatesh B:TFCONES:脊椎动物转录因子编码基因及其相关保守非编码元件的数据库。 BMC基因组学。 2007, 8: 441-10.1186/1471-2164-8-441. Teixera M、Monteiro P、Guerreiro J、Gonçalves J、Mira N、dos Santos S、Cabrito T、Palma M、Costa C、Francisco A、Madeira S、Oliveira A、Freitas A、Sá-Correia I:YEASTRACT数据库:一个用于分析基因和基因组转录调控的升级信息系统 酿酒酵母 . 核酸研究 2014年(数据库问题)。 Safran M、Dalah I、Alexander J、Rosen N、Stein TI、Shmoish M、Nativ N、Bahir I、Doniger T、Krug H等:基因卡第3版:人类基因积分器。 数据库。 2010年、2010年:baq020-10.1093/database/baq020。 Cherry JM、Hong EL、Amundsen C、Balakrishnan R、Binkley G、Chan ET、Christie KR、Costanzo MC、Dwight SS、Engel SR、, 等 :酵母基因组数据库:芽殖酵母的基因组资源。 核酸研究 2011年:gkr1029。 Nakagawa Y、Sakumoto N、Kaneko Y、Harashima S:Mga2p是一种推测的传感器,用于低温和氧气诱导酿酒酵母中的ole1转录。 生物化学与生物物理研究委员会。 2002, 291 (3): 707-713. 2006年10月10日/bbrc.2002.6507。 Doolin MT、Johnson AL、Johnston LH、Butler G:复制酵母转录因子Ace2p和Swi5p的重叠和不同作用。 摩尔微生物。 2001, 40 (2): 422-432. 10.1046/j.1365-2958.2001.02388.x。