×

Bsig:评估双簇溶液的统计显著性。 (英文) Zbl 1416.62340号

摘要:双聚类解的统计评估对于保证不存在虚假关系以及验证在没有适当统计依据的无监督数据分析中推断出的大量科学陈述至关重要。大多数双聚类方法依靠优值函数来发现具有特定同质性标准的双聚类。然而,强同质性并不能保证双聚类解的统计显著性。此外,尽管一些双聚类方法测试特定类型双聚类的统计显著性,但没有方法评估灵活双聚类模型的显著性。这项工作提出了一种评估双簇解的统计显著性的方法。它集成了关于局部模式重要性的最新统计观点,并将其扩展为新的原则,以评估具有加性、乘法、对称、顺序保持和格子相干性的双聚类的重要性。提出的统计测试提供了前所未有的可能性,可以在不产生假阴性的情况下最小化假阳性双聚类的数量,并根据其输出的统计显著性比较最先进的双聚类算法。合成数据和真实数据的结果支持拟议贡献的可靠性和相关性,并强调需要结合重要性和同质性标准来指导双聚类的搜索。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62G07年 密度估算
62华氏35 多元分析中的图像分析
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aggarwal CC,Yu PS(1998)项目集生成的新框架。摘自:第十七届ACM SIGACT-SIGMOD-SIGART数据库系统原理研讨会论文集,美国纽约州纽约市ACM,PODS’98,第18-24页,doi:10.1145/275487.275490
[2] Alzahrani M,Kuwahara H,Wang W,Gao X(2017)Gracob:一种新的基于图形的恒柱双聚类方法,用于挖掘生长表型数据。生物信息学。doi:10.1093/bioinformatics/btx199·doi:10.1093/bioinformatics/btx199
[3] Balakrishnan S、Kolar M、Rinaldo A、Singh A、Wasserman L(2011),双聚类中的统计和计算权衡。摘自:NIPS 2011统计学习中的计算权衡研讨会,第4卷
[4] Barkow S、Bleuler S、PrelićA、Zimmermann P、Zitzler E(2006)《Bicat:双聚类分析工具箱》。生物信息学22(10):1282。doi:10.1093/bioinformatics/btl099·doi:10.1093/bioinformatics/btl099
[5] Bay SD,Pazzani MJ(2001)检测组差异:挖掘对比集。数据最小知识发现5(3):213-246。doi:10.1023/A:1011429418057·Zbl 0982.68048号 ·doi:10.1023/A:1011429418057
[6] Bellay J、Atluri G、Sing TL、Toufighi K、Costanzo M、Ribeiro PSM、Pandey G、Baller J、VanderSluis B、Michaut M、Han S、Kim P、Brown GW、Andrews BJ、Boone C、Kumar V、Myers CL(2011)通过全局模块分解将遗传相互作用置于上下文中。基因组研究21(8):1375-1387。doi:10.1101/gr.117176.110·doi:10.1101/gr.117176.110
[7] Ben-Dor A,Chor B,Karp R,Yakhini Z(2003)《发现基因表达数据中的局部结构:序表示子矩阵问题》。计算机生物学杂志10(3-4):373-384。doi:10.1089/10665270360688075·doi:10.1089/10665270360688075
[8] Benjamini Y,Hochberg Y(1995)控制错误发现率:一种实用且强大的多重测试方法。皇家统计学会期刊B辑(方法学),第289-300页,doi:10.2307/2346101·Zbl 0809.62014号
[9] Benjamini Y,Yekutieli D(2001)依赖性下多重测试中错误发现率的控制。《统计年鉴》1165-1188。doi:10.1214/aos/1013699998·Zbl 1041.62061号
[10] Bolton RJ,Hand DJ,Adams NM(2002)《模式搜索中的确定命中率》。柏林施普林格,第36-48页。doi:10.1007/3-540-45728-34·Zbl 1019.68653号
[11] Brown GW(1947)关于小样本估计。数学年鉴18(4):582-585·Zbl 0029.40701号
[12] Califano A,Stolovitzky G,Tu Y(2000)基因表达微阵列表型分类分析。Int-Conf智能系统分子生物学8:75-85
[13] Carmona-Saez P、Chagoyen M、Rodriguez A、Trelles O、Carazo JM、Pascual-Montano A(2006)通过关联规则发现对基因表达进行综合分析。BMC生物信息7(1):54。doi:10.1186/1471-2105-7-54·doi:10.1186/1471-2105-7-54
[14] Chen Y,Xu J(2016)随着簇和子矩阵数量的增加,种植问题和子矩阵本地化的统计计算权衡。J Mach学习研究17(1):882-938·兹比尔1360.62320
[15] Cheng Y,Church GM(2000)表达数据的双聚类。智能系统分子生物学出版社8:93-103
[16] DuMouchel W(1999)大频率表中的贝叶斯数据挖掘,及其在fda自发报告系统中的应用。《美国统计》53(3):177-190。数字对象标识代码:10.2307/2686093·doi:10.2307/2686093
[17] DuMouchel W,Pregibon D(2001)多项目关联的经验贝叶斯筛选。In:第七届ACM SIGKDD知识发现和数据挖掘国际会议论文集,美国纽约州纽约市ACM,KDD’01,pp 67-76,doi:10.1145/502512.502526
[18] Eisen MB,Spellman PT,Brown PO,Botstein D(1998),全基因组表达模式的聚类分析和显示。国家科学院院刊95(25):14863-14868
[19] Gasch AP、Spellman PT、Kao CM、Carmel Harel O、Eisen MB、Storz G、Botstein D、Brown PO(2000)酵母细胞对环境变化反应的基因组表达程序。摩尔生物细胞11(12):4241-4257。doi:10.1091/mbc.111.124241·doi:10.1091/mbc.111.124241
[20] Gionis A、Mannila H、Mielikäinen T、TsaparasP(2007)通过互换随机性评估数据挖掘结果。ACM Trans Knowl Discov Data 1(3)。数字对象标识代码:10.1145/1297332.1297338
[21] Gnatyshak D、Ignatov D、Semenov A和Poelmans J(2012),通过双聚类和三聚类深入了解社交网络。收录:《商业信息学研究展望》,LNBIP,第128卷。柏林-海德堡施普林格,第162-171页,doi:10.1007/978-3642-33281-4_13
[22] Hämälinen W,Nykänen m(2008)高效发现具有统计意义的关联规则。2008年第八届IEEE数据挖掘国际会议(ICDM),第203-212页。doi:10.1109/ICDM.2008.144
[23] Henriques R(2016)使用本地描述性模型从高维数据中学习。里斯本里斯本大学高级技术研究所博士论文
[24] Henriques R,Madeira S(2014a)《Bicsap:使用序列模式的灵活双聚类》。BMC生物信息15(1):130。数字对象标识代码:10.1186/1471-2105-15-130·数字对象标识代码:10.1186/1471-2105-15-130
[25] Henriques R,Madeira SC(2014b)Bicpam:用于生物医学数据分析的基于模式的双聚类。算法分子生物学9(1):27。doi:10.1186/s13015-014-0027-z·doi:10.1186/s13015-014-0027-z
[26] Henriques R,Madeira SC(2015)用柔性格子模型进行双聚类,以揭示生物过程之间的相互作用。IEEE/ACM Trans-Comput Biol Bioninform(TCBB)12(4):738-752。doi:10.1109/TCBB.2014.2388206·doi:10.1109/TCBB.2014.2388206
[27] Henriques R,Madeira SC(2016a)Bic2pam:利用领域知识进行生物数据分析的约束引导双聚类。算法分子生物学11(1):23。doi:10.1186/s13015-016-0085-5·doi:10.1186/s13015-016-0085-5
[28] Henriques R,Madeira SC(2016b)Bicnet:使用双聚类的大规模生物网络中的灵活模块发现。算法分子生物学11(1):1-30。doi:10.1186/s13015-016-0074-8·doi:10.1186/s13015-016-0074-8
[29] Henriques R,Antunes C,Madeira SC(2015)基于模式挖掘的双聚类的结构化视图。模式识别48(12):3941-3958。doi:10.1016/j.patcog.2015.06.018·doi:10.1016/j.patcog.2015.06.018
[30] Henriques R,Ferreira FL,Madeira SC(2017)Bicpams:基于模式的双聚类生物数据分析软件。BMC Bioninform 18(1):82。doi:10.1186/s12859-017-1493-3·doi:10.1186/s12859-017-1493-3
[31] Hochreiter S、Bodenhofer U、Heusel M等人(2010)Fabia:双集群获取的因素分析。生物信息学26(12):1520-1527。doi:10.1093/bioinformatics/btq227·doi:10.1093/bioinformatics/btq227
[32] Holm S(1979)一种简单的顺序拒绝多重试验程序。扫描J统计6:65-70·Zbl 0402.62058号
[33] Huang DW、Sherman BT、Lempicki RA(2009)《生物信息学富集工具:大型基因列表综合功能分析的途径》。核酸研究37(1):1。doi:10.1093/nar/gkn923·doi:10.1093/nar/gkn923
[34] Ihmels J,Bergmann S,Barkai N(2004)使用大规模基因表达数据定义转录模块。生物信息学20(13):1993。doi:10.1093/bioinformatics/bth166·doi:10.1093/bioinformatics/bth166
[35] Jaroszewicz S,Scheffer T(2005)《相对于贝叶斯网络快速发现数据中的意外模式》。摘自:第十一届ACM SIGKDD数据挖掘知识发现国际会议论文集,美国纽约州纽约市ACM,KDD’05,第118-127页。数字对象标识代码:10.1145/1081870.1081887
[36] Karian Z,Dudewicz E(2010)《与R.Taylor&Francis,Milton Park拟合统计分布手册》·Zbl 1282.62034号
[37] Kirsch A、Mitzenmacher M、Pietracaprina A、Pucci G、Upfal E、Vandin F(2012)《识别具有统计显著性的频繁项目集的有效严格方法》。美国临床医学杂志59(3):12:1-12:22。doi:10.1145/2220357.2220359·Zbl 1281.68098号 ·doi:10.1145/2220357.2220359
[38] Koyuturk M,Szpankowski W,Grama A(2004)统计显著稠密模式的双聚类基因特征矩阵。In:诉讼。2004年IEEE计算系统生物信息学会议(CSB),第480-484页。doi:10.1109/CSB.2004.1332467
[39] Lazzeroni L,Owen A(2002)基因表达数据的格子模型。中国统计12(1):61-86。http://www.jstor.org/stable/24307036 ·Zbl 1004.62084号
[40] Lee JD,Sun Y,Taylor JE(2015)评估双星簇的统计显著性。摘自:神经信息处理系统进展28(NIPS),Curran Associates,Inc.,pp 1324-1332
[41] Lee W,Tillo D,Bray N,Morse RH,Davis RW,Hughes TR,Nislow C(2007)酵母核小体占有率的高分辨率图谱。自然遗传学39(10):1235-1244。数字对象标识代码:10.1038/ng2117·数字对象标识代码:10.1038/ng2117
[42] Madeira SC,Oliveira AL(2004)《生物数据分析的双聚类算法:一项调查》。IEEE/ACM Trans-Comput Biol Bioninform(TCBB)1(1):24-45。doi:10.1109/TCBB.2004年2月·doi:10.1109/TCBB.2004.2
[43] Madeira SC,Oliveira AL(2007)一种有效的双聚类算法,用于在时间序列表达数据中寻找具有相似模式的基因。摘自:亚太生物信息学会议,第67-80页
[44] Madeira SC、Teixeira MC、Sa-Correia I、Oliveira AL(2010)使用线性时间双聚类算法识别时间序列基因表达数据中的调节模块。IEEE/ACM Trans-Comput Biol Bioninform(TCBB)7(1):153-165。doi:10.1109/TCBB.2008.34·doi:10.1109/TCBB.2008.34
[45] Mahfouz MA,Ismail MA(2009)Bidens:基于迭代密度的双聚类算法及其在基因表达分析中的应用。国际计算机电子自动控制工程杂志3(1):40-46
[46] Mankad S,Michailidis G(2014)《格子模型的双聚类三维数据阵列》。《计算图形统计杂志》23(4):943-965。doi:10.1080/10618600.2013.851608·doi:10.1080/10618600.2013.851608
[47] Megiddo N,Srikant R(1998)发现预测关联规则。摘自:《第四届知识发现和数据挖掘国际会议论文集》,AAAI出版社,KDD’98,第274-278页
[48] Mitra S,Banka H(2006)基因表达数据的多目标进化双聚类。图案识别39(12):2464-2477。doi:10.1016/j.patcog.2006.03.003·Zbl 1103.68775号 ·doi:10.1016/j.patcog.2006.03.003
[49] Noureen N,Kulsoom N,de la Fuente A,Fazal S,Malik SI(2009)利用酵母基因表达数据对双聚类算法进行基于功能和启动子富集的分析。2009年IEEE第13届国际多主题会议(INMIC),IEEE,第1-6页,doi:10.1109/INMIC.2009.5383144
[50] Ojala M、Vuokko N、Kallio A、Haiminen N、Mannila H(2008)《评估数据挖掘结果重要性的实值矩阵随机化》。摘自:2008年SIAM国际数据挖掘会议记录,SIAM,第8卷,第494-505页。doi:10.1137/1.9781611972788.45·Zbl 07260224号
[51] Okada Y,Fujibuchi W,Horton P(2007)使用封闭项集枚举算法发现基因表达模块的双聚类方法。IPSJ Trans Bioninform 3(SIG5):183-192。doi:10.2197/ipsjdc.3.183·doi:10.2197/ipsjdc.3.183
[52] Pio G,Ceci M,D’Elia D,Loglisci C,Maleba D(2012)一种新的双聚类算法,用于发现mirnas和mrnas之间有意义的生物相关性。EMBnet期刊18(A)。doi:10.14806/ej.18.A.375
[53] Ramon J,Miettinen P,Vreeken J(2013)检测gf中的biliques[q]。摘自:《关于数据库中的机器学习和知识发现的欧洲会议论文集》,第8188卷,Springer New York,Inc.,纽约,NY,USA,ECML PKDD,第509-524页。doi:10.1007/978-3-642-40988-233
[54] Rosenwald A、Wright G、Chan WC、Connors JM、Campo E、Fisher RI、Gascoyne RD、Muller-Hermelink HK、Smeland EB、Giltnane JM、Hurt EM、Zhao H、Averett L、Yang L、Wilson WH、Jaffe ES、Simon R、Klausner RD、Powell J、Duffey PL、Longo DL、Greiner TC、Weisenburger DD、Sanger WG、Dave BJ、Lynch JC、Vose J、Armitage JO、Montserrat E、López-Guillermo A、,Grogan TM、Miller TP、LeBlanc M、Ott G、Kvaloy S、Delabie J、Holte H、Krajci P、Stokke T、Staudt LM(2002)《利用分子剖析预测弥漫性大b细胞淋巴瘤化疗后的生存率》。《新英格兰医学杂志》346(25):1937-1947。doi:10.1056/NEJMoa012914文件·doi:10.1056/NEJMoa012914
[55] Scheffer T(2005)《寻找贸易支持与信心的最佳关联规则》。智能数据分析9(4):381-395。doi:10.1007/3-540-44794-6_35·doi:10.1007/3-540-44794-6_35
[56] Serin A,Vingron M(2011)Debi:使用频繁项集方法发现差异表达的双聚类。《分子生物学算法》6:1-12。doi:10.1186/1748-7188-6-18·doi:10.1186/1748-7188-6-18
[57] Silberschatz A,Tuzhilin A(1996)是什么使模式在知识发现系统中变得有趣。IEEE Trans Knowl Data Eng 8(6):970-974。doi:10.1109/69.553165·doi:10.1109/69.553165
[58] Silverstein C,Brin S,Motwani R(1998)《超越市场篮子:将关联规则推广到依赖规则》。数据最小知识发现2(1):39-68。doi:10.1023/A:1009713703947·doi:10.1023/A:1009713703947
[59] Tanay A,Sharan R,Shamir R(2002)在基因表达数据中发现具有统计意义的双聚类。生物信息学18(补充1):S136。doi:10.1093/bioinformatics/18.suppl_1.S136·doi:10.1093/bioinformatics/18.suppl_1.S136
[60] Tavazoie S、Hughes J、Campbell M、Chooch R、Church G(1999)《遗传网络结构的系统测定》。《自然遗传学》22(3):281-285。doi:10.1038/10343·doi:10.1038/10343
[61] Wang H,Wang W,Yang J,Yu PS(2002)大数据集模式相似性聚类。摘自:2002年ACM SIGMOD国际数据管理会议记录,美国纽约州纽约市ACM,SIGMOD'02,第394-405页。数字对象标识代码:10.1145/564691.564737
[62] Webb GI(2007)发现重要模式。马赫学习68(1):1-33。数字对象标识代码:10.1007/s10994-007-5006-x·Zbl 1470.68195号 ·doi:10.1007/s10994-007-5006-x
[63] Yang J,Wang W,Wang H,Yu P(2002)三角聚类:捕获大数据集中的子空间相关性。摘自:《第18届数据工程国际会议论文集》,IEEE,第517-528页。doi:10.1109/ICDE.2002.994771
[64] 张浩,帕德马纳班·B,涂之林A(2004)关于发现显著的统计数量规则。在:第十届ACM SIGKDD知识发现和数据挖掘国际会议论文集,ACM,美国纽约州纽约市,KDD'04,第374-383页。doi:10.1145/1014052.1014094
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。