×

公开了一种高效的深度优先自顶向下算法,用于挖掘高维数据中的析取闭合项集。 (英语) Zbl 1355.68235号

摘要:在本文中,我们重点讨论了识别高维数据中析取布尔模式的计算挑战。我们的分析重点是微阵列基因表达数据,因为这是高维数据最典型的例子之一。我们设计了一种新的算法,利用微阵列数据集中样本的稀缺性,使我们能够有效地找到析取闭合模式。我们的算法,已披露,通过以深度优先、自上而下的方式探索搜索空间来挖掘析取闭合项集。
我们使用互联网上公开的真实微阵列基因表达数据集评估了我们的算法执行此类任务的性能。我们的实验揭示了在什么情况下,在数据集的特征下,我们的方法可以获得好的,坏的平均的性能。我们还将该方法的性能与最新的求析取闭合模式和析取最小生成器的算法进行了比较。我们观察到,我们的方法在时间和记忆方面效率都提高了两个数量级。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68吨10 模式识别、语音识别
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿格拉瓦尔,R。;Srikant,R.,《大型数据库中关联规则挖掘的快速算法》(VLDB’94:第20届超大数据库国际会议论文集(1994),Morgan Kaufmann Publishers Inc.:Morgan Koufmann-Publishers Inc.San Francisco,CA,USA),487-499
[2] Alizadeh,A.A。;艾森,M.B。;Davis,R.E。;马,C。;Lossos,I.S。;罗森瓦尔德,A。;Boldrick,J.C。;萨贝特,H。;Tran,T.等人。;Yu,X。;鲍威尔,J.I。;Yang,L.等人。;马蒂,G.E。;摩尔,T。;哈德逊;小J。;卢,L。;刘易斯,D.B。;Tibshirani,R。;Sherlock,G。;Chan,W.C。;格雷纳,T.C。;维森伯格,D.D。;Armitage,J.O。;Warnke,R。;利维,R。;Wilson,W。;格雷弗,M.R。;Byrd,J.C。;博茨坦,D。;布朗,P.O。;Staudt,L.M.,通过基因表达谱确定的弥漫性大b细胞淋巴瘤的不同类型,《自然》,403,503-511(2000)
[3] 阿龙,美国。;北巴尔凯。;诺特曼,医学博士。;Gish,K。;伊巴拉,S。;麦克,D。;Levine,A.J.,通过寡核苷酸阵列探测肿瘤和正常结肠组织的聚类分析揭示的广泛基因表达模式,Proc。国家。阿卡德。科学。,96, 6745-6750 (1999)
[5] 布鲁内特,J.P。;Tamayo,P。;Golub,T.R。;Mesirov,J.P.,《利用矩阵分解发现转基因和分子模式》,Proc。国家。阿卡德。科学。,101, 4164-4169 (2004)
[6] Chandran,美国。;马,C。;迪尔·R。;Bisceglia,M。;Lyons-Weiler,M。;Liang,W。;米夏洛普洛斯,G。;贝奇,M。;Monzon,F.,前列腺癌的基因表达谱揭示了转移过程中多种分子途径的参与,BMC癌症,7,64(2007)
[7] 陈,Q。;Chen,Y.P.,挖掘骨骼肌AMP活化蛋白激酶调节的频繁模式,BMC Bioninform。,7, 394 (2006)
[9] 聪,G。;Tung,A.K.H。;Xu,X。;潘,F。;Yang,J.,FARMER:在微阵列数据集中发现有趣的规则组,(2004年ACM SIGMOD国际数据管理会议论文集(2004年),ACM:美国纽约州纽约市ACM),143-154,http://dx.doi.org/10.1145/1007568.1007587
[10] 克里顿,C。;Hanash,S.,为关联规则挖掘基因表达数据库,生物信息学,19,79-86(2003)<http://arxiv.org/abs/http://bioinformatics.oxfordjournals.org/content/
[11] 德里斯,A。;De Raedt,L。;Nijssen,S.,挖掘预测k-CNF表达式,IEEE Trans。知识。数据工程,22743-748(2010)
[12] 艾森,M.B。;斯佩尔曼,P.T。;布朗,P.O。;Botstein,D.,全基因组表达模式的聚类分析和显示,Proc。国家。阿卡德。科学。,95, 14863-14868 (1998), <http://arxiv.org/abs/http://www.pnas.org/content/95/25-14863.full.pdf+
[13] 方,G。;哈兹纳达尔,M。;Wang,W。;Yu,H。;斯坦巴赫,M。;Church,T.R。;Oetting,W.S。;Van Ness,B。;Kumar,V.,《与复杂疾病相关的高阶snp组合:高效发现、统计能力和功能相互作用》,《公共科学图书馆·综合》,第7期,e33531页(2012年),http://dx.doi.org/10.1371/journal.pone.0033531
[17] Golub,T.R。;Slonim,D.K。;Tamayo,P。;华德,C。;加森贝克,M。;梅西洛夫,J.P。;科勒,H。;Loh,M.L。;唐宁,J.R。;Caligiuri,医学硕士。;哥伦比亚特区布隆菲尔德。;Lander,E.S.,《癌症的分子分类:通过基因表达监测进行分类发现和分类预测》,《科学》,286531-537(1999)
[18] Gyenesei,A。;瓦格纳,美国。;Barkow-Oesterreicher,S。;斯托尔特,E。;Schlapbach,R.,挖掘共同调节的基因图谱以检测基因表达数据中的功能关联,生物信息学,1927-1935(2007)<http://arxiv.org/abs/http://bioinformatics.oxfordjournals.org/content/
[19] Haglin,D.J。;Manning,A.M.,《最小不频繁项集挖掘》(Stahlbock,R.;Crone,S.F.;Lessmann,S.,《2007年国际数据挖掘会议论文集》(2007),CSREA出版社),141-147
[20] 哈姆鲁尼,T。;Ben Yahia,S。;Mephu Nguifo,E.,《扫荡析取搜索空间,挖掘频繁项集的新精确简明表示》,《数据知识》。工程师,68,1091-1111(2009),http://dx.doi.org/10.1016/j.datak.2009.05.001
[21] Han,J。;裴,J。;Yin,Y.,无候选生成的频繁模式挖掘,(SIGMOD'00:2000年ACM SIGMOD国际数据管理会议论文集(2000),ACM:ACM纽约,纽约,美国),1-12,http://dx.doi.org/10.1145/342009.335372
[22] Han,J。;裴,J。;Yin,Y。;Mao,R.,《无候选生成的频繁模式挖掘:频率模式树方法》,Data Min.Knowl。光盘。,8, 53-87 (2004), http://dx.doi.org/10.1023/B:DAMI.0000005258.31418.83
[23] Koh,Y.S。;Rountree,N.,《使用先验-逆发现零星规则》,(第九届太平洋-亚洲知识发现和数据挖掘进展会议论文集(2005年),施普林格-弗拉格:施普林格柏林,海德堡),97-106
[24] Lesnick,T.G。;Pappetropoulos,S。;马萨特区。;Ffrench-Mullen,J。;Shehadeh,L。;安德拉德,M。;亨利·J·R。;Rocca,W.A。;Ahlskog,J.E。;Maraganore,D.M.,《复杂疾病的基因组途径方法:轴突引导和帕金森病》,《公共科学图书馆·遗传学》。,3,e98(2007)
[25] 李·G。;Zaki,M.J.,抽样最小频繁布尔(DNF)模式,(第18届ACM SIGKDD国际知识发现和数据挖掘会议论文集(2012),ACM:ACM纽约,纽约,美国),87-95,http://dx.doi.org/10.1145/2339530.2339547
[26] 李,J。;刘,H。;唐宁,J.R。;Yeoh,A.E.J。;Wong,L.,六种以上急性淋巴细胞白血病(ALL)患者亚型基因表达谱的简单规则,生物信息学,1971-78(2003)
[28] 刘,H。;王,X。;He,J。;Han,J。;Xin,D。;Shao,Z.,从高维数据中自顶向下挖掘频繁闭合模式,Inform。科学。,179, 899-924 (2009), http://dx.doi.org/10.1016/j.ins.2008.11.033 ·Zbl 1162.68561号
[29] 洛克斯通,H.E。;哈里斯,L.W。;斯瓦顿,J.E。;Wayland,M.T。;Holland,A.J。;Bahn,S.,《成人唐氏综合征大脑中的基因表达谱》,基因组学,90647-660(2007)
[30] 马,L。;阿西姆斯,T.L。;新墨西哥州阿萨迪。;伊利诺伊,C。;Quertermous,T。;Wong,W.H.,一种“几乎穷尽”的基于搜索的序列排列方法,用于检测疾病关联研究中的上位性,Genet。流行病。,34, 434-443 (2010), http://dx.doi.org/10.1002/gepi.20496
[31] Mannila,H。;Toivonen,H.,《频繁集和压缩表示的多重使用》(Simoudis,E.;Han,J.W.;Fayyad,U.,《第二届知识发现和数据挖掘国际会议论文集》(1996),AAAI出版社),189-194年
[32] Mannila,H。;Toivonen,H.,《知识发现中的水平搜索和理论边界》,Data Min.Knowl。光盘。,1, 241-258 (1997)
[33] 麦金托什,T。;Chawla,S.,微阵列分析的高置信度规则挖掘,IEEE/ACM Trans。计算。生物信息。,4, 611-623 (2007), http://dx.doi.org/10.109/tcbb.2007.1050
[34] Nanavati,A.A。;奇特拉普拉,K.P。;Joshi,S。;Krishnapuram,R.,《挖掘广义析取关联规则》(CIKM’01:第十届国际信息与知识管理会议论文集(2001),ACM:美国纽约州纽约市ACM),482-489,http://dx.doi.org/10.1145/502585.502666
[36] I.Nindl。;Dang,C。;Forschner,T。;库班,R.J。;Meyer,T。;斯特里·W。;Stockfleth,E.,通过微阵列表达谱鉴定皮肤鳞状细胞癌中差异表达的基因,Mol.Cancer,5,30(2006)
[38] 潘,F。;Tung,A.K.H。;聪,G。;Xu,X.,COBBLER:结合列和行枚举进行闭合模式发现,(第16届国际科学与统计数据库管理会议论文集(2004),IEEE计算机学会:IEEE计算机协会洛斯阿拉米托斯,加利福尼亚州,美国),21,http://dx.doi.org/10.109/SSDM.2004.1311190
[39] 帕里达,L。;Ramakrishnan,N.,重新描述挖掘:结构理论和算法,(第二十届全国人工智能会议论文集(2005),AAAI出版社),189-194
[40] 北卡罗来纳州帕斯基尔。;巴斯蒂德,Y。;陶伊,R。;Lakhal,L.,发现关联规则的频繁闭项集,(ICDT’99:第七届数据库理论国际会议论文集(1999),Springer-Verlag:Springer-Verlag London,UK),398-416
[41] Piatetsky-Shapiro,G。;Tamayo,P.,《微阵列数据挖掘:面临挑战》,SIGKDD Explor。纽斯利特。,5, 1-5 (2003), http://dx.doi.org/10.1145/980972.980974
[42] Pomeroy,S.L。;Tamayo,P。;加森贝克,M。;斯图拉·L·M。;安吉洛,M。;McLaughlin,M.E。;Kim,J.Y.H。;Goumnerova,L.C。;布莱克,P.M。;Lau,C。;艾伦,J.C。;扎扎格,D。;奥尔森,J.M。;柯兰,T。;Wetmore,C。;比格尔,J.A。;Poggio,T。;穆克吉,S。;里夫金,R。;加利福尼亚州。;斯托洛维茨基,G。;Louis,D.N。;梅西洛夫,J.P。;兰德,E.S。;Golub,T.R.,《基于基因表达的中枢神经系统胚胎性肿瘤预后预测》,《自然》,415436-442(2002)
[43] Potamias,G。;库马基斯,L。;Kanterakis,A。;Moustakis,V.,《从基因表达谱中发现可靠的生物标志物:迭代约束满足学习方法》,(第六届希腊人工智能会议论文集:理论、模型和应用(2010年),斯普林格·弗拉格:斯普林格尔·弗拉格柏林,海德堡),233-242,http://dx.doi.org/10.1007/978-3642-12842-4_27
[44] Quinlan,J.R.,C4.5:机器学习课程(1993),摩根考夫曼出版社:摩根考夫曼出版社,美国加利福尼亚州旧金山
[45] 北罗摩克里希南。;Zaki,M.,《重新描述挖掘及其在生物信息学中的应用》,(Chen,J.;Lonardi,S.,《生物数据挖掘》,生物数据挖掘,CRC数据挖掘和知识发现系列(2009),CRC出版社,查普曼和霍尔出版社,561-586,(第22章)
[46] 拉维蒂,M.G。;Moscato,P.,预测阿尔茨海默病的5蛋白生物标志物分子特征的识别,《公共科学图书馆·综合》,3,e3111(2008)
[47] Richardson,A.L。;王,Z.C。;De Nicolo,A。;卢,X。;布朗,M。;米伦,A。;廖,X。;Iglehart,J.D。;利文斯顿,D.M。;Ganesan,S.,《基底样人类乳腺癌的X染色体异常》,《癌症细胞》,9,121-132(2006)
[48] Sahoo,D。;Dill,D.L。;先生们,A.J。;Tibshirani,R。;Plevritis,S.K.,源自大规模全基因组微阵列数据集的布尔蕴涵网络,基因组生物学。,9,R157+(2008),http://dx.doi.org/10.1186/gb-2008-9-10-r157
[49] Savasere,A。;Omiecinski,E。;Navathe,S.B.,《在大型客户交易数据库中挖掘强负面关联》(ICDE’98:第十四届国际数据工程会议论文集(1998),IEEE计算机学会:IEEE计算机协会,美国华盛顿特区),494-502
[51] Srikant,R。;Agrawal,R.,《挖掘广义关联规则》(VLDB’95:第21届超大数据库国际会议论文集(1995),Morgan Kaufmann Publishers Inc:Morgan Koufmann-Publishers Inc San Francisco,CA,USA),407-419
[52] 斯特伦尼科娃,N。;Hilmer,S。;Flippin,J。;罗宾逊,M。;霍夫曼,E。;Csaky,K.G.,对照组和氧化损伤引起的年龄相关性黄斑变性患者真皮成纤维细胞基因表达谱的差异,Free Rad.Biol。医学,39,781-796(2005)
[53] Stumme,G。;陶伊,R。;巴斯蒂德,Y。;北卡罗来纳州帕斯基尔。;Lakhal,L.,《使用泰坦尼克号计算冰山概念格》,Data Knowl。工程,42,189-222(2002),http://dx.doi.org/10.1016/S0169-023X(02)00057-5 ·Zbl 0996.68046号
[56] 拇指掌,S。;Xie,T.,Alattin:缺陷检测的替代模式挖掘,Autom。柔和。工程,18,293-323(2011)
[57] Troiano,L.公司。;Scibelli,G.,一种发现稀有项集的时间效率高的第一级横向格遍历算法,Data Min.Knowl。光盘。,1-35 (2013), http://dx.doi.org/10.1007/s10618-013-0304-3
[58] Tsang,S。;Koh,Y。;Dobbie,G.,《RP-树:稀有模式树挖掘》,(Cuzzocrea,A.;Dayal,U.,《数据仓库和知识发现》。《数据仓库与知识发现》,计算机科学讲义,第6862卷(2011),施普林格:施普林格柏林/海德堡),277-288
[59] 瓦拉丹,V。;Anastassiou,D.,从基于系统的微阵列分析推断疾病相关分子逻辑,PLoS Compute。生物学,2(2006),http://dx.doi.org/10.1371/journal.pcbi.0020068
[60] 维米耶罗,R。;Moscato,P.,《使用TitanicOR挖掘析取最小生成器》,专家系统。申请。,39, 8228-8238 (2012), http://dx.doi.org/10.1016/j.eswa.2012.01.141
[61] 维米耶罗,R。;Moscato,P.,《使用超图挖掘高维数据集中析取新兴模式的新方法》,Inform。系统。,40, 1-10 (2014), <http://www.sciencedirect.com/science/article/pii/S0306437913001221>, http://dx.doi.org/10.1016/j.is.2013.09.001
[62] Weiss,G.M.,《稀有采矿:统一框架》,SIGKDD Explor。纽斯利特。,6, 7-19 (2004)
[63] Yeoh,E.J。;罗斯,M.E。;Shurtleff,S.A。;威廉姆斯。;帕特尔,D。;马赫福兹(Mahfouz,R.)。;Behm,F.G。;南卡罗来蒙迪。;Relling,M.V.公司。;帕特尔,A。;Cheng,C。;坎帕纳,D。;威尔金斯,D。;周,X。;李,J。;刘,H。;Pui,C.H。;Evans,W.E。;Naeve,C。;Wong,L。;Downing,J.R.,通过基因表达谱对儿童急性淋巴细胞白血病的分类、亚型发现和预后预测,Cancer Cell,1133-143(2002)<http://www.sciencedirect.com/science/article/pii/S1535610802000326>, http://dx.doi.org/10.1016/S1535-6108(02)00032-6
[64] Zaki,M。;北卡罗来纳州罗摩克里希南。;Zhao,L.,挖掘频繁的布尔表达式:在基因表达和调控建模中的应用,Int.J.Knowl。光盘。生物信息。(IJKDB),168-96(2010)
[65] Zaki,M.J。;Xiao,C.J.,CHARM:一种有效的闭项集挖掘算法,(Grossman,R.L.;Han,J.;Kumar,V.;Mannila,H.;Motwani,R.,《第二届SIAM国际数据挖掘会议论文集》(2002),SIAM)
[66] Zaki,M.J。;Ramakrishnan,N.,使用重新描述挖掘对集合进行推理,(第十一届ACM SIGKDD数据挖掘知识发现国际会议论文集(2005),ACM:ACM纽约,纽约,美国),364-373,http://dx.doi.org/10.1145/1081870.1081912
[67] 赵,L。;Zaki,M.J。;Ramakrishnan,N.,BLOSOM:挖掘任意布尔表达式的框架,(第十二届ACM SIGKDD知识发现和数据挖掘国际会议论文集,KDD’06(2006),ACM:美国纽约州纽约市ACM),827-832,http://dx.doi.org/10.1145/1150402.1150511
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。