×

一种高效的多项式空间和多项式延迟算法,用于枚举序列中的最大模体。 (英语) Zbl 1123.68134号

摘要:在本文中,我们考虑了带通配符的重复模体类在输入字符串中枚举所有最大模体的问题。最大基序是这样一个具有代表性的基序,它不适合包含在具有相同位置列表的任何较大基序中。虽然在[L.Parida,I.里戈索斯D.普拉特,莱克特。注释计算。科学。2089, 131–142 (2001;Zbl 0990.68536号);N.Pisanti、M.Crochemore、R.GrossiM.-F.西戈,莱克特。注释计算。科学。2747, 622–631 (2003);J.Pelfríne,S.AbdeddaímJ.亚历山大,莱克特。注释计算。科学。2676,328–347(2003)]其输出多项式时间可计算性仍然开放。本文的主要结果是针对带有通配符的重复模的最大模数枚举问题,提出了一种多项式空间多项式延迟算法。该算法枚举输入字符串中长度为(n)in(O(n^{3})时间的所有最大模体,每个模体具有(O(n))空间,特别是延迟。该算法的关键是基于保前缀闭包扩展技术,在树型搜索路径上对所有最大模体进行深度优先搜索。我们还证明了最大模数的指数下界和简洁性结果,这表明了直接方法的局限性。计算实验结果表明,与常用的频繁模体挖掘算法相比,我们的算法在实际应用中可以适用于基因组数据等海量字符串数据,并且不需要太多额外的计算开销。

MSC公司:

68瓦05 非数值算法
68瓦40 算法分析
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Apostolico A,Comin M 2,Parida L(2005)过度代表的可扩展基序的保守提取。ISMB(生物信息学增补)21:9–18
[2] Apostolico A,Parida L(2003)《压缩与财富之轮》。收录:2003年数据压缩会议(DCC’03),IEEE
[3] Arimura H,Uno T(2005)挖掘频繁闭属性树的输出多项式时间算法。In:2005年国际劳工大会会议记录,LNAI 3625,第1-19页·Zbl 1134.68464号
[4] Arimura H,Shinohara T,Otsuki S(1994)发现模式语言并集的最小泛化及其在正数据归纳推理中的应用。收录:STACS’94,LNCS 775,Springer-Verlag,第649-660页·Zbl 0941.68683号
[5] Boros E,Gurvich V,Khachiyan L,Makino K(2002)生成最大频繁集和最小不频繁集的复杂性。在:STACS’02会议记录,LNCS,第133–141页·Zbl 1054.68072号
[6] Crochemore M,Rytter W(2002)《架构学珠宝》。世界科学·Zbl 1078.68151号
[7] Goldberg LA(1993)列出图族的多项式空间多项式延迟算法。收件人:第25届STOC会议记录,ACM,第218-225页·Zbl 1310.68108号
[8] Gusfield D(1997)关于字符串、树和序列的算法。剑桥·Zbl 0934.68103号
[9] Parida L,Rigoutsos I,Floratos A,Platt D,Gao Y(2000)《字符集和实值数据的模式发现:无冗余模体的线性界和有效的多项式时间算法》。摘自:第11届SIAM离散算法研讨会论文集(SODA'00),第297-308页·Zbl 0956.68134号
[10] Parida L,Rigoutsos I,Platt DE(2001)一种输出敏感的灵活模式发现算法。收录:CPM’01会议记录,LNCS 2089,第131–142页·Zbl 0990.68536号
[11] Pasquier N,Bastide Y,Taouil R,Lakhal L(1999)发现关联规则的频繁闭项集。In:ICDT'99会议记录,第398–416页·Zbl 0983.68511号
[12] Pelfríne J,Abdedaim S,Alexandre J(2003)《扩展近似模式》。In:CPM’03程序,LNCS 2676,第328–347页·Zbl 1279.68374号
[13] Pisanti N,Crochemore M,Grossi R,Sagot M-F(2003)《生成重复图案的瓷砖图案基础及其在更高群体中的复杂性》,In:《MFCS’03会议录》,LNCS 2747,第622-631页·Zbl 1124.68454号
[14] Pisanti N,Crochemore M,Grossi R,Sagot M-F(2004)《基序推理的比较研究》。字符串算法。KCL出版物·Zbl 1124.68454号
[15] Uno T(2003)《减少枚举算法延迟和更改的两种通用方法》,NII技术报告,NII-2003-004E,2003年4月
[16] Uno T,Asai T,Uchida Y,Arimura H(2004)一种枚举事务数据库中闭合模式的有效算法。收录:DS’04会议记录,LNAI 3245,第16–30页·Zbl 1110.68472号
[17] Valiant LG(1979)计算永久性的复杂性。《计算机科学》8:189–201·Zbl 0415.68008号 ·doi:10.1016/0304-3975(79)90044-6
[18] Yan X,Han J(2003)CloseGraph:挖掘闭合频繁图模式。In:SIGKDD’03会议记录
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。