×

词缀数组数据结构及其在RNA二级结构分析中的应用。 (英语) Zbl 1146.68358号

摘要:在大数据集(如完整基因组)中,高效的字符串处理与后缀树和类似的索引数据结构密切相关。对于复杂结构的字符串分析,如搜索RNA二级结构模式,单向后缀树算法不如基于后缀树数据结构的双向算法。词缀树将反向文本的后缀树和后缀树合并在一个树结构中,但其内存需求很大。在本文中,我提出了一种新的数据结构,称为词缀数组,就算法功能而言,它与词缀树等价,但具有较小的内存需求和改进的性能。我将展示词缀数组的线性时间结构,而不使用词缀树的线性时间构造。我还将展示如何将双向词缀树遍历转移到词缀数组,并展示基于新数据结构的大规模RNA二级结构分析的令人印象深刻的结果。

MSC公司:

68第05页 数据结构
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] D.Strothmann,S.Kurtz,S.Gräf,G.Steger,《描述生物序列中复杂模式的语言的语法和语义》,报告2000-06,Technische Fakultät,比勒费尔德大学,2000年。网址:http://bibiserv.techfak.uni-bielefeld.de/HyPa/patternlanguage.ps.gz; D.Strothmann,S.Kurtz,S.Gräf,G.Steger,《描述生物序列中复杂模式的语言的语法和语义》,报告2000-06,Technische Fakultät,比勒费尔德大学,2000年。网址:http://bibiserv.techfak.uni-bielefeld.de/HyPa/patternlanguage.ps.gz
[2] 格拉夫,S。;斯特罗曼,D。;Kurtz,S。;Steger,G.,HyPaLib:由杂交模式定义的RNA和RNA结构元素数据库,核酸研究,29,1,196-198(2001),URL:
[3] J.Stoye,Affix trees,报告编号04,Technische Fakultät,比勒费尔德大学,2000年;J.Stoye,Affix trees,报告编号04,Technische Fakultät,比勒费尔德大学,2000年
[4] Maass,M.,线性双向在线构建词缀树,算法,37,320-334(2003)·Zbl 0964.68512号
[5] Mauri,G。;Pavesi,G.,RNA二级结构中的模式匹配和发现算法,理论计算机科学,335,29-51(2005)·Zbl 1080.68098号
[6] 美国曼伯。;Myers,E.,《后缀数组:在线字符串搜索的新方法》,SIAM计算机杂志,22,5,935-948(1993)·Zbl 0784.68027号
[7] Abouelhoda,M。;Kurtz,S。;Ohlebusch,E.,增强后缀数组及其在基因组分析中的应用,(第二次生物信息学算法研讨会论文集。第二次生物信息学算法研讨会论文集,计算机科学讲义,第2452卷(2002年),施普林格出版社),449-463·Zbl 1016.68622号
[8] Abouelhoda,M。;Kurtz,S。;Ohlebusch,E.,用增强后缀数组替换后缀树,离散算法杂志,253-86(2004)·Zbl 1115.92303号
[9] McCreight,E.,《空间经济后缀树构造算法》,美国计算机学会期刊,23,262-272(1976)·Zbl 0329.68042号
[10] Kim,D。;Sim,J。;帕克,H。;Park,K.,后缀数组的线性时间构造,(组合模式匹配年度研讨会论文集。组合模式匹配年会论文集,CPM 2003。组合模式匹配年度研讨会论文集。组合模式匹配年度研讨会论文集,CPM 2003,计算机科学讲稿,第2089卷(2003),Springer Verlag),186-199·Zbl 1279.68068号
[11] Maass,M.,《计算树和数组的后缀链接》,《信息处理快报》,第101、6、250-254页(2007年)·Zbl 1184.68607号
[12] 马基宁;纳瓦罗,压缩全文索引,ACM计算调查,39,2(2007),第2条·Zbl 1321.68263号
[13] Sim,J.,带后缀数组的小字母表的时空高效搜索,(第二届模糊系统和知识发现会议(2005),Springer),1102-1107
[14] S.库尔茨。
[15] Mauri,G。;Pavesi,G.,使用词缀树在RNA二级结构中发现模式,(组合模式匹配年度研讨会论文集。组合模式匹配年研讨会论文集,CPM 2003。组合模式匹配年度研讨会论文集。组合模式匹配年度研讨会论文集,CPM 2003,计算机科学讲稿,第2676卷(2003),Springer Verlag),278-294·Zbl 1279.92066号
[16] Pesole,G。;刘尼,S。;D’Souza,M.,《PatSearch:一种在核苷酸和蛋白质序列中发现功能元素并评估其统计意义的模式匹配软件》,《生物信息学》,16,439-450(2000)
[17] Grillo,G。;Licciulli,F。;刘尼,S。;斯比萨,E。;G、 P.,PatSearch:检测核苷酸序列中模式和结构基序的程序,核酸研究,313608-3612(2003)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。