×

使用(01^\ast 0)无损种子近似搜索错误率高的短模式。 (英语) Zbl 1362.68306号

摘要:近似模式匹配是一个重要的计算问题,在计算生物学和信息检索中有着广泛的应用。然而,在Levenshtein距离下搜索错误率高(10-20%)的文本中的短模式是一项几乎没有有效解决方案的任务。在这里,我们通过引入一种新型种子来解决这个问题:\(01^\ast 0\)种子。这些种子由两个精确的部分组成,每个部分之间只有一个错误。我们证明了这些种子是无损的,并将它们应用于两个流行应用程序的两种过滤算法,一种是在文本上构建压缩索引,另一种是对模式进行索引。我们还通过实验证明了与实现其他类型种子的替代方法相比,我们的方法的优势。这项工作为设计更高效、更敏感的文本算法开辟了道路。

理学硕士:

68瓦32 字符串上的算法
92D10型 遗传学和表观遗传学
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Altschul,S。;Gish,W。;Miller,W。;迈尔斯,E。;Lipman,D.,基本局部比对搜索工具,分子生物学杂志。,215, 3, 403-410 (1990)
[2] Baeza-Yates,R。;Perleberg,C.,《快速实用的近似字符串匹配》,Inf.Process。莱特。,59, 1, 21-27 (1996) ·Zbl 1046.68514号
[3] Belazzougui,D.,一次编辑错误近似全文索引的改进时空权衡,算法,1-27(2014)
[4] Belazzougui,D。;库尼亚尔,F。;Kärkkäinen,J。;Mäkinen,V.,《双向Burrows-Wheeler变换的通用简洁表示法》,(Algorithms.Algoritoms·Zbl 1394.68449号
[5] Brown,D.G。;李,M。;Ma,B.,局部排列播种的最新发展教程,J.Bioinform。计算。生物学,2,4,819-842(2004)
[6] Burkhardt,S。;Kärkkäinen,J.,用于Levenshtein距离的单包q-gram滤波器,(组合模式匹配。组合模式匹配,Lect.Notes Compute.Sci.,第2373卷(2002)),225-234·Zbl 1077.68945号
[7] Chan,H.-L。;Lam,T.-W。;Sung,W.-K。;谭,S.-L。;Wong,S.-S.,近似模式匹配的线性尺寸指数,J.Discret。算法,9,4,358-364(2011)·Zbl 1230.68223号
[8] 查韦斯,E。;Navarro,G.,近似字符串匹配的度量指标,(Rajsbaum,S.,LATIN:理论信息学。LATIN:Theoryal Informatics,Lect.Notes Compute Sci.,第2286卷(2002),Springer),181-195·Zbl 1059.68637号
[9] 美国脊髓灰质炎。;克罗萨,V。;Lodeyro,A。;北博洛尼亚。;马丁。;北卡罗来纳州卡里略。;Schommer,C。;Palatnik,J.,通过植物物种中的保守靶向识别新的microRNA调节基因,核酸研究,40,18,8893-8904(2012)
[10] Döring,A。;韦斯,D。;Rausch,T.等人。;Reinert,K.,SeqAn,一个高效的通用C++库,用于序列分析,BMC Bioninform。,9, 1, 11-19 (2008)
[11] 费拉吉纳,P。;Manzini,G.,压缩文本索引,J.ACM,52,4,552-581(2005)·Zbl 1323.68261号
[12] 费拉吉纳,P。;Manzini,G。;梅基宁,V。;Navarro,G.,序列和全文索引的压缩表示,ACM Trans。算法,3,2(2007)·Zbl 1321.68263号
[13] 费拉吉纳,P。;冈萨雷斯,R。;纳瓦罗,G。;Venturini,R.,《压缩文本索引:从理论到实践》,J.Exp.Algorithmics,13,12(2009)·Zbl 1284.68255号
[14] Hyyrö,H.,计算Levenshtein和Damerau编辑距离的位矢量算法,Nord.J.Compute。,10, 1, 29-39 (2003) ·Zbl 1065.68057号
[15] Kärkkäinen,J。;Na,J.C.,用于近似字符串匹配的快速过滤器,(ALENEX(2007),SIAM),84-90·1428.68400兹罗提
[16] Keich,U。;李,M.L。;马,B。;Tromp,J.,《关于相似性搜索的间隔种子》,《离散应用》。数学。,138, 3, 253-263 (2004) ·Zbl 1043.92009年
[17] 科佐马拉,A。;Griffiths-Jones,S.,miRBase:使用深度测序数据注释高置信microRNA,核酸研究,42,D68-D73(2014)
[18] 库切洛夫,G。;不,L。;Roytberg,M.,《种子敏感性的统一框架及其在子集种子中的应用》,J.Bioninform。计算。生物学,4553-569(2006)
[19] 库切洛夫,G。;不,L。;Roytberg,M.,子集种子自动机·兹比尔1139.68369
[20] 库切洛夫,G。;Salikhov,K。;Tsur,D.,使用双向索引的近似字符串匹配,(组合模式匹配.组合模式匹配,Lect.Notes Compute.Sci.(2014),Springer),222-231·Zbl 1409.68356号
[21] Langmead,B。;Salzberg,S.,《与Bowtie 2的快速间隙读数校准》,《自然方法》,9,4,357-359(2012)
[22] 李,H。;Durbin,R.,Burrows-Wheeler变换的快速准确短读比对,生物信息学,25,141754-1760(2009)
[23] 马,B。;Tromp,J。;Li,M.,Patternhunter-更快更敏感的同源搜索,生物信息学,18,3,440-445(2002)
[24] Maaß,M.G。;Nowak,J.,《错误的文本索引》,J.Discret。算法,5,4,662-681(2007)·兹比尔1158.68382
[25] 梅基宁,V。;瓦利马基,N。;Laaksonen,A。;Katainen,R.,《短读映射中向后回溯的统一观点》(Algorithms and Applications(2010),Springer),182-195年·Zbl 1284.92075号
[26] 纳瓦罗,G。;Baeza-Yates,R.,近似字符串匹配的混合索引方法,J.Discret。算法,119-27(2001)
[27] 佩特里,M。;Culppeper,J.S.,文本中近似模式匹配的高效索引算法,(第十七届澳大拉西亚文档计算研讨会论文集。第十七届澳大利亚文档计算研讨会会议论文集,ADCS’12(2012),ACM:美国纽约州纽约市ACM),9-16
[28] Russo,L。;纳瓦罗,G。;Oliveira,A.L。;Morales,P.,压缩索引的近似字符串匹配,算法,2,3,1105-1136(2009)·Zbl 1461.68271号
[29] Schbath,S。;马丁·V。;Zytnicki,M。;Fayolle,J。;卢克斯,V。;Gibrat,J.-F.,《绘制基因组序列:算法概述和实际比较分析》,J.Compute。生物学,19,6,796-813(2012)
[30] 施纳丁格,T。;Ohlebusch,E。;Gog,S.,在具有小波树的字符串中进行双向搜索,(组合模式匹配。组合模式匹配,Lect.Notes Comput.Sci.,vol.6129(2010),Springer),40-50·Zbl 1286.68533号
[31] 斯莱特,G。;Birney,E.,生物序列比较启发式算法的自动生成,BMC Bioninform。,6, 1-11 (2005)
[32] 汤普森,J。;Milos,P.,单分子DNA测序的性质和应用,基因组生物学。,12, 2, 217-226 (2011)
[33] 弗罗兰,C。;Salson,M。;Touzet,H.,用于搜索错误率高的短模式的无损种子,(IWOCA(组合算法国际研讨会)。IWOCA(组合算法国际研讨会),Lect。注释计算。科学。,第8986卷(2014)),第364-375页·兹比尔1401.68259
[34] 瓦格纳,R。;Fischer,M.,串对串校正问题,J.ACM,21,1,168-173(1974)·Zbl 0278.68032号
[35] 韦斯,D。;霍尔特格鲁,M。;Reinert,K.,RazerS 3:更快、完全敏感的读取映射,生物信息学,28,20,2592-2599(2012)
[36] Wu,S。;Manber,U.,《快速文本搜索:允许错误,Commun》。ACM,35,10,83-91(1992)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不声称其完整性或完全匹配。