×

为模式匹配算法计算字符访问计数分布的算法。 (英语) Zbl 1461.68270号

摘要:我们提出了一个框架,用于对基于窗口的模式匹配算法(如Boyer-Moore、Horspool、反向DAWG匹配、反向Oracle匹配等)进行精确的概率分析。特别是,我们开发了一种算法,可以有效地计算随机文本模型中任意给定模式的模式匹配算法的运行时间开销(例如文本字符访问数)的分布。文本模型的范围从简单的统一模型到高阶马尔可夫模型或隐马尔可夫模式(HMM)。此外,我们提供了一种算法来计算差异两种模式匹配算法的运行时间开销。在方法上,我们使用有限自动机的扩展,我们称之为确定性算术自动机(DAA)和概率算术自动机(PAAs)[作者,Lect.Notes Compute.Sci.5029,95–106(2008;Zbl 1143.68440号)]。给定一个算法、一个模式和一个文本模型,构造一个PAA,从中可以使用动态规划导出所寻求的分布。据我们所知,这是首次通过计算整个运行时间开销分布来准确分析基于子串或后缀的模式匹配算法。在实验上,我们比较了Horspool算法、反向DAWG匹配和反向Oracle匹配在短长度原型模式上的差异,并为这些计算提供了最小DAA大小的统计数据。

MSC公司:

68瓦32 字符串上的算法
65年第68季度 形式语言和自动机
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Marschall,T。;拉赫曼,S。;概率算法自动机及其在模式匹配统计中的应用;德国柏林,2008年,95-106中·Zbl 1143.68440号
[2] Knuth,D.E。;莫里斯,J。;普拉特,V.R。;字符串中的快速模式匹配;SIAM J.计算:1977; 第6卷,323-350·Zbl 0372.68005号
[3] 博伊尔,R.S。;摩尔,J.S。;一种快速字符串搜索算法;Commun公司。ACM:1977年;第20卷,762-772·Zbl 1219.68165号
[4] 线轴,R.N。;字符串的实用快速搜索;柔和-实际。实验时间:1980年;第10卷,501-506。
[5] 周日,D.M。;一种非常快速的子串搜索算法;Commun公司。ACM:1990年;第33卷,132-142。
[6] 克罗西莫尔,M。;Czumaj,A。;Gasieniec,L。;Jarominek,S。;Lecroq,T.等人。;普兰道斯基,W。;W.莱特。;加速两种字符串匹配算法;算法:1994年;第12卷,247-267·Zbl 0942.68574号
[7] Allauzen,C。;克罗西莫尔,M。;拉夫诺特,M。;基于弱因子识别的高效字符串匹配实验,51-72. ·Zbl 0992.68501号
[8] 纳瓦罗,G。;Raffinot,M;字符串中的灵活模式匹配:英国剑桥,2002年·Zbl 0992.92029号
[9] Baeza-Yates,R.A。;Gonnet,G.H。;Régnier,M。;Boyer-Moore型字符串搜索算法分析,328-343. ·Zbl 0800.68474号
[10] Baeza-Yates,R.A。;Régnier,M。;boyer-moore-horspool算法的平均运行时间;西奥。计算。科学:1992; 第92卷,19-31·Zbl 0747.68020号
[11] 马哈茂德,H.M。;斯迈思,R.T。;Régnier,M。;Boyer-Moore-Horspool字符串匹配启发式分析;随机结构。算法:1997年;第10卷,169-186·Zbl 0872.60007号
[12] R.T.史密斯。;基于马尔可夫输入的Boyer-Moore-Horspool启发式算法;随机结构。算法:2001年;第18卷,153-163·Zbl 0973.60021号
[13] Tsai,T。;Boyer-Moore算法的平均案例分析;随机结构。算法:2006年;第28卷,481-498·Zbl 1110.68165号
[14] 尼科德梅,P。;Salvy,B。;弗拉乔莱特,P。;母题统计;西奥。计算。科学:2002年;第287卷,第593-617页·Zbl 1061.68118号
[15] 尼科德梅,P。;Regexpcount,一个用于计算正则表达式和单词问题的符号包;芬达姆。通知:2002年;第56卷,第71-88页·Zbl 1051.68154号
[16] 努埃尔,G。;模式马尔可夫链:通过确定性有限自动机的最优马尔可夫嵌入;J.应用。概率:2008; 第45卷,226-243·Zbl 1142.65010号
[17] 拉德泽,M。;医学博士贝特顿。;奈特·R。;多模式匹配:一种马尔可夫链方法;数学杂志。生物学:2008;第56卷,第51-92页·Zbl 1147.65005号
[18] Marschall,T。;拉赫曼,S。;基于概率算术自动机的Horspool和Sunday模式匹配算法的精确分析,439-450之间·Zbl 1284.68701号
[19] Marschall,T。;拉赫曼,S。;高效的精确模体发现;生物信息学:2009;第25卷,i356-i364。
[20] 爱马仕。;拉赫曼,S。;用概率算术自动机计算对准种子灵敏度;德国柏林,2008年,318-329.
[21] 霍普克罗夫特,J。;有限自动机状态最小化的n-log-n算法;机器和计算理论:纽约,纽约,美国1971年,189-196. ·兹比尔0293.94022
[22] Knuutila,T。;用Hopcroft重新描述一种算法;西奥。计算。科学:2001; 第250卷,333-363页·Zbl 0952.68077号
[23] 库切洛夫,G。;不,L。;Roytberg,M。;种子敏感性统一框架及其在子集种子中的应用;J.生物信息。计算。生物学:2006;第4卷,553-569。
[24] 舒尔茨,M。;韦斯,D。;Rausch,T。;Döring,A。;Reinert,K。;温格伦,M。;快速自适应变阶马尔可夫链构造;德国柏林,2008年,306-317.
[25] Wu,S。;曼伯,美国;多模式搜索的快速算法:图森,亚利桑那州,美国1994。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。