×

用于大型字符串分析的并行后缀排序。 (英文) Zbl 1529.68090号

Wyrzykowski,Roman(编辑)等人,《并行处理与应用数学》。第14届国际会议,PPAM 2022,波兰格但斯克,2022年9月11-14日。修订了选定的论文。第一部分查姆:施普林格。莱克特。注释计算。科学。13826, 71-82 (2023).
摘要:后缀数组是有效支持字符串分析的基本数据结构。序列后缀数组构造算法花费了大约26年的时间来实现时间复杂度和就地排序。在本文中,我们开发了D限制并行诱导(DLPI公司)算法,第一种时间并行后缀数组构造算法。基本思想DLPI公司包括两个方面:将(mathcal{O}(n))大小问题划分为大小为(p)的约化子问题,以便我们可以在(p)处理器上并行处理它们;开发一种高效的并行归纳排序方法,以实现所有简化子问题的正确排序。给出了完整的算法描述,以说明所提思想的实现方法。文中还对该算法进行了时间和空间复杂度分析和证明,证明了该算法的正确性和有效性。提议的DLPI公司该算法可以处理性能可扩展的大型字符串。
关于整个系列,请参见[Zbl 1517.68031号].

MSC公司:

68页第10页 搜索和排序
68宽10 计算机科学中的并行算法
68瓦32 字符串上的算法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Burkhardt,S。;克尔凯宁,J。;Baeza-Yates,R。;查韦斯,E。;Crochemore,M.,《快速轻量级后缀数组构造和检查》,组合模式匹配,55-69(2003),海德堡:Springer,Heidelberg·Zbl 1279.68065号 ·doi:10.1007/3-540-44888-85
[2] Deo,M.,Keely,S.:GPU的并行后缀数组和最不常见的前缀。摘自:第18届ACM SIGPLAN并行编程原理与实践研讨会论文集,第197-206页(2013)。doi:10.1145/2442516.2442536
[3] Flick,P.,Aluru,S.:后缀和最长公共前缀数组的并行分布式内存构造。摘自:《高性能计算、网络、存储和分析国际会议论文集》,第1-10页(2015年)
[4] Futamura,N.,Aluru,S.,Kurtz,S.:并行后缀排序。电气工程和计算机科学-所有奖学金64(2001年)。https://surface.syr.edu/eecs/64
[5] Helman,D.R.,JáJá,J.,Bader,D.A.:一种新的确定性并行排序算法,并进行了实验评估。《实验算法》(JEA)3,4-es(1998)。doi:10.1145/297096.297128·Zbl 1073.68891号
[6] 霍曼,R。;弗勒,D。;Giegerich,R。;Rehmsmeier,M.,mkESA:增强后缀数组构造工具,生物信息学,25,8,1084-1085(2009)·doi:10.1093/bioinformatics/btp112
[7] JáJá,J.:《并行算法导论》,第10卷,第133889页。Addison-Wesley,雷丁(1992)·Zbl 0781.68009号
[8] Kärkkäinen,J.,通过分块后缀排序在小空间中快速BWT,Theoret。计算。科学。,387, 3, 249-257 (2007) ·兹比尔1144.68021 ·doi:10.1016/j.tcs.2007.07.018
[9] Kärkkäinen,J。;桑德斯,P。;Baeten,JCM;Lenstra,JK;帕罗,J。;GJ,Woeginger,简单线性工作后缀数组构造,自动机,语言与编程,943-955(2003),海德堡:施普林格·Zbl 1039.68042号 ·doi:10.1007/3-540-45061-073
[10] 克尔凯宁,J。;桑德斯,P。;Burkhardt,S.,线性工作后缀数组构造,J.ACM(JACM),53,6,918-936(2006)·Zbl 1326.68111号 ·数字对象标识代码:10.1145/1217856.1217858
[11] Kim,DK;Sim,JS;帕克,H。;帕克,K。;Baeza-Yates,R。;查韦斯,E。;Crochemore,M.,后缀数组的线性时间构造,组合模式匹配,186-199(2003),海德堡:Springer,Heidelberg·Zbl 1279.68068号 ·数字对象标识代码:10.1007/3-540-44888-8_14
[12] Ko,P。;Aluru,S.,后缀数组的空间效率线性时间构造,J.Discret。算法,3,2-4143-156(2005)·Zbl 1101.68506号 ·doi:10.1016/j.jda.2004.08.002
[13] 库拉,F。;Sanders,P.,可伸缩并行后缀数组构造,并行计算。,33, 9, 605-612 (2007) ·Zbl 06872844号 ·doi:10.1016/j.parco.2007.06.004
[14] 老挝,B。;农·G。;Chan,WH;Pan,Y.,《多核机器上的快速诱导排序后缀》,J.Supercomput。,74, 7, 3468-3485 (2018) ·doi:10.1007/s11227-018-2395-5
[15] 老挝,B。;农·G。;Chan,WH;Xie,JY,多核计算机上的快速就地后缀排序,IEEE Trans。计算。,67, 12, 1737-1749 (2018) ·Zbl 1517.68094号 ·doi:10.1109/TC.2018.2842050
[16] 新泽西州拉尔森;Sadakane,K.,《更快的后缀排序》,Theoret。计算。科学。,387, 3, 258-272 (2007) ·Zbl 1144.68022号 ·doi:10.1016/j.tcs.2007.07.017
[17] 李,Z。;李,J。;霍,H.,最佳就地后缀排序,Inf.Compute。,285 (2022) ·Zbl 1517.68095号 ·doi:10.1016/j.ic.2021.104818
[18] 美国曼伯。;Myers,G.,《后缀数组:在线字符串搜索的新方法》,SIAM J.Compute。,22, 5, 935-948 (1993) ·Zbl 0784.68027号 ·doi:10.1137/0222058
[19] Maniscalco,M.A.,Puglishi,S.J.:更快的轻量级后缀数组构造。摘自:《组合算法国际研讨会论文集》,第16-29页(2006年)
[20] Manzini,G。;Ferragina,P.,工程轻量级后缀数组构造算法,Algorithmica,40,1,33-50(2004)·Zbl 1082.68867号 ·doi:10.1007/s00453-004-1094-1
[21] 麦克里特,EM,《空间经济后缀树构造算法》,J.ACM(JACM),23,2,262-272(1976)·Zbl 0329.68042号 ·数字对象标识代码:10.1145/321941.321946
[22] Nong,G.,实用线性时间O(1)-常量字母的工作空间后缀排序,ACM Trans。信息系统。(TOIS),31,3,1-15(2013)·doi:10.145/2493175.2493180
[23] 奥西波夫,V。;Calderón-Benavides,L。;González-Caro,C。;查韦斯,E。;Ziviani,N.,共享内存架构的并行后缀数组构造,字符串处理和信息检索,379-384(2012),海德堡:施普林格,海德堡·doi:10.1007/978-3-642-34109-0_40
[24] Puglishi,S.J.、Smyth,W.F.、Turpin,A.H.:后缀数组构造算法的分类。ACM计算。Surv公司。(CSUR)39(2),4-es(2007)。数字对象标识代码:10.1145/1242471.1242472
[25] Shun,J.:最长公共前缀的快速并行计算。摘自:SC 2014:《高性能计算、网络、存储和分析国际会议论文集》,第387-398页。IEEE(2014)。doi:10.1109/SC.2014.37
[26] Shun,J.等人:简短声明:基于问题的基准套件。在:第二十四届ACM算法与架构并行性年度研讨会论文集,第68-70页(2012)。doi:10.1145/2312005.2312018年
[27] Wang,L。;巴克斯特,S。;Owens,JD,GPU上的快速并行倾斜和前缀加倍后缀数组构造,Concurr。计算。实际。有效期:28、12、3466-3484(2016年)·doi:10.1002/cpe.3867
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。