×

FACC:一种基于云计算的新型有限自动机,用于多个最长公共子序列搜索。 (英语) Zbl 1264.68222号

摘要:搜索多个最长公共子序列(MLCS)在生物信息学、信息处理和数据挖掘等领域有着重要的应用,随着生物数据的复杂性和规模不断增加,算法的效率和有效性也不尽如人意。为了克服现有MLCS算法的不足,并考虑到云计算的MapReduce并行框架是一种有前途的高性能并行计算技术,在MapReduceParallel框架下提出了一种基于云计算的新型有限自动机FACC,从而开发出一种更高效的通用并行MLCS算法。FACC采用匹配对和有限自动机的思想,通过预处理序列、构造后继表和公共子序列有限自动机来搜索MLCS。对来自真实DNA和氨基酸序列的一组基准进行了仿真实验,结果表明,所提出的FACC算法优于当前领先的并行MLCS算法FAST-MLCS。

MSC公司:

68瓦32 字符串上的算法
65年第68季度 形式语言和自动机
68宽10 计算机科学中的并行算法
68瓦40 算法分析

软件:

MapReduce
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] W.S.Chen,P.C.Yuen,X.Xie,“基于核机器的等级提升正则化判别分析人脸识别方法”,《神经计算》,第74卷,第17期,第2953-2960页,2011年·doi:10.1016/j.neucom.2011.04.019
[2] A.Cherkasov,“生物信息学:基因和蛋白质分析的实用指南”,《美国人类生物学杂志》,第17卷,第3期,第387-389页,2005年。
[3] E.W.Edmiston、N.G.Core、J.H.Saltz和R.M.Smith,“生物序列比较算法的并行处理”,《国际并行程序设计杂志》,第17卷,第3期,第259-275页,1988年·兹伯利0662.92013 ·doi:10.1007/BF02427852
[4] E.Lander,“数据并行计算机上的蛋白质序列比较”,摘自《并行处理国际会议论文集》(ICPP'88),第257-263页,宾夕法尼亚州立大学,宾夕法尼亚大学公园,美国,1988年。
[5] A.Galper和D.L.Brutlag,“使用动态编程方法进行并行相似性搜索和对齐”,斯坦福大学技术代表,美国加州帕洛阿尔托,1990年。
[6] D.Maier,“关于子序列和超序列的一些问题的复杂性”,《ACM杂志》,第25卷,第2期,第322-336页,1978年·Zbl 0371.68018号 ·doi:10.1145/322063.322075
[7] R.A.Wagner和M.J.Fischer,“串对串校正问题”,《ACM杂志》,第21卷,第1期,第168-173页,1974年·Zbl 0278.68032号 ·doi:10.1145/321796.321811
[8] D.S.Hirschberg,“计算最大公共子序列的线性空间算法”,《ACM通信》,第18卷,第6期,第341-343页,1975年·Zbl 0301.68042号 ·doi:10.1145/360825.360861
[9] J.D.Ullman、A.V.Aho和D.S.Hirschberg,“最长公共子序列问题复杂性的界限”,《ACM杂志》,第23卷,第1期,第1-12页,1976年·Zbl 0316.68027号 ·doi:10.145/312913.12122
[10] J.W.Hunt和T.G.Szymansi,“计算最长公共子序列的快速算法”,《ACM通信》,第20卷,第5期,第350-353页,1977年·Zbl 0354.68078号 ·数字对象标识代码:10.1145/359581.359603
[11] S.Bespamyatnikh和M.Segal,“枚举最长递增子序列和耐心排序”,《信息处理快报》,第76卷,第1-2期,第7-11页,2000年·Zbl 1338.68205号 ·doi:10.1016/S0020-0190(00)00124-1
[12] W.J.Masek和M.S.Paterson,“计算字符串编辑距离的更快算法”,《计算机与系统科学杂志》,第20卷,第1期,第18-311980页·Zbl 0436.68044号 ·doi:10.1016/0022-0000(80)90002-1
[13] A.Aggarwal和J.Park,“多维单调数组搜索注释”,载于《第29届计算机科学基础年度研讨会论文集》,第497-512页,美国纽约州怀特普兰斯,1988年。
[14] A.Apostolico、M.J.Atallah、L.L.Larmore和S.McFaddin,“字符串编辑和相关问题的高效并行算法”,《SIAM计算杂志》,第19卷,第5期,第968-988页,1990年·Zbl 0711.68055号 ·数字对象标识代码:10.1137/0219066
[15] V.Freschi和A.Bogliolo,“运行长度编码字符串之间最长的公共子序列:具有改进并行性的新算法”,《信息处理快报》,第90卷,第4期,第167-173页,2004年·Zbl 1177.68248号 ·doi:10.1016/j.ipl.2004.02.011
[16] W.Liu和L.Chen,“生物序列比对的快速最长通用子序列算法”,IFIP国际信息处理联合会,第258卷,第61-69页,2008年·doi:10.1007/978-0-387-77251-68
[17] D.Korkin、Q.Wang和Y.Shang,“多重最长公共子序列(MLCS)问题的高效并行算法”,载于《第37届国际并行处理会议论文集》(ICPP’08),第354-363页,美国俄勒冈州波特兰,2008年9月·doi:10.1109/ICPP.2008.79
[18] Q.Wang、D.Korkin和Y.Shang,“多重最长公共子序列(MLCS)问题的有效优势点算法”,载于《第21届国际人工智能联合会议论文集》(IJCAI’09),第1494-1499页,2009年7月。
[19] Q.Wang、D.Korkin和Y.Shang,“快速多重最长公共子序列(MLCS)算法”,IEEE知识与数据工程学报,第23卷,第3期,第321-334页,2011年·doi:10.1010/TKDE.2010.123
[20] J.Yang、Y.Xu和Y.Shang,“GPU上最长公共子序列问题的高效并行算法”,《世界工程大会论文集》(WCE’10),第1卷,第499-504页,2010年7月。
[21] M.L.Fredman,“关于计算最长递增子序列的长度”,《离散数学》,第11卷,第1期,第29-35页,1975年·Zbl 0312.68027号 ·doi:10.1016/0012-365X(75)90103-X
[22] I.H.Yang、C.P.Huang和K.M.Chao,“计算最长公共递增子序列的快速算法”,《信息处理快报》,第93卷,第5期,第249-253页,2005年·兹比尔1173.68839 ·doi:10.1016/j.ipl.2004.10.014
[23] G.S.Brodal、K.Kaligosi、I.Katriel和M.Kutz,“计算最长公共递增子序列的更快算法”,载于《第17届组合模式匹配年度研讨会论文集》(CPM'06),第4900卷,第330-3412006页·Zbl 1196.68344号 ·doi:10.1007/11780441_30
[24] M.Michael,《云计算:改变在线工作和协作方式的基于Web的应用程序》,SAMS出版社,2009年。
[25] J.Dean,“MapReduce的经验,大规模计算的抽象”,摘自《第15届并行架构和编译技术国际会议论文集》(PACT'06),第1页,IEEE出版社,2006年9月·doi:10.1145/1152154.1152155
[26] J.Dean和S.Ghemawat,“MapReduce:大型集群上的简化数据处理”,《ACM通信》,第15卷,第1期,第107-113页,2008年。
[27] 铜绿假单胞菌PAO1染色体、全基因组,http://www.ncbi.nlm.nih.gov/nucore/110645304?report=fasta。
[28] http://dip.doe-mbi.ucla.edu/dip/Download.cgi。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。