×

使用缺失单词进行无对齐序列比较。 (英语) Zbl 1400.68264号

摘要:序列比较是几乎所有比较基因组分析的先决条件。它通常是通过序列比对技术实现的,这种技术的计算成本很高。这导致了对无对齐技术的更多研究,该技术基于根据组成模式参考序列组成的测量。这些度量,例如(q)-gram距离,通常是根据序列的长度以时间线性方式计算的。在本文中,我们关注的是互补思想:如何基于序列中没有出现的信息有效地比较两个序列。单词是缺词如果它没有出现在序列中,那么它就属于某个序列。缺少的单词是最小值如果它的所有适当因素都出现在序列中。在这里,我们提出了第一个线性时间和线性空间算法,通过考虑全部的他们最少的缺席词。在此过程中,我们给出了组合感兴趣的结果,并将所提出的技术扩展到比较循环序列。我们还提出了一个算法,给定一个长度为(n)的单词\(x),计算该长度的所有因子都出现在时间和空间(mathcal{O}(n))中的最小缺失单词\(x\)中的最大整数。最后,我们证明了一个词的最小缺词数的已知渐近上界是紧的。

MSC公司:

68瓦32 字符串上的算法
68兰特 单词组合学
92D10型 遗传学和表观遗传学
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 克罗西莫尔,M。;菲奇,G。;梅尔卡什,R。;Pissis,S.P.,使用最小缺失词和应用进行线性时间序列比较,(拉丁语,LNCS,第9644卷,(2016),施普林格-柏林-海德堡),334-346·Zbl 1475.68467号
[2] Vinga,S。;Almeida,J.,《无对齐序列比较综述》,生物信息学,19513-523,(2003)
[3] Domazet-Lošo,M。;Haubold,B.,基因组间成对距离的有效估计,生物信息学,25,24,3221-3227,(2009)
[4] 格罗西,R。;伊利奥普洛斯,C.S。;梅尔卡什,R。;北卡罗来纳州皮桑蒂。;Pissis,S.P。;Retha,A。;Vayani,F.,《循环序列比较:算法和应用》,《分子生物学算法》。,11, 12, (2016)
[5] 阿奎斯蒂,C。;Poste,G。;柯蒂斯博士。;Kumar,S.,Nullomers:真的是自然选择的问题吗?,《公共科学图书馆·综合》第2期、第10期(2017年)
[6] 贝亚尔,M。;偏头痛,F。;Restivo,A。;Sciortino,M.,《象征动力学中的禁忌词》,Adv.Appl。数学。,25, 2, 163-193, (2000) ·Zbl 0965.37014号
[7] 克罗西莫尔,M。;偏头痛,F。;Restivo,A.,Automata和禁语,Inf.Process。莱特。,67, 111-117, (1998) ·Zbl 1339.68145号
[8] 偏头痛,F。;Restivo,A。;Sciortino,M.,《词语和禁忌因素》,Theor。计算。科学。,273,1-299-117,(2002)·Zbl 0997.68093号
[9] Pinho,A.J。;费雷拉,P.J.S.G。;加西亚,S.P。;罗德里格斯,J.M.O.S.,《关于寻找最小缺失单词》,BMC生物信息。,10, 1, (2009)
[10] 福凯,H。;Ota,T。;Morita,H.,《关于快速且节省内存的抗衰退数组构造》(ISIT,(2012),IEEE),1092-1096
[11] 巴顿,C。;赫里奥,A。;穆沙尔。;Pissis,S.P.,使用后缀数组线性计算最小缺失单词,BMC Bioninform。,15, 388, (2014)
[12] 巴顿,C。;赫里奥,A。;Mouchard,L。;Pissis,S.P.,《平行计算最小缺失单词》(PPAM,LNCS,第9574卷,(2015)),243-253
[13] Belazzougui,D。;库尼亚尔,F。;Kärkkäinen,J。;Mäkinen,V.,双向Burrows-Wheeler变换的通用简洁表示,(ESA,LNCS,第8125卷,(2013)),133-144·Zbl 1394.68449号
[14] 赫里奥,A。;Pissis,S.P。;Puglishi,S.J.,Emmaw:计算外部记忆中的最小缺失单词,生物信息学,33,17,2746-2749,(2017)
[15] Chairungsee,S。;Crochemore,M.,用最少的缺失词建立系统发育,Theor。计算。科学。,450, 109-116, (2012) ·兹比尔1243.68332
[16] 克罗西莫尔,M。;赫里奥,A。;库切洛夫,G。;Mouchard,L。;Pissis,S.P。;Ramusat,Y.,《滑动窗口中的最小缺失词及其在线模式匹配应用》(FCT,LNCS,第10472卷,(2017),施普林格-柏林-海德堡),164-176·Zbl 1441.68301号
[17] Fici,G.,《最低限度的禁忌词和应用》(2006),马内拉瓦莱大学博士论文
[18] 克罗西莫尔,M。;Hancart,C。;Lecroq,T.,《字符串算法》,(2007),剑桥大学出版社,纽约州纽约市,美国·Zbl 1137.68060号
[19] 美国曼伯。;Myers,E.W.,后缀数组:一种在线字符串搜索的新方法,SIAM J.Comput。,22, 5, 935-948, (1993) ·Zbl 0784.68027号
[20] 农·G。;张,S。;Chan,W.H.,通过几乎纯诱导排序构建线性后缀数组,(DCC,(2009),IEEE),193-202
[21] Fischer,J.,《诱导LCP阵列》,(WADS,LNCS,第6844卷,(2011)),374-385·Zbl 1342.68108号
[22] Farach,M.,大字母的最佳后缀树构造,(FOCS,(1997)),137-143
[23] 费舍尔,J。;Heun,V.,静态数组上距离最小查询的空间效率预处理方案,SIAM J.Compute。,40, 2, 465-492, (2011) ·Zbl 1222.05024号
[24] 伊利。;纳瓦罗,G。;Tinta,L.,重温最长的常见扩展问题及其在近似字符串搜索中的应用,J.Discret。算法,8,4,418-428,(2010)·Zbl 1213.68719号
[25] G.Fici,A.Restivo,L.Rizzo,循环词的最小禁止因子,Theor。计算。科学。https://doi.org/10.1016/j.tcs.2018.05.037; G.Fici,A.Restivo,L.Rizzo,循环词的最小禁止因子,Theor。计算。科学。https://doi.org/10.1016/j.tcs.2018.05.037 ·Zbl 1405.68261号
[26] Ota,T。;Morita,H.,《关于有限字母表固定遍历源的通用抗衰落编码》(ISITA,(2014),IEEE),294-298
[27] 佩夫茨纳,P.A。;Tang,H。;Waterman,M.S.,《DNA片段组装的欧拉路径方法》,Proc。国家。阿卡德。科学。,98, 17, 9748-9753, (2001) ·Zbl 0993.92018号
[28] 菲奇,G。;偏头痛,F。;Restivo,A。;Sciortino,M.,通过最小禁止词进行单词组装,Theor。计算。科学。,359, 1, 214-230, (2006) ·Zbl 1097.68108号
[29] 伊利·L。;Smyth,W.F.,最小唯一子串和最大重复,Fundam。通知。,110, 1-4, 183-195, (2011) ·Zbl 1252.68360号
[30] 弗雷德曼,M.L。;Komlós,J。;Szemerédi,E.,存储具有O(1)最坏情况访问时间的稀疏表,J.ACM,31,3,538-544,(1984)·Zbl 0629.68068号
[31] 加博,H.N。;Tarjan,R.E.,不相交集并特殊情况下的线性时间算法,J.Compute。系统。科学。,30, 2, 209-221, (1985) ·Zbl 0572.68058号
[32] 巴顿,C。;Kociumaka,T。;刘,C。;Pissis,S.P。;Radoszewski,J.,索引加权序列:整洁高效,CoRR·Zbl 1436.68082号
[33] 加西亚,S.P。;Pinho,O.J。;罗德里格斯,J.M.O.S。;巴斯托斯,C.A.C。;Ferreira,P.J.S.G.,《原核生物和真核生物基因组中的最小缺失词》,《公共科学图书馆·综合》,6,(2011)
[34] Silva,R.M。;普拉塔斯,D。;卡斯特罗,L。;Pinho,A.J。;Ferreira,P.J.S.G.,埃博拉病毒基因组中发现的三个最小序列,人类DNA中缺失,生物信息学,31,15,2421-2425,(2015)
[35] 莫西格,A。;Hofacker,I.L。;Stadler,P.F.,循环序列的比较分析:类病毒和其他小循环rna,(GCB,LNI,第83卷,(2006)),93-102
[36] Goios,A.公司。;佩雷拉,L。;博格,M。;V·麦考利。;Amorim,A.,实验室小鼠菌株的Mtdna系统发育和进化,基因组研究,17,3,293-298,(2007)
[37] 巴顿,C。;伊利奥普洛斯,C.S。;R.昆都。;Pissis,S.P。;Retha,A。;Vayani,F.,《改进多个环形序列比对的准确有效方法》,(SEA,LNCS,第9125卷,(2015)),247-258·Zbl 1462.68244号
[38] 弗莱彻,W。;Yang,Z.,《不可磨灭:生物序列进化的灵活模拟器》,《分子生物学》。演变。,26, 8, 1879-1888, (2009)
[39] Wheeler,T.J.,《与NINJA合并的大规模社区》,(WABI,LNCS,第5724卷,(2009)),375-389
[40] 塞图,N。;Nei,M.,邻接法:重建系统发育树的新方法,分子生物学。演变。,4, 4, 406-425, (1987)
[41] Robinson博士。;Fould,L.,系统发育树比较,数学。生物科学。,53, 1-2, 131-147, (1981) ·Zbl 0451.92006号
[42] Maes,M.,关于循环串对串校正问题,Inf.Process。莱特。,35, 2, 73-78, (1990) ·Zbl 0697.68044号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。