×

在大型DNA数据库中基于索引的高效相似性搜索。 (英语) Zbl 1366.92093号

摘要:基于索引的搜索算法是基因组搜索的重要组成部分,如何构造索引是基于索引的算法计算两个DNA序列之间相似性的关键。在本文中,我们提出了一种高效的查询处理方法,该方法使用特殊的转换来构造索引。它使用较小的存储空间,并在DNA序列数据库中快速查找两个序列之间的相似性。首先,将序列划分为等长窗口。我们通过计算查询序列的汉明距离来选择可能的子序列。然后,该算法通过索引字符的频率,包括子序列中字符的位置信息,将每个窗口中的子序列转换为多维向量空间。实验结果表明,与其他基于索引结构的启发式算法相比,该算法具有更快的运行时间。此外,该算法与那些启发式算法一样精确。

MSC公司:

92D20型 蛋白质序列,DNA序列
92-08 生物学问题的计算方法
第68页,共15页 数据库理论
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿尔特舒尔,S.F。;Gish,W。;Miller,W。;Myers,E.W。;Lipman,D.J.,基本局部对齐搜索工具,J.Mol.Biol。,215, 403-410 (1990)
[2] 阿尔特舒尔,S.F。;Madden,T.L。;Schaffer,A.A。;张杰。;张,Z。;Miller,W。;Lipman,D.J.,Gapped BLAST和PSI-BLAST:新一代蛋白质数据库搜索程序,核酸研究,253389-3402(1997)
[3] 曹,X。;李S.C。;Ooi,公元前。;Tung,A.K.H.,Piers:DNA序列数据库中相似性搜索的有效模型,ACM SIGMOD Rec.,33,39-44(2004)
[4] Gusfield,D.,《字符串、树和序列的算法》。《计算机科学与计算生物学》(1997),剑桥大学出版社:剑桥大学出版社纽约·Zbl 0934.68103号
[5] Guttman,A.,R-Trees,空间搜索的动态索引结构,ACM SIGMOD Rec.,47-57(1984)
[6] Jeong,I.S。;Park,K.W。;Lim,H.S.,大型DNA数据库中相似性搜索的快速启发式算法,Proc。FBIT国际会议,335-340(2007)
[7] 蒋,X。;张,P。;Liu,X.,基于索引的同源搜索算法综述,J.Supercomput。,40, 185-212 (2007)
[8] Kahveci,T。;Singh,A.K.,《字符串数据库的有效索引结构》,Proc。VLDB国际会议,351-360(2001)
[9] Kang,S.H。;Choi,M.H。;Jeong,I.S。;Lim,H.S.,《寻找大基因组基因特异性探针的高效两阶段算法》,Proc。FBIT国际会议,205-210(2007)
[10] 马,B。;Tromp,J。;Li,M.,PatternHunter:更快更敏感的同源搜索,生物信息学,18440-445(2002)
[11] Mount,D.W.,《生物信息学:序列和基因组分析》(2001),冷泉港实验室出版社:纽约冷泉港实验出版社
[12] Ozturk,O。;Ferhatosmanoglu,H.,大型生物序列数据库中相似性搜索的有效索引和过滤,Proc。IEEE BIBE,359-366(2003)
[13] 史密斯,T.F。;Waterman,M.S.,《常见分子子序列的识别》,《分子生物学杂志》。,147, 195-197 (1981)
[14] Webb-Robertson,B.J。;Oehmen,C.S。;Shah,A.R.,广义支持向量机成对同源算法的特征向量集成方法,计算。生物化学。,32, 458-461 (2008) ·Zbl 1158.92021号
[15] 威廉姆斯,H.E。;Zobel,J.,基因组数据库的索引和检索,IEEE TKDE,14,63-78(2002)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。