×

更好的贪婪序列聚类和快速带对齐。 (英语) Zbl 1443.92136号

Schwartz,Russell(编辑)等人,第17届生物信息学算法国际研讨会,2017年WABI,美国马萨诸塞州波士顿,2017年8月21日至23日。诉讼程序。Wadern:达格斯图尔宫——莱布尼茨Zentrum für Informatik。LIPIcs–莱布尼茨国际程序。通知。88,第3条,第13页(2017年)。
摘要:比较一个字符串和一组大序列是贪婪启发式聚类基因组数据的关键子程序。将16S rRNA基因序列聚类为操作分类单元(OTU)是研究微生物群落的常用方法。我们提出了一种新的贪婪聚类方法,使用树状数据结构和四个俄罗斯人加速。我们根据聚类过程中的比较次数来评估方法的运行时间,并在实验结果中表明,与其他方法的二次运行时间相比,比较次数随数据集大小线性增长。我们将通过我们的方法输出的聚类与流行的贪婪聚类工具UCLUST进行比较。我们表明,我们生成的簇可以更紧密,也可以更大。
关于整个系列,请参见[Zbl 1372.68022号].

MSC公司:

92D20型 蛋白质序列,DNA序列
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[2] 斯蒂芬·F·奥尔特舒尔、沃伦·吉什、韦布·米勒、尤金·迈尔斯和大卫·J·利普曼。基本本地对齐搜索工具。{分子生物学杂志},215(3):403-4101990。
[3] J.Gregory Caporaso、Christian L.Lauber、William A Walters、Donna Berg-Lions、James Huntley、Noah Fierer、Sarah M.Owens、Jason Betley、Louise Fraser、Markus Bauer等。Illumina HiSeq和MiSeq平台上的超高通量微生物群落分析。{\it ISME杂志},6(8):1621-16242012。
[4] 罗伯特·C·埃德加。搜索和聚类比BLAST快几个数量级。《生物信息学》,26(19):2460-24612010年。
[5] J.费尔森斯坦。PHYLIP-系统发育推断包(3.2版)。《分支分类学》,5:164-1661989年。
[6] Mohammadeza Ghodsi、Bo Liu和Mihai Pop。DNACLUST:准确高效的系统发育标记基因聚类。{\it-BMC生物信息学},12(1):2712011。
[7] 丹·古斯菲尔德。字符串、树和序列的算法:计算机科学和计算生物学。剑桥大学出版社,1997年·Zbl 0934.68103号
[8] 弗拉基米尔·列文斯坦(Vladimir I.Levenshtein)。能够纠正删除、插入和反转的二进制代码。1966年,第10卷,707-710页·Zbl 0149.15905号
[9] 李伟忠和亚当·戈德齐克。Cd-hit:一个快速程序,用于聚类和比较大量蛋白质或核苷酸序列。{生物信息学},22(13):1658-16592006。
[10] 威廉·马塞克(William J.Masek)和迈克尔·帕特森(Michael S.Paterson)。如何快速计算字符串编辑距离。在D.Sankoff和J.B.Kruskal编辑的《时间扭曲、字符串编辑和大分子:序列比较的理论和实践》中,第337-349页。Addison Wesley出版社。马萨诸塞州,1983年。
[11] 威廉·马塞克(William J.Masek)和迈克·帕特森(Mike Paterson)。计算字符串编辑距离的更快算法。计算机系统科学杂志,20(1):18-311980。doi:10.1016/0022-0000(80)90002-1·Zbl 0436.68044号
[12] 杰拉德·缪泽、埃伦·德瓦尔和安德烈·尤特林登。通过变性梯度凝胶电泳对16S rRNA编码的聚合酶链反应扩增基因进行分析,对复杂的微生物种群进行分析。{应用与环境微生物学},59(3):695-700,1993。
[13] 尤金·迈尔斯。一种{it-O}({it-ND})差分算法及其变体。{\it Algorithmica},1(1):251-2661986·Zbl 0639.68054号
[14] 吉恩·迈尔斯。基于动态规划的快速位向量近似字符串匹配算法。{美国医学会杂志(JACM)},46(3):395-4151999·Zbl 1065.68663号
[15] Temple F.Smith和Michael S.Waterman。常见分子子序列的鉴定。分子生物学杂志,147(1):195-1971981。
[16] Julie D.Thompson、Toby Gibson、Des G.Higgins等,《使用ClustalW和ClustalX的多序列比对》。{生物信息学中的当前协议},第2-3页,2002年。
[17] 王路生和姜涛。关于多序列比对的复杂性。计算生物学杂志,1(4):337-3481994。
[18] 詹姆斯·怀特(James R.White)、萨科特·纳瓦拉卡(Saket Navlakha)、尼兰詹·纳加拉扬(Niranjan Nagarajan)、穆罕默德·雷扎·戈德西(Mohammad-Reza Ghodsi)、卡尔·金斯福德(Carl Kingsford。系统发育标记的比对和聚类——微生物多样性研究的暗示。{\it-BMC生物信息学},11(1):1522010。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。