×

研究LZ词的分布及其在序列比较中的应用。 (英语) Zbl 1411.92231号

摘要:Lempel-Ziv复杂度已被广泛用于序列比较,并取得了令人满意的结果,但迄今为止尚未对穷举历史中的成分分布进行研究。本文研究了LZ词的整体分布,并提出了一种新的序列比较统计方法。考虑到组件的长度,我们修改了Lempel-Ziv复杂性并获得了各种LZ单词集。我们没有计算LZ单词的内容,而是在LZ单词集上定义了一系列集合操作来比较生物序列。为了评估该方法的有效性,我们进行了两组实验,并将其与基于对齐的方法进行了比较。

MSC公司:

92D20型 蛋白质序列,DNA序列
92D10型 遗传学和表观遗传学
19年第68季度 描述复杂性和有限模型

软件:

菲利普
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Apostolico,A。;Denas,O.,《通过穷举子串合成计算序列距离的快速算法》,《分子生物学算法》,3,13(2008)
[2] Bacha,S.,Baurain,D.,2005年。Lempel-Ziv复杂性在蛋白质家族无比对序列比较中的应用。2005年比荷卢经济共同体生物信息学会议。;Bacha,S.,Baurain,D.,2005年。Lempel-Ziv复杂性在蛋白质家族无比对序列比较中的应用。2005年比荷卢生物信息学会议。
[3] 布莱斯德尔,B.E.,1986年。不需要序列比对的序列集的相似性度量。收录于:《美国国家科学院院刊》第83卷,第5155-5159页。;布莱斯德尔,B.E.,1986年。不需要序列比对的序列集的相似性度量。收录于:《美国国家科学院院刊》,第83卷,第5155-5159页·Zbl 0592.92011号
[4] Chen,W。;Zhang,Y.S.,RNA分子的比较分析,数学和计算机化学中的MATCH通信,67,253-268(2012)
[5] 杜宾,R。;Eddy,S.R。;Krogh,A。;Mitchison,G.,《生物序列分析》(1998),剑桥大学出版社·Zbl 0929.92010号
[6] 埃文斯,J。;Grant,G.,《生物信息学中的统计方法:简介》(2005),Springer Science:Springer科学,纽约·Zbl 1138.92001号
[7] Felsenstein,J.,PHYLIP-系统发育推断包(3.2版),分支系统学,5164-166(1989)
[8] Fichant,G。;Gautier,C.,预测核酸序列中蛋白质编码区的统计方法,计算应用生物科学,3287-295(1987)
[9] Gotoh,O.,《生物序列匹配的改进算法》,《分子生物学杂志》,162705-708(1982)
[10] 顾伟(Gu,W.)。;周,T。;马,J。;太阳,X。;Lu,Z.,SARS冠状病毒和其他病毒在尼多韦目中的同义密码子用法分析,病毒研究,101155-161(2004)
[11] Handl,J。;Knowles,J。;Kell,D.B.,后基因组数据分析中的计算聚类验证,生物信息学,21,15,3201-3212(2005)
[12] 郝,B。;Qi,J.,无序列比对的原核生物系统发育:从回避特征到组成距离,生物信息学和计算生物学杂志,2,1-19(2004)
[13] Kantorovitz,M.R。;罗宾逊,G.E。;Sinha,S.,调节序列无比对比较的统计方法,生物信息学,23,i249-i255(2007)
[14] Li,C。;Wang,J.,基于特征序列二维图形表示的DNA序列的数值表征和相似性分析,组合化学和高通量筛选,6795-799(2003)
[15] Li,C。;李,Z.X。;郑晓强。;马,H。;Yu,X.Q.,Lempel-Ziv复杂性的概括及其在蛋白质序列比较中的应用,《数学化学杂志》,48,330-338(2010)·Zbl 1196.92014号
[16] Liao,B。;Wang,T.M.,DNA序列的三维图形表示及其数值表征,《分子结构理论化学杂志》,681209-212(2004)
[17] 刘立伟。;Li博士。;Bai,F.L.,相对Lempel-Ziv复杂性:在比较生物序列中的应用,《化学物理快报》,530107-112(2012)
[18] 刘,N。;Wang,T.M.,RNA二级结构快速相似性分析方法,BMC生物信息学,7493(2006)
[19] 刘,Z。;孟,J。;Sun,X.,一种新的基于特征的无比对全基因组系统发育分析方法:在HEV基因分型和亚型中的应用,生物化学和生物物理研究通讯,368,2,223-230(2008)
[20] 吕国强。;张,S.P。;Fang,X.,用于序列比较的改进字符串合成方法,BMC生物信息学,9,6,S15(2008)
[21] 卢,L。;Li,C。;Hagedorn,C.H.,全球戊型肝炎病毒序列的系统发育分析:遗传多样性、亚型和人畜共患疾病,医学病毒学评论,16,5-36(2006)
[22] Needleman,S.B。;Wunsch,C.D.,《适用于搜索两种蛋白质氨基酸序列相似性的通用方法》,《分子生物学杂志》,48,443-453(1970)
[23] 输出,H.H。;Sayood,K.,用于构建系统发育树的新序列距离度量,生物信息学,192122-2130(2003)
[24] Pham,T.D。;Zuegg,J.,《无比对序列比较的概率测度》,生物信息学,203455-3461(2004)
[25] Randic,M.,蛋白质比对的高效搜索-VESPA,《计算化学杂志》,33,702-707(2013)
[26] Randic,M.,《核苷酸比对的高效搜索》,《计算化学杂志》,34,77-82(2013)
[27] Randic,M。;弗拉科,M。;Lers,N。;Plavsic,D.,基于新型二维图形表示的DNA序列相似性/差异性分析,《化学物理快报》,371202-207(2003)
[28] Randic,M。;Zupan,J。;Balaban,A。;Vikic-Topic,D。;Plavsic,D.,蛋白质的图形表示,化学评论,111790-862(2011)
[29] Randic,M。;Novic,M。;Plavsic,D.,图形生物信息学的里程碑,国际量子化学杂志(2013)
[30] 雷内特,G。;Schbath,S。;Waterman,M.S.,单词的概率和统计特性:综述,《计算生物学杂志》,7,1-46(2000)
[31] 罗塔,P.A。;Oberster,M.S。;Monroe,S.S.,与严重急性呼吸综合征相关的新型冠状病毒的特征,《科学》,3001394(2003)
[32] 史密斯,T.F。;Waterman,M.S.,《常见分子子序列的识别》,《分子生物学杂志》,147195-197(1981)
[33] 宋,J。;Tang,H.,DNA序列的新二维图形表示及其数值表征,《生物化学和生物物理方法杂志》,63228-239(2005)
[34] 斯图亚特,G.W。;莫菲特,K。;Baker,S.,未比对全基因组蛋白质序列的综合基因和物种系统发育,生物信息学,181100-108(2002)
[35] Vinga,S。;Almeida,J.,《无对齐序列比较综述》,生物信息学,19513-523(2003)
[36] Waterman,M.S.,《计算生物学导论:地图、序列和基因组:跨学科统计》(1995),查普曼和霍尔/CRC:查普曼与霍尔/CRC博卡拉顿,佛罗里达州·Zbl 0831.92011号
[37] Wu,T.J。;谢永忠。;Li,L.A.,碱基组成的马尔可夫链模型下DNA差异的统计测量,生物统计学,57,441-448(2001)·Zbl 1209.62339号
[38] 吴,X。;万,X。;Wu,G。;徐,D。;Lin,G.,利用全基因组的完整特征信息和聚类邻接法进行系统发育分析,国际生物信息学研究与应用杂志,2,219-248(2006)
[39] Yao,Y.H。;Wang,T.M.,DNA序列的一类新的二维图形表示及其应用,《化学物理快报》,398318-323(2004)
[40] 张,S。;Wang,T.,基于络合物的RNA二级结构比较方法及其应用,《生物分子结构动力学杂志》,28,247-258(2010)
[41] Zhang,Y。;Hao,J.K。;周春杰。;Chang,K.,归一化Lempel-Ziv复杂性及其在生物序列分析中的应用,数学化学杂志,461203-1212(2009)·Zbl 1197.92020号
[42] Zhang,Y.S。;Chen,W.,基于LZ复杂性的RNA二级结构比较,数学和计算机化学中的MATCH通信,63,513-528(2010)
[43] 郑伟新。;Chen,L.L。;Ou,H.Y.,基于几何方法的冠状病毒系统发育,分子系统发育进化,36,224-232(2005)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。