×

WSE,一种基于单词频率的新序列距离度量。 (英语) Zbl 1160.92032号

摘要:基于生物序列的短词合成,我们提出了一种新的距离度量——加权序列熵。作为对经典相对熵(RE)的修正,我们的度量1。在小(k),2的情况下,与RE等效。当某些单词类型在一个序列中不存在而在另一个序列上不存在时,可以避免退化。对包括SARS-CoV在内的25种病毒的实验表明,当单词长度为\(k\leqslead 3\)时,我们的方法和RE给出了完全相同的系统发育树。当(k>3)时,我们的方法仍然有效,得到了收敛的系统发育拓扑,但RE给出了退化的结果。

MSC公司:

92D15型 与进化有关的问题
68兰特 单词组合学
92 C50 医疗应用(一般)
92C40型 生物化学、分子生物学
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Fitz-Gibon,S.T。;House,C.H.,自由生活微生物的全基因组系统发育分析,核酸研究,274218(1999)
[2] 斯内尔,B。;博克,P。;Huynen,M.A.,基于基因内容的基因组系统发育,《自然遗传学》。,21, 108 (1999)
[3] 曹毅。;阿达奇,J。;Janke,A。;巴博,S。;Hasegawa,M.,根据线粒体蛋白的推断序列估计的真遗传目之间的系统发育关系:基于单个基因的树的不稳定性,J.Mol.Evol。,39, 519 (1994)
[4] Boore,J.I。;Brown,W.M.,《来自小基因组的大树:线粒体基因序列作为系统发育工具》,Curr。操作。遗传学。Dev.,8668(1998)
[5] Randic,M。;弗拉科,M。;南迪,A。;Basak,S.C.,J.化学。Inf.计算。科学。,40, 1235 (2000)
[6] Randic,M。;弗拉科,M。;Lers,N。;Plavsic,D.,《来自小基因组的大树:线粒体基因序列作为系统发育工具》,《化学》。物理。莱特。,371, 202 (2003)
[7] Hamori,E。;Ruskin,J。;curves,H.,一种特别适用于长DNA序列的核苷酸序列的新表示方法,J.Biol。化学。,258, 1318 (1983)
[8] Hamori,E.,《新型DNA序列表征》,《自然》,314585(1985)
[9] Gates,M.A.,《更简单的DNA序列表示》,《自然》,316219(1985)
[10] Nandy,A.,长DNA序列的图形表示,Curr。科学。,66, 309 (1994)
[11] Karlin,S。;Mrázek,J.,真核生物基因组内部和之间的成分差异,Proc。国家。阿卡德。科学。美国,9410227(1997)
[12] Karlin,S。;Ladunga,I.,真核生物基因组序列的比较,Proc。国家。阿卡德。科学。美国,91,12832(1994)
[13] 坎贝尔,A。;Mrazek,J。;Karlin,S.,原核生物、质粒和线粒体DNA之间的基因组特征比较,Proc。国家。阿卡德。科学。美国,96,9184(1999)
[14] 斯图亚特,G.W。;莫菲特,K。;Baker,S.,未对齐全基因组蛋白质序列的整合基因和物种系统发育,生物信息学,18,100(2002)
[15] 乔杜里,P。;Das,S.,SWORDS:分析大DNA序列的统计工具,J.Biosci。,2002年1月27日
[16] Chuzhanova,N.A。;琼斯,A.J。;Margetts,S.,遗传序列分类的特征选择,生物信息学,14139(1998)
[17] Nakashima,H。;奥塔,M。;西川,K。;Ooi,T.,《来自九个基因组的基因在二核苷酸组成空间中被分离到其生物体中》,DNA Res.,5,251(1998)
[18] Abe,T。;卡纳亚,S。;Kinouchi,M。;Ichiba,Y。;Kozuki,T。;Ikemura,T.,《揭示真核生物隐藏基因组特征的新生物信息学策略:寡核苷酸频率的自组织图》,《基因组信息系列》,13,12(2002)
[19] 盖,T.M。;托马斯·J·A,《信息理论的要素》(1991),约翰·威利及其子公司:约翰·威利和子公司纽约·Zbl 0762.94001号
[20] 齐,J。;王,B。;Hao,B.L.,《无序列比对的全蛋白质组原核生物系统发育:a(k)-字符串合成方法》,《分子进化杂志》。,58, 1 (2004)
[21] 尼古拉·C·。;Almirantis,Y.,通过三联体发生模式和RNY偏好的组合测量基因组序列的编码潜力,J.Mol.Evol。,59, 309 (2004)
[22] Lee,N。;惠,D。;Wu,A。;Chan,P。;卡梅隆,P。;Joynt,G.M。;Ahuja,A。;Yung,M.Y。;Leung,C.B。;收件人:K.F。;Lui,S.F。;塞托,C.C。;Chung,S。;Sung,J.J.Y.,《香港严重急性呼吸综合征的一次重大疫情》,英国。《医学杂志》,3481986(2003)
[23] Poutanen,S.M。;低,D.E。;B.亨利。;芬克尔斯坦,S。;罗斯,D。;绿色,K。;特勒,R。;Draker,R。;阿达奇,D。;艾尔斯,M。;Chan,A.K。;斯科夫朗斯基,D.M。;萨利特,I。;Simor,A.E。;Slutsky,A.S。;多伊尔,P.W。;Krajden,M。;佩特里克,M。;布伦汉姆,R.C。;McGeer,A.J.,《加拿大严重急性呼吸综合征的识别》,新英格兰。《医学杂志》,3481995(2003)
[24] Marra,医学硕士。;Jones,S.J。;Astell,C.R.,SARS相关冠状病毒的基因组序列,《科学》,300,1399(2003)
[25] 罗塔,P.A。;Oberster,M.S。;Monroe,S.S.,与严重急性呼吸综合征相关的新型冠状病毒的特征,《科学》,3001394(2003)
[26] 李欧,P。;Goldman,N.,SARS-CoV的系统基因组学和生物信息学,微生物趋势。,12, 106 (2004)
[27] 杨,A.C。;Goldberger,A.L。;Peng,C.K.,《利用基于信息的相似性指数进行基因组分类:对SARS冠状病毒的应用》,J.Compute。《生物学》,121103(2005)
[28] 斯奈德,E.J。;Horzink,M.C.,Toroviruses:复制、进化以及与冠状病毒样超家族其他成员的比较,J.Gen.Virol。,74, 2305 (1993)
[29] Felsenstein,J.,PHYLIP(系统发育推断包),分支系统学,5164(1989)
[30] Page,R.D.,TreeView:一个在个人电脑上显示系统发育树的应用程序,Compute。申请。生物科学。,12, 357 (1996)
[31] Vinga,S。;Almeida,J.S.,《无对齐序列比较——综述》,生物信息学,19513(2003)
[32] Blaisdell,B.E.,《不需要序列比对的序列集的相似性度量》,Proc。国家。阿卡德。科学。美国,83,5155(1986)·Zbl 0592.92011号
[33] Petrilli,P.,蛋白质序列的二肽组成分类,计算机。申请。生物科学。,9, 205 (1993)
[34] 齐,J。;罗,H。;Hao,B.,CVTree:一种基于全基因组的系统发育树重建工具,核酸研究,32,45(2004)
[35] 杨,A.C。;Hseu,S.S。;Yien,H.W。;Goldberger,A.L。;Peng,C.K.,《利用频率和秩序统计对人类心跳进行语言分析》,《物理学》。修订稿。,90, 108103 (2003)
[36] Ksiazek,T.G。;艾德曼,D。;Goldsmith,C.S.,与严重急性呼吸综合征相关的新型冠状病毒,北英格兰。《医学杂志》,3481953(2003)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。