王军;郑晓琦 WSE,一种基于单词频率的新序列距离度量。 (英语) Zbl 1160.92032号 数学。Biosci公司。 215,第1期,78-83(2008). 摘要:基于生物序列的短词合成,我们提出了一种新的距离度量——加权序列熵。作为对经典相对熵(RE)的修正,我们的度量1。在小(k),2的情况下,与RE等效。当某些单词类型在一个序列中不存在而在另一个序列上不存在时,可以避免退化。对包括SARS-CoV在内的25种病毒的实验表明,当单词长度为\(k\leqslead 3\)时,我们的方法和RE给出了完全相同的系统发育树。当(k>3)时,我们的方法仍然有效,得到了收敛的系统发育拓扑,但RE给出了退化的结果。 引用于4文件 MSC公司: 92D15型 与进化有关的问题 68兰特 单词组合学 92 C50 医疗应用(一般) 92C40型 生物化学、分子生物学 关键词:系统发育分析;冠状病毒系统发育;构词法;相对熵;加权序列熵 软件:菲律宾;CVTree3公司 PDF格式BibTeX公司 XML格式引用 \textit{J.Wang}和\textit{X.Zheng},数学。Biosci公司。215,编号1,78--83(2008;Zbl 1160.92032) 全文: 内政部 链接 参考文献: [1] Fitz-Gibon,S.T。;House,C.H.,自由生活微生物的全基因组系统发育分析,核酸研究,274218(1999) [2] 斯内尔,B。;博克,P。;Huynen,M.A.,基于基因内容的基因组系统发育,《自然遗传学》。,21, 108 (1999) [3] 曹毅。;阿达奇,J。;Janke,A。;巴博,S。;Hasegawa,M.,根据线粒体蛋白的推断序列估计的真遗传目之间的系统发育关系:基于单个基因的树的不稳定性,J.Mol.Evol。,39, 519 (1994) [4] Boore,J.I。;Brown,W.M.,《来自小基因组的大树:线粒体基因序列作为系统发育工具》,Curr。操作。遗传学。Dev.,8668(1998) [5] Randic,M。;弗拉科,M。;南迪,A。;Basak,S.C.,J.化学。Inf.计算。科学。,40, 1235 (2000) [6] Randic,M。;弗拉科,M。;Lers,N。;Plavsic,D.,《来自小基因组的大树:线粒体基因序列作为系统发育工具》,《化学》。物理。莱特。,371, 202 (2003) [7] Hamori,E。;Ruskin,J。;curves,H.,一种特别适用于长DNA序列的核苷酸序列的新表示方法,J.Biol。化学。,258, 1318 (1983) [8] Hamori,E.,《新型DNA序列表征》,《自然》,314585(1985) [9] Gates,M.A.,《更简单的DNA序列表示》,《自然》,316219(1985) [10] Nandy,A.,长DNA序列的图形表示,Curr。科学。,66, 309 (1994) [11] Karlin,S。;Mrázek,J.,真核生物基因组内部和之间的成分差异,Proc。国家。阿卡德。科学。美国,9410227(1997) [12] Karlin,S。;Ladunga,I.,真核生物基因组序列的比较,Proc。国家。阿卡德。科学。美国,91,12832(1994) [13] 坎贝尔,A。;Mrazek,J。;Karlin,S.,原核生物、质粒和线粒体DNA之间的基因组特征比较,Proc。国家。阿卡德。科学。美国,96,9184(1999) [14] 斯图亚特,G.W。;莫菲特,K。;Baker,S.,未对齐全基因组蛋白质序列的整合基因和物种系统发育,生物信息学,18,100(2002) [15] 乔杜里,P。;Das,S.,SWORDS:分析大DNA序列的统计工具,J.Biosci。,2002年1月27日 [16] Chuzhanova,N.A。;琼斯,A.J。;Margetts,S.,遗传序列分类的特征选择,生物信息学,14139(1998) [17] Nakashima,H。;奥塔,M。;西川,K。;Ooi,T.,《来自九个基因组的基因在二核苷酸组成空间中被分离到其生物体中》,DNA Res.,5,251(1998) [18] Abe,T。;卡纳亚,S。;Kinouchi,M。;Ichiba,Y。;Kozuki,T。;Ikemura,T.,《揭示真核生物隐藏基因组特征的新生物信息学策略:寡核苷酸频率的自组织图》,《基因组信息系列》,13,12(2002) [19] 盖,T.M。;托马斯·J·A,《信息理论的要素》(1991),约翰·威利及其子公司:约翰·威利和子公司纽约·Zbl 0762.94001号 [20] 齐,J。;王,B。;Hao,B.L.,《无序列比对的全蛋白质组原核生物系统发育:a(k)-字符串合成方法》,《分子进化杂志》。,58, 1 (2004) [21] 尼古拉·C·。;Almirantis,Y.,通过三联体发生模式和RNY偏好的组合测量基因组序列的编码潜力,J.Mol.Evol。,59, 309 (2004) [22] Lee,N。;惠,D。;Wu,A。;Chan,P。;卡梅隆,P。;Joynt,G.M。;Ahuja,A。;Yung,M.Y。;Leung,C.B。;收件人:K.F。;Lui,S.F。;塞托,C.C。;Chung,S。;Sung,J.J.Y.,《香港严重急性呼吸综合征的一次重大疫情》,英国。《医学杂志》,3481986(2003) [23] Poutanen,S.M。;低,D.E。;B.亨利。;芬克尔斯坦,S。;罗斯,D。;绿色,K。;特勒,R。;Draker,R。;阿达奇,D。;艾尔斯,M。;Chan,A.K。;斯科夫朗斯基,D.M。;萨利特,I。;Simor,A.E。;Slutsky,A.S。;多伊尔,P.W。;Krajden,M。;佩特里克,M。;布伦汉姆,R.C。;McGeer,A.J.,《加拿大严重急性呼吸综合征的识别》,新英格兰。《医学杂志》,3481995(2003) [24] Marra,医学硕士。;Jones,S.J。;Astell,C.R.,SARS相关冠状病毒的基因组序列,《科学》,300,1399(2003) [25] 罗塔,P.A。;Oberster,M.S。;Monroe,S.S.,与严重急性呼吸综合征相关的新型冠状病毒的特征,《科学》,3001394(2003) [26] 李欧,P。;Goldman,N.,SARS-CoV的系统基因组学和生物信息学,微生物趋势。,12, 106 (2004) [27] 杨,A.C。;Goldberger,A.L。;Peng,C.K.,《利用基于信息的相似性指数进行基因组分类:对SARS冠状病毒的应用》,J.Compute。《生物学》,121103(2005) [28] 斯奈德,E.J。;Horzink,M.C.,Toroviruses:复制、进化以及与冠状病毒样超家族其他成员的比较,J.Gen.Virol。,74, 2305 (1993) [29] Felsenstein,J.,PHYLIP(系统发育推断包),分支系统学,5164(1989) [30] Page,R.D.,TreeView:一个在个人电脑上显示系统发育树的应用程序,Compute。申请。生物科学。,12, 357 (1996) [31] Vinga,S。;Almeida,J.S.,《无对齐序列比较——综述》,生物信息学,19513(2003) [32] Blaisdell,B.E.,《不需要序列比对的序列集的相似性度量》,Proc。国家。阿卡德。科学。美国,83,5155(1986)·Zbl 0592.92011号 [33] Petrilli,P.,蛋白质序列的二肽组成分类,计算机。申请。生物科学。,9, 205 (1993) [34] 齐,J。;罗,H。;Hao,B.,CVTree:一种基于全基因组的系统发育树重建工具,核酸研究,32,45(2004) [35] 杨,A.C。;Hseu,S.S。;Yien,H.W。;Goldberger,A.L。;Peng,C.K.,《利用频率和秩序统计对人类心跳进行语言分析》,《物理学》。修订稿。,90, 108103 (2003) [36] Ksiazek,T.G。;艾德曼,D。;Goldsmith,C.S.,与严重急性呼吸综合征相关的新型冠状病毒,北英格兰。《医学杂志》,3481953(2003) 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。