×

基于三元Huffman编码的蛋白质序列比较方法。 (英语) Zbl 1519.92170号

摘要:基于三元霍夫曼编码算法,我们提出了一种蛋白质序列的数字映射方法。首先,根据给定蛋白质序列中20个氨基酸的频率特征定义一个三元哈夫曼树。由三元哈夫曼树构造的20个氨基酸的0-2码可以将长蛋白质序列转换为一对一的0-2数字序列。根据0-2数字序列中20个氨基酸的0-2码的频率特征和分布信息,我们设计了40维向量来表征蛋白质序列。接下来,使用所提出的数字绘图方法执行三个单独的应用,九个ND6蛋白的相似性比较,2020年1月至2022年6月2009年甲型H1N1流感大流行病毒的进化趋势分析,以及95个冠状病毒基因的进化分析。结果表明了该方法的实用性。

MSC公司:

92D20型 蛋白质序列,DNA序列
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] T.D.Pham,J.Zuegg,《无比对序列比较的概率测度》,生物信息学20(2004)3455-3461。
[2] S.Vinga,J.Almeida,无比对序列比较——综述,生物信息学19(2003)513-523。
[3] E.Hamori,J.Ruskin,H曲线,一种特别适用于长DNA序列的核苷酸序列表示新方法,J.Biol。化学。258 (1983) 1318-1327.
[4] E.Hamori,用Hcurves电流结果和未来方面的方法对长DNA序列进行图形表示,生物技术7(1989)710-720。
[5] H.J.Jeffrey,基因结构的混沌游戏表示,《核酸研究》18(1990)2163-2170。
[6] A.Nandy,DNA序列结构的新图形表示和分析:I.珠蛋白基因的方法学和应用,Curr。科学。66 (1994) 309-314.
[7] D.比林斯卡-Waż,DNA序列的四成分光谱表示,J.Math。化学。47 (2010) 41-51. ·Zbl 1194.92024号
[8] D.比林斯卡-Waż,W.Nowak,P.Waż,A.Nandy,T.Clark,作为DNA序列描述符的2D颗粒的分布矩,化学。物理学。莱特。443 (2007) 408-413.
[9] 廖斌,曾春红,李凤,唐玉英,基于双核苷酸的DNA序列相似性/差异性分析,MATCH Commun。数学。计算。化学。59 (2008) 647-652. ·Zbl 1270.92015年
[10] 廖斌,项庆秋,蔡立群,曹振中,DNA序列的一种新的图形编码及其相似性计算,《物理学》。A 392(2013)4663-4667·Zbl 1395.92105号
[11] M.Randić、M.Vraćko、N.Lerš、D.Plavšić、。,DNA序列的新型二维图形表示及其数值表征,化学。物理学。莱特。368 (2003) 1-6.
[12] M.Randić,《DNA的混沌游戏再现》,化学。物理学。莱特。456(2008)84-88。
[13] G.Jaklić,T.Pisanski,M.Randić,用矩阵不变量表征复杂双逻辑系统,J.Compute。《生物学》13(2006)1558-1564。
[14] 齐志明,李丽莲,齐晓霞,用哈夫曼编码方法可视化和分析DNA序列,计算机学报。化学。32 (2011) 3233-3240.
[15] M.Randić,基于虚拟遗传代码的蛋白质二维图形表示,SAR QSAR Environ。第15号决议(2004)147-157。
[16] M.Randić,J.Zupan,A.T.Balaban,基于核苷酸三联体密码子的蛋白质序列的独特图形表示,化学。物理学。莱特。397 (2004) 247-252.
[17] M.Randić,D.Butina,J.Zupan,蛋白质的新型二维图形表示,化学。物理学。莱特。419 (2006) 528-532.
[18] F.Bai,T.Wang,基于核苷酸三联体密码子的蛋白质序列的二维图形表示,化学。物理学。莱特。413 (2005) 458-462.
[19] 何鹏飞,李德丽,张玉英,王雪红,姚玉英,基于格雷码的蛋白质序列三维图形表示,J.Theor。《生物》304(2012)81-87·Zbl 1397.92528号
[20] M.Randić,基于氨基酸物理化学性质的蛋白质二维图形表示,化学。物理学。莱特。444 (2007) 176-180.
[21] 姚彦,戴庆,李春丽,何平,南欣,张勇,蛋白质序列的相似性/差异性分析,蛋白质:结构。功能。生物信息学。73 (2008) 864-871.
[22] M.I.A.el Maaty,M.M.Abo-Elkhier,M.A.Abd Elwahaab,蛋白质序列的3D图形表示及其统计特征,《物理学》。A 389(2010)4668-4676。
[23] Z.Wu,X.Xiao,K.Chou,2D-MH:基于蛋白质组成氨基酸的物理化学性质生成蛋白质序列图形表示的网络服务器,J.Theor。《生物学》267(2010)29-34·Zbl 1410.92089号
[24] B.E.Blaisdell,不需要序列比对的序列集相似性度量,Proc。国家。阿卡德。科学。83 (1986) 5155-5159. ·Zbl 0592.92011号
[25] G.W.Stuart,K.Moffett,S.Baker,未对齐全基因组蛋白质序列中的综合基因和物种基因,生物信息学18(2002)100-108。
[26] T.J.Wu,J.P.Burke,D.B.Davison,《基于单词频率之间马氏距离的DNA序列差异性测量》,《生物统计学》53(1997)1431-1439·Zbl 0931.62100号
[27] V.Afreixo,C.A.Bastos,A.J.Pinho,S.P.Garcia,P.J.Ferreira,利用核苷酸间距进行基因组分析。生物信息学25(2009)3064-3070。
[28] Y.Gao,L.Luo,通过新的无比对方法对dsDNA病毒进行基于基因组的系统发育,Gene 492(2012)309-314。
[29] 丁绍明,李彦,杨晓阳,王东东,DNA序列系统发育分析的简单k字区间法,J.Theor。《生物学》317(2013)192-199。
[30] 戴琦,刘旭,姚彦,赵凤,词频的数字特征及其在序列比较差异性度量中的应用,J.Theor。《生物学》276(2011)174-180·Zbl 1405.92213号
[31] L.Yang,X.Zhang,H.Zhu,无比对比较:基于最短缺失词的DNA一级序列之间的相似性分布,J.Theor。生物学295(2012)125-131·Zbl 1336.92030号
[32] D.Huang,H.Yu,归一化特征向量:一种基于相邻氨基酸数量的新型无对齐序列比较方法,IEEE/ACM Trans。计算。生物信息学。10 (2013) 457-467.
[33] F.Bai,J.Xu,L.Liu,基于二步马尔可夫模型的系统发育树加权相对熵,数学。Biosci公司。246 (2013) 8-13. ·Zbl 1309.92058号
[34] 齐志明,金明明,王建军,李沙生,基于马尔可夫链和信息熵的DNA序列比较新方法,微生物学。12 (2015) 524-533.
[35] D.A.Huffman,最小冗余码的构造方法,Proc。爱尔兰共和国。40 (1952) 1098-1102. ·Zbl 0137.13605号
[36] Z.Qi,T.Fan,PNcurve:DNA序列及其数值表征的三维图形表示,化学。物理学。莱特。442(2007)434-440。
[37] J.Yu,X.Sun,J.Wang,《TN曲线:基于三核苷酸的DNA序列的新型三维图形表示及其应用》,J.Theor。《生物》261(2009)459-468·Zbl 1403.92226号
[38] J.Yu,X.Sun,基于DNA序列的经验证图形表示的蛋白质编码基因的重新命名,J.Compute。化学。31 (2010) 2126-2135.
[39] D.帕纳斯,P.Waż,D.Bieliñska-Waż,A.Nandy,S.C.Basak,《DNA/RNA序列的2D动态表示在预测甲型流感病毒亚型中的应用》,MATCH Commun。数学。计算。化学。80 (2018) 295-310. ·Zbl 1468.92051号
[40] D.J.MacKay,D.J.Mac Kay,《信息理论、推理和学习算法》,剑桥大学出版社,剑桥,2003年·Zbl 1055.94001号
[41] 齐子琦,齐晓霞,基于双核苷酸的DNA序列新型二维图形表示,化学。物理学。莱特。440 (2007) 139-144.
[42] M.Randić、K.Mehulić、D.Vukićević、T.Pisanski、D.Vikić-Topić和D.Plavšić,蛋白质四色图的图形表示及其数值表征,《分子图形模型》。27 (2009) 637-641.
[43] 廖斌、廖斌,孙晓强,《相似性分析和蛋白质亚细胞定位预测的新方法》,生物信息学26(2010)2678-2683。
[44] Z.Qi,M.Jin,S.Li,F.Jun,基于物理化学性质和降维的蛋白质映射方法,计算。《生物医学》57(2015)1-7。
[45] 齐志伟,文晓霞,基于转移概率图和信息熵的蛋白质序列比较新方法,化学。高通量屏幕。25 (2022) 392-400.
[46] 姚彦彦,韩建军,戴奇,何培安,蛋白质序列的新描述符及其应用,J.Theor。生物学347(2014)109-117·兹比尔1412.92251
[47] C.Li,Q.Dai,P.A.He,用于相似性比较的蛋白质序列的时间序列表示,J.Theor。生物学538(2022)#111039·Zbl 1483.92105号
[48] Z.Qi,J.Feng,C.Liu,2009年大流行性甲型H1N1流感病毒在不同大陆从2009年3月至2012年4月的演变趋势,《生物学》69(2014)407-418。
[49] J.F.W.Chan、S.Yuan、K.H.Kok、K.K.W.To、H.Chu、J.Yang、F.Xing、J.Liu、C.C.Y.Yip、R.W.S.Poon、H.W.Tsoi、S.K.Lo、K.H Chan、V.K.Poon、W.M.Chan、J.D.Ip、J.P.Cai、V.C.Cheng、H.Chen、C.Hui、K.Y.Y.Yeen、,与2019年新型冠状病毒相关的肺炎家族簇群表明人对人传播:一项家族簇群研究,《柳叶刀》395(2020)514-523。
[50] S.Kumar、G.Stecher、M.Li、C.Knyaz、K.Tamura、MEGA X:跨计算平台的分子进化遗传学分析,分子生物学。进化。35 (2018) 1547-1549.
[51] X.Li,J.Zai,Q.Zhao,Q.Nie,Y.Li,B.T.Foley,A.Chaillon,SARS-CoV-2的进化史、潜在中间动物宿主和跨物种分析,J.Med.病毒。92 (2020) 602-611.
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。