×

Dforml(KNN)-PseAAC:通过Chou的五步规则和伪组分,使用K-最近邻算法检测蛋白质序列中的甲酰化位点。 (英语) Zbl 1411.92107号

摘要:甲酰化是一种可发生在赖氨酸位点上的翻译后修饰,在生物体中发挥着不可替代的作用。为了更好地理解其机制,有必要准确地识别蛋白质中的甲酰化位点。计算方法因其比传统实验方法更方便、速度更快而受到欢迎。然而,还没有提出预测赖氨酸甲酰化的计算方法。在本研究中,我们开发了一个名为LFPred的预测器,使用序列特征(包括氨基酸组成(AAC)、二进制轮廓特征(BPF)和氨基酸指数(AAI))结合K-最近邻算法作为分类器来识别赖氨酸甲酰化位点。我们根据信息熵选择离散窗口代替连续窗口。此外,我们采取措施选择更可靠的阴性样本,并解决阳性样本和阴性样本之间的严重不平衡问题。最后,用折刀试验法测量了LFPred的性能,其特异性为79.9%,敏感性为81.4%,这表明我们的方法可以作为预测赖氨酸甲酰化位点的有用工具。

MSC公司:

92碳40 生物化学、分子生物学
92D20型 蛋白质序列,DNA序列
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 侯赛因,W。;Y.D.Khan。;北卡罗来纳州拉苏尔。;Khan,S.A.,SPrenylC-PseAAC:一种基于序列的模型,通过Chou的5步规则和通用PseAAC开发,用于识别蛋白质中的S-丙氨酸化位点,J.Theor。生物学,468(2019),1-11·Zbl 1411.92233号
[2] 贝巴哈尼,M。;Mohabatkar,H。;Nosrati,M.,利用三种不同模式的Chou的一般伪氨基酸组成分析和比较真菌和细菌之间的木质素过氧化物酶,J.Theor。生物学,411,1-5(2016)
[3] 曹,D.S。;徐庆生。;Liang,Y.Z.,Propy:一种生成Chou’s PseAAC各种模式的工具,生物信息学,29960-962(2013)
[4] Chen,W。;冯·P。;Yang,H。;丁·H。;Lin,H.,iRNA-AI:识别RNA序列中腺苷到肌苷的编辑位点,Oncotarget,84208-4217(2017)
[5] Chen,W。;冯,P.M。;Lin,H.,iRSpot-PseDNC:用伪二核苷酸成分识别重组点,《核酸研究》,41,e68(2013)
[6] Chen,W。;Lei,T.Y。;Jin,D.C。;Lin,H.,PseKNC:用于生成伪K元组核苷酸组成的灵活网络服务器,Ana。生物化学。,456, 53-60 (2014)
[7] Chen,W。;Lin,H.,《伪核苷酸组成或PseKNC:分析基因组序列的有效配方》,Mol.BioSyst。,11, 2620-2634 (2015)
[8] Chen,W。;Lin,H。;冯,P.M。;丁,C。;Zuo,Y.C.,iNuc-PhysChem:一种基于序列的预测因子,用于通过物理化学性质识别核小体,《公共科学图书馆·综合》,7,e47843(2012)
[9] 陈,X。;邱建德。;Shi,S.P.,结合关键位置和氨基酸残基特征识别泛素结合位点的一般和物种特异性,生物信息学,29,13,1614-1622(2013)
[10] Chen,Z。;陈义忠。;Wang,X.F.,利用k间隔氨基酸对的组成预测泛素化位点,PLoS One,6,7,e22930(2011)
[11] Chen,Z。;周,Y。;Song,J.,hCKSAAP_UbSite:通过利用氨基酸模式和属性改进对人类泛素化位点的预测,生物化学与生物物理学报,1834,8,1461-1467(2013)
[12] Cheng,X。;Lin,W.Z。;Xiao,X.,pLoc_bal-mAnimal:通过平衡训练数据集和PseAAC预测动物蛋白质的亚细胞定位,生物信息学(2018)·Zbl 1406.92173号
[13] Cheng,X。;Xiao,X.,pLoc-mVirus:通过将最佳GO信息整合到一般PseAAC中来预测多位置病毒蛋白的亚细胞定位,Gene,628315-321(2017),(勘误表:同上,2018,Vol.644156-156)
[14] Cheng,X。;Xiao,X.,pLoc-mPlant:通过将最佳GO信息合并到通用PseAAC,Mol.BioSyst.,预测多位置植物蛋白的亚细胞定位。,13, 1722-1727 (2017)
[15] Cheng,X。;Xiao,X.,pLoc-mHum:通过通用PseAAC预测多位置人类蛋白质的亚细胞定位,以筛选出关键的GO信息,生物信息学,34,1448-1456(2018)
[16] Cheng,X。;Zhao,S.G。;Lin,W.Z。;Xiao,X.,pLoc-mAnimal:预测动物蛋白质的亚细胞定位,生物信息学,33,3524-3531(2017)
[17] Cheng,X。;Zhao,S.G。;Xiao,X.,iATC-mHyb:一种用于预测解剖治疗化学物质分类的混合多标签分类器,Oncotarget,8,58494-58503(2017)
[18] Cheng,X。;赵,S.G。;Xiao,X.,iATC-mISF:一种用于预测解剖治疗化学物质类别的多标签分类器,生物信息学,33,341-346(2017),(勘误表,同上,2017年,第33卷,2610)
[19] Chou,K.C.,使用缩放窗口预测信号肽,肽,22,12,1973-1979(2001)
[20] Chou,K.C.,使用亚基偶联预测信号肽,蛋白质工程,14,75-79(2001)
[21] Chou,K.C.,蛋白质信号序列及其裂解位点的预测,《蛋白质》,42,136-139(2001)
[22] Chou,K.C.,使用伪氨基酸成分预测蛋白质细胞属性,《蛋白质》,43,246-255(2001),(勘误表:同上,2001年,第44卷,60)
[23] Chou,K.C.,使用两亲性伪氨基酸组成预测酶亚科类别,生物信息学,21,10-19(2005)
[24] Chou,K.C.,《伪氨基酸组成及其在生物信息学、蛋白质组学和系统生物学中的应用》,Curr。蛋白质组。,6, 262-274 (2009)
[25] Chou,K.C.,药物代谢系统的图形规则,当前。药物代谢。,11, 369-378 (2010)
[26] Chou,K.C.,关于蛋白质属性预测和伪氨基酸组成的一些评论(50周年回顾),J.Theor。生物学,273236-247(2011)·Zbl 1405.92212号
[27] Chou,K.C.,《关于预测分子生物系统中多标签属性的一些评论》,Mol.Biosyst。,9, 1092-1100 (2013)
[28] Chou,K.C.,生物信息学对药物化学的影响,医学化学。,11, 218-234 (2015)
[29] 周,K.C.,《生物科学进步推动的药物化学史上前所未有的革命》,Curr。医学化学专题。,17, 2337-2358 (2017)
[30] Chou,K.C。;Shen,H.B.,开发用于预测蛋白质属性的网络服务器的最新进展,国家科学院。,1, 63-92 (2009)
[31] 联合会,U.P.,通用蛋白质资源(UniProt),核酸研究,33,1,D154-D159(2005)
[32] Dehzangi,A。;Heffernan,R。;Sharma,A。;Lyons,J。;Paliwal,K。;Sattar,A.,通过将基于进化的描述符纳入Chou的一般PseAAC,J.Theor,对革兰氏阳性和革兰氏阴性蛋白进行亚细胞定位。《生物学》,364,284-294(2015)·Zbl 1405.92092号
[33] 邓,W。;王,C。;Zhang,Y.,GPS-PAIL:从蛋白质序列预测赖氨酸乙酰转移酶特异性修饰位点,科学。代表,639787(2016)
[34] 杜,P。;顾S。;Jiao,Y.,PseAAC-General:为大规模蛋白质数据集快速构建Chou伪氨基酸组成的各种通用形式模式,国际分子科学杂志。,15, 3495-3506 (2014)
[35] 杜,P。;王,X。;徐,C。;Gao,Y.,PseAAC-Builder:一个跨平台独立程序,用于生成各种特殊的Chou伪氨基酸成分,Ana。生物化学。,425, 117-119 (2012)
[36] 冯·P。;丁·H。;Yang,H。;Chen,W。;Lin,H.,iRNA-PseColl:通过将核苷酸的集体效应纳入PseKNC,Mol.Ther,确定不同RNA修饰的发生位置。核酸,7155-163(2017)
[37] Fu,L。;牛,B。;Zhu,Z.,CD-HIT:加快下一代测序数据的聚类,生物信息学,28,23,3150-3152(2012)
[38] 郭栋,C。;C·曼。;Kun,L.,ProAcePred:基于弹性网络特征优化的原核生物赖氨酸乙酰化位点预测,生物信息学,34,3999-4006(2018)
[39] 哈桑,M.M。;Khatun,M.S。;Mollah,M.N.H.,《利用联合元素特征信息系统识别物种特异性蛋白琥珀酰化位点》,《国际纳米医学杂志》。,12, 6303-6315 (2017)
[40] 侯,T。;郑庚。;Zhang,P.,LAceP:使用逻辑回归分类器预测赖氨酸乙酰化位点,PLoS One,9,2,e89575(2014)
[41] 胡,L。;李,Z。;王凯。;牛,S。;史,X。;蔡,Y。;Li,H.,基于多序列特征的蛋白质甲基精氨酸和甲基赖氨酸的预测和分析,生物聚合物,95,11,763-771(2011)
[42] 侯赛因,W。;Y.D.Khan。;北卡罗来纳州拉苏尔。;Khan,S.A.,SPalmitoylC-PseAAC:一种基于序列的模型,通过Chou的5步规则和通用PseAAC开发,用于识别蛋白质中的S-棕榈酰化位点,Ana。生物化学。,568, 14-23 (2019)
[43] Ijaz,A.,SUMOhunt:将赖氨酸和SUMO之间的空间分期与随机森林相结合来预测SUMO化,ISRN Bioinform。,2013年,第671269条pp.(2013)
[44] 贾,J。;刘,Z。;Xiao,X.,pSuc-Lys:利用PseAAC和集合随机森林方法预测蛋白质中的赖氨酸琥珀酸化位点,J.Theor。生物学,394223-230(2016)·Zbl 1343.92153号
[45] 贾,J。;刘,Z。;Xiao,X.,iSuc-PseOpt:通过将序列耦合效应纳入伪组分并优化不平衡训练数据集来识别蛋白质中的赖氨酸琥珀酰化位点,Ana。生物化学。,497, 48-56 (2016)
[46] 贾,J。;刘,Z。;Xiao,X。;Liu,B.,iCar-PseCp:通过Monto Carlo取样确定蛋白质中的羰基化位点,并将序列耦合效应纳入一般PseAAC,Oncotarget,734558-34570(2016)
[47] 贾,J。;张,L。;刘,Z。;Xiao,X.,pSumo-CD:通过将序列耦合效应纳入一般PseAAC,使用协方差判别算法预测蛋白质中的sumoylation位点,生物信息学,32,3133-3141(2016)
[48] Ju,Z。;Cao,J.Z.,使用k间隔氨基酸对的组成预测蛋白质N-甲酰化,Ana。生物化学。,534, 40-45 (2017)
[49] 川岛,S.,AAindex:氨基酸指数数据库,2008年进度报告,核酸研究,36,D202-D205(2007)
[50] Lee,T.Y。;Huang,H.博士。;Hung,J.H.,dbPTM:蛋白质翻译后修饰信息库,核酸研究,34,D622-D627(2006),数据库问题
[51] Lee,T.Y。;Chang,C.W。;Lu,C.T.,组蛋白和非组蛋白赖氨酸甲基化位点的鉴定和表征,计算机。生物化学。,50, 11-18 (2014)
[52] Le-Le,H。;Zhen,L。;Wang,K.,基于多序列特征的蛋白质甲基精氨酸和甲基赖氨酸的预测和分析,生物聚合物,95,11,763-771(2011);Chen,Z。;陈义忠。;Wang,X.F.,利用k间隔氨基酸对的组成预测泛素化位点,PLoS One,6,7,e22930(2011)
[53] 李,A。;薛,Y。;Jin,C.,用贝叶斯判别法预测内赖氨酸上的Nepsilon-乙酰化,生物化学。生物物理学。Res.Commun.公司。,350, 818-824 (2006)
[54] 李,S。;李,H。;Li,M.,通过支持向量机改进赖氨酸乙酰化的预测,Protein Pept。莱特。,16, 8, 977-983 (2009)
[55] 李毅。;王,M。;Wang,H.,通过整合蛋白质序列衍生和功能特征对物种特异性乙酰化位点进行精确的计算机鉴定,Sci。代表,2014,4(2014)
[56] Liu,B.,《生物序列分析:基于机器学习方法的DNA、RNA和蛋白质序列分析平台》,简介。生物信息。(2017)
[57] 刘,B。;刘,F。;王,X。;陈,J。;Fang,L.,Pse-in-One:用于生成DNA、RNA和蛋白质序列的各种伪成分模式的网络服务器,《核酸研究》,43,W65-W71(2015)
[58] 刘,B。;翁,F。;Huang,D.S.,iRO-3wPseKNC:通过基于三个窗口的PseKNC识别DNA复制起源,生物信息学,34,3086-3093(2018)
[59] 刘,B。;Wu,H.,Pse-in-One 2.0:一个改进的网络服务器包,用于生成DNA、RNA和蛋白质序列的各种伪成分模式,《自然科学》。,9, 67-91 (2017)
[60] 刘,B。;张,D。;Xu,R。;徐,J。;王,X。;陈,Q。;Dong,Q.,将从频率剖面提取的进化信息与基于序列的内核相结合,用于蛋白质远程同源性检测,生物信息学,30472-479(2014)
[61] 卢,C.T。;Lee,T.Y。;Chen,Y.J.,用于识别组蛋白和非组蛋白上乙酰化赖氨酸的智能系统,Biomed。Res.Int.,2014,2014,第528650条pp.(2015)
[62] Min,J.L。;Xiao,X.,iEzy-Drug:用于识别细胞网络中酶和药物之间相互作用的网络服务器,BioMed。Res.Int.,2013,1-13(2013)
[63] Nagpal,G.,基于IL-10诱导潜能的免疫抑制肽的计算机辅助设计,科学。代表。,7, 42851 (2017)
[64] 乔,N。;小飒,Z。;Lingling,B.,使用集成支持向量机从蛋白质序列中检测琥珀酰化位点,BMC Bioninform。,19, 1, 237 (2018)
[65] 邱伟荣。;Xiao,X。;Lin,W.Z.,iUbiq-Lys:通过灰色系统模型提取序列进化信息预测蛋白质中的赖氨酸泛素化位点,J.Biomol。结构。发电机。,33, 8, 1731-1742 (2015)
[66] 邱伟荣。;姜世勇(Jiang,S.Y.)。;孙碧琴。;Xiao,X。;Cheng,X.,iRNA-2methyl:通过将序列偶联效应纳入一般PseKNC和集成分类器,医学化学,识别RNA 2′-O-甲基化位点。,13, 734-743 (2017)
[67] 邱伟荣。;孙碧琴。;Xiao,X。;Xu,Z.C.,iPTM-mLys:鉴定多个赖氨酸PTM位点及其不同类型,生物信息学。,32, 3116-3123 (2016)
[68] 邱伟荣。;Xiao,X。;Lin,W.Z.,iMethyl-PseAAC:通过伪氨基酸组成方法鉴定蛋白质甲基化位点,生物医学。Res.Int.,2014,第947416条,第(2014)页
[69] 雅达夫,S。;古普塔,M。;Bist,A.S.,使用UbiNets预测泛素化位点,高级模糊系统。,第5125103页(2018)
[70] 香农,C.,《传播的数学理论》。1963年,医学博士计算机。医学实践。,14, 4, 306-317 (1997) ·Zbl 0126.35701
[71] 盛宝,S。;建丁,Q。;Shao-Ping,S.,基于多特征的蛋白赖氨酸乙酰化的位置特异性分析和预测,PLoS ONE,7,11,e49108(2012)
[72] 史,S.P。;邱建德。;Sun,X.Y.,PMeS:基于增强特征编码方案的甲基化位点预测,PLoS One,7,e38772(2012)
[73] Teng,S。;罗,H。;Wang,L.,从序列特征预测蛋白质sumoylation位点,氨基酸,43,1,447-455(2012)
[74] Vens,C.,《识别生物序列中基于区分分类的基序》,生物信息学,271231-1238(2011)
[75] Wang,J.R。;Huang,W.L。;Tsai,M.J.,ESA-UbiSite:通过识别一组有效阴性,准确预测人类泛素化位点,生物信息学,33,5,661(2017)
[76] Wei,Z.S。;Yang,J.Y。;Shen,H.B.,预测蛋白质相互作用位点的级联随机森林算法,IEEE Trans。纳米生物学。,14, 7, 746-760 (2015)
[77] 温,P.P。;史,S.P。;Xu,H.D.,基于信息增益特征优化的物种特定甲基化位点的精确电子预测,生物信息学,32,3107-3115(2016)
[78] Wi-sh niewski,J.R。;Zougman,A。;Mann,M.,Nε-赖氨酸甲酰化是一种广泛的核蛋白翻译后修饰,发生在参与染色质功能调节的残基上,《核酸研究》,36,2,570-577(2008)
[79] Xiao,X。;Cheng,X。;陈,G。;Mao,Q.,pLoc_bal-mGpos:通过准平衡训练数据集和PseAAC预测革兰氏阳性细菌蛋白质的亚细胞定位,基因组学(2018)·Zbl 1406.92173号
[80] Xiao,X。;Min,J.L。;Wang,P.,iCDI-PseFpt:利用PseAAC和分子指纹识别细胞网络中的通道药物相互作用,J.Theor。生物,337C,71-79(2013)·兹比尔1411.92115
[81] Xiao,X。;叶海霞。;刘,Z。;Jia,J.H.,iROS-gPseKNC:通过将二核苷酸位置特异性倾向纳入一般伪核苷酸组成来预测DNA中的复制起始位点,Oncotarget,734180-34189(2016)
[82] 谢海林。;Fu,L。;Nie,X.D.,基于Chou’s PseAAC的一般形式,使用集成SVM识别人类GPCR的N-连接糖基化位点,Protein Eng.Des。选择。,26, 735-742 (2013)
[83] 徐,H。;周,J。;Lin,S.,PLMD:蛋白质赖氨酸修饰的更新数据资源,遗传学杂志。基因组。,44, 5, 243-250 (2017)
[84] Xu,Y。;丁Y.X。;Ding,J.,iSuc-PseAAC:通过结合肽位置特异性倾向预测蛋白质中的赖氨酸琥珀酰化,科学。代表,510184(2015);Yavuz,A.S。;Sezerman,O.U.,基于各种序列特征、构象灵活性和无序性使用支持向量机预测sumoylation位点,BMC基因组。,15,补编9,S18(2014)
[85] Xu,Y。;Wang,X.B。;Ding,J.,使用支持向量机分类器集成预测赖氨酸乙酰化位点,J.Theor。生物学,264130135(2010)·Zbl 1406.92223号
[86] Xu,Y。;丁,J。;Wu,L.Y.,iSNO-PseAAC:通过将位置特异性氨基酸倾向纳入伪氨基酸组成来预测蛋白质中的半胱氨酸S-亚硝基化位点,PLoS ONE,8,e55844(2013)
[87] Xu,Y。;邵学杰。;Wu,L.Y。;Deng,N.Y.,iSNO-AAPair:将氨基酸成对偶联到PseAAC中以预测蛋白质中半胱氨酸S-亚硝基化位点,PeerJ.,1,e171(2013)
[88] Xu,Y。;文,X。;邵晓杰。;Deng,N.Y.,iHyd-PseAAC:通过将二肽位置特异性倾向纳入伪氨基酸组成来预测蛋白质中的羟脯氨酸和羟赖氨酸,国际分子科学杂志。,15, 7594-7610 (2014)
[89] Xu,Y。;文,X。;Wen,L.S。;Wu,L.Y。;Deng,N.Y.,iNitro-Tyr:具有一般伪氨基酸组成的蛋白质中硝基酪氨酸位点的预测,《公共科学图书馆·综合》,9,文章e105018 pp.(2014)
[90] 张杰。;X.赵。;Sun,P。;Ma,Z.,PSNO:通过将各种序列衍生特征纳入Chou’S PseAAC的一般形式来预测半胱氨酸S-亚硝基化位点,国际分子科学杂志。,15, 11204-11219 (2014)
[91] Zhou,G.P.,《文祥图中LZCC蛋白残基的分布为蛋白质相互作用机制提供了新的见解》,J.Theor。《生物学》,284142-148(2011)·Zbl 1397.92245号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。