×

Fu-SulfPred:通过Chou的通用PseAAC融合森林,识别蛋白质S-磺基化位点。 (英语) Zbl 1406.92221号

摘要:蛋白质S-磺酰化是一种重要的翻译后修饰(PTM),为理解细胞信号转导、应激反应和细胞功能调节的分子机制提供了关键信息。计算方法的最新进展有助于检测蛋白质S-磺酰化位点。然而,在应用各种计算方法时,识别蛋白质S-磺基化位点的性能会受到训练数据集类别不平衡的影响。在本研究中,我们使用三种决策树的分层结构设计了一个Fu-SulfPred模型,以通过重建训练数据集和样本缩放技术来识别可能的蛋白质S-磺酰化位点。实验结果表明,在三个独立的测试数据集上,Fu-SulfPred模型的相关系数值分别为0.5437、0.3736和0.6809,均优于S-SulfPred模型中的Matthews系数值。Fu-SulfPred模型为蛋白质S-磺酰化位点的鉴定和其他翻译后修饰提供了一个很有前景的方案。

MSC公司:

92C40型 生物化学、分子生物学
92D20型 蛋白质序列,DNA序列
92-08 生物问题的计算方法
68T05型 人工智能中的学习和自适应系统
92-04 生物相关问题的软件、源代码等
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Arif,M。;海亚特,M。;Jan,Z.,Imem-2lsaac:通过将saac的概念扩展到周的伪氨基酸组成中来区分膜蛋白及其类型的两级模型,J.Theor。生物学,442,11-21(2018)·Zbl 1397.92180号
[2] Breiman,L.,《随机森林,机器学习》45,J.Clin。微生物。,2, 199-228 (2001)
[3] 布雷曼,L.I。;弗里德曼,J.H。;Olshen,R.A。;Stone,C.J.,分类和回归树(cart),Encycl。经济。,40, 3, 582-588 (1984) ·兹伯利0541.62042
[4] Bui,V.M。;卢,C.T。;Ho,T.T。;Lee,T.Y.,Mdd:csoh:利用最大依赖性分解识别具有底物基序的s-磺酰化位点,生物信息学,32,2,165-172(2016)
[5] Bui,V.M。;翁,S.L。;卢,C.T。;Chang,T.H。;翁,T.Y。;Lee,T.Y.,Sohsite:结合进化信息和物理化学性质来识别蛋白质s-磺酰化位点,BMC Genomics,17,1,59-70(2016)
[6] Chen,W。;冯·P。;丁·H。;Lin,H。;Chou,K.C.,Irna-methyl:使用伪核苷酸组成识别n(6)-甲基腺苷位点,Ana。生物化学。,490, 26-33 (2015)
[7] Chen,W。;冯·P。;Yang,H。;丁·H。;Lin,H。;Chou,K.C.,Irna-3型:识别RNA腺苷位点的三种修饰,分子疗法。核酸,11468-474(2018)
[8] Chen,W。;冯,P.M。;Lin,H。;Chou,K.C.,Irspot-psednc:用伪二核苷酸成分识别重组点,《核酸研究》,41,6,e68(2013)
[9] Chen,W。;Tang,H。;Ye,J。;Lin,H。;Chou,K.C.,Irna-pseu:鉴定rna假尿苷位点,分子疗法。核酸,5,7,e332(2016)
[10] Cheng,X。;Lin,W.Z。;Xiao,X。;Chou,K.C.,Ploc_bal-manimal:通过平衡训练数据集和PseAAC预测动物蛋白质的亚细胞定位,生物信息学(2018)·Zbl 1406.92173号
[11] Cheng,X。;Xiao,X。;Chou,K.C.,Ploc-meuk:通过将关键go信息提取到通用PseAAC中来预测多标签真核蛋白的亚细胞定位,基因组学,110,1,50-58(2017)
[12] Cheng,X。;萧,X。;Chou,K.C.,Ploc-mgneg:通过通用PseAAC的深层基因本体学习预测革兰氏阴性细菌蛋白质的亚细胞定位,基因组学,110,231-239(2017)
[13] Chou,K.C.,使用缩放窗口预测信号肽,肽,22,12,1973-1979(2001)
[14] Chou,K.C.,使用亚基偶联预测信号肽,蛋白质工程,14,2,75-79(2001)
[15] Chou,K.C.,使用两亲性伪氨基酸组成预测酶亚科类别,生物信息学,21,1,10-19(2005)
[16] Chou,K.C.,伪氨基酸组成及其在生物信息学、蛋白质组学和系统生物学中的应用,当前蛋白质组学,6,4262-274(2009)
[17] Chou,K.C.,使用伪氨基酸成分预测蛋白质细胞属性,蛋白质结构。功能。生物信息。,43, 3, 246-255 (2010)
[18] Chou,K.C.,关于蛋白质属性预测和伪氨基酸组成的一些评论,J.Theor。生物学,273,1,236-247(2011)·Zbl 1405.92212号
[19] Chou,K.C.,生物信息学对药物化学的影响,医学化学。(洛杉矶),11,3,218-234(2015)
[20] 周,K.C.,《生物科学进步推动的药物化学史上前所未有的革命》,Curr。顶部。医药化学。,17, 21, 2337-2358 (2017)
[21] 周,K.C。;Shen,H.B.,《评论:开发用于预测蛋白质属性的网络服务器的最新进展》,《自然科学》。(欧文),1,2,63-92(2009)
[22] 冯·P。;丁·H。;Yang,H。;Chen,W。;Lin,H。;Chou,K.C.,Irna-psecoll:通过将核苷酸的集体效应纳入pseknc,Mol.Ther,来确定不同rna修饰的发生位置。核酸,7,C,155-163(2017)
[23] 冯·P。;Yang,H。;丁·H。;Lin,H。;Chen,W。;Chou,K.C.,Idna6ma-pseknc:通过将核苷酸物理化学性质纳入pseknc来识别dna n 6-甲基腺苷位点,基因组学(2018)
[24] 哈桑,M.M。;郭,D。;Kurata,H.,通过结合多序列特征信息进行蛋白质s-磺酰化位点的计算识别,Mol.Biosyst。,13, 12, 2545-2550 (2017)
[25] 胡,Q。;Che,X。;张,L。;张,D。;郭,M。;Yu,D.,基于秩熵的单调分类决策树,IEEE Trans。知识。数据工程,24,11,2052-2064(2012)
[26] 贾,C。;杨琼。;Zou,Q.,Nucpospred:通过四种不同的通用pseknc模式预测物种特异性基因组核小体定位,J.Theor。生物学,450,15-21(2018)·Zbl 1397.92010号
[27] 贾,C。;Zuo,Y.,S-Sulfpred:基于重采样单侧选择欠采样-合成少数族裔过采样技术捕获S-磺酰化位点的敏感预测因子,J.Theor。生物学,42284-89(2017)
[28] 贾,C。;Zuo,Y。;邹强。;Hancock,J.,O-Glcnacpred-ii:基于模糊欠采样和k-means pca过采样技术识别O-glcnacylation位点的综合分类算法,生物信息学,34,12,2029-236(2018)
[29] 贾,J。;刘,Z。;Xiao,X。;刘,B。;Chou,K.C.,Ippi-esml:一种集成分类器,用于通过将蛋白质的物理化学性质和小波变换合并到PseAAC,J.Theor中来识别蛋白质的相互作用。《生物学》,377,47-56(2015)
[30] 贾,J。;刘,Z。;Xiao,X。;刘,B。;Chou,K.C.,Icar-psecp:通过蒙特卡罗取样确定蛋白质中的羰基化位点,并将序列耦合效应纳入一般PseAAC,Oncotarget,7,23,34558-34570(2016)
[31] 贾,J。;刘,Z。;Xiao,X。;刘,B。;Chou,K.C.,《通过将物理化学特性和平稳小波变换纳入伪氨基酸组成来识别蛋白质结合位点》,J.Biomol。结构。动态。,34, 9, 1946-1961 (2016)
[32] 贾,J。;刘,Z。;Xiao,X。;刘,B。;Chou,K.C.,Ippbs-opt:一种基于序列的集成分类器,用于通过优化不平衡训练数据集来识别蛋白质结合位点,Molecules,21,1,E95(2016)
[33] 贾,J。;刘,Z。;Xiao,X。;刘,B。;Chou,K.C.,Isuc-pseopt:通过将序列耦合效应纳入伪组分并优化不平衡训练数据集来识别蛋白质中的赖氨酸琥珀酰化位点,Ana。生物化学。,497, 48-56 (2016)
[34] 贾,J。;刘,Z。;Xiao,X。;刘,B。;Chou,K.C.,Psuc-lys:利用PseAAC和集合随机森林方法预测蛋白质中的赖氨酸琥珀酰化位点,J.Theor。生物学,394223-230(2016)·Zbl 1343.92153号
[35] 贾,J。;张,L。;刘,Z。;Xiao,X。;Chou,K.C.,Psumo-cd:通过将序列耦合效应纳入通用PseAAC,使用协方差判别算法预测蛋白质中的sumoylation位点,生物信息学,32,20,3133-3141(2016)
[36] 朱,Z。;Wang,S.Y.,通过将k间距氨基酸对纳入Chou的一般伪氨基酸组成预测瓜氨酸化位点,Gene,664,78-83(2018)
[37] Y.D.Khan。;北卡罗来纳州拉苏尔。;侯赛因,W。;汗,S.A。;Chou,K.C.,Iphost-PseAAC:通过将序列统计矩合并到PseAAA中来识别磷酸苏氨酸位点,Anal。生物化学。,550, 109-116 (2018)
[38] Lin,H。;邓,E.Z。;丁·H。;Chen,W。;Chou,K.C.,Ipro54-pseknc:基于序列的预测因子,用于识别具有伪K元组核苷酸组成的原核生物中的sigma-54启动子,核酸研究,42,21,12961-12972(2014)
[39] 刘,B。;李凯。;黄,D.S。;Chou,K.C.,Ienhancer-el:使用集成学习方法识别增强子及其强度,生物信息学(2018)
[40] 刘,B。;刘,F。;王,X。;陈,J。;方,L。;Chou,K.C.,《Pse-in-one:生成dna、rna和蛋白质序列的各种伪成分模式的网络服务器》,《核酸研究》,第43期,网络服务器期刊,W65-W71(2015)
[41] 刘,B。;王,S。;朗·R。;Chou,K.C.,Irspot-el:用集成学习方法识别重组点,生物信息学,33,1,35-41(2017)
[42] 刘,B。;翁,F。;黄,D.S。;Chou,K.C.,Iro-3wpseknc:通过基于三个窗口的pseknc识别dna复制起源,生物信息学(2018)
[43] 刘,B。;吴,H。;Chou,K.C.,《Pse-in-one 2.0:一个改进的网络服务器包,用于生成各种模式的dna、rna和蛋白质序列伪成分》,《自然科学》。(欧文),09,4,67-91(2017)
[44] 刘,B。;杨,F。;Chou,K.C.,2L-pirna:一种用于识别piwi相互作用rna及其功能的双层集成分类器,Mol.Ther。核酸,7,C,267-277(2017)
[45] 刘,B。;杨,F。;黄,D.S。;Chou,K.C.,Ipromoter-2l:通过基于多窗口的pseknc识别启动子及其类型的双层预测因子,生物信息学,34,1,33-40(2017)
[46] 刘,Z。;Xiao,X。;邱伟荣。;Chou,K.C.,Idna-methyl:通过伪三核苷酸组成识别dna甲基化位点,Ana。生物化学。,474, 69-77 (2015)
[47] 刘,Z。;Xiao,X。;Yu,D.J。;贾,J。;邱伟荣。;Chou,K.C.,Prnam-pc:通过物理化学性质预测rna序列中的n(6)-甲基腺苷位点。,分析。生物化学。,497, 60-67 (2016)
[48] 马鲁夫,M.A.A。;Shatabda,S.,Irspot-sf:通过将基于序列的特征纳入周的伪成分来预测重组热点,基因组学(2018)
[49] 梅赫尔,P.K。;Sahu,T.K。;塞尼,V。;Rao,A.R.,通过将成分、物理化学和结构特征纳入Chou的一般PseAAC,Sci,预测抗菌肽,提高准确性。代表742362(2017)
[50] 梅,J。;Ji,Z.,利用Chous伪氨基酸组成和不同分类器预测hiv-1和hiv-2蛋白:,Sci。代表8(2018年)
[51] 钱,Y。;马特尔,J。;新泽西州佩斯。;巴拉德·T·E。;约翰逊,D.S。;Weerapana,E.,《定量蛋白质组学中基于偶氮苯的同位素标记可切割连接物》,化学生物化学。,14, 12, 1410-1414 (2013)
[52] 邱伟荣。;姜世勇(Jiang,S.Y.)。;孙碧琴。;Xiao,X。;Cheng,X。;Chou,K.C.,Irna-2methyl:通过将序列耦合效应纳入通用pseknc和集合分类器,《医学化学》,来识别rna2′-o-甲基化位点。(洛杉矶),13,8,734-743(2017)
[53] 邱伟荣。;姜世勇(Jiang,S.Y.)。;徐,Z.C。;Xiao,X。;Chou,K.C.,Irnam5c-psednc:通过将物理化学性质纳入伪二核苷酸组成来识别rna 5-甲基胞嘧啶位点,Oncotarget,8,25,41178-41188(2017)
[54] 邱伟荣。;孙碧琴。;Xiao,X。;徐,D。;Chou,K.C.,Iphos-pseevo:通过灰色系统理论将进化信息纳入一般PseAAC,识别人类磷酸化蛋白质,Mol.Inf.,36,5-6(2017)
[55] 邱伟荣。;孙碧琴。;Xiao,X。;徐,Z.C。;Chou,K.C.,Ihyd-psecp:通过将序列偶联效应纳入一般PseAAC来识别蛋白质中的羟脯氨酸和羟赖氨酸,Oncotarget,7,28,44310-44321(2016)
[56] 邱伟荣。;孙碧琴。;Xiao,X。;徐,Z.C。;Chou,K.C.,Iptm-mlys:识别多个赖氨酸ptm位点及其不同类型,生物信息学,32,20,3116-123(2016)
[57] 邱伟荣。;孙碧琴。;Xiao,X。;徐,Z.C。;贾建华。;Chou,K.C.,Ikcr-pseens:使用伪组分和集成分类器识别组蛋白中的赖氨酸-巴豆酸化位点,基因组学,110,239-246(2017)
[58] 邱伟荣。;Xiao,X。;Chou,K.C.,Irspot-tncPseAAC:用三核苷酸组成和伪氨基酸成分识别重组点,国际分子科学杂志。,15, 2, 1746-1766 (2014)
[59] 邱伟荣。;Xiao,X。;Lin,W.Z。;Chou,K.C.,Imethyl-PseAAC:通过伪氨基酸组成方法鉴定蛋白质甲基化位点,Biomed。Res.Int.,2014,12,947416(2014)
[60] 邱伟荣。;Xiao,X。;Lin,W.Z。;Chou,K.C.,Iubiq-lys:通过灰色系统模型提取序列进化信息预测蛋白质中的赖氨酸泛素化位点,J.Biomol。结构。动态。,33, 8, 1731-1742 (2015)
[61] 邱伟荣。;Xiao,X。;徐,Z.C。;Chou,K.C.,Iphos-pseen:通过将不同的伪成分融合到集成分类器中来识别蛋白质中的磷酸化位点,Oncotarget,7,32,51270-51283(2016)
[62] Quinlan,J.R.,C4.5:机器学习程序(1992年),摩根·考夫曼出版社
[63] 萨卡,M。;Tzortzis,G。;医学博士Mantzaris。;北卡罗来纳州贝卡斯。;Kellici,T.F.(Kellici,T.F.)。;利卡斯,A。;Galaris,D。;Gerothanasis,I.P。;Tzakos,A.G.,出版社:蛋白质s-磺酰化服务器,生物信息学,32,17,2710-2712(2016)
[64] Shi,H.,Best-First决策树学习(2007),怀卡托大学
[65] 宋,J。;Wang,Y。;Li,F。;Akutsu,T。;罗林斯,N.D。;韦伯,G.I。;Chou,K.C.,Iprot-sub:准确绘制和预测蛋白酶特异性底物和切割位点的综合软件包,Phys。版本E,97,4(2018)
[66] 苏,Z.D。;黄,Y。;张志勇。;赵永伟。;王,D。;Chen,W。;周,K.C。;Lin,H.,Iloc-lncrna:通过将八聚体成分纳入通用pseknc预测lncrnas的亚细胞位置,生物信息学(2018)
[67] Szychowski,J。;Mahdavi,A。;霍达斯,J.J.L。;Bagert,J.D。;Ngo,J.T。;兰德格拉夫,P。;迪特里希特区。;舒曼,E.M。;Tirrell,D.A.,通过叠氮-炔烃环加成标记生物分子的可裂解生物素探针,美国化学杂志。Soc.,132,51,18351-18360(2010)
[68] 塔希尔,M。;海亚特,M。;Kabir,M.,通过应用Chou三核苷酸组成的一般形式区分增强子及其类型的基于序列的预测,计算。方法生物识别程序。,1462017年7月,69-75(2017)
[69] 王,C。;威拉帕纳,E。;布莱维特,M.M。;Cravat,B.F.,定量绘制脂质衍生电泳靶点的化学蛋白质组平台,《自然方法》,11,1,79-85(2014)
[70] 王,X。;Yan,R。;李,J。;Song,J.,Sohpred:一种新的生物信息学工具,用于表征和预测人类s-磺酰化位点,Mol.Biosyst。,12, 9, 2849-2857 (2016)
[71] 威拉帕纳,E。;王,C。;西蒙,G.M。;Richter,F。;哈雷,S。;医学博士Dillon。;Bachovchin,D.A。;莫文,K。;Baker博士。;Cravat,B.F.,定量反应性分析预测蛋白质组中的功能性半胱氨酸,《自然》,4687325790-795(2010)
[72] Witten,I.H。;E.弗兰克。;Hall,M.A.,《数据挖掘:实用机器学习工具和技术》(2005),Morgan Kaufmann·Zbl 1076.68555号
[73] 萧,X。;Cheng,X。;陈,G。;毛,Q。;Chou,K.C.,Ploc-mgpos:通过准平衡训练数据集和PseAAC预测革兰氏阳性细菌蛋白质的亚细胞定位,基因组学(2018)·Zbl 1406.92173号
[74] Xiao,X。;叶海霞。;刘,Z。;贾建华。;Chou,K.C.,Iros-gpseknc:通过将二核苷酸位置特异性倾向纳入一般伪核苷酸组成来预测dna中的复制起源位点,Oncotarget,7,23,34180-34189(2016)
[75] Xu,Y。;Chou,K.C.,预测蛋白质翻译后修饰位点的最新进展,Curr。顶部。医药化学。,16, 6, 591-603 (2016)
[76] Xu,Y。;丁,J。;Wu,L.Y.,Isulf-cys:氨基酸理化性质蛋白质中s-磺基化位点的预测,PloS-One,11,4,e0154237(2016)
[77] Xu,Y。;丁,J。;Wu,L.Y。;Chou,K.C.,Isno-PseAAC:通过将位置特异性氨基酸倾向纳入伪氨基酸组成来预测蛋白质中的半胱氨酸s-亚硝基化位点,PloS One,8,2,e55844(2013)
[78] Xu,Y。;王,Z。;李,C。;Chou,K.C.,Ipreny-PseAAC:通过将两层序列偶联纳入PseAAA,Med.Chem,鉴定蛋白质中的C-末端半胱氨酸丙酰化位点。(洛杉矶),13,6544-551(2017)
[79] Xu,Y。;文,X。;邵晓杰。;邓,纽约。;Chou,K.C.,Ihyd-PseAAC:通过将二肽位置特异性倾向纳入伪氨基酸组成来预测蛋白质中的羟脯氨酸和羟赖氨酸,国际分子科学杂志。,15, 5, 7594-7610 (2014)
[80] Xu,Y。;文,X。;Wen,L.S。;Wu,L.Y。;邓,纽约。;Chou,K.C.,Initro-tyr:具有一般伪氨基酸组成的蛋白质中硝基酪氨酸位点的预测。,《公共科学图书馆·综合》,9,8,e105018(2014)
[81] Xu,Y。;Yang,Y。;丁,J。;Li,C.,Iglu-lys:通过氨基酸对顺序特征预测赖氨酸戊二酰化,IEEE Trans。纳米生物科学,PP,99(2018)
[82] Yang,H。;邱伟荣。;刘,G。;郭富斌。;Chen,W。;周,K.C。;Lin,H.,Irspot-pse6nc:通过将六聚体成分并入普通pseknc:,Int.J.Biol,识别酿酒酵母中的重组点。科学。,14, 8, 883-891 (2018)
[83] Yang,J.等人。;古普塔,V。;卡罗尔,K.S。;Liebler,D.C.,《细胞中蛋白质s-磺酰化的位点特异性绘图和量化》,国家通讯社。,5, 4776 (2014)
[84] Yu,B。;李,S。;邱伟业。;陈,C。;Chen,R.X。;Wang,L。;Wang,M.H。;Zhang,Y.,基于小波去噪结合Chous PseAAC和psepsm准确预测凋亡蛋白的亚细胞位置,Oncotarget,8,64,107640-107665(2017)
[85] 郑涛。;姜浩。;Wu,P.,作为生物正交点击化学蛋白质组学的可切割连接物的单标记dna,Bioconcug。化学。,24, 6, 859-864 (2013)
[86] 钟,J。;孙,Y。;彭,W。;谢,M。;Yang,J.等人。;Tang,X.,Xgbfemf:一个基于xgboost的基本蛋白预测框架,IEEE Trans。纳米生物科学,PP,99(2018)
[87] Zuo,Y。;贾,C。;李·T。;Chen,Y.,通过分离双文件贝叶斯特征提取鉴定癌凝集素,Curr。蛋白质组学,15,196-200(2018)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。