×

使用迭代半监督学习技术,在硅片上准确识别蛋白质琥珀酰化位点。 (英语) Zbl 1341.92023号

摘要:作为一种广泛存在的蛋白质翻译后修饰(PTM),琥珀酰化在调节蛋白质构象、功能和理化性质方面发挥着重要作用。与费时费力的实验方法相比,琥珀酰化位点的计算预测因其方便快捷而更为理想。目前,已经开发了许多计算模型来通过各种类型的两类机器学习算法识别PTM站点。这些方法需要正负样本进行训练。然而,指定PTM的负样本是困难的,如果做得不好,可能会显著影响计算模型的性能。因此,在本文中,我们首次将正样本学习(PSoL)算法应用于琥珀酰化位点预测问题,这是一类特殊的半监督机器学习,使用正样本和未标记样本来训练模型。同时,我们通过使用多个特征编码方案,提出了一种新的琥珀酰化位点计算预测器SucPred(琥珀酰化位点预测器)。SucPred预测器在训练数据集上使用5倍交叉验证,在独立测试数据集上的准确度为84.40%,获得了令人满意的结果,这表明,本文提出的仅阳性样本学习算法对于蛋白质琥珀酰化位点的识别特别有用。此外,纯正样本学习算法可以轻松地应用于其他类型的PTM站点的预测。开发了一个用于预测琥珀酰化位点的web服务器,可在网址:http://59.73.198.144:8088/SucPred/.

MSC公司:

92C40型 生物化学、分子生物学
92-04 生物相关问题的软件、源代码等
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] 巴德瓦吉,N。;Gerstein,M。;Lu,H.,使用新型半监督学习技术,基于基因组序列的外周蛋白预测,BMC Bioninform。,11,S6-S15(2010)
[2] 塞鲁洛,L。;Pduano,V。;Zoppoli,P。;Ceccarelli,M.,预测新转录靶点的负选择启发式,BMC生物信息。,14、S3-S10(2013)
[3] Chang,C.C。;Lin,C.J.,LIBSVM:支持向量机库,ACM Trans。智力。系统。技术。,2, 1-27 (2011)
[4] Chang,W.C。;Lee,Z.Y。;Shien,D.M.,《整合支持向量机以识别蛋白质酪氨酸硫酸化位点》,J.Compute。化学。,30, 2526-2537 (2009)
[5] Chou,K.C。;Shen,H.B.,Cell-PLoc:一个用于预测各种生物体中蛋白质亚细胞定位的Web服务器包,《国家协议》。,3153-162(2008年)
[6] Chou,K.C。;Zhang,C.T.,《综述:蛋白质结构类的预测》,《生物化学评论》。分子生物学。,30, 275-349 (1995)
[7] Fu,L。;谢海林。;Xu,X.R。;杨海杰。;Nie,X.D.,《将随机森林与多氨基酸特征相结合以识别蛋白质棕榈酰化位点》,《化学》。智力。实验室,135,208-212(2014)
[8] 胡丽莲。;李,Z。;王凯。;牛,S。;史晓华(Shi,X.H.)。;Cai,Y.D。;Li,H.P.,基于多序列特征的蛋白质甲基精氨酸和甲基赖氨酸的预测和分析,生物聚合物,96,763-771(2011)
[9] 黄S.Y。;史,S.P。;Qiu,J.D.,PredSulSite:具有多种特征的蛋白质酪氨酸硫酸化位点的预测和分析,分析。生物化学。,428, 16-23 (2012)
[10] 黄,Y。;牛,B。;高,Y。;Fu,L。;Li,W.,CD-HIT Suite:用于聚类和比较生物序列的网络服务器,生物信息学,26,680-682(2010)
[11] 姜强。;Mcquay,L.J.,通过多标记相关半监督学习预测蛋白质功能,IEEE/ACM Trans。计算。生物信息学。,9, 1059-1069 (2012)
[12] Kundu,K。;Costa,F。;Huber,M。;Reth,M。;Backofen,R.,根据不平衡高通量数据对SH2-肽相互作用的半监督预测,《公共科学图书馆·综合》,8,e62732(2013)
[13] 李伟(Li,W.)。;Godzik,A.,《Cd-hit:聚类和比较大组蛋白质或核苷酸序列的快速程序》,生物信息学,221658-1659(2006)
[14] 李,Z.C。;周,X。;戴,Z。;邹晓勇,通过耦合改进的蚁群优化算法和支持向量机识别蛋白质甲基化位点,Ana。蜂鸣器。《学报》,703,163-171(2011)
[17] 刘振新。;高杰。;马奇。;高,X.J。;Ren,J。;Xue,Y.,GPS-YNO2:蛋白质中酪氨酸硝化位点的计算预测,分子生物学。,7, 1197-1204 (2011)
[18] 刘振新。;Wang,Y.B。;Gao,T.S。;潘,Z.C。;Cheng,H。;杨琼。;程振英。;Guo,A.Y。;Xue,Y.,CPLM:蛋白质赖氨酸修饰数据库,核酸研究,42,D531-D536(2014)
[19] Rudbeck,M.E。;尼尔森,L.S。;Barth,A.,分子环境对磷酸化氨基酸模型的影响:密度泛函理论研究,物理学杂志。化学。B、 1162751-2757(2012)
[20] Shao,J.L。;徐,D。;胡立德。;Kwan,Y.W。;Wang,Y.F。;Kong,X.Y。;Ngai,S.M.,《人类赖氨酸乙酰化蛋白的系统分析和通过双相关自适应二项式评分Bayes特征表示准确预测人类赖氨酰化》,Mol.Biosyst。,8, 2964-2973 (2012)
[21] 史,S.P。;邱建德。;Sun,X.Y.,PLMLA:通过结合多种特征预测赖氨酸甲基化和赖氨酸乙酰化,《分子生物学》。,8, 1520-1527 (2012)
[22] 史,S.P。;邱建德。;Sun,X.Y.,PMeS:基于增强特征编码方案的甲基化位点预测,PLoS one,7,e38772(2012)
[23] 史,S.P。;孙晓勇。;邱,J.D.,《使用多特征提取方法预测棕榈酰化位点位置》,J.Mol.Graph。型号。,40, 125-130 (2013)
[24] 史,S.P。;孙晓勇。;邱建德。;索,S.B。;陈,X。;黄S.Y。;Liang,R.P.,使用多特征提取方法预测棕榈酰化位点的位置,J.Mol.Graph。型号。,40, 125-130 (2013)
[25] 东,C.W。;Ho,S.Y.,蛋白质序列泛素化位点的计算识别,BMC生物信息。,9, 310-320 (2008)
[26] Vapnik,V.,《统计学习理论》(1998),威利出版社:威利纽约·Zbl 0935.62007号
[27] 王,C。;丁,C。;梅拉兹,R.F。;Holbrook,S.R.,《PSoL:发现非编码RNA基因的纯阳性样本学习算法》,生物信息学,222590-2596(2006)
[28] Wang,X.B。;Wu,L.Y。;Wang,Y.C。;Deng,N.Y.,使用k间距氨基酸对的组成预测棕榈酰化位点,蛋白质工程设计。选择。,22, 707-712 (2009)
[29] 韦纳特,B.T。;Scholz,C。;瓦格纳,S.A。;伊斯曼塔维修斯,V。;苏·D。;Daniel,J.A。;Choudhary,C.,赖氨酸琥珀酰化是原核生物和真核生物中经常发生的修饰,与乙酰化广泛重叠,Cell Rep.,4842-851(2013)
[30] 谢,Z。;戴J。;戴,L。;Tan,M。;郑,Z。;Wu,Y。;Boeke,J.D。;Zhao,Y.,组蛋白中的赖氨酸琥珀酰化和赖氨酸丙二酰化,分子细胞。蛋白质组学,11,100-107(2012)
[31] Xu,Y。;丁,J。;Wu,L.Y。;Chou,K.C.,iSNO-PseAAC:通过将位置特异性氨基酸倾向纳入伪氨基酸组成来预测蛋白质中的半胱氨酸S-亚硝基化位点,PLoS ONE,8,e55844(2013)
[33] 张,Z。;Tan,M。;谢,Z。;戴,L。;陈,Y。;赵毅,赖氨酸琥珀酰化作为一种新的翻译后修饰的鉴定,自然化学。生物学,758-63(2011)
[34] 赵晓伟。;李,X.T。;马振清。;尹明华,用集成分类器和特征选择预测赖氨酸泛素化,国际分子科学杂志。,12, 8347-8361 (2011)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。