Swakkhar Shatabda;桑杰·萨哈;阿洛克·夏尔马;阿卜杜拉·德赞吉 iPHLoc-ES:利用进化和结构特征鉴定噬菌体蛋白位置。 (英语) Zbl 1394.92003号 J.西奥。生物。 435, 229-237 (2017). 摘要:噬菌体蛋白是能够显著影响细菌功能的病毒,可用于基于噬菌体的治疗。噬菌体在宿主细菌中的功能取决于其在宿主细胞中的位置。了解噬菌体蛋白在宿主细胞中的亚细胞位置对于了解其工作机制非常重要。本文提出了iPHLoc-ES,一种预测噬菌体蛋白亚细胞定位的方法。我们旨在解决两个问题:区分宿主定位和非宿主定位噬菌体蛋白,以及区分宿主定位蛋白在宿主细胞(膜或细胞质)中的位置。为此,我们提取噬菌体蛋白的进化和结构特征集,并使用支持向量机(SVM)作为分类器。我们还使用递归特征消除(RFE)来减少有效预测的特征数量。在使用标准评估标准的标准数据集上,我们的方法明显优于最先进的预测工具。iPHLoc-ES可作为独立工具使用,其来源如下:https://github.com/swakkhar/iPHLoc-ES网站/以及作为web应用程序来自:http://brl.uiu.ac.bd/iPHLoc-ES/. 引用于1文件 MSC公司: 92-08 生物问题的计算方法 第62页第10页 统计学在生物学和医学中的应用;元分析 关键词:蛋白质;位置;噬菌体;分类;特征选择 软件:Phast公司;OOgenesis_Pred(OOgenesis红色);爆炸;Gpos-PLoc公司;Unb-DPC公司;综合布线;pLoc-工厂;iPTM-mLys公司;POSSUM公司;PSI-爆炸;UniProt公司;pLoc-mEuk公司;github;PseKNC公司;iLoc-Gpos公司;pLoc-动物;病毒定位;VIRALpro公司;蜘蛛2;iPHLoc ES公司;物理预测;噬菌体标记;PHASTER公司;PHACTS公司;Gpos-mPLoc公司;Gneg-mPLoc公司;pLoc-m病毒;iLoc-Virus病毒 PDF格式BibTeX公司 XML格式引用 \textit{S.Shatabda}等人,J.Theor。生物.435,229--237(2017;Zbl 1394.92003) 全文: 内政部 链接 参考文献: [1] 阿赫特,S。;阿齐兹,R.K。;Edwards,R.A.,Phispy:一种结合相似性和基于组成策略的细菌基因组中寻找原噬菌体的新算法,《核酸研究》,40,16,e126(2012) [2] 奥特曼,E。;Young,K。;加勒特,J。;奥特曼,R。;Young,R.,噬菌体λ和phix174致命裂解蛋白的亚细胞定位,J.Virol。,53, 3, 1008-1011 (1985) [3] Altschul,S.F。;Madden,T.L。;Schäffer,A.A。;张杰。;张,Z。;Miller,W。;Lipman,D.J.,Gapped blast和psi blast:新一代蛋白质数据库搜索程序,核酸研究,25,173389-3402(1997) [4] 阿恩特,D。;格兰特,J.R。;A.马尔库。;Sajed,T。;Pon,A。;梁,Y。;Wishart,D.S.,Phaster:阶段性噬菌体搜索工具的更好更快版本,《核酸研究》,44,W1,W16-W21(2016) [5] Bach,F.,通过bootstrap arxiv:0901.3202进行模型一致稀疏估计;Bach,F.,通过引导arxiv:0901.3202进行模型一致稀疏估计 [6] 巴菲,C.G。;雅彻姆,我。;Equinda,M。;利普玛,L。;A.戈本。;Viale,A。;乌贝达,C。;泽维尔,J。;Pamer,E.G.,单剂量克林霉素后肠道微生物群的深刻改变导致对艰难梭菌诱导的结肠炎的持续易感性,感染。免疫。,80, 1, 62-73 (2012) [7] Casjens,S。;Hendrix,R.,dsdna噬菌体组装的控制机制,噬菌体,15-91(1988),Springer [8] Chen,W。;Lei,T.-Y。;金博士。;Lin,H。;Chou,K.-C.,Pseknc:生成伪K元组核苷酸组成的灵活web服务器,Ana。生物化学。,456, 53-60 (2014) [9] 陈,X.-X。;Tang,H。;李,W.C。;Wu,H。;Chen,W。;丁,H。;Lin,H.,通过伪氨基酸组成鉴定细菌细胞壁裂解酶,生物识别。Res.Int.(2016年) [10] Cheng,X。;Xiao,X。;Chou,K.-C.,ploc-mEuk:通过将关键go信息提取到通用PseAAC中来预测多标签真核蛋白的亚细胞定位,基因组学(2017) [11] Cheng,X。;Xiao,X。;Chou,K.-C.,ploc-mplant:通过将最佳go信息纳入通用pseaac,Mol.Biosyst.,预测多位置植物蛋白的亚细胞定位。,13, 1722-1727 (2017) [12] Cheng,X。;Xiao,X。;Chou,K.-C.,ploc-mvirus:通过将最佳go信息合并到通用pseaac中来预测多位置病毒蛋白的亚细胞定位,Gene,628315-321(2017) [13] Cheng,X。;赵,S.-G。;林,W.-Z。;Xiao,X。;Chou,K.-C.,《ploc-mAnimal:预测单位点和多位点动物蛋白质的亚细胞定位》,生物信息学(2017) [14] Cheng,X。;赵,S.-G。;Xiao,X。;Chou,K.-C.,iatc-miss:预测解剖治疗化学物质类别的多标签分类器,生物信息学,33,3,341-346(2016) [15] 周,《生物科学进步推动的药物化学的空前革命》,Curr。顶部。医药化学(2017) [16] Chou,K.-C.,使用伪氨基酸成分预测蛋白质细胞属性,蛋白质结构。功能。生物信息。,43, 3, 246-255 (2001) [17] Chou,K.-C.,使用两亲性伪氨基酸组成预测酶亚科类别,生物信息学,21,1,10-19(2004) [18] Chou,K.-C.,《伪氨基酸组成及其在生物信息学、蛋白质组学和系统生物学中的应用》,Curr。蛋白质组学,6,4,262-274(2009) [19] Chou,K.-C.,关于蛋白质属性预测和伪氨基酸组成的一些评论,J.Theor。生物学,273,1,236-247(2011)·Zbl 1405.92212号 [20] Chou,K.-C.,《关于预测分子生物系统中多标签属性的一些评论》,《分子生物学》。,9, 6, 1092-1100 (2013) [21] Chou,K.-C.,生物信息学对药物化学的影响,医学化学。(洛杉矶),11218-234(2015) [22] 周,K.-C。;Shen,H.-B.,革兰氏阴性细菌蛋白质亚细胞位置的大尺度预测,《蛋白质组研究杂志》,5,12,3420-3428(2006) [23] 周,K.-C。;沈海波,蛋白质亚细胞定位预测的最新进展,分析。生物化学。,370, 1, 1-16 (2007) [24] 联合会,U.,Uniprot:蛋白质信息中心,核酸研究,gku989(2014) [25] 科尔特斯,C。;Vapnik,V.,支持向量网络,马赫。学习。,20, 3, 273-297 (1995) ·Zbl 0831.68098号 [26] Dehzangi,A。;Paliwal,K。;Lyons,J。;Sharma,A。;Sattar,A.,《利用进化和结构特征提高蛋白质折叠预测准确性》,IAPR生物信息学模式识别国际会议,196-207年(2013年),斯普林格 [27] Dehzangi,A。;Paliwal,K。;莱昂斯,J。;Sharma,A。;Sattar,A.,一种基于分段的方法,用于提取蛋白质折叠识别的结构和进化特征,IEEE/ACM Trans。计算。生物信息学。,11, 3, 510-519 (2014) [28] Dehzangi,A。;Phon-Amnuaisuk,S.,褶皱预测问题:新物理和物理化学特征的应用,蛋白质Pept。莱特。,18, 2, 174-185 (2011) [29] Dehzangi,A。;Sattar,A.,使用基于分段的特征提取模型进行蛋白质折叠识别,亚洲智能信息和数据库系统会议,345-354(2013),Springer [30] Dehzangi,A。;Sharma,A。;Lyons,J。;Paliwal,K.K。;Sattar,A.,《用于蛋白质折叠识别的物理化学和基于进化的特征提取方法的混合物》,《国际数据最小生物信息》。,11, 1, 115-138 (2014) [31] Dehzangi,A。;Sohrabi,S。;Heffernan,R。;Sharma,A。;Lyons,J。;Paliwal,K。;Sattar,A.,使用旋转森林和基于物理化学特征的革兰氏阳性和革兰氏阴性亚细胞定位,BMC Bioinf。,16、4、S1(2015) [32] 邓,H。;Runger,G.,通过正则化树进行特征选择,神经网络(IJCNN),2012年国际联合会议,1-8(2012),IEEE [33] Deresinski,S.,《噬菌体治疗:利用较小的跳蚤》,临床。感染。数字化信息系统。,48, 8, 1096-1101 (2009) [34] 丁,H。;冯,P.-M。;Chen,W。;Lin,H.,通过方差特征选择和分析鉴定噬菌体病毒粒子蛋白,分子生物学。,10, 8, 2229-2235 (2014) [35] 丁,H。;梁振英。;郭,F.-B。;黄,J。;Chen,W。;Lin,H.,用特征选择技术预测宿主细胞中的噬菌体蛋白,计算机。生物医学,71,156-161(2016) [36] 丁,H。;杨伟(Yang,W.)。;Tang,H。;冯,P.-M。;黄,J。;Chen,W。;Lin,H.,Phypred:鉴定噬菌体酶和水解酶的工具,Virol。罪。,31, 4, 350 (2016) [37] 杜布恰克,I。;穆奇尼克,I。;市长,C。;德拉柳克,I。;Kim,S.-H.,在范围分类的背景下识别蛋白质折叠,蛋白质结构。功能。生物信息。,35, 4, 401-407 (1999) [38] 埃夫隆,B。;Gong,G.,《从容地看引导、折刀和交叉验证》,《美国统计》,第37、1、36-48页(1983年) [39] 埃马努埃松,O。;尼尔森,H。;布鲁纳克,S。;Heijne,G.V.,基于蛋白质n端氨基酸序列预测蛋白质的亚细胞定位,分子生物学杂志。,300, 4, 1005-1016 (2000) [40] 冯,P.-M。;丁,H。;Chen,W。;Lin,H.,具有特征选择的朴素贝叶斯分类器,用于识别噬菌体病毒蛋白,计算机。数学。方法医学(2013)·Zbl 1275.92017年 [41] Fouts,D.E.,Phage_finder:完整细菌基因组序列中原噬菌体区域的自动识别和分类,核酸研究,34,20,5839-5851(2006) [42] Friedman,J.H.,《关于偏见、方差、0/1损失和维度诅咒》,Data Min.Knowl。Discovery,1,1,55-77(1997) [43] 加利兹,C。;马格南,C。;科斯特·F。;Baldi,P.,Viralpro:识别病毒衣壳和尾部序列的新套件(2015) [44] 盖恩,I。;韦斯顿,J。;巴恩希尔,S。;Vapnik,V.,使用支持向量机进行癌症分类的基因选择,Mach。学习。,46, 1, 389-422 (2002) ·Zbl 0998.68111号 [45] Heffernan,R。;Paliwal,K。;Lyons,J。;Dehzangi,A。;Sharma,A。;Wang,J。;萨塔尔,A。;Yang,Y。;周瑜,通过迭代深度学习改进蛋白质二级结构、局部骨架角和溶剂可及表面积的预测,科学。众议员5,11476(2015) [46] Hughes,J.M.,《保存抗菌剂的救命力量》,美国医学会杂志,305,10,1027-1028(2011) [47] Keen,E.C.,《噬菌体治疗:治愈概念》,Front。微生物学。,3, 238 (2012) [48] 基奥,E。;Mueen,A.,《维度诅咒》,《机器学习百科全书》,257-258(2011),斯普林格出版社 [49] M.Khan。;海亚特,M。;Khan,S.A。;Iqbal,N.,Unb-dpc:通过将无偏倚二肽成分纳入Chou的一般pseaac,J.Theor中来识别分枝杆菌膜蛋白类型。生物学,415,13-19(2017) [50] Lederberg,J.,《小跳蚤的无穷大:治疗性噬菌体redux》,Proc。国家。阿卡德。科学。,93167-3168(1996年) [51] Liljeqvist,T.G。;安德烈森,D。;Zuo,Y。;Weston,C.,《抗菌药物耐药性:迈向过去》,N.S.W.Public Health Bull。,23, 2, 37 (2012) [52] 刘,B。;Wu,H。;Chou,K.-C.,《Pse-in-one 2.0:一个改进的网络服务器包,用于生成各种模式的dna、rna和蛋白质序列伪成分》,《自然科学》。(欧文),9,04,67(2017) [53] McNair,K.,Bailey,B.A.,Edwards,R.A.,2012年。噬菌体,一种对噬菌体生活方式进行分类的计算方法。生物信息学,28,5,614-618。;McNair,K.,Bailey,B.A.,Edwards,R.A.,2012年。噬菌体,一种对噬菌体生活方式进行分类的计算方法。生物信息学,28,5,614-618。 [54] Meher,P.K。;Sahu,T.K。;塞尼,V。;Rao,A.R.,通过将成分、物理化学和结构特征纳入Chou的一般PseAAC,Sci,预测抗菌肽,提高准确性。7号代表(2017年) [55] 明绍森,N。;Bühlmann,P.,《稳定性选择》,J.R.Stat.Soc.,72,4,417-473(2010)·Zbl 1411.62142号 [56] 纳尼。;Lumini,A.,《为亚线粒体定位创建基于Chous伪氨基酸特征的遗传编程》,《氨基酸》,34,4,653-660(2008) [57] 纳尼。;鲁米尼,A。;古普塔,D。;Garg,A.,通过融合一组基于Chou伪氨基酸组成变体和进化信息的分类器来识别细菌毒性蛋白,IEEE/ACM Trans。计算。生物信息学。,9, 2, 467-475 (2012) [58] 鲍尔斯,D.M。,。评价:从精确性、回忆性和f-Measure到ROC、信息性、标记性和相关性。;鲍尔斯,D.M。,。评价:从精确性、回忆性和f-Measure到ROC、信息性、标记性和相关性。 [59] 邱伟荣。;孙碧琴。;Xiao,X。;徐,Z.C。;Chou,K.-C.,iptm-mlys:识别多个赖氨酸ptm位点及其不同类型,生物信息学,32,20,3116-123(2016) [60] 拉希米,M。;巴赫蒂亚利扎德,M.R。;Mohammadi-Sangcheshmeh,A.,Oogenesis_pred:一种基于序列的方法,通过六种不同模式的chou伪氨基酸组成预测卵子发生蛋白,J.Theor。生物学,41412128-136(2017) [61] Rakhuba,D.,Kolomiets,E.,Dey,E.S.,噬菌体受体,噬菌体吸附和渗透到宿主细胞的机制,Pol。微生物学杂志。,Novik,G.,2010年。59, 3, 145-155.; Rakhuba,D.,Kolomiets,E.,Dey,E.S.,噬菌体受体,噬菌物吸附和穿透宿主细胞的机制,Pol。微生物学杂志。,Novik,G.,2010年。第59/145-155页。 [62] Saeys,Y。;Inza,I。;Larrañaga,P.,《生物信息学中的特征选择技术综述》,生物信息学,23,19,2507-2517(2007) [63] Sass,P。;Bierbaum,G.,重组噬菌体φ11和φ12内切酶对金黄色葡萄球菌的全细胞和生物膜的溶解活性,应用。环境。微生物学。,73, 1, 347-352 (2007) [64] 塞古利坦,V。;小阿尔维斯,北。;阿诺特,M。;雷蒙德,A。;Lorimer,D。;Burgin,A.B。;萨拉蒙,P。;Segall,A.M.,《人工神经网络训练用于检测病毒和噬菌体结构蛋白》,公共科学图书馆计算。生物,8,8,e1002657(2012) [65] Sharma,A。;Lyons,J。;Dehzangi,A。;Paliwal,K.K.,《使用位置特定评分矩阵的双粒度概率进行蛋白质折叠识别的特征提取技术》,J.Theor。生物,320,41-46(2013)·Zbl 1406.92471号 [66] 沙尔马,R。;Dehzangi,A。;Lyons,J。;Paliwal,K。;Tsunoda,T。;Sharma,A.,通过将进化信息和物理化学特征纳入Chou的一般PseAAC,IEEE Trans,预测革兰氏阳性和革兰氏阴性亚细胞定位。纳米生物学。,14, 8, 915-926 (2015) [67] 沈海波。;Chou,K.-C.,Gpos-ploc:预测革兰氏阳性细菌蛋白质亚细胞定位的集成分类器,蛋白质工程设计。选择。,20, 1, 39-46 (2007) [68] 沈海斌,周国忠,2007b。病毒定位:一种融合分类器,用于预测病毒蛋白在宿主和病毒感染细胞内的亚细胞定位。生物聚合物,85,3,233-240。;Shen,H.-B.,Chou,K.-C.,2007年B。病毒定位:一种融合分类器,用于预测病毒蛋白在宿主和病毒感染细胞内的亚细胞定位。生物聚合物,85,3,233-240。 [69] 沈海波。;Chou,K.-C.,Gpos-mploc:一种自顶向下的方法,用于提高预测革兰氏阳性细菌蛋白质亚细胞定位的质量,Protein Pept。莱特。,16, 12, 1478-1484 (2009) [70] 沈海波。;Chou,K.-C.,Gneg-mploc:一种自上而下的策略,用于提高预测革兰氏阴性细菌蛋白质亚细胞定位的质量,J.Theor。生物学,264,2,326-333(2010)·兹比尔1406.92211 [71] 沈海波。;Chou,K.-C.,《病毒-多聚体:通过合并多个位点预测病毒蛋白亚细胞位置的融合分类器》,J.Biomol。结构。动态。,28, 2, 175-186 (2010) [72] 索罗库洛娃,I。;奥尔森,E。;Vodyanoy,V.,《抗生素抗性细菌噬菌体生物传感器》,《医学设备专家评论》,第11、2、175-186页(2014年) [73] Wang,J.、Yang,B.、Revote,J.,Leier,A.、Marquez-Lago,T.T.、Webb,G.、Song,J、Chou,K.C.、Lithgow,T.2017Possum:基于pssm轮廓生成数字序列特征描述符的生物信息学工具包。生物信息学。;Wang,J.、Yang,B.、Revote,J.,Leier,A.、Marquez-Lago,T.T.、Webb,G.、Song,J、Chou,K.C.、Lithgow,T.2017Possum:基于pssm轮廓生成数字序列特征描述符的生物信息学工具包。生物信息学。 [74] 王,X。;李,H。;张,Q。;Wang,R.,结合同源蛋白的go特征和距离加权knn分类器预测凋亡蛋白的亚细胞定位,Biomed。Res.Int(2016年) [75] 吴振中。;Xiao,X。;Chou,K.-C.,Iloc-gpos:预测单复合体和多重革兰氏阳性细菌蛋白质亚细胞定位的多层分类器,Protein Pept。莱特。,19, 1, 4-14 (2012) [76] Xiao,X。;吴振中。;Chou,K.C.,iloc-virus:一种多标记学习分类器,用于识别具有单个和多个位点的病毒蛋白的亚细胞定位,J.Theor。生物学,284,1,42-51(2011)·Zbl 1397.92238号 [77] Xiao,X。;吴振中。;Chou,K.-C.,预测革兰氏阴性细菌蛋白质亚细胞定位的单位点和多位点多标签分类器,《公共科学图书馆·综合》,6,6,e20592(2011) [78] Yang,Y。;Heffernan,R。;Paliwal,K。;Lyons,J。;Dehzangi,A。;Sharma,A。;Wang,J。;萨塔尔,A。;Zhou,Y.,Spider2:通过深度神经网络预测二级结构、可及表面积和主链扭转角的软件包,预测蛋白质二级结构。,55-63 (2017) [79] 周,Y。;梁,Y。;林奇,K.H。;丹尼斯·J·J。;Wishart,D.S.,Phast:一种快速噬菌体搜索工具,核酸研究,39,suppl_2,W347-W352(2011) 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。