×

兹马思-数学第一资源

用过采样法预测蛋白质亚细胞定位及周氏通用PseAAC。(英语) Zbl 1394.92047
摘要:近年来,随着生物信息的迅猛发展,利用支持向量机预测蛋白质亚细胞位置成为一个热门的研究领域。虽然已经取得了大量的研究成果,但是很少有研究者在分类前考虑到数据不平衡的问题,这将导致某些分类的准确率较低。因此,本文将过采样方法与支持向量机相结合来处理非平衡数据集的蛋白质亚细胞定位问题。
为了获取蛋白质的有用信息,从PSSM(Position-Specific Scoring Matrix)中提取伪氨基酸组成(PseAAC)作为特征向量,然后通过主成分分析(PCA)进行选择。用亚细胞支持向量机对样本进行分类,消除样本中蛋白质的不平衡。为了评价该方法的性能,在三个基准数据集(ZD98、CL317和ZW225)上进行了刀切试验。
通过刀切实验对支持向量机进行了有无过采样的实验,结果表明,过采样方法成功地减小了数据集的不平衡性,每个数据集中每个类的预测精度都在88.9%以上。与其他蛋白质亚细胞定位方法相比,本文方法达到了最好的定位效果。ZD98、CL317和ZW225的总准确度分别为93.2%、96.00%和92.15%,比最佳方法提高2.4%、8.0%和8.2%。该方法获得了良好的总体精度,表明特征表示和选择能够捕获蛋白质序列的有用信息,过采样方法成功地解决了支持向量机分类中样本数不均衡的问题。

理学硕士:
92C40型 生物化学、分子生物学
68T05型 人工智能中的学习与自适应系统
PDF格式 BibTeX公司 XML 引用
全文: 内政部
参考文献:
[1] 博克曼,B。;拜罗什,A。;Apweiler,R.,2003年瑞士蛋白质知识库及其补充品trembl,核酸研究,31,1365-370,(2003)
[2] 布拉舍夫斯卡,A。;Eils,R.,使用基于马尔可夫链的贝叶斯分类器的层次集成预测蛋白质亚细胞位置,BMC Bioinf.,7298,(2006)
[3] 布拉舍夫斯卡,A。;Eils,R.,使用基于马尔可夫链的贝叶斯分类器的层次集成预测蛋白质亚细胞位置,BMC Bioinf.,7298,(2006)
[4] 蔡英德,用功能域组成和支持向量机预测蛋白质亚细胞位置,生物学报。《化学》,27745765-45769,(2002年)
[5] 变化C,C。;Lin C,J.,LIBSVM:支持向量机库,ACM Trans。因特尔。系统。技术。(TIST),2,3,(2001年)
[6] 陈永乐。;Li,Q.Z.,用多样性测量算法预测亚细胞位置凋亡蛋白质,ActaSci。纳图尔。内蒙古大学,25413-417,(2004)
[7] 陈永乐。;李清志,应用改良杂交方法及伪氨基酸组成预测细胞凋亡蛋白亚细胞位置,理论杂志。生物生物学,248-3712007年
[8] 陈永乐。;李清志,细胞凋亡蛋白亚细胞定位的预测。生物,245775-783,(2007年)
[9] 陈,W。;雷,T.Y。;金,哥伦比亚特区。;Lin,H.,Pseknc:一个用于生成伪K-元组核苷酸组成的灵活web服务器,Anal。生物化学,45653-60,(2014)
[10] 陈,W。;冯,P。;杨,H。;Ding,H.,Irna AI:识别RNA序列中腺苷到肌苷编辑位点,OnTarget,84208-4217,(2017)
[11] 陈勇,L。;李Q,Z.细胞凋亡蛋白亚细胞定位的预测。生物学,245,4775-783,(2007年)
[12] 程,X。;Xiao,X.,Ploc mplant:通过将最佳GO信息整合到通用pseaac中预测多位置植物蛋白质的亚细胞定位,Mol.BioSyst.,131722-1727,(2017)
[13] 程,X。;Xiao,X.,Ploc mvirus:通过将最佳GO信息整合到通用pseaac中预测多位置病毒蛋白质的亚细胞定位,Gene,628,315-321,(2017)
[14] 程,X。;Xiao,X.,Ploc meuk:通过提取关键GO信息预测多标记真核蛋白质的亚细胞定位,基因组学,(2017)
[15] 程,X。;Zhao,S.G.,Iatc misf:用于预测解剖治疗化学品类别的多标签分类器,生物信息学,33341-346,(2017),勘误,同上,261033(2017)
[16] 程,X。;赵,S.G。;Lin,W.Z.,Ploc manimal:用单位点和多位点预测动物蛋白质的亚细胞定位,生物信息学,(2017)
[17] 程,X。;赵,S.G。;肖,X。;Chou,K.C.,Iatc mhyb:一种用于预测解剖治疗化学品分类的混合多标记分类器,OnCatarget,858494-58503,(2017)
[18] 周国庆。;沈海波,综述:蛋白质亚细胞定位预测的最新进展。生物化学,370,1-16,(2007年)
[19] 周国庆。;沈海波,《蛋白质属性预测网络服务器开发的最新进展》,自然科学,1,63-92,(2009)
[20] 周国庆。;吴振华。;Xiao,X.,Iloc-euk:一种用于预测单丛和多重真核蛋白质亚细胞定位的多标记分类器,PLoS ONE,6,e18258,(2011)
[21] 周国庆。;吴振华。;Xiao,X.,Iloc hum:使用累积标记量表预测人类蛋白质的亚细胞位置,Mol.Biosyst.,8629-641,(2012)
[22] 周K,C.,用伪氨基酸组成预测蛋白质细胞属性,蛋白质,43,3,246-255,(2001)
[23] 周国庆,用伪氨基酸组成预测蛋白质细胞属性,蛋白质,44,60,246-255,(2001),勘误表:同上,2001,43
[24] 周国庆,蛋白质属性预测与伪氨基酸组成之探讨(五十周年回顾),理论与实务。《生物学》,273236-247,(2011年)·Zbl 1405.92212
[25] 《生物信息学对药物化学的影响》,医学。《化学》,11218-234,(2015年)
[26] 《生物信息学对药物化学的影响》,医学。《化学》,11218-234,(2015年)
[27] 周,K.C.,生物科学进步推动的一场前所未有的药物化学革命,当代医学专题。《化学》,172337-2358,(2017年)
[28] 丁,S.Y。;严圣杰。;齐,S.H。;李,Y。;姚永华,一种基于PSI-BLAST剖面的蛋白质结构类预测方法。生物,353,19-23,(2014年)
[29] 杜,Q.S。;Wang,S.Q。;谢北泽。;Wang,Q.Y.,2L-PCA:用于定量药物设计及其应用的两级主成分分析仪,OnCatarget,(2017)
[30] 杜,Q.S。;Wang,S.Q。;谢北泽。;Wang,Q.Y.,2L-PCA:用于定量药物设计及其应用的两级主成分分析仪,OnCatarget,(2017)
[31] Elrod,D.W.,蛋白质亚细胞定位预测,蛋白质工程,12107-118,(1999)
[32] 冯,P。;丁,H。;杨,H。;Chen,W.,Irna psecoll:通过将核苷酸的集体效应纳入pseknc来识别不同RNA修饰的发生位置,分子治疗核酸,7155-163,(2017)
[33] 高海霞。多元统计的应用。北京:北京大学出版社,2005年。265-290页·Zbl 1063.65021
[34] 黄,J。;施,F。;《细胞凋亡预测的支持向量机方法》,中国,第123版,中国,第123版
[35] 贾杰。;刘,Z。;Liu,B.,Ippbs opt:一种基于序列的集成分类器,用于通过优化不平衡训练数据集识别蛋白质-蛋白质结合位点,分子,21,95,(2016)
[36] 贾杰。;刘,Z。;Xiao,X.,Isuc pseopt:通过将序列耦合效应纳入伪组分和优化不平衡训练数据集来识别蛋白质中赖氨酸琥珀酰化位点,Anal。生物化学,497,48-56,(2016年)
[37] 可汗,M。;哈亚特,M。;可汗,S.A。;Iqbal,N.,Unb DPC:通过将无偏倚的二肽成分纳入周氏的通用pseaac,J.Theor,识别分枝杆菌膜蛋白类型。生物学,415,13-19,(2017年)
[38] Lee K.Y.,Kim D.W.,Na D.K.等人,PLPD:基于不平衡和重叠数据集的可靠蛋白质定位预测,核酸研究。。2006,34(17):4655-4666。
[39] 李立强,蛋白质亚细胞定位位点预测的进展,免疫学,25,5,602-604,(2009)
[40] 林伟志。;方杰。;Xiao,X.,Iloc动物:用于预测动物蛋白质亚细胞定位的多标记学习分类器,分子生物学系统,9634-644,(2013)
[41] 刘,B。;Wu,H.,Pse in one 2.0:用于生成DNA、RNA和蛋白质序列的各种模式的web服务器改进包,自然科学,9,67-91,(2017)
[42] 刘,L.M。;Xu,Y.,Ipgk pseaac:通过将四个不同层次的氨基酸成对偶联信息整合到通用pseaac,Med中,来识别蛋白质中赖氨酸磷酸甘油化位点。《化学》,13552-559,(2017年)
[43] 刘,B。;Yang,F.,2L-pirna:识别piwi相互作用RNA及其功能的双层集成分类器,分子治疗核酸,7267-277,(2017)
[44] 刘,T。;郑,X。;王,C。;Wang,J.,使用伪氨基酸组成预测凋亡蛋白的亚细胞位置:自协方差变换的方法,蛋白质肽Lett.,171263-1269,(2010)
[45] 刘,T。;郑,X。;Wang,J.,使用支持向量机和PSI-BLAST轮廓预测低相似性序列的蛋白质结构类别,生物芯片,92,10,1330-1334,(2010)
[46] 刘,Z。;肖,X。;邱文荣,甲基吲哚乙酸:通过伪三核苷酸组成鉴定DNA甲基化位点。生物化学,474,69-77,(2015年)
[47] 刘,B。;刘,F。;王,X。;陈杰。;Fang,L.,Pse-in-one:用于生成DNA、RNA和蛋白质序列的各种模式伪组件的web服务器(更新版本:Pse-in-one 2.0:用于生成DNA、RNA和蛋白质序列的各种模式伪组件的改进web服务器包》,自然科学,2017,9,67-91),核酸研究,43,W65-W71,(2015)
[48] 刘,B。;王,S。;Long,R.,Irspot EL:用集成学习方法识别重组点,生物信息学,33,35-41,(2017)
[49] 梅赫尔,P.K。;沙湖,T.K。;萨尼,V。;Rao,A.R.,通过将组分、物理化学和结构特征结合到周的通用pseaac,Sci中,以提高预测抗菌肽的准确性。众议员,742362,(2017年)
[50] Nakai,K.,蛋白质分类信号和亚细胞定位预测,高级蛋白质化学杂志,54277-344,(2000)
[51] 中岛县。;Nishikawa,K.,《利用氨基酸组成和残基对频率识别细胞内和细胞外蛋白质》,分子生物学杂志,23854-61,(1994)
[52] 尼洛,克里蒂尼尼;约翰,肖威.泰勒.支持向量机及其他基于核的学习方法简介(2004),北京:电子工业出版社·Zbl 0994.68074
[53] 牛,乙。;张,M。;杜,P。;江,L。;秦,R。;苏,Q。;Chen,F.,来源于药用植物的小分子floribundiquinone B抑制乙酰胆碱酯酶活性,Oncotarget.,857149-57162,(2017)
[54] 伪氨基酸组成。https://en.wikipedia.org/wiki/Pseudo_氨基_酸成分。
[55] 邱建德。;罗,S.H。;黄建华。;太阳,X.Y。;Liang,R.P.,基于小波变换和支持向量机预测凋亡蛋白质的亚细胞位置,氨基酸,381201-1208,(2010)
[56] 邱伟。;蒋,S.Y。;孙先生。;Xia,X.,Irna-2methyl:通过将序列耦合效应纳入通用pseknc和集成分类器,鉴定RNA 2′-O-甲基化位点。化学(2017)
[57] 邱伟。;蒋世英。;Xu,Z.C.,Irnam5C psednc:通过将物理化学性质纳入伪二核苷酸成分来识别RNA 5-甲基胞嘧啶位点,OnTarget,84178-41188,(2017)
[58] 邱伟。;孙先生。;肖,X。;Xu,D.,Iphos pseevo:通过灰色系统理论将进化信息纳入通用pseaac来识别人类磷酸化蛋白质,分子信息,36,(2017),UNPS 1600010
[59] 拉希米,M。;Bakhtiarizadeh先生。;Mohammadi Sangcheshmeh,A.,《卵子发生-蛋白质发生:一种基于序列的方法,通过周氏伪氨基酸组成的六种不同模式预测卵子发生蛋白质》,J.Theor。《生物学》,41414128-136,(2017年)
[60] 沈海波。;周,K.C.,一种增强预测人类蛋白质亚细胞定位能力的自上而下的方法:hum mploc 2.0,Anal。生物化学,394269-274,(2009年)
[61] 沈海波,Gpos-mploc:一种提高革兰氏阳性细菌蛋白质亚细胞定位预测质量的自上而下方法,蛋白质肽Lett.,161478-1484,(2009)
[62] 沈海波,一种预测真核生物蛋白质亚细胞定位的新方法:Euk-mploc2.0plos-ONE,5,e9931,(2010)
[63] 沈海波,植物mploc:一种自上而下的策略来增强预测植物蛋白质亚细胞定位的能力,公共科学图书馆,5,e11335,(2010)
[64] 沈海波,Gneg-mploc:一种提高革兰氏阴性细菌蛋白质亚细胞定位预测质量的自上而下策略,J.Theor。生物学,264326-333,(2010年)
〔65〕 沈海波,病毒mploc:融合多个位点进行病毒蛋白亚细胞定位预测的融合分类器,生物医学杂志。结构。戴恩,28175-186,(2010年)
[66] 苏,Q。;卢,W。;杜,D。;陈,F。;Niu,B.,通过支持向量回归预测芳香化合物对梨形四膜虫的水生毒性,OnTarget.,849359-49369,(2017)
[67] 王,J。;杨,B。;复述,J。;莱尔,A。;马奎斯·拉戈,T.T。;网状物。;Lithgow,T.,POSSUM:基于PSSM配置文件生成数字序列特征描述符的生物信息学工具包,Bioinf.,(2017)
[68] 吴振华。;Xiao,X.,Iloc plant:用于预测植物蛋白质亚细胞定位的多标记分类器,分子生物学系统,73287-3297,(2011)
〔69〕 吴振华。;Xiao,X.,Iloc-gpos:用于预测单丛和多重革兰氏阳性细菌蛋白质亚细胞定位的多层分类器,蛋白质肽Lett.,19,4-14,(2012)
[70] 肖,X。;吴志川,Iloc病毒:一种识别病毒蛋白亚细胞定位的多标记学习分类器,J.Theor。《生物学》,284,42-51,(2011年)·Zbl 1397.92238
[71] 肖,X。;Wu,Z.C.,用于预测革兰氏阴性细菌蛋白质亚细胞定位的多标记分类器,公共科学图书馆,6,e20592,(2011)
[72] 肖,X。;Min,J.L。;林伟志。;Liu,Z.,Idrug target:通过基准数据集优化方法预测药物化合物和靶蛋白在细胞网络中的相互作用,J Biomol。结构。戴恩,332221-2233,(2015年)
[73] 徐,Y。;Li,C.,Ipreny pseaac:通过将两层序列耦合整合到pseaac,Med中,识别蛋白质中的C端半胱氨酸预酸化位点。《化学》,13544-551,(2017年)
[74] 杨,Y。;吕B,L.,使用最小-最大模块化支持向量机预测蛋白质亚细胞多定位,国际神经系统杂志,20,1,13-28,(2010)
[75] 张志华。;王志华。;Zhang,Z.R。;王英华,基于分组权重和支持向量机的凋亡蛋白亚细胞定位预测新方法,FEBS-Lett.,5806169-6174,(2006)
[76] 张,S。;黄,B。;夏新芳。;孙志荣,蛋白质亚细胞定位中的生物资讯学研究。生物化学。《生物物理》,34,6,573-579,(2007年)
[77] 张,L。;廖乙。;李,哥伦比亚特区。;朱伟,用支持向量机预测凋亡蛋白亚细胞定位的新方法,理论。生物学,259361-365,(2009)
[78] Zhang,S.L。;Liang,Y.Y。;Bai,Z.G.,一种新的基于还原三联体组成的预测凋亡蛋白亚细胞定位的方法,MATCH Common。数学。计算机。《化学》,73559-571,(2015年)
[79] 周国平。;博士,K.,细胞凋亡蛋白质的亚细胞定位预测,蛋白质,50,44-48,(2003)
[80] 周国平。;博士,K.,细胞凋亡蛋白质的亚细胞定位预测,蛋白质,50,44-48,(2003)
[81] 周志华。;Liu,X.Y.,用解决类不平衡问题的方法训练成本敏感神经,IEEE Trans。知道。数据工程,18,1,63-77,(2005)
[82] 周子华。;刘,X-Y,用解决类不平衡问题的方法训练成本敏感神经网络,IEEE Trans。知道。数据工程,18,1,63-77,(2006)
[83] 周国平。;博士,K.,细胞凋亡蛋白质的亚细胞定位预测,蛋白质,50,1,44-48,(2003)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。