×

通过PSSM融合不同模式的伪氨基酸组成而形成的蛋白质折叠分类器。 (英语) Zbl 1403.92209号

摘要:蛋白质的功能与其与周围环境包括其他蛋白质的化学反应有关。另一方面,这取决于蛋白质的空间形状和三级结构以及其组成成分在空间中的折叠。仅利用从蛋白质序列中提取的信息来正确识别蛋白质结构域折叠是当前计算生物学中一项复杂而有争议的任务。本文介绍了一种基于从蛋白质一级结构中提取特征信息量的组合分类器,以解决这一难题。在我们提出的双层结构的第一阶段,有几个分类器,每个分类器都使用不同的基于序列的特征向量进行训练。除了在类似研究中应用预测的二级结构、疏水性、范德华体积、极性、极化率和伪氨基酸组成向量的不同维度之外,本研究还使用了位置特异性评分矩阵(PSSM)来提高正确分类率(CCR)。利用与SCOP的27个著名折叠相关的训练数据集的K-fold交叉验证,使用每个证据理论K-NN分类器的28维概率输出向量来确定每个折叠类中用于识别的相应特征的信息含量或熟练度。在第二阶段,使用Sugeno模糊积分算子对测试数据集的分类器输出进行融合,以更好地决策目标折叠类。利用每个折叠类中每个分类器的经验因子计算模糊积分算子的权重。这些结果有可能对每个特征在查询蛋白目标类中的有效性进行更深入的解释。

MSC公司:

92D20型 蛋白质序列,DNA序列
92C40型 生物化学、分子生物学
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿比迪,医学硕士。;Gonzalez,R.C.,《机器人和机器智能中的数据融合》,(1992年),圣地亚哥学术出版社·Zbl 0771.68020号
[2] Altschul,S.F.公司。;Madden,T.L。;Schaffer,A.A。;张杰。;张,Z。;Miller,W。;Lipman,D.J.,Gapped BLAST和PSI-BLAST:新一代蛋白质数据库搜索程序,核酸res.,25,3389-3402,(1997)
[3] 陈,C。;Chen,L。;邹,X。;蔡,P.,利用周氏伪氨基酸组成概念和支持向量机预测蛋白质二级结构含量,protein pept。利特。,2009年7月16日至31日
[4] Chou,K.C.,使用伪氨基酸成分预测蛋白质细胞属性,蛋白质,43,246-255,(2001)
[5] Chou,K.C.,《结构生物信息学及其对生物医学科学的影响》,Curr。医学、化学、。,11, 2105-2134, (2004)
[6] Chou,K.C.,使用两亲性伪氨基酸组成预测酶亚科类别,生物信息学,21,10-19,(2005)
[7] Chou,K.C.,《伪氨基酸组成及其在生物信息学、蛋白质组学和系统生物学中的应用》,Curr。蛋白质组学,6262-274,(2009)
[8] 周,K.C。;Shen,H.B.,Memtype-2L:通过pse-PSSM和Biochem结合进化信息预测膜蛋白及其类型的网络服务器。生物物理。公共资源。,360, 339-345, (2007)
[9] 周,K.C。;Shen,H.B.,蛋白质亚细胞定位预测的最新进展,Ana。生物化学。,370, 1-16, (2007)
[10] 周,K.C。;Shen,H.B.,《Signal-CF:预测信号肽的亚组偶联和窗口融合方法》,《生物化学》。生物物理。公共资源。,357, 633-640, (2007)
[11] 周,K.C。;Shen,H.B.,Protident:通过融合功能域和序列进化信息来识别蛋白酶及其类型的网络服务器,《生物化学》。生物物理。公共资源。,376, 321-325, (2008)
[12] 周,K.C。;Shen,H.B.,Plant-mploc:一种自上而下的策略,以增强预测植物蛋白质亚细胞定位的能力,Plos one,5,e11335,(2010)
[13] 周,K.C。;Shen,H.B.,预测单位点和多位点真核蛋白亚细胞定位的新方法:euk-mploc 2.0,Plos one,5,e9931,(2010)
[14] 周,K.C。;Zhang,C.T.,蛋白质结构类预测,生物化学评论。微生物。,30, 275-349, (1995)
[15] 钟,I.F。;Huang,C.D.,通过NN和SVM分层学习架构识别蛋白质折叠的结构分类,第2714卷,(2003),计算机科学讲义,施普林格,第1159-1167页·Zbl 1049.92502号
[16] Denoeux,T.,基于dempster–shafer理论的k近邻分类规则,IEEE trans。系统。人类赛伯恩。,25, 804-813, (1995)
[17] 丁,C.H。;Dubchak,I.,使用支持向量机和神经网络的多类蛋白质折叠识别,生物信息学,17,349-358,(2001)
[18] 丁·H。;罗,L。;Lin,H.,利用Chou的两亲性伪氨基酸组成预测细胞壁裂解酶,蛋白质肽。列特。,16, 351-355, (2009)
[19] 杜巴克,I。;穆奇尼克,I。;S.R.霍尔布鲁克。;Kim,S.H.,使用氨基酸序列的全局描述预测蛋白质折叠类别,Proc。国家。美国科学院。科学。美国,92,8700-8704,(1995)
[20] 杜巴克,I。;穆奇尼克,I。;市长,C。;德拉柳克,I。;Kim,S.H.,在蛋白质结构分类(SCOP)分类的背景下识别蛋白质折叠,蛋白质,35,401-407,(1999)
[21] 芬克尔斯坦(Finkelstein,A.V.)。;Ptitsyn,O.B.,为什么球形蛋白质适合有限的折叠模式?,掠夺。生物物理。微生物。,50, 171-190, (1987)
[22] 盖利,J.C。;格雷西,J。;Kaas,Q。;Le-Nguyen,D。;海茨,A。;Chiche,L.,《KNOTTIN网站和数据库:一个专门用于打结蛋白支架的新信息系统》,核酸研究,32,D156-159,(2004)
[23] Grabisch,M.,《关于模糊连接词的等价类——模糊积分的情况》,IEEE翻译。模糊系统。,3, 96-109, (1995)
[24] Henikoff,S。;Henikoff,J.G.,蛋白质块的氨基酸替代矩阵,Proc。国家。美国科学院。科学。美国,89,10915-10919,(1992)
[25] Hochreiter,S。;豪塞尔,M。;Obermayer,K.,无比对的快速基于模型的蛋白质同源性检测,生物信息学,231728-1736,(2007)
[26] 霍尔姆,L。;Sander,C.,《蛋白质折叠和家族:序列和结构比对》,核酸研究,27,244-247,(1999)
[27] Jain,P。;加里波第,J.M。;Hirst,J.D.,蛋白质结构分类的监督机器学习算法,计算机。生物化学。,33, 216-223, (2009)
[28] 蒋,X。;魏,R。;张,T。;Gu,Q.,利用Chou伪氨基酸组成的概念预测凋亡蛋白的亚细胞位置:一种近似熵的方法,蛋白质肽。利特。,15, 392-396, (2008)
[29] Jones,D.T.,Genthreader:一种高效可靠的基因组序列蛋白质折叠识别方法,J.mol.biol。,287, 797-815, (1999)
[30] Kaur,H。;Raghava,G.P.,一种基于神经网络的方法,用于预测来自多序列比对的蛋白质中的γ转,蛋白质科学。,12, 923-929, (2003)
[31] Kaur,H。;Raghava,G.P.,利用神经网络预测多重比对中蛋白质的β-转化,蛋白质科学。,12, 627-634, (2003)
[32] 卡泽米安,M。;Moshiri,B。;Nikbakht,H。;Lucas,C.,评估二级结构预测引擎的新专家指数,计算。生物化学。,31, 44-47, (2007) ·Zbl 1124.92014年
[33] Klir,G.,《不确定性与信息:广义信息理论的基础》,(2006),John Wiley&Sons·Zbl 1280.94004号
[34] Klir,G。;Smith,R.M.,《基于信息的测量不确定性和不确定性:最新发展》,Ann math。艺术。英特尔。,32, 5-33, (2001) ·Zbl 1314.68311号
[35] Kuncheva,L.I.,组合模式分类器。方法和算法,(2004),John Wiley&Sons·兹伯利1066.68114
[36] 昆切娃,L.I。;Bezdek,J.C。;Duin,R.P.W.,多分类器融合的决策模板:实验比较,模式识别。,34, 299-314, (2001) ·Zbl 0991.68064号
[37] L.I.Kuncheva。;C.J.惠特克。;船舶、C.A。;Duin,R.P.W.,《分类器融合中多数票准确性的限制》,模式分析。应用程序。,6, 22-31, (2003) ·Zbl 1035.68101号
[38] 李,F.M。;Li,Q.Z.,使用周的伪氨基酸组成和改进的杂交方法预测蛋白质亚细胞位置,protein pept。利特。,15, 612-616, (2008)
[39] 李,Z.R。;H.H.林。;Han,L.Y。;江,L。;陈,X。;Chen,Y.Z.,PROFEAT:一个从氨基酸序列计算蛋白质和肽的结构和物理化学特征的网络服务器,核酸研究,34,W32-37,(2006)
[40] Lin,H.,利用Chou的伪氨基酸组成预测外膜蛋白的改良马氏判别式,J.theor。生物学,252350-356,(2008)·Zbl 1398.92076号
[41] 林,W.Z。;Xiao,X。;Chou,K.C.,GPCR-GIA:通过灰色关联分析识别G蛋白偶联受体及其家族的网络服务器,protein eng.des。选择。,22, 699-705, (2009)
[42] 穆尔津,A.G。;S.E.布伦纳。;哈伯德,T。;Chothia,C.,SCOP:用于序列和结构研究的蛋白质结构分类数据库,J.mol.biol。,247, 536-540, (1995)
[43] Rangwala,H。;Karypis,G.,用于远程同源性检测和折叠识别的基于轮廓的直接核,生物信息学,214239-4247,(2005)
[44] 拉希德,M。;萨哈,S。;Raghava,G.P.,使用进化信息和模体预测分枝杆菌蛋白质亚细胞定位的基于支持向量机的方法,BMC生物信息学,8,337,(2007)
[45] 萨维奇,L.J.,《统计学基础》(1972),纽约多佛·Zbl 0276.62006号
[46] 香农,C.E.,《通信数学理论》,贝尔系统。《技术期刊》,27,379-423,(1948)·兹比尔1154.94303
[47] 沈,H.B。;Chou,K.C.,蛋白质折叠模式识别的集合分类器,生物信息学,2211717-1722,(2006)
[48] Shen,H.B。;Chou,K.C.,用功能域和序列进化信息预测蛋白质折叠模式,J.theor。生物学,256,441-446,(2009)·Zbl 1400.92413号
[49] Theobald,D.L。;Mitton-Fry,R.M。;Wuttke,D.S.,OB折叠蛋白的核酸识别,年度。生物物理评论。生物摩尔。结构。,32, 115-133, (2003)
[50] Xie博士。;李,A。;王,M。;风扇,Z。;Feng,H.,LOCSVMPSI:使用SVM和PSI-BLAST剖面进行真核蛋白质亚细胞定位的网络服务器,核酸res.,33,W105-110,(2005)
[51] 曾Y.H。;郭义忠。;Xiao,R.Q。;Yang,L。;Yu,L.Z。;Li,M.L.,基于自协方差方法,使用增广的周伪氨基酸组成预测蛋白质亚线粒体位置,J.theor。生物学,259366-372,(2009)·Zbl 1402.92193号
[52] Zhang,Y.,蛋白质结构预测的进展和挑战,Curr。意见。结构。生物学,18,342-348,(2008)
[53] 周国平,《关于蛋白质结构类预测的有趣争议》,《蛋白质化学杂志》。,17, 729-738, (1998)
[54] 周,G.P。;Assa-Mount,N.,《蛋白质结构类预测的一些见解》,《蛋白质》,44,57-59,(2001)
[55] 周,X.B。;陈,C。;李,Z.C。;邹晓勇,利用周氏两亲性伪氨基酸组成和支持向量机预测酶亚科类别,J.theor。生物学,248546-551,(2007)·Zbl 1451.92245号
[56] 邹哈尔,L.M。;Denoeux,T.,带参数优化的证据理论K-NN规则,IEEE trans。系统。人类赛伯恩。,28, 263-271, (1998)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。