Gpos公共图书馆

Gpos-PLoc:一个用于预测革兰氏阳性细菌蛋白质亚细胞定位的集成分类器。统计分析表明,在最近的瑞士Prot数据库中的35016个革兰氏阳性细菌蛋白质中,约57%的条目没有亚细胞定位注释。在基因本体数据库中,对应的比例约为67%,这意味着没有亚细胞组分注释的蛋白质比例更高。随着后基因组时代基因产物的雪崩,这种位置未知的条目数量将不断增加。因此,开发一种能够及时、准确地识别其亚细胞定位的自动化方法,对于基础研究和药物研发实践都是非常有用的。鉴于此,我们开发了一个称为Gpos-PLoc的集成分类器来预测革兰氏阳性蛋白的亚细胞定位。新的预测器融合了多个基本分类器,每一个分类器都是根据最优证据理论K-近邻规则设计的。作为证明,我们对以下5个亚细胞定位位点中的革兰氏阳性蛋白进行了检测:(1)细胞壁,(2)细胞质,(3)胞外,(4)周质和(5)质膜。为了消除冗余和同源性偏差,只允许那些在同一亚细胞位置与任何其他蛋白质序列同源性<25%的蛋白质被纳入基准数据集。Gpos-PLoc在刀口交叉验证和独立数据集测试中的成功率均大于80%,这意味着Gpos-PLoc可能成为加速革兰氏阳性细菌蛋白质分析的一个非常有用的工具。公众可以通过http://202.120.37.186/bioinf/Gpos/作为web服务器免费访问Gpos-PLoc。为了满足相关领域许多研究人员的需要,在同一网站上提供了一个可下载的文件,列出了Gpos PLoc对瑞士Prot数据库中31898个革兰氏阳性细菌蛋白条目的鉴定结果,这些条目要么没有亚细胞位置注释,要么用不确定的术语如“可能”标注,“潜在”、“可能”和“相似性”。这样大规模的结果将每年更新一次,包括革兰阳性细菌蛋白的新条目,并反映Gpos-PLoc的不断发展。