哼哼
Hum-PLoc:一种预测人类蛋白质亚细胞定位的新集成分类器。预测人类蛋白质的亚细胞定位是一个具有挑战性的问题,尤其是当未知的查询蛋白质与已知亚细胞位置的蛋白质没有显著的同源性时,以及当需要覆盖更多的位置时。为了应对这一挑战,蛋白质样本通过基因本体(GO)数据库和两亲性伪氨基酸组成(PseAA)的杂交来表达。基于这种表示框架,通过投票系统融合多个基本个体分类器,开发了一种新的集成分类器Hum-PLoc。这些基本分类器的“引擎”由KNN(K-最近邻)规则操作。为了证明这一点,我们在以下12个位置对人类蛋白质进行了集成分类器测试:(1)中心粒;(2)细胞质;(3)细胞骨架;(4)内质网;(5)细胞外;(6)高尔基体;(7)溶酶体;(8)微粒体;(9)线粒体;(10)细胞核;(11)过氧化物酶体;(12)质膜。为了消除冗余和同源性偏差,这里研究的蛋白质中没有一个与同一亚细胞位置的任何其他蛋白具有>或=25%的序列一致性。经刀交叉验证试验和独立数据集检验的总成功率分别为81.1%和85.0%,比其他现有方法在同样严格的数据集上的总成功率高出50%以上。此外,还对新预测器获得的绝大多数高成功率并非因为GO注释的简单利用而进行了深入而引人注目的分析。这是因为,对于瑞士Prot数据库中有“亚细胞位置未知”注释的蛋白质,GO数据库中大多数(99%以上)对应的GO编号也被标注为“细胞成分未知”。预测蛋白质亚细胞位置的信息和线索实际上被埋没在一系列乏味的GO数字中,就像它们被埋没在一堆复杂的氨基酸序列中一样,尽管方式和深度不同。为了挖掘出它们的位置信息,需要一个复杂的操作引擎。而电流预测器就是其中之一,并且被证明是一个非常强大的预测器。Hum-PLoc分类器作为web服务器提供,网址为http://202.120.37.186/bioinf/Hum。
此软件的关键字