PSLDoc公司

PSLDoc:基于间隙二肽和概率潜在语义分析的蛋白质亚细胞定位预测。蛋白质亚细胞定位(PSL)预测对于基因组注释、蛋白质功能预测和药物研发具有重要意义。近年来,人们提出了许多基于蛋白质序列的革兰氏阴性菌PSL预测的计算方法。本文提出了一种基于间隙二肽和概率潜在语义分析(PLSA)的PSLDoc方法来解决这一问题。蛋白质被认为是由有间隙的二肽组成的一个术语串,它被定义为由一个或多个位置分开的任意两个残基。根据包含序列进化信息的位置特异性得分矩阵计算间隙二肽的加权方案。然后,利用PLSA进行特征约简,将约简后的向量输入到5个一对一支持向量机分类器中。将概率最大的定位点作为最终预测。据报道,序列同源性和亚细胞定位之间有很强的相关性(Nair和Rost,Protein Sci 2002;11:2836-2847;Yu等人,蛋白质2006;64:643-651)。为了正确评估PSLDoc的性能,可以将目标蛋白分为低同源性或高同源性数据集。PSLDoc对低同源性和高同源性数据集的总体准确率分别达到86.84%和98.21%,与CELLO II的数据集相比更为出色(Yu等人,蛋白质2006;64:643-651)。此外,我们设定了一个置信阈值,以在特定的召回率水平下达到较高的精确度。当置信阈值设置为0.7时,PSLDoc的精度达到97.89%,这大大优于PSORTBV.2.0(Gardy等人,生物信息学2005;21:617-623)。我们的方法证明了蛋白质的特异性特征表示可以成功地应用于蛋白质亚细胞定位的预测,提高了预测精度。此外,由于表达的普遍性,我们的方法可以扩展到真核蛋白质组。PSLDoc的web服务器在http://bio-cluster.iis.sinica.edu.tw/bioapp/PSLDoc/。

此软件的关键字

这里的任何内容都将在支持canvas元素的浏览器上被替换