跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2007年7月;35(Web服务器问题):W585–W587。
2007年5月21日在线发布。 数字对象标识:10.1093/nar/gkm259
预防性维修识别码:1933年3月216日
PMID:17517783

WoLF PSORT:蛋白质定位预测因子

摘要

WoLF PSORT是PSORT II程序的扩展,用于蛋白质亚细胞位置预测。WoLF-PSORT将蛋白质氨基酸序列转换为数值定位特征;基于排序信号、氨基酸组成和功能基序,如DNA结合基序。转换后,一个简单的k个-最近邻分类器用于预测。使用html,每个预测的证据以两种方式显示:(i)具有与查询最相似的定位特征的已知定位蛋白质列表,以及(ii)包含单个定位特征详细信息的表格。为了方便起见,提供了查询到类似蛋白质的序列比对以及到UniProt和基因本体的链接。综上所述,这些信息使用户能够理解特定蛋白质预测背后的证据(或缺乏证据)。WoLF PSORT可从wolfpsort.org获得

简介

胆汁膜将真核细胞分为不同类型的细胞器,这些细胞器含有特征蛋白质并执行特殊功能。因此,亚细胞定位信息为蛋白质的功能提供了重要线索。尽管信使核糖核酸中的定位信号似乎起到了一定作用(1)是蛋白质氨基酸序列中定位残基的主要决定因素。(我们建议使用wikipedia.org/wiki/Protein_targeting获取简要概述和Alberts. (2)用于教科书描述。)

迄今为止,已经进行了许多确定蛋白质定位的实验。这些实验大致可分为:小规模实验,其结果继续积累在公共数据库中,如UniProt()和基因本体论(4); 以及使用表位的大规模实验(5)或绿色荧光蛋白(GFP)(6)标记,或通过离心分离细胞器结合质谱鉴定蛋白质(7,8).

尽管它们提供了宝贵的信息,但实验数据的覆盖面仅限于模型生物,尤其是酵母。此外,大规模实验数据之间的一致性仅为75–80%(6–9). 因此,氨基酸定位的计算预测仍然是一个重要的课题。

有多种计算方法可用(10,11)]. 一些(包括WoLF PSORT)最近已经由Sprenger进行了基准测试. (12),他发现计算方法对站点(如nucleus)很有用,对于这些站点,可以很容易地从UniProt获得许多训练示例(UniProt是大多数预测方法(包括WoLF PSORT)的大部分或全部训练数据的来源)。他们对不同的方法进行了基准测试,发现它们具有不同的优势。在这里,我们描述了WoLF PSORT方法的公共服务器。

预测方法

WoLF PSORT是PSORT II的扩展(13,14)并使用PSORT(15)用于预测的定位特征。此外,WoLF PSORT使用了iPSORT的一些功能(16)和氨基酸组成。这些特征用于将氨基酸序列转换为数字向量,然后用加权方法对其进行分类k个-最近邻分类器。WoLF PSORT使用包装器方法来选择和使用最相关的功能。这减少了用户解释个人预测时需要考虑(和显示)的信息量,也可能使预测器不太容易过度学习。预测方法在别处有更详细的描述(17).

数据集

WoLF PSORT数据集分为真菌、植物和动物,分别包含2113、2333和12771个蛋白质。目前的数据主要来自UniProt()版本45,但来自基因本体的亚细胞定位信息(4)也使用了。包含证据代码为{TAS、IDA、IMP}的条目,在少数情况下进行了手动修改。我们打算在未来定期更新这些数据集。

定位地点和预测精度

WoLF PSORT将蛋白质分为10个以上的定位位点,包括双重定位,例如在细胞质和细胞核之间穿梭的蛋白质。基于我们的交叉验证研究(17),我们估计以下方面的敏感性和特异性约为70%:,线粒体,细胞溶质,质膜,细胞外的和(在植物中)叶绿体对于其他部位,如过氧化物酶体、高尔基体等,敏感性很低,但在某些情况下仍然可以进行有用的预测。例如拟南芥据合理预测,种子蛋白12S1_ARATH定位于液泡,尽管只有一个相邻蛋白(见下文)具有显著的序列相似性。独立测试(12)对小鼠蛋白质的WoLF PSORT预测准确度的估计明显较低(约50%)。这种差异可能是由于WoLF PSORT训练数据中研究充分的蛋白质的过度表示,也可能是由于其测试数据的大小(尤其是其“LOC2145”测试集仅包含87个细胞溶质蛋白质)或位点定义的差异。

预测结果显示

这个k个-最近邻分类器允许直观显示预测结果,这与序列相似性搜索完全类似。使用multifasta格式,可以在查询中给出多个序列。从服务器返回的第一页提供了每个查询序列的结果的一行摘要。例如,TCOF_HUMAN蛋白质的预测汇总线为:

TCOF_人类细节nucl:27.5,cyto_nucl:17,cyto:3.5,extr:1

本地化站点缩写为四个字母的代码(记录在服务器上),通过用下划线连接四个字母代码表示双重本地化。这些数字大致指示查询的最近邻居的数量,这些邻居本地化到每个站点,但会进行调整以考虑双重本地化的可能性(17).

邻居列表

有关查询邻居列表和定位信号的详细信息可以通过以下“详细信息”链接获得。显示页面的第一部分是邻居列表表,如中所示图1。此列表提供有关查询邻居的信息(WoLF PSORT训练数据中具有最相似定位功能的蛋白质)。为了方便用户,给出了标识百分比和每个邻居与查询对齐的链接。序列相似性不用于预测,但在许多情况下可以提供额外的确凿证据。UniProt、基因本体论和TAIR中相关条目的链接(网址:www.arabidopsis.org)对许多人来说拟南芥还提供了条目。

保存图片、插图等的外部文件。对象名称为gkm259f1.jpg

显示了与查询蛋白类似的部分蛋白质列表,即TCOF_HUMAN的一种亚型。对于每个邻居,显示了以下信息:UniProt ID、本地化站点、本地化功能与查询的距离、查询的百分比标识、UniProt条目的链接、UniProt的亚细胞本地化行以及其他可用的本地化信息。

本地化功能表

通过向下滚动详细结果页面,可以找到一个功能表,其中给出了查询及其邻居的每个本地化功能的值。在某些情况下,单个值可以帮助支持(或质疑)预测的位置。例如,在TCOF_HUMAN的情况下(图2)PSORT定位特征“nuc”的99%值(基于核定位信号和DNA结合位点基序)与核预测一致。在标准化表的下方,显示了一个具有原始特征值的类似表。

保存图片、插图等的外部文件。对象名为gkm259f2.jpg

显示了查询及其邻居的本地化功能。这些值被归一化为相对于WoLF PSORT训练数据的百分位数。蓝色显示的邻居值与查询值相差10%以内,而红色显示的邻居值与查询相差20个百分点或更多。

实施

服务器由Mason实现(网址:www.masonhq.com),它允许通过Perl编程语言将逻辑和计算结果方便地嵌入到html中。处理多个请求的简单策略是在包含查询内容的MD5散列的URI中返回结果。在发送查询时,会显示一个等待页面,然后在任务完成时自动重定向到结果页面(通常需要大约40个页面s) ●●●●。任务调度委托给Apache和Linux操作系统。一个查询中允许有多个序列,但我们目前将查询大小限制为64KB。对于大规模使用,例如全基因组注释,我们鼓励用户下载独立包(可在服务器上获得)并在本地运行WoLF PSORT。

总结

WoLF-PSORT不仅提供了具有竞争性准确性的亚细胞定位预测,还提供了与蛋白质定位相关的详细信息,帮助用户形成自己的假设。

致谢

KN的部分资金来自日本教育、文化、体育、科学和技术部的国家蛋白质结构和功能分析项目。人类基因组中心的年度预算用于本论文的出版。

利益冲突声明。未声明。

参考文献

1Gonsalvez GB,Urbinati CR,Long RM。酵母中的RNA定位:走向机制。生物细胞。2005;97:75–86。[公共医学][谷歌学者]
2Alberts B、Bray D、Lewis J、Raff M、Roberts K、Watson JD。纽约:加兰出版社;2002年,《细胞分子生物学》,第4版。[谷歌学者]
三。Bairoch A、Apweiler R、Wu H、Barker C、Boeckmann B、Ferro S、Gasteiger E、Huang H、Lopez R等。通用蛋白质资源(UniProt)NAR公司。2005;33:D154–D159。 [PMC免费文章][公共医学][谷歌学者]
4Ashburner M、Ball CA、Blake JA、Botstein D、Butler H、Cherry JM、Davis AP、Dolinski K、Dwight SS等。基因本体:生物学统一的工具。自然遗传学。2000;25:25–29. [PMC免费文章][公共医学][谷歌学者]
5Kumar A、Agarwal S、Heyman JA、Matson S、Heidtman M、Piccirillo S、Umansky L、Drawid A、Jansen R等。酵母蛋白质组的亚细胞定位。基因发育。2002;16:707–719. [PMC免费文章][公共医学][谷歌学者]
6Huh WK、Falvo JV、Gerke LG、Carroll AS、Howson RW、Weissman JS、O’Shea EK。芽殖酵母中蛋白质定位的全局分析。自然。2003;425:686–691.[公共医学][谷歌学者]
7Prokisch H、Scharfe C、Camp II DG、Xiao W、David L、Andreoli C、Monroe ME、Moore RJ、Gritsenko MA等。酵母线粒体蛋白质组的综合分析。《公共科学图书馆·生物》。2004;2(6) :e160。 [PMC免费文章][公共医学][谷歌学者]
8Foster LJ,de Hoog CL,Zhang Y,Xie X,Mootha VK,Mann M.通过蛋白质相关分析绘制哺乳动物细胞器图。单元格。2006年;125:187–199.[公共医学][谷歌学者]
9Nair R,Rost B.模拟细胞排序提高了亚细胞定位的预测。JMB公司。2005;348:85–100.[公共医学][谷歌学者]
10Emanuelsson O.根据氨基酸序列信息预测蛋白质亚细胞定位。简介。生物信息学。2002;:361–376.[公共医学][谷歌学者]
11Horton P,Mukai Y,Nakai K。蛋白质定位预测。作者:王莉,编辑。实用生物信息学家。2004年,第193-215页。第9章,世界科学5 Toh Tuck Link,新加坡596224。[谷歌学者]
12Sprenger J,Fink JL,Teasdale RD。哺乳动物亚细胞定位预测方法的评估和比较。BMC生物信息学。2006年;7(5) :S3。 [PMC免费文章][公共医学][谷歌学者]
13Horton P,Nakai K。使用K最近邻分类器更好地预测蛋白质细胞定位位点。收录人:Gaasterland T、Karp P、Karplus K、Ouzounis C、Sander C、Valencia A,编辑。第五届分子生物学智能系统国际会议纪要;希腊哈尔基迪基:AAAI出版社;1997年,第147-152页。[公共医学][谷歌学者]
14Nakai K,Horton P.Psort:检测蛋白质中分类信号并确定其亚细胞定位的程序。TIBS公司。1999;24:34.[公共医学][谷歌学者]
15Nakai K,Kanehisa M.预测真核细胞中蛋白质定位位点的知识库。基因组学。1992;14:897–911. [PMC免费文章][公共医学][谷歌学者]
16Bannai H、Tamada Y、Maruyama O、Nakai K、Miyano S。N端蛋白质分选信号的广泛特征检测。生物信息学。2002;18:298–305.[公共医学][谷歌学者]
17Horton P,Park KJ,Obayashi T,Nakai K。用WoLF PSORT预测蛋白质亚细胞定位。联系人:蒋T,杨,U-C,陈,Y-PP,编辑。第四届亚太生物信息学年会论文集,APBC06;伦敦:帝国理工学院出版社;2006年,第39–48页。[谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社