摘要

真菌分泌体知识库(FunSecKB)提供了一种分泌真菌蛋白质的资源,即分泌体,该资源是从NCBI RefSeq数据库中所有可用的真菌蛋白质数据中识别出来的。使用评估良好的计算协议鉴定分泌蛋白,该协议包括信号肽或亚细胞定位预测的SignalP、WolfPsort和Phobius,识别膜蛋白的TMHMM,以及识别内质网(ER)靶蛋白的PS-Scan。将条目映射到UniProt数据库,并将人工策划或计算预测的亚细胞位置的任何注释包含在FunSecKB中。使用基于web的用户界面,可以通过使用NCBI的RefSeq登录号或gi编号、UniProt登录号、关键字或物种来搜索、浏览和下载数据库。集成了BLAST实用程序,允许用户通过序列相似性查询数据库。实现了一个用户提交工具,以支持真菌蛋白质亚细胞位置的社区注释。借助RefSeq和相关网络工具提供的完整真菌数据,FunSecKB将成为探索真菌分泌蛋白潜在应用的宝贵资源。

数据库URL:http://proteomics.ysu.edu/secretomes/fungi.php

介绍

真菌在碳循环中发挥着重要作用,因为它们利用分泌的酶分解木质纤维素和其他生物聚合物,然后将生成的产物作为食物运输到细胞中。植物伴生真菌分泌蛋白在植物与真菌共生或真菌致病性中起着重要作用(1). 真菌分泌蛋白在人类真菌疾病的发展中也起着重要作用(2,). 分泌型真菌酶在食品、饲料、纸浆和造纸、生物乙醇和纺织工业中有广泛的应用(4).

信号肽依赖性分泌蛋白在N端含有信号肽(SP),将核糖体导向粗面内质网(ER)以完成多肽合成(5,6). 信号肽通常长15-30个氨基酸,由15-20个疏水性氨基酸残基组成,在跨膜转运过程中被裂解。虽然在内质网和高尔基体中可以发现一些不含N端信号肽的蛋白质,但超过90%的人类分泌蛋白质(7)和~90%的黑曲霉质谱鉴定的细胞外蛋白含有经典的N末端信号肽(8). 真菌中也有非经典分泌蛋白的例子,包括酿酒酵母交配信息素a因子(9)和两种半乳糖凝集素灰鸡腿菇(10),但人们普遍认为,绝大多数分泌的真菌蛋白都是通过经典的分泌途径进行处理的(8).

分泌组一词通常用于指生物体内的整套分泌蛋白质(2,11,12). 然而,该术语也被用于包括参与分泌途径的一组蛋白质(13,14). 在这里描述的工作中,分泌体只包括生物体中的分泌蛋白。随着越来越多的物种的基因组被完全测序,我们看到越来越多的关于真菌分泌体鉴定和分析的出版物使用了计算和实验方法(15). 例如,在以下真菌中报告了分泌体,包括A.尼日尔(8),白色念珠菌(16),黄孢原毛平革菌(17),菌核病(18),禾谷镰刀菌(19)和玉米Ustilago maydis(20). 考虑到分泌蛋白的生物学重要性及其潜在的工业应用,我们开发了一个真菌分泌体的知识库,用于识别、注释和管理计算预测和实验鉴定的真菌分泌蛋白。该知识库旨在作为提供和收集真菌分泌物信息的中心门户。

数据收集和数据库实施

真菌蛋白序列从NCBI参考序列集合(RefSeq)数据库中检索(2010年4月发布)(http://www.ncbi.nlm.nih.gov/RefSeq网站/). 选择RefSeq蛋白质数据集的理由是RefSeq提供了一个全面、完整、无冗余、注释良好的蛋白质集,并且相应的核苷酸序列也与数据库中的这些蛋白质序列相关联(21). 真菌分泌组知识库(FunSecKB)中的数据来自以下三个来源:(i)使用计算方法预测的特征;(ii)UniProtKB中注释的亚细胞位置;以及(iii)我们的人工管理,使用从最近文献中获得的实验证据。

分泌蛋白预测的计算方法

使用以下程序处理从NCBI RefSeq数据库下载的真菌蛋白序列,包括SignalP(版本3.0,http://www.cbs.dtu.dk/services/SignalP网站/) (22)、Phobius(网址:http://ophous.binf.ku.dk/) (23,24)、WolfPsort(http://wolfpsort.org/) (25,26)和TargetP(http://www.cbs.dtu.dk/services/TargetP网站/) (27)用于信号肽和亚细胞定位预测。我们之所以选择这四个预测因子,是因为它们之前得到了真菌分泌研究界的良好评价和广泛应用(8,16,28). TMHMM公司(http://www.cbs.dtu.dk/services/TMHMM网站)用于鉴定具有跨膜结构域的蛋白质(29)和PS-Scan(http://www.expasy.org/tools/scanprosite网站/)用于扫描ER靶向序列(Prosite:PS000014)(30). 每个程序都使用了真核生物或真菌的默认参数。对于SignalP预测,只有SignalP-NN算法预测的具有“最可能的裂解位点”的条目和SignalP-HMM算法预测的“信号肽”才被认为是真正的信号肽“阳性”,使用N末端70个氨基酸(22). 为了使用TMHMM预测膜蛋白,将膜结构域不位于N末端(前70个氨基酸)的条目作为真正的膜蛋白处理。使用FragAnchor进一步处理SignalP预测具有信号肽的蛋白质序列,以识别糖基磷脂酰肌醇(GPI)锚(http://navet.ics.hawaii.edu/~fraganchor/NNHMM/NNHMM.html) (31). 被预测为具有GPI锚定的蛋白质序列可能附着在质膜的外部,也可能被分泌以靶向细胞壁(32).

我们最近对计算方法的准确性进行了评估,使用从UniProt/Swiss-Prot数据集中检索到的真菌中241个实验鉴定的分泌蛋白和5992个非分泌蛋白,发现最高的预测准确度(敏感性92.1%,特异性98.9%)通过结合SignalP、WolfPsort和Phobius来预测信号肽,结合TMHMM来消除膜蛋白,结合PS-Scan来消除内质网靶向蛋白(28). 因此,本研究中定义的分泌体包括手动策划的分泌蛋白,以及SignalP和Phobius预测在其N末端具有信号肽的蛋白,以及WolfPsort预测为胞外的亚细胞位置,但不具有跨膜结构域或ER靶向信号的蛋白。TargetP和fragAnchor提供的信息也包含在注释中,这可能有助于识别线粒体靶向蛋白或GPI锚定的膜或细胞壁蛋白。数据库功能概述如所示图1.

FunSecKB概述。要搜索数据库,用户可以输入NCBI RefSeq-gi或登录号、UniProt登录号、关键字或物种。该数据库由使用七种预测工具生成的信息、UniProtKB中注释的亚细胞位置以及我们自己的手动管理组成。用户可以使用web用户界面浏览结果。还提供了与外部数据库和资源的链接,以供进一步探索。整个分泌序列可以下载,BLAST实用程序可以从数据库界面访问。
图1。

FunSecKB概述。要搜索数据库,用户可以输入NCBI RefSeq-gi或登录号、UniProt登录号、关键字或物种。该数据库由使用七种预测工具生成的信息、UniProtKB中注释的亚细胞位置以及我们自己的手动管理组成。用户可以使用web用户界面浏览结果。还提供了与外部数据库和资源的链接,以供进一步探索。整个分泌序列可以下载,BLAST实用程序可以从数据库界面访问。

将RefSeq蛋白链接到UniProtKB注释

FunSecKB中的真菌蛋白条目使用UniProtKB中生成的映射信息链接到UniProt知识库(ftp://ftp.uniprot.org/pub/databases/uniprot/current公司发布/知识库/idmapping/)(33). 我们还整合了UniProtKB中注释的真菌蛋白的亚细胞位置信息,包括策划(来自UniProtKB/Swiss-Prot数据集,已审查)和预测(来自UniProtKB/TrEMBL数据集,未审查)。此外,我们还在UniProtKB/Swiss-Prot数据集中包含了手动管理的蛋白质条目,这些条目无法映射到RefSeq数据库中的条目。

手动管理和社区注释

FunSecKB支持基于已发表实验证据的真菌蛋白质亚细胞位置的社区管理。开发了一个提交表单,供用户提供亚细胞位置注释和支持注释的文献源。在我们的馆长确认后,这些数据将被纳入数据库。目前,我们已经从A.尼日尔(8). 人工管理是一个持续的过程,因此额外的分泌蛋白将被人工管理并随时间整合到数据库中。

以上三个来源的信息集成在注释中(图1). 注释条目链接到NCBI和UniProtKB中的RefSeq数据库,以及由我们的馆长或社区手动管理的条目的相关文献。当NCBI发布新的RefSeq数据集时,将更新数据(http://www.ncbi.nlm.nih.gov/RefSeq网站/).

数据访问

FunSecKB可以通过数据库web界面访问,网址为http://proteomics.ysu.edu/secretomes/fungi.php有三种访问数据的方法,包括:(i)使用NCBI的RefSeq-gi或登录号、UniProt登录号、关键字或按物种搜索单个蛋白质;(ii)搜索或下载一个物种的整个分泌体或人工筛选分泌蛋白的子集,以及(iii)使用BLAST搜索所有真菌蛋白或真菌分泌蛋白。

注释页面包含上述工具预测的亚细胞位置的摘要和详细信息,以及从UniProtKB检索的注释。每个条目都链接到RefSeq和UniProtKB。通过从物种列表中选择一个物种以获取完整基因组或为其他没有完整基因组的物种输入物种名称,可以搜索和下载分泌体,包括来自特定物种的预测和筛选分泌蛋白。物种分泌体的蛋白质序列可以下载到fasta文件中。人工管理的分泌蛋白包括从UniProtKB/Swiss-Prot中检索的蛋白质,亚细胞位置标记为“reviewed”,以及由我们的管理者和用户管理的蛋白质。我们和社区策划的蛋白质有亚细胞位置注释的实验证据支持,相关文献也可以在同一页上找到。注释页还包含主要蛋白质序列(图1). 数据库界面提供了到BLAST输入界面的链接,以搜索从RefSeq检索到的蛋白质:所有真菌蛋白质或仅真菌分泌物。

初步数据分析

目前,FunSecKB共包含478 073个真菌蛋白序列,包括118种真菌中预测和/或策划的23 878个分泌蛋白。这包括52种真菌,其中一种真菌有两个不同的变种,具有完整的预测蛋白质组。我们对52种真菌的53个完整分泌物进行了初步分析,包括43个子囊菌属、7个担子菌属(新生隐球菌有两个品种)和2个小孢子虫(表1). 总的来说,基因组扩大的真菌物种在其预测的蛋白质组中编码更多蛋白质(第页 = 0.75) (图2a) ●●●●。皮炎假丝酵母菌胎盘Postia胎盘是两个离群值。对于P.胎盘然而,69 Mb的基因组RefSeq只有9083个预测蛋白等。(2009)报告了根据P.胎盘基因组(34). 因此,差异可能是由于数据库更新滞后造成的。原因是A.皮炎数据未知。

真菌基因组大小、蛋白质组大小和分泌组大小之间的关系。(a) 基因组大小和蛋白质组大小;(b) 蛋白质组大小和分泌组大小;(c) 蛋白质组大小和GPI-锚定分泌蛋白以及(d)蛋白质组大小与可溶性分泌蛋白。
图2。

真菌基因组大小、蛋白质组大小和分泌组大小之间的关系。()基因组大小和蛋白质组大小;(b)蛋白质组大小和分泌组大小;(c(c))蛋白质组大小和GPI锚定的分泌蛋白和(d日)蛋白质组大小和可溶性分泌蛋白。

表1。

不同真菌的基因组大小、蛋白质组大小、分泌组大小概述

物种基因组(Mb)预测蛋白质组预测分泌型Curated Secretome公司GPI-锚定分泌组可溶性分泌体分泌型(%)GPI锚固部分(%)
荚膜假丝酵母菌子囊菌门3193132240251992.411.2
皮炎假丝酵母菌子囊菌门7495873350512843.515.2
棉蚜子囊菌门847259322172222.6
棒曲霉子囊菌门28912157117715006.312.4
黄曲霉子囊菌门3613 487951251008517.110.5
烟曲霉子囊菌门29963062458745506.511.9
巢状曲霉子囊菌门30954170429766287.410.8
黑曲霉子囊菌门3414 102832253827505.99.9
米曲霉子囊菌门3712 0748432885758710.1
土曲霉子囊菌门2910 40177423707047.49
核盘菌子囊菌门3916 3897554926634.612.2
白色念珠菌子囊菌门2814 633449411173323.126.1
杜氏假丝酵母子囊菌门1658601840551293.129.9
光滑念珠菌子囊菌门125192121748732.339.7
热带念珠菌子囊菌门1562542121641483.430.2
球状毛壳菌子囊菌门3411 0488621677957.87.8
露西塔革孢菌子囊菌门1659361690401292.823.7
球虫感染子囊菌门2910 4402632412222.515.6
汉森德巴利酵母子囊菌门1263351481381102.325.7
赤霉素子囊菌门3611 69090011027987.711.3
乳克鲁维酵母子囊菌门115357113537762.132.7
漆树耐热性子囊菌门105091128029992.522.7
德酵母子囊菌门1657991390341052.424.5
稻瘟病菌子囊菌门4014 0101471127134410.58.6
费希新萨托菌子囊菌门3310 40675121786737.210.4
粗糙脉孢菌子囊菌门3998445921076516612.8
产黄青霉子囊菌门3212 79170351026015.514.5
马尔尼菲青霉菌子囊菌门2910 663538079459514.7
结节性Phaeospeeria nodorum结节性Phaeospeeria nodorum结节性Phaeospeeria nodorum结节性Phaeospeeria nodorum结节性Phaeospeeria nodorum结节性Phaeospeeria nodorum结节性Phaeospeeria nodorum结节性Phaeospeeria nodorum结节性Phaeospeeria nodorum子囊菌门3716 0021103110110026.99.2
吉列蒙迪毕赤酵母子囊菌门1159201590331262.720.8
毕赤酵母子囊菌门95040105031742.129.5
毕赤酵母针炎子囊菌门1558161440351092.524.3
柄孢霉子囊菌门3310 2727891897007.711.3
草蛉子囊菌门3712 1699420938497.79.9
酿酒酵母子囊菌门125885156101411152.726.3
日本裂殖酵母子囊菌门114824109071022.36.4
葡萄裂殖酵母子囊菌门1350011124371052.26.3
菌核病子囊菌门3814 4466231885354.314.1
柄篮状菌子囊菌门3613 2525800655154.411.2
里氏钩藤子囊菌门227760312045267414.4
多孢Vanderwaltozyma子囊菌门155376116028882.224.1
溶脂雅罗华子囊菌门2264722995782214.626.1
鲁西酵母子囊菌门124994120033872.427.5
灰盖鬼伞擔子菌門3613 54691781068116.811.6
新生隐球菌(新生隐球菌B-3501A)擔子菌門1965781860341522.818.3
新生隐球菌(新生隐球菌JEC21)擔子菌門2165941810301512.716.6
双色拉克里亚擔子菌門5918 2156500995513.615.2
球形马拉色菌擔子菌門94286134081263.16
恶性念珠菌擔子菌門2713 6494650394263.48.4
胎盘Postia胎盘擔子菌門6990833910223694.35.6
玉米Ustilago maydis擔子菌門2065484312214106.64.9
楔状脑囊炎小孢子虫19961720170.90
微孢子虫小孢子虫436322100210.60
其他物种998367366
总计478 07323 87810673014
物种基因组(Mb)预测蛋白质组预测分泌型Curated Secretome公司GPI-锚定分泌组可溶性分泌体分泌型(%)GPI锚固部分(%)
荚膜阿杰菌子囊菌门3193132240251992.411.2
皮炎假丝酵母菌子囊菌门7495873350512843.515.2
棉蚜子囊菌门847259322172222.6
棒曲霉子囊菌门28912157117715006.312.4
黄曲霉子囊菌门3613 487951251008517.110.5
烟曲霉子囊菌门29963062458745506.511.9
巢状曲霉子囊菌门30954170429766287.410.8
黑曲霉子囊菌门3414 102832253827505.99.9
米曲霉子囊菌门3712 0748432885758710.1
土曲霉子囊菌门2910 40177423707047.49
核盘菌子囊菌门3916 3897554926634.612.2
白色念珠菌子囊菌门2814 633449411173323.126.1
杜氏假丝酵母子囊菌门1658601840551293.129.9
光滑念珠菌子囊菌门125192121748732.339.7
热带念珠菌子囊菌门1562542121641483.430.2
球状毛壳菌子囊菌门3411 0488621677957.87.8
露西塔革孢菌子囊菌门1659361690401292.823.7
球虫感染子囊菌门2910 4402632412222.515.6
汉森德巴利酵母子囊菌门1263351481381102.325.7
玉米赤霉子囊菌门3611 69090011027987.711.3
乳克鲁维酵母子囊菌门115357113537762.132.7
漆树耐热性子囊菌门105091128029992.522.7
德酵母子囊菌门1657991390341052.424.5
稻瘟病菌子囊菌门4014 0101471127134410.58.6
费希新萨托菌子囊菌门3310 40675121786737.210.4
粗糙脉孢菌子囊菌门3998445921076516612.8
产黄青霉子囊菌门3212 79170351026015.514.5
马尔尼菲青霉菌子囊菌门2910 663538079459514.7
结节性噬菌体子囊菌门3716 0021103110110026.99.2
吉列蒙迪毕赤酵母子囊菌门1159201590331262.720.8
毕赤酵母子囊菌门95040105031742.129.5
毕赤酵母针炎子囊菌门1558161440351092.524.3
柄孢霉子囊菌门3310 2727891897007.711.3
草蛉子囊菌门3712 1699420938497.79.9
酿酒酵母子囊菌门125885156101411152.726.3
日本裂殖酵母子囊菌门114824109071022.36.4
葡萄裂殖酵母子囊菌门1350011124371052.26.3
菌核病子囊菌门3814 4466231885354.314.1
柄篮状菌子囊菌门3613 2525800655154.411.2
里氏钩藤子囊菌门227760312045267414.4
多孢Vanderwaltozyma子囊菌门155376116028882.224.1
溶脂雅罗华子囊菌门2264722995782214.626.1
鲁西酵母子囊菌门124994120033872.427.5
灰盖鬼伞擔子菌門3613 54691781068116.811.6
新生隐球菌(新生隐球菌B-3501A)擔子菌門1965781860341522.818.3
新生隐球菌(新生隐球菌JEC21)擔子菌門2165941810301512.716.6
双色拉克里亚擔子菌門5918 2156500995513.615.2
球形马拉色菌擔子菌門94286134081263.16
恶性念珠菌擔子菌門2713 6494650394263.48.4
胎盘Postia胎盘擔子菌門6990833910223694.35.6
玉米Ustilago maydis擔子菌門2065484312214106.64.9
楔状脑囊炎微孢子虫属19961720170.90
微孢子虫小孢子虫436322100210.60
其他物种998367366
总计478 07323 87810673014
表1。

不同真菌的基因组大小、蛋白质组大小、分泌组大小概述

物种基因组(Mb)预测蛋白质组预测分泌型Curated Secretome公司GPI-锚定分泌组可溶性分泌体分泌型(%)GPI锚固部分(%)
荚膜阿杰菌子囊菌门3193132240251992.411.2
皮炎假丝酵母菌子囊菌门7495873350512843.515.2
棉蚜子囊菌门847259322172222.6
棒曲霉子囊菌门28912157117715006.312.4
黄曲霉子囊菌门3613 487951251008517.110.5
烟曲霉子囊菌门29963062458745506.511.9
巢状曲霉子囊菌门30954170429766287.410.8
黑曲霉子囊菌门3414 102832253827505.99.9
米曲霉子囊菌门3712 0748432885758710.1
土曲霉子囊菌门2910 40177423707047.49
核盘菌子囊菌门3916 3897554926634.612.2
白色念珠菌子囊菌门2814 633449411173323.126.1
杜氏假丝酵母子囊菌门1658601840551293.129.9
光滑念珠菌子囊菌门125192121748732.339.7
热带念珠菌子囊菌门1562542121641483.430.2
球状毛壳菌子囊菌门3411 0488621677957.87.8
露西塔革孢菌子囊菌门1659361690401292.823.7
球虫感染子囊菌门2910 4402632412222.515.6
汉森德巴利酵母子囊菌门1263351481381102.325.7
玉米赤霉子囊菌门3611 69090011027987.711.3
乳克鲁维酵母子囊菌门115357113537762.132.7
漆树耐热性子囊菌门105091128029992.522.7
德酵母子囊菌门1657991390341052.424.5
稻瘟病菌子囊菌门4014 0101471127134410.58.6
费希新萨托菌子囊菌门3310 40675121786737.210.4
粗糙脉孢菌子囊菌门3998445921076516612.8
产黄青霉子囊菌门3212 79170351026015.514.5
马尔尼菲青霉菌子囊菌门2910 663538079459514.7
结节性噬菌体子囊菌门3716 0021103110110026.99.2
吉列蒙迪毕赤酵母子囊菌门1159201590331262.720.8
毕赤酵母子囊菌门95040105031742.129.5
毕赤酵母针炎子囊菌门1558161440351092.524.3
柄孢霉子囊菌门3310 2727891897007.711.3
草蛉子囊菌门3712 1699420938497.79.9
酿酒酵母子囊菌门125885156101411152.726.3
日本裂殖酵母子囊菌门114824109071022.36.4
葡萄裂殖酵母子囊菌门1350011124371052.26.3
菌核病子囊菌门3814 4466231885354.314.1
柄篮状菌子囊菌门3613 2525800655154.411.2
里氏钩藤子囊菌门227760312045267414.4
多孢Vanderwaltozyma子囊菌门155376116028882.224.1
溶脂雅罗华子囊菌门2264722995782214.626.1
鲁西酵母子囊菌门124994120033872.427.5
灰盖鬼伞擔子菌門3613 54691781068116.811.6
新生隐球菌(新生隐球菌B-3501A)擔子菌門1965781860341522.818.3
新生隐球菌(新生隐球菌JEC21)擔子菌門2165941810301512.716.6
双色拉克里亚擔子菌門5918 2156500995513.615.2
球形马拉色菌擔子菌門94286134081263.16
恶性念珠菌擔子菌門2713 6494650394263.48.4
胎盘Postia胎盘擔子菌門6990833910223694.35.6
玉米Ustilago maydis擔子菌門2065484312214106.64.9
楔状脑囊炎微孢子虫属19961720170.90
微孢子虫小孢子虫436322100210.60
其他物种998367366
总计478 07323 87810673014
物种基因组(Mb)预测蛋白质组预测分泌型Curated Secretome公司GPI-锚定分泌组可溶性分泌体分泌型(%)GPI锚固部分(%)
荚膜假丝酵母菌子囊菌门3193132240251992.411.2
皮炎假丝酵母菌子囊菌门7495873350512843.515.2
棉蚜子囊菌门847259322172222.6
棒曲霉子囊菌门28912157117715006.312.4
黄曲霉子囊菌门3613 487951251008517.110.5
烟曲霉子囊菌门29963062458745506.511.9
巢状曲霉子囊菌门30954170429766287.410.8
黑曲霉子囊菌门3414 102832253827505.99.9
米曲霉子囊菌门3712 0748432885758710.1
土曲霉子囊菌门2910 40177423707047.49
核盘菌子囊菌门3916 3897554926634.612.2
白色念珠菌子囊菌门2814 633449411173323.126.1
杜氏假丝酵母子囊菌门1658601840551293.129.9
光滑念珠菌子囊菌门125192121748732.339.7
热带念珠菌子囊菌门1562542121641483.430.2
球状毛壳菌子囊菌门3411 0488621677957.87.8
露西塔革孢菌子囊菌门1659361690401292.823.7
球虫感染子囊菌门2910 4402632412222.515.6
汉森德巴利酵母子囊菌门1263351481381102.325.7
赤霉素子囊菌门3611 69090011027987.711.3
乳克鲁维酵母子囊菌门115357113537762.132.7
漆树耐热性子囊菌门105091128029992.522.7
德酵母子囊菌门1657991390341052.424.5
稻瘟病菌子囊菌门4014 0101471127134410.58.6
费希新萨托菌子囊菌门3310 40675121786737.210.4
粗糙脉孢菌子囊菌门3998445921076516612.8
产黄青霉子囊菌门3212 79170351026015.514.5
马尔尼菲青霉菌子囊菌门2910 663538079459514.7
结节性噬菌体子囊菌门3716 0021103110110026.99.2
吉列蒙迪毕赤酵母子囊菌门1159201590331262.720.8
毕赤酵母子囊菌门95040105031742.129.5
毕赤酵母针炎子囊菌门1558161440351092.524.3
柄孢霉子囊菌门3310 2727891897007.711.3
草蛉子囊菌门3712 1699420938497.79.9
酿酒酵母子囊菌门125885156101411152.726.3
日本裂殖酵母子囊菌门114824109071022.36.4
葡萄裂殖酵母子囊菌门1350011124371052.26.3
菌核病子囊菌门3814 4466231885354.314.1
柄篮状菌子囊菌门3613 2525800655154.411.2
里氏钩藤子囊菌门227760312045267414.4
多孢Vanderwaltozyma子囊菌门155376116028882.224.1
溶脂雅罗华子囊菌门2264722995782214.626.1
鲁西酵母子囊菌门124994120033872.427.5
灰盖鬼伞擔子菌門3613 54691781068116.811.6
新生隐球菌(新生隐球菌B-3501A)擔子菌門1965781860341522.818.3
新生隐球菌(新生隐球菌JEC21)擔子菌門2165941810301512.716.6
双色拉克里亚擔子菌門5918 2156500995513.615.2
球形马拉色菌擔子菌門94286134081263.16
恶性念珠菌擔子菌門2713 6494650394263.48.4
胎盘Postia胎盘擔子菌門6990833910223694.35.6
玉米Ustilago maydis擔子菌門2065484312214106.64.9
楔状脑囊炎小孢子虫19961720170.90
微孢子虫微孢子虫属436322100210.60
其他物种998367366
总计478 07323 87810673014

不同物种蛋白质组中分泌体的比例差异很大,从<1%到楔状脑囊炎微孢子虫,两种小孢子虫(单细胞寄生虫),在稻瘟病菌,一种水稻病原真菌(表1). 总的来说,真菌中预测的分泌体大小随着蛋白质组大小的增加而增加(第页 = 0.83) (图2b) 。我们进一步在预测的分泌体中鉴定了GPI-锚定蛋白,这些蛋白代表分泌蛋白的不溶部分,是细胞壁的组成部分或附着在细胞膜的外部。我们发现,在不同真菌物种中,不溶性和可溶性部分都随着蛋白质组大小的增加而增加(图2c和2d)。

使用NCBI BLAST包中的rpsBLAST工具分析预测分泌体的功能分类,以搜索保守域数据库(35). 整个数据库中有50多个成员的高度编码分泌蛋白家族列于表2初步功能分析表明,真菌分泌体主要由酶组成,特别是水解酶,真菌利用水解酶分解碳水化合物、脂质、蛋白质和所有其他类型的有机物质(表2). 此外,UniProtKB中共有10397个分泌蛋白具有GO注释。其中,使用GOSlimViewer进行分子功能分类(http://agbase.msstate.edu/cgi-bin/tools/goslimviewer_select.pl)显示43%是水解酶,包括肽酶(图3) (36). 这些酶在生物燃料生产中有潜在的应用。数据库用户界面提供了一个易于使用的选项,可以下载来自完全测序真菌物种的预测分泌体。这为进一步详细的物种特异性或种间比较分析提供了资源。

使用GOSlimViewer对真菌分泌蛋白进行分子功能分类。
图3。

使用GOSlimViewer对真菌分泌蛋白进行分子功能分类。

表2。

真菌中高度编码的分泌蛋白家族

CDD功能域数字
pfam00135,酯酶,羧酸酯酶314
pfam03443,糖苷水解酶61,糖基水解酶家族61301
含COG0277、GlcD、FAD/FMN的脱氢酶287
cd04077,肽酶S8 PCSK9蛋白酶K样:蛋白酶K样蛋白中的肽酶S7家族结构域223
pfam00450,肽酶S10,丝氨酸羧肽酶215
pfam00295,糖苷水解酶28,糖基水解酶家族28207
pfam00067,p450,细胞色素p450160
pfam00933,糖苷水解酶家族3 N末端结构域156
cd05474,病原菌分泌的胃蛋白酶样蛋白酶降解宿主蛋白154
COG2303、BetA、胆碱脱氢酶和相关黄素蛋白152
pfam01083,角质酶139
pfam09362,DUF1996,未知功能域136
pfam00264,酪氨酸酶,酪氨酸酶的共同中心结构域130
TIGR03388,抗坏血酸,L-抗坏血酸氧化酶,植物类型128
cd04056,肽酶S53,S53家族中的肽酶结构域124
pfam04389,肽酶M28,肽酶家族M28122
COG5309、COG5309-外β-1,3-葡聚糖酶121
pfam04616,糖化氢43,糖基水解酶家族43114
cd00519,脂酶3,脂肪酶(3类)106
PRK02106、PRK02106-胆碱脱氢酶100
COG2730、BglC、内切葡聚糖酶99
pfam00328,酸性磷酸酶A,组氨酸酸性磷酸酶98
pfam03856,SUN,β-葡萄糖苷酶(SUN家族)97
pfam07519,单宁酶、单宁酶和阿魏酸酯酶97
smart00656,Amb all,Amb所有域94
pfam00457,糖苷水解酶11,糖基水解酶家族1192
cd06097,类曲霉蛋白酶:真菌来源的类曲霉蛋白酶,天冬氨酸蛋白酶91
cd02877,GH18 hevamine XipI III类88
pfam00331,糖化氢10,糖基水解酶家族1088
pfam01565,FAD绑定4,FAD结合域87
pfam03583,LIP,分泌脂肪酶87
pfam03659,糖苷水解酶71,糖基水解酶家族7187
pfam01185,疏水,真菌疏水蛋白85
pfam01532,糖苷水解酶47,糖基水解酶家族4779
cd02181,GH16 MLG1葡聚糖酶78
cd05471,肽样天冬氨酸蛋白酶,在酸性pH下裂解肽中键的双叶酶77
cd05384,SCP PRY1样,SCP样细胞外蛋白结构域,限制于真菌的PRY1样亚家族75
cd07203,真菌磷脂酶B样;cPLA2 GrpIVA同源物;催化域71
pfam00840,糖化氢7,糖基水解酶家族771
pfam00150,纤维素酶,纤维酶(糖基水解酶家族5)70
pfam11790,糖水cc,糖基水解酶催化核心70
pfam01522,多糖deac 1,多糖脱乙酰酶69
pfam07971,糖苷水解酶92,糖基水解酶家族9268
smart00636,Glyco 18,糖苷水解酶家族1868
cd00842、MPP-ASMase、酸性鞘磷脂酶及相关蛋白67
cd03457,二醇内双加氧酶样,二醇内双加氧酶超群67
pfam03663,糖苷水解酶76,糖基水解酶家族7667
pfam05577、肽酶S28、丝氨酸羧肽酶S2967
pfam12296,HsbA,疏水表面结合蛋白A65
cd02183,GH16-GPI-胰高血糖素酰基转移酶64
COG0654,2-聚戊烯-6-甲氧基苯酚羟化酶和相关的FAD-依赖性氧化还原酶63
pfam01055,糖苷水解酶31,糖基水解酶家族3162
cd06248,肽酶M14羧肽酶A/B样亚家族61
pfam02128、肽酶M36、真菌分析素金属肽酶(M36)61
pfam04185,磷酸酯酶,磷酸酯酶家族61
pfam11765、Hyphal reg CWP、Hypharly调节细胞壁蛋白60
pfam01328,过氧化物酶2,过氧化物酶,家族259
pfam01828,肽酶A4,肽酶A3家族58
pfam03198,Glyco-hydro 72,糖脂锚定表面蛋白57
cd01846,SGNH水解酶的脂肪酰基转移酶样亚家族,脂肪酶和酯酶的一个不同家族56
pfam02102、肽酶M35、溶血素金属蛋白酶(M35)56
pfam00723,糖苷水解酶15,糖基水解酶家族1554
pfam00128,α-淀粉酶,α-淀粉酶,催化结构域53
cd08588,拟南芥PI-PLCX结构域蛋白的催化结构域52
PHA03247、PHA03249,大表皮蛋白UL36;临时的52
pfam01301,糖苷水解酶35,糖基水解酶家族3551
pfam11937,DUF3455,功能未知的蛋白质(DUF34五十五)51
CDD功能域数字
pfam00135,酯酶,羧酸酯酶314
pfam03443,糖苷水解酶61,糖基水解酶家族61301
含COG0277、GlcD、FAD/FMN的脱氢酶287
cd04077,肽酶S8 PCSK9蛋白酶K样:蛋白酶K样蛋白中的肽酶S7家族结构域223
pfam00450,肽酶S10,丝氨酸羧肽酶215
pfam00295,糖苷水解酶28,糖基水解酶家族28207
pfam00067,p450,细胞色素p450160
pfam00933,糖苷水解酶家族3 N末端结构域156
cd05474,病原菌分泌的胃蛋白酶样蛋白酶降解宿主蛋白154
COG2303、BetA、胆碱脱氢酶和相关黄素蛋白152
pfam01083,角质酶139
pfam09362,DUF1996,未知功能域136
pfam00264,酪氨酸酶,酪氨酸酶的共同中心结构域130
TIGR03388,抗坏血酶,L-抗坏血酸氧化酶,植物型128
cd04056,肽酶S53,S53家族中的肽酶结构域124
pfam04389,肽酶M28,肽酶家族M28122
COG5309、COG5309-外β-1,3-葡聚糖酶121
pfam04616,糖化氢43,糖基水解酶家族43114
cd00519,脂酶3,脂肪酶(3类)106
PRK02106,PRK02106,胆碱脱氢酶100
COG2730、BglC、内切葡聚糖酶99
pfam00328,酸性磷酸酶A,组氨酸酸性磷酸酶98
pfam03856,SUN,β-葡萄糖苷酶(SUN家族)97
pfam07519,单宁酶、单宁酶和阿魏酸酯酶97
smart00656,Amb all,Amb所有域94
pfam00457,糖苷水解酶11,糖基水解酶家族1192
cd06097,类曲霉蛋白酶:类曲霉胃蛋白酶,真菌来源的天冬氨酸蛋白酶91
cd02877,GH18 hevamine XipI III类88
pfam00331,糖化氢10,糖基水解酶家族1088
pfam01565,FAD绑定4,FAD结合域87
pfam03583,LIP,分泌脂肪酶87
pfam03659,糖苷水解酶71,糖基水解酶家族7187
pfam01185,疏水蛋白,真菌疏水蛋白85
pfam01532,糖苷水解酶47,糖基水解酶家族4779
cd02181,GH16 MLG1葡聚糖酶78
cd05471,肽样天冬氨酸蛋白酶,在酸性pH下裂解肽中键的双叶酶77
cd05384,SCP-PRY1-like,SCP-like胞外蛋白结构域,PRY1-lake亚家族局限于真菌75
cd07203,真菌磷脂酶B样;cPLA2 GrpIVA同源物;催化域71
pfam00840,糖化氢7,糖基水解酶家族771
pfam00150,纤维素酶,纤维酶(糖基水解酶家族5)70
pfam11790,Glyco-hydro-cc,糖基水解酶催化核心70
pfam01522,多糖deac 1,多糖脱乙酰酶69
pfam07971,糖苷水解酶92,糖基水解酶家族9268
smart00636,Glyco 18,糖苷水解酶家族1868
cd00842、MPP-ASMase、酸性鞘磷脂酶及相关蛋白67
cd03457,二醇内双加氧酶样,二醇内双加氧酶超群67
pfam03663,糖苷水解酶76,糖基水解酶家族7667
pfam05577、肽酶S28、丝氨酸羧肽酶S2967
pfam12296,HsbA,疏水表面结合蛋白A65
cd02183,GH16 GPI葡聚糖转移酶64
COG0654,2-聚戊烯-6-甲氧基苯酚羟化酶和相关的FAD-依赖性氧化还原酶63
pfam01055,糖苷水解酶31,糖基水解酶家族3162
cd06248,肽酶M14羧肽酶A/B样亚家族61
pfam02128、肽酶M36、真菌分析素金属肽酶(M36)61
pfam04185,磷酸酯酶,磷酸酯酶家族61
pfam11765,Hyphal-reg CWP,Hyphally调节的细胞壁蛋白60
pfam01328,过氧化物酶2,过氧化物酶,家族259
pfam01828,肽酶A4,肽酶A3家族58
pfam03198,Glyco-hydro 72,糖脂锚定表面蛋白57
cd01846,SGNH水解酶的脂肪酰基转移酶样亚家族,脂肪酶和酯酶的一个不同家族56
pfam02102、肽酶M35、溶血素金属蛋白酶(M35)56
pfam00723,糖苷水解酶15,糖基水解酶家族1554
pfam00128,α-淀粉酶,α-淀粉,催化结构域53
cd08588,拟南芥PI-PLCX结构域蛋白的催化结构域52
PHA03247、PHA03249,大表皮蛋白UL36;临时的52
pfam01301,糖苷水解酶35,糖基水解酶家族3551
pfam11937,DUF3455,功能未知的蛋白质(DUF34五十五)51
表2。

真菌中高度编码的分泌蛋白家族

CDD功能域数字
pfam00135,酯酶,羧酸酯酶314
pfam03443,糖苷水解酶61,糖基水解酶家族61301
含COG0277、GlcD、FAD/FMN的脱氢酶287
cd04077,肽酶S8 PCSK9蛋白酶K样:蛋白酶K样蛋白中的肽酶S7家族结构域223
pfam00450,肽酶S10,丝氨酸羧肽酶215
pfam00295,糖苷水解酶28,糖基水解酶家族28207
pfam00067,p450,细胞色素p450160
pfam00933,糖苷水解酶家族3 N末端结构域156
cd05474,病原菌分泌的胃蛋白酶样蛋白酶降解宿主蛋白154
COG2303、BetA、胆碱脱氢酶和相关黄素蛋白152
pfam01083,角质酶139
pfam09362,DUF1996,未知功能域136
pfam00264,酪氨酸酶,酪氨酸酶的共同中心结构域130
TIGR03388,抗坏血酶,L-抗坏血酸氧化酶,植物型128
cd04056,肽酶S53,S53家族中的肽酶结构域124
pfam04389,肽酶M28,肽酶家族M28122
COG5309、COG5309-外β-1,3-葡聚糖酶121
pfam04616,糖化氢43,糖基水解酶家族43114
cd00519,脂酶3,脂肪酶(3类)106
PRK02106、PRK02106-胆碱脱氢酶100
COG2730、BglC、内切葡聚糖酶99
pfam00328,酸性磷酸酶A,组氨酸酸性磷酸酶98
pfam03856,SUN,β-葡萄糖苷酶(SUN家族)97
pfam07519,单宁酶、单宁酶和阿魏酸酯酶97
smart00656,Amb-all,Amb-all域94
pfam00457,糖苷水解酶11,糖基水解酶家族1192
cd06097,类曲霉蛋白酶:类曲霉胃蛋白酶,真菌来源的天冬氨酸蛋白酶91
cd02877,GH18 hevamine XipI III类88
pfam00331,糖化氢10,糖基水解酶家族1088
pfam01565,FAD绑定4,FAD结合域87
pfam03583,LIP,分泌脂肪酶87
pfam03659,糖苷水解酶71,糖基水解酶家族7187
pfam01185,疏水,真菌疏水蛋白85
pfam01532,糖苷水解酶47,糖基水解酶家族4779
cd02181,GH16 MLG1葡聚糖酶78
cd05471,肽样天冬氨酸蛋白酶,在酸性pH下裂解肽中键的双叶酶77
cd05384,SCP-PRY1-like,SCP-like胞外蛋白结构域,PRY1-lake亚家族局限于真菌75
cd07203,真菌磷脂酶B样;cPLA2 GrpIVA同源物;催化域71
pfam00840,糖化氢7,糖基水解酶家族771
pfam00150,纤维素酶,纤维酶(糖基水解酶家族5)70
pfam11790,糖水cc,糖基水解酶催化核心70
pfam01522,多糖deac 1,多糖脱乙酰酶69
pfam07971,糖苷水解酶92,糖基水解酶家族9268
smart00636,Glyco 18,糖苷水解酶家族1868
cd00842、MPP-ASMase、酸性鞘磷脂酶及相关蛋白67
cd03457,二醇内双加氧酶样,二醇内双加氧酶亚群67
pfam03663,糖苷水解酶76,糖基水解酶家族7667
pfam05577、肽酶S28、丝氨酸羧肽酶S2967
pfam12296,HsbA,疏水表面结合蛋白A65
cd02183,GH16 GPI葡聚糖转移酶64
COG0654,2-聚戊烯-6-甲氧基苯酚羟化酶和相关的FAD-依赖性氧化还原酶63
pfam01055,糖苷水解酶31,糖基水解酶家族3162
cd06248,肽酶M14羧肽酶A/B样亚家族61
pfam02128、肽酶M36、真菌分析素金属肽酶(M36)61
pfam04185,磷酸酯酶,磷酸酯酶家族61
pfam11765、Hyphal reg CWP、Hypharly调节细胞壁蛋白60
pfam01328,过氧化物酶2,过氧化物酶,家族259
pfam01828,肽酶A4,肽酶A3家族58
pfam03198,Glyco-hydro 72,糖脂锚定表面蛋白57
cd01846,SGNH水解酶的脂肪酰基转移酶样亚家族,脂肪酶和酯酶的一个不同家族56
pfam02102,肽酶M35,脱甾醇赖氨酸金属蛋白酶(M35)56
pfam00723,糖苷水解酶15,糖基水解酶家族1554
pfam00128,α-淀粉酶,α-淀粉,催化结构域53
cd08588,拟南芥PI-PLCX结构域蛋白的催化结构域52
PHA03247、PHA03249,大表皮蛋白UL36;临时的52
pfam01301,糖苷水解酶35,糖基水解酶家族3551
pfam11937,DUF3455,功能未知的蛋白质(DUF34五十五)51
CDD功能域数字
pfam00135,酯酶,羧酸酯酶314
pfam03443,糖苷水解酶61,糖基水解酶家族61301
含COG0277、GlcD、FAD/FMN的脱氢酶287
cd04077,肽酶S8 PCSK9蛋白酶K样:蛋白酶K样蛋白中的肽酶S7家族结构域223
pfam00450,肽酶S10,丝氨酸羧肽酶215
pfam00295,糖氢28,糖基水解酶家族28207
pfam00067,p450,细胞色素p450160
pfam00933,糖苷水解酶家族3 N末端结构域156
cd05474,病原菌分泌的胃蛋白酶样蛋白酶降解宿主蛋白154
COG2303、BetA、胆碱脱氢酶和相关黄素蛋白152
pfam01083,角质酶139
pfam09362,DUF1996,未知功能域136
pfam00264,酪氨酸酶,酪氨酸酶的共同中心结构域130
TIGR03388,抗坏血酶,L-抗坏血酸氧化酶,植物型128
cd04056,肽酶S53,S53家族中的肽酶结构域124
pfam04389,肽酶M28,肽酶家族M28122
COG5309、COG5309-外β-1,3-葡聚糖酶121
pfam04616,糖化氢43,糖基水解酶家族43114
cd00519,脂酶3,脂肪酶(3类)106
PRK02106、PRK02106-胆碱脱氢酶100
COG2730、BglC、内切葡聚糖酶99
pfam00328,酸性磷酸酶A,组氨酸酸性磷酸酶98
pfam03856,SUN,β-葡萄糖苷酶(SUN家族)97
pfam07519,单宁酶、单宁酶和阿魏酸酯酶97
smart00656,Amb all,Amb所有域94
pfam00457,糖苷水解酶11,糖基水解酶家族1192
cd06097,类曲霉蛋白酶:类曲霉胃蛋白酶,真菌来源的天冬氨酸蛋白酶91
cd02877,GH18 hevamine XipI III类88
pfam00331,糖化氢10,糖基水解酶家族1088
pfam01565,FAD绑定4,FAD结合域87
pfam03583,LIP,分泌性脂肪酶87
pfam03659,糖苷水解酶71,糖基水解酶家族7187
pfam01185,疏水,真菌疏水蛋白85
pfam01532,糖苷水解酶47,糖基水解酶家族4779
cd02181,GH16 MLG1葡聚糖酶78
cd05471,肽样天冬氨酸蛋白酶,在酸性pH下裂解肽中键的双叶酶77
cd05384,SCP-PRY1-like,SCP-like胞外蛋白结构域,PRY1-lake亚家族局限于真菌75
cd07203,真菌磷脂酶B样;cPLA2 GrpIVA同源物;催化域71
pfam00840,糖化氢7,糖基水解酶家族771
pfam00150,纤维素酶,纤维酶(糖基水解酶家族5)70
pfam11790,糖水cc,糖基水解酶催化核心70
pfam01522,多糖脱乙酰酶1,多糖脱乙酰酶69
pfam07971,糖苷水解酶92,糖基水解酶家族9268
smart00636,Glyco 18,糖苷水解酶家族1868
cd00842、MPP-ASMase、酸性鞘磷脂酶及相关蛋白67
cd03457,二醇内双加氧酶样,二醇内双加氧酶超群67
pfam03663,糖苷水解酶76,糖基水解酶家族7667
pfam05577、肽酶S28、丝氨酸羧肽酶S2967
pfam12296,HsbA,疏水表面结合蛋白A65
cd02183,GH16 GPI葡聚糖转移酶64
COG0654,2-聚戊烯-6-甲氧基苯酚羟化酶和相关的FAD-依赖性氧化还原酶63
pfam01055,Glyco-hydro 31,糖基水解酶家族3162
cd06248,肽酶M14羧肽酶A/B样亚家族61
pfam02128、肽酶M36、真菌分析素金属肽酶(M36)61
pfam04185,磷酸酯酶,磷酸酯酶家族61
pfam11765、Hyphal reg CWP、Hypharly调节细胞壁蛋白60
pfam01328,过氧化物酶2,过氧化物酶,家族259
pfam01828,肽酶A4,肽酶A3家族58
pfam03198,Glyco-hydro 72,糖脂锚定表面蛋白57
cd01846,SGNH水解酶的脂肪酰基转移酶样亚家族,脂肪酶和酯酶的一个不同家族56
pfam02102、肽酶M35、溶血素金属蛋白酶(M35)56
pfam00723,糖苷水解酶15,糖基水解酶家族1554
pfam00128,α-淀粉酶,α-淀粉,催化结构域53
cd08588,拟南芥PI-PLCX结构域蛋白的催化结构域52
PHA03247、PHA03249,大表皮蛋白UL36;临时的52
pfam01301,糖苷水解酶35,糖基水解酶家族3551
pfam11937,DUF3455,功能未知的蛋白质(DUF3455)51

讨论

在构建我们的数据库时,一个类似的真菌分泌体数据库(FSD,http://fsd.snu.ac.kr/)由Choi出版. (37). 然而,这两个数据库之间有几个重要的区别(表3). 我们使用RefSeq数据,而FSD仅使用完全测序的真菌基因组数据,包括一些“正在进行的”基因组(37). 用于鉴定分泌蛋白的预测方法也不同。FSD使用基于9个不同程序的三层分层识别规则,并将条目视为分泌蛋白,只要其中任何一个工具预测其为分泌蛋白即可,因此分泌蛋白的数量远高于我们数据库中的预测数量。例如,在A.尼日尔,我们预测CBS 513.88菌株中有832个分泌蛋白,而Choi等。(37)在FSD中预测相同菌株中有1831个分泌蛋白,ATCC1015菌株中有2616个分泌蛋白(37). 然而,只有691到881个蛋白被预测会分泌,其中160个被Tsang在ATCC1015菌株中实验证实等。(8). 因此,我们认为FSD中使用的方法大大高估了真菌分泌蛋白的数量。此外,FSD的搜索仅限于使用序列基因座名称,不能使用NCBI gi和登录号、UniProt登录号或关键字进行搜索。FSD中也没有可用于社区注释的管理工具(37).

表3。

两个独立开发的真菌分泌物数据库的比较

财务总监FunSecKB
数据来源真菌基因组RefSeq中的真菌蛋白
预测工具信号P3.0;SigCleave;SigPred公司;RPSP;TMHMM2.0c;靶点P1.1b;第二阶段;预测NLS;分泌素P1.0f信号P 3.0;Phobius1.01;WolfPsort0.2;靶点P1.1b,TMHMM2.0c;PS-扫描
数据访问序列位点名称;爆破关键词,RefSeq-gi或加入,UniProt加入;爆破
社区管理工具无法使用的可用
财务总监函数SecKB
数据来源真菌基因组RefSeq中的真菌蛋白
预测工具信号P3.0;SigCleave;SigPred;RPSP;TMHMM2.0c;靶点P1.1b;第二阶段;预测NLS;秘书P1.0f信号P 3.0;Phobius1.01;WolfPsort0.2;靶点P1.1b,TMHMM2.0c;PS-扫描
数据访问序列位点名称;爆破关键词,RefSeq-gi或加入,UniProt加入;爆破
社区管理工具无法使用的可用
表3。

两个独立开发的真菌分泌物数据库的比较

财务总监函数SecKB
数据来源真菌基因组RefSeq中的真菌蛋白
预测工具信号P3.0;SigCleave;SigPred;RPSP;TMHMM2.0c;靶点P1.1b;第二阶段;预测NLS;分泌素P1.0f信号P 3.0;磷1.01;WolfPsort0.2;靶点P1.1b,TMHMM2.0c;PS-扫描
数据访问序列位点名称;爆破关键词,RefSeq-gi或加入,UniProt加入;爆破
社区管理工具无法使用的可用
财务总监FunSecKB
数据来源真菌基因组RefSeq中的真菌蛋白
预测工具信号P3.0;SigCleave公司;SigPred;RPSP;TMHMM2.0c;靶点P1.1b;第二阶段;预测NLS;分泌素P1.0f信号P 3.0;Phobius1.01;WolfPsort0.2;靶点P1.1b,TMHMM2.0c;PS-扫描
数据访问序列位点名称;爆破关键词,RefSeq-gi或加入,UniProt加入;爆破
社区管理工具无法使用的可用

除了使用经典ER-Golgi分泌途径的信号肽依赖性分泌蛋白外,在生物体的所有结构域中还存在非经典、信号肽独立的分泌途径。已经收集了哺乳动物和细菌的无铅分泌蛋白,并用于实现预测软件SecretomeP,以预测这些蛋白(http://www.cbs.dtu.dk/services/SecretomeP网站/) (38,39). 该工具尚未使用真菌特异性数据进行训练,无法评估预测真菌非经典分泌蛋白的准确性,因此我们在数据处理中未包括该工具。虽然FSD使用分泌体P预测非经典分泌蛋白,但预测的分泌蛋白不包括在分泌体分析中;包括它们会使假定的分泌组>整个蛋白质组的40%(37). 然而,FunSecKB和FSD数据库可以相互补充,因为实现了不同的数据源、预测工具和数据访问实用程序。

总之,我们构建了FunSecKB来鉴定、注释和保存真菌中的分泌蛋白。可以使用蛋白质标识符或关键字以及按物种搜索数据。目前大多数分泌的蛋白质都是通过计算工具预测的。然而,社区可以使用我们网站中实现的管理模块手动管理真菌蛋白质的亚细胞位置,并有实验证据。工作中描述的资源预计将提供一个查询和管理系统,帮助社区进一步了解分泌生物学,并探索真菌分泌蛋白在生物加工或环境修复行业中的各种潜在应用。

致谢

我们感谢YSU的加里·沃克(Gary Walker)和匿名评论员为改进文章提供了有益的评论。

基金

扬斯敦州立大学(YSU)研究委员会拨款(2009-2010#04-10 to X.J.M.);YSU研究教授(转X.J.M.);科学、技术、工程和数学学院院长重新分配的时间(分配给X.J.M.)。开放获取费用的资金来源:美国俄亥俄州扬斯敦州立大学研究生院。

利益冲突。无声明。

工具书类

1
卡蒙
S公司
德伊斯
H(H)
植物相关真菌和卵菌的分泌物
Mycota V-植物关系
2009
第二
柏林,海德堡
施普林格
(第
173
-
180
)
2
库珀
公斤
伍兹
日本
二形态真菌病原体分泌的二肽基肽酶IV活性荚膜组织胞浆菌
感染。免疫。
2009
,卷。 
77
(第
2447
-
2454
)
奥谢罗夫
N个
毒力烟曲霉
医学真菌学的新见解
2007
荷兰
施普林格
(第
185
-
212
)
4
奥图尔
N个
分钟
XJ(许继)
风暴
R(右)
巴特勒
G公司
A类
真菌分泌物的序列分析
申请。支原体。生物技术。生物信息。
2006
,卷。 
6
(第
277
-
296
)
5
布洛贝尔
G公司
多贝尔施泰因
B类
蛋白质跨膜转移。I.小鼠骨髓瘤膜结合核糖体上存在蛋白水解处理和未处理的新生免疫球蛋白轻链
J.细胞。生物。
1975
,卷。 
67
(第
835
-
851
)
6
冯·海因
G公司
信号肽
J.成员。生物。
1990
,卷。 
115
(第
195
-
201
)
7
斯科特
M(M)
G公司
哈雷特
M(M)
Hera数据库及其在内质网蛋白表征中的应用
生物信息学
2004
,卷。 
20
(第
937
-
944
)
8
A类
巴特勒
G公司
波洛夫斯基
J型
定义黑曲霉分泌组
真菌遗传生物学。
2009
,卷。 
46
(第
第153条
-
160美元
)
9
P(P)
萨珀斯坦
SK公司
JD公司
生物成因酿酒酵母交配信息素a因子
J.细胞。生物。
1997
,卷。 
136
(第
251
-
269
)
10
布利安内
RP公司
线路接口单元
Y(Y)
埃比
M(M)
灰鸡腿菇子实体发育:通过非经典途径调节两种半乳糖凝集素的表达
微生物学
2000
,卷。 
146
(第
1841
-
1853
)
11
格林鲍姆
D类
卢斯科姆
NM公司
詹森
R(右)
相互关联不同类型的基因组数据,从蛋白质组到分泌组:“了解功能
基因组研究。
2001
,卷。 
11
(第
1463
-
1468
)
12
Hathout公司
Y(Y)
细胞分泌体的研究方法
蛋白质组学专家
2007
,卷。 
4
(第
239
-
248
)
13
Tjalsma公司
H(H)
Bolhuis公司
A类
琼布罗德
JD公司
枯草芽孢杆菌信号肽依赖性蛋白转运:分泌体的基因组研究
微生物。分子生物学。版次。
2000
,卷。 
64
(第
515
-
547
)
14
辛普森
JC公司
马特奥斯
A类
Pepperkok公司
R(右)
哺乳动物分泌体成熟
基因组生物学。
2007
,卷。 
8
第页。 
211
 
15
布尔斯
H(H)
瓦滕伯格
A类
佐恩
H(H)
真菌分泌物——白色生物技术的大自然工具箱
申请。微生物。生物技术。
2008
,卷。 
80
(第
381
-
388
)
16
沙特阿拉伯
沃姆斯利
S公司
卡蒙
S公司
分析白色念珠菌基于计算机预测算法的可溶性分泌蛋白基因组数据库
酵母
2003
,卷。 
20
(第
595
-
610
)
17
温梅伦伯格
成人影片
萨巴特
G公司
马丁内斯
D类
这个黄孢原毛平革菌分泌体:数据库预测和细胞生长培养基中的初步质谱肽鉴定
生物技术杂志。
2005
,卷。 
118
(第
17
-
34
)
18
矢岛
W公司
卡夫
NN公司
植物病原真菌的蛋白质组菌核病
蛋白质组学
2006
,卷。 
6
(第
5995
-
6007
)
19
纸类
吉咪
斯科特·克雷格
JS公司
阿迪卡里
ND(无损检测)
病原真菌胞外蛋白的体外和体内比较蛋白质组学禾谷镰刀菌
蛋白质组学
2007
,卷。 
7
(第
3171
-
3183
)
20
米勒
O(运行)
卡曼
R(右)
阿吉拉尔
G公司
玉米病原体的分泌物玉米Ustilago maydis
真菌遗传学。生物。
2008
,卷。 
1
(第
第63系列
-
第70页
)
21
普鲁特
杜兰特
塔图索娃
T型
马格洛特
博士
NCBI参考序列(RefSeq):基因组、转录物和蛋白质的精选非冗余序列数据库
核酸研究。
2007
,卷。 
35
 
数据库问题
(第
D61型
-
D65型
)
22
本特森
JD公司
尼尔森
H(H)
冯·海因
G公司
改进的信号肽预测:SignalP 3.0
分子生物学杂志。
2004
,卷。 
340
(第
783
-
795
)
23
卡尔
L(左)
克罗格
A类
松哈默
EL公司
一种跨膜拓扑与信号肽组合预测方法
分子生物学杂志。
2004
,卷。 
338
(第
1027
-
1036
)
24
卡尔
L(左)
克罗格
A类
松哈默
EL公司
跨膜拓扑和信号肽预测相结合的优势——Phobius网络服务器
核酸研究。
2007
,卷。 
35
 
Web服务器问题
(第
W429号机组
-
W432型
)
25
霍顿
P(P)
公园
科威特
大林组
T型
WoLF PSORT:蛋白质定位预测因子
核酸研究。
2007
,卷。 
35
 
Web服务器问题
(第
W585型
-
W587型
)
26
施普伦格
J型
芬克
JL公司
提斯代尔
研发
哺乳动物亚细胞定位预测方法的评价与比较
BMC生物信息学
2006
,卷。 
7
 
补充5
第页
第3页
 
27
奥洛夫·伊曼纽尔森
O(运行)
亨利克·尼尔森
H(H)
布鲁纳克
S公司
基于N端氨基酸序列预测蛋白质的亚细胞定位
分子生物学杂志。
2000
,卷。 
300
(第
1005
-
1016
)
28
分钟
XJ(许继)
不同真核生物分泌蛋白预测计算协议的发展
蛋白质组学生物信息杂志。
2010
,卷。 
4
(第
143
-
147
)
29
埃马努埃尔松
O(运行)
布鲁纳克
S公司
冯·海因
G公司
使用TargetP、SignalP和相关工具定位细胞中的蛋白质
《国家协议》。
2007
,卷。 
2
(第
953
-
971
)
30
德卡斯特罗
E类
Sigrist公司
希杰
Gattiker公司
A类
ScanProsite:检测蛋白质中PROSITE特征匹配和ProRule相关的功能和结构残基
核酸研究。
2006
,卷。 
34
 
Web服务器问题
(第
W362型
-
W365型
)
31
泊松
G公司
肖夫
C类
X(X)
FragAnchor:通过定性评分预测糖基磷脂酰肌醇锚定蛋白序列的大规模全真核生物
基因组学,蛋白质组学生物信息学。
2007
,卷。 
5
(第
121
-
130
)
32
德格罗
PW公司
猛撞
空军
克利斯
FM公司
真菌细胞壁共价连接蛋白的特征和功能
真菌遗传学。生物。
2005
,卷。 
42
(第
657
-
675
)
33
中国
阿普维勒
R(右)
贝罗奇
A类
Universal Protein Resource(UniProt):蛋白质信息的扩展领域
核酸研究。
2006
,卷。 
34
 
数据库问题
(第
D187型
-
D191号
)
34
马丁内斯
D类
Challacombe公司
J型
摩根斯坦
木材腐朽菌的基因组、转录组和分泌组分析胎盘Postia胎盘支持木质纤维素转化的独特机制
程序。美国国家科学院。科学。美国
2009
,卷。 
106
(第
1954
-
1959
)
35
马歇尔·鲍尔
A类
安德森
接线盒
奇萨(Chitsaz)
F类
CDD:使用保护域数据库的特定功能注释
核酸研究。
2009
,卷。 
37
 
数据库问题
(第
D205型
-
D210型
)
36
麦卡锡
FM公司
N个
马吉
GB(英国)
AgBase:农业功能基因组学资源
BMC基因组学
2006
,卷。 
7
第页。 
229
 
37
J型
公园
J型
基姆
D类
真菌分泌体数据库:真菌分泌体注释集成平台
BMC基因组学
2010
,卷。 
11
第页。 
105
 
38
本特森
JD公司
延森
LJ公司
布洛姆
N个
基于特征的非经典和无领导蛋白分泌预测
蛋白质工程设计。选择。
2004
,卷。 
17
(第
349
-
356
)
39
本特森
JD公司
基默
L(左)
福斯玻尔
A类
细菌的非经典蛋白分泌
BMC微生物。
2005
,卷。 
5
第页。 
58
 
这是根据知识共享署名非商业许可条款发布的开放存取文章(http://creativecommons.org/licenses/by-nc/2.5)它允许在任何媒体上无限制地进行非商业性使用、分发和复制,前提是正确引用了原始作品。