摘要

动机

正确的蛋白质亚细胞定位知识对于理解蛋白质的功能是必要的。不幸的是,大规模实验研究的准确性有限。因此,预测方法的发展受到准确实验数据量的限制。然而,最近的大规模实验研究提供了新的数据,可用于评估人类细胞亚细胞预测的准确性。利用这些数据,我们检查了最新方法的性能,并开发了SubCons,这是一种使用随机森林分类器组合四个预测因子的集成方法。

结果

SubCons在蛋白质数据集中的表现优于早期的方法,其中两种独立的方法证实了亚细胞定位。给定九个亚细胞定位,SubCons可以实现F类1-与第二好方法的0.70分相比,得分为0.79分。此外,在1%的FPR下,SubCons的真实阳性率(TPR)超过58%,而最佳个体预测因子的真实阳性率低于50%。

可用性和实施

SubCons可以作为Web服务器免费使用(http://subcns.bioinfo.se)和源代码来自https://bitbucket.org/salvatore_marco/subcons-web-server网站。黄金数据集也可从http://subcns.bioinfo.se/pred/download.

补充信息

补充数据可在生物信息学在线。

1简介

蛋白质的亚细胞定位对于理解蛋白质的功能很重要。亚细胞定位可以通过纯化或成像方法实验获得,这两种方法都耗时、昂贵、规模小且并不总是准确的(Imai和Nakai,2010年). 最近,基于免疫荧光显微镜的大规模实验亚细胞定位研究改善了这种情况(法格伯格等人。, 2011;乌伦等人。, 2010)或纯化后进行质谱分析(布雷克尔等人。, 2013;克里斯托福鲁等人。, 2014).

控制所有亚细胞定位的确切机制尚不完全清楚。对于大多数位置,蛋白质序列中包含的信号将蛋白质靶向隔室。最具特征的信号是控制内质网/高尔基体分选的N端信号肽(冯·海因(von Heijne),1986年)以及存在于叶绿体和线粒体中的相关N末端靶向肽(埃马努埃尔松等人。, 2000). 对于其他亚细胞位置,基序不一定位于N末端(埃马努埃尔松等人。, 2003;霍顿等人。, 2007). 此外,蛋白质信号不一定是唯一的,一些信号可以激活多种分选途径,提供多种亚细胞位置(埃马努埃尔松等人。, 2007). 在核质转运中,蛋白质中存在输入和输出信号,这使得很难知道蛋白质是输入细胞核还是输出细胞核(Nakai,2000年).

其他因素也会影响蛋白质的最终目的地。小室/细胞环境中其他分子的存在、定位信号和信号受体的活性、浓度和强度都会影响蛋白质的亚细胞定位(鲍尔等人。, 2015). 最后,一些蛋白质可以靶向多个隔间(鲍尔等人。, 2015).

如今,已有1000多个真核生物的完整蛋白质组可用(UniProt-Consortium,2015年)但他们数百万蛋白质中只有一小部分被实验研究过。实验方法的局限性和对决定蛋白质亚细胞定位的机制的不完全理解使得计算方法对于预测未注释蛋白质的定位和增加我们对蛋白质分类的理解都是必要的。因此,需要有效的工具来预测蛋白质在细胞中的位置。预测方法不仅提供了有用的工具,而且加深了对亚细胞分选机制的理解。

30年前,信号肽的研究引入了基于序列信息的蛋白质亚细胞定位计算预测(冯·海因(von Heijne),1986年). 第一种能够预测多重定位的方法,PSORT(Nakai和Kanehisa,1991年),是25年前开发的,后来开发了许多其他方法。如今,预测方法可以专门用于特定位置的预测(科科尔等人。, 2000;萨沃亚尔多等人。, 2014),用于一些本地化(埃马努埃尔松等人。, 2000)或用于广泛的本地化(布鲁姆等人。, 2009;布赖塞梅斯特等人。, 2009,2010;戈德伯格等人。, 2012;霍顿等人。, 2007;等人。, 2006).

最成功的亚细胞预测因子使用的特征组合可以大致分类为基于序列或注释的特征。基于序列的特征包括线性基序检测和氨基酸分布。最新的方法包括间隙配对、表面或伪氨基酸组成(布赖塞梅斯特等人。, 2010). 基于注释的功能从UniProt中已注释的蛋白质转移功能注释。这些注释是使用同源蛋白质或蛋白质本身的信息、注释的GO术语、功能域、PubMed摘要的文本信息和蛋白质相互作用获得的(尼尔森,2015). 最后,这些功能被用作某些机器学习方法的输入,请参阅补充表S1.

UniProt注释几乎一直用于所有方法的开发。这使得评估性能变得困难,因为训练集和测试集之间经常存在重叠。最近,发表了关于人类蛋白质亚细胞定位的新的大规模研究(布雷克尔等人。, 2013;克里斯托福鲁等人。, 2014;乌伦等人。, 2010). 这些研究为评估预测方法的性能提供了可能性,并且偏差较小。在这里,我们以这些数据集为基础,获得了一个高度准确的数据集,该数据集由最近两项研究的数据和UniProt的实验验证蛋白质组成。我们只使用两个经过实验验证的亚细胞定位蛋白创建一个金色的用于测试的数据集。

使用这个黄金数据集,我们首先提出了六种方法的基准(CELLO 2.5(等人。, 2006),LocTree2(戈德伯格等人。, 2012),多位置2(布鲁姆等人。, 2009),SherLoc2(布赖塞梅斯特等人。, 2009),WoLF PSORT公司(霍顿等人。, 2007)和YLoc(布赖塞梅斯特等人。, 2010)).

此后,我们提出了SubCons,这是一种集成方法,它改进了人类亚细胞预测,并使用随机森林分类器组合了四个预测因子(CELLO2.5、LocTree2、MultiLoc2和SherLoc2)。

2材料和方法

2.1预测方法

CELLO2.5电池将氨基酸组成、二肽组成、分区氨基酸组成和序列组成等物理化学性质纳入多类SVM分类系统(等人。, 2006). 最后,它结合来自四个分类器的投票,并使用陪审团投票确定最终分配。

本地树2基于模拟细胞排序级联机制的SVM分层系统(戈德伯格等人。, 2012). SVM系统由一棵树组成,每一级都有二元决策,这些决策是通过搜索带有注释的定位蛋白质和短段k个连续残基来实现的。

多位置2集成四个基于序列的子分类器的输出(布鲁姆等人。, 2009). SVM靶向模块专门用于N末端靶向肽检测,SVMSA模块检测信号锚;SVMaac模块根据氨基酸组成对蛋白质进行分类,MotifSearch模块检测是否存在基序。此外,它还包括两个基于系统发育谱(Phyloc)和源自InterProScan的基因本体术语(GOLoc)的分类器(琼斯等人。, 2014).

SherLoc2号机组是MultiLoc2的开发,它还包含一个附加的文本搜索模块,该模块基于与UniProt ID链接的PubMed摘要(布赖塞梅斯特等人。, 2009).

沃尔夫PSORT使用kth-最近邻算法基于排序信号、氨基酸组成和功能基序分配定位(霍顿等人。, 2007).

YLoc公司集成了基于序列和注释的信息。氨基酸和伪成分;氨基酸疏水性、电荷和体积;除了基于熵的离散化外,朴素贝叶斯的输入特征还包括PROSITE基序和来自紧密同源的GO项(布赖塞梅斯特等人。, 2010).

2.2数据集

最初,我们检查了两个亚细胞定位的实验数据集。质谱法(质量规格)数据集是使用质谱、生物化学分馏和iTRAQ 8-plex定量相结合生成的(克里斯托福鲁等人。, 2014)人胚胎肾成纤维细胞(HEK293T)(布雷克尔等人。, 2013). 我们使用pRloc软件包检索了所有实验蛋白定位(www.bioconductor.org/packages). 这个SLHPA公司数据集是从三种细胞系的一系列免疫荧光共聚焦显微镜实验中创建的,一种是骨肉瘤细胞系(U-2 OS),一种是表皮样癌细胞系(a-431),一种是用抗体和参考标记物染色的胶质母细胞瘤细胞系(U-251 MG)(法格伯格等人。, 2011)人类蛋白质图谱项目(乌伦等人。, 2010). 我们排除了具有多重定位和单词“不确定”从最后一盘开始。此外,我们使用了从UniProt公司(UniProt-Consortium,2015年)仅包含亚细胞定位,在蛋白质水平有证据。我们只包括来自一个或多个出版物的带有实验注释的蛋白质,以及带有“手动策划”注释的蛋白质。

所有实验研究在准确性方面都有一些局限性,这使得很难比较不同方法的性能。为了解决这个问题,我们打算从上述三个数据集开始创建注释良好的蛋白质子集。我们研究了三个数据集之间的一致性,参见补充图S1SLHPA中约86–88%的注释与其他数据集的注释一致,而其他数据集显示95%的注释一致,请参见补充图S1。有关这三个数据集之间重叠的详细视图,请参见补充图S2.

2.3培训和测试数据集

初始数据集包含至少一项实验研究注释的9765个蛋白质。使用BLASTClust将同源性降低20%后(阿尔瓦等人。, 2016)剩余6868个蛋白质。从中选择了一组高度可靠的注释,即在三个来源中至少有两个含有相同亚细胞注释的蛋白质作为金色的用于测试的数据集。该集合包含1225个蛋白质,其余5484个蛋白质,带有训练集的单个注释,参见表1可以注意到,黄金组中不包括细胞外蛋白,因为只有UniProt包括细胞外/分泌蛋白。

表1

实验数据集中每个定位的蛋白质分数

位置质量规格SLHPA公司UniProt公司培训金色
NUC公司8%60%34%35%59%
中青旅12%22%19%22%13%
麻省理工学院34%9%6%7%16%
石油醚0.5%0.2%0.5%
ERE公司19%2%3%3%4%
GLG公司6%3%2%3%2%
LYS公司7%0.5%0.8%0.5%
内存14%4%27%22%5%
EXC公司8%7%
总计5063710554954841225
位置质量规格SLHPA公司UniProt公司培训金色
NUC公司8%60%34%35%59%
中青旅12%22%19%22%13%
麻省理工学院34%9%6%7%16%
石油醚0.5%0.2%0.5%
ERE公司19%2%3%3%4%
GLG公司6%3%2%3%2%
LYS公司7%0.5%0.8%0.5%
内存14%4%27%22%5%
EXC公司8%7%
总计5063710554954841225

实验数据集中每个定位的蛋白质分数。该表显示了将定位映射到九个“标准”定位后,每个亚细胞定位中的蛋白质比例表示特定数据集中的不可用本地化。这些数字表示实验数据集中每个定位的蛋白质比例。

表1

实验数据集中每个定位的蛋白质比例

位置质量规格SLHPA公司UniProt公司培训金色
NUC公司8%60%34%35%59%
中青旅12%22%19%22%13%
麻省理工学院34%9%6%7%16%
石油醚0.5%0.2%0.5%
ERE公司19%2%3%3%4%
GLG公司6%3%2%3%2%
LYS公司7%0.5%0.8%0.5%
内存14%4%27%22%5%
EXC公司8%7%
总计5063710554954841225
位置质量规格SLHPA公司UniProt公司培训金色
NUC公司8%60%34%35%59%
中青旅12%22%19%22%13%
麻省理工学院34%9%6%7%16%
石油醚0.5%0.2%0.5%
ERE公司19%2%3%3%4%
GLG公司6%3%2%3%2%
LYS公司7%0.5%0.8%0.5%
内存14%4%27%22%5%
EXC公司8%7%
总计5063710554954841225

实验数据集中每个定位的蛋白质分数。该表显示了将定位映射到九个“标准”定位后,每个亚细胞定位中的蛋白质比例表示特定数据集中的不可用本地化。这些数字表示实验数据集中每个定位的蛋白质比例。

2.4测绘

亚细胞定位可以以不同的分辨率定义,例如线粒体蛋白可以位于基质内、膜间或两种膜中的一种。在至少一个实验数据集中,共有20个不同的亚细胞隔室。然而,没有一个实验集能够将蛋白质划分为所有的亚组,也没有任何预测方法能够将蛋白质分为所有的二十个亚组。因此,为了进行比较,我们将所有亚细胞分类都映射到了九个标准分区中,参见补充表S2.

水泡蛋白被排除在外,因为没有预测因子可以预测这一类别,而且水泡蛋白的数量非常少。此外,Mass-Spec数据集仅包含溶酶体蛋白质,而SLHPA数据集将溶酶体和过氧化物酶体蛋白质分类为囊泡。由于溶酶体和过氧化物酶体蛋白质使用完全不同的分选机制,我们决定将这两个隔室分开。因此,在SLHPA数据集中注释为囊泡的蛋白质在没有冲突注释的情况下,根据UniProt和/或Mass-Spec注释被归类为溶酶体和过氧化物酶体蛋白质。

2.5绩效衡量

预测性能评估分为单个位置的性能评估和所有亚细胞位置的性能评价。评估单一分类的方法已经确立,我们选择重点关注两个指标:F类1分数(Van Rijsbergen,1979年) (F类1)和马修斯相关系数(MCC)(马修斯,1975年). 然而,其他措施也提供了类似的结果。F类1分数是准确度和召回率的加权平均值。人们普遍认为F类1分数是比准确性更好的评估指标(巴尔迪等人。, 2000). MCC的优点是它考虑到了正面和负面示例的不均匀分布。

评估多重分类的方法还没有建立好。这里,我们使用广义平方相关(GC2) (巴尔迪等人。, 2000)以及F类1分数,在多类情况下,定义为F类1每节课的分数。所有这些度量都可以用“tp”=真阳性,“tn”=正负,“fp”=假阳性,“fn”=假阴性来表示,如下所示:
F类1=2(第页e(电子)c(c)o个n个×第页e(电子)c(c)第页e(电子)c(c)o个n个+第页e(电子)c(c))
(1)
哪里
第页e(电子)c(c)o个n个=t吨(t吨+(f))
(2)
第页e(电子)c(c)=t吨(t吨+(f)n个)
(3)
M(M)CC=t吨×t吨n个(f)×(f)n个(t吨+(f)n个)(t吨+(f))(t吨n个+(f))(t吨n个+(f)n个)
(4)
G公司C2=j个(zj个e(电子)j个)e(电子)j个N个(K(K)1)
(5)
哪里
e(电子)j个=x个j个/N个
是预期的蛋白质定位数(例如实验定位)和列j个在零假设假设下的列联表中(巴尔迪等人。, 2000). 零假设意味着观测值和预测值之间没有相关性(巴尔迪等人。, 2000). 此外,我们使用了真阳性率与假阳性率。首先,我们考虑成对比较(一个类与所有其他类)来评估单个类的性能。然后将结果集合并并用于评估整体性能(奥尔文等人。, 2000).

2.6随机森林培训

在SubCons中,预测因子的得分被合并为36个值的向量(4个预测因子乘以9个“标准”定位)。LocTree2仅提供单个本地化,因此我们对预测的类使用预测分数,对所有其他类使用0。另一方面,CELLO2.5、MultiLoc2和SherLoc2为每个本地化提供了分数,我们可以直接使用。该向量随后用作Random Forest分类器的输入(布雷曼,2001年;金斯福德和萨尔茨堡,2008年)使用scikit-learn库实现(佩德雷戈萨等人。, 2011),请参阅图1。使用以下scikit-learn参数:n估计量=500,标准=基尼,最小样本分割=50,引导=正确,class_weight=平衡的.

SubCons的工作流程
图1

分包商工作流程

3结果

表2使用两种不同的度量,显示了六个独立预测因子的性能。对于除MultiLoc2以外的所有方法F类1得分相当相似,约为66-70%。然而,使用GC2这对不均匀分布的依赖性较小,我们观察到SherLoc2的性能最好(0.27),而所有其他的相关性都较低(0.12–0.20)。有趣的是,不包括同源物(CELLO2.5和LocTree2)注释的方法显示了F类1得分与方法相似F类1分数和GC2这些测量结果可归因于不同亚细胞隔室中存在的不同数量的蛋白质。F类1性能主要由最常见的亚细胞隔室(核、线粒体和细胞质)控制,而GC2取决于所有车厢的良好性能。因此,低F类1多基因座2的得分可以归因于这样一个事实,即多基因座2预测很少有蛋白质是核的,参见表3相比之下,良好的GC2与其他方法相比,SherLoc2可以更准确地预测溶酶体和过氧化物酶体蛋白质,参见表2理想情况下,一个好的亚细胞预测因子应同时显示高F类1分数和GC2但在这方面,没有一个现有的预测指标超过所有其他预测指标。

表2

黄金数据集中的性能

位置#CELLO2.5电池本地树2多点2SherLoc2号机组沃尔夫PSORTYLoc公司多数投票SubCons公司

F类1电动机控制中心F类1电动机控制中心F类1电动机控制中心F类1电动机控制中心F类1电动机控制中心F类1电动机控制中心F类1电动机控制中心F类1电动机控制中心
NUC公司7260.840.580.850.630.550.390.700.530.790.550.790.560.730.550.850.69
中青旅1590.400.310.410.310.350.260.410.340.340.220.420.330.420.350.530.46
麻省理工学院2000.740.680.650.630.750.700.810.780.720.660.740.700.840.810.850.82
石油醚70.250.38000.150.180.550.570−0.010.170.200.600.650.430.43
ERE公司440.170.300.420.440.550.540.630.620.230.290.520.520.660.650.670.65
GLG公司21000.140.160.080.090.360.340.090.220.280.270.230.220.560.59
LYS公司110.590.61000.630.640.700.69000.600.600.700.690.670.68
内存470.440.420.400.430.210.270.450.460.400.380.580.560.460.480.610.60
#F类1GC公司2F类1GC公司2F类1GC公司2F类1GC公司2F类1GC公司2F类1GC公司2F类1GC公司2F类1GC公司2

总体12220.700.170.700.140.530.180.660.270.660.120.700.200.690.290.790.32
位置#CELLO2.5电池本地树2多位置2SherLoc2号机组沃尔夫PSORTYLoc公司多数投票SubCons公司

F类1电动机控制中心F类1电动机控制中心F类1电动机控制中心F类1电动机控制中心F类1电动机控制中心F类1电动机控制中心F类1电动机控制中心F类1电动机控制中心
NUC公司7260.840.580.850.630.550.390.700.530.790.550.790.560.730.550.850.69
中青旅1590.400.310.410.310.350.260.410.340.340.220.420.330.420.350.530.46
麻省理工学院2000.740.680.650.630.750.700.810.780.720.660.740.700.840.810.850.82
石油醚70.250.38000.150.180.550.570−0.010.170.200.600.650.430.43
此处440.170.300.420.440.550.540.630.620.230.290.520.520.660.650.670.65
GLG公司21000.140.160.080.090.360.340.090.220.280.270.230.220.560.59
LYS公司110.590.61000.630.640.700.69000.600.600.700.690.670.68
内存470.440.420.400.430.210.270.450.460.400.380.580.560.460.480.610.60
#F类1GC公司2F类1GC公司2F类1GC公司2F类1GC公司2F类1GC公司2F类1GC公司2F类1GC公司2F类1GC公司2

总体12220.700.170.700.140.530.180.660.270.660.120.700.200.690.290.790.32

黄金数据集中预测器的性能。该表显示了每个预测器在黄金数据集产量方面的性能F类1得分和广义相关系数。此外,该表显示了正确预测的分数F类1分数和马修斯相关系数。(#=每个定位数据集中的蛋白质,GC2 = 广义相关系数,F类1= F类1得分和MCC=马修斯相关系数。

表2

黄金数据集中的性能

位置#CELLO2.5电池本地树2多位置2SherLoc2号机组沃尔夫PSORTYLoc公司多数投票SubCons公司

F类1电动机控制中心F类1电动机控制中心F类1电动机控制中心F类1电动机控制中心F类1电动机控制中心F类1电动机控制中心F类1电动机控制中心F类1电动机控制中心
NUC公司7260.840.580.850.630.550.390.700.530.790.550.790.560.730.550.850.69
细胞色素氧化酶1590.400.310.410.310.350.260.410.340.340.220.420.330.420.350.530.46
麻省理工学院2000.740.680.650.630.750.700.810.780.720.660.740.700.840.810.850.82
石油醚70.250.38000.150.180.550.570−0.010.170.200.600.650.430.43
ERE公司440.170.300.420.440.550.540.630.620.230.290.520.520.660.650.670.65
GLG公司21000.140.160.080.090.360.340.090.220.280.270.230.220.560.59
LYS公司110.590.61000.630.640.700.69000.600.600.700.690.670.68
内存470.440.420.400.430.210.270.450.460.400.380.580.560.460.480.610.60
#F类1GC公司2F类1GC公司2F类1GC公司2F类1GC公司2F类1GC公司2F类1GC公司2F类1GC公司2F类1GC公司2

总体12220.700.170.700.140.530.180.660.270.660.120.700.200.690.290.790.32
位置#CELLO2.5电池本地树2多位置2SherLoc2号机组沃尔夫PSORTYLoc公司多数投票SubCons公司

F类1电动机控制中心F类1电动机控制中心F类1电动机控制中心F类1电动机控制中心F类1电动机控制中心F类1电动机控制中心F类1电动机控制中心F类1电动机控制中心
NUC公司7260.840.580.850.630.550.390.700.530.790.550.790.560.730.550.850.69
细胞色素氧化酶1590.400.310.410.310.350.260.410.340.340.220.420.330.420.350.530.46
麻省理工学院2000.740.680.650.630.750.700.810.780.720.660.740.700.840.810.850.82
石油醚70.250.38000.150.180.550.570−0.010.170.200.600.650.430.43
ERE公司440.170.300.420.440.550.540.630.620.230.290.520.520.660.650.670.65
GLG公司21000.140.160.080.090.360.340.090.220.280.270.230.220.560.59
LYS公司110.590.61000.630.640.700.69000.600.600.700.690.670.68
内存470.440.420.400.430.210.270.450.460.400.380.580.560.460.480.610.60
#F类1GC公司2F类1GC公司2F类1GC公司2F类1GC公司2F类1GC公司2F类1GC公司2F类1GC公司2F类1GC公司2

总体12220.700.170.700.140.530.180.660.270.660.120.700.200.690.290.790.32

黄金数据集中预测器的性能。该表显示了每个预测器在黄金数据集产量方面的性能F类1得分和广义相关系数。此外,该表显示了正确预测的分数F类1分数和马修斯相关系数。(#=每个定位数据集中的蛋白质,GC2 = 广义相关系数,F类1= F类1得分和MCC=马修斯相关系数。

表3

基于黄金数据集的预测定位分数

位置金色的C2.5类LT2公司ML2级SL2型可湿性粉剂YL公司MJV公司联合国安全理事会
NUC公司59%64%58%25%35%51%48%50%38%
中青旅13%13%21%49%41%21%25%22%39%
麻省理工学院16%16%10%15%15%15%15%18%15%
石油醚0.5%0%0%3%0%1%2%1%0%
ERE公司4%0%2%5%3%1%2%4%3%
GLG公司2%0%1%0%2%0%2%1%1%
LYS公司0.5%0%0%1%1%0%1%1%1%
内存5%3%1%1%2%5%4%3%2%
EXC公司0%3%7%1%0%7%1%2%1%
位置金色的C2.5类LT2公司ML2级SL2型可湿性粉剂YL公司MJV公司联合国安全理事会
NUC公司59%64%58%25%35%51%48%50%38%
中青旅13%13%21%49%41%21%25%22%39%
麻省理工学院16%16%10%15%15%15%15%18%15%
石油醚0.5%0%0%3%0%1%2%1%0%
ERE公司4%0%2%5%3%1%2%4%3%
GLG公司2%0%1%0%2%0%2%1%1%
LYS公司0.5%0%0%1%1%0%1%1%1%
内存5%3%1%1%2%5%4%3%2%
EXC公司0%3%7%1%0%7%1%2%1%

SherLoc2(SL2)、YLoc(YL)、LocTree2(LT2)、MultiLoc2(ML2)、WoLF。

PSORT(WP)、Cello2.5(C2.5)、多数投票(MJV)和SubCons(SC)。

表3

基于黄金数据集的预测定位分数

位置金色的C2.5类LT2公司ML2级SL2型可湿性粉剂YL公司MJV公司联合国安全理事会
NUC公司59%64%58%25%35%51%48%50%38%
中青旅13%13%21%49%41%21%25%22%39%
麻省理工学院16%16%10%15%15%15%15%18%15%
石油醚0.5%0%0%3%0%1%2%1%0%
ERE公司4%0%2%5%3%1%2%4%3%
GLG公司2%0%1%0%2%0%2%1%1%
LYS公司0.5%0%0%1%1%0%1%1%1%
内存5%3%1%1%2%5%4%3%2%
EXC公司0%3%7%1%0%7%1%2%1%
位置金色的C2.5类LT2公司ML2级SL2型可湿性粉剂YL公司MJV公司联合国安全理事会
NUC公司59%64%58%25%35%51%48%50%38%
中青旅13%13%21%49%41%21%25%22%39%
麻省理工学院16%16%10%15%15%15%15%18%15%
石油醚0.5%0%0%3%0%1%2%1%0%
ERE公司4%0%2%5%3%1%2%4%3%
GLG公司2%0%1%0%2%0%2%1%1%
赖氨酸0.5%0%0%1%1%0%1%1%1%
内存5%3%1%1%2%5%4%3%2%
EXC公司0%3%7%1%0%7%1%2%1%

SherLoc2(SL2)、YLoc(YL)、LocTree2(LT2)、MultiLoc2(ML2)、WoLF。

PSORT(WP)、Cello2.5(C2.5)、多数投票(MJV)和次级协商(SC)。

3.1共识预测

接下来,我们提出了一个问题,即结合几个独立预测因子的输入的一致性方法是否可以改进亚细胞定位的预测。我们选择忽略YLoc(由于不可用)和WoLF PSORT(由于许可问题)。此外,包括它们并没有改善预测(数据未显示)。最初,我们使用四个可用的预测因子(CELLO2.5、LocTree2、MultiLoc2和SherLoc2)探索一种简单的多数投票方法。

多数投票法选择预测最多的亚细胞定位。如果两个类别得到同等支持(例如,CYT获得2票,NUC获得2票),则选择SherLoc2预测的类别(最佳个人预测值)。如果顶部组中没有来自SherLoc2的预测,则使用LocTree2预测的类别。当使用多数票时,获得了一点改进,请参阅表2.总承包商2增加到0.29F类1得分为0.69,表明结合预测因素的潜在益处。

接下来,我们着手开发一种改进的一致性预测工具,该工具可以考虑不同个体预测工具的可靠性。我们开发了一种集成方法SubCons,它使用一个随机森林分类器来组合来自一组亚细胞定位预测的预测,参见图1.

试验了四种预测因子的不同组合,见支持表S3。由于不同组合之间的性能差异很小,我们选择在最终SubCons预测值中包含所有四个预测值。SubCons比具有F类1得分0.79,GC20.32,与0.70相比(F类1得分)和0.27(GC2)最佳个人方法。此外,在任何假阳性率(FPR)下,SubCons都优于所有单个预测因子,请参见图2在FPR为1%的情况下,SubCons的真阳性率(TPR)超过58%,而最佳个体预测值低于50%。

Roc曲线显示了黄金数据集中基准工具在整个灵敏度和特异性范围内的性能(该图的彩色版本可从生物信息学在线获取)
图2

Roc曲线显示了黄金数据集中基准工具在整个灵敏度和特异性范围内的性能(该图的彩色版本可从生物信息学在线获取)

3.2不同定位的性能

尽管不同个体预测因子的总体表现相似,但它们分配给每个隔间的蛋白质数量存在显著差异。

表3可以看出,预测为细胞溶质的蛋白质数量在13%(Cello2.5)和49%(MultiLoc2)之间变化。对于核蛋白,观察到的情况正好相反,这里MultiLoc2仅预测25%,而Cello2.5预测64%。在这两种情况下,Cello2.5与黄金数据集中的数据非常接近。

在单独研究每个亚细胞定位的性能时,可以观察到Cello2.5对核蛋白和细胞溶胶蛋白的精确度也高于MultiLoc2,参见表2然而,MultiLoc2对内质网和溶酶体蛋白表现出更好的性能,这表明有时不同隔室的性能之间存在平衡。

大多数投票和SubCons在大多数单一本地化中都优于独立方法,请参见表2然而,SherLoc2(F类1得分0.7和0.55,MCC得分0.69和0.57)超过SubCons(F类10.67和0.43的得分以及0.68和0.43的MCC)。

所有预测因子对核蛋白和线粒体蛋白的预测效果最好F类1SubCons的得分为0.85,个人预测因子的得分约为0.8。在1%FPR下,70%以上的内质网、溶酶体、线粒体、膜蛋白和过氧化物酶体被鉴定出来,参见图3相比之下,在1%FPR下,不到四分之一的细胞质、高尔基体和核蛋白被鉴定出来,参见图3.

单roc曲线显示黄金数据集中每个类别在整个灵敏度和特异性范围内的性能(该图的彩色版本可在生物信息学在线上获得)
图3

单roc曲线显示黄金数据集中每个类别在整个灵敏度和特异性范围内的性能(该图的彩色版本可在生物信息学在线上获得)

4讨论

为什么某些亚细胞定位比其他定位更难预测?一个问题是,这里用于测试的黄金数据集包含很高比例的核蛋白,很少有膜蛋白,没有细胞外蛋白。然而,还有其他原因使得预测某些亚细胞定位更加困难,包括一些排序信号彼此相似(埃马努埃尔松等人。, 2000)或者不是很独特(埃马努埃尔松等人。, 2003). 发件人图4很明显,许多被SubCons预测为胞质的蛋白质实际上是核的,这表明正确鉴定胞质蛋白质的困难以及核蛋白质的过度表达。

混淆矩阵表示SubCons(行)预测的每个本地化与黄金数据集(列)中观察到的每个本地化的分数
图4

混淆矩阵表示SubCons(行)预测的每个本地化与黄金数据集(列)中观察到的每个本地化的分数

在细胞核和细胞质之间移动的蛋白质通过核孔运输。核质转运受两个主要信号控制,即核输出信号(NES)和核定位信号(NLS)(Freitas和Cunha,2009年;兰德等人。, 2007). 这些信号截然不同:经典的NLS信号是PKKKRKV,所有NLS信号都富含带正电荷的氨基酸;相比之下,NES信号在十个氨基酸残基中包含四个疏水残基的短氨基酸序列(Freitas和Cunha,2009年;兰德等人。, 2007). 显然,蛋白质可能包含这两种信号。此外,众所周知,一些蛋白质在细胞核和细胞质之间来回移动。

第二组困难的预测发生了,因为多达四分之一的内质网、高尔基体、溶酶体和膜蛋白被预测为胞外蛋白图4此外,许多高尔基体蛋白被预测位于内质网中,这表明我们对通过ER-Golgi系统向细胞膜转运机制的理解还远远不够准确。

接下来,我们问了一个问题,SubCons的最可靠预测(FPR为1%)是否与相应的UniProt注释一致。我们使用11449个蛋白质的细胞成分关键字从UniProtKB中提取了所有人类可用的定位。对于6832(60%)种蛋白质,SubCons预测得分(0.45)应提供1%或更低的FPR。对于膜和核类别,预测94%的注释蛋白位于溶酶体和核中,获得了最好的一致性。对于其他类别,协议范围在75%到85%之间,请参见图5.

混淆矩阵表示SubCons预测的每个本地化部分(行)与UniProt数据集中观察到的每个本地化的部分(列)
图5

混淆矩阵表示SubCons预测的每个本地化部分(行)与UniProt数据集中观察到的每个本地化的部分(列)

更详细的分析表明,大多数分歧发生在核细胞质和膜细胞外。在6832个蛋白质定位中,UniProt和SubCons之间总共有822个(12%)存在分歧。大约有一半的证据代码是“精心策划的”或“通过相似性”的,这表明UniProt注释的可靠性较低。对于319个蛋白质,有支持注释的出版物,请参阅补充表S4.

我们认为,即使在某些手动情况下,UniProt注释也可能需要一些附加信息。例如,我们分析了UniProt注释为核或细胞质的九种蛋白质(Q8WWZ8、Q8TCE9、Q13536、Q9H5F2、Q6ZMK1、Q9NYS0、Q9Y2M2、Q8N699、Q8N2H0),而SubCons预测为胞外、膜或内质网蛋白质。我们使用SignalP预测这些蛋白质中是否存在信号肽(彼得森等人。, 2011). 在此,我们发现五种蛋白质(Q8WWZ8、Q6ZMK1、Q9NYS0、Q9Y2M2、Q8N3H0)具有预测的信号肽,这表明UniProt注释可能不完整。Q8N3H0实际上属于分泌蛋白家族(TAFA)(汤姆·唐等人。, 2004). 另一方面,根据序列相似性推断Q6ZMK1的定位。Q8WWZ8有一个N末端信号肽,其后有三个EGF-like和ZP结构域,表明可能存在共翻译靶向通路(等人。, 2003). 对于所有五种蛋白质,注释分数低于最高分数(五分之五),表明注释不完整。

5结论

蛋白质的亚细胞定位有助于理解蛋白质的功能。在这里,我们介绍了SubCons,这是一种随机森林分类器,用于使用四个独立工具的预测来改进亚细胞预测。我们表明,SubCons的表现优于所有单个预测因子。在一个高度准确的测试集中,假阳性率为1%,约占所有蛋白质的60%(金色的数据集),这表明对于许多蛋白质来说,可以使用纯计算工具进行可靠的亚细胞定位。然而,不同亚细胞隔室的覆盖率差异很大。获得了核、线粒体和质膜室的最可靠预测。提高其他舱室的预测精度对未来预测方法的发展至关重要。最后,我们表明,使用UniProt中注释不完整的SubCons蛋白的高度可靠预测可以识别。

致谢

作者感谢Frida Danielsson和Emma Lundberg分享SLHPA数据集的数据并进行了宝贵的讨论。我们非常感谢匿名评论员建议我们将囊泡分为溶酶体和过氧化物酶体。

基金

这项工作得到了瑞典自然科学基金会、瑞典研究委员会(VR-NT 2012-5046)和瑞典电子科学研究中心的支持。

利益冲突:未声明。

工具书类

奥尔文
 
E.公司。
等(
2000
)
将多类化为二进制:边缘分类器的统一方法
.
J.马赫。学习。雷斯
.,
1
,
113
141
.

阿尔瓦
 
五、。
等(
2016
)
mpi生物信息学工具包作为高级蛋白质序列和结构分析的集成平台
.
核酸研究
.,
44
,
W410型
第415周
.

巴尔迪
 
第页。
等(
2000
)
评估分类预测算法的准确性:综述
.
生物信息学
,
16
,
412
424
.

鲍尔
 
N。
等(
2015
)
蛋白质定位调控机制
.
交通
,
16
,
1039
1061
.

布鲁姆
 
T。
等人(
2009
)
Multiloc2:集成系统发育和基因本体术语改进亚细胞蛋白定位预测
.
BMC生物信息学
,
10
,
274
285
.

布雷克尔
 
L。
等(
2013
)
细胞器发现对亚细胞蛋白定位的影响
.
蛋白质组学杂志
,
88
,
129
140
.

布雷曼
 
L。
(
2001
)
随机森林
.
机器。学习
.,
45
,
5
32
.

布赖塞梅斯特
 
美国。
等人和H.,S(
2009
)
Sherloc2:预测蛋白质亚细胞定位的高精度杂交方法
.
蛋白质组研究杂志
.,
8
,
5363
5366
.

Briesemeister公司
 
美国。
等(
2010
)
Yloc是一种用于预测亚细胞定位的可解释web服务器
.
核酸研究
.,
38
,
497
502
.

克里斯托福鲁
 
答:。
等(
2014
)
生物化学分级和itraq 8-plex定量法测定哺乳动物细胞培养中蛋白质亚细胞定位
.
枪式蛋白质组学方法协议。方法分子生物学
.,
1156
,
157
174
.

科科尔
 
M。
等(
2000
)
寻找核定位信号
.
EMBO代表
.,
1
,
411
415
.

埃马努埃尔松
 
O。
等(
2007
)
使用targetp、signalp和相关工具定位细胞中的蛋白质
.
自然协议
.,
2
,
953
971
.

埃马努埃尔松
 
O。
等(
2003
)
真菌、植物和动物过氧化物酶体蛋白质组的电子预测
.
分子生物学杂志
.,
330
,
443
456
.

埃马努埃尔松
 
O。
等(
2000
)
基于n端氨基酸序列预测蛋白质的亚细胞定位
.
分子生物学杂志
.,
30
,
1005
1016
.

法格伯格
 
L。
等(
2011
)
绘制三种人类细胞系亚细胞蛋白分布图
.
蛋白质组研究杂志
.,
10
,
3766
3777
.

弗雷塔斯
 
N。
,
库尼亚
C、。
(
2009
)
蛋白质核导入的机制和信号
.
货币。基因组学
,
10
,
550
557
.

戈德伯格
 
T。
等(
2012
)
Loctree2预测了生命所有领域的本地化
.
生物信息学
,
28
,
458
465
.

霍顿
 
第页。
等(
2007
)
Wolfpsort:蛋白质定位预测因子
.
核酸研究
.,
35
,
585
587
.

今井
 
英国。
,
Nakai公司
k、。
(
2010
)
蛋白质亚细胞位置预测:从哪里着手?
蛋白质组学
,
10
,
3970
3983
.

琼斯
 
第页。
等(
2014
)
解释5:基因组尺度蛋白质功能分类
.
生物信息学
,
30
,
1236
1240
.

金斯福德
 
C、。
,
萨尔茨伯格
美国。
(
2008
)
什么是决策树?
自然生物技术
.,
26
,
1011
1013
.

兰德
 
答:。
等(
2007
)
经典核定位信号:定义、功能和与重要性的相互作用α
.
生物学杂志。化学
.,
8
,
5101
5105
.,

马修斯
 
B。
(
1975
)
T4噬菌体溶菌酶二级结构预测与观测结果的比较
.
生物化学。生物物理学。学报
,
405
,
442
451
.

Nakai公司
 
英国。
(
2000
)
蛋白质分选信号与亚细胞定位预测
.
高级蛋白质化学
.,
54
,
277
344
.

Nakai公司
 
英国。
,
卡内希萨
M。
(
1991
)
革兰氏阴性菌蛋白质定位位点预测专家系统
.
蛋白质
,
11
,
95
110
.

尼尔森
 
H。
(
2015
)
生物信息算法预测蛋白质的亚细胞定位,微生物学和免疫学当前主题第10卷
.
施普林格
,
柏林,海德堡
.

佩德雷戈萨
 
F、。
等(
2011
)
Scikit-learn:Python中的机器学习
.
J.马赫。学习。雷斯
.,
12
,
2825
2830
.

彼得森
 
T。
等(
2011
)
Signalp 4.0:从跨膜区域识别信号肽
.
自然方法
,
8
,
785
786
.

萨沃亚尔多
 
C、。
等(
2014
)
Tppred2:通过利用序列基序改进线粒体靶向肽切割位点的预测
.
生物信息学
,
30
,
2973
2974
.

汤姆·唐
 
年。
等(
2004
)
TAFA:一个新的分泌家族,具有保守的半胱氨酸残基并在大脑中限制表达
.
基因组学
,
83
,
727
734
.

乌伦
 
M.、P。
,
奥克斯沃尔德
第页。
等(
2010
)
建立基于知识的人类蛋白质图谱
.
自然生物技术
.,
28
,
1248
1250
.

UniProt-Consortium联合体
. (
2015
)
Uniprot:蛋白质信息中心
.
核酸研究
.,
43
,
2004年2月
D212型
.

范·里杰斯伯根
 
C.J.公司。
(
1979
)
信息检索
,第2版,
伦敦
,
巴特沃斯
.

冯·海因
 
G.公司。
(
1986
)
一种预测信号序列裂解位点的新方法
.
核酸研究
.,
14
,
4683
4690
.

 
Z.公司。
等(
2003
)
一种新的肝脏特异性透明带结构域蛋白,在肝细胞癌中很少表达
.
肝病学
,
38
,
735
744
.

 
C、。
等(
2006
)
蛋白质亚细胞定位预测
.
蛋白质结构。功能。生物信息素
.,
64
,
643
651
.

本文根据牛津大学出版社标准期刊出版模式的条款出版和发行(https://academy.oup.com/journals/pages/about_us/legal/notices)
副编辑: 阿方索·巴伦西亚
阿方索·巴伦西亚
助理编辑
搜索此作者的其他作品:

补充数据