SubCons: a new ensemble method for improved human subcellular localization predictions

3结果

在表2使用两种不同的度量，显示了六个独立预测因子的性能。对于除MultiLoc2以外的所有方法F类₁得分相当相似，约为66-70%。然而，使用GC²这对不均匀分布的依赖性较小，我们观察到SherLoc2的性能最好（0.27），而所有其他的相关性都较低（0.12–0.20）。有趣的是，不包括同源物（CELLO2.5和LocTree2）注释的方法显示了F类₁得分与方法相似F类₁分数和GC²这些测量结果可归因于不同亚细胞隔室中存在的不同数量的蛋白质。F类₁性能主要由最常见的亚细胞隔室（核、线粒体和细胞质）控制，而GC²取决于所有车厢的良好性能。因此，低F类₁多基因座2的得分可以归因于这样一个事实，即多基因座2预测很少有蛋白质是核的，参见表3相比之下，良好的GC²与其他方法相比，SherLoc2可以更准确地预测溶酶体和过氧化物酶体蛋白质，参见表2理想情况下，一个好的亚细胞预测因子应同时显示高F类₁分数和GC²但在这方面，没有一个现有的预测指标超过所有其他预测指标。

表2

黄金数据集中的性能

位置	#	CELLO2.5电池		本地树2		多点2		SherLoc2号机组		沃尔夫PSORT		YLoc公司		多数投票		SubCons公司

		F类₁	电动机控制中心	F类₁	电动机控制中心	F类₁	电动机控制中心	F类₁	电动机控制中心	F类₁	电动机控制中心	F类₁	电动机控制中心	F类₁	电动机控制中心	F类₁	电动机控制中心
NUC公司	726	0.84	0.58	0.85	0.63	0.55	0.39	0.70	0.53	0.79	0.55	0.79	0.56	0.73	0.55	0.85	0.69
中青旅	159	0.40	0.31	0.41	0.31	0.35	0.26	0.41	0.34	0.34	0.22	0.42	0.33	0.42	0.35	0.53	0.46
麻省理工学院	200	0.74	0.68	0.65	0.63	0.75	0.70	0.81	0.78	0.72	0.66	0.74	0.70	0.84	0.81	0.85	0.82
石油醚	7	0.25	0.38	0	0	0.15	0.18	0.55	0.57	0	−0.01	0.17	0.20	0.60	0.65	0.43	0.43
ERE公司	44	0.17	0.30	0.42	0.44	0.55	0.54	0.63	0.62	0.23	0.29	0.52	0.52	0.66	0.65	0.67	0.65
GLG公司	21	0	0	0.14	0.16	0.08	0.09	0.36	0.34	0.09	0.22	0.28	0.27	0.23	0.22	0.56	0.59
LYS公司	11	0.59	0.61	0	0	0.63	0.64	0.70	0.69	0	0	0.60	0.60	0.70	0.69	0.67	0.68
内存	47	0.44	0.42	0.40	0.43	0.21	0.27	0.45	0.46	0.40	0.38	0.58	0.56	0.46	0.48	0.61	0.60
	#	F类₁	GC公司²	F类₁	GC公司²	F类₁	GC公司²	F类₁	GC公司²	F类₁	GC公司²	F类₁	GC公司²	F类₁	GC公司²	F类₁	GC公司²

总体	1222	0.70	0.17	0.70	0.14	0.53	0.18	0.66	0.27	0.66	0.12	0.70	0.20	0.69	0.29	0.79	0.32

位置	#	CELLO2.5电池		本地树2		多位置2		SherLoc2号机组		沃尔夫PSORT		YLoc公司		多数投票		SubCons公司

		F类₁	电动机控制中心	F类₁	电动机控制中心	F类₁	电动机控制中心	F类₁	电动机控制中心	F类₁	电动机控制中心	F类₁	电动机控制中心	F类₁	电动机控制中心	F类₁	电动机控制中心
NUC公司	726	0.84	0.58	0.85	0.63	0.55	0.39	0.70	0.53	0.79	0.55	0.79	0.56	0.73	0.55	0.85	0.69
中青旅	159	0.40	0.31	0.41	0.31	0.35	0.26	0.41	0.34	0.34	0.22	0.42	0.33	0.42	0.35	0.53	0.46
麻省理工学院	200	0.74	0.68	0.65	0.63	0.75	0.70	0.81	0.78	0.72	0.66	0.74	0.70	0.84	0.81	0.85	0.82
石油醚	7	0.25	0.38	0	0	0.15	0.18	0.55	0.57	0	−0.01	0.17	0.20	0.60	0.65	0.43	0.43
此处	44	0.17	0.30	0.42	0.44	0.55	0.54	0.63	0.62	0.23	0.29	0.52	0.52	0.66	0.65	0.67	0.65
GLG公司	21	0	0	0.14	0.16	0.08	0.09	0.36	0.34	0.09	0.22	0.28	0.27	0.23	0.22	0.56	0.59
LYS公司	11	0.59	0.61	0	0	0.63	0.64	0.70	0.69	0	0	0.60	0.60	0.70	0.69	0.67	0.68
内存	47	0.44	0.42	0.40	0.43	0.21	0.27	0.45	0.46	0.40	0.38	0.58	0.56	0.46	0.48	0.61	0.60
	#	F类₁	GC公司²	F类₁	GC公司²	F类₁	GC公司²	F类₁	GC公司²	F类₁	GC公司²	F类₁	GC公司²	F类₁	GC公司²	F类₁	GC公司²

总体	1222	0.70	0.17	0.70	0.14	0.53	0.18	0.66	0.27	0.66	0.12	0.70	0.20	0.69	0.29	0.79	0.32

黄金数据集中预测器的性能。该表显示了每个预测器在黄金数据集产量方面的性能F类₁得分和广义相关系数。此外，该表显示了正确预测的分数F类₁分数和马修斯相关系数。（#=每个定位数据集中的蛋白质，GC² = 广义相关系数，F类₁= F类₁得分和MCC=马修斯相关系数。

表2

黄金数据集中的性能

位置	#	CELLO2.5电池		本地树2		多位置2		SherLoc2号机组		沃尔夫PSORT		YLoc公司		多数投票		SubCons公司

		F类₁	电动机控制中心	F类₁	电动机控制中心	F类₁	电动机控制中心	F类₁	电动机控制中心	F类₁	电动机控制中心	F类₁	电动机控制中心	F类₁	电动机控制中心	F类₁	电动机控制中心
NUC公司	726	0.84	0.58	0.85	0.63	0.55	0.39	0.70	0.53	0.79	0.55	0.79	0.56	0.73	0.55	0.85	0.69
细胞色素氧化酶	159	0.40	0.31	0.41	0.31	0.35	0.26	0.41	0.34	0.34	0.22	0.42	0.33	0.42	0.35	0.53	0.46
麻省理工学院	200	0.74	0.68	0.65	0.63	0.75	0.70	0.81	0.78	0.72	0.66	0.74	0.70	0.84	0.81	0.85	0.82
石油醚	7	0.25	0.38	0	0	0.15	0.18	0.55	0.57	0	−0.01	0.17	0.20	0.60	0.65	0.43	0.43
ERE公司	44	0.17	0.30	0.42	0.44	0.55	0.54	0.63	0.62	0.23	0.29	0.52	0.52	0.66	0.65	0.67	0.65
GLG公司	21	0	0	0.14	0.16	0.08	0.09	0.36	0.34	0.09	0.22	0.28	0.27	0.23	0.22	0.56	0.59
LYS公司	11	0.59	0.61	0	0	0.63	0.64	0.70	0.69	0	0	0.60	0.60	0.70	0.69	0.67	0.68
内存	47	0.44	0.42	0.40	0.43	0.21	0.27	0.45	0.46	0.40	0.38	0.58	0.56	0.46	0.48	0.61	0.60
	#	F类₁	GC公司²	F类₁	GC公司²	F类₁	GC公司²	F类₁	GC公司²	F类₁	GC公司²	F类₁	GC公司²	F类₁	GC公司²	F类₁	GC公司²

总体	1222	0.70	0.17	0.70	0.14	0.53	0.18	0.66	0.27	0.66	0.12	0.70	0.20	0.69	0.29	0.79	0.32

位置	#	CELLO2.5电池		本地树2		多位置2		SherLoc2号机组		沃尔夫PSORT		YLoc公司		多数投票		SubCons公司

		F类₁	电动机控制中心	F类₁	电动机控制中心	F类₁	电动机控制中心	F类₁	电动机控制中心	F类₁	电动机控制中心	F类₁	电动机控制中心	F类₁	电动机控制中心	F类₁	电动机控制中心
NUC公司	726	0.84	0.58	0.85	0.63	0.55	0.39	0.70	0.53	0.79	0.55	0.79	0.56	0.73	0.55	0.85	0.69
细胞色素氧化酶	159	0.40	0.31	0.41	0.31	0.35	0.26	0.41	0.34	0.34	0.22	0.42	0.33	0.42	0.35	0.53	0.46
麻省理工学院	200	0.74	0.68	0.65	0.63	0.75	0.70	0.81	0.78	0.72	0.66	0.74	0.70	0.84	0.81	0.85	0.82
石油醚	7	0.25	0.38	0	0	0.15	0.18	0.55	0.57	0	−0.01	0.17	0.20	0.60	0.65	0.43	0.43
ERE公司	44	0.17	0.30	0.42	0.44	0.55	0.54	0.63	0.62	0.23	0.29	0.52	0.52	0.66	0.65	0.67	0.65
GLG公司	21	0	0	0.14	0.16	0.08	0.09	0.36	0.34	0.09	0.22	0.28	0.27	0.23	0.22	0.56	0.59
LYS公司	11	0.59	0.61	0	0	0.63	0.64	0.70	0.69	0	0	0.60	0.60	0.70	0.69	0.67	0.68
内存	47	0.44	0.42	0.40	0.43	0.21	0.27	0.45	0.46	0.40	0.38	0.58	0.56	0.46	0.48	0.61	0.60
	#	F类₁	GC公司²	F类₁	GC公司²	F类₁	GC公司²	F类₁	GC公司²	F类₁	GC公司²	F类₁	GC公司²	F类₁	GC公司²	F类₁	GC公司²

总体	1222	0.70	0.17	0.70	0.14	0.53	0.18	0.66	0.27	0.66	0.12	0.70	0.20	0.69	0.29	0.79	0.32

黄金数据集中预测器的性能。该表显示了每个预测器在黄金数据集产量方面的性能F类₁得分和广义相关系数。此外，该表显示了正确预测的分数F类₁分数和马修斯相关系数。（#=每个定位数据集中的蛋白质，GC² = 广义相关系数，F类₁= F类₁得分和MCC=马修斯相关系数。

表3

基于黄金数据集的预测定位分数

位置	金色的	C2.5类	LT2公司	ML2级	SL2型	可湿性粉剂	YL公司	MJV公司	联合国安全理事会
NUC公司	59%	64%	58%	25%	35%	51%	48%	50%	38%
中青旅	13%	13%	21%	49%	41%	21%	25%	22%	39%
麻省理工学院	16%	16%	10%	15%	15%	15%	15%	18%	15%
石油醚	0.5%	0%	0%	3%	0%	1%	2%	1%	0%
ERE公司	4%	0%	2%	5%	3%	1%	2%	4%	3%
GLG公司	2%	0%	1%	0%	2%	0%	2%	1%	1%
LYS公司	0.5%	0%	0%	1%	1%	0%	1%	1%	1%
内存	5%	3%	1%	1%	2%	5%	4%	3%	2%
EXC公司	0%	3%	7%	1%	0%	7%	1%	2%	1%

位置	金色的	C2.5类	LT2公司	ML2级	SL2型	可湿性粉剂	YL公司	MJV公司	联合国安全理事会
NUC公司	59%	64%	58%	25%	35%	51%	48%	50%	38%
中青旅	13%	13%	21%	49%	41%	21%	25%	22%	39%
麻省理工学院	16%	16%	10%	15%	15%	15%	15%	18%	15%
石油醚	0.5%	0%	0%	3%	0%	1%	2%	1%	0%
ERE公司	4%	0%	2%	5%	3%	1%	2%	4%	3%
GLG公司	2%	0%	1%	0%	2%	0%	2%	1%	1%
LYS公司	0.5%	0%	0%	1%	1%	0%	1%	1%	1%
内存	5%	3%	1%	1%	2%	5%	4%	3%	2%
EXC公司	0%	3%	7%	1%	0%	7%	1%	2%	1%

SherLoc2（SL2）、YLoc（YL）、LocTree2（LT2）、MultiLoc2（ML2）、WoLF。

PSORT（WP）、Cello2.5（C2.5）、多数投票（MJV）和SubCons（SC）。

表3

基于黄金数据集的预测定位分数

位置	金色的	C2.5类	LT2公司	ML2级	SL2型	可湿性粉剂	YL公司	MJV公司	联合国安全理事会
NUC公司	59%	64%	58%	25%	35%	51%	48%	50%	38%
中青旅	13%	13%	21%	49%	41%	21%	25%	22%	39%
麻省理工学院	16%	16%	10%	15%	15%	15%	15%	18%	15%
石油醚	0.5%	0%	0%	3%	0%	1%	2%	1%	0%
ERE公司	4%	0%	2%	5%	3%	1%	2%	4%	3%
GLG公司	2%	0%	1%	0%	2%	0%	2%	1%	1%
LYS公司	0.5%	0%	0%	1%	1%	0%	1%	1%	1%
内存	5%	3%	1%	1%	2%	5%	4%	3%	2%
EXC公司	0%	3%	7%	1%	0%	7%	1%	2%	1%

位置	金色的	C2.5类	LT2公司	ML2级	SL2型	可湿性粉剂	YL公司	MJV公司	联合国安全理事会
NUC公司	59%	64%	58%	25%	35%	51%	48%	50%	38%
中青旅	13%	13%	21%	49%	41%	21%	25%	22%	39%
麻省理工学院	16%	16%	10%	15%	15%	15%	15%	18%	15%
石油醚	0.5%	0%	0%	3%	0%	1%	2%	1%	0%
ERE公司	4%	0%	2%	5%	3%	1%	2%	4%	3%
GLG公司	2%	0%	1%	0%	2%	0%	2%	1%	1%
赖氨酸	0.5%	0%	0%	1%	1%	0%	1%	1%	1%
内存	5%	3%	1%	1%	2%	5%	4%	3%	2%
EXC公司	0%	3%	7%	1%	0%	7%	1%	2%	1%

SherLoc2（SL2）、YLoc（YL）、LocTree2（LT2）、MultiLoc2（ML2）、WoLF。

PSORT（WP）、Cello2.5（C2.5）、多数投票（MJV）和次级协商（SC）。

3.1共识预测

接下来，我们提出了一个问题，即结合几个独立预测因子的输入的一致性方法是否可以改进亚细胞定位的预测。我们选择忽略YLoc（由于不可用）和WoLF PSORT（由于许可问题）。此外，包括它们并没有改善预测（数据未显示）。最初，我们使用四个可用的预测因子（CELLO2.5、LocTree2、MultiLoc2和SherLoc2）探索一种简单的多数投票方法。

多数投票法选择预测最多的亚细胞定位。如果两个类别得到同等支持（例如，CYT获得2票，NUC获得2票），则选择SherLoc2预测的类别（最佳个人预测值）。如果顶部组中没有来自SherLoc2的预测，则使用LocTree2预测的类别。当使用多数票时，获得了一点改进，请参阅表2.总承包商²增加到0.29F类₁得分为0.69，表明结合预测因素的潜在益处。

接下来，我们着手开发一种改进的一致性预测工具，该工具可以考虑不同个体预测工具的可靠性。我们开发了一种集成方法SubCons，它使用一个随机森林分类器来组合来自一组亚细胞定位预测的预测，参见图1.

试验了四种预测因子的不同组合，见支持表S3。由于不同组合之间的性能差异很小，我们选择在最终SubCons预测值中包含所有四个预测值。SubCons比具有F类₁得分0.79，GC²0.32，与0.70相比(F类₁得分）和0.27（GC²)最佳个人方法。此外，在任何假阳性率（FPR）下，SubCons都优于所有单个预测因子，请参见图2在FPR为1%的情况下，SubCons的真阳性率（TPR）超过58%，而最佳个体预测值低于50%。

图2

Roc曲线显示了黄金数据集中基准工具在整个灵敏度和特异性范围内的性能（该图的彩色版本可从生物信息学在线获取）

3.2不同定位的性能

尽管不同个体预测因子的总体表现相似，但它们分配给每个隔间的蛋白质数量存在显著差异。

在表3可以看出，预测为细胞溶质的蛋白质数量在13%（Cello2.5）和49%（MultiLoc2）之间变化。对于核蛋白，观察到的情况正好相反，这里MultiLoc2仅预测25%，而Cello2.5预测64%。在这两种情况下，Cello2.5与黄金数据集中的数据非常接近。

在单独研究每个亚细胞定位的性能时，可以观察到Cello2.5对核蛋白和细胞溶胶蛋白的精确度也高于MultiLoc2，参见表2然而，MultiLoc2对内质网和溶酶体蛋白表现出更好的性能，这表明有时不同隔室的性能之间存在平衡。

大多数投票和SubCons在大多数单一本地化中都优于独立方法，请参见表2然而，SherLoc2(F类₁得分0.7和0.55，MCC得分0.69和0.57）超过SubCons(F类₁0.67和0.43的得分以及0.68和0.43的MCC）。

所有预测因子对核蛋白和线粒体蛋白的预测效果最好F类₁SubCons的得分为0.85，个人预测因子的得分约为0.8。在1%FPR下，70%以上的内质网、溶酶体、线粒体、膜蛋白和过氧化物酶体被鉴定出来，参见图3相比之下，在1%FPR下，不到四分之一的细胞质、高尔基体和核蛋白被鉴定出来，参见图3.

图3

单roc曲线显示黄金数据集中每个类别在整个灵敏度和特异性范围内的性能（该图的彩色版本可在生物信息学在线上获得）

4讨论

为什么某些亚细胞定位比其他定位更难预测？一个问题是，这里用于测试的黄金数据集包含很高比例的核蛋白，很少有膜蛋白，没有细胞外蛋白。然而，还有其他原因使得预测某些亚细胞定位更加困难，包括一些排序信号彼此相似(埃马努埃尔松等人。, 2000)或者不是很独特(埃马努埃尔松等人。, 2003). 发件人图4很明显，许多被SubCons预测为胞质的蛋白质实际上是核的，这表明正确鉴定胞质蛋白质的困难以及核蛋白质的过度表达。

图4

混淆矩阵表示SubCons（行）预测的每个本地化与黄金数据集（列）中观察到的每个本地化的分数

在细胞核和细胞质之间移动的蛋白质通过核孔运输。核质转运受两个主要信号控制，即核输出信号（NES）和核定位信号（NLS）(Freitas和Cunha，2009年;兰德等人。, 2007). 这些信号截然不同：经典的NLS信号是PKKKRKV，所有NLS信号都富含带正电荷的氨基酸；相比之下，NES信号在十个氨基酸残基中包含四个疏水残基的短氨基酸序列(Freitas和Cunha，2009年;兰德等人。, 2007). 显然，蛋白质可能包含这两种信号。此外，众所周知，一些蛋白质在细胞核和细胞质之间来回移动。

第二组困难的预测发生了，因为多达四分之一的内质网、高尔基体、溶酶体和膜蛋白被预测为胞外蛋白图4此外，许多高尔基体蛋白被预测位于内质网中，这表明我们对通过ER-Golgi系统向细胞膜转运机制的理解还远远不够准确。

接下来，我们问了一个问题，SubCons的最可靠预测（FPR为1%）是否与相应的UniProt注释一致。我们使用11449个蛋白质的细胞成分关键字从UniProtKB中提取了所有人类可用的定位。对于6832（60%）种蛋白质，SubCons预测得分(⁠ $\geq$ 0.45）应提供1%或更低的FPR。对于膜和核类别，预测94%的注释蛋白位于溶酶体和核中，获得了最好的一致性。对于其他类别，协议范围在75%到85%之间，请参见图5.

图5

混淆矩阵表示SubCons预测的每个本地化部分（行）与UniProt数据集中观察到的每个本地化的部分（列）

更详细的分析表明，大多数分歧发生在核细胞质和膜细胞外。在6832个蛋白质定位中，UniProt和SubCons之间总共有822个（12%）存在分歧。大约有一半的证据代码是“精心策划的”或“通过相似性”的，这表明UniProt注释的可靠性较低。对于319个蛋白质，有支持注释的出版物，请参阅补充表S4.

我们认为，即使在某些手动情况下，UniProt注释也可能需要一些附加信息。例如，我们分析了UniProt注释为核或细胞质的九种蛋白质（Q8WWZ8、Q8TCE9、Q13536、Q9H5F2、Q6ZMK1、Q9NYS0、Q9Y2M2、Q8N699、Q8N2H0），而SubCons预测为胞外、膜或内质网蛋白质。我们使用SignalP预测这些蛋白质中是否存在信号肽(彼得森等人。, 2011). 在此，我们发现五种蛋白质（Q8WWZ8、Q6ZMK1、Q9NYS0、Q9Y2M2、Q8N3H0）具有预测的信号肽，这表明UniProt注释可能不完整。Q8N3H0实际上属于分泌蛋白家族（TAFA）(汤姆·唐等人。, 2004). 另一方面，根据序列相似性推断Q6ZMK1的定位。Q8WWZ8有一个N末端信号肽，其后有三个EGF-like和ZP结构域，表明可能存在共翻译靶向通路(徐等人。, 2003). 对于所有五种蛋白质，注释分数低于最高分数（五分之五），表明注释不完整。

5结论

蛋白质的亚细胞定位有助于理解蛋白质的功能。在这里，我们介绍了SubCons，这是一种随机森林分类器，用于使用四个独立工具的预测来改进亚细胞预测。我们表明，SubCons的表现优于所有单个预测因子。在一个高度准确的测试集中，假阳性率为1%，约占所有蛋白质的60%（金色的数据集），这表明对于许多蛋白质来说，可以使用纯计算工具进行可靠的亚细胞定位。然而，不同亚细胞隔室的覆盖率差异很大。获得了核、线粒体和质膜室的最可靠预测。提高其他舱室的预测精度对未来预测方法的发展至关重要。最后，我们表明，使用UniProt中注释不完整的SubCons蛋白的高度可靠预测可以识别。

致谢

作者感谢Frida Danielsson和Emma Lundberg分享SLHPA数据集的数据并进行了宝贵的讨论。我们非常感谢匿名评论员建议我们将囊泡分为溶酶体和过氧化物酶体。

基金

这项工作得到了瑞典自然科学基金会、瑞典研究委员会（VR-NT 2012-5046）和瑞典电子科学研究中心的支持。

利益冲突：未声明。

工具书类

奥尔文

E.公司。

等(

2000

)

将多类化为二进制：边缘分类器的统一方法

.

J.马赫。学习。雷斯

.,

1

,

113

–

141

.

阿尔瓦

五、。

等(

2016

)

mpi生物信息学工具包作为高级蛋白质序列和结构分析的集成平台

.

核酸研究

.,

44

,

W410型

–

第415周

.

巴尔迪

第页。

等(

2000

)

评估分类预测算法的准确性：综述

.

生物信息学

,

16

,

412

–

424

.

鲍尔

N。

等(

2015

)

蛋白质定位调控机制

.

交通

,

16

,

1039

–

1061

.

布鲁姆

T。

等人(

2009

)

Multiloc2：集成系统发育和基因本体术语改进亚细胞蛋白定位预测

.

BMC生物信息学

,

10

,

274

–

285

.

布雷克尔

L。

等(

2013

)

细胞器发现对亚细胞蛋白定位的影响

.

蛋白质组学杂志

,

88

,

129

–

140

.

布雷曼

L。

(

2001

)

随机森林

.

机器。学习

.,

45

,

5

–

32

.

布赖塞梅斯特

美国。

等人和H.，S(

2009

)

Sherloc2：预测蛋白质亚细胞定位的高精度杂交方法

.

蛋白质组研究杂志

.,

8

,

5363

–

5366

.

Briesemeister公司

美国。

等(

2010

)

Yloc是一种用于预测亚细胞定位的可解释web服务器

.

核酸研究

.,

38

,

497

–

502

.

克里斯托福鲁

答：。

等(

2014

)

生物化学分级和itraq 8-plex定量法测定哺乳动物细胞培养中蛋白质亚细胞定位

.

枪式蛋白质组学方法协议。方法分子生物学

.,

1156

,

157

–

174

.

科科尔

M。

等(

2000

)

寻找核定位信号

.

EMBO代表

.,

1

,

411

–

415

.

埃马努埃尔松

O。

等(

2007

)

使用targetp、signalp和相关工具定位细胞中的蛋白质

.

自然协议

.,

2

,

953

–

971

.

埃马努埃尔松

O。

等(

2003

)

真菌、植物和动物过氧化物酶体蛋白质组的电子预测

.

分子生物学杂志

.,

330

,

443

–

456

.

埃马努埃尔松

O。

等(

2000

)

基于n端氨基酸序列预测蛋白质的亚细胞定位

.

分子生物学杂志

.,

30

,

1005

–

1016

.

法格伯格

L。

等(

2011

)

绘制三种人类细胞系亚细胞蛋白分布图

.

蛋白质组研究杂志

.,

10

,

3766

–

3777

.

弗雷塔斯

N。

,

库尼亚

C、。

(

2009

)

蛋白质核导入的机制和信号

.

货币。基因组学

,

10

,

550

–

557

.

戈德伯格

T。

等(

2012

)

Loctree2预测了生命所有领域的本地化

.

生物信息学

,

28

,

458

–

465

.

霍顿

第页。

等(

2007

)

Wolfpsort：蛋白质定位预测因子

.

核酸研究

.,

35

,

585

–

587

.

今井

英国。

,

Nakai公司

k、。

(

2010

)

蛋白质亚细胞位置预测：从哪里着手？

蛋白质组学

,

10

,

3970

–

3983

.

琼斯

第页。

等(

2014

)

解释5：基因组尺度蛋白质功能分类

.

生物信息学

,

30

,

1236

–

1240

.

金斯福德

C、。

,

萨尔茨伯格

美国。

(

2008

)

什么是决策树？

自然生物技术

.,

26

,

1011

–

1013

.

兰德

答：。

等(

2007

)

经典核定位信号：定义、功能和与重要性的相互作用α

.

生物学杂志。化学

.,

8

,

5101

–

5105

.,

马修斯

B。

(

1975

)

T4噬菌体溶菌酶二级结构预测与观测结果的比较

.

生物化学。生物物理学。学报

,

405

,

442

–

451

.

Nakai公司

英国。

(

2000

)

蛋白质分选信号与亚细胞定位预测

.

高级蛋白质化学

.,

54

,

277

–

344

.

Nakai公司

英国。

,

卡内希萨

M。

(

1991

)

革兰氏阴性菌蛋白质定位位点预测专家系统

.

蛋白质

,

11

,

95

–

110

.

尼尔森

H。

(

2015

)

生物信息算法预测蛋白质的亚细胞定位，微生物学和免疫学当前主题第10卷

.

施普林格

,

柏林，海德堡

.

佩德雷戈萨

F、。

等(

2011

)

Scikit-learn：Python中的机器学习

.

J.马赫。学习。雷斯

.,

12

,

2825

–

2830

.

彼得森

T。

等(

2011

)

Signalp 4.0：从跨膜区域识别信号肽

.

自然方法

,

8

,

785

–

786

.

萨沃亚尔多

C、。

等(

2014

)

Tppred2：通过利用序列基序改进线粒体靶向肽切割位点的预测

.

生物信息学

,

30

,

2973

–

2974

.

汤姆·唐

年。

等(

2004

)

TAFA：一个新的分泌家族，具有保守的半胱氨酸残基并在大脑中限制表达

.

基因组学

,

83

,

727

–

734

.

乌伦

M.、P。

,

奥克斯沃尔德

第页。

等(

2010

)

建立基于知识的人类蛋白质图谱

.

自然生物技术

.,

28

,

1248

–

1250

.

UniProt-Consortium联合体

. (

2015

)

Uniprot：蛋白质信息中心

.

核酸研究

.,

43

,

2004年2月

–

D212型

.

公共医学

范·里杰斯伯根

C.J.公司。

(

1979

)

信息检索

，第2版，

伦敦

,

巴特沃斯

.

冯·海因

G.公司。

(

1986

)

一种预测信号序列裂解位点的新方法

.

核酸研究

.,

14

,

4683

–

4690

.

徐

Z.公司。

等(

2003

)

一种新的肝脏特异性透明带结构域蛋白，在肝细胞癌中很少表达

.

肝病学

,

38

,

735

–

744

.

于

C、。

等(

2006

)

蛋白质亚细胞定位预测

.

蛋白质结构。功能。生物信息素

.,

64

,

643

–

651

.