pLoc-mHum：通过通用PseAAC预测多位置人类蛋白质的亚细胞定位，以筛选出关键的GO信息|生物信息学|牛津学术

摘要

动机

为了深入了解蛋白质在细胞中的功能，了解其亚细胞定位是必不可少的。目前的研究主要集中在仅基于序列信息的人类蛋白质亚细胞位置预测。尽管在这方面已经作出了相当大的努力，但这个问题远未得到解决。大多数现有方法只能用于处理单位置蛋白质。实际上，具有多个位置的蛋白质可能具有一些特殊的生物功能，这些功能对基础研究和药物设计都特别重要。

结果

利用多标记理论，我们通过将关键的GO（基因本体）信息提取到一般PseAAC（伪氨基酸组成）中，提出了一种新的预测因子“pLoc-mHum”。在同样严格的基准数据集上进行的严格交叉验证表明，所提出的pLoc-mHum预测因子显著优于iLoc-Hum，iLoc-Hum是预测人类蛋白质亚细胞定位的最先进方法。

可用性和实施

为了最大限度地为大多数实验科学家提供便利，已在http://www.jci-bioinfo.cn/pLoc-mHum/用户无需经过复杂的数学运算即可轻松获得所需的结果。

补充信息

补充数据可在生物信息学在线。

1引言

细胞和分子生物学的基本问题之一是理解细胞作为生命基本单位的工作过程。要真正理解这一点，必须了解不同细胞器（或亚细胞位置）中的蛋白质。

在过去二十年左右的时间里，开发了许多计算方法来解决这个问题（参见(蔡和周，2000;塞达诺等。, 1997;周和蔡，2002;周和埃尔罗德，1998年,1999年a,b条;丁和张，2008;埃马努埃尔松等。, 2000;Gardy，2003年;Nanni和Lumini，2008年;莱因哈特和哈伯德，1998年)以及两篇评论文章(周和沈，2007c;Nakai，2000年)以及其中引用的一长串参考文献]。

但上述所有方法都是在假设细胞中的每个蛋白质都有且只有一个位置的情况下发展起来的。换句话说，在这些方法中，该主题被简化为一个单标签系统。然而，随着更多实验数据的出现，蛋白质在细胞中的定位实际上是一个多标记系统，其中一些蛋白质可能同时出现在两个或多个不同的定位位点中（或在它们之间移动）。这种复合蛋白通常具有一些特殊的生物学功能(Glory and Murphy，2007年;沈和周，2007)不应忽视，因为它们对于深入了解细胞内的生物过程和开发多靶点药物非常重要。

大约10年前，人们已经做出了相当大的努力来探索这种多重蛋白质系统(周和申，2007a,2010年a,b条;周等。, 2011,2012;黄和袁，2013;林等。, 2013;梅，2012;Pacharawongsakda和Theeramunkong，2013年;沈和周，2009,2010年a,b条;吴等。, 2011,2012;肖等。，2011年a). 它们大致可以分为两个系列(周，2015)：“PLoc”系列和“iLoc”系列。

与单标签系统相比，处理多标签系统将更加困难和复杂。特别是，对于多标签预测器来说，很难产生“绝对真实”率的下降结果。原因如下。假设一个人类蛋白质被标记为“细胞质和细胞核”，这意味着它可能同时位于现实世界中的两个细胞器或亚细胞位置。如果预测结果为“细胞质”、“细胞核”或“细胞质、细胞核和突触”，则绝对真实率不加任何分数。当且仅当预测结果也是“细胞质和细胞核”，即与实际标签完全相同时，将加1分以推导绝对真实率。因此，它是衡量多标签预测器质量的最严格的指标(周，2013). 这就是为什么在提出多标签预测因子时，许多作者(黄和袁，2013;Pacharawongsakda和Theeramunkong，2013年;王等。, 2013)甚至选择不提及“绝对真实率”这一术语。

在本研究中，我们使用了多标签理论(周，2013)开发一种新的预测器来识别人类蛋白质的亚细胞定位，以提高其绝对正确率和绝对错误率，这是多标记预测器最重要和最苛刻的两个指标(周，2013).

2材料和方法

2.1基准数据集

根据周的五步规则(周，2011)对于开发统计预测器，首要的是构造或选择有效的基准数据集来训练和测试模型。在文献中，基准数据集通常由训练数据集和测试数据集组成：前者用于训练建议的模型，而后者用于测试模型周和申（2007c）)，如果通过折刀或二次抽样（K-fold交叉验证）测试对模型进行测试，那么使用一个高质量的基准数据集就足够了，因为这样得到的结果实际上是来自许多不同独立数据集测试的组合。在本研究中，基准数据集取自(周等。, 2012;沈和周，2009). 这样做的原因如下。（i）该数据集包含大量经实验证实的人类蛋白质，其中包括单位置和多位置的蛋白质，并且其中没有一种蛋白质具有统计学意义 $\geq 25 %$ 将序列标识与同一子集中的任何其他序列标识配对。（ii）它也是用于训练和测试iLoc-Hum的相同基准数据集(周等。, 2012)是该领域最先进的预测工具，因此将有助于在相同的基础上进行比较。为了方便读者，基准数据集在补充材料S1。它包含 $N个 (秒 e（电子） q个) = 3106$ 根据亚细胞位置将不同的人类蛋白质序列分为14个亚群。这些蛋白质在14个亚细胞位置的总体视图见补充材料S2从中我们可以看出，在3106个不同的蛋白质中，2580个属于一个位置；480至两个位置；43至三个位置，三至四个位置，无至五个或更多位置。

A breakdown of theN个（seq）=3106人类蛋白质，根据它们在14种不同亚细胞定位中的出现情况，见表1，其中

N个 (v（v） 我 第页) = \sum_{k个 = 1}^{N个 (序列)} {n个}^{L（左）} (k个)

(1)

是“虚拟蛋白质”的总数(沈和周，2009)或“定位蛋白”(周等。, 2012)在基准数据集中，以及

{n个}^{L（左）} (k个)

是标记在k个-对不同的蛋白质样本进行测序。因此，多重度MD(林等。, 2013)当前基准数据集的

M（M） D类 = \frac{\sum_{k个 = 1}^{N个 (序列)} {n个}^{L（左）} (k个)}{N个 (序列)} = \frac{N个 (病毒)}{N个 (序列)} = 1.185

(2)

表1。

基准数据集中人类蛋白质的分解 $S公司$ 根据亚细胞位置的不同分为14个亚群（cf。补充材料S1和补充材料S2)

子集	亚细胞位置名称	蛋白质数量
${S公司}_{1}$	中心体	77
${S公司}_{2}$	细胞质	817
${S公司}_{三}$	细胞骨架	79
${S公司}_{4}$	内质网	229
${S公司}_{5}$	内吞体	24
${S公司}_{6}$	细胞外的	385
${S公司}_{7}$	高尔基器械	161
${S公司}_{8}$	溶酶体	77
${S公司}_{9}$	微粒体	24
${S公司}_{10}$	线粒体	364
${S公司}_{11}$	核	1021
${S公司}_{12}$	过氧化物酶体	47
${S公司}_{13}$	质膜	354
${S公司}_{14}$	突触	22
虚拟蛋白质总数N个（维拉）^一		3681
不同序列的蛋白质总数N个（顺序）		3106
多重度MD^b条		1.185^b条

子集	亚细胞位置名称	蛋白质数量
${S公司}_{1}$	中心体	77
${S公司}_{2}$	细胞质	817
${S公司}_{三}$	细胞骨架	79
${S公司}_{4}$	内质网	229
${S公司}_{5}$	内吞体	24
${S公司}_{6}$	细胞外的	385
${S公司}_{7}$	高尔基器械	161
${S公司}_{8}$	溶酶体	77
${S公司}_{9}$	微粒体	24
${S公司}_{10}$	线粒体	364
${S公司}_{11}$	核	1021
${S公司}_{12}$	过氧化物酶体	47
${S公司}_{13}$	质膜	354
${S公司}_{14}$	突触	22
虚拟蛋白质总数N个（维拉）^一		3681
不同序列的蛋白质总数N个（顺序）		3106
多重度MD^b条		1.185^b条

一

请参阅等式1用于定义虚拟蛋白质的数量。

b条

请参阅等式2对于多重度的定义。

表1。

基准数据集中人类蛋白质的分解 $S公司$ 根据亚细胞位置的不同分为14个亚群（cf。补充材料S1和补充材料S2)

子集	亚细胞位置名称	蛋白质数量
${S公司}_{1}$	中心体	77
${S公司}_{2}$	细胞质	817
${S公司}_{三}$	细胞骨架	79
${S公司}_{4}$	内质网	229
${S公司}_{5}$	内吞体	24
${S公司}_{6}$	细胞外的	385
${S公司}_{7}$	高尔基器械	161
${S公司}_{8}$	溶酶体	77
${S公司}_{9}$	微粒体	24
${S公司}_{10}$	线粒体	364
${S公司}_{11}$	核	1021
${S公司}_{12}$	过氧化物酶体	47
${S公司}_{13}$	质膜	354
${S公司}_{14}$	突触	22
虚拟蛋白质总数N个（维拉）^一		3681
不同序列的蛋白质总数N个（顺序）		3106
多重度MD^b条		1.185^b条

子集	亚细胞位置名称	蛋白质数量
${S公司}_{1}$	中心体	77
${S公司}_{2}$	细胞质	817
${S公司}_{三}$	细胞骨架	79
${S公司}_{4}$	内质网	229
${S公司}_{5}$	内吞体	24
${S公司}_{6}$	细胞外的	385
${S公司}_{7}$	高尔基器械	161
${S公司}_{8}$	溶酶体	77
${S公司}_{9}$	微粒体	24
${S公司}_{10}$	线粒体	364
${S公司}_{11}$	核	1021
${S公司}_{12}$	过氧化物酶体	47
${S公司}_{13}$	质膜	354
${S公司}_{14}$	突触	22
虚拟蛋白质总数N个（维拉）^一		3681
不同序列的蛋白质总数N个（顺序）		3106
多重度MD^b条		1.185^b条

一

请参阅等式1用于定义虚拟蛋白质的数量。

b条

请参阅等式2对于多重度的定义。

正如我们从中看到的那样等式2,

M（M） D类 = 1

指不含蛋白质的系统，具有多个位置，而

M（M） D类 > 1

指一些具有多个位置的蛋白质。MD值越高，具有多个标签的蛋白质样本越多。例如，

M（M） D类 = 1

对于大多数现有的蛋白质亚细胞预测方法来说，没有覆盖多标记蛋白质；Euk-mPLoc 2.0为1.146(周和沈，2010a)和iLoc-Euk(周等。, 2011)和1.079（对于Plant-mPLoc）(周和沈，2010b)和iLoc-Plant(吴等。, 2011).

为了简化后面的描述，基准数据集表示为

S公司

⁠，可以进一步表示为

S公司 = {S公司}_{1} \cup {S公司}_{2} \cup \dots \cup {S公司}_{u个} \cup \dots \cup {S公司}_{13} \cup {S公司}_{14}

(3)

哪里

{S公司}_{1}

仅包含来自“中心体”位置的人类蛋白质样本（参见。表1),

{S公司}_{2}

仅包含来自“细胞质”位置的内容，依此类推；

\cup

表示集合论中“并集”的符号。

2.2蛋白质样品配方

现在让我们考虑五步规则的第二步(周，2011); 即如何用一个有效的数学表达式来表示生物序列样本，该表达式能够真实地反映其与相关目标的本质相关性。给定人类蛋白质序列P（P），其最直接的表达式是

P（P） = {R（右）}_{1} {R（右）}_{2} {R（右）}_{三} {R（右）}_{4} {R（右）}_{5} {R（右）}_{6} {R（右）}_{7} \dots {R（右）}_{L（左）}

(4)

哪里L（左）表示蛋白质的长度或其组成氨基酸残基的数量，

{R（右）}_{1}

是第一个残留物，

{R（右）}_{2}

第二个残渣，

{R（右）}_{三}

第三个残留物等等。由于所有现有的机器学习算法，如SVM（支持向量机）(陈等。，2016年a)，KNN（K-最近邻）(肖等。, 2013)，RF（随机森林）(贾等。，2016年c)和PCA（主成分分析仪）(杜等。, 2017)只能处理向量(周，2015)，我们必须转换等式4变成一个向量。但在离散模型中定义的向量可能会完全丢失所有序列序信息。为了解决这个问题，PseAAC(精神分裂症乌多A类米诺A类cid公司C类复合材料）(Chou，2000年,2001,2005). 自从周氏PseAAC提出伪氨基酸组成概念以来(曹等。, 2013;杜等。, 2012;Lin和Lapointe，2013年)它被提出后，已被广泛应用于许多生物医学和药物开发领域(钟和周，2014;周和钟，2016)以及计算蛋白质组学的几乎所有领域(艾哈迈德等。, 2015;埃斯马埃利等。, 2010;贾等。，2016年b;梅赫尔等。, 2017;穆罕默德等。, 2011;穆罕默德·贝吉等。, 2011;Mondal和Pai，2014年;Nanni和Lumini，2008年;南尼等。, 2012;Pacharawongsakda和Theeramunkong，2013年;拉希米等。, 2017;2010年《莎湖与熊猫》;特里帕西和潘迪，2017年;周等。, 2007)以及两篇综述论文中引用的一长串参考文献(周，2009,2017)]. 由于使用PseAAC处理蛋白质/肽序列的成功，其思想和方法已扩展到处理DNA/RNA序列(陈等。, 2013,，2016年c;冯等。, 2017;林等。, 2014,2017年a,c（c）;邱等。, 2014)通过PseKNC在计算基因组学中(精神分裂症乌多K（K）-元组N个核苷酸C类合成）(陈等。, 2014,2015).

根据一般PseAAC的概念(周，2011)，任何蛋白质序列都可以作为PseAAC载体，由

P（P） = {[Ψ_{1} Ψ_{2} \dots Ψ_{u个} \dots Ψ_{Ω}]}^{T型}

(5)

哪里T型是转置运算符，而整数

Ω

是参数及其值以及组件

Ψ_{u个} (u个 = 1, 2, \dots, Ω)

将取决于如何从氨基酸序列中提取所需信息P（P），如下所述。

作为通用PseAAC的一种(周，2011)GO（基因本体）已被广泛用于提高蛋白质亚细胞定位的预测质量（参见例如。万等。, 2013;吴等。, 2011;肖等。，2011年a,b条). 使用GO方法的优点是，映射到GO空间的蛋白质（而不是欧几里德空间或任何其他简单的几何空间）将更好地根据其亚细胞位置进行聚类，如(周和沈，2008). 关于使用GO方法预测蛋白质亚细胞定位的基本原理，以及对GO方法合理性的深入讨论，请参阅综合综述论文的第六节(周，2013).

然而，现有GO方法（参见示例。沈和周，2007;吴等。, 2011;肖等。，2011年a,b条)有以下缺点。（i）只有数字0和1（或其简单组合）用于合并GO信息，因此可能会遗漏一些重要信息。（ii）蛋白质载体的尺寸，即 $Ω$ 属于等式5，在之前的GO方法中非常高；例如1930年(周和蔡，2003)，3043英寸(林等。, 2013)和9567英寸(Chou和Shen，2006年)，因此可能导致高维灾难问题(王等。, 2008).

这里，我们将介绍一种新的GO方法，通过该方法，我们可以通过筛选许多琐碎信息来掌握关键信息，从而显著降低PseAAC向量的维数等式5具体步骤如下。

第1步使用BLAST在Swiss Prot数据库中搜索所有人类蛋白质，寻找与蛋白质具有高度同源性（即超过60%的成对序列同一性）的蛋白质P（P）属于等式4.由此获得的蛋白质被收集到一个子集中，

{S公司}_{P（P）}^{小时 哦 米 哦}

⁠，称为的同源集P（P）随后，检索中蛋白质的GO代码

{S公司}_{P（P）}^{小时 哦 米 哦}

与P（P）每个GO代码都是一个包含7位数字的数字标签（参见示例。周和蔡，2003). 如果它根本没有GO代码，那么对中同源性第二高的蛋白质执行相同的操作

{S公司}_{P（P）}^{小时 哦 米 哦}

⁠; 如果它再次没有GO代码，那么对第三个最高同源的代码执行相同的操作；继续这样做，直到获得一组go代码，如下所示

\{{G公司 O（运行）}_{1}^{P（P）} {G公司 O（运行）}_{2}^{P（P）} \dots {G公司 O（运行）}_{k个}^{P（P）} \dots {G公司 O（运行）}_{{n个}^{克}}^{P（P）}}\}

(6)

哪里

{G公司 O（运行）}_{k个}^{P（P）} (k个 = 1, 2, \dots, {n个}^{克})

是k个-中蛋白质的第个GO代码

{S公司}_{P（P）}^{小时 哦 米 哦}

根据上述顺序，首次发现了一组GO代码，以及

{n个}^{克}

是它具有的GO代码总数。假设我们从训练数据集中发现，与

{G公司 O（运行）}_{k个}^{P（P）}

是牛顿（k），其中蛋白质的数量u个-第个子集是

n个 (k个, u个) (k个 = 1, 2, \dots, {n个}^{克}; u个 = 1, 2, \dots, {L（左）}_{细胞})

(7)

哪里

{L（左）}_{细胞} = 14

是被调查的亚细胞位置总数（参见等式2或表1).

第2步.基于公式7，中的通用PseAAC矢量等式5其尺寸可以唯一定义为

Ψ_{u个} = \underset{1 \leq k个 \leq {n个}^{克}}{马克斯} [\frac{n个 (u个, k个)}{N个 (k个)}] (u个 = 1, 2, \dots, Ω = {L（左）}_{细胞} = 14)

(8)

哪里N个(k个)是训练数据集中具有相同GO代码的人类蛋白质的总数

{G公司 O（运行）}_{k个}^{P（P）}

运算符Max表示取不同值之间的最大值k个通过这种最大化运算，提取出本研究中最重要的GO信息，并筛选出许多琐碎的GO码来降低向量的维数。

在中列出补充材料S3PseAAC向量定义为等式8对于3106个序列不同的人类蛋白质补充材料S2分别为。如我们所见，当前PseAAC向量的维数已减少到14，比以前的方法小得多(周和蔡，2003;Chou和Shen，2006年;林等。, 2013).

2.3运算算法

五步规则中的第三步(周，2011)是关于运行预测的运算算法（或引擎）。这里，我们采用了ML-GKR（多标签高斯核回归）分类器，如下所述。

根据等式8或补充材料S3，的我-th人类蛋白

{P（P）}^{我}

在基准数据集中

S公司

属于公式3可以表述为

{P（P）}_{G公司 O（运行）}^{我} = {[{Ψ_{1}^{我}}_{} Ψ_{2}^{我} Ψ_{三}^{我} \dots Ψ_{14}^{我}]}^{T型}, 我 = 1, 2, \dots, N个 (秒 e（电子） q个)

(9)

现在我们使用14-D矢量

{L（左）}^{我}

描述其在多标记系统中的亚细胞位置；即

{L（左）}^{我} = {[\begin{array}{l} ℓ_{1}^{我} ℓ_{2}^{我} ℓ_{三}^{我} & \dots & ℓ_{14}^{我} \end{array}]}^{T型}

(10)

哪里

ℓ_{u个}^{我} = \{\begin{array}{l} + 1 如果 {P（P）}^{我} \in {S公司}_{u个} \\ - 1 否则 \end{array} (u个 = 1, 2, \dots, 14)

(11)

同样，对于查询人类蛋白质

{P（P）}^{q个}

我们有

{P（P）}^{q个} = {[{Ψ_{1}^{q个}}_{} Ψ_{2}^{q个} Ψ_{三}^{q个} \dots Ψ_{14}^{q个}]}^{T型}

(12)

其在多标记系统中的亚细胞位置标记应通过以下方式给出

{L（左）}^{q个} = {[\begin{array}{l} ℓ_{1}^{q个} ℓ_{2}^{q个} ℓ_{三}^{q个} & \dots & ℓ_{14}^{q个} \end{array}]}^{T型}

(13)

哪里

ℓ_{u个}^{q个} = \{\begin{array}{l} + 1 我 （f） Δ_{u个} \geq 0 \\ - 1 否则 \end{array} (u个 = 1, 2, \dots, 14)

(14)

这个

Δ_{u个}

在里面等式13由提供

Δ_{u个} = [\sum_{我 = 1}^{N个 (火车)} ℓ_{u个}^{我} \cdot 经验 (- \frac{{‖{P（P）}^{q个} - {P（P）}^{我}‖}^{2}}{2 θ^{2}})] {[\sum_{我 = 1}^{N个 (火车)} 经验 (- \frac{{‖{P（P）}^{q个} - {P（P）}^{我}‖}^{2}}{2 θ^{2}})]}^{- 1}

(15)

哪里N个（train）是用于训练模型的蛋白质数量，

θ

是一个参数，其最佳值将在稍后确定，并且

{‖{P（P）}^{q个} - {P（P）}^{我}‖}^{2}

是平方欧氏距离(周和张，1995年)查询蛋白之间(等式12)和我-th蛋白(等式9)在基准数据集中

S公司

⁠; 即

{‖{P（P）}_{GO（开始）}^{q个} - {P（P）}_{GO（开始）}^{我}‖}^{2} = \sum_{u个 = 1}^{14} {(Ψ_{u个}^{q个} - Ψ_{u个}^{我})}^{2}

(16)

因此，位置标签向量

{L（左）}^{q个}

属于等式13用于查询人类蛋白质

{P（P）}^{q个}

定义明确，因此也可以明确预测其亚细胞位置。例如：如果

ℓ_{1}^{q个} = ℓ_{三}^{q个} = ℓ_{14}^{q个} = + 1

而所有其他组件等式13等于

- 1

⁠，这意味着查询人类蛋白质

{P（P）}^{q个}

位于第1、3和14亚细胞位置（参见。表1); 如果

ℓ_{2}^{q个} = + 1

而所有其他人都是平等的

- 1

⁠，意味着查询蛋白仅位于第二亚细胞位置；等等。

通过上述程序开发的预测因子称为pLoc-mHum，其中“pLoc”代表“预测亚细胞定位”，“mHum”代表“多标签人类蛋白质”。如所示图1是一个流程图，用于说明pLoc-mHum的工作过程。

图1。

显示pLoc-mHum预测器工作过程的流程图

新标签中打开下载幻灯片

3结果和讨论

如周的五步规则所述(周，2011)如何客观评估其预期准确性是开发新预测工具的重要步骤之一。为了解决这一问题，需要考虑两个问题。（i）应该使用什么指标来定量反映预测者的质量？（ii）应采用什么测试方法来为指标打分？

3.1多标签系统的五个指标集

与用于测量单标签系统预测质量的度量不同，多标签系统的度量要复杂得多。为了让大多数实验科学家更直观、更容易理解，这里我们使用以下直观的周的五个指标(周，2013)最近被广泛用于研究各种多标签系统（参见例如。程等。2017a年,b条,c（c）,d日,e（电子）,（f）,克;林等。, 2013;邱等。，2016年b;肖等。2017):

\{\begin{array}{l} A类 我 米 我 n个 克 ↑ = \frac{1}{{N个}^{q个}} \sum_{k个 = 1}^{{N个}^{q个}} (\frac{‖{‖ L（左）}_{k个} \cap {L（左）}_{k个}^{*} ‖‖}{‖‖ {L（左）}_{k个}^{*} ‖‖}), [0, 1] \\ \begin{array}{l} 新闻报道 ↑ = \frac{1}{{N个}^{q个}} \sum_{k个 = 1}^{{N个}^{q个}} (\frac{‖{‖ L（左）}_{k个} \cap {L（左）}_{k个}^{*} ‖‖}{‖‖ {L（左）}_{k个} ‖‖}), [0, 1] \\ 准确性 ↑ = \frac{1}{{N个}^{q个}} \sum_{k个 = 1}^{{N个}^{q个}} (\frac{‖‖ {L（左）}_{k个} \cap {L（左）}_{k个}^{*} ‖‖}{‖‖ {L（左）}_{k个} \cup {L（左）}_{k个}^{*} ‖‖}), [0, 1] \\ 绝对的 真的 ↑ = \frac{1}{{N个}^{q个}} \sum_{k个 = 1}^{{N个}^{q个}} Δ ({L（左）}_{k个}, {L（左）}_{k个}^{*}), [0, 1] \end{array} \\ A类 b条 秒 哦 我 u个 t吨 e（电子） （f） 一 我 秒 e（电子） ↓ = \frac{1}{{N个}^{q个}} \sum_{k个 = 1}^{{N个}^{q个}} (\frac{‖‖ {L（左）}_{k个} \cup {L（左）}_{k个}^{*} ‖‖ - ‖‖ {L（左）}_{k个} \cap {L（左）}_{k个}^{*} ‖‖}{M（M）}), [1, 0] \end{array}

(17)

哪里

{N个}^{q个}

是查询蛋白质或测试蛋白质的总数，M（M）是被调查系统的不同标签总数（对于当前研究，是

{L（左）}_{细胞} = 14

⁠),

‖‖

是指操作其中集合以计算其元素数量的操作员，

\cup

表示集合论中“联合”的符号，

\cap

表示“十字路口”的符号，

{L（左）}_{k个}

表示包含实验观察到的所有标签的子集k个-第个测试样品，

{L（左）}_{k个}^{*}

表示包含为k个-第个样品，以及

Δ ({L（左）}_{k个}, {L（左）}_{k个}^{*}) = \{\begin{array}{l} 1, 我 （f） 一 我 我 t吨 小时 e（电子） 我 一 b条 e（电子） 我 秒 我 n个 {L（左）}_{k个}^{*} 一 第页 e（电子） 我 d日 e（电子） n个 t吨 我 c（c） 一 我 t吨 哦 t吨 小时 哦 秒 e（电子） 我 n个 {L（左）}_{k个} \\ 0, 哦 t吨 小时 e（电子） 第页 w个 我 秒 e（电子） \end{array}

(18)

在等式17，带有上箭头的前四个指标

↑

被称为正度量，这意味着速率越大，预测质量越好；带有向下箭头的第五个指标

↓

被称为负指标，意思正好相反。

发件人等式17我们可以看到以下内容：（i）由1定义的“瞄准”^标准子方程用于检查正确预测标签与实际预测标签的比率或百分比；（ii）第二个子方程中定义的“覆盖率”用于检查相关系统中正确预测标签与实际标签的比率；（iii）3中的“准确性”^第个子方程用于检查正确预测标签与总标签的平均比率，包括正确预测标签和错误预测标签以及预测中遗漏的真实标签；（iv）第四个子方程中的“绝对真”用于检查完全或完全正确的预测事件与总预测事件的比率；（v）第五个子方程中的“绝对假”用于检查完全错误预测与总预测事件的比率。

3.2刀切试验

统计预测中经常使用三种交叉验证方法。它们是：（i）独立数据集测试，（ii）二次抽样（或K倍交叉验证）测试和（iii）jackknife测试(周和张，1995年). 然而，在这三种测试中，折刀测试被认为是最不武断的测试，它总是能够为给定的基准数据集产生独特的结果，如(周，2011). 因此，jackknife测试已被广泛认可，并越来越多地被研究人员用于检查各种预测因素的质量（例如。Ali和Hayat，2015年;周和埃尔罗德，2003年;周和沈，2007b;埃斯马埃利等。, 2010;可汗等。, 2017;梅赫尔等。, 2017;穆罕默德等。, 2011;塔希尔和哈亚特，2016年;周和阿萨芒，2001). 因此，在本研究中也使用了顶刀试验。

3.3参数确定

自等式15包含参数 $θ$ ⁠pLoc-mHum得到的预测结果将取决于参数的值。在本研究中 $θ$ 通过最大化绝对真实率来确定（参见等式17)通过对基准数据集的jackknife验证。如所示图2，何时 $θ = 1 / 6$ ⁠，绝对真实率达到最高分。该值将用于进一步研究。

图2。

一个图，显示了找到最优值的过程 $θ$ 公式15中的值。更多解释请参见正文

新标签中打开下载幻灯片

3.4与最新预测值的比较

在中列出表2是当前pLoc-mHum预测值通过对基准数据集的折刀测试获得的速率(补充材料S1). 为了便于比较，该表中还列出了iLoc-Hum获得的相应结果(周等。, 2012)，现有最强大的预测因子，用于识别具有单位点和多位点的人类蛋白质的亚细胞定位。

表2。

预测人类蛋白质亚细胞定位的最新方法比较^一

预测器	瞄准(⁠ $↑)$ ^b条	覆盖范围(⁠ $↑)$ ^b条	准确性(⁠ $↑)$ ^b条	绝对正确(⁠ $↑)$ ^b条	绝对错误(⁠ $↓)$ ^b条
pLoc-mHum（位置-湿度）^c（c）	90.57%	82.75%	84.39%	79.14%	1.20%
iLoc-Hum公司^d日	不适用	76.31%	不适用	68.19%	不适用

预测器	瞄准(⁠ $↑)$ ^b条	覆盖范围(⁠ $↑)$ ^b条	准确性(⁠ $↑)$ ^b条	绝对正确(⁠ $↑)$ ^b条	绝对错误(⁠ $↓)$ ^b条
pLoc-mHum（位置-湿度）^c（c）	90.57%	82.75%	84.39%	79.14%	1.20%
iLoc-Hum公司^d日	不适用	76.31%	不适用	68.19%	不适用

一

表中列出的比率是通过对基准数据集的折刀测试得出的 $S公司$ (补充材料S1).

b条

请参阅等式17用于度量的定义。

c（c）

本文提出的预测器 $θ = 1 / 6$ 对于等式15.

d日

中建议的预测值周等. (2012).

表2。

预测人类蛋白质亚细胞定位的最新方法比较^一

预测器	瞄准(⁠ $↑)$ ^b条	覆盖范围(⁠ $↑)$ ^b条	准确性(⁠ $↑)$ ^b条	绝对正确(⁠ $↑)$ ^b条	绝对错误(⁠ $↓)$ ^b条
pLoc-mHum（位置-湿度）^c（c）	90.57%	82.75%	84.39%	79.14%	1.20%
iLoc-Hum公司^d日	不适用	76.31%	不适用	68.19%	不适用

预测器	瞄准(⁠ $↑)$ ^b条	覆盖范围(⁠ $↑)$ ^b条	准确性(⁠ $↑)$ ^b条	绝对正确(⁠ $↑)$ ^b条	绝对错误(⁠ $↓)$ ^b条
pLoc-mHum（位置-湿度）^c（c）	90.57%	82.75%	84.39%	79.14%	1.20%
iLoc-Hum公司^d日	不适用	76.31%	不适用	68.19%	不适用

一

表中列出的比率是通过对基准数据集的折刀测试得出的 $S公司$ (补充材料S1).

b条

请参阅等式17用于度量的定义。

c（c）

本文提出的预测器 $θ = 1 / 6$ 对于等式15.

d日

中建议的预测值周等. (2012).

如所示表2，在等式17用于定量测量多标签预测器的质量(周，2013)iLoc-Hum的“瞄准”、“准确度”和“绝对错误”率(周等。, 2012)缺少，表明在检查预测质量方面缺乏严谨性。换句话说，iLoc-Hum的作者只报告了“覆盖率”和“绝对真实”的比率。但这两种方法都显著低于本文提出的电流预测器pLoc-mHum所达到的相应速率。正如全面审查中指出的那样(周，2013)，在上述五个指标中表2，最重要的是“绝对正确”和“绝对错误”。多标签预测器要提高其绝对真率并降低其绝对假率是极其困难的。因此，在开发预测单位点和多位点蛋白质亚细胞定位的方法时，许多研究人员甚至没有提到“绝对正确”和“绝对错误”率。与此相反，可以从表2当前pLoc-mHum预测值的绝对真实率比iLoc-Hum预测值高出10%以上，明显表明其优越性。

此外，iLoc-Hum论文中的14个亚细胞位置中的每一个都没有预测质量的报告(周等。, 2012). 为了更深入地分析预测质量，让我们介绍以下一组指标：

\{\begin{array}{l} \begin{array}{l} 锡 (我) = 1 - \frac{{N个}_{-}^{+} (我)}{{N个}^{+} (我)} 0 \leq 锡 \leq 1 \\ \begin{array}{l} \begin{array}{l} 服务提供商 (我) = 1 - \frac{{N个}_{+}^{-} (我)}{{N个}^{-} (我)} & 0 \leq 服务提供商 \leq 1 \end{array} \end{array} \end{array} \\ \begin{array}{l} \begin{array}{l} \begin{array}{l} Acc公司 (我) = 1 - \frac{{N个}_{-}^{+} (我) + {N个}_{+}^{-} (我)}{{N个}^{+} (我) + {N个}^{-} (我)} & 0 \leq Acc公司 \leq 1 \end{array} \end{array} \\ 电动机控制中心 (我) = \frac{1 - (\frac{{N个}_{-}^{+} (我)}{{N个}^{+} (我)} + \frac{{N个}_{+}^{-} (我)}{{N个}^{-} (我)})}{\sqrt{(1 + \frac{{N个}_{+}^{-} (我) - {N个}_{-}^{+} (我)}{{N个}^{+} (我)}) (1 + \frac{{N个}_{-}^{+} (我) - {N个}_{+}^{-} (我)}{{N个}^{-} (我)})}} \\ - 1 \leq 电动机控制中心 \leq 1 \\ (我 = 1, 2, \dots, 20) \end{array} \end{array}

(18)

其中Sn、Sp、Acc和MCC分别表示灵敏度、特异性、准确性和马修相关系数(陈等。, 2007)、和我表示我-基准数据集中的亚细胞位置。

{N个}^{+} (我)

是我-th子集，而

{N个}_{-}^{+} (我)

是中的样本数

{N个}^{+} (我)

被错误预测为其他位置的；

{N个}^{-} (我)

是任何位置的样本总数，但不是我-第个位置，而

{N个}_{+}^{-} (我)

是中的样本数

{N个}^{-} (我)

被错误地预测为我-第个位置。以下指标等式18已被广泛用于检测基因组/蛋白质组分析中预测因子的质量（参见例如。陈等。, 2013;林等。, 2014，a；徐等。, 2014)和计算生物医学（参见示例。线路接口单元等。，2017年c，d；邱等。，2017年b;徐等。, 2017).

在中列出表3是pLoc-Hum针对14个亚细胞位置中的每个位置获得的相应结果。从表中可以看出，14个亚细胞位置中的每个位置的得分也很高，这与报告中的整体表现完全一致表2.

表3。

pLoc-mHum在14个亚细胞位置中的表现

我	位置^一	锡（i）^b条	Sp（i）^b条	账户（i）^b条	MCC（i）^b条
1	中心体	0.7143	0.9937	0.9868	0.7219
2	细胞质	0.7760	0.9415	0.8979	0.7322
三	细胞骨架	0.7722	0.9970	0.9913	0.8159
4	内质网	0.7817	0.9864	0.9713	0.7857
5	内吞体	0.4583	0.9984	0.9942	0.5586
6	细胞外的	0.8390	0.9838	0.9659	0.8400
7	高尔基体	0.7453	0.9871	0.9746	0.7390
8	溶酶体	0.8831	0.9954	0.9926	0.8520
9	微粒体	0.7083	0.9971	0.9948	0.6780
10	线粒体	0.9258	0.9865	0.9794	0.9017
11	核	0.8580	0.9242	0.9024	0.7797
12	过氧化物酶体	0.8511	0.9974	0.9952	0.8397
13	质膜	0.8249	0.9815	0.9636	0.8175
14	突触	0.7727	0.9994	0.9977	0.8304

我	位置^一	锡（i）^b条	Sp（i）^b条	账户（i）^b条	MCC（i）^b条
1	中心体	0.7143	0.9937	0.9868	0.7219
2	细胞质	0.7760	0.9415	0.8979	0.7322
三	细胞骨架	0.7722	0.9970	0.9913	0.8159
4	内质网	0.7817	0.9864	0.9713	0.7857
5	内吞体	0.4583	0.9984	0.9942	0.5586
6	细胞外的	0.8390	0.9838	0.9659	0.8400
7	高尔基体	0.7453	0.9871	0.9746	0.7390
8	溶酶体	0.8831	0.9954	0.9926	0.8520
9	微粒体	0.7083	0.9971	0.9948	0.6780
10	线粒体	0.9258	0.9865	0.9794	0.9017
11	核	0.8580	0.9242	0.9024	0.7797
12	过氧化物酶体	0.8511	0.9974	0.9952	0.8397
13	质膜	0.8249	0.9815	0.9636	0.8175
14	突触	0.7727	0.9994	0.9977	0.8304

一

请参阅表1以及相关背景，以供进一步解释。

b条

请参阅等式18用于度量定义。

表3。

pLoc-mHum在14个亚细胞位置中的表现

我	位置^一	锡（i）^b条	Sp（i）^b条	账户（i）^b条	MCC（i）^b条
1	中心体	0.7143	0.9937	0.9868	0.7219
2	细胞质	0.7760	0.9415	0.8979	0.7322
三	细胞骨架	0.7722	0.9970	0.9913	0.8159
4	内质网	0.7817	0.9864	0.9713	0.7857
5	内吞体	0.4583	0.9984	0.9942	0.5586
6	细胞外的	0.8390	0.9838	0.9659	0.8400
7	高尔基体	0.7453	0.9871	0.9746	0.7390
8	溶酶体	0.8831	0.9954	0.9926	0.8520
9	微粒体	0.7083	0.9971	0.9948	0.6780
10	线粒体	0.9258	0.9865	0.9794	0.9017
11	核	0.8580	0.9242	0.9024	0.7797
12	过氧化物酶体	0.8511	0.9974	0.9952	0.8397
13	质膜	0.8249	0.9815	0.9636	0.8175
14	突触	0.7727	0.9994	0.9977	0.8304

我	位置^一	锡（i）^b条	Sp（i）^b条	账户（i）^b条	MCC（i）^b条
1	中心体	0.7143	0.9937	0.9868	0.7219
2	细胞质	0.7760	0.9415	0.8979	0.7322
三	细胞骨架	0.7722	0.9970	0.9913	0.8159
4	内质网	0.7817	0.9864	0.9713	0.7857
5	内吞体	0.4583	0.9984	0.9942	0.5586
6	细胞外的	0.8390	0.9838	0.9659	0.8400
7	高尔基体	0.7453	0.9871	0.9746	0.7390
8	溶酶体	0.8831	0.9954	0.9926	0.8520
9	微粒体	0.7083	0.9971	0.9948	0.6780
10	线粒体	0.9258	0.9865	0.9794	0.9017
11	核	0.8580	0.9242	0.9024	0.7797
12	过氧化物酶体	0.8511	0.9974	0.9952	0.8397
13	质膜	0.8249	0.9815	0.9636	0.8175
14	突触	0.7727	0.9994	0.9977	0.8304

一

请参阅表1以及相关背景，以供进一步解释。

b条

请参阅等式18用于度量定义。

3.5 Web服务器和用户指南

如中所述(周和沈，2009)用户友好且可公开访问的网络服务器代表了开发更实用的预测器或任何计算工具的未来方向。事实上，如最近的一系列出版物所示，用户友好的网络服务器(陈等。，2016年b,2017;程等。2017a年;贾等。，2016年a,c（c）,d日;线路接口单元等。，2017年b,d日;邱等。2017a年,b条;邱等。，2016年a,c（c）;肖等。, 2016;徐等。, 2013,2014,2017;张等。, 2016)将显著提高理论工作的影响，因为它们可以吸引广泛的实验科学家(周，2015). 因此，建立了pLoc-mHum预测器的网络服务器。此外，为了最大限度地提高用户的便利性，在补充材料S4.

4结论

人类蛋白质亚细胞位置预测是一个具有挑战性的问题，特别是当查询的人类蛋白质具有多标签特征时，这意味着它们可能发生在两个或多个不同的位置。在这里，我们通过将最优GO信息合并到Chou的一般PseAAC中，开发了一种新的预测因子pLoc-mHum(周，2011). 与iLoc-Hum相比(周等。, 2011)作为现有最强大的预测因子，它还具有处理人类蛋白质多位置的能力，根据广泛用于衡量多标签预测因子质量的指标，新预测因子获得的分数明显优于iLoc-Hum。

为什么新的预测工具如此强大？其本质是，在新方法中有两个重要的方程；即等式8和15通过前者，通过剔除关键特征，可以大幅降低一般PseAAC向量的维数，从而显著降低大量噪声。通过后者，可以以逻辑和一致的方式自然地导出多个位置，而不是像大多数现有方法那样通过人工插入阈值或截止值。

由于可公开访问的web服务器代表了开发实际更有用的预测方法的未来方向(周和沈，2009)，pLoc-mHum的网络服务器已经建立，其用户指南见补充材料S4预计pLoc-mHum将成为一种非常有用的高通量工具，用于注释人类蛋白质的亚细胞位置。

致谢

作者希望感谢三位匿名审稿人，他们的建设性意见对加强本文的介绍非常有帮助。

基金

本项工作得到了国家自然科学基金（No.31560316，61261027，61262038，61202313，31260273）、江西省国家自然科学项目（No.20132BAB201053）和江西省对外科技合作项目（No.20120BDH80023）的资助，江西省教育厅（GJJ160866）。本论文得到了国家自然科学基金（61271114号和61203325号）和上海市教育委员会创新计划（14ZZ068号）的部分资助。

利益冲突：未声明。

工具书类

艾哈迈德

美国。

等(

2015

)

通过将二肽组分纳入Chou的一般PseAAC中鉴定热休克蛋白家族和J蛋白类型

计算。生物识别方法程序

122

165

–

174

月份：	总浏览次数：
2017年11月	75
2017年12月	29
2018年1月	43
2018年2月	20
2018年3月	7
2018年4月	37
2018年5月	102
2018年6月	22
2018年7月	12
2018年8月	12
2018年9月	22
2018年10月	6
2018年11月	32
2018年12月	21
2019年1月	1
2019年2月	11
2019年3月	18
2019年4月	27
2019年5月	59
2019年6月	57
2019年7月	55
2019年8月	49
2019年9月	20
2019年10月	41
2019年11月	65
2019年12月	23
2020年1月	50
2020年2月	32
2020年3月	32
2020年4月	29
2020年5月	23
2020年6月	66
2020年7月	48
2020年8月	30
2020年9月	18
2020年10月	37
2020年11月	16
2020年12月	34
2021年1月	35
2021年2月	23

文章内容

pLoc-mHum：通过通用PseAAC预测多位置人类蛋白质的亚细胞定位，以筛选出关键的GO信息

摘要

1引言

2材料和方法

2.1基准数据集

2.2蛋白质样品配方

2.3运算算法

3结果和讨论

3.1多标签系统的五个指标集

3.2刀切试验

3.3参数确定

3.4与最新预测值的比较

3.5 Web服务器和用户指南

4结论

致谢

基金

工具书类

补充数据

引文

意见

海拔高度

电子邮件警报

通过引用文章

最新的

阅读次数最多

被引用次数最多

寻找你的下一个机会？

此功能仅对订阅服务器可用