A Hierarchical Multi-Label Classification Algorithm for Gene Function Prediction

Feng, Shou; Fu, Ping; Zheng, Wenbin

doi:10.3390/a10040138

开放式访问第条

一种用于基因功能预测的分层多标签分类算法

通过

寿丰

,

平福

^*和

郑文斌

哈尔滨工业大学自动化测试与控制系，哈尔滨150080，中国

^*

信件应寄给的作者。

算法 2017,10(4), 138;https://doi.org/10.3390/a10040138

收到的提交文件：2017年9月28日/修订日期：2017年10月20日/接受日期：2017年11月28日/发布日期：2017年12月8日

（本文属于特刊生物信息学算法及其应用)

下载

浏览地物

版本注释

摘要

:

基因功能预测是一项复杂且具有挑战性的层次多标签分类（HMC）任务，其中基因可能同时具有多种功能，并且这些功能是按层次组织的。本文基于基因本体（GO）提出了一种新的HMC算法来解决这一问题，该算法的层次结构是一个有向无环图（DAG），并且更难处理。该算法首先将HMC任务转化为一组二进制分类任务。然后，在算法中通过考虑学习过程中的层次结构，实现了两种措施来提高HMC性能。首先，提出了与SMOTE方法相关的负实例选择策略，以缓解数据集的不平衡问题。其次，引入节点交互方法来组合二值分类器的结果。它可以保证预测与层次约束一致。在由基因本体标注的八个基准酵母数据集上的实验表明，与其他最新算法相比，该算法具有良好的性能。

关键词：

分层多标签分类;基因本体论;基因功能预测;DAG公司

1.简介

近年来，人们研究了层次多标签分类（HMC）在文本分类、数字图书馆和基因功能预测等领域的各种应用[1]. 在这些实际问题中，每个实例可能同时有多个类。这些类以预定义的层次结构组织[2]，与一个类关联的实例将自动分配给它的所有祖先类[三]. 基因功能预测是一个复杂的HMC问题，因为单个基因可能具有许多功能，并且这些功能是根据预定义的层次结构来构建的[4]. 基因本体的有向无环图（DAG）和功能目录的根树（FunCat）是基因功能类的两种主要层次结构[5]. 前一个更难处理，因为DAG中的一个节点可以有多个父节点[6]因此，对DAG结构的GO分类进行分类是本文的重点。

基因本体论[7]是一种广泛使用的蛋白质功能分类方案。它由数千个函数类术语组成，每个术语对应一个函数类。GO的层次结构是一个DAG。GO包含三个独立的部分：生物过程本体、分子功能本体和细胞组件本体[8]. 他们每个人都被组织为DAG。图1说明了基因本体分类法的一部分。

已经设计了一些分类算法来解决HMC任务，这些算法可以分为两种类型：全局方法和局部方法[9].

全局方法中只生成一个模型，它在分类模型的单个运行期间预测实例的所有标签[10]. 当数据集的大小增加时，模型通常变得非常复杂，因此非常耗时[11]. 本文提出的算法[12,13]是全球方法的示例。

局部方法将HMC任务转换为每个类的单独二进制分类任务，然后通过考虑层次结构将所有二进制分类器的结果组合在一起[14]. 使用传统的分类算法很容易解决具有高维属性的复杂HMC问题[15]. Barutcuoglu等人[16]在他们提出的方法中，选择支持向量机（SVM）作为每个类的基本分类器。这些基本分类器的结果通过贝叶斯网络进行处理，以保证最终结果的层次约束。Valentini等人[17]提出了一种真路径规则（TPR）层次集成方法，利用概率支持向量机进行二值分类，处理树结构。Chen等人[15]改进了树结构的TPR方法。Robinson等人[18]提出了DAG结构的TPR集成策略。

在使用GO分类法应用本地方法处理HMC任务时，有两个主要挑战。首先，当层次结构向下遍历到叶子时，层次结构较低级别的类通常具有很少的正实例，这就要求从非常倾斜的数据集学习这些层次结构级别的基本分类器[19]. 在这种不平衡的数据集学习场景中，标准分类器可能会被多数类淹没，无法检测到少数类。其次，预测结果需要与层次约束保持一致。这意味着一个实例应该自动属于它所属的类的所有祖先类，而一个实例不应该属于它不属于的类的任何后代类[20].

已发表论文中的传统HMC方法主要关注FunCat分类法的这些挑战，因为它的结构很容易处理。目前，基因本体已经成为基因和蛋白质功能预测研究中最流行的功能分类方案[21]但由于GO的DAG结构更复杂，因此仅提出了少数HMC方法。在本文中，我们基于GO分类法处理这些问题。

针对基于GO的基因功能预测问题，提出了一种分层多标签分类算法。具体而言，我们做出了以下贡献。负面实例选择策略和合成少数群体过抽样技术（SMOTE）[22]引入了对不平衡训练数据集进行预处理的方法；在该算法中，考虑到支持向量机对二值分类的良好性能，选择支持向量机作为基本分类器；基于贝叶斯网络的两阶段方法用于组合所有二进制分类器的输出，以保证层次约束。所有这些技术共同导致最终基因功能预测结果的改进。通过与现有算法的比较，在八个基准数据集上进行了实验，以评估该算法的性能。实验结果表明，该算法比现有算法具有更好的性能。

本文的其余部分组织如下。第2节重新审视了分层多标签分类的定义，并展示了所提出的用于GO的HMC算法。下面给出了八个基准GO数据集的实验结果第3节进行了讨论，然后在最后一节中介绍了结论。

2.建议的算法

2.1. 符号和基本定义

让X（X）是一组n个基因实例，

{x个}_{我}

是任何基因实例米写入为的属性

{x个}_{我} = (一_{1}, 一_{2}, \dots, 一_{米}),

哪里

{x个}_{我} \in X（X）

(1 \leq 我 \leq n个)

.让C类是所有GO类的集合，

C类 = {{c（c）}_{1}, {c（c）}_{2}, \dots, {c（c）}_{| C类 |}}

GO层次结构是一个DAG，表示为

G公司 = < 五, E类 >

.

五 = {1, 2, \dots, | 五 |}

是顶点集，边集是E类，其中

e（电子） = (k个, 我) \in E类, k个, 我 \in 五

表示边缘。中的每个节点五代表一个类，所以

五 = C类

和班级

{c（c）}_{k个}

仅由节点表示k个如果没有歧义。每个节点代表一个基因功能和一个直接边缘

e（电子） = (k个, 我) \in E类

描述了以下层次关系k个是的父节点我。我们进一步表示节点的子节点集k个作为

c（c） 小时 我 我 d日 (k个)

，其父节点集为

对 一 第页 (k个)

，其祖先节点集为

一 n个 c（c） (k个)

，其子节点集为

d日 e（电子） 秒 c（c） (k个)

其兄弟姐妹集为

秒 我 b条 (k个)

.

给定一个实例

{x个}_{我} \in X（X）

，如果

{x个}_{我}

具有节点功能k个显示，节点上的实际标签k个为1，这也称为该实例

{x个}_{我}

属于节点k个如果没有歧义，则表示其节点k个缩写为1。二进制分类器的结果

{（f）}_{k个}

为班级准备

{c（c）}_{k个}

表示为

{d日}_{我 k个}^{*}

，其中

1 \leq k个 \leq | C类 |

，并用于预测

{x个}_{我}

位于节点k个.

{d日}_{我 k个}^{*}

表示实例的概率

{x个}_{我}

属于节点k个由这个分类器给出

{（f）}_{k个}

，也写为

{P（P）}_{我}^{*} (k个 = 1)

.

一套

| C类 |

二进制分类器提供多标签分数

{d日}_{我}^{*} = ({d日}_{我 1}^{*}, {d日}_{我 2}^{*}, \dots, {d日}_{我 | C类 |}^{*})

这称为初步结果。实例的初步预测标签

{x个}_{我} \in X（X）

所有类都表示为向量

年_{我}^{*} = (年_{我 1}^{*}, 年_{我 2}^{*}, \dots, 年_{我 | C类 |}^{*})

对于

1 \leq k个 \leq | C类 |

。通过选择阈值获得

θ

对于

{d日}_{我}^{*}

.如果

{d日}_{我 k个}^{*} \geq θ

，套

年_{我 k个}^{*} = 1

，代表

{x个}_{我}

属于类

{c（c）}_{k个}

; 否则，设置

年_{我 k个}^{*} = 0

对于

1 \leq k个 \leq | C类 |

。我们将此结果用于实例

{x个}_{我}

仅当且仅当

{d日}_{我 k个}^{*} \geq {d日}_{我 我}^{*}

，其中k个是的父类我.节点的最终预测分数k个写为

{d日}_{我 k个}

，这是后验概率

{P（P）}_{我} (k个 = 1)

如果我们得到一致的初步结果，那么

{d日}_{我} = {d日}_{我}^{*}

; 否则，我们需要使用其他方法来获得最终的一致分数

{d日}_{我}

类似地，最终预测向量

年_{我} = (年_{我 1}, 年_{我 2}, \dots, 年_{我 | C类 |})

可以通过选择阈值来获得

θ

对于

{d日}_{我}

.

2.2. 建议方法的主要步骤

该算法包含四个步骤。其主要流程如下所述。第一步是数据集准备步骤。在此步骤中，训练数据集被划分为

| C类 |

通过利用负面实例选择策略的子集，其中

| C类 |

表示GO中所有类的总数。第二步是数据集重新平衡步骤，其中应用过采样技术修改数据分布。然后，

| C类 |

在第三步中，使用这些训练子集训练二进制分类器（也称为基分类器或局部分类器）。最后一步是预测步骤。在预测阶段，测试集中的实例首先由

| C类 |

二值分类器；然后，通过sigmoid方法将这些结果转换为概率。最后，通过节点交互方法将这些概率预测结果进行组合，以确保层次约束。

2.3. 步骤1：培训数据集准备

选择合适的正反实例来构建训练集对分类器来说非常重要。为了探索层次结构，根据论文[23]，建议使用兄弟策略为每个类构建训练子集，其设计如下。对于类的训练数据集k个，属于的实例k个被选择为正实例，以及属于的兄弟姐妹的其他实例k个被选为负面实例。如果班级k个没有同级节点，则选择属于其父节点同级节点的实例[24].

2.4. 步骤2：数据集重新平衡

在HMC问题中，从层次结构的顶部到底部，随着类的特殊性增加，为更具体的类注释的实例数量减少，因此某些类的实例比其他类的实例多很多。随着层次结构级别的降低，属于该类的实例数量显著减少。大多数二进制分类器都需要从强倾斜的训练数据集中学习。这种情况被称为不平衡数据集，这导致难以对标准分类器进行准确预测，因为少数群体往往被多数群体压倒[25]. 在步骤1中，提出了一种负实例选择策略来缓解数据集不平衡问题。

即使使用兄弟策略为所有类构建训练子集，一些类的训练子集仍然存在高度不平衡。为了改变训练数据集的分布，使用重采样方法来增加一些正实例或一些负实例。

SMOTE提议于[22]是一种有效的重新采样方法。它沿着少数实例与其选定的最近邻实例之间的线生成新的合成实例。此方法的优点是它将决策域更改为更大、更不具体。SMOTE创建了合成少数群体实例，以对少数群体进行过采样。对于每个少数实例，首先计算出其在同一类中的最近邻居实例的一定数量（默认情况下通常设置为5）；然后，根据过采样率从中随机选取一些实例。在此步骤之后，将生成新的合成实例。

在GO层次结构中，较高级别的类可能具有更多的正实例，而非负实例，因此，负类是少数类。相反，对于下层阶级来说，消极的例子更多，积极的阶级是少数民族阶级。SMOTE用于过度简化每个训练子集的少数实例。然后，为二进制分类器提供一个平衡的数据集，以提高少数类的检测率。

2.5. 步骤3：基础分类器培训

在完成上述两个步骤后，我们为每个节点构建一个特定的数据集，并获得

| C类 |

不同的平衡数据集

| C类 |

全班上课。对于每个节点，使用该节点的训练数据集训练SVM。之所以选择SVM作为基本分类器，是因为它在最先进的分类器中表现最好，并且它能够很好地处理线性不可分割的分类问题[26].

支持向量机的结果应转换为节点交互方法所需的概率。由于标准SVM没有给出这种概率，因此通常使用sigmoid方法计算SVM的概率结果[27]. 它通过训练一个附加的sigmoid函数将SVM的输出更改为概率，如下所述：

对 秒 (年 = 1 | x个) = \frac{1}{1 + e（电子） x个 对 (A类 （f） (x个) + B类)},

（1）

哪里x个是一个实例，年表示的类标签x个,

（f） (x个)

是SVM的输出x个、和A类和B类是参数。计算这两个参数A类和B类，任何经过验证的子集

{n个}^{'}

训练数据集的实例可以应用于解决以下最大似然问题，其中

我 = 1, 2, \dots, {n个}^{'}

:

\underset{Z = (A类, B类)}{最小值} {- \sum_{我 = 1}^{我} ({t吨}_{我} 我 o个 克 (对 秒_{我}) + (1 - {t吨}_{我}) 我 o个 克 (1 - 对 秒_{我}))},

(2)

对 秒_{我} = \frac{1}{1 + e（电子） x个 对 (A类 （f） ({x个}_{我}) + B类)},

(3)

{t吨}_{我} = \{\begin{matrix} \frac{{N个}_{+} + 1}{{N个}_{+} + 2} 年_{我} = 1, \\ \frac{1}{{N个}_{-} + 2} 年_{我} = - 1 . \end{matrix}

(4)

2.6. 第四步：预测

在这一步中，需要预测的实例首先按

| C类 |

基于分类器，得到概率初步结果。由于基本分类器是单独训练的，这些初步结果通常违反TPR规则，因此我们需要一些方法来确保最终结果与层次约束一致。TPR规则也被描述为层次结构约束，它保证了GO中函数注释的一致性[28].

实际上，对于给定的实例

{x个}_{我}

，考虑节点k个,

{d日}_{我 k个}^{*}

是二进制分类器在此节点计算的初步结果，如果

年_{我 k个}^{*}

说明了这一点

{x个}_{我}

此节点具有标签0k个，但其子节点的一些初步结果

{d日}_{我 c（c） 小时 我 我 d日 (k个)}^{*}

为1；在本例中，给定实例的初步结果

{x个}_{我}

违反TPR规则。当这种情况发生时，我们需要使用一些方法来修改

{x个}_{我}

确保最终结果符合TPR规则。本文提出了一种基于贝叶斯网络的新方法来解决这个问题[29]称为节点交互方法。

节点交互方法是为了解决父节点和子节点的结果与层次结构不一致的问题而设计的。该方法的关键思想是，在确定最终预测标签时，应考虑类的层次结构。由于GO层次结构是DAG结构，因此节点的预测不仅取决于其基本分类器，还受其相邻节点（如父节点或子节点）的影响。

节点交互方法分为两个阶段：初步结果修正阶段和最终决策确定阶段。在初步结果校正阶段，对于每个实例，DAG都会从上到下遍历层次结构，以纠正违反TPR规则的预测。此步骤的主要目的是在为节点做出决策时考虑其父节点和子节点的影响。

由于每个节点的基本分类器提供了实例在此节点上应有标签的概率，因此可以将此初步结果视为此实例在此节点的先验概率。这些节点被组织为DAG，我们希望得到每个节点上实例的最终结果，即计算每个节点上该实例的后验概率。这种情况与贝叶斯网络非常相似[30]. 给定一个实例

{x个}_{我}

，其在节点处的初步结果k个是

{d日}_{我 k个}^{*}

、和

{d日}_{我 k个}^{*}

以及父节点的结果

{d日}_{我 对 一 第页 (k个)}^{*}

或在子节点上

{d日}_{我 c（c） 小时 我 我 d日 (k个)}^{*}

违反了真正的路径规则。在初步结果修正阶段，使用贝叶斯网络在节点处进行决策k个.

对于实例

{x个}_{我}

，考虑到节点k个，其父节点

对 一 第页 (k个)

和子节点

c（c） 小时 我 我 d日 (k个)

，DAG分为两部分：父节点部分和子节点部分。每个部分分别使用贝叶斯网络来计算后验概率

P（P） (k个 = 1)

。仅考虑特定节点的父节点时k个，后验概率

P（P） (k个 = 1)

表示为

{P（P）}_{对 一 第页} (k个)

，以及要获得的公式

{P（P）}_{对 一 第页} (k个)

是：

\{\begin{matrix} {P（P）}_{对 一 第页} (k个 = 1) = {P（P）}^{*} (k个 = 1) \prod_{j个 \in 对 一 第页 (我)} {P（P）}^{*} (j个 = 1), \\ {P（P）}_{对 一 第页} (k个 = 0) = 1 - {P（P）}_{对 一 第页} (k个 = 1) . \end{matrix}

(5)

类似地，当考虑特定节点的子节点时k个，公式

{P（P）}_{c（c） 小时 我 我 d日} (k个)

是：

\{\begin{matrix} {P（P）}_{c（c） 小时 我 我 d日} (k个 = 0) = {P（P）}^{*} (k个 = 0) \prod_{j个 \in 对 一 第页 (我)} {P（P）}^{*} (j个 = 0), \\ {P（P）}_{c（c） 小时 我 我 d日} (k个 = 1) = 1 - {P（P）}_{c（c） 小时 我 我 d日} (k个 = 0) . \end{matrix}

(6)

为了做出最终决定，我们比较了这两种可能性

{P（P）}_{对 一 第页} (k个 = 0)

和

{P（P）}_{c（c） 小时 我 我 d日} (k个 = 1)

，并选择较大的一个作为本阶段的决策。更准确地说，对于节点k个，让

{\hat{年}}_{k个} = 对 秒_{k个}

、和

{\tilde{年}}_{k个}

是…的结果x个在初步结果修正阶段进行计算。其推导如下：

{\tilde{年}}_{k个} = \{\begin{matrix} {P（P）}_{对 一 第页} (k个 = 1), & 我 （f） {P（P）}_{对 一 第页} (k个 = 0) \geq {P（P）}_{c（c） 小时 我 我 d日} (k个 = 1), \\ {P（P）}_{c（c） 小时 我 我 d日} (k个 = 1), & o个 t吨 小时 e（电子） 第页 周 我 秒 e（电子） . \end{matrix}

(7)

初步结果修正阶段的主要目标是在对节点进行决策时考虑其父节点和子节点的影响，但不能确保预测的层次一致性。引入最终决策确定阶段，通过向子节点递归传播负面决策，确保预测的层次一致性。它通过再次从DAG的顶部到底部访问所有节点来修改前一阶段计算的结果。如果

{\tilde{年}}_{k个}

是在第一阶段计算的预测，然后是最终的预测

{\bar{年}}_{k个}

为班级准备k个计算如下：

{\bar{年}}_{k个} = \{\begin{matrix} {\tilde{年}}_{k个}, & 我 （f） k个 我 秒 一 第页 o个 o个 t吨 n个 o个 d日 e（电子）, \\ \underset{j个 \in 对 一 第页 (k个)}{最小值} {\bar{年}}_{j个}, & 我 （f） {\tilde{年}}_{k个} > \underset{j个 \in 对 一 第页 (k个)}{最小值} {\bar{年}}_{j个}, \\ {\tilde{年}}_{k个}, & o个 t吨 小时 e（电子） 第页 周 我 秒 e（电子） . \end{matrix}

(8)

3.实验

3.1. 数据集和实验设置

从DTAI网站下载的功能基因组学领域的几个真实世界数据库参考了论文[13]被选中来评估所提算法[31]. 自酿酒酵母是面包酵母或啤酒酵母的一种，是研究得很好的模型生物之一，具有高通量数据，其任务是预测酵母的基因功能。在本文中，我们使用了八个数据集，这些数据集由DAG结构的GO注释。每个数据集描述了酵母基因组中基因的不同方面。例如，数据集8（seq）包含每个基因的序列统计数据，包括序列长度、分子量等。这些酵母数据集的详细描述可以从纸上获得[13].

实验数据集的特征，如每个数据集的实例数和属性数，总结如下表1.

如中所示[13]，每个数据集的三分之二用作训练数据集，其余三分之一用于测试。在每个训练集中，三分之二用于实际训练，其余三分之一用于优化参数。此外，由于某些数据集包含缺失的特征，该特征的非缺失值的平均值已成功替换该特征的缺失值[32].

我们从GO网站下载了GO文件[21]，包括不同GO术语之间的层次关系[33]. 酵母的基因本体注释（GOA）文件来自欧洲生物信息学研究所。注释为“过时”的GO术语从GO文件中排除。GOA文件经过处理，仅包含证据代码为EXP（从实验推断）、IDA（从直接分析推断）、IPI（从物理交互推断）、IMP（从突变表型推断）、IGI（从遗传交互推断），IEP（从表达模式推断）、TAS（可追溯作者声明）的注释或IC（由策展人推断）[34]. 在GO中的三个独立本体中，我们将重点放在生物过程方面进行本研究。

假设很少的类不能被可靠地归纳，则只考虑实例数超过100的节点。结果DAG的深度为11，每个实例的标签平均为32。在所有实验中，每个二值分类器SVM的阈值都设置为0.5。

3.2. 评估指标

由于HMC问题的层次性和多标签特性，我们使用两种度量来评估该算法。第一个度量类别是经典精度(

P（P） 第页 e（电子） c（c）

)，召回(

R（右） e（电子） c（c）

)、和

{F类}_{1}

[35]. 这些度量主要是为只有两个类的二进制分类任务设计的。我们不选择准确性(

A类 c（c） c（c）

)因为它不适合于不平衡数据集的问题，所以作为评价指标。精度表示正确标记的积极预测的比率，召回是准确预测为积极的积极实例的百分比。

{F类}_{1}

是一个综合权衡的参数

P（P） 第页 e（电子） c（c）

和

R（右） e（电子） c（c）

在单一配方中。这三个指标用于评估二进制基分类器：

P（P） 第页 e（电子） c（c） = \frac{T型 P（P）}{T型 P（P） + F类 P（P）},

(9)

R（右） e（电子） c（c） = \frac{T型 P（P）}{T型 P（P） + F类 N个},

(10)

{F类}_{1} = \frac{2 \times P（P） 第页 e（电子） c（c） \times R（右） e（电子） c（c）}{P（P） 第页 e（电子） c（c） + R（右） e（电子） c（c）},

(11)

哪里

T型 P（P）

是真阳性数（正确预测为阳性的阳性实例），

F类 P（P）

为假阳性数（错误预测为阳性的阴性预测），以及

F类 N个

是假阴性数（错误预测为阴性的阳性实例）。请注意，这些度量没有考虑正确预测的负面实例的数量。

如何评价分级分类算法的性能是一个悬而未决的问题。一些研究人员使用上述定义的经典指标作为评估指标，但如果不考虑层次分类法的结构，这些指标可能无法显示出关于哪种算法真正更好的足够信息[36]. 一些作者提出了自己的层次分类评价方法，但这些方法仅用于自己。针对树状结构问题，提出了h损失等评价指标，但不能处理DAG。尽管目前，对于所有可能的层次分类任务和应用程序，没有一种层次分类度量可以被视为最佳度量，但在[23]用于评估。它们是分级精确、分级召回和分级

{F类}_{1}

，表示为

小时 P（P） 第页 e（电子）

,

小时 R（右） e（电子） c（c）

和

小时 {F类}_{1}

这些指标被研究人员广泛使用。

层次精度、层次召回和层次

{F类}_{1}

对于我-第个示例

小时 P（P） 第页 {e（电子）}_{我}

,

小时 R（右） e（电子） {c（c）}_{我}

和

小时 {F类}_{1, 我}

定义为：

小时 P（P） 第页 {e（电子）}_{我} = \frac{| \hat{{P（P）}_{我}} ⋂ \hat{{T型}_{我}} |}{| \hat{{P（P）}_{我}} |},

(12)

小时 R（右） e（电子） {c（c）}_{我} = \frac{| \hat{{P（P）}_{我}} ⋂ \hat{{T型}_{我}} |}{| \hat{{T型}_{我}} |},

(13)

小时 {F类}_{1, 我} = \frac{2 \times 小时 P（P） 第页 {e（电子）}_{我} \times 小时 R（右） e（电子） {c（c）}_{我}}{小时 P（P） 第页 e（电子） + 小时 R（右） e（电子） c（c）},

(14)

其中，对于测试实例我,

\hat{{P（P）}_{我}}

是包含所有预测类及其祖先类的集合，以及

\hat{{T型}_{我}}

是包含其所有真类及其祖先类的集合。

这些度量是广泛使用的精确性、召回率和

{F类}_{1}

、和是专门为分层分类问题设计的。此外，它们可以有效地适应树和DAG结构。假设评估在数据集上测量的结果n个实例标记为米层次结构类，有两种方法可以组合所有实例的性能：微观平均版本和宏观平均版本[37].

在微平均版本中，通过对所有单个实例进行求和，计算出精确度和召回率，这些指标如下所示：

小时 P（P） 第页 {e（电子）}^{μ} = \frac{\sum_{我 = 1}^{n个} | \hat{{P（P）}_{我}} ⋂ \hat{{T型}_{我}} |}{\sum_{我 = 1}^{n个} | \hat{{P（P）}_{我}} |},

(15)

小时 R（右） e（电子） {c（c）}^{μ} = \frac{\sum_{我 = 1}^{n个} | \hat{{P（P）}_{我}} ⋂ \hat{{T型}_{我}} |}{\sum_{我 = 1}^{n个} | \hat{{T型}_{我}} |},

(16)

小时 {F类}_{1}^{μ} = \frac{2 \times 小时 P（P） 第页 {e（电子）}^{μ} \times 小时 R（右） e（电子） {c（c）}^{μ}}{小时 P（P） 第页 {e（电子）}^{μ} + 小时 R（右） e（电子） {c（c）}^{μ}} .

(17)

在宏观平均版本中，首先计算每个实例的精度和召回率，然后求平均值。指标写为：

小时 P（P） 第页 {e（电子）}^{M（M）} = \frac{\sum_{我 = 1}^{n个} 小时 P（P） 第页 {e（电子）}_{我}}{n个},

(18)

小时 R（右） e（电子） {c（c）}^{M（M）} = \frac{\sum_{我 = 1}^{n个} 小时 R（右） e（电子） {c（c）}_{我}}{n个},

（19）

小时 {F类}_{1}^{M（M）} = \frac{\sum_{我 = 1}^{n个} 小时 {F类}_{1, 我}}{n个} .

(20)

对于所有这些度量，应该注意的是，有一个共同的特征，度量值越高意味着分类器的性能越好。层次精度表示分类器预测实例最一般功能类的能力，而层次召回则表示预测器预测最具体功能类的功能。分层F-measure考虑了分层精度和分层召回来计算总值[38].

3.3. 实验结果与分析

3.3.1. 特定类别的实验

为了观察由负实例选择策略和SMOTE过采样方法组成的数据集再平衡方法的性能，我们对特定类进行了二进制实验。对比实验设计如下：在步骤1中，在为每个类建立训练数据集时，根据指定的类分配阳性实例，而阴性实例则是数据集中未标记为阳性的所有其他实例。与对比实验中一样，大多数训练数据集都是高度不平衡的，因此基本分类器SVM倾向于预测所有测试样本为负值，而这类结果没有任何意义。该部分使用D1数据集来显示差异，并使用SVM作为基本分类器。

P（P） 第页 e（电子） c（c）

,

R（右） e（电子） c（c）

和

{F类}_{1}

用于评估，部分实验结果如所示表2.“原件

{F类}_{1}

“表示比较数据集的结果，”

{F类}_{1}

“表示重新平衡数据集的结果，NaN表示结果不是数字。结果表明，与SMOTE方法相关联的否定实例选择策略提高了基本分类器的性能。

3.3.2. 八个数据集的实验

该算法是为了解决基于GO的基因功能预测任务中的HMC问题而设计的。为了展示该算法的性能，还需要与其他最先进的算法进行比较。由于DAG结构HMC问题的复杂性，其他人只提出了少数算法。TPR集成方法和CLUS-HMC方法是用于基因功能预测的两种典型的最新算法。TPR集成方法是属于局部方法的算法的表示。它的性能优于其他局部算法，如平面集成方法和层次自顶向下方法。作为全局算法的代表，CLUS-HMC方法优于HLCS Multi-算法、HLCS-DAG算法和HMC-LMLP算法。因此，选择这两种算法与提出的HMC算法进行比较。为了保持一致性，我们对测试的每个算法使用相同的数据集和相同的评估方案。下面列出了这两种方法的详细信息。

TPR集成方法：该方法将基本分类器的预测与来自较低级别分类器的积极结果以及由较高级别分类器给出的消极结果相集成[18]. TPR集成方法包含两个步骤。在自下而上的步骤中，正向预测移向父节点，并逐渐移向祖先节点。在自顶向下的步骤中，负面预测被传播到子节点和每个节点的后代节点，目的是确保最终结果的一致性，并提供更精确的预测[17].

集群-HMC[13]该方法属于全局方法，通过归纳一棵决策树同时预测所有类标签。该算法采用预测聚类树框架。通过根据级别修改标签的不同权重来考虑层次结构，也可以用该方法求解DAG。通过交叉验证选择水平参数，并设计加权欧氏距离进行方差约简。

我们计算了微观平均值和宏观平均值

小时 P（P） 第页 e（电子）

,

小时 R（右） e（电子） c（c）

和

小时 {F类}_{1}

评估所提算法的性能。在表3给出了这些算法在八个数据集上的微平均版本值。表4将不同算法与宏观平均版本值进行了比较。

在理想情况下，我们希望层次精度和层次召回都具有更高的值，以显示更好的性能。然而，准确度和召回率通常是反相关的。当一个增加导致另一个下降时，建议使用分层F度量来平衡这两个度量。本文使用层次F-测度来评估各个算法的性能，F-测度值最高的算法表现出最佳性能。表中还列出了精度和召回率的另外两个值，作为F测量的详细信息，以及对这些值感兴趣的人。根据这些表，我们可以得出结论，就所有八个数据集的微观平均和宏观平均度量而言，所提出的HMC算法的性能显著优于其他两个算法。

4.讨论

目前，我们提出了一种新的基于GO的基因功能预测算法。它属于局部方法，由许多部分组成。在当前的实验中，结果表明我们的算法在所有八个数据集上都具有更好的性能。在实验的第一部分，通过具体的分类结果展示了由负实例选择策略和SMOTE过采样方法组成的数据集再平衡方法的性能。在第二部分中，将该算法与其他最先进的算法进行了性能比较，以显示其良好的性能。可以发现，所有这些技术共同导致最终基因功能预测结果的改进。

5.结论

基因功能预测是层次多标签分类的一个重要应用领域。在这个问题中，一个实例被分配给一组类标签，类标签被构造为一个层次结构。本文提出了一种新的HMC算法，用于解决基于GO的基因功能预测问题，GO的层次结构是DAG。根据HMC问题的特点，设计了两种措施来考虑层次约束，并提高所提算法的性能。首先，为了提高基本分类器的性能，提出了一种与SMOTE方法相结合的负实例选择策略来处理不平衡的训练数据集。其次，提出了一种节点交互方法来集成基本分类器的结果。在GO标注的八个酵母数据集上的实验结果表明，该算法明显优于两种最先进的算法。由于其良好的性能，该算法有望成为基于基因本体的基因功能预测的一种实用而有吸引力的方法。

在未来的工作中，我们将在更多的数据集上进行此实验，不仅是酵母的数据集，还包括植物和人类等多细胞物种的数据集。对于一些数据集中具有许多特征的基因，也应该考虑适当的特征选择方法，并将其添加到这个框架中。此外，从计算方法方面，我们可以优化算法，以提高预测性能，并为指导生物验证实验做出贡献。例如，通过更改基本分类器，或尝试对不同节点使用不同的分类器，可以实现更好的预测。此外，在使用节点交互方法进行决策时，更多的节点可以参与此过程。我们将在今后的工作中考虑上述所有观点。

致谢

这项工作得到了中央高校基本科研基金（批准号：HIT NSRIF.20169）、黑龙江省博士后基金（批准号：LBH-Z16081）和教育部在线教育研究中心在线教育研究基金（全通教育）（批准号：2016YB132）的部分支持。

作者贡献

这三位作者都对这项研究做出了重要贡献。寿峰和郑文斌构思了这些想法，设计了算法并进行了实验。寿峰和平复对结果进行了分析。寿丰起草了初稿，平复和郑文斌修订了最终稿。

利益冲突

作者声明没有利益冲突。

缩写

本手稿中使用了以下缩写：

HMC公司	分层多标签分类
DAG公司	有向非循环图
TPR公司	真路径规则
GO（开始）	基因本体论
支持向量机	支持向量机
SMOTE公司	合成少数过采样技术

参考文献

Madjarov，G。；迪米特洛夫斯基，I。；Gjorgjevikj，D。；季洛斯基，S。多标签分类中不同数据衍生标签层次的评价; 施普林格：瑞士查姆，2014年；第19-37页。[谷歌学者]
塞里·R。；巴帕，G.L。；卡瓦略，A.C.P.L.F。；Freitas，A.A.基于决策树的层次化多标签分类方法和性能度量的广泛评估。计算。智力。 2013,31, 1–46. [谷歌学者] [交叉参考] [绿色版本]
洛芒，L.M。；Nievola，J.C.分层多标签分类问题：LCS方法。第十二届分布式计算和人工智能国际会议论文集，西班牙萨拉曼卡，2015年6月3日至5日；施普林格：瑞士查姆，2015年；第97-104页。[谷歌学者]
Blockeel，H。；Schietgat，L。；斯特鲁伊夫，J。；季洛斯基，S。；Clare，A.分层多标签分类的决策树：功能基因组学的一个案例研究。2006年9月18日至22日在德国柏林举行的第十届欧洲数据库知识发现原则和实践会议记录；施普林格：德国柏林/海德堡，2006年；第18-29页。[谷歌学者]
Bi，W。；Kwok，J.T.Bayes-最优分层多标签分类。IEEE传输。知识。数据工程。 2015,27，2907–2918。[谷歌学者] [交叉参考]
Merschmann，L.H.D.C。；弗雷塔斯，A.A。一种用于蛋白质和基因功能预测的扩展局部层次分类器; 施普林格：德国柏林/海德堡，2013年；第159-171页。[谷歌学者]
阿什伯恩，M。；球，C.A。；布雷克，J.A。；博茨坦，D。；巴特勒，H。；Cherry，J。；A.戴维斯。；Dolinski，K。；德怀特，S。；Eppig，J。；基因本体论：生物学统一的工具。基因本体联盟。自然遗传学。 2015,25, 25–29. [谷歌学者] [交叉参考] [公共医学]
阿尔维斯，R.T。；德尔加多，M.R。；弗雷塔斯，A.A。人工免疫系统对蛋白质功能的多标记层次分类; 施普林格：德国柏林/海德堡，2008年；第1-12页。[谷歌学者]
桑托斯，A。；Canuto，A.在分层多标签分类中应用半监督学习。2014年7月6日至11日，中国北京，2014年国际神经网络联合会议（IJCNN）会议记录；第872-879页。[谷歌学者]
塞里·R。；巴罗斯，R.C。；de Carvalho，A.蛋白质功能预测的分层多标签分类：基于神经网络的局部方法。2011年11月22日至24日在西班牙科尔多瓦举行的第十一届智能系统设计与应用国际会议（ISDA）会议记录；第337-343页。[谷歌学者]
拉米雷斯·科罗纳，M。；Sucar，L.E。；E.F.莫拉莱斯。树和有向非循环图层次的多标签分类; 施普林格：瑞士查姆，2014年；第409-425页。[谷歌学者]
阿尔维斯，R.T。；德尔加多，M.R。；Freitas，A.A.使用人工免疫系统进行知识发现，用于蛋白质功能的分层多标签分类。2010年7月18-23日，在西班牙巴塞罗那举行的2010年IEEE模糊系统国际会议（FUZZ）论文集；第1-8页。[谷歌学者]
文斯，C。；斯特鲁伊夫，J。；Schietgat，L.公司。；季洛斯基，S。；Blockeel，H.分层多标签分类的决策树。机器。学习。 2008,73, 185–214. [谷歌学者] [交叉参考]
博尔赫斯，H.B。；Nievola，J.C.使用竞争神经网络进行蛋白质功能预测的多标签层次分类。2012年6月10日至15日在澳大利亚布里斯班举行的国际神经网络联合会议记录；第1-8页。[谷歌学者]
陈，B。；段，L。；Hu，J.基于复合核的SVM用于分层多标签基因功能分类。2012年6月10日至15日在澳大利亚布里斯班举行的国际神经网络联合会议记录；第1-6页。[谷歌学者]
Barutcuoglu，Z。；夏皮雷，R。；Troyanskaya，O.基因功能的层次多标记预测。生物信息学 2006,22, 830–836. [谷歌学者] [交叉参考] [公共医学]
Valentini，G.《全基因组基因功能预测的真路径规则层次集成》。IEEE/ACM传输。计算。生物信息。 2011,8, 832–847. [谷歌学者] [交叉参考] [公共医学]
罗宾逊，P.N。；Frasca，M。；科勒，S。；诺塔罗，M。；关于M。；Valentini，G.DAG结构分类的层次集成方法。在计算机科学课堂讲稿; 施普林格：瑞士查姆，2015年；第9132卷，第15-26页。[谷歌学者]
Otero，F.E.B。；Freitas，A.A。；Johnson，C.G.一种用于蛋白质功能预测的分层多标签分类蚁群算法。梅梅特。计算。 2010,2, 165–181. [谷歌学者] [交叉参考] [绿色版本]
Stojanova，D。；塞西，M。；Malerba，D。；Dzeroski，S.在分层多标签分类树中使用PPI网络自相关进行基因功能预测。BMC生物信息。 2013,14, 3955–3957. [谷歌学者] [交叉参考] [公共医学]
Parikesit，A.A。；施泰纳，L。；斯塔德勒，P.F。；Prohaska，S.J.《基因组注释中确定偏差的陷阱——计算真核生物中可比较的蛋白质结构域分布》。马来人。J.芬丹。申请。科学。 2014,10，64–73。[谷歌学者] [交叉参考]
新墨西哥州查拉。；K.W.鲍耶。；洛杉矶霍尔。；Kegelmeyer，W.P.SMOTE：合成少数人过采样技术。J.阿蒂夫。智力。研究。 2011,16, 321–357. [谷歌学者]
西拉，C.N。；Freitas，A.A.跨不同应用领域的层次分类调查。在数据挖掘与知识发现; 施普林格：美国纽约州纽约市，2011年；第22卷，第31-72页。[谷歌学者]
拉米雷斯·科罗纳，M。；Sucar，L.E。；Morales，E.F.基于路径评估的分层多标签分类。国际期刊近似原因。 2016,68, 179–193. [谷歌学者] [交叉参考]
丹达姆隆格维特，S。；瓦提库尔，P。；Kubat，M.多标签文本分类领域中的无关属性和不平衡类。智力。数据分析。 2011,15, 843–859. [谷歌学者]
Sun，A。；林，E.P。；Liu，Y.关于使用SVM进行不平衡文本分类的策略：一项比较研究。Decis公司。支持系统。 2009,48, 191–201. [谷歌学者] [交叉参考]
Lin，H.T。；Lin，C.J。；翁，R.C.关于支持向量机的普拉特概率输出的注释。机器。学习。 2007,68, 267–276. [谷歌学者] [交叉参考]
Valentini，G.蛋白质功能预测的层次集成方法。内部附表。Res.不。 2014,2014, 1–34. [谷歌学者] [交叉参考] [公共医学]
特罗扬斯卡娅，O.G。；Dolinski，K。；欧文，A.B。；奥特曼，R.B。；Botstein，D.组合异质数据源进行基因功能预测的贝叶斯框架（酿酒酵母）。程序。国家。阿卡德。科学。美国 2003,100, 8348–8353. [谷歌学者] [交叉参考] [公共医学]
李，H。；刘，C。；比尔格（Bürge，L.）。；Ko，K.D。；Southerland，W.使用完整贝叶斯网络预测蛋白质相互作用。《IEEE生物信息学和生物医学研讨会国际会议论文集》，美国宾夕法尼亚州费城，2012年10月4-7日；第544-550页。[谷歌学者]
克莱尔，A。；King，R.D.预测酿酒酵母中的基因功能。生物信息学 2003,19（补充S2），ii42–ii49。[谷歌学者] [交叉参考] [公共医学]
Bi，W。；Kwok，J.T.树和DAG结构层次的多标签分类。2011年6月28日至7月2日在美国华盛顿州贝尔维尤举行的第28届国际机器学习会议记录；第17-24页。[谷歌学者]
梁熙，C。；洪飞，L。；云翠，H。；简·W。；Zhihao，Y.基于基因本体层次结构的基因功能预测。公共科学图书馆 2013,9, 896–906. [谷歌学者]
Radivojac，P。；W.T.克拉克。；奥隆，T.R。；Schnoes，A.M。；Wittkop，T。；Sokolov，A。；格雷姆，K。；Funk，C。；Verspoor，K。；Ben-Hur，A.计算蛋白质功能预测的大规模评估。自然方法 2013,10, 221–227. [谷歌学者] [交叉参考] [公共医学]
Aleksovski，D。；科切夫，D。；Dzeroski，S.功能基因组学中分层多标签分类的距离度量评估。2009年9月7日在斯洛文尼亚布莱德举行的第一届学习多标签数据研讨会会议记录；第5-16页。[谷歌学者]
陈，Y。；李，Z。；胡，X。；Liu，J.用动态阈值SVM集成进行基因功能预测的层次分类。第六届高级数据挖掘与应用国际会议论文集，中国重庆，2010年11月19-21日；第336-347页。[谷歌学者]
Vateekul，P。；Kubat，M。；Sarinnapakorn，K.用SVM进行分层多标签分类：基因功能预测的一个案例研究。智力。数据分析。 2014,18, 717–738. [谷歌学者]
阿拉迪，北。；Reddy，C.K。；Fotouhi，F.利用标签依赖性进行分层多标签分类。2012年5月29日至6月1日在马来西亚吉隆坡举行的第十六届亚太知识发现和数据挖掘进展会议记录；第294-305页。[谷歌学者]

图1。基因本体分类法的一部分。

表1。实验数据集的特征。

数据集	属性	培训实例	测试实例
D1细胞周期	77	2290	1202
D2艾森	79	2252	1182
D3德里西	63	1537	817
D4气体1	173	2294	1205
D5垫片2	52	1301	1212
D6教堂	27	2289	1202
D7 spo公司	80	2354	1183
D8序列	478	2321	1225

表2。特定班级的实验结果。

GO标识	原件 $预处理$	原件 $可采收水平$	原件 ${F类}_{1}$	改进 $预处理$	改进 $可采收水平$	改进 ${F类}_{1}$
去：0065007	NaN公司	0	NaN公司	0.408	0.454	0.430
GO:0016043编号	NaN公司	0	NaN公司	0.486	0.539	0.511
电话：0044710	0.577	0.121	0.206	0.478	0.433	0.455
去：0006996	NaN公司	0	NaN公司	0.358	0.775	0.490
GO:0044249号	0.552	0.181	0.272	0.440	0.630	0.518
GO:0046483号	NaN公司	0	NaN公司	0.437	0.699	0.538
GO:1901360号	0.750	0.013	0.025	0.448	0.734	0.557
GO:1901564号	0.591	0.050	0.092	0.373	0.431	0.400
去：0009059	0.472	0.045	0.082	0.384	0.451	0.415
GO:0019538号	0.520	0.040	0.073	0.352	0.489	0.410
GO:0044271号	0.500	0.011	0.021	0.344	0.603	0.438
去：0034645	0.472	0.045	0.082	0.364	0.596	0.452

表3。八个数据集实验结果的微观平均版本。

表3。八个数据集上实验结果的微观平均版本。

数据集	方法	${h预处理}^{μ}$	${hRec公司}^{μ}$	${高频}_{1}^{μ}$
第1页	TPR公司	0.348	0.518	0.416
第1页	集群-HMC	0.449	0.306	0.364
第1页	提出	0.333	0.627	0.435
D2类	TPR公司	0.360	0.397	0.377
D2类	集群-HMC	0.402	0.335	0.365
D2类	提出	0.331	0.533	0.408
第3天	TPR公司	0.434	0.515	0.471
第3天	集群-HMC	0.476	0.387	0.427
第3天	提出	0.396	0.663	0.496
第4章	TPR公司	0.385	0.477	0.426
第4章	集群-HMC	0.453	0.355	0.398
第4章	提出	0.358	0.585	0.444
D5型	TPR公司	0.359	0.519	0.425
D5型	集群-HMC	0.442	0.322	0.373
D5型	提出	0.333	0.623	0.434
第6天	TPR公司	0.331	0.483	0.393
第6天	集群-HMC	0.487	0.270	0.348
第6天	提出	0.314	0.606	0.413
D7日	TPR公司	0.366	0.423	0.393
D7日	集群-HMC	0.418	0.331	0.369
D7日	提出	0.339	0.541	0.417
D8日	TPR公司	0.388	0.509	0.441
D8日	集群-HMC	0.444	0.390	0.415
D8日	提出	0.372	0.577	0.454

表4。八个数据集上实验结果的宏观平均版本。

数据集	方法	${h预处理}^{M（M）}$	${hRec公司}^{M（M）}$	${高频}_{1}^{M（M）}$
第1页	TPR公司	0.366	0.548	0.380
第1页	集群-HMC	0.514	0.362	0.352
第1页	提出	0.347	0.633	0.405
D2类	TPR公司	0.385	0.441	0.346
D2类	集群-HMC	0.468	0.392	0.347
D2类	提出	0.347	0.598	0.385
第3天	TPR公司	0.445	0.544	0.432
第3天	集群-HMC	0.525	0.423	0.396
第3天	提出	0.419	0.643	0.457
第4章	TPR公司	0.406	0.514	0.389
第4章	集群-HMC	0.518	0.408	0.379
第4章	提出	0.368	0.625	0.413
D5型	TPR公司	0.370	0.544	0.381
D5型	集群-HMC	0.505	0.379	0.360
D5型	提出	0.344	0.665	0.403
第6天	TPR公司	0.360	0.521	0.365
第6天	集群-HMC	0.554	0.335	0.350
第6天	提出	0.324	0.674	0.390
D7日	TPR公司	0.373	0.491	0.371
D7日	集群-HMC	0.481	0.379	0.344
D7日	提出	0.344	0.629	0.397
D8日	TPR公司	0.393	0.536	0.400
D8日	集群-HMC	0.501	0.438	0.395
D8日	提出	0.371	0.626	0.418

分享和引用

MDPI和ACS样式

Feng，S。；傅，P。；郑伟（Zheng，W.）。一种用于基因功能预测的分层多标签分类算法。算法 2017,10, 138.https://doi.org/10.3390/a10040138

AMA风格

冯S，傅平，郑伟。一种用于基因功能预测的分层多标签分类算法。算法. 2017; 10(4):138.https://doi.org/10.3390/a10040138

芝加哥/图拉宾风格

冯、寿、平复和郑文斌。2017.“用于基因功能预测的分层多标签分类算法”算法10，编号4:138。https://doi.org/10.3390/a10040138

请注意，从2016年第一期开始，该杂志使用文章编号而不是页码。请参阅更多详细信息在这里.

文章菜单