A new pairwise kernel for biological network inference with support vector machines

Vert, Jean-Philippe; Qiu, Jian; Noble, William S

doi:10.1186/1471-2105-8-S10-S8

第8卷增补10

计算生物学新问题和新方法神经信息处理系统（NIPS）研讨会

诉讼
开放式访问
出版：2007年12月21日

一种新的基于支持向量机的生物网络成对核推理方法

BMC生物信息学 体积 8，物品编号：第8节(2007)引用这篇文章

7327访问
62引文
韵律学细节

摘要

背景

生物信息学最近的许多工作都集中在各种类型的生物网络的推断上，这些网络表示基因调控、代谢过程、蛋白质相互作用等。一种常见的设置包括从一组可能具有多重特征的高置信度边以有监督的方式推断网络边，异质数据集（蛋白质序列、基因表达等）。

结果

在这里，我们区分了这种情况下的两种推理模式：基于边连接的节点之间的相似性的直接推理，以及基于一对节点和另一对节点之间相似性的间接推理。通过将直接情况转化为距离度量学习问题，我们提出了一种有监督的方法。由此产生的凸优化问题的松弛导致了具有特定对核的支持向量机（SVM）算法，我们称之为度量学习成对核这种新的成对核可以很容易地被大多数SVM实现用于解决监督分类和从异构数据推断成对关系的问题。我们使用几个真实的生物网络和基因组数据集证明，这种方法通常改进了最先进的SVM，以便使用另一个成对核进行间接推断，并且两个核的组合总是会改进每个单独的核。

结论

度量学习成对核是一种利用SVM推断成对关系的新公式，它为从异质基因组数据推断多个生物网络提供了最先进的结果。

背景

分子和系统生物学越来越关注描述各种类型的亚细胞网络。这些包括蛋白质相互作用网络、代谢网络、基因调控和信号通路以及遗传相互作用网络。虽然其中一些网络可以通过高通量实验方法进行部分破译，但完全构建任何此类网络都需要漫长的生化验证。因此，从其他可用数据（如蛋白质序列、全球网络拓扑结构或基因表达谱）中自动预测边缘对于加快重要通路的阐明或补充受高噪声影响的高通量方法具有重要意义[1].

网络中的边可以通过至少两种互补的方式从相关数据推断出来。具体来说，考虑一个由一些嘈杂的高通量技术衍生的蛋白质相互作用网络。我们对特定边缘正确性的信心A类-B类例如，如果我们观察到这两种蛋白质A类和B类定位于相同的细胞隔室或共享相似的进化模式[2–4]. 通常，在这种类型的直接推断，如果两个基因或蛋白质具有某种直接相似性，则预测它们会相互作用彼此之间在可用数据中。

另一种推理方式，我们称之为间接推理依赖于成对基因或蛋白质之间的相似性。在上面的例子中，我们对A类-B类如果我们找到其他高置信度优势C类-D类这样，这对{A类，B类}相似{C类，D类}以某种有意义的方式。注意，在这个模型中，两个连接的蛋白质A类和B类可能彼此不相似。例如，如果目标是通过使用时间序列表达数据来检测调节网络中的边缘，则可以预期与调节蛋白的时间序列相比，调节蛋白的时间序列在时间上延迟。因此，在这种情况下，学习阶段将涉及从其他调控/调节蛋白对学习这一特征。在蛋白质相互作用的情况下，间接推断方法最常见的应用是比较A类和B类与C类和D类（例如[5–8]).

间接推理相当于将机器学习范式直接应用于边推理问题：每条边都是一个示例，任务是学习区分“真”和“假”边。因此，不足为奇的是，一些机器学习算法被应用于根据蛋白质对的属性预测网络边缘。例如，在使用支持向量机（SVM）和核方法进行机器学习的背景下，Ben-Hur和Noble[8]描述如何将单个蛋白质的嵌入映射到成对蛋白质的嵌入上。当一对蛋白质中的每一个与另一对对应的蛋白质相似时，映射将两对蛋白质定义为彼此相似。实际上，映射是通过将初始特征空间张量化得到的单个蛋白质的核函数导出蛋白质对的核函数来定义的。因此，我们将此成对内核称为张量积成对核（TPPK，见方法部分）。

在直接推理范式中，机器学习方法的使用较少受到关注。山西的作品是两个例外等. [9]和垂直等. [10]，他们通过从交互和非交互对的示例中学习，导出了监督机器学习算法来优化作为直接方法基础的相似性度量。山西等采用核典型相关分析将蛋白质嵌入到特征空间中，在特征空间中距离与蛋白质对之间是否存在相互作用相关。垂直等.强调此方法与距离度量学习问题的相似性[11]，同时为此提出了一种算法。

然而，这两种直接推理方法都有两个重要的缺点。首先，它们基于与嵌入目标略有不同的代理函数的优化，即找到一个距离度量，使交互/非交互对高于/低于某个阈值。第二，方法[9]和[10]仅当用于训练的网络的已知部分是网络中一个子集蛋白质的所有边集时才适用。换句话说，为了应用这些方法，我们必须为一组蛋白质拥有一组完整的高置信边，我们可以从中推断网络其余部分的边，假设在训练集中的蛋白质中确实没有观察到的边。这种设置通常是不现实的。在实践中，我们的训练数据通常由分布在整个目标网络中的已知正负边组成。例如，在蛋白质相互作用的情况下，人们通常从实验分析中得出相互作用的积极示例，而阴性示例可以在非相互作用对中随机取样，或由已知存在于不同细胞定位中或在不同条件下表达的蛋白质对生成；方法[9]和[10]无法在此设置中使用。

本文提出了直接推理范式中监督学习的凸公式，它克服了上述两个限制。这个公式来源于距离度量学习问题的一个特殊公式[10，11]. 我们表明，该公式的略微放宽与监督方法具有惊人的相似性[8]从这个意义上说，它相当于在单个蛋白质之间的内核中的一对蛋白质之间定义一个内核。因此，我们将我们的方法称为度量学习成对核（MLPK）。作为SVM，这种公式的一个重要特性是可以通过组合核同时学习多种数据类型，这在各种生物信息学应用中尤为重要[12，13].

几位作者提出了与我们的方法相关的带有核的距离度量学习算法。曾和郭[14]提出了问题的二次规划（QP）公式，而温伯格等. [15]在距离度量学习的背景下，提出了一个半定规划公式k个-最近邻分类器。然而，在这两种情况下，都必须实现特定的算法。相反，我们提出的公式基于众所周知的SVM算法。因此，任何SVM实践者都可以很容易地将其用于大多数公开的SVM实现，代价是使用特定的内核。我们的SVM公式的第二个优点是，通过形成不同核的线性组合，它可以很容易地与其他SVM公式相结合，例如TPPK方法。

我们在重建两个酵母网络的任务中验证了MLPK方法：代谢途径网络和共复合网络。在每种情况下，该网络都是根据各种基因组和蛋白质组数据推断出来的，包括蛋白质氨基酸序列、大组实验中的基因表达水平，蛋白质亚细胞定位。我们表明，MLPK方法几乎总是比最先进的TPPK方法提供更好的预测性能，并且MLPK和TPPK的组合几乎总是会产生最佳结果。

结果和讨论

在本节中，我们将比较前面描述的TPPK核和新的MLPK核，以重建两个生物网络：代谢网络和共复合蛋白网络。对于每个网络，我们将网络重建问题视为一个二进制分类问题，其中边缘的存在或不存在必须从与问题相关的各种类型的数据中推断。由于与可能对的总数相比，网络包含的边相对较少，因此我们创建了一个平衡的数据集，方法是将所有已知边保留为正例，并将等量的缺失边随机采样为负例。通过评估支持向量机在不同随机折叠重复三次（3×5 cv）的五重交叉验证实验中用于边缘预测的性能，我们比较了TPPK和MLPK核在这种情况下的效用。在每个折叠处，正则化参数C类在间隔[10上的18个值中选择一个支持向量机^-4，50]通过最小化仅在训练集中通过五倍交叉验证估计的分类错误。我们还评估了通过对TPPK和MLPK内核求和获得的成对内核的性能，我们称之为MLPK（MLPK）+网址：http如下所示。MLPK+TPPK内核是组合MLPK和TTPK内核中包含的信息的简单方法。我们还测试了两种方法来集成各种基因组和蛋白质组数据以进行边缘预测。首先，我们通过将各种数据定义的所有核相加，在基因上构建一个集成核，并从该集成核推导出TPPK、MLPK或MLPK+TTPK成对核。这是一种简单的数据集成方法，在以前的工作中已经证明是有用的[12，16]. 或者，我们考虑从每个单独的基因组数据推导出的成对核，并将它们加在一起形成一个完整的成对内核。

作为直接推断的基线方法，对于基因之间的每个核，我们还评估了一种直接方法的性能，该方法通过增加所涉及的两个基因之间的距离来对候选边缘进行排序，其中两个基因间的距离通过以下等式从核值导出：

{d日}_{K（K）} (x个 ， 年) = \sqrt{K（K） (x个 ， x个) + K（K） (年 ， 年) - 2 K（K） (x个 ， 年)} .

代谢网络

活生物体中的大多数生化反应都是由称为酶的特定蛋白质催化的，并依次发生以形成代谢途径。例如，葡萄糖降解为丙酮酸（称为糖酵解）涉及十种酶催化的十个化学反应序列。代谢基因网络被定义为一个无向图，以酶为顶点，边连接可以催化连续化学反应的酶对。重建各种生物体的代谢途径至关重要，例如，寻找合成感兴趣化合物的新方法。这个问题激发了早期关于监督图推理的工作[9，10]. 专注于萌芽酵母酿酒酵母，我们收集了用于[9]. 该网络从KEGG数据库中提取，包含769个顶点和3702条无向边。

为了推断网络，可以使用关于蛋白质的各种独立数据。在这个实验中，我们使用了由[9]（1）从DNA微阵列获得的157个基因表达测量值；（2）基因的系统发育谱，表示为145-bit载体，表示145个全序列基因组中每个基因的存在或缺失；（3）实验测定蛋白质在细胞中的定位[17]，表示为对应23个细胞隔室的23位载体，以及（4）酵母双杂交蛋白-蛋白质相互作用数据[1]，表示为网络。对于前三个数据集，使用高斯RBF核将数据表示为核矩阵。对于酵母双杂交网络，我们使用扩散核[18]. 所有数据都是从下载的http://web.kuicr.kyoto-u.ac.jp/~yoshi/ismb04

表1显示了每个成对内核的性能，以及针对不同数据集的基线直接方法的性能。MLPK永远不会比TPPK内核差，而且这两种方法总是比用于边缘推断的基线直接方法好得多。这两个核在和核上的性能相似；MLPK在表达、定位和系统发育谱核上略好于TPPK，在酵母双杂交数据集上要好得多（准确率分别为76.6%和59.2%）。最后，我们观察到，集成内核MLPK+TPPK至少与MLPK或单独TPPK的最佳性能一样好，从而证实了MLPK和TTPK是互补的。

表1酵母代谢网络重建的性能。

全尺寸桌子

有趣的是，我们注意到，尽管连接对，即在路径中连续作用的酶对，预期具有相似的表达、系统发育谱和定位（解释了MLPK在这些数据集上的良好性能），但TPPK实施的间接方法也为这些数据提供了良好的结果。这一结果意味着，对于这些数据，训练集中的交互对通常不仅彼此相似，而且与训练集中的其他交互对相似。这一观察并不奇怪，因为，例如，如果测试集中的两个蛋白质共同定位在特定的细胞器中，那么很可能在训练集中也存在共同定位在同一细胞器中的相互作用的蛋白质对。

另一方面，在酵母双杂交数据的情况下，单个蛋白质之间的核被定义为酵母双杂交图上的扩散核。可以推测，在这种情况下，MLPK可以很容易地评估对之间的相似性，并使用它们来预测边，但TPPK核定义的对之间的类似性不太可能被观察到。从某种意义上说，扩散核的特征空间的维数远大于其他核所定义的维数，并且在酵母双杂交图中，蛋白质只与它的邻居接近。

关于异构数据集的集成，由单个核之和导出的成对核的性能略好于由单个核导出的成双核之和，后者的性能始终好于由各个核导出的最佳成对核。这证实了简单添加内核是从异质数据中学习的一种简单而有效的方法，并表明在成对内核的情况下，最好先在单个基因的水平上集成异质数据，然后再将该集成内核转换为成对内核。

蛋白质复合物网络

许多蛋白质通过在称为复合物的多蛋白质结构中共同作用来实现其生物功能。因此，了解蛋白质功能需要鉴定这些复合物。在复合网络中，节点是蛋白质，是蛋白质之间的边缘A类和B类存在，如果A类和B类是同一蛋白质复合物的成员。一些高通量的实验方法，例如串联亲和纯化和质谱分析，明确地确定了这些共存的复杂关系，尽管是以一种嘈杂的方式。此外，还存在从单个数据类型或同时从多个数据类型推断共同复杂网络的计算方法[19，20]. 我们基于手动管理的MIPS复杂目录的交集导出了共复杂数据集[21]和BIND复杂数据集[22]. 共复合物网络包含3280条边，连接797个蛋白质。此外，我们的数据集包含3081个没有复杂关系的蛋白质。

在这个评估中，我们再次使用了四个不同的数据集，我们认为这些数据集与共复网络相关[17]. 第二种是基于芯片的染色质免疫沉淀分析（所谓的“chip-chip”数据）[23]. 该实验证明转录因子与特定基因的上游区域结合，并可能调节特定基因的表达。我们的数据集包含113个转录因子的数据，因此为每个蛋白质生成长度为113的载体。最后两组数据来自酵母蛋白质的氨基酸序列。首先，我们将每个酵母蛋白与蛋白域HMM的Pfam数据库（Pfam.wustl.edu）中的每个模型进行比较，并记录匹配的E值。这种比较为每个蛋白质产生了长度为8183的载体。最后，以类似的方式，我们使用PSI-BLAST将每个酵母蛋白质与Swiss-Prot数据库版本40（ca.expasy.org/sprot）中的每个蛋白质进行了比较[24]，产生长度为101602的向量。四个数据集中的每一个都使用标量积内核表示。

我们使用相同的实验程序比较了使用MLPK、TPPK及其组合MLPK+TPPK的共复网络边缘预测器的质量。结果如表所示2，再次显示MLPK方法的值。无论是使用性能指标（精度还是ROC区域），MLPK方法在四分之三的数据集上的性能都优于TPPK方法。这两种方法在所有数据集上都大大优于直接方法。

表2酵母共复合物网络的重建性能。

全尺寸桌子

最引人注目的是ChIP-ChIP数据集的改进（准确性从63.8%提高到82.2%）。这一结果是意料之中的，因为我们知道同一复合物中的蛋白质必须协同作用。因此，它们通常由一组常见的转录因子调节。

相反，MLPK方法在本地化数据集上的性能并不比TPPK好。这首先是令人惊讶的，因为两种蛋白质必须共同定位才能参与一个共同的复合物。因此，该问题是MLPK设计的直接推理示例。然而，定位数据有些复杂，因为（1）只有大约70%的酵母蛋白被分配任何定位，以及（2）许多蛋白被分配到多个位置。因此，在训练集中的3280条阳性边缘中，只有1852条（56%）的蛋白质对具有完全相同的定位。此外，在训练中使用的3280条负边中，550条（16.8%）将具有相同定位的蛋白质连接起来，主要是“未知”。这些因素使得使用该数据集进行直接推断变得困难。相比之下，间接方法显然能够识别与特定定位相对应的有用关系，这些关系在相对于负对的正对之间得到了丰富。

MLPK+TPPK组合方法的良好性能进一步证明了MLPK和TPPK捕获互补信息的事实，该方法在所有数据集上始终优于TPPK和MLPK单独使用。最后，通过核求和实现异构数据集成的相关性再次通过在这种情况下获得的优秀结果得到了证明，与基因的集成核相比，成对核的构建稍有优势。在集成内核上组合MLPK+TPPK可获得最佳性能。

结论

我们证明了用于图推理的度量距离学习的特定公式可以表示为凸优化问题，并且可以应用于任何具有正定核的数据集。这个问题的放松导致SVM算法在对之间使用新的MLPK核（5）。在两个生物网络上的实验证实了这种方法对于从异质基因组和蛋白质组数据重建生物网络的价值。

MLPK核是从距离度量学习的新公式推导而来的。与其他配方相反[14，15]得到的算法是一个具有特定核的经典SVM。因此，该公式可以受益于SVM在计算生物学界的普及，再加上SVM的许多公共实现的可用性，以解决基因或蛋白质网络推理的各种问题，或更普遍的成对关系推理。

然而，为了提高计算效率，这个公式是以放松正定约束为代价获得的。虽然实验结果验证了实用基因网络推理的方法，但松弛公式不能再被视为距离度量学习算法，因为最终的度量矩阵可能具有负特征值。我们方法的动机（将图形推理表述为距离度量学习）与最终算法之间的这种差异可能会使所得结果的解释复杂化，并将在未来进行进一步的研究。

除了介绍中提到的直接和间接的图推理方法外，还有许多其他的网络推理方法，例如用贝叶斯网络估计顶点之间的条件独立性[25]. 基于监督学习的方法（如带有TPPK和MLPK核的SVM）的一个有趣特性是对边缘性质的有限假设；所做的唯一假设是，数据中存在与边缘存在或不存在相关的信息，我们让学习算法对这些信息进行建模。在两个完全不同的网络（代谢网络和复合网络）上获得的良好精度支持了该方法的通用性。

未来研究的一个有趣且重要的途径是将这些方法扩展到有向图的推理，例如调控网络。尽管TPPK和MLPK方法不适用于此问题，但可以研究涉及例如有序对之间的核的变体。

方法

在本节中，我们首先解释了SVM如何用于图形推理，介绍了TPPK和MLPK内核，并对它们的差异进行了一些直观的分析。然后，我们在距离度量学习的上下文中提供了MLPK内核的详细推导。在解释了图推理和距离度量学习之间的联系之后，我们首先提出了一种新的距离度量学习算法，当基因组数据由向量表示时。然后，我们将该算法推广到数据不一定是有限维向量的情况，但更普遍的情况是，在顶点上定义了正定核。最后，我们对所得到的优化问题进行了松弛，并证明了该问题等价于特定成对核的SVM，我们明确地将其识别为MLPK。

SVM与正定核

我们的图推理方法基于SVM算法，这是一种广泛用于监督二进制分类的算法[26，27]. 给出一组分数x个₁,...,x个_n个带有二进制标签年₁,...,年_n个∈{-1，1}，SVM估计函数：

（f） (x个) = \sum_{我 = 1}^{n个} α_{我} K（K） ({x个}_{我} ， x个) + b条 ，

(1)

预测任何新点的标签x个通过签署（f）(x个). 功能K（K）在（1）中是所谓的内核，必须是对称正定函数（即，对于任何整数第页和任意一组点u个₁,...,u个_第页广场第页×第页矩阵K（K）_我，j=K（K）(u个_我，u个_j)必须是对称的和半正定的）。重量α_我(我= 1,...,n个)和偏移b条通过求解以下二次规划得到（1）：

\underset{α ， b条 ， ζ}{最小值} \sum_{我 ， j = 1}^{n个} α_{我} α_{j} K（K） ({x个}_{我} ， {x个}_{j}) + C类 \sum_{我 = 1}^{n个} ζ_{我} ，

(2)

在约束条件下

\begin{array}{l} \begin{matrix} ζ_{我} \geq 0 ， & 我 = 1 ， ... ， n个 \end{matrix} ， \\ \begin{matrix} ζ_{我} \geq 1 - 年_{我} (\sum_{j = 1}^{n个} α_{j} K（K） ({x个}_{j} ， {x个}_{我}) + b条) ， & 我 = 1 ， ... ， n个 . \end{matrix} \end{array}

(3)

SVM的一个有趣特性是核的选择之间的完全模块化K（K）一方面，算法。换句话说，相同的SVM实现可以用于处理不同的数据，并通过简单地修改数据和使用的内核来解决不同的问题。

图推理的成对核

我们将监督图推理问题表述为：给定一组已知的相互作用和非相互作用的基因对，构建一个分类函数来预测训练阶段未使用的所有基因对是否相互作用。为了使这个问题形式化，让我们假设一个基因由一个点表示x个那是一个内核K（K）在基因之间进行选择。例如，这个内核可以从基因组数据中导出，例如微阵列表达谱。我们考虑一组n个基因x个₁,...,x个_n个，和一个训练集 $T型$ = $ℐ$ ∪ $N个$ 相互作用的( $ℐ$ )和非交互( $N个$ )成对；我们的目标是学习一个函数来预测训练集外的哪些对是否交互。

通过标记+1相互作用对和-1非相互作用对，该问题是一个经典的二进制监督分类问题，一旦定义了核，就可以用SVM解决。困难在于要分类的模式是对基因，而我们假设只有一个内核介于个人基因是可用的。

Ben-Hur和Noble于年提出[8]从单个模式之间的内核在对或模式之间创建内核的通用公式：

K（K）_TPPK公司((x个₁，x个₂), (x个_三，x个₄)) =K（K）(x个₁，x个_三)K（K）(x个₂，x个₄) +K（K）(x个₁，x个₄)K（K）(x个₂，x个_三). (4)

这个张量积成对核（TPPK）背后的基本原理是(x个₁，x个₂)和另一对(x个_三，x个₄)通过比较x个₁具有x个_三和x个₂具有x个₄（使用单个基因之间的核），一方面x个₁具有x个₄和x个₂具有x个_三另一方面。

在本文中，我们提出了另一个两两核，如下所示：

K（K）_{MLPK（MLPK）}((x个₁，x个₂), (x个_三，x个₄)) = (K（K）(x个₁，x个_三) -K（K）(x个₁，x个₄) -K（K）(x个₂，x个_三) +K（K）(x个₂，x个₄))². (5)

该度量学习成对内核（MLPK）在以下小节中进行了详细论证，并强调了其与距离度量学习问题的联系。尽管MLPK（5）的公式似乎不如TPPK（4）直观，但一些简单的代数可以帮助突出它们的差异。事实上，任何正定核都可以在将点嵌入到Hilbert空间后写成内积[28]:

K（K）(x个，x’) = Φ(x个)^⊤Φ(x’), (6)

其中Φ是从模式空间到特征希尔伯特空间的映射。因此，通过在（5）中插入（6），可以如下重写MLPK：

K（K）_{MLPK（MLPK）}((x个₁，x个₂), (x个_三，x个₄)) = [(Φ(x个₁) - Φ(x个₂))^⊤(Φ(x个_三) - Φ(x个₄))]². (7)

该等式表明，直到平方指数，MLPK是映射对后对之间的内积(x个₁，x个₂)到向量Φ(x个₁) - Φ(x个₂). 因此，TPPK和MLPK之间的主要区别在于，前者涉及第一对的单个基因和第二对的单个基因之间的比较，而后者通过它们的元素之间的差异（在特征空间中）来比较对。特别是，即使第一对的模式与第二对的模式非常不同，这两对可能在MLPK内核方面非常相似，从而导致与TPPK内核的差异很大。

本节的其余部分将致力于对MLPK内核进行更严格的推导，特别是展示其与距离度量学习的关系

远程测量学习

以下内容[10]，我们注意到解决图形推理问题的一种可能方法是学习距离度量d日具有将相邻基因配对的特性的基因之间d日是由一条边连接的，而相距很远的基因对则不是。如果有这样的度量标准，那么预测候选基因对之间的边缘就相当于计算它们之间的距离，如果距离低于阈值，则预测边缘。

更正式地说，让我们首先假设基因由有限维向量表示，并研究通过输入空间的线性变换获得的距离度量。这些度量是由对称半正定矩阵索引的M（M）如下：

d日_M（M）(x个，x’) = (x个-x’)^⊤M（M）(x个-x’).

我们的目标是学习一种距离度量，它将交互对与非交互对分开，同时控制训练集的过度拟合。遵循SVM算法的精神，我们在交互和非交互变量到松弛变量的距离之间强制执行2的任意裕度，并控制M（M）通过考虑以下问题：

\underset{γ ， M（M） ， ζ}{最小值} {‖ M（M） ‖}_{F类 第页 o（o）}^{2} + C类 \sum_{(我 ， j) \in T型} ζ_{我 j} ，

(8)

在约束条件下：

\begin{matrix} \begin{matrix} ζ_{我 j} \geq 0 ， & (我 ， j) \in T型 ， \end{matrix} \\ \begin{matrix} {d日}_{M（M）} ({x个}_{我} ， {x个}_{j}) \leq γ - 1 + ζ_{我 j} ， & (我 ， j) \in ℐ ， \end{matrix} \\ \begin{matrix} {d日}_{M（M）} ({x个}_{我} ， {x个}_{j}) \geq γ + 1 - ζ_{我 j} ， & (我 ， j) \in N个 ， \end{matrix} \\ M（M） ≽ 0 \end{matrix}

(9)

为了解决这个问题，我们首先证明了对表示定理的以下扩展[29]:

定理1

（8–9）的解可以展开为：

M（M） = \sum_{(我 ， j) \in T型} α_{我 j} ({x个}_{我} - {x个}_{j}) {({x个}_{我} - {x个}_{j})}^{⊤} ，

带有α_ij公司 ∈ ℝ 对于(我，j)∈ $T型$ .

证明

对于任何一对(我，j)，让我们表示u个_ij公司=x个_我-x个_j，并让D类_ij公司成为第页×第页矩阵D类_ij公司= (x个_我-x个_j)(x个_我-x个_j)^⊤=u个_ij公司 ${u个}_{我 j}^{⊤}$ .然后我们可以重写

d日_M（M）(x个_我，x个_j) =⟨M（M），D类_ij公司⟩_Fro公司，

哪里⟨A类，B类⟩_Fro公司=跟踪(A类^⊤B类)是Frobenius内积。引入铰链损失功能L（左）(年，是的')=最大值（1-yy'年，0）用于年，是的 ∈ ℝ和指示器变量：

年_{我 j} = {\begin{array}{l} 1 & 如果 (我 ， j) \in N个 ， \\ - 1 & 如果 (我 ， j) \in 我 ， \end{array}

我们可以消除松弛变量，并将问题（8-9）改写为：

\underset{M（M） ≽ 0 ， γ \in ℝ}{最小值} {‖ M（M） ‖}_{F类 第页 o（o）}^{2} + C类 \sum_{(我 ， j) \in T型} L（左） ({〈 M（M） ， {D类}_{我 j} 〉}_{F类 第页 o（o）} - γ ， 年_{我 j}) .

(10)

这表明，在具有Frobenius内积的对称矩阵的线性空间中，优化问题实际上等价于半正定约束下的SVM。然后将每个边示例映射到矩阵D类_ij公司。特别是，如果M（M）则定理1正好是代表性定理。这里我们需要证明它仍然适用于约束M（M） ≽0。为此，让M（M） ≽0和γ ∈ ℝ是（8–9）的解。M（M）可以唯一地分解为M（M）=M（M）_S公司+M（M）_⊥，其中M（M）_S公司在线性范围内(D类_ij公司, (我，j)∈ $T型$ )和⟨M（M）_⊥，D类_ij公司⟩_Fro公司=0（对于）(我，j)∈ $T型$ 根据勾股定理，我们得到 ${‖ M（M） ‖}_{F类第页 o（o）}^{2} = {‖ {M（M）}_{S公司} ‖}_{F类第页 o（o）}^{2} + {‖ {M（M）}_{⊥} ‖}_{F类第页 o（o）}^{2}$ ，所以如果M（M）_⊥≠0（10）中最小化的泛函严格小于(M（M）_S公司，γ)比(M（M），γ)；如果M（M）_S公司≽因此，要证明这个定理，只需表明M（M）_S公司≽0.让v（v） ∈ ℝ^第页是任意向量。我们可以将该向量唯一分解为v（v）=v（v）_S公司+v（v）_Ş，其中v（v）_S公司位于u个_ij公司, (我，j)∈ $T型$ 和 ${v（v）}_{⊥}^{⊤} {u个}_{我 j} = 0$ 的(我，j)∈ $T型$ 。然后我们有M（M）_S公司v（v）_⊥=0和M（M）_Şv（v）_S公司=0，因此

{v（v）}^{⊤} {M（M）}_{S公司} v（v） = {v（v）}_{S公司}^{⊤} {M（M）}_{S公司} {v（v）}_{S公司} = {v（v）}_{S公司}^{⊤} {M（M）}_{S公司} {v（v）}_{S公司} + {v（v）}_{S公司}^{⊤} {M（M）}_{⊥} {v（v）}_{S公司} = {v（v）}_{S公司}^{⊤} M（M） {v（v）}_{S公司} \geq 0 ，

我们利用事实M（M） ≽最后一个不等式为0。这对任何人来说都是正确的v（v） ∈ ℝ^第页，这表明M（M）_S公司≽0，结束证明。■

通过将定理1的结果插入到（8–9）中，我们看到这个问题等价于发现α_ij公司, (我，j)∈ $T型$ 和γ。为了明确地写出问题，让我们在两对之间引入以下内核(x个₁，x个₂)和(x个_三，x个₄):

\begin{matrix} {K（K）}_{M（M） L（左） 对 K（K）} (({x个}_{1} ， {x个}_{2}) ， ({x个}_{三} ， {x个}_{4})) & = & {〈 {D类}_{{x个}_{1} {x个}_{2}} ， {D类}_{{x个}_{三} {x个}_{4}} 〉}_{F类 第页 o（o）} \\ = & T型 第页 一 c（c） e（电子） (({x个}_{1} - {x个}_{2}) {({x个}_{1} - {x个}_{2})}^{⊤} ({x个}_{三} - {x个}_{4}) {({x个}_{三} - {x个}_{4})}^{⊤}) \\ = & {({({x个}_{1} - {x个}_{2})}^{⊤} ({x个}_{三} - {x个}_{4}))}^{2} \\ = & {({x个}_{1}^{⊤} {x个}_{三} - {x个}_{1}^{⊤} {x个}_{4} - {x个}_{2}^{⊤} {x个}_{三} + {x个}_{2}^{⊤} {x个}_{4})}^{2} . \end{matrix}

(11)

这个核是正定的，因为它是矩阵之间的Frobenius内积D类_ab公司表示这些对。此外，尽管K（K）_{MLPK（MLPK）}仅对有序对进行了形式化定义，我们观察到它通过每对元素的置换是不变的（例如，当x个₁和x个₂被翻转）。因此，它可以被视为集上的正定核无序对，可视为有序蛋白质集合相对于每对排列的等价关系的商空间。我们将这个无序对的内核称为度量学习成对核（MLPK），因此表示法K（K）_{MLPK（MLPK）}.

为了用α定理1提供的变量，我们需要表示约束M（M） ≽在以下方面为0α.表示索引对t吨= (我，j)，定理1确保M（M）可以写为 $M（M） = \sum_{t吨 \in T型} α_{t吨} {u个}_{t吨} {u个}_{t吨}^{⊤}$ 。正如我们在定理1的证明中所示，这意味着M（M）在与线性跨度正交的空间上为空(u个_t吨，t吨 ∈ $T型$ ). 因此，M（M） ≽0当且仅当v（v）^⊤Mv公司任何情况下≥0v（v）在线性范围内(u个_t吨，t吨 ∈ $T型$ ). 这相当于| $T型$ | × | $T型$ |矩阵F类由定义 ${F类}_{t吨， {t吨}^{'}} = {u个}_{t吨}^{⊤} M（M） {u个}_{{t吨}^{'}}$ 是半正定的。最后，如果我们用F类_t吨的| $T型$ | × | $T型$ |矩阵，其(t吨₁，t吨₂)条目是 ${u个}_{{t吨}_{1}}^{⊤} {D类}_{t吨} {u个}_{{t吨}_{2}} = {u个}_{{t吨}_{1}}^{⊤} {u个}_{t吨} {u个}_{t吨}^{⊤} {u个}_{{t吨}_{2}}$ ，这相当于 $\sum_{t吨 \in T型} α_{t吨} {F类}_{t吨} ≽ 0$ .

将定理1的表示插入到（8–9）中，并用MLPK核替换Frobenius内积，我们证明该问题等价于

\underset{α ， γ ， ζ}{最小值} \sum_{(我 ， j) \in T型} \sum_{(k个 ， 我) \in T型} α_{我 j} α_{k个 我} {K（K）}_{M（M） L（左） 对 K（K）} (({x个}_{我} ， {x个}_{j}) ， ({x个}_{k个} ， {x个}_{我})) + C类 \sum_{(我 ， j) \in T型} ζ_{我 j} ，

(12)

在约束条件下：

\begin{matrix} \begin{matrix} ζ_{我 j} \geq 0 ， & (我 ， j) \in T型 ， \end{matrix} \\ \begin{matrix} \sum_{(k个 ， 我) \in T型} α_{k个 我} {K（K）}_{M（M） L（左） 对 K（K）} (({x个}_{我} ， {x个}_{j}) ， ({x个}_{k个} ， {x个}_{我})) \leq γ - 1 + ζ_{我 j} ， & (我 ， j) \in ℐ ， \end{matrix} \\ \begin{matrix} \sum_{(k个 ， 我) \in T型} α_{k个 我} {K（K）}_{M（M） L（左） 对 K（K）} (({x个}_{我} ， {x个}_{j}) ， ({x个}_{k个} ， {x个}_{我})) \geq γ + 1 - ζ_{我 j} ， & (我 ， j) \in N个 ， \end{matrix} \\ \sum_{(k个 ， 我) \in T型} α_{k个 我} {F类}_{k个 我} ≽ 0 \end{matrix}

(13)

核心化

问题（13）的一个重要性质是数据只通过内核出现K（K）_{MLPK（MLPK）}和矩阵F类_ij公司此外，在两对向量之间计算的MLPK核本身（5）只涉及向量之间的内积；类似地(t吨₁，t吨₂)-矩阵的第个条目F类_t吨是内积的乘积，可以很容易地从数据本身的内积计算出来。因此，我们可以应用核技巧将问题（12-13）扩展到具有正定核的任何数据空间K（K）_克。在对之间生成的MLPK内核变为

K（K）_{MLPK（MLPK）}((x个₁，x个₂), (x个_三，x个₄)) = (K（K）_克(x个₁，x个_三) -K（K）_克(x个₁，x个₄) -K（K）_克(x个₂，x个_三) +K（K）_克(x个₂，x个₄))²，

以及任意三对t吨= (我，j),t吨₁= (我₁，j₁),t吨₂= (我₂，j₂)在 $T型$ 条目(t吨₁，t吨₂)第页，共页F类_t吨是

[{K（K）}_{克} ({x个}_{我_{1}} ， {x个}_{我}) - {K（K）}_{克} ({x个}_{我_{1}} ， {x个}_{j}) - {K（K）}_{克} ({x个}_{j_{1}} ， {x个}_{我}) + {K（K）}_{克} ({x个}_{j_{1}} ， {x个}_{j})] \times [{K（K）}_{克} ({x个}_{我_{2}} ， {x个}_{我}) - {K（K）}_{克} ({x个}_{我_{2}} ， {x个}_{j}) - {K（K）}_{克} ({x个}_{j_{2}} ， {x个}_{我}) + {K（K）}_{克} ({x个}_{j_{2}} ， {x个}_{j})] .

放松

问题（12–13）是半正定矩阵锥上的一个凸问题，理论上可以通过内点方法等算法来解决[30]. 然而，这个问题的维度是2| $T型$ | + 1. 对于具有数百个或数千个顶点的小型生物网络，这通常约为数千个，这对通用优化软件造成了严重的收敛问题。

如果我们放松条件M（M） ≽在原始问题中为0，则它成为SVM的二次规划，为此开发了专用的优化算法：SVM的当前实现很容易处理数万个维度[27]. 这种松弛的明显缺点是，如果矩阵M（M）不是半正定的，则不定义度量。虽然这对于距离度量学习的经典应用（如聚类）来说可能是一个严重的问题[11]，我们注意到，在我们的案例中，度量学习的目标只是提供一个决策函数（f）(x个，x’) =d日_M（M）(x个，x’)对于预测连接对，这个决策函数的负性本身并不是问题。因此，我们建议放宽约束M（M） ≽0或等效值 $\sum_{(k个我) \in T型} α_{k个我} {F类}_{k个，我} ≽ 0$ 在（13）中，使用带有MLPK核（5）的成对SVM解决初始问题。

工具书类

von Mering C、Krause R、Snel B、Cornell M、Olivier SG、Fields S、Bork P：蛋白质相互作用大规模数据集的比较评估。自然。2002, 417: 399-403. 10.1038/自然750。
第条中国科学院公共医学谷歌学者
Ramani A，Marcotte E：利用相互作用蛋白的共同进化来发现相互作用的特异性。分子生物学杂志。2003, 327: 273-284. 10.1016/S0022-2836（03）00114-1。
第条中国科学院公共医学谷歌学者
Pazos F，Valencia A：在硅双杂交系统中选择物理相互作用的蛋白质对。蛋白质：结构、功能和遗传学。2002, 47 (2): 219-227. 10.1002/port.10074。
第条中国科学院谷歌学者
Marcotte EM、Pellegrini M、Ng HL、Rice DW、Yeates TO、Eisenberg D：从基因组序列中检测蛋白质功能和蛋白质相互作用。科学。1999, 285: 751-753. 10.1126/science.285.5428.751。
第条中国科学院公共医学谷歌学者
Sprinzak E，Margalit H：相关序列标志作为蛋白质相互作用的标记。分子生物学杂志。2001, 311: 681-692. 2006年10月10日/jmbi.2001.4920。
第条中国科学院公共医学谷歌学者
Gomez SM，Noble WS，Rzhetsky A：学习预测蛋白质-蛋白质相互作用。生物信息学。2003, 19: 1875-1881. 10.1093/bioinformatics/btg352。
第条中国科学院公共医学谷歌学者
Martin S、Roe D、Faulon JL：使用特征产品预测蛋白质相互作用。生物信息学。2005, 21 (2): 218-226. 10.1093/bioinformatics/bth483。
第条中国科学院公共医学谷歌学者
Ben Hur A，Noble WS：预测蛋白质-蛋白质相互作用的核心方法。生物信息学。2005年，21（补充1）：i38-i46。10.1093/bioinformatics/bti1016。
第条中国科学院公共医学谷歌学者
Yamanishi Y、Vert JP、Kanehisa M：从多基因组数据推断蛋白质网络：监督方法。生物信息学。2004年，20:i363-i370。10.1093/bioinformatics/bth910。
第条中国科学院公共医学谷歌学者
Vert JP，Yamanishi Y:监督图推理。神经信息处理系统的进展。编辑：Saul LK，Weiss Y，Bottou L.2005，马萨诸塞州剑桥：麻省理工学院出版社，17:1433-1440。
谷歌学者
Xing E，Ng A，Jordan M，Russell S：距离度量学习及其在侧面信息聚类中的应用。高级神经信息处理系统。编辑：S Becker ST，Obermayer K.2003，马萨诸塞州剑桥：麻省理工学院出版社，15:505-512。
谷歌学者
Pavlidis P、Weston J、Cai J、Grundy WN：异质数据的基因功能分类。第五届计算分子生物学国际年会论文集。2001, 242-248.
谷歌学者
Lanckriet GRG，Bie TD，Cristianini N，Jordan MI，Noble WS：基因组数据融合的统计框架。生物信息学。2004, 20 (16): 2626-2635. 10.1093/bioinformatics/bth294。
第条中国科学院公共医学谷歌学者
Tsang IW，Kwok JT：使用内核的距离度量学习。人工神经网络国际会议论文集。2003, 126-129.
谷歌学者
Weinberger KQ、Blitzer J、Saul LK：大幅度最近邻分类的距离度量学习。高级神经信息处理系统。编辑：Weiss Y，Schoelkopf B，Platt J.2006，马萨诸塞州剑桥：麻省理工学院出版社，18:
谷歌学者
Yamanishi Y，Vert JP，Nakaya A，Kanehisa M：通过广义核典型相关分析从多基因组数据中提取相关基因簇。生物信息学。2003年，19（补充1）：i323-i330。10.1093/生物信息学/btg1045。
第条公共医学谷歌学者
Huh WK、Falvo JV、Gerke LC、Carroll AS、Howson RW、Weissman JS、O'Shea EK：芽殖酵母中蛋白质定位的全球分析。自然。2003, 425: 686-691. 10.1038/nature02026。
第条中国科学院公共医学谷歌学者
Kondor RI，Lafferty J：图和其他离散输入空间上的扩散核。机器学习国际会议论文集。编辑：Sammut C，Hoffmann A.2002，Morgan Kaufmann
谷歌学者
Jansen R、Yu H、Greenbaum D、Kluger Y、Krogan NJ、Chung S、Emili A、Snyder M、Greenblatt JF、Gerstein M：从基因组数据预测蛋白质相互作用的贝叶斯网络方法。科学。2003302:449-453。10.1126/科学1087361。
第条中国科学院公共医学谷歌学者
Qi Y，Bar-Joseph Z，Klein-Seetharaman J：蛋白质相互作用预测中不同生物数据和计算分类方法的评估。蛋白质：结构、功能和生物信息学。2006, 63: 490-500. 10.1002/保护20865。
第条中国科学院谷歌学者
Mewes HW、Frishman D、Gruber C、Geier B、Haase D、Kaps A、Lemcke K、Mannhaupt G、Pfeiffer F、Schüller C、Stocker S、Weil B:MIPS：基因组和蛋白质序列数据库。核酸研究。2000, 28: 37-40. 10.1093/nar/28.137。
第条公共医学中心中国科学院公共医学谷歌学者
Bader GD、Donaldson I、Wolting C、Ouellette BF、Pawson T、Hogue CW:BIND-生物分子相互作用网络数据库。《核酸研究》2001，29:242-245。10.1093/nar/29.1.242。
第条公共医学中心中国科学院公共医学谷歌学者
Harbison C、Gordon D、Lee T、Rinaldi N、Macisaac K、Danford T、Hannett N、Tagne JB、Reynolds D、Yoo J、Jennings E、Zeitlinger J、Pokholok D、Kellis M、Rolfe P、Takusagawa K、Lander E、Gifford D、Fraenkel E、Young R：真核基因组的转录调控代码。自然。2004, 431: 99-104. 10.1038/nature02800。
第条公共医学中心中国科学院公共医学谷歌学者
Altschul SF、Madden TL、Schaffer AA、Zhang J、ZhangZ、Miller W、Lipman DJ:Gapped BLAST和PSI-BLAST：新一代蛋白质数据库搜索程序。核酸研究。1997, 25: 3389-3402. 10.1093/nar/25.17.3389。
第条公共医学中心中国科学院公共医学谷歌学者
Friedman N，Linial M，Nachman I，Peer D：使用贝叶斯网络分析表达数据。计算机生物学杂志。2000, 7 (3–4): 601-620. 10.1089/106652700750050961.
第条中国科学院公共医学谷歌学者
Vapnik VN：统计学习理论。1998年，纽约：威利
谷歌学者
Schölkopf B，Smola A：用内核学习。2002年，马萨诸塞州剑桥：麻省理工学院出版社
谷歌学者
Aronszajn N：再生核理论。跨大西洋数学学会，1950年，68:337-404。10.2307/1990404.
第条谷歌学者
Kimeldorf GS，Wahba G：关于切比雪夫样条函数的一些结果。数学分析应用杂志。1971, 33: 82-95. 10.1016/0022-247X（71）90184-3。
第条谷歌学者
Boyd S，Vandenberghe L：凸优化。2004年，美国纽约州纽约市：剑桥大学出版社
书谷歌学者

下载参考资料

致谢

这项工作由NIH奖R33 HG003070资助。

本文已作为BMC生物信息学2007年第8卷增补10：神经信息处理系统（NIPS）计算生物学新问题和新方法研讨会。补充资料的全部内容可在线获取，网址为http://www.biomedcentral.com/1471-2105/8？问题=S10.

作者信息

作者和附属机构

法国枫丹白露圣胡诺街35号巴黎矿业大学计算生物学中心，邮编77300
垂直Jean-Philippe
华盛顿大学基因组科学系，地址：1705 NE Pacific Street，Seattle，WA，98195，USA
Jian Qiu和William S Noble
华盛顿大学计算机科学与工程系，地址：1705 NE Pacific Street，Seattle，WA，98195，USA
威廉·S·诺布尔

作者

垂直Jean-Philippe
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
剑秋
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
威廉·S·诺布尔
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者

通讯作者

与的通信垂直Jean-Philippe.

其他信息

竞争性利益

作者声明，他们没有相互竞争的利益。

作者的贡献

JPV提出并实施了该方法，进行了实验并起草了手稿。JQ和WSN帮助准备了数据，参与了研究的设计，并为修订做出了贡献。所有作者阅读并批准了最终手稿。

权利和权限

本文由BioMed Central Ltd.授权发布。这是一篇根据知识共享署名许可条款发布的开放存取文章(http://creativecommons.org/licenses/by/2.0)，允许在任何媒体上不受限制地使用、分发和复制，前提是正确引用了原作。

重印和许可

关于本文

引用这篇文章

Vert，JP.，Qiu，J.&Noble，W.S.使用支持向量机进行生物网络推理的一种新的成对核。BMC生物信息学 8（补充10），S8（2007）。https://doi.org/10.1186/1471-2105-8-S10-S8

下载引文

出版:2007年12月21日
内政部:https://doi.org/10.1186/1471-2105-8-S10-S8

计算生物学新问题和新方法神经信息处理系统（NIPS）研讨会

一种新的基于支持向量机的生物网络成对核推理方法

摘要

背景

结果

结论

背景

结果和讨论

代谢网络

蛋白质复合物网络

结论

方法

SVM与正定核

图推理的成对核

远程测量学习

定理1

证明

核心化

放松

工具书类

致谢

作者信息

作者和附属机构

通讯作者

其他信息

竞争性利益

作者的贡献

权利和权限

关于本文

引用这篇文章

关键词

BMC生物信息学

联系我们

计算生物学新问题和新方法神经信息处理系统（NIPS）研讨会

一种新的基于支持向量机的生物网络成对核推理方法

摘要

背景

结果

结论

背景

结果和讨论

代谢网络

蛋白质复合物网络

结论

方法

SVM与正定核

图推理的成对核

远程测量学习

定理1

证明

核心化

放松

工具书类

致谢

作者信息

作者和附属机构

通讯作者

其他信息

竞争性利益

作者的贡献

权利和权限

关于本文

引用这篇文章

分享这篇文章

关键词

BMC生物信息学

联系我们