在本节中,我们首先解释了SVM如何用于图形推理,介绍了TPPK和MLPK内核,并对它们的差异进行了一些直观的分析。然后,我们在距离度量学习的上下文中提供了MLPK内核的详细推导。在解释了图推理和距离度量学习之间的联系之后,我们首先提出了一种新的距离度量学习算法,当基因组数据由向量表示时。然后,我们将该算法推广到数据不一定是有限维向量的情况,但更普遍的情况是,在顶点上定义了正定核。最后,我们对所得到的优化问题进行了松弛,并证明了该问题等价于特定成对核的SVM,我们明确地将其识别为MLPK。
SVM与正定核
我们的图推理方法基于SVM算法,这是一种广泛用于监督二进制分类的算法[26,27]. 给出一组分数x个1,...,x个
n个
带有二进制标签年1,...,年
n个
∈{-1,1},SVM估计函数:
(1)
预测任何新点的标签x个通过签署(f)(x个). 功能K(K)在(1)中是所谓的内核,必须是对称正定函数(即,对于任何整数第页和任意一组点u个1,...,u个
第页
广场第页×第页矩阵K(K)我,j=K(K)(u个
我
,u个
j
)必须是对称的和半正定的)。重量α
我
(我= 1,...,n个)和偏移b条通过求解以下二次规划得到(1):
(2)
在约束条件下
(3)
SVM的一个有趣特性是核的选择之间的完全模块化K(K)一方面,算法。换句话说,相同的SVM实现可以用于处理不同的数据,并通过简单地修改数据和使用的内核来解决不同的问题。
图推理的成对核
我们将监督图推理问题表述为:给定一组已知的相互作用和非相互作用的基因对,构建一个分类函数来预测训练阶段未使用的所有基因对是否相互作用。为了使这个问题形式化,让我们假设一个基因由一个点表示x个那是一个内核K(K)在基因之间进行选择。例如,这个内核可以从基因组数据中导出,例如微阵列表达谱。我们考虑一组n个基因x个1,...,x个
n个
,和一个训练集= ∪ 相互作用的()和非交互()成对;我们的目标是学习一个函数来预测训练集外的哪些对是否交互。
通过标记+1相互作用对和-1非相互作用对,该问题是一个经典的二进制监督分类问题,一旦定义了核,就可以用SVM解决。困难在于要分类的模式是对基因,而我们假设只有一个内核介于个人基因是可用的。
Ben-Hur和Noble于年提出[8]从单个模式之间的内核在对或模式之间创建内核的通用公式:
K(K)
TPPK公司
((x个1,x个2), (x个三,x个4)) =K(K)(x个1,x个三)K(K)(x个2,x个4) +K(K)(x个1,x个4)K(K)(x个2,x个三). (4)
这个张量积成对核(TPPK)背后的基本原理是(x个1,x个2)和另一对(x个三,x个4)通过比较x个1具有x个三和x个2具有x个4(使用单个基因之间的核),一方面x个1具有x个4和x个2具有x个三另一方面。
在本文中,我们提出了另一个两两核,如下所示:
K(K)
MLPK(MLPK)
((x个1,x个2), (x个三,x个4)) = (K(K)(x个1,x个三) -K(K)(x个1,x个4) -K(K)(x个2,x个三) +K(K)(x个2,x个4))2. (5)
该度量学习成对内核(MLPK)在以下小节中进行了详细论证,并强调了其与距离度量学习问题的联系。尽管MLPK(5)的公式似乎不如TPPK(4)直观,但一些简单的代数可以帮助突出它们的差异。事实上,任何正定核都可以在将点嵌入到Hilbert空间后写成内积[28]:
K(K)(x个,x’) = Φ(x个)⊤Φ(x’), (6)
其中Φ是从模式空间到特征希尔伯特空间的映射。因此,通过在(5)中插入(6),可以如下重写MLPK:
K(K)
MLPK(MLPK)
((x个1,x个2), (x个三,x个4)) = [(Φ(x个1) - Φ(x个2))⊤(Φ(x个三) - Φ(x个4))]2. (7)
该等式表明,直到平方指数,MLPK是映射对后对之间的内积(x个1,x个2)到向量Φ(x个1) - Φ(x个2). 因此,TPPK和MLPK之间的主要区别在于,前者涉及第一对的单个基因和第二对的单个基因之间的比较,而后者通过它们的元素之间的差异(在特征空间中)来比较对。特别是,即使第一对的模式与第二对的模式非常不同,这两对可能在MLPK内核方面非常相似,从而导致与TPPK内核的差异很大。
本节的其余部分将致力于对MLPK内核进行更严格的推导,特别是展示其与距离度量学习的关系
远程测量学习
以下内容[10],我们注意到解决图形推理问题的一种可能方法是学习距离度量d日具有将相邻基因配对的特性的基因之间d日是由一条边连接的,而相距很远的基因对则不是。如果有这样的度量标准,那么预测候选基因对之间的边缘就相当于计算它们之间的距离,如果距离低于阈值,则预测边缘。
更正式地说,让我们首先假设基因由有限维向量表示,并研究通过输入空间的线性变换获得的距离度量。这些度量是由对称半正定矩阵索引的M(M)如下:
d日
M(M)
(x个,x’) = (x个-x’)⊤M(M)(x个-x’).
我们的目标是学习一种距离度量,它将交互对与非交互对分开,同时控制训练集的过度拟合。遵循SVM算法的精神,我们在交互和非交互变量到松弛变量的距离之间强制执行2的任意裕度,并控制M(M)通过考虑以下问题:
(8)
在约束条件下:
(9)
为了解决这个问题,我们首先证明了对表示定理的以下扩展[29]:
定理1
(8–9)的解可以展开为:
带有α
ij公司
∈ ℝ 对于(我,j)∈ .
证明
对于任何一对(我,j),让我们表示u个
ij公司
=x个
我
-x个
j
,并让D类
ij公司
成为第页×第页矩阵D类
ij公司
= (x个
我
-x个
j
)(x个
我
-x个
j
)⊤=u个
ij公司
.然后我们可以重写
d日
M(M)
(x个
我
,x个
j
) =⟨M(M),D类
ij公司
⟩
Fro公司
,
哪里⟨A类,B类⟩
Fro公司
=跟踪(A类⊤B类)是Frobenius内积。引入铰链损失功能L(左)(年,是的')=最大值(1-yy'年,0)用于年,是的 ∈ ℝ和指示器变量:
我们可以消除松弛变量,并将问题(8-9)改写为:
(10)
这表明,在具有Frobenius内积的对称矩阵的线性空间中,优化问题实际上等价于半正定约束下的SVM。然后将每个边示例映射到矩阵D类
ij公司
。特别是,如果M(M)则定理1正好是代表性定理。这里我们需要证明它仍然适用于约束M(M) ≽0。为此,让M(M) ≽0和γ ∈ ℝ是(8–9)的解。M(M)可以唯一地分解为M(M)=M(M)
S公司
+M(M)⊥,其中M(M)
S公司
在线性范围内(D类
ij公司
, (我,j)∈ )和⟨M(M)⊥,D类
ij公司
⟩
Fro公司
=0(对于)(我,j)∈ 根据勾股定理,我们得到,所以如果M(M)⊥≠0(10)中最小化的泛函严格小于(M(M)
S公司
,γ)比(M(M),γ);如果M(M)
S公司
≽因此,要证明这个定理,只需表明M(M)
S公司
≽0.让v(v) ∈ ℝ第页是任意向量。我们可以将该向量唯一分解为v(v)=v(v)
S公司
+v(v)Ş,其中v(v)
S公司
位于u个
ij公司
, (我,j)∈ 和的(我,j)∈ 。然后我们有M(M)
S公司
v(v)⊥=0和M(M)Şv(v)
S公司
=0,因此
我们利用事实M(M) ≽最后一个不等式为0。这对任何人来说都是正确的v(v) ∈ ℝ第页,这表明M(M)
S公司
≽0,结束证明。■
通过将定理1的结果插入到(8–9)中,我们看到这个问题等价于发现α
ij公司
, (我,j)∈ 和γ。为了明确地写出问题,让我们在两对之间引入以下内核(x个1,x个2)和(x个三,x个4):
(11)
这个核是正定的,因为它是矩阵之间的Frobenius内积D类
ab公司
表示这些对。此外,尽管K(K)
MLPK(MLPK)
仅对有序对进行了形式化定义,我们观察到它通过每对元素的置换是不变的(例如,当x个1和x个2被翻转)。因此,它可以被视为集上的正定核无序对,可视为有序蛋白质集合相对于每对排列的等价关系的商空间。我们将这个无序对的内核称为度量学习成对核(MLPK),因此表示法K(K)
MLPK(MLPK)
.
为了用α定理1提供的变量,我们需要表示约束M(M) ≽在以下方面为0α.表示索引对t吨= (我,j),定理1确保M(M)可以写为。正如我们在定理1的证明中所示,这意味着M(M)在与线性跨度正交的空间上为空(u个
t吨
,t吨 ∈ ). 因此,M(M) ≽0当且仅当v(v)⊤Mv公司任何情况下≥0v(v)在线性范围内(u个
t吨
,t吨 ∈ ). 这相当于|| × ||矩阵F类由定义是半正定的。最后,如果我们用F类
t吨
的|| × ||矩阵,其(t吨1,t吨2)条目是,这相当于.
将定理1的表示插入到(8–9)中,并用MLPK核替换Frobenius内积,我们证明该问题等价于
(12)
在约束条件下:
(13)
核心化
问题(13)的一个重要性质是数据只通过内核出现K(K)
MLPK(MLPK)
和矩阵F类
ij公司
此外,在两对向量之间计算的MLPK核本身(5)只涉及向量之间的内积;类似地(t吨1,t吨2)-矩阵的第个条目F类
t吨
是内积的乘积,可以很容易地从数据本身的内积计算出来。因此,我们可以应用核技巧将问题(12-13)扩展到具有正定核的任何数据空间K(K)
克
。在对之间生成的MLPK内核变为
K(K)
MLPK(MLPK)
((x个1,x个2), (x个三,x个4)) = (K(K)
克
(x个1,x个三) -K(K)
克
(x个1,x个4) -K(K)
克
(x个2,x个三) +K(K)
克
(x个2,x个4))2,
以及任意三对t吨= (我,j),t吨1= (我1,j1),t吨2= (我2,j2)在条目(t吨1,t吨2)第页,共页F类
t吨
是
放松
问题(12–13)是半正定矩阵锥上的一个凸问题,理论上可以通过内点方法等算法来解决[30]. 然而,这个问题的维度是2|| + 1. 对于具有数百个或数千个顶点的小型生物网络,这通常约为数千个,这对通用优化软件造成了严重的收敛问题。
如果我们放松条件M(M) ≽在原始问题中为0,则它成为SVM的二次规划,为此开发了专用的优化算法:SVM的当前实现很容易处理数万个维度[27]. 这种松弛的明显缺点是,如果矩阵M(M)不是半正定的,则不定义度量。虽然这对于距离度量学习的经典应用(如聚类)来说可能是一个严重的问题[11],我们注意到,在我们的案例中,度量学习的目标只是提供一个决策函数(f)(x个,x’) =d日
M(M)
(x个,x’)对于预测连接对,这个决策函数的负性本身并不是问题。因此,我们建议放宽约束M(M) ≽0或等效值在(13)中,使用带有MLPK核(5)的成对SVM解决初始问题。