关键词

1引言

知识图(KG)已经成为人工智能应用的关键资源,包括问答、推荐系统、知识推理等。近年来,一些大型KG,如Freebase[2],数据库[1],内尔[4]和Wikidata[25],是通过自动从文本中提取结构化信息并根据人类经验手动添加结构化信息而构建的。尽管大型KG已经包含了数十亿个三元组,但提取的知识仍然是现实世界知识的一小部分,可能包含错误和矛盾。例如,在Freebase,71%的人没有已知的出生地,75%的人没有未知的国籍[5]。因此,知识图补全(KGC)是KG在现有KG基础上补全或预测缺失结构化信息的关键问题。

典型的KG将真实世界和抽象信息转换为三元组,表示为\(\text{head entity},\text{relation},\text{tail entity})\), (小时第页t吨)简而言之。完成或预测三元组中缺失的元素,例如(小时第页, ?), (小时, ?, t吨), (?, 第页t吨)表征学习(RL)被广泛应用。RL将实体和关系嵌入到向量空间中,并产生了许多成功的翻译模型,包括TransE[]、TransH[26]、TransR[16]、TransG[29]这些模型旨在根据原理生成实体和关系的精确矢量\(h+r约为t),这意味着t吨翻译自小时通过第页

大多数基于RL的模型只关注三元组中的结构化信息,而忽略了大多数KG中包含的实体和关系的丰富语义信息。语义信息包括类型、描述、词类和其他文本信息。尽管这些模型显著改进了嵌入表示并提高了预测精度,但通过利用语义信息,在以下两个方面仍有改进的余地。

实体的表示。KGC的主要障碍之一是实体或关系的多义性,即每个实体或关系在不同的三元组中可能具有不同的语义。例如,在三人组(艾萨克·纽顿,出生地,林肯郡)中,牛顿是一个人,而在(艾萨克·纽顿,光学作者)中,他是一个作家或物理学家。这在KG中是一个非常常见的现象,它导致向量表示的困难。大多数工作都关注实体多义性,并利用线性变换在不同的三元组中对实体的不同语义进行建模,以达到较高的准确性。然而,它们将每个实体表示为单个向量,无法捕获实体的不确定性语义。这是对丰富语义建模的一个关键限制。

后验概率估计。以往大多数工作的另一个问题是忽略了已知三元组的先验概率。以前的大多数工作都优化了向量表示的最大似然(ML)估计。很少有模型讨论后验概率,后验概率包含先验分布以增加优化目标。具体来说,以前的ML模型本质上最大化了概率(小时第页t吨)那个小时,第页,t吨形成三元组(小时第页t吨). 当预测的尾部缺失时(小时第页, ?), 然而,小时第页已经知道,它们可能会影响t吨因此,后验概率\(p(t,|,h,r))预测的t吨是优化目标的更准确表达(小时第页t吨). 换句话说,我们可以根据三元组中缺失元素的先验概率来修剪可能的选择。

为了解决上述两个问题,我们提出了一种基于类型的多重嵌入模型(TransT)。TransT充分利用实体类型信息,该信息表示大多数KG中的实体类别。与描述和其他语义信息相比,类型更简单、更具体,因为实体的类型是无序的,包含的噪音更少。此外,如果KG中没有显式类型信息,我们可以从其他语义信息构造或扩展实体类型。例如,在Wordnet中,我们可以根据实体的词法类别构造类型。其他语义信息没有这个优势。除了实体类型之外,我们还从常见的相关实体类型构造了多种类型的关系。我们基于实体类型和关系类型来度量实体和关系的语义相似度。利用这种基于类型的语义相似度,我们将类型信息集成到实体表示和先验估计中,下文将对此进行详细介绍。

我们将每个实体建模为具有类型信息的多个语义向量,以更准确地表示实体。与使用基于语义的线性变换分离混合表示不同[16,26,27,31]TransT分别对多种语义进行建模,并利用语义相似度来区分实体语义。为了准确捕获实体语义,我们为不同的上下文动态生成新的语义向量。

我们利用基于类型的语义相似度将先验概率纳入优化目标。这是受三元组语义缺失元素与其他两个元素相关的观察启发的。具体来说,出现在头部(或尾部)中的所有具有相同关系的实体都具有一些常见类型,或者这些实体具有出现在尾部(或头部)中的实体所拥有的一些常见类型。在上面提到的“牛顿”示例中,如果(Isaac_Newton,author_of,Opticks)的头部缺失,我们可以预测头部是一个带有“author”或“physicator”的实体,因为我们知道关系是“author_ of”,而尾部是一本物理书“Optics”。因此,我们设计了一种基于类型集相似度的基于类型的语义相似度。利用这种相似性,TransT捕获了三个缺失元素的先验概率,以便进行准确的后验估计。

我们的贡献总结如下:

  • 我们提出了一种融合结构化信息和类型信息的新方法。我们从实体类型构造了多种类型的关系,并设计了基于类型的语义相似度,用于多种嵌入表示和先验知识发现。

  • 我们提出了一个多重嵌入模型,将每个实体表示为具有特定语义的多个向量。

  • 我们根据KG中三元组元素之间的语义相似性估计实体和关系预测的先验概率。

本文的其余部分组织如下。章节2显示了KGC的最新研究。章节介绍了我们的方法,包括多重嵌入模型、先验概率估计和目标函数优化。章节4显示了我们对FB15K和WN18方法的评估。章节5论文的结论。

2相关工作

TransE公司[]提出了原则\(h+r约为t)通过最小化能量函数为每个实体和关系分配一个向量\(垂直变化{h}+变化{右}-\varvec{t}\垂直\)每三人中的一个。它是一个简单有效的模型,但无法捕获实体和关系的丰富语义。

部分型号修改功能\(\Vert\cdot\Vert\)复杂结构的能量函数,单位为KG。TransA公司[13]在不改变范数函数的情况下,自适应地寻找最优损失函数。塔特克[7]利用标准点积为不同的关系设计不同的能量函数。孔E[20]设计了基于张量积的能量函数,该张量积捕获了实体和关系特征之间的相互作用。CompleEx公司[24]将实体和关系表示为复数向量,并计算能量函数中的埃尔米特点积。歧管E[28]将三元组的位置从一个点扩展到超平面或球体,并计算两个流形的能量函数。KG2E公司[9]通过高斯嵌入对实体和关系的不确定性进行建模,并将实体和关系分布的KL散度定义为能量函数。项目E[22]提出一个神经网络模型来计算\(h+r)t吨

一些模型设计\(\Vert\varvec{h_r}+\varvec}r}-\varvec{t_r}\Vert\)使实体向量适应不同的关系。他们的目标是找到适当的\(\varvec{hr}\)\(\varvec{tr}\).TransH公司[26]将实体向量投影到不同关系的超平面中。它代表着\(\varvec{hr}\)作为的投影向量\(\varvec{hr}\)在关系超平面上。TransR公司[16]通过变换矩阵而不是投影来调整实体向量。它代表着\(\varvec{hr}\)作为线性变换的结果\(\varvec{h}\).TranSparse[12]认为变换矩阵应反映实体对的异质性和不平衡性,并将变换矩阵改进为分别对应于头实体和尾实体的两个稀疏矩阵。TransG公司[29]考虑到关系也有多个类似语义的实体。它为每个关系生成多个向量。

语义信息,如类型、描述和其他文本信息,是KG中结构化信息的重要补充。DKRL公司[30]将实体描述表示为用于调整实体和关系向量的向量。单一共享平台[27]通过使用实体描述的主题分布构造语义超平面来修改TransH。实体描述还用于为训练模型导出更好的初始化[17]。具有类型信息、类型约束模型[14]根据实体和关系类型选择负样本。TKRL公司[31]借助层次结构,将类型信息编码为KG中的多种表示形式。它是带有语义信息的TransR的变体,也是第一个引入类型信息的模型。然而,TKRL也忽视了上述两个问题。

还有其他几种将KG建模为图形的方法。审慎监管局[15]和SFE[8]根据KG中的现有路径预测缺失关系。这些方法认为,两个实体之间的路径中的关系序列可以构成两个实体间的关系。RESCAL(恢复)[21]、PITF[6]和ARE[19]通过检索相邻矩阵来完成KG。这些方法需要处理实体的大型相邻矩阵。

方法

3.1概述

我们模型的目标是获得实体和关系的向量表示,从而最大化对所有现有三元组的预测概率。预测概率是一个条件概率,因为除了缺失的元素外,三元组中的其余两个元素都是已知的。特别是,当预测三元组的尾部实体时(小时第页t吨),我们希望最大化t吨在给定的三元组满足原理的条件下\(h+r约为t)而主体实体和关系是小时第页我们将这个条件概率实体表示为\(p(t,|,h,r,true))这意味着三重\((h,r,*)\)是“真的”。“true”表示三重满足\(h+r约为t)原则。“真”三元组在本文中也称为正确三元组。最大化这种概率是尾部预测的目标。根据贝叶斯定理[10],\(p(t,|,h,r,true))可以看作是后验概率,其与先验概率的相关性可以推导为

$$\begin{aligned}p(t\,|\,h,r,true)={\left\{\begin{array}{ll}\frac{p(true\,|\、h,r)\,p(t\,|\\,h,r)}{p(true\,|\,h、r)}&{}p(t\,|\s,h和r)\ne 0\\0&{}p\结束{对齐}$$
(1)

哪里\(p(真\,|\,h,r,t)\)是指(小时第页t吨)是“真的”,\(p(t,|,h,r))是的先验概率t吨为了获得最可能的实体,我们只能比较三元组的概率\((h,r,*)\)所有这些概率都相同\(p(t,|,h,r))因此,我们可以省略\(p(true \,| \,h,r)\)英寸(1):

$$\begin{aligned}p(t\,|\,h,r,true)\propto p(true\,|\、h,r、t)\,p(t\,|\\,h,r)。\结束{对齐}$$
(2)

同样,水头预测的目标是

$$\begin{aligned}p(h\,|\,r,t,true)\propto p(true\,|\\,h,r,t)\,p(h\\,|\、r,t),\end{alinged}$$
(3)

关系预测的目标是

$$\begin{aligned}p(r \,| \,h,t,true)\propto p(true\,|,h,r,t)\,p(r,| \、h,t)。\结束{对齐}$$
(4)

这三个公式都有两个组成部分:似然和先验概率。\(p(真\,|\,h,r,t)\)是由多重嵌入表示估计的似然。另一部分是由语义相似度估计的先验概率。TransT引入了一种基于类型的语义相似度来估计两个分量,并优化向量表示,以最大化训练集上的后验概率。

3.2基于类型的语义相似度

为了估计似然和先验概率,我们引入语义相似度来衡量实体语义与类型信息的区别。

图1。
图1

关系头部或尾部的实体有一些常见的类型。在本例中,所有头部实体都具有“person”类型,而所有尾部实体都是“location”类型。因此,“人”和“位置”分别是这种关系的首尾类型。此外,如果我们放松这个约束,“物理学家”类型也是关系的头部类型,因为大多数头部实体都包含这种类型。

出现在头部(或尾部)中具有相同关系的所有实体都有一些常见类型。这些常见类型决定了这种关系,如图1。每个关系都有头部和尾部位置。因此,每个关系第页有两个类型集\(T_{r,头部}\)对于头中的实体和\(T_{r,尾部}\)用于尾部的实体。我们从这些常见类型构造关系的类型集:

$$\begin{aligned}T_{r,head}=\bigcap_{begin{array}{c}e\in{头部}_{r} \\rho\end{array}}T_e\qquad T_{r,tail}=\bigcap_{\begin{arrary}{c}e\in{尾巴}_{r} \\rho\end{array}}T_e,\end{aligned}$$
(5)

哪里\(_e\)是实体的类型集e(电子),\(标题_ \)\(尾部\)是分别出现在头部和尾部的实体集合第页\(\bigcap_{\rho}\)是一个特殊的交集,它包含属于大多数类型集的元素。与普通交点相比,此交点可以捕获更多实体的类型信息。然而,更多信息可能包含更多噪音。因此,我们平衡了参数的影响\(\rho\),这是所有类型中频率最低的\(_e\)

根据实体和关系的类型信息,我们将关系和实体的非对称语义相似性表示为以下两个集合的相似性,这两个集合是由Jaccard索引启发的[11]:

$$\begin{aligned}s(r_{head},h)=\frac{|T_{r,head}\cap T_h|}{|T_}r,head}|}\quad s$$
(6)

哪里\(s(r{head},h)\)是关系和头部之间的语义相似性,\(s(r_{tail},t)\)是关系和尾部之间的语义相似性,(小时t吨)是头部和尾部之间的语义相似性。

基于类型的语义相似度在以下估计中起着重要作用,特别是在先验概率估计中。

3.3多个嵌入表示

语义丰富的实体很难在KGC中准确表示。因此,很难测量可能性\(p(真\,|\,h,r,t)\)准确无误。在本节中,我们将介绍多个嵌入表示,以捕获实体语义以获得准确的可能性。

图2。
图2

TransE将每个实体表示为一个向量,该向量试图描述实体的所有语义。因此,向量表示对于任何实体语义都是不准确的。在TransT中,实体语义的单独表示更准确地描述了三元组之间的关系。

如图所示2,在以前的工作中,一个实体只有一个向量表示,例如TransE。为了克服这个缺点,TransT将每个实体语义表示为一个向量,并将每个实体表示为一组语义向量。在我们的方法中,我们将每个语义嵌入到向量空间中。我们假设关系具有单一语义,实体具有多个语义。因此,每个关系都表示为一个向量。为了适应丰富的实体语义,我们将每个实体表示为一组语义向量,而不是单个向量。因此,实体可以看作是其多个语义向量的随机变量。此外,可能性\(p(真\,|\,h,r,t)\)取决于随机变量所有可能语义组合的预期概率小时t吨这可以定义三元组向量表示的可能性,如下所示

$$\begin{aligned}p(true\,|\,h,r,t)=\sum_{i=1}^{n_h}\sum_{j=1}^}{n_t}w_{h,i}w_{t,j}p_{true}(v_{h,i},v_{r},v{t,j}),\end{alinged}$$
(7)

哪里\(n_h\)\(n_t\)是的实体语义数小时t吨;\(w{h}=(w{h,1},\ldots,w{h、nh})\(w{t}=(w{t,1},\ldots,w{t、nt})是随机变量的分布小时t吨;\(v{h,i}\),\(v_r \),\(v{t,j}\)是的向量小时,第页,t吨;\(p{true}(v{h,i},vr,v{t,j})是组件的可能性-th语义向量\(v{h,i}\)属于小时j个-第th语义向量\(v{t,j}\)属于t吨.根据原则\(h+r约为t),此可能性取决于\(h+r)t吨:

$$\开始{对齐}p{true}(v{h,i},v{r},v{t,j})=\西格玛(d(v{h,i}+v{r{,v}),\结束{对齐{$$
(8)

其中距离函数d日测量这种差异;挤压函数\(\西格玛\)转换的值d日从0到\(+\infty\)从1到0的概率值,因为如果相应向量之间的距离较小,则语义组合的概率较大。为了满足属性,我们设置\(d(x,y)=\垂直x-y\垂直{1}\)(1-范数)和\(σ(x)=e^{-x}\)

为了更准确地捕捉实体语义,我们不预先分配实体的具体语义及其向量集的大小。我们将语义向量的生成过程建模为一个根据中餐厅过程(CRP)修订的随机过程,CRP是Dirichlet过程的一种广泛使用的形式[10]。这避免了人为的设置主观性\(n_h\)\(n_t\)

在训练过程中,每个三元组中的尾部(或头部)实体生成一个新的语义向量,概率如下

$$\begin{aligned}p_{new,tail}(h,r,t)=\left(1-\max _{t_i\in{语义}_t}s(t_{i},r_{tail})\right)\frac{\beta e^{-\Vertr\Vert_1}}{\betae^{-\Vertr\ Vert_1{+p(true\,|\,h,r,t)},\end{aligned}$$
(9)

哪里\(测试版)是控制生成概率的CRP中的缩放参数。括号内的公式表示t吨当现有语义与第页; 分数部分类似于TransG中的CRP[29],这表明t吨如果当前语义集无法表示,则可能生成新语义t吨准确无误。类似地,新的语义向量小时可以用概率生成\(p_{new,head}(h,r,t)\)

3.4先验概率估计

在我们的模型中,先验概率从语义角度反映了KG的特征。我们估计了先验概率(2), ()和(4)通过基于类型的语义相似度。

注意,三元组中三个元素的类型集有明显的关系。我们可以根据缺失元素与其他元素之间的语义相似性来估计缺失元素的先验分布。

当我们预测t吨三人一组(小时第页t吨),具有更常见类型的实体属于第页小时具有较高的概率。因此,我们使用了t吨及其背景\((*,h,r)\)估计t吨的先验概率:

$$\开始{对齐}p(t\,|\,h,r)\propto{s(r_{tail},t)}^{\lambda_{tail{}}\,{s(h,t){{\lampda_{relation}},\end{aligned}$$
(10)

哪里\(\lambda _{relationship},\lambda _{head},\lambda _{tail}\ in \{0,1\}\)是相似性权重,因为小时第页对先验概率有不同的影响t吨。我们使用这些权重为不同的情况选择不同的相似性。类似地,主实体的事先估计小时

$$\begin{aligned}p(h\,|\,r,t)\propto{s(r_{head},h)}^{lambda_{head\}}\,{s(t,h){^{lampda_{relation}}。\结束{对齐}$$
(11)

通过相似推导,关系的先验估计第页

$$\begin{aligned}p(r,|,h,t)\propto{s(r_{head},h)}^{\lambda_{head\}}\,{s(r{tail},t)}^}\lambda{tail}}。\结束{对齐}$$
(12)

为了适应不同的数据集,\(lambda{关系}),\(\lambda_{head}\)\(\lambda_{tail}\),应进行调整。

3.5负采样的目标函数

为了实现后验概率最大化的目标,我们将目标函数定义为负采样预测误差之和[18].

对于三人组(小时第页t吨)在训练集中\(\varDelta\),我们对其负三元组进行采样\((h',r',t')\notin\varDelta\)用另一个实体或关系替换一个元素。在预测三元组的不同元素时,我们替换相应的元素以获得负三元组。因此,预测误差表示为分段函数:

$$\begin{aligned}l(h,r,t,h',r',t')={\left\{\begin{array}{ll}-\ln{p(h\,|\,r,t,true)}+\ln{p(h'\,|\\,r,t-true){&{}h'\ne h\\-\ln{p(t\,|\ p(r,\,h,t,true)}+\ln{p(r’\,\,h,t,true)}&{}r'oner,\end{array}\right。}\结束{对齐}$$
(13)

其中,我们通过训练三元组及其负样本的概率差来衡量概率估计的性能。我们将目标函数定义为预测误差的总和:

$$\begin{aligned}\sum_{(h,r,t)\in\varDelta}\sum_{$$
(14)

哪里\({\varDelta}_{(h,r,t)}')是的负三元组(小时第页t吨).

通过最小化目标函数,最大化预测的总后验概率。此外,采用随机梯度下降法对目标函数进行优化,并对实体的语义向量进行规范化,以避免过拟合。

4实验

在本文中,我们采用了两个公共基准数据集,即Freebase和Wordnet的子集FB15K[]和WN18[],评估我们的知识图完成和三重分类模型[23]。对于知识图的完成,我们将任务分为两个子任务:实体预测和关系预测。以下[]我们将数据集划分为训练集、验证集和测试集。表中列出了数据集的统计数据1

FB15K中实体的类型信息已收集到[31]。FB15K中有4064种类型,实体的平均类型数约为12。WN18中没有明确的类型信息。因此,我们从词汇类别构造实体的类型集。例如,“__trade_name_NN_1”的名称包含其词法类别“NN”(名词),我们将“__trace_name_NN_1”的类型定义为“NN“。因为Wordnet中的每个实体都表示确切的语义,所以实体的类型数为1。WN18中有4种类型。

基线包括三个基于语义的模型:TKRL[31]利用实体类型;丹麦铁路公司[30]和SSP[27]利用实体描述。

表1。数据集统计

4.1实体预测

实体预测旨在预测给定实体和关系时缺少的实体,即我们预测t吨给定\((h,r,*)\),或预测小时给定\((*,r,t)\).FB15K和WN18是此任务的基准数据集。

评估协议。我们采用了之前研究中使用的相同方案。对于每三个(小时第页t吨)在测试集中,我们替换了尾部t吨(或头部小时)数据集中的每个实体。我们计算所有替换三元组的概率,并按降序排列这些概率。将两个度量作为评价指标:平均秩,即原始三元组在相应概率秩中的平均秩;击中@N,秩不大于N的原始三元组的比例。在这个任务中,我们使用点击@10。此设置称为“原始”。其中一些替换三元组存在于训练、验证或测试集中,因此可以将它们排在原始三元组之前。因此,我们过滤掉这些三元组以消除这种情况。此过滤设置称为“过滤器”。在这两种设置中10时命中平均排名越低,表现越好。

实验设置。由于数据集相同,我们直接重用了文献中几个基线的最佳结果[16,26,31]。我们已尝试对验证数据集进行多个设置,以获得最佳配置。在“统一”抽样策略下[26],最佳配置为:学习率\(α=0.001),矢量维数\(k=50),页边距\(伽马=3),CRP系数\(β=0.0001),相似性权重\(\lambda_{head}=\lambda _{head}=0\),\(λ{relationship}\)根据WN18上训练集的统计结果,将不同关系设置为0或1;\(α=0.00025\),\(k=300),\(伽马=3.5),\(β=0.0001),\(\lambda{head}=\lambda{tail}=1\),\(\lambda_{关系}=0\)在FB15K上。我们训练模型直到收敛。

结果。FB15K和WN18的评估结果如表所示2在FB15K上,我们比较了多个向量和类型信息的影响。单个或多个意味着实体表示为单个向量或多个向量。类型或无类型表示是否使用类型信息。从结果中,我们观察到:

表2。实体预测评估结果
  1. 1

    TransT在WN18上显著优于所有基线。在FB15K上,TransT在过滤器设置方面明显优于所有基线。这表明我们的方法成功地利用了类型信息,与单个实体向量的线性变换相比,多个实体向量可以更准确地捕捉每个实体的不同语义。

  2. 2

    与基线相比,TransT在FB15K上的原始和过滤器设置结果之间的差异最大。这表明TransT将更正确的三元组排在原始三元组之前。这是由TransT的先验估计引起的。具体来说,如果预测的元素是原始三元组的头部,那么这些正确的三元组具有相同的关系和尾部。因此,当我们从训练集中学习先验知识时,这些正确三元组的头部实体与原始三元组头部实体的语义相似性高于其他三元组。TransT利用这些相似性来估计导致相似实体排名更高的先验概率。事实上,这种现象表明先验概率提高了预测性能。

  3. 三。

    WN18上“原始”和“过滤器”设置的结果与FB15K相比差异较小。原因是WN18中基于类型的先验知识比FB15K中的更准确。具体来说,WN18包括4种意义简单的类型:名词、动词、形容词和副词。此外,WN18中的实体只能有一个类型。因此,WN18中的类型具有更强的区分不同实体的能力。

  4. 4

    多向量表示和类型信息这两种方法都有各自的优点。类型信息在原始设置中表现得更好,而多向量表示在过滤器设置中表现的更好。

4.2关系预测

关系预测旨在预测给定两个实体时丢失的关系,即我们预测第页给定\((h,*,t)\).FB15K是此任务的基准数据集。

评估协议。我们采用与实体预测中使用的协议相同的协议。对于每个三重(小时第页t吨)在测试集中,我们替换了关系第页数据集中的每个关系。平均等级和命中@1被视为此任务的评估指标。

实验设置。由于数据集是相同的,我们直接重用文献中几个基线的实验结果。我们已尝试对验证数据集进行多个设置,以获得最佳配置。在“统一”抽样策略下,最优配置为:学习率\(α=0.0001),矢量维数\(k=300),页边距\(伽马=3.0),CRP系数\(β=0.001),相似性权重\(\lambda{head}=\lambda{tail}=1\),\(\lambda_{关系}=0\)

表3。关系预测评价结果

结果。FB15K的评估结果如表所示从结果中,我们观察到:

  1. 1

    TransT显著优于所有基线。与同样利用类型信息的TKRL相比,TransT改进了命中@13.5%,平均等级0.88。

  2. 2

    在“原始”设置中,TransT也可以实现最佳性能。此结果与实体预测任务不同。原因是对关系预测有更多的先验知识。在实体预测任务中,先验知识来源于关系。在关系预测任务中,先验知识是从头部和尾部实体中获得的。后者有更多的先验估计来源。因此,TransT将更多错误的三元组排在原始三元组之后。这进一步支持了先验概率的必要性。

4.3三重分类

三重分类的目的是预测给定的三元组是正确的还是错误的,即我们预测(小时第页t吨). FB15K是该任务的基准数据集。

评估协议。我们采用与实体预测相同的协议。由于FB15K没有明确的阴性样本,我们按照中使用的相同协议构造了阴性三元组[23]。对于每个三重(小时第页t吨)在测试集中,如果其正确性的概率低于阈值\(\西格玛_r\),三元组不正确;否则,这是正确的。阈值\(\{\sigma_r\}\)在带有阴性样本的验证数据集上确定。

实验设置。由于数据集相同,我们直接重用了文献中几个基线的实验结果。我们已尝试对验证数据集进行多个设置,以获得最佳配置。在“统一”抽样策略下,最优配置为:学习率\(α=0.001),矢量维数\(k=300),保证金\(伽马=3.0),CRP系数\(β=0.01),相似性权重\(\lambda{head}=\lambda{tail}=\lambda{relation}=0\)

表4。三级分类评价结果

结果。FB15K的评估结果如表所示4TransT显著优于所有基线。与最佳结果相比,TransT的精度提高了2.5%,是唯一一个精度超过90%的模型。此任务显示了辨别哪个三元组是正确的能力。

4.4语义向量分析

我们分析了语义向量数与不同实体的几个统计特性之间的相关性。我们采用TransT和TransE在FB15K实体预测任务中获得的向量表示。

显示了语义数的数量与不同实体的关系/类型/三元组的平均数量之间的相关性。对于由更多语义向量表示的实体,它具有更多类型,并且在训练集中以更多不同的关系和三元组出现。因此,具有更多语义向量的实体具有更复杂的语义。因此,TransT的结果符合我们对实体语义的理解。

4显示了几个选定实体的预测概率。我们的方法最多为实体生成11个语义向量。具有更多语义向量的实体具有更广泛的概念。因此,与“电影奖”和“2007 NBA选秀”等奖项相比,包括“巴黎”、“阿兰·图灵”在内的热门场所和人群拥有更多的语义向量。与TransE相比,多语义向量提高了大多数实体的预测概率。

图3。
图3

条形图是具有不同语义编号的实体数。左y轴是关系或类型的数量。右边的y轴是三元组的数量。x轴是语义向量的数量。

图4。
图4

10时击球具有不同数量语义向量的11个实体。语义向量的数量放在条形图上方。

5结论

本文提出了一种新的KGC方法TransT,它结合了结构化信息和类型信息。TransT利用基于类型的先验知识,基于CRP为不同上下文中的实体生成语义向量,并优化后验概率估计。该方法充分利用类型信息,准确捕获实体的语义特征。大量实验表明,TransT相对于基线取得了显著改进。