TransC:Differentiating Concepts and Instances for Knowledge Graph Embedding_MsSqlserver

引言

传统方法：

基于翻译的方法：如transe、transd、transh、transr等
使用外部信息，如：
- 实体类型
- 文本描述
- 逻辑规则

这些传统方法的缺点是：忽视了概念与实例之间的区别，这导致了以下问题：

概念表示不足：大多数方法将概念和实例都编码为向量，这无法明确表示概念和实例之间的差异
对于isa关系的敏感性不足：instanceof和subclassof（通常称为isa）是知识图谱中的两种特殊关系。

动机

层次概念：人们心中的概念是按层次组织的。因此，实例应该靠近它们所属的概念。
在transc中，概念被编码为一个球体，实例作为向量在同一语义空间中，采用相对位置来模拟概念和实例之间的关系。

符号与概念

关系集合 $\mathcal{r}=\{r_e,r_c\}\cup\mathcal{r}_l$ ，其中 $r_{l}$ 是实例之间的关系， $r_e$ 是instanceof关系， $r_c$ 是subclassof关系。
instanceof三元组集合 $\mathcal{s_{e}} =\{(i,r_{e} ,c)_{k}\}^{n_{e}}_{k=1},$
其中 $\in \mathcal{i}, c \in c, n_{e}$ 是 $s_{e}$ 的大小
subclassof三元组集合 $\mathcal{s_{c}}=\{(c_{i},r_{c},c_{j})_{k}\}^{n_{c}}_{k=1},$
关系三元组： $\mathcal{s_{l}}=\{h,r,t\}_{k=1}^{n_{l}}$
其中 $\in \mathcal{i}$ , $\in \mathcal{r_{l}}$ 。
概念：对于 $\in \mathcal{c}$ ，我们学习一个球体 $s(\mathbf{p},m)$ ，其中 $\mathbf{p}$ 是球心， $m$ 表示半径。
传递性：
- instanceof-subclassof的传递性关系可以表示为下列等式 $(i,r_{e},c_{1})\in s_{e} \wedge (c_{1},r_{c},c_{2})\in s_{c} \rightarrow (i,r_{e},r_{2})\in s_{e}$
- subclassof-subclassof的传递性可以表示为： $(c_{1},r_{c},c_{2})\in s_{c} \wedge (c_{2},r_{c},c_{3})\in s_{c}\to (c_{1},r_{c},c_{3})\in s_{c}$

方法

不同概念的关系

作者提出了新的损失函数来衡量嵌入空间中的相对位置，并基于翻译模型共同表示概念、实例和关系。

instanceof三元组表示：对于instanceof三元组 $i,r_e,s)$ ，如果为真，则 $\mathbf{i}$ 应该在球体 $s$ 内部，以表示它们之间的instanceof关系。因此，损失函数定义为 $f_{e}(i,c)=\vert \mathbf{i}-\mathbf{p}\vert_{2}-m$
subclassof三元组表示：对于三元组 $c_{i},r_{c},c_{j})$ ，概念 $c_{i},c_{j}$ 被编码

为球体 $s_{i}(p_{i},m_{i})$ 。如果 $c_i$ 是 $c_{j}$ 的子类，则它们的中心应该接近。但是，球体 $s_{i}$ 和 $s_{j}$ 之间存在许多相对位置。因此，损失函数定义为 $\begin{align} &d=\vert p_{i}-p_{j}\vert_{2} & (a)\\ & f_c(c_i,c_j)=||\mathbf{p}_i-\mathbf{p}_j||_2+m_i-m_{j} &\qquad(b) \\ & f_c(c_i,c_j)=||\mathbf{p}_i-\mathbf{p}_j||_2+m_i-m_{j} &\qquad(c) \\ &f_c(c_i,c_j)=m_i-m_{j} &(d) \end{align}$

关系三元组表示：对于 $(h, r, t)$ ，损失函数如transe，定义为 $f_{r}(h,t)=\vert h+r-t\vert_{2}^{2}$

训练方法

`instanceof`三元组

作者使用

$\xi$ 和 $\xi'$ 表示正例和负例三元组。
$\mathcal{s_{e}}$ 和 $\mathcal{s_{e}'}$ 表示正例和负例三元组集合
$x]_{+}$ 表示 $ma x (0, x)$
$\gamma_{e}$ 是正例和负例三元组之间的间隔
$\mathcal{l}_e=\sum_{\xi\in\mathcal{s}_e}\sum_{\xi^{\prime}\in\mathcal{s}_e^{\prime}}[\gamma_e+f_e(\xi)-f_e(\xi^{\prime})]_+,$

`subclassof`三元组

$\mathcal{l}_c=\sum_{\xi\in\mathcal{s}_c}\sum_{\xi^{\prime}\in\mathcal{s}_c^{\prime}}[\gamma_c+f_c(\xi)-f_c(\xi^{\prime})]_+,$

关系三元组

$\mathcal{l}_l=\sum_{\xi\in\mathcal{s}_l}\sum_{\xi^{\prime}\in\mathcal{s}_l^{\prime}}[\gamma_l+f_r(\xi)-f_r(\xi^{\prime})]_+.$

总损失

$\mathcal{l}=\mathcal{l_{e}}+\mathcal{l_{c}}+\mathcal{l_{l}}$

训练集

对于一个真实的关系三元组 $(h, r, t)$ ，通过替换 $h$ 或 $t$ 为 $h^{'}$ 或 $t^{'}$ 来生成负例，其中 $h^{'}$ 是从集合 $\mathcal{m_{t}}=\mathcal{m_{1}} \cup \mathcal{m_{2}} \dots \mathcal{m_{n}}$ 中随机挑选的，其中 $m_{i}=\{a|a\in i \wedge (a,r_{e},c_{i})\in \mathcal{s_{e}} \wedge (t,r_{e},c_{i}) \in \mathcal{s_{e}} \wedge t \neq a \}$ ，也就是从把头实体或者是尾实体换成相同概念的实体或者是不同概念的实体。

生成策略包括：

均匀采样
伯努利采样：基于链接头尾实体数目栏进行采样，数目多的实体被采样的概率更大。

实验

对链接预测和三元组分类进行实验
在这里插入图片描述

TransC:Differentiating Concepts and Instances for Knowledge Graph Embedding

2024年08月03日 • MsSqlserver •我要评论

引言

传统方法：

动机

符号与概念

方法

训练方法

`instanceof`三元组

`subclassof`三元组

关系三元组

总损失

训练集

实验

源代码

相关文章:

发表评论


验证码：

TransC:Differentiating Concepts and Instances for Knowledge Graph Embedding

2024年08月03日 • MsSqlserver •我要评论

引言

传统方法：

动机

符号与概念

方法

训练方法

instanceof三元组

subclassof三元组

关系三元组

总损失

训练集

实验

源代码

相关文章:

发表评论

`instanceof`三元组

`subclassof`三元组