[논문읽기] Hyperbolic KG Embeddings (2020)

Low-Dimensional Hyperbolic Knowledge Graph Embeddings (2020)

Ines Chami1∗, Adva Wolf, Da-Cheng Juan, Frederic Sala, Sujith Ravi and Christopher Re´

https://www.aclweb.org/anthology/2020.acl-main.617.pdf

https://github.com/HazyResearch/KGEmb

Abstract

Knowledge graph (KG) embeddings learn lowdimensional representations of entities and relations to predict missing facts. KGs often exhibit hierarchical and logical patterns which must be preserved in the embedding space. For hierarchical data, hyperbolic embedding methods have shown promise for high-fidelity and parsimonious representations. However, existing hyperbolic embedding methods do not account for the rich logical patterns in KGs. In this work, we introduce a class of hyperbolic KG embedding models that simultaneously capture hierarchical and logical patterns. Our approach combines hyperbolic reflections and rotations with attention to model complex relational patterns. Experimental results on standard KG benchmarks show that our method improves over previous Euclidean- and hyperbolic-based efforts by up to 6.1% in mean reciprocal rank (MRR) in low dimensions. Furthermore, we observe that different geometric transformations capture different types of relations while attentionbased transformations generalize to multiple relations. In high dimensions, our approach yields new state-of-the-art MRRs of 49.6% on WN18RR and 57.7% on YAGO3-10.

지식 그래프 (KG) 임베딩은 실종 사실을 예측하기 위해 엔티티 및 관계의 저차원 표현을 학습합니다. KG는 종종 임베딩 공간에서 보존되어야 하는 계층적 및 논리적 패턴을 나타냅니다. 계층적 데이터의 경우 쌍곡선 임베딩 방법은 충실도와 간결한 표현에 대한 가능성을 보여주었습니다. 그러나 기존 쌍곡선 임베딩 방법은 KG의 풍부한 논리 패턴을 고려하지 않습니다. 이 작업에서는 계층적 및 논리적 패턴을 동시에 캡처하는 쌍곡선 KG 임베딩 모델 클래스를 소개합니다. 우리의 접근 방식은 쌍곡선 반사 및 회전을 복잡한 관계형 패턴 모델링에 대한 주의와 결합합니다. 표준 KG 벤치 마크에 대한 실험 결과는 우리의 방법이 이전의 유클리드 및 쌍곡선 기반 노력보다 낮은 차원에서 평균 상호 순위 (MRR)에서 최대 6.1 %까지 향상되었음을 보여줍니다. 또한, 우리는 주의 기반 변환이 다중 관계로 일반화되는 동안 서로 다른 기하학적 변환이 서로 다른 유형의 관계를 캡처하는 것을 관찰합니다. 높은 차원에서 우리의 접근 방식은 WN18RR에서 49.6 %, YAGO3-10에서 57.7 %의 새로운 최신 MRR을 산출합니다.

  1. Introduction

Knowledge graphs (KGs), consisting of (head entity, relationship, tail entity) triples, are popular data structures for representing factual knowledge to be queried and used in downstream applications such as word sense disambiguation, question answering, and information extraction. Real-world KGs such as Yago (Suchanek et al., 2007) or Wordnet (Miller, 1995) are usually incomplete, so a common approach to predicting missing links in KGs is via embedding into vector spaces. Embedding methods learn representations of entities and relationships that preserve the information found in the graph, and have achieved promising results for many tasks.

Relations found in KGs have differing properties: for example, (Michelle Obama, married to, Barack Obama) is symmetric, whereas hypernym relations like (cat, specific type of, feline), are not (Figure 1). These distinctions present a challenge to embedding methods: preserving each type of behavior requires producing a different geometric pattern in the embedding space. One popular approach is to use extremely high-dimensional embeddings, which offer more flexibility for such patterns. However, given the large number of entities found in KGs, doing so yields very high memory costs.

(헤드 엔터티, 관계, 테일 엔터티) 트리플로 구성된 지식 그래프 (KGs)는 단어 감각 명확화, 질문 답변 및 정보 추출과 같은 다운 스트림 애플리케이션에서 쿼리 및 사용되는 사실적 지식을 나타내는데 널리 사용되는 데이터 구조입니다. Yago (Suchanek et al., 2007) 또는 Wordnet (Miller, 1995)과 같은 실제 KG는 일반적으로 불완전하므로 KG에서 누락된 링크를 예측하는 일반적인 접근 방식은 벡터 공간에 포함하는 것입니다. 임베딩 방법은 그래프에서 찾은 정보를 보존하는 엔티티 및 관계의 표현을 학습하고 많은 작업에서 유망한 결과를 달성했습니다.

KGs에서 발견된 관계는 서로 다른 속성을 가지고 있습니다. 이러한 구분은 임베딩 방법에 도전을 제시합니다. 각 유형의 동작을 보존하려면 임베딩 공간에서 다른 기하학적 패턴을 생성해야합니다. 한가지 인기 있는 접근 방식은 이러한 패턴에 더 많은 유연성을 제공하는 매우 높은 차원의 임베딩을 사용하는 것입니다. 그러나 KG에서 발견되는 많은 수의 엔티티를 고려할 때 이렇게 하면 메모리 비용이 매우 높아집니다.

For hierarchical data, hyperbolic geometry offers an exciting approach to learn low-dimensional embeddings while preserving latent hierarchies. Hyperbolic space can embed trees with arbitrarily low distortion in just two dimensions. Recent research has proposed embedding hierarchical graphs into these spaces instead of conventional Euclidean space (Nickel and Kiela, 2017; Sala et al., 2018). However, these works focus on embedding simpler graphs (e.g., weighted trees) and cannot express the diverse and complex relationships in KGs.

We propose a new hyperbolic embedding approach that captures such patterns to achieve the best of both worlds. Our proposed approach produces the parsimonious representations offered by hyperbolic space, especially suitable for hierarchical relations, and is effective even with lowdimensional embeddings. It also uses rich transformations to encode logical patterns in KGs, previously only defined in Euclidean space. To accomplish this, we (1) train hyperbolic embeddings with relation-specific curvatures to preserve multiple hierarchies in KGs; (2) parameterize hyperbolic isometries (distance-preserving operations) and leverage their geometric properties to capture relations’ logical patterns, such as symmetry or anti-symmetry; (3) and use a notion of hyperbolic attention to combine geometric operators and capture multiple logical patterns.

계층적 데이터의 경우 쌍곡선 기하학은 잠재 계층을 보존하면서 저차원 임베딩을 학습할 수 있는 흥미로운 접근 방식을 제공합니다. 쌍곡선 공간은 2 차원에서 임의적으로 낮은 왜곡으로 나무를 포함할 수 있습니다. 최근 연구에서는 기존의 유클리드 공간 대신 ​​이러한 공간에 계층적 그래프를 삽입할 것을 제안했습니다 (Nickel and Kiela, 2017; Sala et al., 2018). 그러나 이러한 작업은 더 간단한 그래프 (예 : 가중치 트리)를 포함하는데 초점을 맞추고 KG에서 다양하고 복잡한 관계를 표현할 수 없습니다.

우리는 이러한 패턴을 포착하여 두 세계의 최고를 달성하는 새로운 쌍곡선 임베딩 접근 방식을 제안합니다. 우리가 제안한 접근 방식은 쌍곡선 공간이 제공하는 간결한 표현을 생성하며 특히 계층 적 관계에 적합하며 저 차원 임베딩에서도 효과적입니다. 또한 풍부한 변환을 사용하여 이전에는 유클리드 공간에서만 정의된 KG의 논리 패턴을 인코딩합니다. 이를 달성하기 위해 (1) 관계별 곡률을 사용하여 쌍곡선 임베딩을 훈련하여 KG에서 여러 계층을 유지합니다. (2) 쌍곡선 등거리 (거리 보존 작업)를 매개 변수화하고 기하학적 속성을 활용하여 대칭 또는 반대칭과 같은 관계의 논리적 패턴을 캡처합니다. (3) 하이퍼 볼릭주의 개념을 사용하여 기하학적 연산자를 결합하고 여러 논리 패턴을 캡처합니다.

We evaluate the performance of our approach, ATTH, on the KG link prediction task using the standard WN18RR (Dettmers et al., 2018; Bordes et al., 2013), FB15k-237 (Toutanova and Chen, 2015) and YAGO3-10 (Mahdisoltani et al., 2013) benchmarks. (1) In low (32) dimensions, we improve over Euclidean-based models by up to 6.1% in the mean reciprocical rank (MRR) metric. In particular, we find that hierarchical relationships, such as WordNet’s hypernym and member meronym, significantly benefit from hyperbolic space; we observe a 16% to 24% relative improvement versus Euclidean baselines. (2) We find that geometric properties of hyperbolic isometries directly map to logical properties of relationships. We study symmetric and anti-symmetric patterns and find that reflections capture symmetric relations while rotations capture anti-symmetry. (3) We show that attention based-transformations have the ability to generalize to multiple logical patterns. For instance, we observe that ATTH recovers reflections for symmetric relations and rotations for the antisymmetric ones.

In high (500) dimensions, we find that both hyperbolic and Euclidean embeddings achieve similar performance, and our approach achieves new stateof-the-art results (SotA), obtaining 49.6% MRR on WN18RR and 57.7% YAGO3-10. Our experiments show that trainable curvature is critical to generalize hyperbolic embedding methods to highdimensions. Finally, we visualize embeddings learned in hyperbolic spaces and show that hyperbolic geometry effectively preserves hierarchies in KGs.

표준 WN18RR (Dettmers et al., 2018; Bordes et al., 2013), FB15k-237 (Toutanova and Chen, 2015) 및 YAGO3-10을 사용하여 KG 링크 예측 작업에 대한 접근 방식 ATTH의 성능을 평가합니다. (Mahdisoltani et al., 2013) 벤치 마크. (1) 낮은 (32) 차원에서는 평균 상호 순위 (MRR) 메트릭에서 유클리드 기반 모델보다 최대 6.1 % 향상되었습니다. 특히, 우리는 WordNet의 초 명과 멤버 meronym과 같은 계층적 관계가 쌍곡선 공간에서 상당한 이점을 얻는다는 것을 발견했습니다. 우리는 유클리드 기준선에 비해 16 %에서 24 %의 상대적 개선을 관찰했습니다. (2) 쌍곡선 아이 소메 트리의 기하학적 속성은 관계의 논리적 속성에 직접 매핑됩니다. 대칭 및 비대칭 패턴을 연구하고 반사는 대칭 관계를 포착하는 반면 회전은 비대칭 패턴을 포착합니다. (3) 주의 기반 변환이 여러 논리 패턴으로 일반화 할 수 있음을 보여줍니다. 예를 들어, 우리는 ATTH가 대칭 관계에 대한 반사와 비대칭 관계에 대한 회전을 복구하는 것을 관찰합니다.

높은 (500) 차원에서 쌍곡선 및 유클리드 임베딩 모두 유사한 성능을 달성하고 우리의 접근 방식은 WN18RR에서 49.6 % MRR 및 57.7 % YAGO3-10을 획득하여 새로운 최첨단 결과 (SotA)를 달성합니다. 우리의 실험은 훈련 가능한 곡률이 하이퍼 볼릭 임베딩 방법을 고차원으로 일반화하는 데 중요하다는 것을 보여줍니다. 마지막으로 쌍곡선 공간에서 학습한 임베딩을 시각화하고 쌍곡선 기하학이 KG의 계층 구조를 효과적으로 보존함을 보여줍니다.

  1. Related Work

Previous methods for KG embeddings also rely on geometric properties. Improvements have been obtained by exploiting either more sophisticated spaces (e.g., going from Euclidean to complex or hyperbolic space) or more sophisticated operations (e.g., from translations to isometries, or to learning graph neural networks). In contrast, our approach takes a step forward in both directions.

KG 임베딩에 대한 이전 방법도 기하학적 특성에 의존합니다. 보다 정교한 공간 (예 : 유클리드 공간에서 복잡한 공간 또는 쌍곡선 공간으로 이동) 또는 보다 정교한 작업 (예 : 번역에서 등거리 변환 또는 그래프 신경망 학습)을 활용하여 개선되었습니다. 대조적으로, 우리의 접근 방식은 양방향으로 한걸음 나아갑니다.

Euclidean embeddings

In the past decade, there has been a rich literature on Euclidean embeddings for KG representation learning. These include translation approaches (Bordes et al., 2013; Ji et al., 2015; Wang et al., 2014; Lin et al., 2015) or tensor factorization methods such as RESCAL (Nickel et al., 2011) or DistMult (Yang et al., 2015). While these methods are fairly simple and have few parameters, they fail to encode important logical properties (e.g., translations can’t encode symmetry).

지난 10 년 동안 KG 표현 학습을위한 유클리드 임베딩에 대한 풍부한 문헌이있었습니다. 여기에는 번역 접근법 (Bordes et al., 2013; Ji et al., 2015; Wang et al., 2014; Lin et al., 2015) 또는 RESCAL (Nickel et al., 2011) 또는 DistMult와 같은 텐서 분해 방법이 포함됩니다. (Yang et al., 2015). 이러한 방법은 매우 간단하고 매개 변수가 거의 없지만 중요한 논리적 속성을 인코딩하지 못합니다 (예 : 번역은 대칭을 인코딩 할 수 없음).

Complex embeddings

Recently, there has been interest in learning embeddings in complex space, as in the ComplEx (Trouillon et al., 2016) and RotatE (Sun et al., 2019) models. RotatE learns rotations in complex space, which are very effective in capturing logical properties such as symmetry, anti-symmetry, composition or inversion. The recent QuatE model (Zhang et al., 2019) learns KG embeddings using quaternions. However, a downside is that these embeddings require very highdimensional spaces, leading to high memory costs.

최근 ComplEx (Trouillon et al., 2016) 및 RotatE (Sun et al., 2019) 모델과 같이 복잡한 공간에서 임베딩을 학습하는 데 관심이 있습니다. RotatE는 복잡한 공간에서 회전을 학습하여 대칭, 반대칭, 구성 또는 반전과 같은 논리적 속성을 캡처하는 데 매우 효과적입니다. 최근 QuatE 모델 (Zhang et al., 2019)은 쿼터니언을 사용하여 KG 임베딩을 학습합니다. 그러나 단점은 이러한 임베딩에 매우 높은 차원의 공간이 필요하여 메모리 비용이 높다는 것입니다.

Deep neural networks

Another family of methods uses neural networks to produce KG embeddings. For instance, R-GCN (Schlichtkrull et al., 2018) extends graph neural networks to the multirelational setting by adding a relation-specific aggregation step. ConvE and ConvKB (Dettmers et al., 2018; Nguyen et al., 2018) leverage the expressiveness of convolutional neural networks to learn entity embeddings and relation embeddings. More recently, the KBGAT (Nathani et al., 2019) and A2N (Bansal et al., 2019) models use graph attention networks for knowledge graph embeddings. A downside of these methods is that they are computationally expensive as they usually require pre-trained KG embeddings as input for the neural network.

또 다른 방법 군은 신경망을 사용하여 KG 임베딩을 생성합니다. 예를 들어 R-GCN (Schlichtkrull et al., 2018)은 관계별 집계 단계를 추가하여 그래프 신경망을 다중 관계 설정으로 확장합니다. ConvE 및 ConvKB (Dettmers et al., 2018; Nguyen et al., 2018)는 컨벌루션 신경망의 표현성을 활용하여 엔티티 임베딩 및 관계 임베딩을 학습합니다. 최근에 KBGAT (Nathani et al., 2019) 및 A2N (Bansal et al., 2019) 모델은 지식 그래프 임베딩에 그래프 주의 네트워크를 사용합니다. 이러한 방법의 단점은 일반적으로 신경망에 대한 입력으로 사전 훈련된 KG 임베딩이 필요하기 때문에 계산 비용이 많이 든다는 것입니다.

Hyperbolic embeddings

To the best of our knowledge, MuRP (Balazevic et al., 2019) is the only method that learns KG embeddings in hyperbolic space in order to target hierarchical data. MuRP minimizes hyperbolic distances between a re-scaled version of the head entity embedding and a translation of the tail entity embedding. It achieves promising results using hyperbolic embeddings with fewer dimensions than its Euclidean analogues. However, MuRP is a translation model and fails to encode some logical properties of relationships. Furthermore, embeddings are learned in a hyperbolic space with fixed curvature, potentially leading to insufficient precision, and training relies on cumbersome Riemannian optimization. Instead, our proposed method leverages expressive hyperbolic isometries to simultaneously capture logical patterns and hierarchies. Furthermore, embeddings are learned using tangent space (i.e., Euclidean) optimization methods and trainable hyperbolic curvatures per relationship, avoiding precision errors that might arise when using a fixed curvature, and providing flexibility to encode multiple hierarchies.

우리가 아는 한, MuRP (Balazevic et al., 2019)는 계층적 데이터를 대상으로하기 위해 쌍곡선 공간에서 KG 임베딩을 학습하는 유일한 방법입니다. MuRP는 재조정 된 버전의 헤드 엔티티 임베딩과 꼬리 엔티티 임베딩의 변환 사이의 쌍곡선 거리를 최소화 합니다. 유클리드 유사체보다 더 적은 차원의 쌍곡선 임베딩을 사용하여 유망한 결과를 얻습니다. 그러나 MuRP는 번역 모델이며 관계의 일부 논리적 속성을 인코딩하지 못합니다. 또한 임베딩은 곡률이 고정된 쌍곡선 공간에서 학습되어 잠재적으로 정밀도가 불충분하며 훈련은 번거로운 리만 최적화에 의존합니다. 대신, 우리가 제안한 방법은 논리 패턴과 계층을 동시에 캡처하기 위해 표현 쌍곡선 등거리를 활용합니다. 또한 임베딩은 탄젠트 공간 (즉, 유클리드) 최적화 방법과 관계 당 훈련 가능한 쌍곡선 곡률을 사용하여 학습되며, 고정 곡률을 사용할 때 발생할 수있는 정밀도 오류를 방지하고 여러 계층을 인코딩 할 수 있는 유연성을 제공합니다.

  1. Problem Formulation and Background

We describe the KG embedding problem setting and give some necessary background on hyperbolic geometry.

우리는 KG 임베딩 문제 설정을 설명하고 쌍곡선 기하학에 필요한 배경을 제공합니다.

3.1 Knowledge graph embeddings

In the KG embedding problem, we are given a set of triples (h, r, t) ∈ E ⊆ V × R × V, where V and R are entity and relationship sets, respectively. The goal is to map entities v ∈ V to embeddings ev ∈ UdV and relationships r ∈ R to embeddings rr ∈ UdR, for some choice of space U (traditionally R), such that the KG structure is preserved. Concretely, the data is split into ET rain and ET est triples. Embeddings are learned by optimizing a scoring function s : V × R × V → R, which measures triples’ likelihoods. s(·, ·, ·) is trained using triples in ET rain and the learned embeddings are then used to predict scores for triples in ET est. The goal is to learn embeddings such that the scores of triples in ET est are high compared to triples that are not present in E.

KG 임베딩 문제에서 트리플 세트 (h, r, t) ∈ E ⊆ V × R × V가 주어지며, 여기서 V와 R은 각각 엔티티와 관계 세트입니다. 목표는 일부 공간 U (전통적으로 R) 선택에 대해 엔티티 v ∈ V를 임베딩 ev ∈ UdV에 매핑하고 관계 r ∈ R을 임베딩 rr ∈ UdR에 매핑하여 KG 구조가 유지되도록하는 것입니다. 구체적으로 데이터는 ET rain과 ET est triple로 나뉩니다. 임베딩은 점수 매기기 함수 s : V × R × V → R을 최적화하여 학습합니다.이 기능은 트리플 가능성을 측정합니다. s (·, ·, ·)는 ET 비에서 트리플을 사용하여 훈련되고 학습 된 임베딩은 ET est에서 트리플에 대한 점수를 예측하는 데 사용됩니다. 목표는 ET est의 트리플 점수가 다음과 비교하여 높도록 임베딩을 학습하는 것입니다. E에 존재하지 않는 트리플.

3.2 Hyperbolic geometry

We briefly review key notions from hyperbolic geometry; a more in-depth treatment is available in standard texts (Robbin and Salamon). Hyperbolic geometry is a non-Euclidean geometry with constant negative curvature. In this work, we use the d-dimensional Poincare ball model with negative curvature −c (c > 0): Bd,c = {x ∈ Rd : ||x||2 < 1c}, where || · || denotes the L2 norm. For each point x ∈ Bd,c, the tangent space Tcx is a d-dimensional vector space containing all possible directions of paths in Bd,c leaving from x.

The tangent space Tcx maps to Bd,c via the exponential map (Figure 2), and conversely, the logarithmic map maps Bd,c to Tcx. In particular, we have closed-form expressions for these maps at the origin:

Vector addition is not well-defined in the hyperbolic space (adding two points in the Poincare ball might result in a point outside the ball). Instead, Mobius addition ⊕c (Ganea et al., 2018) provides an analogue to Euclidean addition for hyperbolic space. We give its closed-form expression in Appendix A.1. Finally, the hyperbolic distance on Bd,c has the explicit formula:

쌍곡선 기하학의 핵심 개념을 간략하게 검토합니다. 보다 심층적인 처리는 표준 텍스트 (Robbin 및 Salamon)에서 사용할 수 있습니다. 쌍곡선 기하학은 음의 곡률이 일정한 비유클리드 기하학입니다. 이 작업에서는 음의 곡률 −c (c> 0)를 갖는 d 차원 Poincare 공 모델을 사용합니다. Bd, c = {x ∈ Rd : || x || 2 <1c}, 여기서 || · || L2 표준을 나타냅니다. 각 점 x ∈ Bd, c에 대해 접선 공간 Tcx는 x에서 출발하는 Bd, c 경로의 가능한 모든 방향을 포함하는 d 차원 벡터 공간입니다.

접선 공간 Tcx는 지수 맵 (그림 2)을 통해 Bd, c에 매핑되고, 반대로 로그 맵은 Bd, c를 Tcx에 매핑합니다. 특히, 우리는 원점에서 이러한 지도에 대한 폐쇄형 표현식을 가지고 있습니다.

벡터 추가는 쌍곡선 공간에서 잘 정의되어 있지 않습니다 (Poincare 공에 두 점을 추가하면 공 외부에 점이 생길 수 있습니다). 대신 Mobius 덧셈 ⊕c (Ganea et al., 2018)는 쌍곡선 공간에 대한 유클리드 덧셈과 유사합니다. 우리는 부록 A.1에서 폐쇄 형 표현을 제공합니다. 마지막으로 Bd, c의 쌍곡선 거리는 다음과 같은 명시 적 공식을 갖습니다.

  1. Methodology

The goal of this work is to learn parsimonious hyperbolic embeddings that can encode complex logical patterns such as symmetry, anti-symmetry, or inversion while preserving latent hierarchies. Our model, ATTH, (1) learns KG embeddings in hyperbolic space in order to preserve hierarchies (Section 4.1), (2) uses a class of hyperbolic isometries parameterized by compositions of Givens transformations to encode logical patterns (Section 4.2), (3) combines these isometries with hyperbolic attention (Section 4.3). We describe the full model in Section 4.4.

이 작업의 목표는 잠재적인 계층을 보존하면서 대칭, 반대칭 또는 반전과 같은 복잡한 논리 패턴을 인코딩 할 수있는 간결한 쌍곡선 임베딩을 학습하는 것입니다. 우리의 모델 ATTH, (1)은 계층 구조를 보존하기 위해 쌍곡선 공간에서 KG 임베딩을 학습합니다 (섹션 4.1), (2) 논리 패턴을 인코딩하기 위해 Givens 변환의 구성으로 매개 변수화 된 쌍곡선 등거리 클래스를 사용합니다 (섹션 4.2), (3)은 이러한 등거리를 쌍곡선주의 (4.3 절)와 결합합니다. 섹션 4.4에서 전체 모델을 설명합니다.

4.1 Hierarchies in hyperbolic space

As described, hyperbolic embeddings enable us to represent hierarchies even when we limit ourselves to low-dimensional spaces. In fact, twodimensional hyperbolic space can represent any tree with arbitrarily small error (Sala et al., 2018).

It is important to set the curvature of the hyperbolic space correctly. This parameter provides flexibility to the model, as it determines whether to embed relations into a more curved hyperbolic space (more “tree-like”), or into a flatter, more “Euclidean-like” geometry. For each relation, we learn a relation-specific absolute curvature cr, enabling us to represent a variety of hierarchies. As we show in Section 5.5, fixing, rather than learning curvatures can lead to significant performance degradation.

설명했듯이 쌍곡선 임베딩을 사용하면 저차원 공간으로 제한하더라도 계층 구조를 나타낼 수 있습니다. 실제로 2 차원 쌍곡선 공간은 임의의 작은 오차를 가진 모든 트리를 나타낼 수 있습니다 (Sala et al., 2018).

쌍곡선 공간의 곡률을 올바르게 설정하는 것이 중요합니다. 이 매개 변수는 관계를보다 곡선적인 쌍곡선 공간 (보다 “나무와 유사한”) 또는 더 평평하고 “유클리드와 같은” 형상에 포함할지 여부를 결정하므로 모델에 유연성을 제공합니다. 각 관계에 대해 관계 별 절대 곡률 cr을 학습하여 다양한 계층을 나타낼 수 있습니다. 섹션 5.5에서 볼 수 있듯이 곡률을 배우는 대신 수정하면 성능이 크게 저하 될 수 있습니다.

4.2 Hyperbolic isometries

Relationships often satisfy particular properties, such as symmetry: e.g., if (Michelle Obama, married to, Barack Obama) holds, then (Barack Obama, married to, Michelle Obama) does as well. These rules are not universal. For instance, (Barack Obama, born in, Hawaii) is not symmetric.

Creating and curating a set of deterministic rules is infeasible for large-scale KGs; instead, embedding methods represent relations as parameterized geometric operations that directly map to logical properties. We use two such operations in hyperbolic space: rotations, which effectively capture compositions or anti-symmetric patterns, and reflections, which naturally encode symmetric patterns.

관계는 종종 대칭과 같은 특정 속성을 충족합니다. 예를 들어 (Michelle Obama, 결혼, Barack Obama)가 유지하면 (Barack Obama, 결혼, Michelle Obama)도 마찬가지입니다. 이러한 규칙은 보편적이지 않습니다. 예를 들어, (하와이에서 태어난 버락 오바마)는 대칭이 아닙니다.

결정 론적 규칙 세트를 만들고 큐레이팅하는 것은 대규모 KG에 대해 실행 불가능합니다. 대신 임베딩 방법은 관계를 논리적 속성에 직접 매핑되는 매개 변수화 된 기하학적 연산으로 나타냅니다. 우리는 쌍곡선 공간에서 두 가지 작업을 사용합니다. 즉, 구성이나 반대 칭 패턴을 효과적으로 캡처하는 회전과 대칭 패턴을 자연스럽게 인코딩하는 반사입니다.

Rotations

Rotations have been successfully used to encode compositions in complex space with the RotatE model (Sun et al., 2019); we lift these to hyperbolic space. Compared to translations or tensor factorization approaches which can only infer some logical patterns, rotations can simultaneously model and infer inversion, composition, symmetric or anti-symmetric patterns.

RotatE 모델을 사용하여 복잡한 공간에서 컴포지션을 인코딩하는 데 회전이 성공적으로 사용되었습니다 (Sun et al., 2019). 우리는 이것을 쌍곡선 공간으로 들어 올립니다. 일부 논리 패턴 만 추론 할 수 있는 변환 또는 텐서 분해 접근법과 비교하여 회전은 반전, 구성, 대칭 또는 반대칭 패턴을 동시에 모델링하고 추론할 수 있습니다.

Reflections

These isometries reflect along a fixed subspace. While some rotations can represent symmetric relations (more specifically π−rotations), any reflection can naturally represent symmetric relations, since their second power is the identity. They provide a way to fill-in missing entries in symmetric triples, by applying the same operation to both the tail and the head entity. For instance, by modelling sibling of with a reflection, we can directly infer (Bob, sibling of, Alice) from (Alice, sibling of, Bob) and vice versa.

이러한 등거리는 고정 된 부분 공간을 따라 반영됩니다. 일부 회전은 대칭 관계 (더 구체적으로는 π- 회전)를 나타낼 수 있지만, 두 번째 힘이 동일하므로 모든 반사는 자연스럽게 대칭 관계를 나타낼 수 있습니다. 꼬리 및 머리 엔터티 모두에 동일한 작업을 적용하여 대칭 트리플에서 누락 된 항목을 채우는 방법을 제공합니다. 예를 들어,의 형제를 리플렉션으로 모델링하면 (Alice, sibling of, Bob)에서 (Bob, sibling of, Alice)를 직접 추론 할 수 있으며 그 반대의 경우도 마찬가지입니다.

Parameterization

Unlike RotatE which models rotations via unitary complex numbers, we learn relationship-specific isometries using Givens transformations, 2 × 2 matrices commonly used in numerical linear algebra. Let Θr := (θr,i) i∈{1,…d2} and Φr := (φr,i) i∈{1,…d2} denote relation-specific parameters. Using an even number of dimensions d, our model parameterizes rotations and reflections with block-diagonal matrices of the form:

Rotations and reflections of this form are hyperbolic isometries (distance-preserving). We can therefore directly apply them to hyperbolic embeddings while preserving the underlying geometry. Additionally, these transformations are computationally efficient and can be computed in linear time in the dimension. We illustrate two-dimensional isometries in both Euclidean and hyperbolic spaces in Figure 3.

단일 복소수를 통해 회전을 모델링하는 RotatE와 달리, 우리는 숫자 선형 대수에서 일반적으로 사용되는 2 × 2 행렬인 기븐스 변환을 사용하여 관계별 등거리를 학습합니다. Θr : = (θr, i) i∈ {1, … d2} 및 Φr : = (φr, i) i∈ {1, … d2}는 관계별 매개 변수를 나타냅니다. 짝수 차원 d를 사용하여 모델은 다음 형식의 블록 대각선 행렬로 회전 및 반사를 매개 변수화합니다.

이 형태의 회전 및 반사는 쌍곡선 등거리 (거리 보존)입니다. 따라서 기본 지오메트리를 유지하면서 쌍곡선 임베딩에 직접 적용 할 수 있습니다. 또한 이러한 변환은 계산적으로 효율적이며 차원에서 선형 시간으로 계산할 수 있습니다. 그림 3에서는 유클리드 공간과 쌍곡선 공간 모두에서 2 차원 등거리를 보여줍니다.

4.3 Hyperbolic attention

Of our two classes of hyperbolic isometries, one or the other may better represent a particular relation. To handle this, we use an attention mechanism to learn the right isometry. Thus we can represent symmetric, anti-symmetric or mixed-behaviour relations (i.e. neither symmetric nor anti-symmetric) as a combination of rotations and reflections.

Let xH and yH be hyperbolic points (e.g., reflection and rotation embeddings), and a be an attention vector. Our approach maps hyperbolic representations to tangent space representations, xE = logc0(xH) and yE = logc0(yH), and computes attention scores:

We then compute a weighted average using the recently proposed tangent space average (Chami et al., 2019; Liu et al., 2019):

쌍곡선 등거리의 두 가지 클래스 중 하나 또는 다른 클래스가 특정 관계를 더 잘 나타낼 수 있습니다. 이를 처리하기 위해주의 메커니즘을 사용하여 올바른 등거리 변환을 학습합니다. 따라서 대칭, 반대 칭 또는 혼합 행동 관계 (즉, 대칭도 반대 칭도 아님)를 회전과 반사의 조합으로 나타낼 수 있습니다.

xH와 yH를 쌍곡 점 (예 : 반사 및 회전 임베딩)으로하고 a를 주의 벡터로 지정합니다. 우리의 접근 방식은 쌍곡선 표현을 접선 공간 표현 xE = logc0 (xH) 및 yE = logc0 (yH)에 매핑하고 주의 점수를 계산합니다.

그런 다음 최근에 제안된 탄젠트 공간 평균을 사용하여 가중 평균을 계산합니다 (Chami et al., 2019; Liu et al., 2019) :

4.4 The ATTH model

We have all of the building blocks for ATTH, and can now describe the model architecture. Let (eHv) v∈V and (rHr) r∈R denote entity and relationship hyperbolic embeddings respectively. For a triple (h, r, t) ∈ V × R × V, ATTH applies relation-specific rotations (Equation 4) and reflections (Equation 5) to the head embedding:

ATTH then combines the two representations using hyperbolic attention (Equation 7) and applies a hyperbolic translation:

Intuitively, rotations and reflections encode logical patterns while translations capture tree-like structures by moving between levels of the hierarchy. Finally, query embeddings are compared to target tail embeddings via the hyperbolic distance (Equation 3). The resulting scoring function is:

where (bv)v∈V are entity biases which act as margins in the scoring function (Tifrea et al., 2019; Balazevic et al., 2019).

The model parameters are then {(Θr, Φr, rHr, ar, cr) r∈R, (eHv, bv) v∈V}. Note that the total number of parameters in ATTH is O(|V|d), similar to traditional models that do not use attention or geometric operations. The extra cost is proportional to the number of relations, which is usually much smaller than the number of entities.

우리는 ATTH의 모든 빌딩 블록을 가지고 있으며 이제 모델 아키텍처를 설명 할 수 있습니다. (eHv) v∈V 및 (rHr) r∈R은 각각 엔티티 및 관계 쌍곡선 임베딩을 나타냅니다. 트리플 (h, r, t) ∈ V × R × V의 경우 ATTH는 관계 별 회전 (방정식 4) 및 반사 (방정식 5)를 헤드 임베딩에 적용합니다.

그런 다음 ATTH는 쌍곡선주의 (수식 7)를 사용하여 두 표현을 결합하고 쌍곡선 변환을 적용합니다.

직관적으로 회전 및 반사는 논리적 패턴을 인코딩하는 반면 번역은 계층 구조 수준 사이를 이동하여 나무와 같은 구조를 캡처합니다. 마지막으로 쿼리 임베딩은 쌍곡선 거리를 통해 대상 꼬리 임베딩과 비교됩니다 (수식 3). 결과 점수 기능은 다음과 같습니다.

여기서 (bv) v∈V는 스코어링 함수에서 마진 역할을 하는 엔티티 편향입니다 (Tifrea et al., 2019; Balazevic et al., 2019).

그러면 모델 매개 변수는 {(Θr, Φr, rHr, ar, cr) r∈R, (eHv, bv) v∈V} 입니다. ATTH의 총 매개 변수 수는 주의 또는 기하학적 연산을 사용하지 않는 기존 모델과 유사하게 O (| V | d)입니다. 추가 비용은 관계 수에 비례하며 일반적으로 엔티티 수보다 훨씬 적습니다.

  1. Experiments

In low dimensions, we hypothesize (1) that hyperbolic embedding methods obtain better representations and allow for improved downstream performance for hierarchical data (Section 5.2). (2) We expect the performance of relation-specific geometric operations to vary based on the relation’s logical patterns (Section 5.3). (3) In cases where the relations are neither purely symmetric nor antisymmetric, we anticipate that hyperbolic attention outperforms the models which are based on solely reflections or rotations (Section 5.4). Finally, in high dimensions, we expect hyperbolic models with trainable curvature to learn the best geometry, and perform similarly to their Euclidean analogues (Section 5.5).

낮은 차원에서 우리는 쌍곡선 임베딩 방법이 더 나은 표현을 얻고 계층 적 데이터에 대해 향상된 다운 스트림 성능을 허용한다고 가정합니다 (1) (섹션 5.2). (2) 관계 별 기하학적 연산의 성능은 관계식의 논리 패턴에 따라 달라질 것으로 예상됩니다 (섹션 5.3). (3) 관계가 순전히 대칭도 아니고 비대칭도 아닌 경우, 쌍곡선주의는 오로지 반사 나 회전만을 기반으로하는 모델을 능가 할 것으로 예상합니다 (섹션 5.4). 마지막으로, 높은 차원에서 우리는 훈련 가능한 곡률을 가진 쌍곡선 모델이 최상의 지오메트리를 학습하고 유클리드 유사체 (섹션 5.5)와 유사하게 수행 할 것으로 기대합니다.

5.1 Experimental setup

Datasets

We evaluate our approach on the link prediction task using three standard competition benchmarks, namely WN18RR (Bordes et al., 2013; Dettmers et al., 2018), FB15k-237 (Bordes et al., 2013; Toutanova and Chen, 2015) and YAGO3-10 (Mahdisoltani et al., 2013). WN18RR is a subset of WordNet containing 11 lexical relationships between 40,943 word senses, and has a natural hierarchical structure, e.g., (car, hypernym of, sedan). FB15k-237 is a subset of Freebase, a collaborative KB of general world knowledge. FB15k-237 has 14,541 entities and 237 relationships, some of which are non-hierarchical, such as born-in or nationality, while others have natural hierarchies, such as part-of (for organizations). YAGO3-10 is a subset of YAGO3, containing 123,182 entities and 37 relations, where most relations provide descriptions of people. Some relationships have a hierarchical structure such as playsFor or actedIn, while others induce logical patterns, like isMarriedTo.

For each KG, we follow the standard data augmentation protocol by adding inverse relations (Lacroix et al., 2018) to the datasets. Additionally, we estimate the global graph curvature ξG (Guet al., 2019) (see Appendix A.2 for more details), which is a distance-based measure of how close a given graph is to being a tree. We summarize the datasets’ statistics in Table 1.

우리는 WN18RR (Bordes et al., 2013; Dettmers et al., 2018), FB15k-237 (Bordes et al., 2013; Toutanova and Chen, 2015)의 세 가지 표준 경쟁 벤치 마크를 사용하여 링크 예측 작업에 대한 접근 방식을 평가합니다. 및 YAGO3-10 (Mahdisoltani et al., 2013). WN18RR은 40,943 개의 단어 감각 사이에 11 개의 어휘 관계를 포함하는 WordNet의 하위 집합이며, 예를 들어 (car, hypernym of, sedan)과 같은 자연스러운 계층 구조를 가지고 있습니다. FB15k-237은 일반 세계 지식의 공동 KB 인 Freebase의 하위 집합입니다. FB15k-237에는 14,541 개의 엔티티와 237 개의 관계가 있으며, 그중 일부는 출생 또는 국적과 같은 비 계층 적이며 다른 일부는 일부 (조직의 경우)와 같은 자연 계층을 가지고 있습니다. YAGO3-10은 123,182 개의 엔티티와 37 개의 관계를 포함하는 YAGO3의 하위 집합으로, 대부분의 관계는 사람에 대한 설명을 제공합니다. 일부 관계에는 playsFor 또는 actedIn과 같은 계층 구조가있는 반면 다른 관계는 isMarriedTo와 같은 논리 패턴을 유도합니다.

각 KG에 대해 데이터 세트에 역 관계 (Lacroix et al., 2018)를 추가하여 표준 데이터 증가 프로토콜을 따릅니다. 또한, 우리는 주어진 그래프가 나무에 얼마나 가까운 지에 대한 거리 기반 측정 인 글로벌 그래프 곡률 ξG (Guet al., 2019) (자세한 내용은 부록 A.2 참조)를 추정합니다. 표 1에는 데이터 세트의 통계가 요약되어 있습니다.

Baselines

We compare our method to SotA models, including MurP (Balazevic et al., 2019), MurE (which is the Euclidean analogue or MurP), RotatE (Sun et al., 2019), ComplEx-N3 (Lacroix et al., 2018) and TuckER (Balazevic et al., 2019). Baseline numbers in high dimensions (Table 5) are taken from the original papers, while baseline numbers in the low-dimensional setting (Table 2) are computed using open-source implementations of each model. In particular, we run hyper-parameter searches over the same parameters as the ones in the original papers to compute baseline numbers in the lowdimensional setting.

우리는 MurP (Balazevic et al., 2019), MurE (유클리드 아날로그 또는 MurP), RotatE (Sun et al., 2019), ComplEx-N3 (Lacroix et al., 2018)을 포함한 SotA 모델과 우리의 방법을 비교합니다. ) 및 TuckER (Balazevic et al., 2019). 높은 차원의 기준 수치 (표 5)는 원본 논문에서 가져온 반면, 저 차원 설정 (표 2)의 기준 수치는 각 모델의 오픈 소스 구현을 사용하여 계산됩니다. 특히, 저 차원 설정에서 기준 수치를 계산하기 위해 원본 논문의 것과 동일한 매개 변수에 대해 하이퍼 매개 변수 검색을 실행합니다.

Ablations

To analyze the benefits of hyperbolic geometry, we evaluate the performance of ATTE, which is equivalent to ATTH with curvatures set to zero. Additionally, to better understand the role of attention, we report scores for variants of ATTE/H using only rotations (ROTE/H) or reflections (REFE/H).

쌍곡선 기하학의 이점을 분석하기 위해 곡률이 0으로 설정된 ATTH와 동일한 ATTE의 성능을 평가합니다. 또한주의의 역할을 더 잘 이해하기 위해 회전 (ROTE / H) 또는 반사 (REFE / H) 만 사용하여 ATTE / H 변형에 대한 점수를 보고합니다.

Evaluation metrics

At test time, we use the scoring function in Equation 10 to rank the correct tail or head entity against all possible entities, and use in use inverse relations for head prediction (Lacroix et al., 2018). Similar to previous work, we compute two ranking-based metrics: (1) mean reciprocal rank (MRR), which measures the mean of inverse ranks assigned to correct entities, and (2) hits at K (H@K, K ∈ {1, 3, 10}), which measures the proportion of correct triples among the top K predicted triples. We follow the standard evaluation protocol in the filtered setting (Bordes et al., 2013): all true triples in the KG are filtered out during evaluation, since predicting a low rank for these triples should not be penalized.

테스트 시간에 식 10의 점수 함수를 사용하여 가능한 모든 개체에 대해 올바른 꼬리 또는 머리 개체의 순위를 매기고 머리 예측에 역 관계를 사용합니다 (Lacroix et al., 2018). 이전 작업과 유사하게 두 가지 순위 기반 메트릭을 계산합니다. (1) 올바른 엔터티에 할당 된 역 순위의 평균을 측정하는 평균 상호 순위 (MRR)와 (2) K에서의 적중 (H @ K, K ∈ { 1, 3, 10}), 상위 K 개의 예측 트리플 중 올바른 트리플의 비율을 측정합니다. 필터링 된 설정 (Bordes et al., 2013)에서 표준 평가 프로토콜을 따릅니다. KG의 모든 실제 트리플은 평가 중에 필터링됩니다. 이러한 트리플에 대한 낮은 순위를 예측하면 불이익을 주어서는 안됩니다.

Training procedure and implementation

We train ATTH by minimizing the full cross-entropy loss with uniform negative sampling, where negative examples for a triple (h, r, t) are sampled uniformly from all possible triples obtained by perturbing the tail entity:

Since optimization in hyperbolic space is practically challenging, we instead define all parameters in the tangent space at the origin, optimize embeddings using standard Euclidean techniques, and use the exponential map to recover the hyperbolic parameters (Chami et al., 2019). We provide more details on tangent space optimization in Appendix A.4. We conducted a grid search to select the learning rate, optimizer, negative sample size, and batch size, using the validation set to select the best hyperparameters. Our best model hyperparameters are detailed in Appendix A.3. We conducted all our experiments on NVIDIA Tesla P100 GPUs and make our implementation publicly available∗.

균일한 음수 샘플링을 사용하여 전체 교차 엔트로피 손실을 최소화하여 ATTH를 훈련합니다. 여기서 트리플 (h, r, t)에 대한 음의 예는 꼬리 엔티티를 교란하여 얻은 모든 가능한 트리플에서 균일하게 샘플링됩니다.

쌍곡선 공간의 최적화는 실질적으로 어렵기 때문에 대신 원점에서 접선 공간의 모든 매개 변수를 정의하고 표준 유클리드 기술을 사용하여 임베딩을 최적화 하고 지수 맵을 사용하여 쌍곡선 매개 변수를 복구합니다 (Chami et al., 2019). 접선 공간 최적화에 대한 자세한 내용은 부록 A.4에서 제공합니다. 최적의 하이퍼 파라미터를 선택하는 검증 세트를 사용하여 학습률, 최적화 프로그램, 음수 샘플 크기 및 배치 크기를 선택하기 위해 그리드 검색을 수행했습니다. 최고의 모델 하이퍼 파라미터는 부록 A.3에 자세히 설명되어 있습니다. 우리는 NVIDIA Tesla P100 GPU에 대한 모든 실험을 수행하고 구현을 공개적으로 제공합니다 *.

5.2 Results in low dimensions

We first evaluate our approach in the lowdimensional setting for d = 32, which is approximately one order of magnitude smaller than SotA Euclidean methods. Table 2 compares the performance of ATTH to that of other baselines, including the recent hyperbolic (but not rotation-based) MuRP model. In low dimensions, hyperbolic embeddings offer much better representations for hierarchical relations, confirming our hypothesis. ATTH improves over previous Euclidean and hyperbolic methods by 0.7% and 6.1% points in MRR on WN18RR and YAGO3-10 respectively. Both datasets have multiple hierarchical relationships, suggesting that the hierarchical structure imposed by hyperbolic geometry leads to better embeddings. On FB15k-237, ATTH and MurP achieve similar performance, both improving over Euclidean baselines. We conjecture that translations are sufficient to model relational patterns in FB15k-237.

To understand the role of dimensionality, we also conduct experiments on WN18RR against SotA methods under varied low-dimensional settings (Figure 4). We include error bars for our method with average MRR and standard deviation computed over 10 runs. Our approach consistently outperforms all baselines, suggesting that hyperbolic embeddings still attain high-accuracy across a broad range of dimensions.

먼저 d = 32에 대한 저 차원 설정에서 접근 방식을 평가합니다. 이는 SotA 유클리드 방법보다 약 10 배 더 작습니다. 표 2는 ATTH의 성능을 최근 쌍곡선 (회전 기반이 아닌) MuRP 모델을 포함한 다른 기준의 성능과 비교합니다. 낮은 차원에서 쌍곡선 임베딩은 계층적 관계에 대해 훨씬 더 나은 표현을 제공하여 우리의 가설을 확인합니다. ATTH는 WN18RR 및 YAGO3-10에서 MRR에서 이전 유클리드 및 쌍곡선 방법보다 각각 0.7 % 및 6.1 % 포인트 향상되었습니다. 두 데이터 세트 모두 여러 계층적 관계를 가지고 있으므로 쌍곡선 기하학에 의해 부과 된 계층 적 구조가 더 나은 임베딩으로 이어진다는 것을 나타냅니다. FB15k-237에서 ATTH와 MurP는 유사한 성능을 달성하여 둘 다 유클리드 기준선보다 향상되었습니다. 우리는 번역이 FB15k-237에서 관계형 패턴을 모델링하기에 충분하다고 추측합니다.

차원의 역할을 이해하기 위해 다양한 저 차원 설정에서 SotA 방법에 대한 WN18RR에 대한 실험도 수행합니다 (그림 4). 평균 MRR 및 10 회 실행에 대해 계산 된 표준 편차가있는 방법의 오차 막대를 포함합니다. 우리의 접근 방식은 모든 기준을 지속적으로 능가하며 쌍곡선 임베딩이 광범위한 차원에서 여전히 높은 정확도를 달성 함을 시사합니다.

Additionally, we measure performance per relation on WN18RR in Table 3 to understand the benefits of hyperbolic geometric on hierarchical relations. We report the Krackhardt hierarchy score (KhsG) (Balazevic et al., 2019) and estimated curvature per relation (see Appendix A.2 for more details). We consider a relation to be hierarchical when its corresponding graph is close to tree-like (low curvature, high KhsG). We observe that hyperbolic embeddings offer much better performance on hierarchical relations such as hypernym or has part, while Euclidean and hyperbolic embeddings have similar performance on non-hierarchical relations such as verb group. We also plot the learned curvature per relation versus the embedding dimension in Figure 5b. We note that the learned curvature in low dimensions directly correlates with the estimated graph curvature ξG in Table 3, suggesting that the model with learned curvatures learns more “curved” embedding spaces for tree-like relations.

Finally, we observe that MurP achieves lower performance than MurE on YAGO3-10, while ATTH improves over ATTE by 2.3% in MRR. This suggests that trainable curvature is critical to learn embeddings with the right amount of curvature, while fixed curvature might degrade performance. We elaborate further on this point in Section 5.5.

또한 계층 적 관계에서 쌍곡선 기하학의 이점을 이해하기 위해 표 3의 WN18RR에서 관계별 성능을 측정합니다. 우리는 Krackhardt 계층 점수 (KhsG) (Balazevic et al., 2019) 및 관계 별 추정 곡률을보고합니다 (자세한 내용은 부록 A.2 참조). 해당 그래프가 나무와 비슷할 때 (낮은 곡률, 높은 KhsG) 관계가 계층 적이라고 간주합니다. 쌍곡선 임베딩은 hypernym 또는 has part와 같은 계층 적 관계에서 훨씬 더 나은 성능을 제공하는 반면 Euclidean 및 쌍곡선 임베딩은 동사 그룹과 같은 비 계층 적 관계에서 유사한 성능을 제공합니다. 또한 그림 5b에서 관계 별 학습 된 곡률 대 임베딩 차원을 플로팅합니다. 우리는 낮은 차원에서 학습 된 곡률이 표 3의 추정 된 그래프 곡률 ξG와 직접적인 상관 관계가 있다는 점에 주목하여 학습 된 곡률을 가진 모델이 나무와 같은 관계에 대해 더 많은 “곡선”임베딩 공간을 학습 함을 시사합니다.

마지막으로 MurP는 YAGO3-10에서 MurE보다 낮은 성능을 달성하는 반면 ATTH는 MRR에서 ATTE보다 2.3 % 향상됩니다. 이는 훈련 가능한 곡률이 적절한 곡률로 임베딩을 학습하는 데 중요하지만 고정 곡률은 성능을 저하시킬 수 있음을 의미합니다. 이 점에 대해서는 섹션 5.5에서 자세히 설명합니다.

5.3 Hyperbolic rotations and reflections

In our experiments, we find that rotations work well on WN18RR, which contains multiple hierarchical and anti-symmetric relations, while reflections work better for YAGO3-10 (Table 5). To better understand the mechanisms behind these observations, we analyze two specific patterns: relation symmetry and anti-symmetry. We report performance per-relation on a subset of YAGO3-10 relations in Table 4. We categorize relations into symmetric, anti-symmetric, or neither symmetric nor anti-symmetric categories using data statistics. More concretely, we consider a relation to satisfy a logical pattern when the logical condition is satisfied by most of the triplets (e.g., a relation r is symmetric if for most KG triples (h, r, t), (t, r, h) is also in the KG). We observe that reflections encode symmetric relations particularly well, while rotations are well suited for anti-symmetric relations. This confirms our intuition—and the motivation for our approach—that particular geometric properties capture different kinds of logical properties.

우리의 실험에서 회전은 여러 계층 적 및 반대 칭 관계를 포함하는 WN18RR에서 잘 작동하는 반면 반사는 YAGO3-10에서 더 잘 작동 함을 발견했습니다 (표 5). 이러한 관찰의 메커니즘을 더 잘 이해하기 위해 관계 대칭과 반대 칭이라는 두 가지 특정 패턴을 분석합니다. 우리는 표 4에서 YAGO3-10 관계의 하위 집합에 대한 관계 별 성능을보고합니다. 데이터 통계를 사용하여 관계를 대칭, 반대 칭 또는 대칭 또는 반대 칭 범주가 아닌 범주로 분류합니다. 보다 구체적으로, 논리 조건이 대부분의 트리플렛에 의해 충족 될 때 논리 패턴을 충족하는 관계를 고려합니다 (예 : 대부분의 KG 트리플 (h, r, t), (t, r, h)에 대해 관계 r은 대칭입니다. )도 KG에 있습니다). 반사는 대칭 관계를 특히 잘 인코딩하는 반면 회전은 반대 칭 관계에 적합합니다. 이것은 특정 기하학적 속성이 다른 종류의 논리적 속성을 포착한다는 우리의 직관과 접근 방식의 동기를 확인시켜줍니다.

5.4 Attention-based transformations

One advantage of using relation-specific transformations is that each relation can learn the right geometric operators based on the logical properties it has to satisfy. In particular, we observe that in both low- and high-dimensional settings, attentionbased models can recover the performance of the best transformation on all datasets (Tables 2 and 5). Additionally, per-relationship results on YAGO3-10 in Table 4 suggest that ATTH indeed recovers the best geometric operation.

Furthermore, for relations that are neither symmetric nor anti-symmetric, we find that ATTH can outperform rotations and reflections, suggesting that combining multiple operators with attention can learn more expressive operators to model mixed logical patterns. In other words, attentionbased transformations alleviate the need to conduct experiments with multiple geometric transformations by simply allowing the model to choose which one is best for a given relation.

관계 별 변환을 사용하는 한 가지 장점은 각 관계가 충족해야하는 논리적 속성을 기반으로 올바른 기하학적 연산자를 학습 할 수 있다는 것입니다. 특히 저 차원 및 고차원 설정 모두에서주의 기반 모델이 모든 데이터 세트에서 최상의 변환 성능을 복구 할 수 있음을 관찰합니다 (표 2 및 5). 또한 표 4의 YAGO3-10에 대한 관계 별 결과는 ATTH가 실제로 최상의 기하학적 연산을 복구 함을 시사합니다.

또한 대칭도 반대 칭도 아닌 관계의 경우 ATTH가 회전 및 반사를 능가 할 수 있음을 발견하여 여러 연산자를 주의와 결합하면 혼합 논리 패턴을 모델링하기 위해 더 많은 표현 연산자를 배울 수 있음을 시사합니다. 즉, 주의 기반 변환은 단순히 모델이 주어진 관계에 가장 적합한 변환을 선택할 수 있도록 허용함으로써 여러 기하학적 변환으로 실험을 수행 할 필요성을 줄여줍니다.

5.5 Results in high dimensions

In high dimensions (Table 5), we compare against a variety of other models and achieve new SotA results on WN18RR and YAGO3-10, and thirdbest results on FB15k-237. As we expected, when the embedding dimension is large, Euclidean and hyperbolic embedding methods perform similarly across all datasets. We explain this behavior by noting that when the dimension is sufficiently large, both Euclidean and hyperbolic spaces have enough capacity to represent complex hierarchies in KGs. This is further supported by Figure 5b, which shows the learned absolute curvature versus the dimension. We observe that curvatures are close to zero in high dimensions, confirming our expectation that ROTH with trainable curvatures learns a roughly Euclidean geometry in this setting.

In contrast, fixed curvature degrades performance in high dimensions (Figure 5a), confirming the importance of trainable curvatures and its impact on precision and capacity (previously studied by (Sala et al., 2018)). Additionally, we show the embeddings’ norms distribution in the Appendix (Figure 7). Fixed curvature results in embeddings being clustered near the boundary of the ball while trainable curvatures adjusts the embedding space to better distribute points throughout the ball. Precision issues that might arise with fixed curvature could also explain MurP’s low performance in high dimensions. Trainable curvatures allow ROTH to perform as well or better than previous methods in both low and high dimensions.

높은 차원에서 (표 5), 우리는 다양한 다른 모델과 비교하여 WN18RR 및 YAGO3-10에서 새로운 SotA 결과를, FB15k-237에서 세 번째로 좋은 결과를 얻었습니다. 예상 한대로 임베딩 차원이 크면 유클리드 및 쌍곡선 임베딩 방법이 모든 데이터 세트에서 유사하게 수행됩니다. 차원이 충분히 클 때 유클리드 공간과 쌍곡선 공간 모두 KG에서 복잡한 계층 구조를 표현할 수 있는 충분한 용량이 있다는 점에 주목하여 이 동작을 설명합니다. 이것은 학습된 절대 곡률 대 차원을 보여주는 그림 5b에 의해 더욱 뒷받침됩니다. 우리는 높은 차원에서 곡률이 0에 가깝다는 것을 관찰하여 훈련 가능한 곡률을 가진 ROTH가이 설정에서 대략 유클리드 기하학을 학습 할 것이라는 우리의 기대를 확인합니다.

반대로 고정 곡률은 높은 차원에서 성능을 저하시켜 (그림 5a), 훈련 가능한 곡률의 중요성과 정밀도 및 용량에 미치는 영향을 확인합니다 (이전에 (Sala et al., 2018)에서 연구). 또한 부록에 임베딩의 규범 분포를 보여줍니다 (그림 7). 고정 곡률로 인해 임베딩이 공의 경계 근처에 클러스터링되고 훈련 가능한 곡률은 임베딩 공간을 조정하여 공 전체에 포인트를 더 잘 분산시킵니다. 고정 곡률로 발생할 수있는 정밀도 문제는 높은 차원에서 MurP의 낮은 성능을 설명 할 수도 있습니다. 훈련 가능한 곡률을 통해 ROTH는 낮은 차원과 높은 차원 모두에서 이전 방법보다 성능이 우수하거나 우수합니다.

5.6 Visualizations

In Figure 6, we visualize the embeddings learned by ROTE versus ROTH for a sub-tree of the organism entity in WN18RR. To better visualize the hierarchy, we apply k inverse rotations for all nodes at level k in the tree.

By contrast to ROTE, ROTH preserves the tree structure in the embedding space. Furthermore, we note that ROTE cannot simultaneously preserve the tree structure and make non-neighboring nodes far from each other. For instance, virus should be far from male, but preserving the tree structure (by going one level down in the tree) while making these two nodes far from each other is difficult in Euclidean space. In hyperbolic space, however, we observe that going one level down in the tree is achieved by translating embeddings towards the left. This pattern essentially illustrates the translation component in ROTH, allowing the model to simultaneously preserve hierarchies while making non-neighbouring nodes far from each other.

그림 6에서는 WN18RR에서 유기체 개체의 하위 트리에 대해 ROTE 대 ROTH에 의해 학습 된 임베딩을 시각화합니다. 계층 구조를 더 잘 시각화하기 위해 트리의 수준 k에 있는 모든 노드에 대해 k 역 회전을 적용합니다.

ROTE와 달리 ROTH는 임베딩 공간에서 트리 구조를 유지합니다. 또한 ROTE는 트리 구조를 동시에 보존하고 인접하지 않은 노드를 서로 멀리 만들 수 없습니다. 예를 들어, 바이러스는 남성과 멀어야 하지만 유클리드 공간에서 이 두 노드를 서로 멀리 만드는 동시에 트리 구조를 보존 (트리에서 한 수준 아래로 이동)하는 것은 어렵습니다. 그러나 쌍곡선 공간에서는 임베딩을 왼쪽으로 변환하여 트리에서 한 수준 아래로 내려가는 것을 관찰합니다. 이 패턴은 본질적으로 ROTH의 변환 구성 요소를 보여주므로 모델이 인접하지 않은 노드를 서로 멀리 만드는 동시에 계층 구조를 동시에 유지할 수 있습니다.

  1. Conclusion

We introduce ATTH, a hyperbolic KG embedding model that leverages the expressiveness of hyperbolic space and attention-based geometric transformations to learn improved KG representations in low-dimensions. ATTH learns embeddings with trainable hyperbolic curvatures, allowing it to learn the right geometry for each relationship and generalize across multiple embedding dimensions. ATTH achieves new SotA on WN18RR and YAGO3-10, real-world KGs which exhibit hierarchical structures. Future directions for this work include exploring other tasks that might benefit from hyperbolic geometry, such as hypernym detection. The proposed attention-based transformations can also be extended to other geometric operations.

쌍곡선 공간의 표현력과 주의 기반 기하학적 변환을 활용하여 저 차원에서 향상된 KG 표현을 학습하는 쌍곡선 KG 임베딩 모델 인 ATTH를 소개합니다. ATTH는 학습 가능한 쌍곡선 곡률로 임베딩을 학습하여 각 관계에 적합한 지오메트리를 학습하고 여러 임베딩 차원에서 일반화 할 수 있습니다. ATTH는 계층 구조를 보여주는 실제 KG 인 WN18RR 및 YAGO3-10에서 새로운 SotA를 달성합니다. 이 작업의 향후 방향에는 하이퍼니 (hypernym) 탐지와 같은 쌍곡선 기하학의 이점을 얻을 수 있는 다른 작업을 탐색하는 것이 포함됩니다. 제안된 주의 기반 변환은 다른 기하학적 연산으로 확장 될 수도 있습니다.

[끝]

댓글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중