[논문읽기] Global Textual Relation Embedding (2019)

Global Textual Relation Embedding for Relational Understanding

Zhiyu Chen, Hanwen Zha, Honglei Liu, Wenhu Chen, Xifeng Yan, and Yu Su

https://www.aclweb.org/anthology/P19-1127.pdf

Abstract

Pre-trained embeddings such as word embeddings and sentence embeddings are fundamental tools facilitating a wide range of downstream NLP tasks. In this work, we investigate how to learn a general-purpose embedding of textual relations, defined as the shortest dependency path between entities. Textual relation embedding provides a level of knowledge between word/phrase level and sentence level, and we show that it can facilitate downstream tasks requiring relational understanding of the text. To learn such an embedding, we create the largest distant supervision dataset by linking the entire English ClueWeb09 corpus to Freebase. We use global co-occurrence statistics between textual and knowledge base relations as the supervision signal to train the embedding. Evaluation on two relational understanding tasks demonstrates the usefulness of the learned textual relation embedding. The data and code can be found at https://github.com/czyssrs/GloREPlus

단어 임베딩 및 문장 임베딩과 같은 사전 학습 된 임베딩은 광범위한 다운 스트림 NLP 작업을 용이하게하는 기본 도구입니다. 이 작업에서는 엔티티 간의 최단 종속성 경로로 정의 된 텍스트 관계의 범용 임베딩을 학습하는 방법을 조사합니다. 텍스트 관계 임베딩은 단어 / 구문 수준과 문장 수준 간의 지식 수준을 제공하며 텍스트의 관계적 이해가 필요한 다운 스트림 작업을 용이하게 할 수 있음을 보여줍니다. 이러한 임베딩을 배우기 위해 전체 English ClueWeb09 코퍼스를 Freebase에 연결하여 가장 큰 원격 감독 데이터 세트를 만듭니다. 우리는 임베딩을 훈련하기위한 감독 신호로 텍스트와 지식 기반 관계 사이의 글로벌 동시 발생 통계를 사용합니다. 두 가지 관계 이해 작업에 대한 평가는 학습된 텍스트 관계 임베딩의 유용성을 보여줍니다. 데이터와 코드는 https://github.com/czyssrs/GloREPlus에서 찾을 수 있습니다.

  1. Introduction

Pre-trained embeddings such as word embeddings (Mikolov et al., 2013; Pennington et al., 2014; Peters et al., 2018; Devlin et al., 2018) and sentence embeddings (Le and Mikolov, 2014; Kiros et al., 2015) have become fundamental NLP tools. Learned with large-scale (e.g., up to 800 billion tokens (Pennington et al., 2014)) open-domain corpora, such embeddings serve as a good prior for a wide range of downstream tasks by endowing task-specific models with general lexical, syntactic, and semantic knowledge.

Inspecting the spectrum of granularity, a representation between lexical (and phrasal) level and sentence level is missing. Many tasks require relational understanding of the entities mentioned in the text, e.g., relation extraction and knowledge base completion. Textual relation (Bunescu and Mooney, 2005), defined as the shortest path between two entities in the dependency parse tree of a sentence, has been widely shown to be the main bearer of relational information in text and proved effective in relation extraction tasks (Xu et al., 2015; Su et al., 2018). If we can learn a general-purpose embedding for textual relations, it may facilitate many downstream relational understanding tasks by providing general relational knowledge.

단어 임베딩 (Mikolov et al., 2013; Pennington et al., 2014; Peters et al., 2018; Devlin et al., 2018) 및 문장 임베딩 (Le and Mikolov, 2014; Kiros et al.)과 같은 사전 훈련된 임베딩 ., 2015)는 기본적인 NLP 도구가 되었습니다. 대규모 (예 : 최대 8,000 억 개의 토큰 (Pennington et al., 2014)) 개방형 도메인 말뭉치를 통해 학습한 이러한 임베딩은 작업별 모델에 일반 어휘를 부여하여 광범위한 다운 스트림 작업에 대한 좋은 사전 역할을 합니다. , 구문 및 의미 지식.

세분성의 스펙트럼을 살펴보면 어휘 (및 구문) 수준과 문장 수준 간의 표현이 누락되었습니다. 많은 작업에는 텍스트에 언급 된 엔티티에 대한 관계적 이해가 필요합니다 (예 : 관계 추출 및 지식 기반 완성). 문장의 의존성 파싱 트리에서 두 개체 사이의 최단 경로로 정의 된 텍스트 관계 (Bunescu and Mooney, 2005)는 텍스트에서 관계형 정보의 주요 전달자 인 것으로 널리 나타났으며 관계 추출 작업에서 효과적임이 입증되었습니다 (Xu et al., 2015; Su et al., 2018). 텍스트 관계에 대한 범용 임베딩을 학습할 수 있다면 일반적인 관계 지식을 제공하여 많은 하위 관계 이해 작업을 용이하게 할 수 있습니다.

Similar to language modeling for learning general-purpose word embeddings, distant supervision (Mintz et al., 2009) is a promising way to acquire supervision, at no cost, for training general-purpose embedding of textual relations. Recently Su et al. (2018) propose to leverage global co-occurrence statistics of textual and KB relations to learn embeddings of textual relations, and show that it can effectively combat the wrong labeling problem of distant supervision (see Figure 1 for example). While their method, named GloRE, achieves the state-of-the-art performance on the popular New York Times (NYT) dataset (Riedel et al., 2010), the scope of their study is limited to relation extraction with smallscale in-domain training data.

In this work, we take the GloRE approach further and apply it to large-scale, domainindependent data labeled with distant supervision, with the goal of learning general-purpose textual relation embeddings. Specifically, we create the largest ever distant supervision dataset by linking the entire English ClueWeb09 corpus (half a billion of web documents) to the latest version of Freebase (Bollacker et al., 2008), which contains 45 million entities and 3 billion relational facts. After filtering, we get a dataset with over 5 million unique textual relations and around 9 million cooccurring textual and KB relation pairs. We then train textual relation embedding on the collected dataset in a way similar to (Su et al., 2018), but using Transformer (Vaswani et al., 2017) instead of vanilla RNN as the encoder for better training efficiency.

범용 단어 임베딩 학습을 위한 언어 모델링과 유사하게, 원격 감독 (Mintz et al., 2009)은 텍스트 관계의 범용 임베딩을 훈련하기 위해 무료로 감독을 획득 할 수 있는 유망한 방법입니다. 최근 Su et al. (2018)은 텍스트 및 KB 관계의 글로벌 동시 발생 통계를 활용하여 텍스트 관계의 임베딩을 학습하고 원격 감독의 잘못된 라벨링 문제를 효과적으로 해결할 수 있음을 보여줄 것을 제안합니다 (예 : 그림 1 참조). GloRE라는 이름의 방법이 인기있는 New York Times (NYT) 데이터 세트 (Riedel et al., 2010)에서 최첨단 성능을 달성하는 동안, 연구 범위는 소규모 정보를 사용한 관계 추출로 제한됩니다. 도메인 훈련 데이터.

이 작업에서 우리는 GloRE 접근 방식을 더 나아가 범용 텍스트 관계 임베딩 학습을 목표로 원격 감독으로 레이블이 지정된 대규모 도메인 독립적 데이터에 적용합니다. 특히, 우리는 전체 English ClueWeb09 말뭉치 (5 억 개의 웹 문서)를 4 천 5 백만 개의 엔티티와 30 억 개의 관계 적 사실을 포함하는 Freebase의 최신 버전 (Bollacker et al., 2008)에 연결하여 가장 큰 원격 감독 데이터 세트를 만듭니다. 필터링 후 5 백만 개 이상의 고유 한 텍스트 관계와 약 9 백만 개의 동시 발생 텍스트 및 KB 관계 쌍이있는 데이터 세트를 얻습니다. 그런 다음 (Su et al., 2018)과 유사한 방식으로 수집 된 데이터 세트에 텍스트 관계 임베딩을 훈련하지만 더 나은 훈련 효율성을 위해 인코더로 vanilla RNN 대신 Transformer (Vaswani et al., 2017)를 사용합니다.

To demonstrate the usefulness of the learned textual relation embedding, we experiment on two relational understanding tasks, relation extraction and knowledge base completion. For relation extraction, we use the embedding to augment PCNN+ATT (Lin et al., 2016) and improve the precision for top 1000 predictions from 83.9% to 89.8%. For knowledge base completion, we replace the neural network in (Toutanova et al., 2015) with our pre-trained embedding followed by a simple projection layer, and gain improvements on both MRR and HITS@10 measures. Our major contributions are summarized as following:

학습 된 텍스트 관계 임베딩의 유용성을 입증하기 위해 두 가지 관계 이해 작업인 관계 추출 및 지식 기반 완성을 실험합니다. 관계 추출의 경우 임베딩을 사용하여 PCNN + ATT (Lin et al., 2016)를 늘리고 상위 1000 개 예측의 정밀도를 83.9 %에서 89.8 %로 개선합니다. 지식 기반 완성을 위해 (Toutanova et al., 2015)의 신경망을 사전 훈련된 임베딩에 이어 간단한 프로젝션 레이어로 대체하고 MRR 및 HITS @ 10 측정 값을 모두 개선합니다. 우리의 주요 공헌은 다음과 같이 요약됩니다.

• We propose the novel task of learning general-purpose embedding of textual relations, which has the potential to facilitate a wide range of relational understanding tasks.

• To learn such an embedding, we create the largest distant supervision dataset by linking the entire English ClueWeb09 corpus to Freebase. The dataset is publicly available.

• Based on the global co-occurrence statistics of textual and KB relations, we learn a textual relation embedding on the collected dataset and demonstrate its usefulness on relational understanding tasks.

• 우리는 광범위한 관계 이해 작업을 용이하게 할 수있는 잠재력을 가진 텍스트 관계의 범용 임베딩 학습이라는 새로운 과제를 제안합니다.

• 이러한 임베딩을 배우기 위해 전체 English ClueWeb09 코퍼스를 Freebase에 연결하여 가장 큰 원격 감독 데이터 세트를 만듭니다. 데이터 세트는 공개적으로 사용할 수 있습니다.

• 텍스트 및 KB 관계의 글로벌 공존 통계를 기반으로 수집된 데이터 세트에 포함된 텍스트 관계를 학습하고 관계 이해 작업에 대한 유용성을 입증합니다.

  1. Related Work

Distant supervision methods (Mintz et al., 2009) for relation extraction have been studied by a number of works (Riedel et al., 2010; Hoffmann et al., 2011; Surdeanu et al., 2012; Zeng et al., 2015; Lin et al., 2016; Ji et al., 2017; Wu et al., 2017). (Su et al., 2018) use global co-occurrence statistics of textual and KB relations to effectively combat the wrong labeling problem. But the global statistics in their work is limited to NYT dataset, capturing domain-specific distributions.

Another line of research that relates to ours is the universal schema (Riedel et al., 2013) for relation extraction, KB completion, as well as its extensions (Toutanova et al., 2015; Verga et al., 2016). Wrong labeling problem still exists since their embedding is learned based on individual relation facts. In contrast, we use the global cooccurrence statistics as explicit supervision signal.

관계 추출을 위한 원격 감독 방법 (Mintz et al., 2009)은 많은 연구에서 연구되었습니다 (Riedel et al., 2010; Hoffmann et al., 2011; Surdeanu et al., 2012; Zeng et al., 2015 ; Lin et al., 2016; Ji et al., 2017; Wu et al., 2017). (Su et al., 2018) 텍스트 및 KB 관계의 글로벌 동시 발생 통계를 사용하여 잘못된 라벨링 문제를 효과적으로 해결합니다. 그러나 그들의 작업에서 글로벌 통계는 도메인별 분포를 캡처하는 NYT 데이터 세트로 제한됩니다.

우리와 관련된 또 다른 연구 라인은 관계 추출, KB 완성 및 확장에 대한 보편적 스키마 (Riedel et al., 2013)입니다 (Toutanova et al., 2015; Verga et al., 2016). 개별 관계 사실을 기반으로 임베딩을 학습하므로 잘못된 라벨링 문제가 여전히 존재합니다. 대조적으로, 우리는 명시적 감독 신호로 전역 동시 발생 통계를 사용합니다.

  1. Textual Relation Embedding

In this section, we describe how to collect large-scale data via distant supervision (§3.1) and train the textual relation embedding (§3.2).

3.1 Global Co-Occurrence Statistics from Distant Supervision

To construct a large-scale distant supervision dataset, we first get the English ClueWeb09 corpus (Callan et al., 2009), which contains 500 million web documents. We employ the FACC1 dataset (Gabrilovich et al., 2013) to map ClueWeb09 to Freebase. We identify over 5 billion entity mentions in ClueWeb09 and link them to Freebase entities. From the linked documents, we extract 155 million sentences containing at least two entity mentions. We then use the Stanford Parser (Chen and Manning, 2014) with universal dependencies to extract textual relations (shortest dependency paths) between each pair of entity mentions2 , leading to 788 million relational triples (subject, textual relation, object), of which 451 million are unique.

Following (Su et al., 2018), we then collect the global co-occurrence statistics of textual and KB relations. More specifically, for a relational triple (e1, t, e2) with textual relation t, if (e1, r, e2) with KB relation r exists in the KB, then we count it as a co-occurrence of t and r. We count the total number of co-occurrences of each pair of textual and KB relation across the entire corpus. We then normalize the global co-occurrence statistics such that each textual relation has a valid probability distribution over all the KB relations, which presumably captures the semantics of the textual relation. In the end, a bipartite relation graph is constructed, with one node set being the textual relations, the other node set being the KB relations, and the weighted edges representing the normalized global co-occurrence statistics.

대규모 원격 감독 데이터 세트를 구성하기 위해 먼저 5억 개의 웹 문서가 포함 된 English ClueWeb09 코퍼스 (Callan et al., 2009)를 얻습니다. FACC1 데이터 세트 (Gabrilovich et al., 2013)를 사용하여 ClueWeb09를 Freebase에 매핑합니다. ClueWeb09에서 50억 개가 넘는 엔티티 멘션을 식별하고이를 Freebase 엔티티에 연결합니다. 링크 된 문서에서 최소한 두 개의 엔티티 멘션이 포함 된 1억 5,500만 개의 문장을 추출합니다. 그런 다음 범용 종속성이있는 Stanford Parser (Chen and Manning, 2014)를 사용하여 각 엔티티 멘션 쌍 사이의 텍스트 관계 (가장 짧은 종속성 경로)를 추출합니다 2. 백만은 고유합니다.

이어서 (Su et al., 2018) 텍스트 및 KB 관계의 글로벌 동시 발생 통계를 수집합니다. 보다 구체적으로, 텍스트 관계가 t 인 관계형 트리플 (e1, t, e2)의 경우 KB 관계가 r 인 (e1, r, e2)가 KB에 존재하면 t와 r의 동시 발생으로 계산합니다. 우리는 전체 말뭉치에서 각 텍스트 및 KB 관계 쌍의 총 동시 발생 수를 계산합니다. 그런 다음 각 텍스트 관계가 모든 KB 관계에 대해 유효한 확률 분포를 갖도록 전역 동시 발생 통계를 정규화하여 텍스트 관계의 의미를 캡처합니다. 결국, 한 노드 세트는 텍스트 관계이고, 다른 노드 세트는 KB 관계이며, 정규화 된 전역 동시 발생 통계를 나타내는 가중치 에지로 구성된 이분 관계 그래프가 구성됩니다.

Filtering.

When aligning the text corpus with the KB, we apply a number of filters to ensure data quality and training efficiency: (1) We only use the KB relations in Freebase Commons, 70 domains that are manually verified to be of release quality. (2) Only textual relations with the number of tokens (including both lexical tokens and dependency relations) less than or equal to 10 are kept. (3) Only non-symmetric textual relations are kept, because symmetric ones are typically from conjunctions like ”and” or ”or”, which are less of interest. (4) Only textual relations with at least two occurrences are kept. After filtering, we end up with a relation graph with 5,559,176 unique textual relations, 1,925 knowledge base (KB) relations, and 8,825,731 edges with non-zero weight. It is worth noting that these filters are very conservative, and we can easily increase the scale of data by relaxing some of the filters.

텍스트 코퍼스를 KB와 정렬 할 때 데이터 품질 및 교육 효율성을 보장하기 위해 여러 필터를 적용합니다. (1) 릴리스 품질이 수동으로 확인 된 70 개 도메인 인 Freebase Commons에서만 KB 관계를 사용합니다. (2) 토큰 수 (어휘 토큰과 종속성 관계 모두 포함)가 10 개 이하인 텍스트 관계 만 유지됩니다. (3) 대칭 관계는 일반적으로 관심이 적은 “and”또는 “or”와 같은 접속사에서 비대칭 텍스트 관계 만 유지됩니다. (4) 적어도 두 번 발생하는 텍스트 관계 만 유지됩니다. 필터링 후 5,559,176 개의 고유 한 텍스트 관계, 1,925 개의 KB (지식 기반) 관계 및 가중치가 0이 아닌 8,825,731 개의 간선이있는 관계 그래프가 생성됩니다. 이러한 필터는 매우 보수적이며 일부 필터를 완화하여 데이터 규모를 쉽게 늘릴 수 있습니다.

3.2 Embedding Training

Considering both effectiveness and efficiency, we employ the Transformer encoder (Vaswani et al., 2017) to learn the textual relation embedding. It has been shown to excel at learning generalpurpose representations (Devlin et al., 2018).

The embedded textual relation token sequence is fed as input. For example, for the textual relation dobj ←−− founded nsubj −−−→, the input is the embedded sequence of {< −dobj >, founded, < nsubj >}. We project the output of the encoder to a vector z as the result embedding. Given a textual relation ti and its embedding zi , denote {r1, r2, …, rn} as all KB relations, and p˜(rj |ti) as the global co-occurrence distribution, the weight of the edge between textual relation ti and KB relation rj in the relation graph. The training objective is to minimize the cross-entropy loss:

효율성과 효율성을 모두 고려하여 Transformer 인코더 (Vaswani et al., 2017)를 사용하여 텍스트 관계 임베딩을 학습합니다. 범용 표현 학습에 탁월한 것으로 나타났습니다 (Devlin et al., 2018).

포함된 텍스트 관계 토큰 시퀀스가 입력으로 제공됩니다. 예를 들어, 텍스트 관계 dobj ←−− found nsubj −−−→ 의 경우 입력은 {<−dobj>, found, }의 포함 된 시퀀스입니다. 결과 임베딩으로 인코더의 출력을 벡터 z에 투영합니다. 텍스트 관계 ti 및 임베딩 zi가 주어지면 {r1, r2, …, rn}을 모든 KB 관계로 표시하고 p ~ (rj | ti) 를 전역 동시 발생 분포, 텍스트 간 에지의 가중치로 표시합니다. 관계 그래프에서 관계 ti 및 KB 관계 rj. 훈련 목표는 교차 엔트로피 손실을 최소화하는 것입니다.

L = −X i,j p˜(rj |ti)log(p(rj |ti)), (1)

Where

p(rj |ti) = (sof tmax(W zi + b))j . (2)

W and b are trainable parameters.

We use the filtered relation graph in §3.1 as our training data. To guarantee that the model generalizes to unseen textual relations, we take 5% of the training data as validation set. Word embeddings are initialized with the GloVe (Pennington et al., 2014) vectors3 . Dependency relation embeddings are initialized randomly. For the Transformer model, we use 6 layers and 6 attention heads for each layer. We use the Adam optimizer (Kingma and Ba, 2015) with parameter settings suggested by the original Transformer paper (Vaswani et al., 2017). We train a maximum number of 200 epochs and take the checkpoint with minimum validation loss for the result.

We also compare with using vanilla RNN in GloRE (Su et al., 2018). Denote the embedding trained with Tranformer as GloRE++, standing for both new data and different model, and with RNN as GloRE+, standing for new data. We observe that, in the early stage of training, the validation loss of RNN decreases faster than Transformer. However, it starts to overfit soon.

§3.1의 필터링 된 관계 그래프를 학습 데이터로 사용합니다. 모델이 보이지 않는 텍스트 관계로 일반화되도록 보장하기 위해 학습 데이터의 5 %를 검증 세트로 사용합니다. 단어 임베딩은 GloVe (Pennington et al., 2014) 벡터 3로 초기화됩니다. 종속성 관계 임베딩은 무작위로 초기화됩니다. Transformer 모델의 경우 각 레이어에 6 개의 레이어와 6 개의 어텐션 헤드를 사용합니다. 원래 Transformer 논문 (Vaswani et al., 2017)에서 제안한 매개 변수 설정과 함께 Adam 옵티 마이저 (Kingma and Ba, 2015)를 사용합니다. 우리는 최대 200 개의 에포크를 훈련하고 결과에 대한 최소 검증 손실로 체크 포인트를받습니다.

또한 GloRE에서 바닐라 RNN을 사용하는 것과 비교합니다 (Su et al., 2018). Tranformer를 사용하여 새로운 데이터와 다른 모델을 나타내는 GloRE ++, RNN을 새로운 데이터를 나타내는 GloRE +로 훈련 된 임베딩을 나타냅니다. 학습 초기 단계에서 RNN의 유효성 검사 손실이 Transformer보다 빠르게 감소하는 것을 관찰합니다. 그러나 곧 과적합 되기 시작합니다.

  1. Experiments

In this section, we evaluate the usefulness of the learned textual relation embedding on two popular relational understanding tasks, relation extraction and knowledge base completion. We do not fine-tune the embedding, and only use in-domain data to train a single feedforward layer to project the embedding to the target relations of the domain. We compare this with models that are specifically designed for those tasks and trained using in-domain data. If we can achieve comparable or better results, it demonstrates that the general-purpose embedding captures useful information for downstream tasks.

이 섹션에서는 두 가지 인기있는 관계형 이해 작업인 관계 추출 및 지식 기반 완성에 대해 학습 된 텍스트 관계 임베딩의 유용성을 평가합니다. 임베딩을 미세 조정하지 않고 도메인 내 데이터 만 사용하여 단일 피드 포워드 레이어를 훈련시켜 임베딩을 도메인의 대상 관계에 투영합니다. 이를 해당 작업을 위해 특별히 설계되고 도메인 내 데이터를 사용하여 훈련 된 모델과 비교합니다. 비교 가능하거나 더 나은 결과를 얻을 수 있다면 범용 임베딩이 다운 스트림 작업에 유용한 정보를 캡처 함을 보여줍니다.

4.1 Relation Extraction

We experiment on the popular New York Times (NYT) relation extraction dataset (Riedel et al., 2010). Following GloRE (Su et al., 2018), we aim at augmenting existing relation extractors with the textual relation embeddings. We first average the textual relation embeddings of all contextual sentences of an entity pair, and project the average embedding to the target KB relations. We then construct an ensemble model by a weighted combination of predictions from the base model and the textual relation embedding.

우리는 인기있는 New York Times (NYT) 관계 추출 데이터 세트를 실험합니다 (Riedel et al., 2010). GloRE (Su et al., 2018)에 이어 텍스트 관계 임베딩으로 기존 관계 추출기를 늘리는 것을 목표로 합니다. 먼저 엔티티 쌍의 모든 문맥 문장의 텍스트 관계 임베딩을 평균화하고 평균 임베딩을 대상 KB 관계에 투영합니다. 그런 다음 기본 모델의 예측과 텍스트 관계 임베딩의 가중치 조합으로 앙상블 모델을 구성합니다.

Same as (Su et al., 2018), we use PCNN+ATT (Lin et al., 2016) as our base model. GloRE++ improves its best F1-score from 42.7% to 45.2%, slightly outperforming the previous state-of-theart (GloRE, 44.7%). As shown in previous work (Su et al., 2018), on NYT dataset, due to a significant amount of false negatives, the PR curve on the held-out set may not be an accurate measure of performance. Therefore, we mainly employ manual evaluation. We invite graduate students to check top 1000 predictions of each method. They are present with the entity pair, the prediction, and all the contextual sentences of the entity pair. Each prediction is examined by two students until reaching an agreement after discussion. Besides, the students are not aware of the source of the predictions. Table 1 shows the manual evaluation results. Both GloRE+ and GloRE++ get improvements over GloRE. GloRE++ obtains the best results for top 700, 900 and 1000 predictions.

(Su et al., 2018)과 동일하게 PCNN + ATT (Lin et al., 2016)를 기본 모델로 사용합니다. GloRE ++는 최고의 F1 점수를 42.7 %에서 45.2 %로 개선하여 이전의 최신 기술 (GloRE, 44.7 %)보다 약간 높은 성능을 보입니다. NYT 데이터 세트의 이전 작업 (Su et al., 2018)에서 볼 수 있듯이 상당한 양의 위음성으로 인해 홀드 아웃 세트의 PR 곡선이 성능의 정확한 척도가 아닐 수 있습니다. 따라서 우리는 주로 수동 평가를 사용합니다. 대학원생을 초청하여 각 방법의 상위 1000 가지 예측을 확인합니다. 엔티티 쌍, 예측 및 엔티티 쌍의 모든 문맥 문장과 함께 제공됩니다. 각 예측은 토론 후 합의에 도달 할 때까지 두 학생이 검토합니다. 게다가 학생들은 예측의 출처를 알지 못합니다. 표 1은 수동 평가 결과를 보여줍니다. GloRE + 및 GloRE ++ 모두 GloRE보다 개선되었습니다. GloRE ++는 상위 700, 900 및 1000 개의 예측에 대해 최상의 결과를 얻습니다.

4.2 Knowledge Base Completion

We experiment on another relational understanding task, knowledge base (KB) completion, on the popular FB15k-237 dataset (Toutanova et al., 2015). The goal is to predict missing relation facts based on a set of known entities, KB relations, and textual mentions. (Toutanova et al., 2015) use a convolutional neural network (CNN) to model textual relations. We replace their CNN with our pretrained embedding followed by one simple feedforward projection layer.

우리는 인기있는 FB15k-237 데이터 세트 (Toutanova et al., 2015)에서 또 다른 관계 이해 작업 인 지식 기반 (KB) 완성을 실험합니다. 목표는 알려진 엔티티 세트, KB 관계 및 텍스트 멘션을 기반으로 누락 된 관계 사실을 예측하는 것입니다. (Toutanova et al., 2015) 텍스트 관계를 모델링하기 위해 컨볼 루션 신경망 (CNN)을 사용합니다. CNN을 사전 훈련 된 임베딩과 간단한 피드 포워드 투영 레이어로 대체합니다.

As in (Toutanova et al., 2015), we use the best performing DISTMULT and E+DISTMULT as the base models. DISTMULT (Yang et al., 2015) learns latent vectors for the entities and each relation type, while model E (Riedel et al., 2013) learns two latent vectors for each relation type, associated with its subject and object entities respectively. E+DISTMULT is a combination model that ensembles the predictions from individual models, and is trained jointly. We conduct experiments using only KB relations (KB only), using their CNN to model textual relations (Conv), and using our embedding to model textual relations (Emb).

The models are tested on predicting the object entities of a set of KB triples disjoint from the training set, given the subject entity and the relation type. Table 2 shows the performances of all models measured by mean reciprocal rank (MRR) of the correct entity, and HITS@10 (the percentage of test instances for which the correct entity is ranked within the top 10 predictions). We also show the performances on the two subsets of the test set, with and without textual mentions. The pre-trained embedding achieves comparable or better results to the CNN model trained with indomain data.

(Toutanova et al., 2015)에서와 같이 가장 성능이 좋은 DISTMULT 및 E + DISTMULT를 기본 모델로 사용합니다. DISTMULT (Yang et al., 2015)는 엔티티 및 각 관계 유형에 대한 잠재 벡터를 학습하는 반면, 모델 E (Riedel et al., 2013)는 각각 주제 및 객체 엔티티와 관련된 각 관계 유형에 대해 두 개의 잠재 벡터를 학습합니다. E + DISTMULT는 개별 모델의 예측을 통합하는 조합 모델이며 공동으로 학습됩니다. KB 관계 만 사용하고 (KB 만 해당) CNN을 사용하여 텍스트 관계를 모델링하고 (Conv) 임베딩을 사용하여 텍스트 관계를 모델링합니다 (Emb).

모델은 주제 엔티티 및 관계 유형이 주어지면 학습 세트에서 분리 된 KB 트리플 세트의 오브젝트 엔티티를 예측하는 데 테스트됩니다. 표 2는 올바른 엔터티의 MRR (평균 상호 순위) 및 HITS @ 10 (올바른 엔터티가 상위 10 개 예측 내에서 순위가 ​​매겨진 테스트 인스턴스의 백분율)로 측정 된 모든 모델의 성능을 보여줍니다. 또한 테스트 세트의 두 하위 집합에 대한 성능을 텍스트 언급이 있거나없는 상태로 보여줍니다. 사전 훈련 된 임베딩은 도메인 내 데이터로 훈련 된 CNN 모델과 비슷하거나 더 나은 결과를 얻습니다.

  1. Analysis

t-SNE visualization.

To measure the intrinsic property of the learned textual relation embedding, we apply t-SNE visualization (Maaten and Hinton, 2008) on the learned embedding of ClueWeb validation set.

We filter out infrequent textual relations and assign labels to the textual relations when they cooccur more than half of the times with a KB relation. The visualization result of GloRE++ embedding associating with the top-10 frequent KB relations is shown in Figure 2. As we can see, similar textual relations are grouped together while dissimilar ones are separated. This implies that the embedding model can well generate textual relation representation for unseen textual relations, and can potentially serve as relational features to help tasks in unsupervised setting.

학습 된 텍스트 관계 임베딩의 고유 속성을 측정하기 위해 학습 된 ClueWeb 검증 세트 임베딩에 t-SNE 시각화 (Maaten and Hinton, 2008)를 적용합니다.

빈번하지 않은 텍스트 관계를 필터링하고 KB 관계에서 절반 이상을 동시에 발생하는 경우 텍스트 관계에 레이블을 할당합니다. 상위 10 개 KB 관계와 관련된 GloRE ++ 임베딩의 시각화 결과는 그림 2에 나와 있습니다. 우리가 볼 수 있듯이 유사한 텍스트 관계는 함께 그룹화되고 서로 다른 관계는 분리됩니다. 이는 임베딩 모델이 보이지 않는 텍스트 관계에 대한 텍스트 관계 표현을 잘 생성 할 수 있으며 잠재적으로 감독되지 않은 설정에서 작업을 돕는 관계형 기능으로 사용될 수 있음을 의미합니다.

Case Study.

To show that the embedding model generalizes to unseen textual relations via capturing crucial textual sub-patterns, we randomly pick some textual relations in NYT train set but not in ClueWeb train set, and compare with its top5 nearest neighbors in ClueWeb train set, based on the similarity of the learned embedding. A case study is shown in Table 3. We can see that the KB relation place of birth often collocates with a preposition in indicating the object fits into a location type, and some key words like born. Together, the sub-structure born in serves as a strong indicator for place of birth relation. There is almost always some redundant information in the textual relations, for example in the textual relation nsubjpass ←−−−−−− nmod:on −−−−−→ nmod:in −−−−−→, the sub-structure nmod:on −−−−−→ does not carry crucial information indicating the target relation. A good textual relation embedding model should be capable of learning to attend to the crucial semantic patterns.

임베딩 모델이 중요한 텍스트 하위 패턴 캡처를 통해 보이지 않는 텍스트 관계로 일반화됨을 보여주기 위해, 우리는 NYT 기차 세트에서 일부 텍스트 관계를 무작위로 선택하지만 ClueWeb 기차 세트에서는 선택하지 않고 다음을 기반으로 ClueWeb 기차 세트에서 상위 5 개의 가장 가까운 이웃과 비교합니다. 학습 된 임베딩의 유사성. 사례 연구는 표 3에 나와 있습니다. 우리는 KB 관계 출생지가 객체가 위치 유형에 적합 함을 나타내는 전치사 및 born과 같은 일부 키워드와 함께 배치되는 경우가 많습니다. 함께 태어난 하위 구조는 출생지 관계에 대한 강력한 지표 역할을합니다. 텍스트 관계에는 거의 항상 중복 정보가 있습니다. 예를 들어 텍스트 관계 nsubjpass ←−−−−−− nmod : on −−−−−→ nmod : in −−−−−→ 하위 구조 nmod : on −−−−−→ 는 대상 관계를 나타내는 중요한 정보를 전달하지 않습니다. 좋은 텍스트 관계 임베딩 모델은 중요한 의미 패턴에주의를 기울이는 방법을 학습 할 수 있어야 합니다.

Acknowledgment

The authors would like to thank the anonymous reviewers for their thoughtful comments. This research was sponsored in part by the Army Research Laboratory under cooperative agreements W911NF09-2-0053 and NSF IIS 1528175. The views and conclusions contained herein are those of the authors and should not be interpreted as representing the official policies, either expressed or implied, of the Army Research Laboratory or the U.S. Government. The U.S. Government is authorized to reproduce and distribute reprints for Government purposes notwithstanding any copyright notice herein.

저자는 신중한 의견에 대해 익명의 검토 자에게 감사의 말씀을 전합니다. 이 연구는 W911NF09-2-0053 및 NSF IIS 1528175의 협력 계약에 따라 육군 연구소에서 부분적으로 후원했습니다. 여기에 포함 된 견해와 결론은 저자의 견해와 결론이며 명시 적이든 묵시적이든 공식 정책을 나타내는 것으로 해석되어서는 안됩니다. , 육군 연구소 또는 미국 정부. 미국 정부는 여기에있는 저작권 고지에도 불구하고 정부 목적으로 재 인쇄물을 복제하고 배포 할 수 있습니다.

[End.]

댓글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중