[논문읽기] Construction of an Industrial Knowledge Graph (May 2019)

Construction of an Industrial Knowledge Graph for Unstructured Chinese Text Learning (May 2019)

Mingxiong Zhao , Han Wang, Jin Guo, Di Liu, Cheng Xie * , Qing Liu and Zhibo Cheng

https://www.mdpi.com/2076-3417/9/13/2720/pdf

Abstract:

The industrial 4.0 era is the fourth industrial revolution and is characterized by network penetration; therefore, traditional manufacturing and value creation will undergo revolutionary changes. Artificial intelligence will drive the next industrial technology revolution, and knowledge graphs comprise the main foundation of this revolution. The intellectualization of industrial information is an important part of industry 4.0, and we can efficiently integrate multisource heterogeneous industrial data and realize the intellectualization of information through the powerful semantic association of knowledge graphs. Knowledge graphs have been increasingly applied in the fields of deep learning, social network, intelligent control and other artificial intelligence areas. The objective of this present study is to combine traditional NLP (natural language processing) and deep learning methods to automatically extract triples from large unstructured Chinese text and construct an industrial knowledge graph in the automobile field.

산업 4.0 시대는 4 차 산업 혁명이며 네트워크 침투가 특징입니다. 따라서 전통적인 제조 및 가치 창출은 혁신적인 변화를 겪을 것입니다. 인공 지능은 다음 산업 기술 혁명을 주도 할 것이며 지식 그래프는이 혁명의 주요 토대를 구성합니다. 산업 정보의 지적화는 인더스트리 4.0의 중요한 부분이며, 우리는 지식 그래프의 강력한 의미적 연관성을 통해 다중 소스 이기종 산업 데이터를 효율적으로 통합하고 정보의 지적 화를 실현할 수 있습니다. 지식 그래프는 딥 러닝, 소셜 네트워크, 지능형 제어 및 기타 인공 지능 분야에서 점점 더 많이 적용되고 있습니다. 본 연구의 목적은 전통적인 NLP (자연어 처리)와 딥 러닝 방법을 결합하여 구조화되지 않은 큰 중국어 텍스트에서 자동으로 트리플을 추출하고 자동차 분야의 산업 지식 그래프를 구성하는 것입니다.

Keywords: social network; industry 4.0; industrial knowledge graph; deep learning; industrial big data; intellectualization of industrial information

  1. Introduction

Industry 4.0 is an intelligent era, which promotes industrial transformation through the use of information technology, such that traditional manufacturing and value creation will undergo revolutionary changes. Industry 4.0 is divided into two main parts: one is the intellectualization of industrial control, and the other is the intellectualization of industrial information. There has been much research on the intellectualization of industrial control that is now relatively mature [1–7]. However, the intellectualization of industrial information is still in the research stage and there are some difficulties, mainly because industrial data are heterogeneous and multisource, and most of them are unstructured data. Therefore, determining how to automatically extract useful information from these unstructured data and integrate them is an important part of the intelligence of industrial information. Taking the automobile industry as an example, services oriented toward the users’ experience are an important part of value creation and are becoming increasingly more important; however, it is not just the automobile production information but also the valuable information that can be automatically extracted from user evaluations that can help enterprises improve products and serve users. A recent study of the car market found that China has been the world’s largest seller of cars for nine consecutive years. In 2017, China’s total vehicle sales reached 28.879 million, more than 11 million ahead of the United States and accounting for a third of global sales. The relevant automobile websites and BBS (bulletin board system) generate a large amount of user data, which are mainly unstructured data without a specific format. The main work of this paper is to extract the structured information automatically from these unstructured Chinese texts and build the knowledge graph of the automobile industry based on the extracted structured information. Data sources as well as NLP (natural language processing) or other methods with which to process the data are unique among languages, especially for those belonging to different language families. Currently, most projects are concerned with knowledge graph systems in the English language. Because Chinese belongs to a different language family, directly translating English knowledge graphs into Chinese is not always feasible; hence, Chinese knowledge graph construction is of great significance. Currently, much progress has been made for knowledge graphs in the English language. However, Chinese knowledge graph construction has more challenges because Chinese is significantly different from English from various linguistic perspectives [8]. In recent years, the knowledge graph, as a new technology to realize large-scale semantic integration and interactive operation, has attracted great attention and research interest from industry and academia. The knowledge graph is a structured knowledge base that is different from the traditional relational database in that a knowledge graph uses a statement composed of two nodes and one edge to represent a fact, which is specifically expressed as a triple (h, r, t) [9], where h represents the head entity, r represents the relationship between the two entities, and t represents the tail entity. A knowledge graph usually consists of a large number of triples. Knowledge graphs have been increasingly applied in the fields of deep learning, computer vision, intelligent control and other artificial intelligence areas. The construction of a knowledge graph is divided into two parts: entity extraction and relation extraction. Knowledge graph has gone through the process from manual construction, such as WordNet and CyC, to automatic acquisition using machine learning and information extraction technology. This paper proposes a novel method that combines entity extraction with relational extraction to realize the automatic extraction of triples that are shaped as “entity-relation-entity” from unstructured Chinese text, and a feasible approach that extracts user evaluation information in the form of “entity-attribute-evaluation” from unstructured Chinese text.

인더스트리 4.0은 정보 기술의 사용을 통해 산업 변혁을 촉진하는 지능형 시대로, 전통적인 제조 및 가치 창출이 혁명적 인 변화를 겪게됩니다. 인더스트리 4.0은 크게 두 부분으로 나뉩니다. 하나는 산업 제어의 지적 화이고 다른 하나는 산업 정보의 지적 화입니다. 현재 비교적 성숙 된 산업 통제의 지적 화에 대한 많은 연구가있었습니다 [1-7]. 그러나 산업 정보의 지식 화는 아직 연구 단계에 있으며, 주로 산업 데이터가 이기종이고 다중 소스이고 대부분이 비정형 데이터이기 때문에 약간의 어려움이 있습니다. 따라서 이러한 비정형 데이터에서 유용한 정보를 자동으로 추출하고 통합하는 방법을 결정하는 것은 산업 정보 인텔리전스의 중요한 부분입니다. 자동차 산업을 예로 들어, 사용자 경험을 지향하는 서비스는 가치 창출의 중요한 부분이며 점점 더 중요 해지고 있습니다. 그러나 기업이 제품을 개선하고 사용자에게 서비스를 제공 할 수있는 것은 자동차 생산 정보뿐 아니라 사용자 평가에서 자동으로 추출 할 수있는 귀중한 정보이기도합니다. 최근 자동차 시장 조사에 따르면 중국은 9 년 연속 세계 최대 자동차 판매국이었습니다. 2017 년 중국의 총 자동차 판매량은 28879 만대로 미국보다 1,100 만 개가 넘으며 전 세계 판매량의 3 분의 1을 차지합니다. 관련 자동차 웹 사이트와 BBS (게시판 시스템)는 주로 특정 형식이없는 비정형 데이터 인 많은 양의 사용자 데이터를 생성합니다. 이 논문의 주요 업무는 이러한 비정형 중국어 텍스트에서 구조화 된 정보를 자동으로 추출하고 추출 된 구조화 된 정보를 기반으로 자동차 산업의 지식 그래프를 구축하는 것입니다. 데이터 소스뿐만 아니라 NLP (자연어 처리) 또는 데이터를 처리하는 다른 방법은 특히 다른 언어 계열에 속하는 언어간에 고유합니다. 현재 대부분의 프로젝트는 영어로 된 지식 그래프 시스템과 관련이 있습니다. 중국어는 다른 언어 계열에 속하기 때문에 영어 지식 그래프를 중국어로 직접 번역하는 것이 항상 가능한 것은 아닙니다. 따라서 중국 지식 그래프 구성은 매우 중요합니다. 현재 영어로 된 지식 그래프에 대한 많은 진전이 이루어졌습니다. 그러나 중국어는 다양한 언어 적 관점에서 영어와 크게 다르기 때문에 중국어 지식 그래프 구성에는 더 많은 어려움이 있습니다 [8]. 최근에는 대규모 시맨틱 통합 및 인터랙티브 운용을 실현하기 위한 신기술 인 지식 그래프가 산학연의 큰 관심과 연구 관심을 받고있다. 지식 그래프는 사실을 표현하기 위해 2 개의 노드와 1 개의 에지로 구성된 명령문을 사용한다는 점에서 기존의 관계형 데이터베이스와 다른 구조화 된 지식 기반으로, 특히 트리플 (h, r, t)로 표현됩니다. 여기서 h는 헤드 엔티티, r은 두 엔티티 간의 관계, t는 테일 엔티티를 나타냅니다. 지식 그래프는 일반적으로 많은 수의 트리플로 구성됩니다. 지식 그래프는 딥 러닝, 컴퓨터 비전, 지능형 제어 및 기타 인공 지능 분야에서 점점 더 많이 적용되고 있습니다. 지식 그래프의 구성은 엔티티 추출과 관계 추출의 두 부분으로 나뉩니다. 지식 그래프는 WordNet 및 CyC와 같은 수동 구성에서 기계 학습 및 정보 추출 기술을 사용한 자동 획득에 이르는 프로세스를 거쳤습니다. 본 논문에서는 구조화 되지 않은 중국어 텍스트에서 “entity-relation-entity”형태의 트리플을 자동으로 추출하기 위해 엔티티 추출과 관계형 추출을 결합한 새로운 방법과 사용자 평가 정보를 ” 구조화되지 않은 중국어 텍스트의 엔티티 속성 평가”.

In summary, the contributions of our work are highlighted as follows:

(1) A feasible method is proposed to achieve automatic extraction of triples from unstructured Chinese text by combining entity extraction and relationship extraction.
(2) An approach is proposed to extract structured user evaluation information from unstructured Chinese text.
(3) A knowledge graph of the automobile industry is constructed.

요약하면, 우리 작업의 기여는 다음과 같이 강조됩니다.

(1) 엔티티 추출과 관계 추출을 결합하여 구조화 되지 않은 중국어 텍스트에서 트리플을 자동으로 추출하는 실행 가능한 방법이 제안됩니다.
(2) 구조화되지 않은 중국어 텍스트에서 구조화 된 사용자 평가 정보를 추출하는 접근법이 제안됩니다.
(3) 자동차 산업의 지식 그래프가 구성됩니다.

The remainder of the paper is organized as follows: Section 2 reviews the related works. Section 3 describes the proposed method in detail. In Section 4, the complete experiment and the knowledge graph construction is presented. Section 5 concludes the paper.

나머지 논문은 다음과 같이 구성됩니다. 섹션 2는 관련 작업을 검토합니다. 3 장에서는 제안 된 방법에 대해 자세히 설명한다. 섹션 4에서는 전체 실험과 지식 그래프 구성이 제시됩니다. 5 장에서 논문을 마칩니다.

  1. Related Work

To construct the knowledge graph of the automobile industry, we need to extract triples, including entity extraction and relation extraction. The related works summarize the state-of-the-art studies about entity extraction, relation extraction, and the introduction of existing knowledge graphs.

자동차 산업의 지식 그래프를 구성하려면 엔티티 추출 및 관계 추출을 포함한 트리플을 추출해야 합니다. 관련 작업은 개체 추출, 관계 추출 및 기존 지식 그래프 도입에 대한 최신 연구를 요약합니다.

2.1. Entity Extraction

Entity extraction is also called entity linking or entity annotation. It is a hot topic in knowledge accessing and web-based content processing. Much work has been conducted toward entity linking in recent years, which has resulted in several different solutions. By English entity extraction, Wikify uses unsupervised keyword extraction techniques to extract entities from text [10]. Then, Wikipedia is applied to find the matching pairs with the extracted entities. Finally, two different disambiguation algorithms are employed to link the correct Wikipedia page with the entity. In a similar way, Tagme and Spotlight extract and link entities to a knowledge base [11–13]. The major difference is that Spotlight uses DBpedia as its knowledge base. For Chinese entity extraction, CMEL builds a synonym dictionary for Chinese entities from Microblog [14]. Then, Wikipedia is applied as the linking knowledge base. An SVM method is used to address disambiguation. Yuan et al. use SWJTU Chinese word segmentation in entity recognition [15]. Pinyin edit distance (PED) and LCS (longest common subsequence) are applied to entity linking. Additionally, Wikipedia is applied as the linking knowledge base. CN-EL uses a similar process for entity extraction, but the difference is that it uses CN-DBpedia as its knowledge base. It also provides a stable online interface for both research and commercial access. Table 1 summarizes the above methods in detail [16]. It is observed from Table 1 that Wikify and TAGME are the recommendations for traditional wiki-page linking. Spotlight can be used for LOD linking for English entities and CN-DBpedia can be used for LOD linking for Chinese entities. Recently, entity extraction is transformed into sequence annotation problem, He et al. propose a method about Chinese entity extraction based on bidirectional LSTM networks [17]. Dash et al. use big data mechanics enhance entity extraction [18]. All have achieved good results.

Because of the large number of unrelated entities that would be introduced using the above tools, in this paper, we extract named entities by dictionary matching. We first create a dictionary of the car, and then create a character iterator and identify the name of the car by string matching.

엔티티 추출은 엔티티 링크 또는 엔티티 주석이라고도 합니다. 지식 액세스 및 웹 기반 콘텐츠 처리에서 뜨거운 주제입니다. 최근 몇 년 동안 엔터티 연결에 대한 많은 작업이 수행되어 몇 가지 다른 솔루션이 만들어졌습니다. 영어 항목 추출을 통해 Wikify는 비지도 키워드 추출 기술을 사용하여 텍스트에서 항목을 추출합니다 [10]. 그런 다음 Wikipedia가 적용되어 추출 된 엔티티와 일치하는 쌍을 찾습니다. 마지막으로, 올바른 Wikipedia 페이지를 엔티티와 연결하기 위해 두 가지 다른 명확화 알고리즘이 사용됩니다. 비슷한 방식으로 Tagme와 Spotlight는 엔티티를 추출하여 지식 기반에 연결합니다 [11–13]. 주요 차이점은 Spotlight는 지식 기반으로 DBpedia를 사용한다는 것입니다. 중국어 항목 추출을 위해 CMEL은 Microblog [14]에서 중국어 항목에 대한 동의어 사전을 구축합니다. 그런 다음 Wikipedia가 연결 지식 기반으로 적용됩니다. SVM 방법은 명확성을 해결하는 데 사용됩니다. Yuan et al. 엔티티 인식에서 SWJTU 중국어 단어 분할을 사용합니다 [15]. 병음 편집 거리 (PED) 및 LCS (가장 긴 공통 하위 시퀀스)가 엔티티 연결에 적용됩니다. 또한 Wikipedia는 연결 지식 기반으로 적용됩니다. CN-EL은 엔티티 추출을 위해 유사한 프로세스를 사용하지만 차이점은 CN-DBpedia를 지식 기반으로 사용한다는 것입니다. 또한 연구 및 상업적 액세스를위한 안정적인 온라인 인터페이스를 제공합니다. 표 1은 위의 방법을 자세히 요약 한 것입니다 [16]. 표 1에서 Wikify와 TAGME가 전통적인 위키 페이지 링크에 대한 권장 사항임을 알 수 있습니다. Spotlight는 영어 엔터티의 LOD 링크에 사용할 수 있으며 CN-DBpedia는 중국어 엔터티의 LOD 링크에 사용할 수 있습니다. 최근 엔티티 추출은 시퀀스 주석 문제로 변환됩니다. He et al. 양방향 LSTM 네트워크를 기반으로 한 중국 엔티티 추출 방법을 제안합니다 [17]. Dash et al. 빅 데이터 메커니즘을 사용하여 엔티티 추출을 향상시킵니다 [18]. 모두 좋은 결과를 얻었습니다.

위의 도구를 사용하여 도입되는 관련없는 엔티티가 많기 때문에이 백서에서는 사전 일치를 통해 명명 된 엔티티를 추출합니다. 먼저 자동차 사전을 만든 다음 문자 반복기를 만들고 문자열 일치로 자동차 이름을 식별합니다.

2.2. Relation Extraction

Relation extraction is one of the most important tasks in NLP (natural language processing). Many efforts have been invested in relation extraction. Relationship extraction is transformed into relationship classification [19]. One related work was proposed by Rink and Harabagiu [20] and utilizes many features derived from external corpora for a support vector machine (SVM) classifier. Recently, deep neural networks have been shown to learn underlying features automatically and have been used in the literature. The most representative progress was made by Zeng et al., who utilized convolutional neural networks (CNNs) for relation classification [1,21]. While CNNs are not suitable for learning long-distance semantic information, the RNN (recurrent neural network) is often used for text processing [22]. One related work was proposed by Zhang and Wang, which employed bidirectional RNN to learn patterns of relations from raw text data [23]. Although the bidirectional RNN has access to both past and future context information, the range of context is limited due to the vanishing gradient problem [24]. To overcome this problem, long short-term memory (LSTM) units were introduced by Hochreiter and Schmidhuber [25]. Moreover, the GRU (gated recurrent unit) proposed by Cho et al. is a good variant of the LSTM network [26]. It is simpler and more efficient than the LSTM network, so the method of this paper builds on the bidirectional GRU. Most of these methods are supervised relation extraction, which is time-consuming and labor intensive. To address this issue, Mintz et al. align plain text with free-base by distance supervision [27]. However, distance supervision inevitably encounters the wrong labeling problem. To alleviate the wrong labeling problem, Riedel et al. model distant supervision for relation extraction as a multi-instance single-label problem [28], and Hoffmann et al. adopt multi-instance multilabel learning in relation extraction [29,30]. However, all of the feature-based methods strongly depend on the quality of the features generated by NLP tools, which will suffer from the error propagation problem and the difficulty of applying the multi-instance learning strategy of conventional methods in neural network models. Therefore, Zeng et al. combine at-least-one multi-instance learning with a neural network model to extract relations on distant supervision data [31]. However, they assume that only one sentence is active for each entity pair, and it will therefore lose a large amount of rich information contained in those neglected sentences. Hence, Lin et al. propose sentence-level attention over multiple instances, which can utilize all informative sentences [32]. Since each word in a sentence has a different importance to the semantic expression of the sentence, this paper also uses the word-level attention. In recent years, the research of graph neural network has become a hot topic in the field of deep learning, Zhu et al. use graph neural newtwork extract relation, and achieve good results. In this paper, we will extract the relation between cars from unstructured Chinese text. For example, given the Chinese text “Volkswagen’s two classic b-class cars Magotan and Passat have been occupying a large share of domestic automobile sales”, we can extract that the semantic relation between “Magotan” and “Passat” is “Same Level”. In this experiment, we define four semantic relations: “Same Level”, “Homology”, “Subordinate” and “Unknown”.

관계 추출은 NLP (자연어 처리)에서 가장 중요한 작업 중 하나입니다. 관계 추출에 많은 노력이 투자되었습니다. 관계 추출은 관계 분류로 변환됩니다 [19]. Rink와 Harabagiu [20]가 제안한 관련 작업 중 하나는 SVM (Support Vector Machine) 분류기에 외부 말뭉치에서 파생 된 많은 기능을 활용합니다. 최근에 심층 신경망은 기본 기능을 자동으로 학습하는 것으로 나타 났으며 문헌에서 사용되었습니다. 가장 대표적인 진전은 관계 분류를 위해 컨볼루션 신경망 (CNN)을 사용한 Zeng et al.에 의해 이루어졌습니다 [1,21]. CNN은 장거리 의미 정보를 학습하는 데 적합하지 않지만 RNN (순환 신경망)은 종종 텍스트 처리에 사용됩니다 [22]. Zhang과 Wang은 원시 텍스트 데이터에서 관계 패턴을 학습하기 위해 양방향 RNN을 사용하는 관련 작업을 제안했습니다 [23]. 양방향 RNN은 과거와 미래의 컨텍스트 정보에 모두 액세스 할 수 있지만, 사라지는 기울기 문제로 인해 컨텍스트 범위가 제한됩니다 [24]. 이 문제를 극복하기 위해 Hochreiter와 Schmidhuber [25]는 장단기 기억 (LSTM) 단위를 도입했습니다. 또한 Cho 등이 제안한 GRU (gated recurrent unit). LSTM 네트워크의 좋은 변형입니다 [26]. LSTM 네트워크보다 간단하고 효율적이므로 이 백서의 방법은 양방향 GRU를 기반으로합니다. 이러한 방법의 대부분은 시간과 노동 집약적 인 감독 관계 추출입니다. 이 문제를 해결하기 위해 Mintz et al. 거리 감독을 통해 일반 텍스트를 자유 기반과 정렬 [27]. 그러나 거리 감독은 불가피하게 잘못된 라벨링 문제에 직면합니다. 잘못된 라벨링 문제를 완화하기 위해 Riedel et al. 다중 인스턴스 단일 라벨 문제로 관계 추출을 위한 모델 원격 감독 [28], Hoffmann et al. 관계 추출에서 다중 인스턴스 다중 레이블 학습을 채택합니다 [29,30]. 그러나 모든 기능 기반 방법은 NLP 도구에서 생성 된 기능의 품질에 크게 의존하므로 오류 전파 문제와 기존 방법의 다중 인스턴스 학습 전략을 신경망 모델에 적용하기가 어렵습니다. 따라서 Zeng et al. 최소한 하나의 다중 인스턴스 학습을 신경망 모델과 결합하여 원거리 감독 데이터에 대한 관계를 추출합니다 [31]. 그러나 그들은 각 엔티티 쌍에 대해 하나의 문장 만 활성화 되어 있다고 가정하므로 무시 된 문장에 포함 된 많은 양의 풍부한 정보를 잃게됩니다. 따라서 Lin et al. 모든 유익한 문장을 활용할 수 있는 여러 사례에 대한 문장 수준의 주의를 제안합니다 [32]. 문장의 각 단어는 문장의 의미 적 표현에 대해 서로 다른 중요성을 갖기 때문에 이 논문에서는 단어 수준의 주의도 사용합니다. 최근 몇 년 동안 그래프 신경망에 대한 연구가 딥 러닝 분야에서 화제가 되고 있습니다. Zhu et al. 그래프 신경 뉴트 워크 추출 관계를 사용하고 좋은 결과를 얻습니다. 이 논문에서는 구조화 되지 않은 중국어 텍스트에서 자동차 간의 관계를 추출합니다. 예를 들어,“폭스 바겐의 클래식 b 급 자동차 2 대 마고 탄과 파사트가 국내 자동차 판매에서 큰 비중을 차지하고 있다”라는 중국어 텍스트가 주어지면 “마고 탄”과 “파사트” 사이의 의미 관계가 “동일 수준”임을 추출 할 수 있습니다. 이 실험에서 우리는 “Same Level”, “상동성”, “포함관계” 및 “Unknown”의 네 가지 의미 관계를 정의합니다.

2.3. Knowledge Graph

Knowledge graphs can be divided into universal knowledge graphs and industry knowledge graphs. The universal knowledge graph is based on common knowledge and emphasizes the breadth of knowledge. The industry knowledge graph is based on industry-specific data and emphasizes the depth of knowledge. In the universal knowledge graph, Freebase, Wikidata, DBpedia, and YAGO are representative examples. DBpedia is a multilanguage comprehensive knowledge base that was created by researchers from the University of Leipzig and the University of Mannheim in Germany and is at the core of the LOD (linking open data) project [33]. DBpedia extracts structured information from a multilingual Wikipedia and publishes it as linked data on the Internet for online web applications, social networking sites, and other online knowledge bases [34]. YAGO is a comprehensive knowledge base that was built by researchers from the Max Planck institute (MPI) in Germany. YAGO integrates Wikipedia, WordNet, GeoNames and other data sources, and integrates the classification system in Wikipedia with that in WordNet to build a complex hierarchy of categories. Freebase knowledge base was originally created by Metaweb and later acquired by Google [35]. Freebase knowledge base has become an important part of the Google knowledge graph. The data in Freebase is mainly constructed by humans, while the other data are mainly from Wikipedia, IMDB, Flickr and other websites or corpora. Wikidata are a collaborative knowledge base that was designed to support Wikipedia, Wikimedia Commons, and other Wikimedia projects. It is the central repository for structured data in Wikipedia, Wikivoyage, and Wikisource and is free to use [36]. The data in Wikidata are primarily stored as documents and currently contain over 17 million documents. Most universal knowledge graphs are constructed to obtain knowledge from semistructured or structured web pages. In terms of processing semistructured data, the main task is to learn the extraction rules of semistructured data through wrappers. Because semistructured data have a large number of repetitive structures, a small amount of annotation data can allow the machine to learn certain rules and then use the rules to extract the same type of data in the whole site. The construction of an industry knowledge graph is different from the construction of a universal knowledge graph. At present, there is little research on the industry knowledge map and is limited to a few fields. Due to the complex data structure, most of it is unstructured data, which makes the construction of an industry knowledge graph more challenging.

지식 그래프는 범용 지식 그래프와 산업 지식 그래프로 나눌 수 있습니다. 보편적 지식 그래프는 상식을 기반으로 하며 지식의 폭을 강조합니다. 산업 지식 그래프는 산업별 데이터를 기반으로 하며 지식의 깊이를 강조합니다. 보편적 지식 그래프에서 Freebase, Wikidata, DBpedia, YAGO가 대표적인 예입니다. DBpedia는 독일 라이프 치히 대학과 만하임 대학의 연구원들이 만든 다국어 종합 지식 기반이며 LOD (오픈 데이터 연결) 프로젝트 [33]의 핵심입니다. DBpedia는 다국어 위키 백과에서 구조화 된 정보를 추출하여 온라인 웹 애플리케이션, 소셜 네트워킹 사이트 및 기타 온라인 지식 기반 [34]을 위해 인터넷에 연결된 데이터로 게시합니다. YAGO는 독일의 Max Planck 연구소 (MPI)의 연구원들이 구축 한 포괄적인 지식 기반입니다. YAGO는 Wikipedia, WordNet, GeoNames 및 기타 데이터 소스를 통합하고 Wikipedia의 분류 시스템을 WordNet의 분류 시스템과 통합하여 복잡한 범주 계층을 구축합니다. Freebase 지식 기반은 원래 Metaweb에서 만들어졌고 나중에 Google이 인수했습니다 [35]. Freebase 지식 기반은 Google 지식 그래프의 중요한 부분이되었습니다. Freebase의 데이터는 주로 인간에 의해 구성되고 다른 데이터는 주로 Wikipedia, IMDB, Flickr 및 기타 웹 사이트 또는 말뭉치에서 생성됩니다. Wikidata는 Wikipedia, Wikimedia Commons 및 기타 Wikimedia 프로젝트를 지원하도록 설계된 협업 지식 기반입니다. Wikipedia, Wikivoyage 및 Wikisource의 구조화 된 데이터에 대한 중앙 저장소이며 무료로 사용할 수 있습니다 [36]. Wikidata의 데이터는 주로 문서로 저장되며 현재 1,700 만 개 이상의 문서를 포함합니다. 대부분의 범용 지식 그래프는 반 구조적 또는 구조화 된 웹 페이지에서 지식을 얻기 위해 구성됩니다. 반 구조화 된 데이터 처리 측면에서 주된 임무는 래퍼를 통해 반 구조화 된 데이터의 추출 규칙을 학습하는 것입니다. 반 구조화 된 데이터에는 많은 수의 반복적인 구조가 있기 때문에 적은 양의 주석 데이터로 기계가 특정 규칙을 학습 한 다음 규칙을 사용하여 전체 사이트에서 동일한 유형의 데이터를 추출 할 수 있습니다. 산업 지식 그래프의 구성은 범용 지식 그래프의 구성과 다릅니다. 현재 업계 지식 맵에 대한 연구는 거의 없으며 몇 가지 분야로 제한되어 있습니다. 복잡한 데이터 구조로 인해 대부분은 구조화 되지 않은 데이터이므로 산업 지식 그래프 구성이 더 어려워집니다.

An industry knowledge graph can also be called a vertical knowledge graph. The description target of this kind of knowledge graph is the specific industry domain, which usually relies on the data of a specific industry to build, so its description scope is very limited. In the automotive industry, there is no corresponding knowledge graph. In this article, we will crawl the unstructured data related to the automotive field from the vehicle websites and BBS, and extract the structured knowledge from the unstructured data by employing the method of the bidirectional GRU (gate recurrent unit) combined with an attention mechanism. We construct the knowledge graph of the automotive industry based on the structured knowledge. The construction of the knowledge graph is divided into two main parts: entity extraction and relationship extraction. Entity extraction is also known as named entity recognition (NER) [37] and refers to automatic recognition of named entities from the data set. In this experiment, we automatically extract specific automobile names from unstructured texts, such as “Chevrolet” and “Ford”. After entity extraction of the text corpus, we obtain a series of discrete named entities. To obtain semantic information, we also need to extract the relationship between entities from the relevant corpus and form a network knowledge structure by connecting the entities through the relationship.

Figure 1 shows the pipeline of the method. The input of the method is unstructured Chinese text, where a large number of triples are obtained after processing, and we link the same entities together to form a knowledge graph.

산업 지식 그래프는 수직 지식 그래프라고도 합니다. 이러한 종류의 지식 그래프의 설명 대상은 일반적으로 특정 산업의 데이터에 의존하여 구축하는 특정 산업 도메인이므로 설명 범위가 매우 제한적입니다. 자동차 산업에는 해당하는 지식 그래프가 없습니다. 이 기사에서는 차량 웹 사이트 및 BBS에서 자동차 분야와 관련된 비정형 데이터를 크롤링하고, 주의 메커니즘과 결합 된 양방향 GRU (gate recurrent unit) 방식을 사용하여 비정형 데이터에서 구조화 된 지식을 추출합니다. 구조화 된 지식을 바탕으로 자동차 산업의 지식 그래프를 구성합니다. 지식 그래프의 구성은 엔티티 추출과 관계 추출의 두 가지 주요 부분으로 나뉩니다. 엔티티 추출은 명명 된 엔티티 인식 (NER) [37]이라고도하며 데이터 세트에서 명명 된 엔티티의 자동 인식을 나타냅니다. 이 실험에서는 “Chevrolet”및 “Ford”와 같은 구조화 되지 않은 텍스트에서 특정 자동차 이름을 자동으로 추출합니다. 텍스트 코퍼스의 엔티티 추출 후 일련의 개별 명명 된 엔티티를 얻습니다. 의미론적 정보를 얻기 위해서는 관련 코퍼스에서 엔티티 간의 관계를 추출하고 관계를 통해 엔티티를 연결하여 네트워크 지식 구조를 형성해야합니다.

그림 1은 메서드의 파이프 라인을 보여줍니다. 방법의 입력은 처리 후 많은 수의 트리플이 얻어지는 구조화되지 않은 중국어 텍스트이며 동일한 엔티티를 함께 연결하여 지식 그래프를 형성합니다.

2.4. Automated Knowledge Base Management

A fundamental challenge in the intersection of Artificial Intelligence and Databases consists of developing methods to automatically manage Knowledge Bases which can serve as a knowledge source for computer systems trying to replicate the decision-making ability of human experts.

Although the challenge for dealing with knowledge is an old problem, it is perhaps more relevant today than ever before. The reason is that the joint history of Artificial Intelligence and Databases shows that knowledge is critical for the good performance of intelligent systems. In many cases, better knowledge can be more important for solving a task than better algorithms [38].

It is widely accepted that the complete life cycle for building systems of this kind can be represented as a three-stage process: creation, exploitation and maintenance [39]. These stages in turn are divided into other disciplines. In Table 2, we can see a summary of the major disciplines in which the complete cycle of knowledge (a.k.a. Knowledge Management) is divided [40].

인공 지능과 데이터베이스의 교차점에서 근본적인 과제는 인간 전문가의 의사 결정 능력을 복제하려는 컴퓨터 시스템의 지식 소스 역할을 할 수 있는 지식 기반을 자동으로 관리하는 방법을 개발하는 것입니다.

지식을 다루기위한 도전은 오래된 문제이지만 오늘날 그 어느 때보 다 더 관련성이 있을 것입니다. 그 이유는 인공 지능과 데이터베이스의 공동 역사가 지식이 지능형 시스템의 우수한 성능에 중요하다는 것을 보여주기 때문입니다. 많은 경우, 더 나은 알고리즘보다 더 나은 지식이 과제를 해결하는 데 더 중요 할 수 있습니다 [38].

이러한 종류의 시스템 구축을 위한 전체 수명주기는 생성, 개발 및 유지 관리의 3 단계 프로세스로 표현 될 수 있다는 것이 널리 알려져 있습니다 [39]. 이 단계는 차례로 다른 분야로 나뉩니다. 표 2에서 우리는 지식의 전체주기 (일명 지식 관리)가 구분되는 주요 분야의 요약을 볼 수 있습니다 [40].

  1. Methods

3.1. Semantic Relation Extraction

The extraction of an entity relationship can be transformed into relation classification. An example is shown in Figure 2, the pipeline of semantic relation extraction mainly includes three steps.

Step one: We convert each word of the input sentence into a vector by an embedding matrix V ∈ Rdw×|V|, where V is a fixed-sized vocabulary and dw is a hyperparameter to be chosen by the user. The purpose of providing two entities in input is to calculate the relative distance between each word and two entities, we connect the word vector and position vector to obtain the distributed representation of each word, which is the input of the model.

Step two: The model BGRU is able to exploit information both from the past and the future, and finally outputs the distributed representation of the whole sentence.

Step three: After going through the classifier, we can get the probability of each category and select the relationship of maximum probability as the final result.

When we use the model, we simply enter Chinese text (the format is “entity1 entity2 sentences”), and the model outputs relation. Take Figure 2 as an example, we enter the Chinese text “Camry Regal, which is the best-looking midsize car, Camry or Regal?”, model output relation “Same Level”.

항목 관계의 추출은 관계 분류로 변환 될 수 있습니다. 그림 2에 예시가 나와 있으며, 의미 관계 추출 파이프 라인은 주로 세 단계를 포함합니다.

1 단계 : 임베딩 행렬 V ∈ Rdw × | V |에 의해 입력 문장의 각 단어를 벡터로 변환합니다. 여기서 V는 고정 크기 어휘이고 dw는 사용자가 선택할 하이퍼 파라미터입니다. 입력에 두 개체를 제공하는 목적은 각 단어와 두 개체 사이의 상대적 거리를 계산하는 것입니다. 단어 벡터와 위치 벡터를 연결하여 모델의 입력 인 각 단어의 분산 표현을 얻습니다.

2 단계 : 모델 BGRU는 과거와 미래의 정보를 모두 활용할 수 있으며 최종적으로 전체 문장의 분산 표현을 출력합니다.

3 단계 : 분류기를 거친 후 각 범주의 확률을 구하고 최종 결과로 최대 확률의 관계를 선택할 수 있습니다.

모델을 사용할 때 중국어 텍스트 (형식은 “entity1 entity2 문장”) 만 입력하면 모델이 관계를 출력합니다. 그림 2를 예로 들어 중국어 텍스트 “Camry Regal, 가장 멋진 중형차 인 Camry 또는 Regal?”, 모델 출력 관계 “Same Level”을 입력합니다.

3.1.1. Sentence Encoder

In this section, we transform the sentence x into its distributed representation X by the BGRU+Attention model. As shown in Figure 3, the model contains the following components:

  1. Input layer,
  2. Embedding layer,
  3. BGRU layer,
  4. Attention layer,
  5. Output layer.

The inputs of the BGRU are raw words of the sentence x. We transform words into low-dimensional vectors by a word embedding matrix. In addition, we also use position embeddings for all words in the sentence to specify the position of each entity pair.

이 섹션에서는 BGRU + Attention 모델에 의해 문장 x를 분산 표현 X로 변환합니다. 그림 3에 표시된 것처럼 모델에는 다음 구성 요소가 포함됩니다.

  1. 입력 레이어,
  2. 임베딩 레이어,
  3. BGRU 계층,
  4. 주의 레이어,
  5. 출력 레이어.

BGRU의 입력은 문장 x의 원시 단어입니다. 단어 임베딩 행렬에 의해 단어를 저 차원 벡터로 변환합니다. 또한 문장의 모든 단어에 위치 임베딩을 사용하여 각 엔티티 쌍의 위치를 지정합니다.

Word Embedding.

Input a sentence x consisting of n words x = (w1, w2, · · · , wn). This part aims to transform every word into distributed representations that capture syntactic and semantic meanings of the words by an embedding matrix V ∈ Rdw×|V|, where V is a fixed-sized vocabulary and dw is a hyperparameter to be chosen by the user. As shown in Figure 4, we give a partial word embedding matrix, whose first column is a word, and the latter part is a 100-dimensional vector.

n 개의 단어 x = (w1, w2, · · ·, wn)로 구성된 문장 x를 입력합니다. 이 부분은 모든 단어를 임베딩 행렬 V ∈ Rdw × | V |에 의해 단어의 구문 및 의미론적 의미를 포착하는 분산 표현으로 변환하는 것을 목표로합니다. 여기서 V는 고정 크기 어휘이고 dw는 사용자가 선택할 하이퍼 파라미터입니다. . 그림 4에서 볼 수 있듯이, 첫 번째 열은 단어이고 후반부는 100 차원 벡터 인 부분 단어 임베딩 행렬을 제공합니다.

Position Embedding.

Contextual information at any location affects the extraction of entity relationships, and the words close to the target entities are usually informative to determine the relation between entities. Therefore, by defining the combination of the relative distances from the current word to the head or tail entities, the GRU can keep track of how close each word is to the head or tail entities.

모든 위치의 상황 정보는 엔터티 관계 추출에 영향을 미치며 대상 엔터티에 가까운 단어는 일반적으로 엔터티 간의 관계를 결정하는 데 유용합니다. 따라서 현재 단어에서 헤드 또는 테일 엔티티까지의 상대적 거리 조합을 정의함으로써 GRU는 각 단어가 헤드 또는 테일 엔티티에 얼마나 가까운 지 추적 할 수 있습니다.

Finally, we concatenate the word embedding and position embedding of all words to be a vector sequence S = (w1, w2, · · · , wn), where wi ∈ Rd(d = dw + dp).

마지막으로 모든 단어의 임베딩과 위치 임베딩을 벡터 시퀀스 S = (w1, w2, · · ·, wn)로 연결합니다. 여기서 wi ∈ Rd (d = dw + dp).

The GRU (gate recurrent unit) is a kind of recurrent neural network (RNN) that has also been proposed to solve problems such as the gradient vanishing in long-term memory [26]. Compared with LSTM, there are only two “gates” inside the GRU, and it has fewer parameters than LSTM but can also achieve the same function as the LSTM [41]. Considering the computing power and time cost of the hardware, we will often choose a more practical GRU. The architecture of the GRU block is shown in Figure 5.

Typically, the GRU-based recurrent neural networks contain an update gate zt and reset gate rt. The update gate is used to control the extent to which the status information of the previous moment is brought into the current state. The larger the value of the update gate is, the more the status information of the previous moment ht−1 is brought in. The reset gate is used to control the degree of ignoring the status information of the previous moment ht−1. The smaller the value of the reset gate is, the more the status information of the previous moment is ignored, just as these following equations demonstrate:

It is beneficial to have access to the future as well as the past context for many sequence modeling tasks. However, standard GRU networks process sequences in temporal order, and they ignore the future context. Bidirectional GRU networks are able to exploit information both from the past and the future by introducing a second layer that reverses the hidden connections flow. As shown in Figure 6, the output is represented as hi = h−→li ⊕ ←−rii.

GRU (gate recurrent unit)는 장기 기억의 기울기 소멸과 같은 문제를 해결하기 위해 제안 된 일종의 RNN (recurrent neural network)입니다 [26]. LSTM과 비교하여 GRU 내부에는 두 개의 “게이트”만 있으며 LSTM보다 매개 변수가 적지만 LSTM과 동일한 기능을 수행할 수도 있습니다 [41]. 하드웨어의 컴퓨팅 성능과 시간 비용을 고려할 때 더 실용적인 GRU를 선택하는 경우가 많습니다. GRU 블록의 아키텍처는 그림 5에 나와 있습니다.

일반적으로 GRU 기반 순환 신경망에는 업데이트 게이트 zt 및 재설정 게이트 rt가 포함됩니다. 업데이트 게이트는 이전 순간의 상태 정보를 현재 상태로 가져 오는 범위를 제어하는 ​​데 사용됩니다. 업데이트 게이트의 값이 클수록 이전 순간 ht-1의 상태 정보를 더 많이 가져옵니다. 리셋 게이트는 이전 순간 ht-1의 상태 정보를 무시하는 정도를 제어하는 ​​데 사용됩니다. 다음 방정식이 보여주는 것처럼 리셋 게이트의 값이 작을수록 이전 순간의 상태 정보가 더 많이 무시됩니다.

많은 시퀀스 모델링 작업에 대한 과거 컨텍스트뿐만 아니라 미래에도 액세스 할 수 있는 것이 좋습니다. 그러나 표준 GRU 네트워크는 시퀀스를 시간 순서로 처리하고 미래 컨텍스트를 무시합니다. 양방향 GRU 네트워크는 숨겨진 연결 흐름을 역전시키는 두 번째 계층을 도입하여 과거와 미래의 정보를 모두 활용할 수 있습니다. 그림 6과 같이 출력은 hi = h− → li ⊕ ← −rii로 표시됩니다.

3.1.2. Relation Classification

After the embedding layer, the original sentence becomes the corresponding sentence vector. As shown in Figure 7, we use a softmax classifier to predict relation y from sentence set S, just as these following equations demonstrate:

where W is a trained parameter vector and b is a bias, and n indicates the number of sentence sets. The loss function is defined as J:

where r is the one-hot representation of the truth relation and θ represents all parameters of the model.

The attention model was originally applied to image recognition, mimicking the focus of the eye moving on different objects when the person viewed the image [42–44]. Similarly, when recognizing an image or a language, a neural network is focused on a part of the feature each time, and the recognition is more accurate. This motivates determining how to measure the importance of features. The most intuitive method is to use a weight. Therefore, the result of the attention model is to calculate the weight of each feature first and then apply the weight to features.

임베딩 레이어 이후에는 원래 문장이 해당 문장 벡터가 됩니다. 그림 7에서 볼 수 있듯이 다음 방정식이 보여주는 것처럼 소프트 맥스 분류기를 사용하여 문장 집합 S에서 관계 y를 예측합니다.

여기서 W는 훈련 된 매개 변수 벡터이고 b는 편향이며 n은 문장 세트의 수를 나타냅니다. 손실 함수는 J :

여기서 r은 진리 관계의 원-핫 표현이고 θ는 모델의 모든 매개 변수를 나타냅니다.

주의 모델은 원래 이미지 인식에 적용되었으며, 사람이 이미지를 볼 때 다른 물체에서 움직이는 눈의 초점을 모방했습니다 [42–44]. 마찬가지로 이미지나 언어를 인식 할 때마다 신경망이 기능의 일부에 집중되어 인식이 더 정확합니다. 이것은 기능의 중요성을 측정하는 방법을 결정하는 동기를 부여합니다. 가장 직관적인 방법은 가중치를 사용하는 것입니다. 따라서 관심 모델의 결과는 먼저 각 특성의 가중치를 계산 한 다음 특성에 가중치를 적용하는 것입니다.

Word-level attention.

As shown in Figure 6, the output layer H can be represented as a matrix consisting of vectors [h1, h2, . . . , hn], where n is the sentence length. The representation S of the sentence is formed by a weighted sum of these output vectors hi:

where H ∈ Rdw×n, dw is the dimension of the word vector, and w is a trained parameter vector.

그림 6에서 볼 수 있듯이 출력 레이어 H는 벡터 [h1, h2,. . . , hn], 여기서 n은 문장 길이입니다. 문장의 표현 S는 다음과 같은 출력 벡터의 가중치 합으로 구성됩니다.

여기서 H ∈ Rdw × n, dw는 단어 벡터의 차원이고 w는 훈련 된 매개 변수 벡터입니다.

Sentence-level attention.

As shown in Figure 7, if we regard each sentence equally, the wrong labeling of sentences will introduce a massive amount of noise during training and testing. Therefore, sentence-level attention is important for relation extraction. The set vector X is computed as a weighted sum of these sentence vectors si:

As shown in Figure 8, every line is a sentence (the annotations are in parentheses). Red denotes the sentence weight and blue denotes the word weight. We normalize the word weight by the sentence weight to make sure that only important words in important sentences are emphasized. Figure 8 shows that the model can select the words carrying strong sentiment like “middle-size”, “MPV”, “same price” and their corresponding sentences. Sentences containing many words like “common”, “sales”, “from” are disregarded. Note that the model can not only select words carrying strong sentiment; it can also deal with complex across-sentence context.

그림 7에서 볼 수 있듯이 각 문장을 동등하게 생각하면 문장의 잘못된 라벨링으로 인해 학습 및 테스트 중에 엄청난 양의 소음이 발생합니다. 따라서 관계 추출에는 문장 수준의 주의가 중요합니다. 집합 벡터 X는 다음 문장 벡터 si의 가중 합계로 계산됩니다.

그림 8에서 볼 수 있듯이 모든 줄은 한 문장입니다 (주석은 괄호 안에 있음). 빨간색은 문장 무게를 나타내고 파란색은 단어 무게를 나타냅니다. 중요한 문장에서 중요한 단어만 강조되도록 문장 가중치로 단어 가중치를 정규화 합니다. 그림 8은 모델이 “중형”, “MPV”, “같은 가격”과 같은 강한 감성을 전달하는 단어와 해당 문장을 선택할 수 있음을 보여줍니다. “common”, “sales”, “from”과 같은 많은 단어가 포함 된 문장은 무시됩니다. 모델은 강한 감정을 전달하는 단어 만 선택할 수 없습니다. 또한 복잡한 문장 간 문맥을 다룰 수 있습니다.

3.2. User Comment Information Extraction

Syntax dependency parsing is one of the key techniques in natural language processing (NLP). Its basic task is to determine the syntactic structure of a sentence or the dependencies between words in a sentence. As shown in Figure 9, an example of syntactic dependency parsing and semantic role labeling is depicted in a Chinese sentence.

To facilitate subsequent structural understanding and extraction of content, we will organize the results of the above analysis into a dataframe, as shown in Table 3.

The “Word” column is the participle result of this sentence and the “Relation” column represents the relation between this word and the match word. Table 4 shows the corresponding syntactic relations. The “match word” column shows the match terms according to relationships, the “pos” column is the part of speech of each word, the “tuple word” column is a combination of two words, and the “match word n” column is the sequence number of the match word.

Semantic role labeling is a shallow semantic analysis of sentences, which centers on verbs to find the executor and acceptor of actions, as well as the components modified by adjectives. As shown in Figure 10, we find the component “A0” modified by the adjective “fashion” through semantic role labeling, and then find the main component “appearance” and the attribute “Audi A6” through the syntactic analysis of “A0”. Finally, we can obtain a triple in the shape of “Audi A6-appearance-fashion”.

구문 종속성 구문 분석은 자연어 처리 (NLP)의 핵심 기술 중 하나입니다. 기본 작업은 문장의 구문 구조 또는 문장에서 단어 간의 종속성을 결정하는 것입니다. 그림 9에 표시된 것처럼 구문 종속성 구문 분석 및 의미 론적 역할 레이블링의 예가 중국어 문장으로 표시됩니다.

이후의 구조적 이해와 콘텐츠 추출을 용이하게 하기 위해 위의 분석 결과를 표 3과 같이 데이터 프레임으로 구성합니다.

“단어”열은 이 문장의 분사 결과이고 “관계”열은 이 단어와 일치하는 단어 사이의 관계를 나타냅니다. 표 4는 해당 구문 관계를 보여줍니다. “일치 단어”열은 관계에 따른 일치 용어를 표시하고, “pos”열은 각 단어의 품사, “튜플 단어”열은 두 단어의 조합, “일치 단어 n”열은 일치 단어의 시퀀스 번호.

의미론적 역할 레이블링은 문장의 얕은 의미론적 분석으로, 동사를 중심으로 행동의 실행자와 수용자, 그리고 형용사로 수정 된 구성 요소를 찾습니다. 그림 10과 같이 의미론적 역할 레이블링을 통해 형용사 “fashion”에 의해 수정 된 구성 요소 “A0″을 찾은 다음 “A0″의 구문 분석을 통해 주 구성 요소 “appearance”와 속성 “Audi A6″을 찾습니다. 마지막으로 “Audi A6-appearance-fashion” 형태의 트리플을 얻을 수 있습니다.

3.3. Automatic Triples Extraction

We extract named entities by dictionary matching. We first create a dictionary of the car, then create a character iterator, and we identify the name of the car by string matching. Finally, the identified two entities and the corresponding text constitute the input of the relation extraction model. The model outputs the possibility of four relations. We select the relation between two entities with the highest probability, and obtain the triples shaped as “entity-relation-entity”. We also obtain the triples of user comments by syntactic dependency parsing and semantic role labeling. Figure 10 shows the flow of triples extraction.

사전 일치를 통해 명명 된 엔티티를 추출합니다. 먼저 자동차 사전을 만든 다음 문자 반복자를 만들고 문자열 일치로 자동차 이름을 식별합니다. 마지막으로 식별 된 두 엔티티와 해당 텍스트가 관계 추출 모델의 입력을 구성합니다. 모델은 네 가지 관계의 가능성을 출력합니다. 확률이 가장 높은 두 개체 간의 관계를 선택하고 “entity-relation-entity” 모양의 트리플을 얻습니다. 또한 구문 종속성 구문 분석 및 의미론적 역할 레이블링을 통해 사용자 의견의 세 배를 얻습니다. 그림 10은 트리플 추출의 흐름을 보여줍니다.

  1. Experiment

Semantic relation extraction is one of the tasks that is transformed into relation classification and implemented by the supervised learning method in the above section. First, we defined four relationship categories—“Same Level”, “Homology”, “Subordinate”, and “Unknown”—and construct the corresponding data set for each relationship. Then, we train the relationship extraction model and realize the automatic extraction of triples by combining named entity recognition. Finally, we construct the knowledge graph of the automotive domain through the obtained triples.

의미적 관계 추출은 위 섹션의 지도 학습 방법으로 관계 분류로 변환되어 구현되는 작업 중 하나입니다. 먼저 “동일한 수준”, “상동성”, “하위” 및 “알 수 없음”이라는 네 가지 관계 범주를 정의하고 각 관계에 대한 해당 데이터 집합을 구성합니다. 그런 다음 관계 추출 모델을 훈련시키고 명명 된 엔티티 인식을 결합하여 트리플의 자동 추출을 실현합니다. 마지막으로 얻은 트리플을 통해 자동차 영역의 지식 그래프를 구성합니다.

4.1. Dataset

We need to find the corresponding semantic training text for each relationship. For example, the Chinese text “When we talk about French cars, we have to mention PSA group’s two twin stars, Citroen and Peugeot” can be expected to be the training text of the semantic relationship of “Homology” between the two entities “Citroen” and “Peugeot”. The relationship between two cars from the same country is “Homology”. To find the corresponding training text, we first sort out several popular cars from nine countries and then combine the cars from the same country. Finally, we crawl the text in which two cars’ names appear at the same time as the training text of the relation “Homologous”. The method improves the efficiency of data processing but also introduces considerable noise data. The sentence-level attention mentioned in the previous section reduces the influence of noise data. Figure 11 shows the number of training texts for the relation “Homologous”.

The “subordinate” relationship reflects the information of the superior and the subordinate characteristics. Figure 12 is the subordinate diagram of “Volkswagen”, where the relationship between “FAW-Volkswagen” and “Jetta” is “Subordinate”. Similarly, we sort out the combinations of other brands and find the corresponding training text for the relation “Subordinate”.

Similarly, we sort out 11 levels of partial vehicles, then combine cars of the same level, and finally crawl the corresponding training text. Figure 13 shows the number of training texts for the relation.

Figure 14 shows the data statistics of training data of four kinds of relations, where “unknown” stands for no relation between entities.

각 관계에 해당하는 의미론적 훈련 텍스트를 찾아야합니다. 예를 들어, “프랑스 자동차에 대해 이야기 할 때 PSA 그룹의 두 쌍둥이 별, Citroen과 Peugeot를 언급해야합니다”라는 중국어 텍스트는 두 개체 “Citroen”간의 “상동성” 의미 관계에 대한 교육 텍스트가 될 것으로 예상 할 수 있습니다. ”및“Peugeot”. 같은 나라에서 온 두 대의 자동차 사이의 관계는 “상동성”입니다. 해당 교육 텍스트를 찾기 위해 먼저 9 개국의 인기 자동차를 분류 한 다음 동일한 국가의 자동차를 결합합니다. 마지막으로 두 대의 자동차 이름이 “Homologous”관계의 교육 텍스트와 동시에 나타나는 텍스트를 크롤링합니다. 이 방법은 데이터 처리의 효율성을 향상시킬뿐만 아니라 상당한 노이즈 데이터를 도입합니다. 이전 섹션에서 언급 한 문장 수준 주의는 노이즈 데이터의 영향을 줄입니다. 그림 11은 “상동”관계에 대한 교육 텍스트의 수를 보여줍니다.

“하위”관계는 상위 및 하위 특성의 정보를 반영합니다. 그림 12는 “Volkswagen”의 하위 다이어그램으로, “FAW-Volkswagen”과 “Jetta”의 관계는 “하위관계”입니다. 마찬가지로 다른 브랜드의 조합을 분류하고 “하위”관계에 해당하는 교육 텍스트를 찾습니다.

마찬가지로 11 단계의 부분 차량을 분류 한 다음 동일한 수준의 차량을 결합하고 마지막으로 해당 훈련 텍스트를 크롤링합니다. 그림 13은 관계에 대한 훈련 텍스트의 수를 보여줍니다.

그림 14는 네 가지 관계의 훈련 데이터에 대한 데이터 통계를 보여줍니다. 여기서 “unknown”은 엔티티 간의 관계가 없음을 나타냅니다.

4.2. Model Training

We train the model with 3200 sentences and test it with 700 sentences. We use a grid search to determine the optimal parameters and select the batch size∈{10,20,…,50}, the neural network layer number ∈ {1,2,3}, and the number of neurons in each layer∈{200,250,300}. As shown in Figure 15, we form 36 different combinations based on different hyper-parameters, and obtain the average accuracy of each combination through experiments. Table 5 lists the specific experimental results. We select the hyper-parameter combination with the maximum average accuracy as the optimal parameter set. For other parameters, since they have little effect on the results, so we initialize common values. In Table 6, we show the hyper-parameters used in experiments.

According to whether the classification results are correct, TP, TN, FP, and FN can be determined. TP means that the classification result is a true positive, TN means true negative, FP means false positive, and FN means false negative. We use accuracy and recall rate to evaluate the effect of the model. The specific formula is as follows:

We randomly divide the data set into training set and test set. We train the model with the training set and evaluate the accuracy of the model with the test set. We divide the data set four times, and carry out experiments for each time. Finally, the average of the results of each experiment is used to represent the performance of the model. As shown in Figure 16, we make a comparative experiment between the two models, the blue curve represents the accuracy/recall rate curve of BGRU, the red curve represents the accuracy/recall rate curve of BLSTM, and the specific results of the four experiments are listed in Table 7.

We compare the run-time performance of BGRU and BLSTM on a 3.6 GHz Intel Core i7-7700 Think Station P318 with a 32 G DDR4 memory. We calculate the mean values of the four experiments of the two models and comparing the mean values found that BGRU incurs 9.2% smaller run-time compared to BLSTM. Figure 17 shows the run-time of the two models in four experiments. BGRU train faster and perform better than BLSTM on less training data because BGRU has less parameters per “cell”, allowing it in theory to generalise better from less examples, at the cost of less flexibility.

3200 개의 문장으로 모델을 훈련시키고 700 개의 문장으로 테스트합니다. 그리드 검색을 사용하여 최적의 매개 변수를 결정하고 배치 크기 ∈ {10,20, …, 50}, 신경망 계층 번호 ∈ {1,2,3} 및 각 계층의 뉴런 수를 선택합니다. ∈ {200,250,300}. 그림 15에서 보듯이 서로 다른 하이퍼 파라미터를 기반으로 36 개의 서로 다른 조합을 형성하고 실험을 통해 각 조합의 평균 정확도를 얻습니다. 표 5는 특정 실험 결과를 나열합니다. 최적의 매개 변수 세트로 최대 평균 정확도를 가진 하이퍼 매개 변수 조합을 선택합니다. 다른 매개 변수의 경우 결과에 거의 영향을 미치지 않으므로 공통 값을 초기화합니다. 표 6에는 실험에 사용 된 하이퍼 파라미터가 나와 있습니다.

분류 결과가 올바른지 여부에 따라 TP, TN, FP 및 FN을 결정할 수 있습니다. TP는 분류 결과가 참 양성, TN은 참 음성, FP는 거짓 양성, FN은 거짓 음성을 의미합니다. 모델의 효과를 평가하기 위해 정확도와 재현율을 사용합니다. 구체적인 공식은 다음과 같습니다.

데이터 세트를 훈련 세트와 테스트 세트로 무작위로 나눕니다. 훈련 세트로 모델을 훈련시키고 테스트 세트로 모델의 정확성을 평가합니다. 데이터 세트를 네 번 나누고 매번 실험을 수행합니다. 마지막으로 각 실험 결과의 평균은 모델의 성능을 나타내는 데 사용됩니다. 그림 16과 같이 두 모델 간의 비교 실험을합니다. 파란색 곡선은 BGRU의 정확도 / 리콜 속도 곡선, 빨간색 곡선은 BLSTM의 정확도 / 리콜 속도 곡선, 네 가지 실험의 구체적인 결과를 나타냅니다. 표 7에 나열되어 있습니다.

3.6GHz Intel Core i7-7700 Think Station P318과 32G DDR4 메모리에서 BGRU 및 BLSTM의 런타임 성능을 비교합니다. 두 모델의 네 가지 실험의 평균값을 계산하고 평균값을 비교하면 BGRU가 BLSTM에 비해 실행 시간이 9.2 % 더 짧다는 것을 알 수 있습니다. 그림 17은 네 가지 실험에서 두 모델의 실행 시간을 보여줍니다. BGRU는 “셀”당 매개 변수가 적기 때문에 BGRU는 더 적은 훈련 데이터에서 더 빠르게 훈련하고 BLSTM보다 더 나은 성능을 발휘합니다. BGRU는 “셀”당 매개 변수가 적기 때문에 이론적으로는 더 적은 유연성으로 더 적은 예에서 더 잘 일반화 할 수 있습니다.

4.3. The Result of Triple Extraction

It is feasible to evaluate the correctness of triples extraction since the test set selected for the work is rather small. Table 8 is the evaluation of car entity extraction in the test data, and evaluation result is given in Table 9. In total, from Table 9, there are 700 texts that could be checked by human efforts. We check these 700 texts and annotate the correct triples as the ground truth. Based on the ground truth, the F1-measure criterion is applied.

From the result shown in Table 8, almost all the entities in the test set are correctly identified, and the F1-measure achieves 99% calculated by the precision and recall (2 * precision * recall / (precision + recall)). It means that most of the car entities in the unstructured Chinese text could efficiently be extracted. It is because the car in both the dictionary and the text share the same naming standard. From the result shown in Table 9, the extraction of triples can achieve more than 73% accuracy, indicating that the model can effectively identify the semantic relationship between entities and extract triples automatically. The triple extraction with the relation of “same level” can achieve a high accuracy rate because the Chinese text about cars often appears keywords that represent vehicle types, such as “SUV,MPV”. We believe that cars of the same type satisfy the relation “same level”, and these keywords are easy to be given a high weight by the model and easy to be recognized. Similarly, the text also contains some keywords of other relations, and the model can quickly and accurately identify the meaning relations of these texts. However, according to the experimental results, we find that the recall rate of triples extraction with different relations is generally low, which indicates that the extraction efficiency of the model is obviously insufficient for most Chinese texts about cars whose meaning is not clearly expressed, so the model needs more types of texts to train and improve its generalization ability. Finally, we crawl the 50,000+ texts and extract the 30,000+ triples through the model, and Table 10 shows the statistics of the quantity.

Figure 18 shows several examples of triples extraction. An unstructured Chinese text is used as input to the model, and the model automatically outputs two entities and their relation, as well as the triple in the form of “entity–relation–entity”.

작업을 위해 선택된 테스트 세트가 다소 작기 때문에 트리플 추출의 정확성을 평가하는 것이 가능합니다. 표 8은 테스트 데이터에서 자동차 엔티티 추출에 대한 평가이며, 평가 결과는 표 9에 나와 있습니다. 총 700 개의 텍스트가 표 9에서 사람의 노력으로 확인할 수 있습니다. 우리는 이 700 개의 텍스트를 확인하고 정확한 트리플을 기준 진실로 주석 처리합니다. Ground Truth를 기반으로 F1 측정 기준이 적용됩니다.

표 8에 표시된 결과에서 테스트 세트의 거의 모든 엔티티가 올바르게 식별되고 F1 측정 값은 정밀도 및 재현율 (2 * 정밀도 * 재현율 / (정밀도 + 재현율))로 계산 된 99 %를 달성합니다. 이는 구조화되지 않은 중국어 텍스트의 대부분의 자동차 엔티티가 효율적으로 추출 될 수 있음을 의미합니다. 사전과 텍스트의 자동차가 동일한 명명 표준을 공유하기 때문입니다. 표 9의 결과에서 트리플 추출은 73 % 이상의 정확도를 달성 할 수 있으며 이는 모델이 엔티티 간의 의미 관계를 효과적으로 식별하고 자동으로 트리플을 추출 할 수 있음을 나타냅니다. “동일 레벨”의 관계를 가진 트리플 추출은 자동차에 대한 중국어 텍스트가 “SUV, MPV”와 같은 차량 유형을 나타내는 키워드로 자주 나타나기 때문에 높은 정확도를 얻을 수 있습니다. 우리는 같은 유형의 자동차가 “같은 수준”이라는 관계를 만족한다고 믿고 있으며, 이러한 키워드는 모델별로 높은 가중치를 부여하고 쉽게 알아볼 수 있습니다. 마찬가지로 텍스트에는 다른 관계의 키워드도 포함되어 있으며 모델은 이러한 텍스트의 의미 관계를 빠르고 정확하게 식별 할 수 있습니다. 그러나 실험 결과에 따르면 관계가 다른 트리플 추출의 회수율이 일반적으로 낮다는 것을 알 수 있으며, 이는 의미가 명확하게 표현되지 않은 자동차에 대한 대부분의 중국어 텍스트에서 모델의 추출 효율이 분명히 불충분 함을 나타냅니다. 모델은 일반화 능력을 훈련하고 향상시키기 위해 더 많은 유형의 텍스트가 필요합니다. 마지막으로 50,000 개 이상의 텍스트를 크롤링하고 모델을 통해 30,000 개 이상의 트리플을 추출하며 표 10은 수량 통계를 보여줍니다.

그림 18은 트리플 추출의 몇 가지 예를 보여줍니다. 구조화 되지 않은 중국어 텍스트는 모델에 대한 입력으로 사용되며, 모델은 “개체-관계-개체”의 형태로 트리플뿐만 아니라 두 개체와 그 관계를 자동으로 출력합니다.

4.4. Knowledge Graph Construction

As shown in Figure 19, we extract a number of triples from an unstructured text and then link them by connecting entities with the same name. In Figure 20, a knowledge graph composed of partial triples is depicted. The nodes in the knowledge graph represent car entities, and the edges represent the relationship between the two entities. Some Chinese annotations are given in Figure 21.

그림 19에 표시된 것처럼 구조화되지 않은 텍스트에서 여러 트리플을 추출한 다음 동일한 이름의 엔티티를 연결하여 연결합니다. 그림 20에는 부분 트리플로 구성된 지식 그래프가 표시되어 있습니다. 지식 그래프의 노드는 자동차 엔티티를 나타내고 모서리는 두 엔티티 간의 관계를 나타냅니다. 일부 중국어 주석은 그림 21에 나와 있습니다.

4.5. Discussion

From the real-world case study, we have learned that the unstructured data in the industrial field contain considerable useful information that can be effectively integrated by the powerful semantic association of the knowledge graph. The method proposed in this paper realizes efficient and accurate extraction of information. On the other hand, three major problems were also learned from the case study:

실제 사례 연구에서 우리는 산업 분야의 비정형 데이터가 지식 그래프의 강력한 의미 적 연관성에 의해 효과적으로 통합 될 수있는 상당한 유용한 정보를 포함하고 있음을 배웠습니다. 본 논문에서 제안하는 방법은 효율적이고 정확한 정보 추출을 실현한다. 반면에 사례 연구에서 세 가지 주요 문제도 배웠습니다.

1) Relation Selection

As mentioned in Table 6, the accuracy and recall rate of triple extraction change with the change of the semantic relation, which indicates that an effective semantic relation setting can improve the efficiency of information extraction. Due to the diversity of industrial fields, entity relations in different fields need to have a special evaluation standard.

2) Entity Extraction

As shown in Table 5, almost all the entities in the test set are correctly identified, which indicates that the dictionary matching method can effectively identify entities in the text. However, this also brings about the same problems. One of them is that the contents of a dictionary need to be complete, and it will take considerable time and money to build a dictionary. In addition, due to the diversity of industrial fields, entity recognition in different fields needs to construct corresponding dictionaries, and this method has poor portability. Entity recognition based on deep learning is more generalized, which is worth studying.

1) 관계 선택

표 6에서 언급 한 바와 같이, 의미 관계의 변화에 ​​따라 트리플 추출의 정확도와 재현율이 변하는데, 이는 효과적인 의미 관계 설정이 정보 추출의 효율성을 높일 수 있음을 시사한다. 산업 분야의 다양성으로 인해 다양한 분야의 기업 관계에는 특별한 평가 기준이 필요합니다.

2) 엔티티 추출

표 5에서 볼 수 있듯이 테스트 세트의 거의 모든 엔티티가 올바르게 식별되어 사전 일치 방법이 텍스트의 엔티티를 효과적으로 식별 할 수 있음을 나타냅니다. 그러나 이것은 또한 동일한 문제를 야기합니다. 그중 하나는 사전의 내용이 완성되어야 하고 사전을 만드는 데 상당한 시간과 비용이 든다는 것입니다. 또한 산업 분야의 다양성으로 인해 다양한 분야의 개체 인식은 해당 사전을 구성해야 하며 이 방법은 이식성이 좋지 않습니다. 딥 러닝을 기반으로 한 엔티티 인식은 더 일반화되어 연구 할 가치가 있습니다.

  1. Conclusions

The industrial 4.0 era is the fourth industrial revolution and is characterized by network penetration. Massive text data will be produced in different industrial fields, but the publication of data are not standardized, and the data quality is not high. The main work of this paper includes:

• A feasible method is proposed to achieve automatic extraction of triples from unstructured Chinese text by combining entity extraction and relationship extraction.

• An approach is proposed to extract structured user evaluation information from unstructured Chinese text.

• A knowledge graph of the automobile industry is constructed.

산업 4.0 시대는 4 차 산업 혁명이며 네트워크 침투가 특징입니다. 다양한 산업 분야에서 대량의 텍스트 데이터가 생성 될 것이지만 데이터 공개는 표준화되지 않았고 데이터 품질도 높지 않습니다. 이 백서의 주요 작업은 다음과 같습니다.

• 엔티티 추출과 관계 추출을 결합하여 구조화되지 않은 중국어 텍스트에서 트리플을 자동으로 추출하는 실행 가능한 방법이 제안되었습니다.

• 구조화되지 않은 중국어 텍스트에서 구조화 된 사용자 평가 정보를 추출하는 접근법이 제안됩니다.

• 자동차 산업에 대한 지식 그래프가 구성됩니다.

In the future, we will explore the following directions:

(1) We mainly crawl data from BBS and automobile sales websites. We will expand our data in future work, such as unstructured objective data in the automobile manufacturing process or unstructured data in other industrial fields.

(2) In the process of constructing the industrial knowledge graph, we only aligned the entities with the same name and did not take into account the entities with ambiguity, that is, those with the same name but different meanings. Moreover, we did not merge the entities with different names but which had the same meanings. In the future, we will study the disambiguation and fusion of entities in the process of constructing knowledge graphs.

(3) We have constructed the knowledge graph of the automobile industry. In the future, we will design a corresponding application according to this knowledge graph. For example, the KBQA (knowledge base question answering) in the automobile field holds prospects.

앞으로 우리는 다음 방향을 탐색 할 것입니다.

(1) 우리는 주로 BBS 및 자동차 판매 웹 사이트의 데이터를 크롤링합니다. 자동차 제조 공정의 구조화되지 않은 객관적인 데이터 또는 다른 산업 분야의 구조화되지 않은 데이터와 같은 향후 작업에서 데이터를 확장 할 것입니다.

(2) 산업 지식 그래프를 구성하는 과정에서 이름이 같은 개체 만 정렬하고 모호한 개체, 즉 이름은 같지만 의미가 다른 개체는 고려하지 않았습니다. 또한 이름이 다르지만 의미가 같은 엔티티를 병합하지 않았습니다. 앞으로 우리는 지식 그래프를 구성하는 과정에서 엔티티의 명확성과 융합을 연구 할 것입니다.

(3) 자동차 산업의 지식 그래프를 구축했습니다. 앞으로이 지식 그래프에 따라 해당 애플리케이션을 설계 할 것입니다. 예를 들어 자동차 분야의 KBQA (지식 기반 질문 답변)는 전망이있다.

[끝]

댓글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중