[번역] 그래프 기술의 2019년 전망

원문 제목 “Looking Forward to 2019 in Graph Technologies”

2018 년부터는 그래프 기술에 새로운 초점을 맞추기 시작했습니다. 저는 올해 계속해서 그래프 기술과 그들이 어떻게 현상을 변화시키는지 살펴 보겠습니다. 이 보고서는 2018 년 주요 그래프 데이터베이스 추세와 2019 년 예측에 대한 분석입니다.

Summary of key graph database events in 2018 and predictions for 2019

2018 — The year of the LPG knowledge graph

우리는 작년에 라벨형 속성 그래프 (LPG)가 지식표현 영역에서 적극적으로 활용되는 것을 보았습니다. Neo4j 및 TigerGraph와 같은 조직은 이 분야에서 시장 점유율을 높이고 많은 새로운 기능을 추가했습니다. 새로운 벤처 자금이 LPG에 있거나 LPG를 지원하기 위해 신속하게 이전하는 회사로 유입되었습니다. TigerGraph는 네이티브 분산 그래프로 유명하며 Neo4j는 Bloom과 같은 혁신적인 제품으로 주목받고 있습니다.

TigerGraph는 확장성과 보안의 결합에 대한 관심이 널리 보급되었습니다. 9월 TigerGraph는 Strata 컨퍼런스에서 가장 뛰어난 상을 수상했습니다. 여기서 핵심적인 사실은 분산 그래프 처리가 어렵다는 것입니다. 공급 업체가 고도로 상호 연결된 대형 그래프 데이터베이스를 분할하는 방법과 분산 클러스터에 대한 ACID 준수를 유지하면서 쿼리를 효율적으로 유지하는 방법은 매우 어려운 문제입니다. TigerGraph는 개발자의 관심을 끌었던 GSQL 언어의 accumulators 와 같은 혁신 기술을 도입했습니다.

Neo4j의 Bloom 제품은 사용자 당 비용이 비싸지 만 그래프 시각화와 자연언어 쿼리 처리 사이의 경계선을 흐리게 하기 때문에 관심이 있습니다. 많은 Bloom 쿼리는 Cypher를 알 필요가 없으며 비기술적인 사람들이 그래프 데이터베이스로 복잡한 분석을 할 수 있도록합니다. Noe4j의 Bloom 제품과 케임브리지 인텔리전스 (KeyLines)와 같은 업체 및 Linkurious 같은 회사는 프로그래머가 아닌 사용자를 위해 그래프를 쉽게 쿼리할 수 ​​있도록 할 것입니다.
Neo4j는 새로운 개발자가 그래프 기술을 쉽게 포착할 수 있도록하여 새로운 영역을 끊임없이 개척하고 있습니다. 2018 년에 Neo4j Desktop은 그래프 알고리즘에 대한 광범위한 문서를 제공 할뿐만 아니라 상당한 향상을 이루었습니다. 마크 니드 햄(Mark Needham)과 에이미 홈 러(Amy Hodler) 모두 Neo4j에서 그래프 알고리즘에 대한 포괄적인 안내서를 저술한 것을 축하드립니다. 우리는 이와 같이 더 높은 수준의 글쓰기가 필요합니다.

The Open Algorithms Movement

많은 그래프 알고리즘의 특허를 보유한 조직임에도 불구하고 자신의 알고리즘을 공개하는 경향이 증가하고 있는 것 같습니다. Google과 Facebook은 내부 연구원에게 다양한 AI, ML, 심층학습 및 그래프 알고리즘에 대한 연구 결과를 발표할 수 있다는 약속을 지켜 이러한 노력을 주도하고 있습니다. 저는 이것이 그들이 연구 개발 부서에서 최고 자가 AI와 지식 표현 인재들을 고용하고 유지하기 위해 해야 ​​할 일이라고 생각합니다.

그래프 제품 관리자를 위한 한가지 예측은 장래에 그래프 데이터베이스가 수천 개의 표준 그래프 알고리즘을 실행할 수 없다면 불리한 입장에 서게될 것입니다. 이로 인해 LPG 표준이 생겨 혁신적인 그래프 알고리즘이 더 큰 영향을 미칠 수 있는지에 대한 의문이 생깁니다. 이 질문은 경로를 일류 시민으로 다루어야하는 문제와 함께 3 월 4 일부터 6 일까지 독일 베를린에서 열린 W3C 그래프 데이터 표준화 워크샵에서 다루어 질 예정이다. 이 두 행을 읽으면 W3C가 LPG에 시장의 대다수가 있으며 SPARQL 기반 표준이 더 이상 적합하지 않을 수 있음을 분명히 알 수 있습니다. 표준화된 지식 저장소와 표준 알고리즘을 공유하여 이러한 저장소를 계속 탐색 할 수 있기를 바랍니다. RDF가 중요하지 않다는 말은 아닙니다. 철학적 의미론적 표준과 네임 스페이스와 URI 같은 것들은 더 많은 데이터를 얻는만큼 중요성이 커질 것입니다. 표준 기관이 유지할 수 있는 것보다 빠르게 혁신된 알고리즘을 인코딩하는 쿼리 언어입니다.

Overlay Graph Products Stagnate

또한 “오버레이”그래프 기술에서 해당 성장을 보지 못했다고 언급해야합니다. 이들은 카산드라 (Cassandra)와 같은 다른 분산 된 열 패밀리 데이터베이스 또는 Redis와 같은 키 값 저장소에서 실행되는 그래프 데이터베이스입니다. 내 관찰은 네이티브 속성 그래프와 이러한 계층화 된 솔루션 간의 성능 차이가 너무 크다는 것입니다. 몇 가지 파일럿 및 개념 증명 프로젝트에서 보았듯이 그래프가 작을 때 이러한 문제는 분명하지 않습니다. 대규모 데이터 세트로 파일럿에서 생산으로 오버레이 그래프를 확장해야 할 때 하드웨어 및 네트워크 트래픽에 막대한 재정적 부담이 듭니다. 올해 발표 된 여러 벤치마크에서도 이러한 사실이 분명하게 나타났습니다.

Graphs and AI

2018 년 가장 중요한 발전 중 하나는 Google DeepMind 연구원 및 기타 학계에서 영향력있는 논문을 발표하는 것이 었습니다. Relative Inductive Biases, Deep Learning 와 Graph Networks 라는 제목의이 백서는 이미 수백 개의 다른 논문과 간행물에서 인용되었습니다. 핵심 내용은 구조가 있는 실제 데이터를 심층 학습 알고리즘에 대한 입력으로 표 형식의 기능으로 전개할 때 많은 양의 문맥 정보가 손실된다는 것입니다. 지식을 그래프에 저장하고 이 그래프가 학습된 규칙과 상호 작용할 수있게함으로써 많은 장점이 있습니다.

많은 사람들이 GPU가 행렬 수학을 빠르게 할 수 있는 능력에 열광하고 있지만 현실 세계에서는 이를 수행하지 않습니다. 우리의 뇌에는 행렬 곱셈을 수행할 회로가 없지만 이를 사용하는 AI 시스템보다 훨씬 더 나은 이유가 있습니다. 여기서 핵심적인 통찰력은 패턴 인식에 대한 통찰력을 얻기 위해 GPU와 우리의 두뇌가 데이터의 병렬 비선형 변환을 신속하게 수행해야 한다는 것입니다. GPU는 주변에서 가장 평행 한 장치 일뿐입니다. 나는 저의 주위에 있는 모든 사람들에게 그래프 기반 규칙 엔진과 심층 학습 알고리즘에 의해 생성 된 추론 규칙 사이에 명확한 이진 구분이 없다고 말하려고합니다. 깊은 학습 규칙은 설명하기가 더 어렵고 어렵습니다. 설명 가능한 AI를 가지려면 우리는 두 가지 그래프 규칙 엔진을 기계 학습 시스템과 함께 가져와야합니다. 이를 잘 수행하는 공급 업체는 뚜렷한 장점이 있습니다.

Graphs and Entity Resolution Rules

복잡한 그래프 규칙의 한가지 유스케이스는 두 엔티티 (사람, 조직, 제품, 공급자, 고객 등)가 동일한 실제 또는 다른 것인가를 결정하는 것입니다. 그래프는 매우 빠른 유사성 계산을 수행하기 때문에 이 질문들은 모두 가능합니다. 이러한 계산을 수행하는 규칙은 기계 학습을 사용하여 조정할 수도 있습니다. 그런 다음 동일한 엔터티에 대한 두 개의 데이터 소스를 계산 한 후에 이 데이터를 지능적으로 병합해야 합니다. 이것은 보편적인 문제이며 그래프 기술에 이상적입니다. 2019 년에는 이러한 솔루션을 제품에 구현하거나 솔루션을 제공 할 수 있는 파트너를 확보하기 위해 그래프 공급 업체를 찾습니다. 엔티티 해상도 공간에서 볼 수있는 한 공급 업체는 FactGem 입니다. 이들은 그래프 데이터베이스에서 엔티티 해석을 수행하기위한 성숙하고 견고한 프레임 워크를 가지고 있습니다. Reltio 같은 회사는 클라우드 기반의 Entity Resolution 서비스에서도 그래프 기술을 사용하고 있습니다. 서비스로서의 그래프 및 엔티티 해법들은 모두 2019 년에 성장할 것으로 예상됩니다.

Graphs and Corporate Social Networks

그래프 기술 분야에서 가장 중요한 논문 중 하나는 기술 저널이 아닌 하버드 비즈니스 리뷰 (Harvard Business Review)에서 나왔습니다. 2018 년 11 월 12 일자 기사 Better People Analytics에서 Paul Leonardi와 Noshir Contractor는 개인, 팀 및 조직에서 혁신, 영향력, 협업, 효율성 및 장애와 같은 것을 찾는 데 사용할 수있는 6 가지 주요 “signatures”(그래프 패턴)을 검토했습니다. 이러한 알고리즘은 대기업의 표준 “기술/관심” 검색과 함께 실행할 수 있습니다. 그들은 경험, 기술 및 관심사가 인력 배치 질문에 응답을 운전하는 “이 프로젝트에 있어야 하는” 같이 질문을 응답합니다. 2019 년에 조직이보다 효율적으로 운영 될 수 있도록 그래프 기술을 많이 사용하십시오.

Open Knowledge Graphs

나는 또한 많은 조직이 공개 지식 공유 그래프에 대한 필요성을 인식하기 시작하는 데 관심이 있었습니다. 2001 년 이래로 시맨틱웹을 따르던 사람들은 이것이 새로운 개념이 아니라는 것을 알고 있습니다. 흥미로운 점은 기업이 음성 인식과 같은 AI 기술을 홍보하기 위해 Google과 Amazon과 경쟁하기 위해 지식 그래프를 공유해야 한다는 것입니다. 예를 들어 Soundhoud는 음성 인식에 대한 플랫폼 접근 방식을 홍보하여 ​​다른 조직에서 고품질 음성 인식에 필요한 공개 및 확장형 지식 그래프를 게시 할 수 있습니다. 예를 들어 휴대 전화로 질문하길 “공항에서 가장 가까운 샌프란시스코의 4 성급 이상인 최고의 이탈리안 레스토랑으로, 아이들에게 좋고, 체인이 아니며 수요일 오후 9시까지 영업하는 곳은?” (공항, 레스토랑), 시설 (레스토랑), 리뷰 및 도로에 대한 지식 그래프가 모두 이 그래프가 실제 그래프로 표시 될 필요가 있다는 것입니다. SoundHound 의 speech-to-text 시스템은 자연 언어 음성을 (잘하면) 공개 지식 그래프의 그래프 쿼리로 변환하는 것입니다. 그러나 이 그래프가 없다면 더 나은 음성 인식은 유용성이 제한적입니다.

Custom Graph Hardware, FPGAs and the Future of Graphs

오늘날 대부분의 그래프 데이터베이스가 실행하는 명령 세트를 살펴보면 큰 주소 공간에서 많은 포인터를 빠르게 찾을 수 있습니다. 그러나 부동 소수점 또는 벡터 연산은 거의 볼 수 없습니다. 대부분의 그래프 쿼리는 일반적인 CPU에서 약 20 %의 회로를 사용하며 GPU 하드웨어를 효율적으로 사용할 수있는 그래프 벤더는 없다고 추정합니다. 반면 Cray Research 및 DataVortex와 같은 혁신적인 회사는 FPGA (Field Programmable Gate Arrays)를 사용하여 환상적인 그래프 성능을 입증하고 메모리 시스템에 액세스하는 방식을 조정할 수 있습니다. 이 시스템은 메모리가 다른 시스템에 있더라도 프로그래머에게 100TB의 RAM에 액세스하는 느낌을 줍니다. 불행하게도 그래프 처리 능력이 놀라울 정도로 증가한 것은 현재 Cray의 오래된 SPARQL 쿼리 또는 DataVortex의 C 레벨 그래프 라이브러리에서만 액세스 할 수 있습니다. 앞으로이 장치에서 모든 LPG 그래프 알고리즘을 실행할 수 있기를 희망합니다. 그래프 쿼리를 확장할 수 있다는 것을 알고 있으므로 이러한 고급 하드웨어 기반 솔루션을 보다 쉽게 ​​사용할 필요가 있습니다.

Graph Writers Wanted

또한 그래프 및 다른 기술의 그래프 및 그래프를 계속 작성하는 우리의 그래프 커뮤니티 회원을 격려하고 싶습니다. 그래프 모델링, 그래프 알고리즘, 그래프 시각화, 지식 그래프, 기계 학습, NLP, 규칙 엔진, 권장 시스템 및 엔티티 해상도에 대한 벤더 중립적 인 LPG 중심의 기사 및 서적이 더 필요합니다. 저는 특히 Alessandro Negro가 연구하고있는 새로운 Manning book Graph Powered Machine Learning에 관심이 있습니다. 오늘 그는 Manning Early Access Program (MEAP) 웹 사이트의 초안에서 처음 세 장을 읽었으며 더 많은 검토자가 감사 할 것이라고 확신합니다. 의사 결정자는 기술이 어떻게 작동하는지에 대해 깊이 이해하지 않고 결정을 내리는 경우가 많습니다. 그들은 그들이 가르쳐 온 은유에 근거하여 결정을 내린다. 올바른 맥락에서 일하는 은유가 더 필요합니다. 필자의 글쓰기를 독려하고 작업 내용을 검토하는 데 도움을 줄 수 있다면 알려 주시기 바랍니다.

요약하면, 2019는 그래프 기술의 주요 변곡점이 될 수 있다고 생각합니다. AI는 강력한 지식 표현 없이는 진전을 보지 못합니다. 강력한 액세스 제어 기능을 갖춘 분산 네이티브 그래프 데이터베이스는 많은 약속을 지키지만, 성숙한 그래프 데이터베이스 애드온 시스템이 완전한 솔루션을 제공할 때를 예측하는 것은 여전히 ​​어렵습니다. 폴 사포 (Paul Saffo)의 인용문을 기억하려고 노력합니다. “Never confuse a clear view with a short distance” 분산되고 안전한 원시 LPG가 데이터베이스 시장을 장악하고 SPARQL뿐만 아니라 많은 관계형 시스템을 대체하게 될 것임은 분명합니다. 나는 이것이 얼마나 빨리 일어날지를 당신에게 말할 수 없다.

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중

%d 블로거가 이것을 좋아합니다: