TigerVector: Supporting Vector Search in Graph Databases for Advanced RAGs

이 논문은 TigerGraph 의 MPP 아키텍처에 임베딩 타입과 MPP 인덱스 프레임워크를 통합하여 구조화 및 비구조화 데이터의 융합을 가능하게 하는 TigerVector 시스템을 제안하고, 이를 통해 기존 그래프 데이터베이스 및 전문 벡터 데이터베이스 대비 우수한 하이브리드 검색 성능과 확장성을 입증합니다.

Shige Liu, Zhifang Zeng, Li Chen, Adil Ainihaer, Arun Ramasami, Songting Chen, Yu Xu, Mingxi Wu, Jianguo Wang

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🐯 타이거벡터 (TigerVector): 그래프 데이터베이스에 '마법의 나침반'을 달다

이 논문은 **타이거벡터 (TigerVector)**라는 새로운 시스템을 소개합니다. 쉽게 말해, **"그래프 데이터베이스 (연결된 정보를 저장하는 곳) 에 '벡터 검색 (AI 가 이해하는 의미 검색)' 기능을 자연스럽게 통합한 기술"**입니다.

이게 왜 중요할까요? 기존 방식의 문제점과 타이거벡터가 어떻게 해결하는지 일상적인 비유로 설명해 드릴게요.


1. 왜 필요한가요? (기존의 문제점)

지금까지 AI(대형 언어 모델) 가 정보를 찾아낼 때 주로 벡터 데이터베이스를 썼습니다.

  • 비유: 마치 거대한 도서관에서 책 제목이나 내용과 비슷한 책을 찾는 것 같습니다. "고양이"라고 검색하면 고양이 그림이 있는 책들이 나옵니다.
  • 문제점: 하지만 이 방식은 관계를 모릅니다. "고양이를 키우는 사람이 쓴 리뷰"를 찾으려 해도, 단순히 '고양이'라는 단어만 찾아내서 관련 없는 책들까지 가져올 수 있습니다.

그래서 그래프 데이터베이스를 쓰려는 시도가 생겼습니다.

  • 비유: 도서관 책장 사이사이를 실로 연결해 둔 상태입니다. "고양이" 책 옆에 "키우는 사람"이라는 책이 바로 연결되어 있어, 관계를 따라가며 정확한 답을 찾을 수 있습니다.
  • 문제점: 그런데 기존 그래프 데이터베이스는 **의미 검색 (벡터 검색)**을 잘 못했습니다. 마치 "고양이"라는 단어의 을 이해하지 못하고, 오직 글자만 대조하는 도서관 사서처럼 느리고 정확하지 않았습니다.

결론: 우리는 **의미 검색 (벡터)**과 **관계 검색 (그래프)**을 동시에 할 수 있는 슈퍼 도서관이 필요했습니다.


2. 타이거벡터는 어떻게 해결하나요? (핵심 기술)

타이거벡터는 타이거그래프 (TigerGraph) 라는 기존 시스템 안에 마법의 나침반을 설치한 것과 같습니다.

① "의미"를 저장하는 새로운 주머니 (Embedding Type)

기존에는 책의 내용을 텍스트로만 저장했습니다. 타이거벡터는 책 한 권 한 권에 **"의미가 담긴 주머니 (벡터)"**를 추가로 달아줍니다.

  • 비유: 책 표지 옆에 QR 코드를 붙인 겁니다. 이 QR 코드를 스캔하면 AI 가 "이 책은 고양이와 관련된 내용이에요"라고 바로 이해하게 됩니다.
  • 장점: 같은 책장에 '고양이' 관련 책과 '강아지' 관련 책이 섞여 있어도, 이 주머니를 통해 AI 는 정확히 구분해 낼 수 있습니다.

② 분리된 창고와 빠른 길 (Decoupled Storage & MPP)

벡터 데이터 (의미 정보) 는 보통 데이터 양이 너무 커서 일반 책 (텍스트) 과 섞어두면 검색이 느려집니다.

  • 비유: 일반 책장은 1 층에 두고, 의미 정보 (QR 코드) 는 별도의 **고속 엘리베이터 (별도 창고)**에 둡니다.
  • MPP(대규모 병렬 처리): 이 시스템은 수천 명의 사서가 동시에 일합니다. 검색 요청이 오면, 사서들이 각자 맡은 구역 (세그먼트) 에서 동시에 QR 코드를 스캔하고 결과를 합칩니다. 그래서 엄청나게 빠릅니다.

③ 한 번에 모든 것을 찾는 통합 언어 (GSQL 통합)

기존에는 의미 검색을 하는 시스템과 관계 검색을 하는 시스템을 따로 써야 해서, 데이터를 옮기느라 시간이 걸렸습니다.

  • 비유: 이제 한 권의 지도로 모든 것을 해결합니다. "고양이와 관련된 책 (의미 검색) 을 찾되, 그 책을 쓴 사람이 '한국인'인 것만 골라줘 (관계 검색)"라고 한 문장으로 명령할 수 있습니다.
  • 결과: 데이터 이동이 없어지고, 정확도가 높아집니다.

3. 실제 성능은 어떨까요? (실험 결과)

논문의 실험 결과를 보면, 타이거벡터는 전설적인 경쟁자들을 압도했습니다.

  • 경쟁자 1 (네오 4 j, 아마존 네트): 기존 그래프 데이터베이스들입니다.
    • 결과: 타이거벡터는 이들에게 속도 3~5 배, 정확도 20% 이상 앞서고 있습니다. 마치 포뮬러 1 레이싱카자전거를 추월하는 수준입니다.
  • 경쟁자 2 (밀버스): 벡터 검색만 전문으로 하는 최고의 시스템입니다.
    • 결과: 타이거벡터는 벡터 검색 전용 시스템과 비슷하거나 더 빠른 속도를 내면서도, 관계 검색 기능까지 제공합니다.
  • 비용: 같은 성능을 내는데, 클라우드 비용은 22 배나 절약됩니다. (비유: 고급 스포츠카를 사서 타는데, 기름값은 경차만큼 든다는 뜻입니다.)

4. 요약: 왜 이것이 혁신인가?

타이거벡터는 **"의미 (벡터)"**와 **"관계 (그래프)"**를 하나로 묶었습니다.

  • 과거: "고양이"를 검색하면 고양이 책만 나옴. (정확하지만 관계 모름)
  • 과거 2: "고양이 주인"을 검색하려면 복잡한 수작업 필요. (관계는 알지만 검색 느림)
  • 타이거벡터: "고양이 주인이 쓴 최신 리뷰"를 순간적으로 찾아냅니다.

이 기술은 AI 가 더 똑똑하고, 정확한 답변을 할 수 있도록 도와주는 핵심 인프라가 될 것입니다. 마치 AI 에게 **눈 (의미 이해)**과 **뇌 (관계 추론)**를 동시에 선물한 것과 같습니다.

이 시스템은 2024 년 12 월에 출시되어, 누구나 무료로 다운로드하여 사용할 수 있게 되었습니다. 🚀