TigerVector: Supporting Vector Search in Graph Databases for Advanced RAGs

Este artigo apresenta o TigerVector, um sistema integrado ao banco de dados gráfico TigerGraph que combina busca vetorial e consultas de grafos para permitir a fusão eficiente de dados estruturados e não estruturados em RAGs avançados, demonstrando superioridade de desempenho e escalabilidade em comparação com outras soluções especializadas.

Shige Liu, Zhifang Zeng, Li Chen, Adil Ainihaer, Arun Ramasami, Songting Chen, Yu Xu, Mingxi Wu, Jianguo Wang

Publicado 2026-03-05
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma biblioteca gigante e bagunçada. Dentro dela, existem dois tipos de informações:

  1. Livros de História (Dados Estruturados): São os dados organizados, como "quem é amigo de quem", "quem comprou o quê" e "quem mora onde". É fácil navegar por isso se você souber o caminho.
  2. Páginas de Ideias (Dados Não Estruturados): São textos, imagens e vídeos que contêm o "sentimento" ou o "significado" das coisas. Para encontrar algo aqui, você precisa de uma bússola mágica que entenda o que você quer dizer, não apenas as palavras exatas.

O problema é que, até agora, as bibliotecas (bancos de dados) eram especialistas em apenas um desses mundos. Ou você tinha uma biblioteca de mapas (bancos de dados de grafos) que não entendia o significado das páginas, ou tinha uma biblioteca de bússolas (bancos de dados vetoriais) que não sabia quem era amigo de quem.

O TigerVector é a solução que une os dois mundos.

Aqui está uma explicação simples do que o artigo "TigerVector" propõe, usando analogias do dia a dia:

1. O Problema: A Biblioteca Dividida

Hoje, para criar um assistente de IA inteligente (como o que você usa para responder perguntas complexas), as empresas precisam usar dois sistemas separados:

  • Um para guardar os relacionamentos (quem conhece quem).
  • Outro para guardar o significado das palavras (vetores).

Isso é como ter que correr de um lado para o outro da cidade para pegar uma informação. Você perde tempo, gasta mais dinheiro e corre o risco de as informações não combinarem (ex: o mapa diz que "João" é amigo de "Maria", mas a bússola diz que "João" gosta de "Pedro").

2. A Solução: O "Super-Gestor" (TigerVector)

Os autores criaram o TigerVector. Pense nele como um Super-Gestor de Biblioteca que vive dentro do sistema TigerGraph.

  • A Nova Carteira de Identidade: Antes, os livros tinham apenas nome e autor. O TigerVector dá a cada livro uma "carteira de identidade" especial chamada Embedding. Essa carteira contém não só o texto, mas também um "mapa de significado" (o vetor) que diz exatamente do que aquele livro trata, sem precisar ler tudo.
  • Armazenamento Inteligente: O sistema é esperto. Ele sabe que os "mapas de significado" são muito grandes e pesados. Então, ele os guarda em um cofre separado (desacoplado), mas mantém um bilhete no livro original dizendo: "Olhe no cofre 3, gaveta 5 para o significado". Isso torna tudo muito rápido.

3. Como Funciona a Magia (A Busca Híbrida)

O grande trunfo do TigerVector é que ele permite fazer perguntas que misturam os dois mundos em uma única frase.

  • Exemplo Antigo (Dois sistemas):

    1. "Quem são os amigos de Alice?" (Pergunta ao sistema de mapas).
    2. "Entre esses amigos, quem escreveu algo sobre 'férias na praia'?" (Pergunta ao sistema de bússola).
      Resultado: Você tem que fazer duas viagens e juntar os resultados manualmente.
  • Exemplo Novo (TigerVector):
    "Mostre-me os amigos de Alice que escreveram algo que significa 'férias na praia'."
    Resultado: O Super-Gestor olha o mapa, encontra os amigos, olha o cofre de significados deles e entrega a resposta pronta em milissegundos.

4. Por que é tão rápido? (O Motor MPP)

O TigerVector não é apenas um adesivo colado no sistema antigo. Ele usa uma arquitetura chamada MPP (Processamento Massivamente Paralelo).

Imagine que você tem que organizar 1 milhão de livros.

  • Sistemas antigos: Uma pessoa sozinha organiza a pilha inteira. Demora muito.
  • TigerVector: Ele contrata 1.000 organizadores. Ele divide os livros em 1.000 caixas e cada organizador trabalha na sua caixa ao mesmo tempo. Quando todos terminam, eles juntam os resultados. Isso é o que permite que ele seja mais rápido até do que sistemas feitos apenas para vetores (como o Milvus).

5. O Resultado Final

O artigo mostra testes onde o TigerVector:

  • É muito mais rápido que os concorrentes (como Neo4j e Amazon Neptune) quando busca por significado.
  • É tão rápido quanto o especialista em vetores (Milvus), mas com a vantagem de também entender os relacionamentos.
  • É mais barato, pois você não precisa de dois sistemas caros rodando ao mesmo tempo.

Em resumo:
O TigerVector é como dar a um detetive (o banco de dados) uma lupa mágica que entende o significado das palavras, sem que ele precise largar o mapa da cidade. Isso permite que as Inteligências Artificiais (LLMs) encontrem respostas muito mais precisas, rápidas e baratas, entendendo tanto "quem é quem" quanto "o que isso significa".