TigerVector: Supporting Vector Search in Graph Databases for Advanced RAGs

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Detektiv in einer riesigen, chaotischen Bibliothek, die aus zwei völlig verschiedenen Welten besteht.

Die eine Welt ist wie ein Wolkenkratzer aus Glas (die Vektordatenbank). Hier sind Millionen von Büchern, die nicht nach Titel, sondern nach Gefühl und Bedeutung sortiert sind. Wenn Sie nach "trauriger Sommerregen" suchen, findet der Roboter sofort alle Bücher, die sich genau so anfühlen, auch wenn das Wort "Sommer" gar nicht darin vorkommt. Das ist super schnell, aber diese Bibliothek weiß nichts über die Beziehungen zwischen den Büchern. Sie weiß nicht, dass Buch A von Autor B geschrieben wurde, der wiederum mit Autor C befreundet ist.

Die andere Welt ist wie ein riesiges, komplexes Spinnennetz (die Graph-Datenbank). Hier sind alle Bücher, Autoren und Leser durch dicke Seile verbunden. Sie können leicht von einem Buch zu seinem Autor springen und dann zu dessen Freunden. Aber wenn Sie hier nach "trauriger Sommerregen" suchen, müssen Sie jedes einzelne Buch einzeln durchlesen. Das dauert ewig.

Das Problem: Der RAG-Notfall

Heutzutage nutzen KI-Modelle (wie Chatbots) oft nur die Glas-Welt (Vektoren), um Antworten zu finden. Das Problem? Manchmal liefert die KI falsche Antworten, weil sie die Zusammenhänge nicht versteht. Sie sucht nur nach ähnlichen Wörtern, ignoriert aber, dass ein Buch vielleicht von einem verbotenen Autor stammt oder dass zwei scheinbar ähnliche Bücher völlig unterschiedliche Kontexte haben.

Die Lösung: TigerVector – Der Super-Detektiv

Die Autoren dieses Papiers haben TigerVector erfunden. Man kann sich TigerVector wie einen neuen Bibliothekar vorstellen, der beide Welten in einem einzigen Gebäude vereint. Er trägt eine Brille, mit der er sowohl die Gefühle der Bücher (Vektoren) als auch die Seile zwischen ihnen (Graph) gleichzeitig sehen kann.

Hier ist, wie TigerVector funktioniert, einfach erklärt:

1. Der neue "Gefühls-Ordner" (Embedding Type)

Früher mussten Bibliotheken Vektoren (die Gefühls-Daten) in einen extra, abgetrennten Raum legen. TigerVector macht etwas Cleveres: Es fügt den Büchern direkt einen neuen, speziellen Ordner in ihr eigenes Regal ein.

Die Analogie: Stellen Sie sich vor, jedes Buch bekommt einen kleinen, unsichtbaren Magnet am Rücken. Dieser Magnet speichert das "Gefühl" des Buches. Aber das Buch bleibt genau dort, wo es hingehört, in seiner Familie mit den anderen Büchern und Autoren.

2. Die getrennten Lagerhallen (Decoupled Storage)

Obwohl der Magnet am Buch hängt, lagert TigerVector die schweren Magnet-Daten in einer speziellen, schnellen Lagerhalle nebenan.

Warum? Wenn Sie ein Buch umbenennen oder den Autor ändern, müssen Sie nicht den ganzen schweren Magnet neu schleppen. Sie ändern nur das Buch. Das macht alles viel schneller und verhindert, dass die Bibliothek ins Wanken gerät, wenn viele Änderungen gleichzeitig passieren.

3. Das Super-Team (MPP-Architektur)

TigerVector arbeitet nicht mit einem einzigen Bibliothekar, sondern mit einem armee von Robotern (Massively Parallel Processing).

Die Analogie: Wenn Sie eine Suche starten, teilen die Roboter die Bibliothek in viele kleine Abschnitte auf. Jeder Roboter sucht in seinem Abschnitt gleichzeitig nach den passenden "Gefühl-Büchern". Dann werfen sie ihre Ergebnisse in einen großen Korb, und ein Chef-Roboter sortiert die besten 10 heraus. Das ist extrem schnell, selbst wenn die Bibliothek so groß ist wie ein ganzer Kontinent.

4. Die magische Sprache (GSQL)

Früher musste man zwei verschiedene Sprachen sprechen: eine für die Suche nach Gefühlen und eine für das Verfolgen von Seilen. TigerVector hat eine neue, universelle Sprache entwickelt.

Die Analogie: Sie können jetzt einen Satz sagen wie: "Finde mir die 5 Bücher, die sich nach 'Krimi' anfühlen, die von einem Autor geschrieben wurden, der mit einem Mord in Verbindung steht, und die in New York spielen."
Der Bibliothekar führt die "Gefühl-Suche" (Krimi) und die "Seil-Suche" (Mord-Autor, New York) in einem einzigen Atemzug durch. Das spart Zeit und liefert genauere Ergebnisse.

Warum ist das so wichtig?

Bisher waren die besten Vektorsuch-Systeme (wie Milvus) extrem schnell, aber dumm bezüglich Zusammenhänge. Die besten Graph-Systeme (wie Neo4j) waren schlau bei Zusammenhängen, aber langsam bei der "Gefühl-Suche".

TigerVector ist das Beste aus beiden Welten:

Es ist schnell wie ein Rennwagen (besser als die Konkurrenz).
Es ist klug wie ein Schachmeister (versteht Zusammenhänge).
Es ist günstig, weil man nicht zwei verschiedene teure Systeme kaufen muss.

Fazit

Stellen Sie sich vor, Sie suchen nach einem Rezept für "gemütliches Abendessen".

Ein altes System würde Ihnen nur Rezepte geben, die das Wort "gemütlich" enthalten.
Ein System mit TigerVector würde Ihnen nicht nur die Rezepte geben, die sich gemütlich anfühlen, sondern auch diejenigen, die von einem Koch stammen, der mit Ihrem Lieblingskoch befreundet ist, und die Zutaten enthalten, die Sie gerade im Kühlschrank haben.

TigerVector ist der Schlüssel, damit KI-Assistenten nicht nur "ähnliche" Wörter finden, sondern wirklich verstehen, was wir meinen, indem sie die Welt als ein großes, vernetztes Ganzes betrachten.

TigerVector: Supporting Vector Search in Graph Databases for Advanced RAGs

Das Problem: Der RAG-Notfall

Die Lösung: TigerVector – Der Super-Detektiv

1. Der neue "Gefühls-Ordner" (Embedding Type)

2. Die getrennten Lagerhallen (Decoupled Storage)

3. Das Super-Team (MPP-Architektur)

4. Die magische Sprache (GSQL)

Warum ist das so wichtig?

Fazit

1. Problemstellung

2. Methodik und Systemarchitektur

3. Hauptbeiträge

4. Ergebnisse und Evaluation

5. Bedeutung und Ausblick

TigerVector: Supporting Vector Search in Graph Databases for Advanced RAGs

Das Problem: Der RAG-Notfall

Die Lösung: TigerVector – Der Super-Detektiv

1. Der neue "Gefühls-Ordner" (Embedding Type)

2. Die getrennten Lagerhallen (Decoupled Storage)

3. Das Super-Team (MPP-Architektur)

4. Die magische Sprache (GSQL)

Warum ist das so wichtig?

Fazit

1. Problemstellung

2. Methodik und Systemarchitektur

3. Hauptbeiträge

4. Ergebnisse und Evaluation

5. Bedeutung und Ausblick

Mehr davon

Online Monitoring of Metric Temporal Logic using Sequential Networks

Module checking of pushdown multi-agent systems

Probabilistic Counters for Privacy Preserving Data Aggregation

Homomorphisms of (n,m)-graphs with respect to generalised switch

Agent based decision making for Integrated Air Defense system