KohakuRAG: A simple RAG framework with hierarchical document indexing

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein Super-Detektiv, der einen riesigen, chaotischen Archivkeller voller 32 dicker Aktenordner durchsuchen muss. Deine Aufgabe: Beantworte 300 sehr spezifische Fragen über den Energieverbrauch von KI-Systemen. Und das Tückische: Du musst nicht nur die richtige Antwort finden, sondern auch exakt sagen, auf welcher Seite in welchem Ordner du sie gefunden hast. Ein einziger Fehler oder eine erfundene Antwort (Halluzination) kostet dich Punkte.

Das ist die Herausforderung, die das Team Kohaku-Lab mit ihrem System KohakuRAG gemeistert hat. Sie haben damit den ersten Platz in einem großen Wettbewerb (WattBot 2025) belegt.

Hier ist die Erklärung, wie ihr System funktioniert, ganz ohne Fachchinesisch:

1. Das Problem: Der "flache" Haufen Papier

Normale Suchsysteme (wie ein einfacher RAG-Ansatz) schneiden die Aktenordner einfach in kleine, gleich große Stücke (wie Puzzleteile) und werfen sie in einen Haufen.

Das Problem: Wenn du nach einer Information suchst, die eigentlich auf Seite 5 steht, aber das System hat sie in ein Stückchen auf Seite 45 geschnitten, verliert es den Kontext. Es weiß nicht mehr, dass das Puzzleteil eigentlich zu einem bestimmten Kapitel gehört. Zudem kann es passieren, dass das System die Antwort "erfindet", weil es unsicher ist, oder die falsche Seite zitiert.

2. Die Lösung: KohakuRAG – Der intelligente Bibliothekar

KohakuRAG geht einen ganz anderen Weg. Statt alles zu zerkleinern, baut es eine kluge Hierarchie auf.

A. Die Baum-Struktur (Der Organisationsplan)

Stell dir die Dokumente nicht als Haufen Papier vor, sondern als einen Baum:

Der Stamm ist das ganze Dokument.
Die großen Äste sind die Kapitel.
Die kleineren Äste sind die Absätze.
Die Blätter sind die einzelnen Sätze.

Das System versteht diese Struktur. Wenn es ein "Blatt" (einen Satz) findet, weiß es sofort, zu welchem "Ast" (Absatz) und welchem "Stamm" (Dokument) es gehört. So kann es die Antwort nicht nur finden, sondern auch exakt sagen: "Ich habe das auf Seite X im Kapitel Y gefunden." Das ist wie ein Bibliothekar, der nicht nur das Buch kennt, sondern auch genau weiß, in welchem Regal, auf welchem Fach und bei welcher Zeile die Information steht.

B. Der Übersetzer (Die Frage-Planung)

Manchmal fragt man etwas anders, als es im Buch steht.

Du fragst: "Wie viel Strom verbraucht Google?"
Im Buch steht: "Power Usage Effectiveness (PUE) von Google-Rechenzentren."

Ein normales System würde hier vielleicht nichts finden, weil die Wörter nicht übereinstimmen. KohakuRAG nutzt einen KI-Planer (einen kleinen Übersetzer), der deine Frage in mehrere Varianten umschreibt. Er denkt: "Vielleicht suchen sie nach 'Strom', 'Energieeffizienz' oder 'PUE'." Er stellt also nicht nur eine Frage, sondern vier oder mehr, um sicherzugehen, dass er nichts verpasst.

C. Der Konsens-Check (Die Jury)

Wenn das System eine Antwort generiert, passiert es oft, dass die KI unsicher ist und sagt: "Ich weiß es nicht" (obwohl die Antwort da wäre), oder sie erfindet etwas.
KohakuRAG macht das nicht nur einmal. Es lässt die KI die Aufgabe mehrmals (z. B. 9 Mal) unabhängig voneinander lösen, wie eine Jury.

Wenn 7 von 9 Jurymitgliedern die gleiche Antwort geben und 2 sagen "Ich weiß es nicht", ignoriert das System die "Ich weiß es nicht"-Antworten (solange die Antwort da ist) und nimmt die Mehrheitsmeinung.
Das verhindert, dass die KI aus Angst vor Fehlern einfach aufgibt, wenn die Antwort eigentlich im Text steht.

3. Warum haben sie gewonnen?

Das Team hat drei Dinge besonders gut gemacht:

Struktur bewahren: Sie haben die Dokumente nicht zerschnitten, sondern als Baum organisiert. Das hilft, den Kontext zu behalten.
Vielfalt bei der Suche: Sie stellen viele Fragen statt nur einer, um alle möglichen Wortwahl-Varianten abzudecken.
Mehrere Versuche: Sie lassen die KI mehrmals raten und wählen die beste Antwort aus, anstatt sich auf einen einzigen Versuch zu verlassen.

Das Ergebnis

Auf einer Skala von 0 bis 1 erreichten sie 0,861. Das ist extrem hoch. Noch wichtiger: Sie waren das einzige Team, das sowohl im öffentlichen Test (wo alle sehen können, wie gut sie sind) als auch im geheimen Test (wo die Fragen erst am Ende bekannt gegeben werden) Platz 1 belegten.

Zusammenfassend:
Statt wie ein Panzer durch einen Papierberg zu fahren und alles zu zertrümmern, hat KohakuRAG wie ein geschickter Architekt gearbeitet. Er hat die Dokumente strukturiert, hat sich mehrere Fragen überlegt, um sicherzugehen, und hat am Ende die Antwort einer ganzen Jury abgehört, um sicherzustellen, dass sie stimmt. So wurde das Chaos in eine präzise, zuverlässige Antwort verwandelt.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „KohakuRAG: A simple RAG framework with hierarchical document indexing" von Kohaku-Lab auf Deutsch.

1. Problemstellung und Motivation

Retrieval-Augmented Generation (RAG) Systeme stehen vor erheblichen Herausforderungen, wenn sie präzise Zitate aus Dokumentensammlungen liefern müssen. Das Paper identifiziert drei Hauptprobleme herkömmlicher RAG-Ansätze:

Verlust der Dokumentenstruktur: Standard-Methoden nutzen „flaches Chunking" (feste Längen), was semantische Grenzen zerstört und die genaue Nachverfolgung von Quellen (Citation Tracking) erschwert.
Vokabular-Mismatch: Single-Query-Ansätze verpassen relevante Passagen, wenn die Formulierung der Nutzerfrage nicht mit dem Vokabular der Quelldokumente übereinstimmt (z. B. Abkürzungen vs. ausgeschriebene Begriffe).
Stochastische Instabilität: Einzelne Inferenzläufe von Large Language Models (LLMs) produzieren inkonsistente Antworten und Zitate. Zudem neigen Modelle dazu, unnötig zu „abstainen" (keine Antwort zu geben), selbst wenn die Information vorhanden, aber schwer zu lokalisieren ist.

Diese Probleme wurden im Rahmen der WattBot 2025 Challenge getestet. Die Aufgabe bestand darin, technische Fragen zu AI-Energieverbrauch aus 32 Dokumenten (ca. 500k Tokens) zu beantworten, wobei eine numerische Toleranz von ±0,1% und exakte Quellenangaben gefordert waren.

2. Methodik: KohakuRAG Framework

KohakuRAG adressiert die oben genannten Probleme durch einen dreistufigen Ansatz, der in Algorithm 1 zusammengefasst ist:

A. Hierarchische Dokumentenindizierung (Hierarchical Document Indexing)

Anstatt Dokumente in feste Blöcke zu zerlegen, wird eine vierstufige Baumstruktur erstellt:

Struktur: Dokument → Abschnitt (Section) → Absatz (Paragraph) → Satz (Sentence).
Bottom-up Embedding Aggregation:
- Leaf-Knoten (Sätze) werden direkt eingebettet.
- Übergeordnete Knoten (Absätze, Abschnitte) erhalten ihre Embeddings durch eine gewichtete Durchschnittsbildung der Embeddings ihrer Kindknoten. Das Gewicht entspricht der Token-Länge des Kindknotens.
- Dies bewahrt die semantische Komposition und ermöglicht präzise Zitation auf jeder Granularitätsebene.
Multimodalität: Bilder und Tabellen werden als spezielle Knoten behandelt. Ein Vision-Language-Modell (Qwen-VL) generiert Bildunterschriften, die als Text eingebettet werden. Zudem unterstützt das Framework direkte Bild-Embeddings via Jina v4.

B. Multi-Query Retrieval mit Cross-Query Reranking

Um das Vokabular-Problem zu lösen:

Query Planner: Ein LLM generiert aus der ursprünglichen Frage $n$ semantisch verwandte Suchanfragen (z. B. Umformulierungen, Erweiterung von Abkürzungen, Zerlegung in Teilfragen).
Dense Retrieval: Jede dieser Fragen durchsucht den Vektor-Index.
Cross-Query Reranking: Die Ergebnisse werden aggregiert. Knoten, die von mehreren Suchanfragen gefunden wurden, erhalten einen höheren Rang. Es werden drei Strategien verglichen: Frequenz (wie oft gefunden), Score (Summe der Ähnlichkeiten) und eine Kombination.
Kontext-Erweiterung: Gefundene Knoten werden um ihre Hierarchie-Erweiterung (Elternknoten, Geschwister) erweitert, um dem LLM den notwendigen Kontext zu geben.

C. Ensemble-Inferenz mit abstention-aware Voting

Um die Stabilität zu erhöhen:

Mehrere Läufe: Es werden $m$ unabhängige Inferenzläufe durchgeführt.
Retry-Mechanismus: Wenn ein Lauf „keine Antwort" (abstention) zurückgibt, wird der Suchradius ( $k$ ) erhöht und der Vorgang wiederholt.
Abstention-Aware Voting: Bei der Mehrheitsentscheidung werden leere Antworten (Blanks) gefiltert, sofern andere Läufe eine Antwort liefern. Dies verhindert, dass konservative Läufe die Antwort blockieren, wenn die Information eigentlich vorhanden ist.
Voting-Strategien: Verschiedene Modi (z. B. „AnswerPriority") kombinieren Antworten und Referenzen basierend auf der Mehrheitsentscheidung.

3. Wichtige Beiträge

Hierarchisches Indizierungsschema: Eine Baumstruktur mit Bottom-up-Embeddings, die die Dokumentenstruktur erhält und präzises Citation Tracking ermöglicht.
LLM-gestützter Query Planner: Eine Methode zur Erweiterung von Suchanfragen mit Cross-Query Reranking, die die Abdeckung relevanter Passagen signifikant verbessert.
Ensemble-Inferenz mit Blank-Filtering: Ein Mechanismus, der die Stabilität erhöht und das häufigste Fehlermuster (unnötiges Abbrechen bei vorhandener Information) adressiert.
Empirische Erkenntnisse: Die Studie zeigt, dass Prompt-Ordnung (Kontext vor Frage) und Retry-Mechanismen einen größeren Einfluss haben als hybride Retrieval-Strategien (BM25).

4. Ergebnisse und Evaluation

Die Evaluation erfolgte auf dem WattBot 2025 Testset (282 Fragen, aufgeteilt in Public und Private Partition).

Leaderboard-Erfolg: KohakuRAG erreichte Platz 1 auf beiden Leaderboards (Public und Private) mit einer Endpunktzahl von 0,861. Es war das einzige Team, das die Spitzenposition in beiden Partitionen hielt.
Ablationsstudien (Einfluss der Komponenten):
- Prompt-Ordnung: Das Platzieren des Kontexts vor der Frage (C→Q) führte zu einer relativen Verbesserung von +80%.
- Retry-Mechanismus: Verbesserte die Leistung bei geringer Suchtiefe ( $k=4$ ) um +69%.
- Ensemble Voting: Das Filtern von leeren Antworten bei der Mehrheitsentscheidung brachte bei $n=9$ Läufen +1,2 Prozentpunkte.
- Retrieval: Reines hierarchisches Dense Retrieval (Jina v4) war bereits sehr stark. Die Hinzunahme von BM25 (Sparse Retrieval) brachte nur einen marginalen Gewinn von +3,1 Prozentpunkten.
Modellvergleich: Grok-4.1-fast zeigte die beste Gesamtleistung, gefolgt von Kimi-k2 und Gemini-3-pro. Kleinere Modelle (GPT-5-nano) zeigten signifikant schlechtere Ergebnisse.
Robustheit: Ensemble-Methoden reduzierten die Varianz zwischen Public- und Private-Partitionen erheblich. Während einzelne Modelle auf der Public-Partition hohe Scores erzielten, aber auf der Private-Partition einbrachen (z. B. Gemini-3-pro: -6,2%), blieb KohakuRAG stabil.

5. Fehleranalyse

Die Analyse von 2.583 Vorhersagen ergab folgende Hauptfehlerquellen:

Unnötiges Abbrechen (Unnecessary Abstention): 26,8% der Fehler. Das Modell gab auf, obwohl die Information im Kontext war (wird durch Retry-Mechanismus behoben).
Referenz-Mismatch: 23,6%. Die Antwort war korrekt, aber die Zitation verweist auf eine falsche Quelle (z. B. Übersichtsartikel statt Originalquelle).
Wertauswahl-Fehler: 22,2%. Das Modell wählte einen falschen, aber kontextuell plausiblen Wert aus mehreren Optionen.

6. Bedeutung und Fazit

KohakuRAG demonstriert, dass für anspruchsvolle, zitierintensive Aufgaben die Struktur der Dokumente und die Robustheit der Inferenz wichtiger sind als reine Retrieval-Komplexität (wie hybride Sparse-Dense-Methoden).

Strukturelle Integrität: Die Beibehaltung der Dokumentenhierarchie ist entscheidend für präzise Zitate.
Stabilität durch Ensembles: Die Kombination mehrerer Läufe mit intelligentem Voting ist effektiver als die Optimierung eines einzelnen LLM-Laufs.
Generalisierung: Die Fähigkeit, auf beiden Leaderboard-Partitionen (Public/Private) konstant zu performen, unterstreicht die Generalisierungsfähigkeit des Ansatzes gegenüber Overfitting auf spezifische Testdaten.

Das Framework ist als Open-Source-Software verfügbar und bietet einen skalierbaren Ansatz für RAG-Systeme, die hohe Genauigkeit und Nachvollziehbarkeit erfordern.