Hierarchical Embedding Fusion for Retrieval-Augmented Code Generation

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein genialer Programmierer, der gerade an einem riesigen Bauprojekt arbeitet – sagen wir, einem Wolkenkratzer aus Code. Du sitzt an deinem Schreibtisch (dem Computer) und musst eine neue Wand bauen. Das Problem: Um die Wand richtig zu bauen, musst du wissen, wie die Fundamente in einem anderen Gebäudeabschnitt aussehen, welche Materialien im Keller gelagert sind und welche Regeln für den gesamten Komplex gelten.

Normalerweise würdest du jetzt den ganzen Bauplan (den gesamten Code-Repository) auf deinen Schreibtisch ausbreiten. Das ist aber chaotisch: Tausende von Blättern liegen herum, du suchst lange, und dein Schreibtisch wird so voll, dass du gar nicht mehr arbeiten kannst. Das ist das Problem bei herkömmlichen Methoden: Sie versuchen, den ganzen Code direkt in die Anfrage zu kopieren, was langsam ist und verwirrend.

Die Autoren dieses Papers haben eine clevere Lösung namens HEF (Hierarchical Embedding Fusion) entwickelt. Hier ist die Erklärung, wie das funktioniert, mit einfachen Analogien:

1. Das Problem: Der überfüllte Schreibtisch

Stell dir vor, du musst eine Frage an einen KI-Assistenten stellen.

Die alte Methode (Snippet-Injection): Du nimmst 50 Seiten aus dem Bauplan, schreibst sie in deine Nachricht und sagst: "Hier ist alles, lies das und antworte." Das dauert ewig, und der Assistent wird von unnötigen Details abgelenkt.
Die neue Methode (HEF): Statt den ganzen Text zu schicken, schicken wir nur eine Zusammenfassung und ein Verzeichnis.

2. Die Lösung: Ein zweistufiges Bibliothekssystem

HEF funktioniert wie ein extrem effizientes Bibliothekssystem, das in zwei Phasen läuft:

Phase 1: Der Bibliothekar, der vorarbeitet (Offline)

Bevor du überhaupt eine Frage stellst, arbeitet ein kleiner, schlauer Bibliothekar (das "Fuser"-Modell) im Hintergrund.

Er nimmt den riesigen Bauplan und teilt ihn in kleine Abschnitte (wie einzelne Zimmer).
Statt jeden einzelnen Stein zu zählen, fasst er die Informationen zusammen. Er sagt: "Okay, dieser Raum ist ein 'Schlafzimmer', dieser ganze Stock ist ein 'Wohnbereich', und das ganze Gebäude ist ein 'Wolkenkratzer'."
Er erstellt eine hierarchische Landkarte (ein Baum aus Vektoren). Oben steht das ganze Projekt, darunter die Module, dann die Dateien, dann die Funktionen.
Der Clou: Er speichert diese Zusammenfassungen als kompakte "Gedächtnis-Karten" (dichte Vektoren). Das passiert einmalig und dauert nur kurz.

Phase 2: Der schnelle Assistent (Online)

Jetzt bist du dran und musst eine Wand bauen.

Du fragst: "Wie baue ich eine Wand in der Küche?"
Statt den ganzen Bauplan zu schicken, schaut der Assistent auf die Landkarte. Er sucht sich die 32 wichtigsten "Gedächtnis-Karten" aus, die relevant sind (z. B. die Karte für "Küche", die für "Wohnbereich" und die für "Fundament").
Diese 32 Karten werden nicht als Text, sondern als magische Schlüsselwörter (Pseudo-Tokens) an den KI-Assistenten geschickt.
Der Assistent braucht nur diese wenigen Schlüsselwörter, um zu verstehen, worum es geht, und kann sofort die perfekte Antwort generieren.

3. Warum ist das so genial? (Die Vorteile)

Geschwindigkeit: Weil der Assistent nicht Tausende von Seiten lesen muss, sondern nur 32 Schlüsselwörter, ist die Antwort blitzschnell (unter einer Sekunde). Es ist wie der Unterschied zwischen, jemandem einen ganzen Roman zu geben, oder ihm nur den Inhaltsverzeichnis und ein paar Stichwörter.
Platzsparend: Der Assistent muss nicht den ganzen Code im Kopf behalten. Er nutzt nur einen kleinen, festen "Gedächtnis-Raum" für die Zusammenfassungen.
Robustheit: Wenn der Bibliothekar eine Karte mit einem Fehler oder einer irrelevanten Information aussucht, ist das weniger schlimm als bei der alten Methode. Bei der alten Methode würde ein falsches Wort im Text den Assistenten verwirren. Bei HEF ist die Information so verdichtet, dass der Assistent den "Kern" der Sache besser versteht, auch wenn die Karte nicht perfekt ist.

4. Ein Vergleich mit anderen Methoden

Die "Graph"-Methode: Das wäre wie ein Architekt, der bei jeder Frage erst den ganzen Bauplan neu zeichnet und alle Verbindungen zwischen den Räumen manuell nachverfolgt. Sehr genau, aber extrem langsam.
Die "HEF"-Methode: Das ist wie ein erfahrener Bauleiter, der die Pläne schon auswendig kennt. Er muss nicht nachschauen, sondern ruft sich die wichtigsten Fakten aus dem Gedächtnis ab.

Fazit

Die Autoren haben also einen Weg gefunden, wie eine KI den gesamten Code eines Projekts "im Hinterkopf" behalten kann, ohne ihn bei jeder einzelnen Frage neu lesen zu müssen. Sie komprimieren den riesigen Codeberg in eine intelligente, mehrstufige Landkarte.

Das Ergebnis: Eine KI, die Code schreibt, ist schneller, klüger (weil sie den Kontext besser versteht) und effizienter als alles, was wir vorher hatten. Es ist, als würde man einem Genie einen Kompass geben, statt ihm die ganze Weltkarte auf den Tisch zu legen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Hierarchical Embedding Fusion for Retrieval-Augmented Code Generation" (HEF) auf Deutsch:

1. Problemstellung

Die Repository-Level-Code-Vervollständigung erfordert, dass ein Modell nicht nur den aktuellen Dateikontext, sondern auch Informationen aus dem gesamten Projekt (importierte Klassen, Funktionsdefinitionen in anderen Dateien, API-Signaturen) berücksichtigt, um korrekten Code zu generieren.

Bestehende Retrieval-Augmented Generation (RAG)-Ansätze für Code stoßen hier an Grenzen:

Snippet-Injection: Herkömmliche Methoden fügen rohe Code-Snippets direkt in den Prompt ein. Dies koppelt die Online-Latenz direkt an die Anzahl der eingefügten Tokens und führt bei großen Kontexten zu Rauschen (Noise) und langen Inferenzzeiten.
Strukturbasierte Ansätze: Graph-basierte oder iterative Retrieval-Systeme verbessern die Relevanz, erfordern jedoch teure Graph-Traversierungen oder mehrere Modellaufrufe pro Anfrage, was die Latenz für interaktive Anwendungen (Sub-Sekunden-Bereich) unakzeptabel macht.
Dichte Caching-Methoden: Bisherige Ansätze zur Komprimierung von Kontext in dichte Vektoren wurden nicht systematisch für Repository-Level-Aufgaben mit einer Schnittstelle auf Basis von „Pseudo-Tokens" evaluiert.

Das Ziel ist es, einen Mechanismus zu entwickeln, der den Zugriff auf Repository-Wissen ermöglicht, ohne die Prompt-Länge und damit die Latenz proportional zur Repository-Größe zu erhöhen.

2. Methodik: Hierarchical Embedding Fusion (HEF)

HEF ist ein zweistufiger Ansatz, der eine Repository in eine wiederverwendbare Hierarchie dichter Vektoren komprimiert und diese über eine feste Budget-Grenze an den Generator weitergibt.

A. Offline-Stufe: Hierarchischer Cache

Chunking: Quellcode-Dateien werden in semantisch kohärente Blöcke (Chunks) von maximal 512 Tokens zerlegt.
Embedding: Ein eingefrorener Encoder (Qwen3-Embedding-8B) wandelt jeden Chunk in einen dichten Vektor um.
Hierarchie-Aufbau (Fuser): Ein kleiner „Fuser"-Modell (Qwen-2.5-Coder-0.5B) rekursiv verschmilzt diese Vektoren.
- Chunks werden zu Datei-Vektoren fusioniert.
- Dateien werden zu Modul-Vektoren fusioniert.
- Module werden zu Repository-Vektoren fusioniert.
- Dies erzeugt eine Baumstruktur (Chunks $\to$ Datei $\to$ Modul $\to$ Repo), die im Cache gespeichert wird.
Datenfilterung (UWL): Ein „Utility-Weighted Likelihood"-Signal filtert Trainingskontexte, um nur solche zu behalten, die die Generierungsqualität tatsächlich verbessern.

B. Online-Stufe: Inferenz

Query-Formierung: Der aktuelle Code-Präfix wird eingebettet, um eine Query zu erstellen.
Retrieval: Ein Approximate Nearest Neighbor (HNSW) durchsucht den gesamten hierarchischen Cache und liefert die $K$ relevantesten Knoten (z. B. 32 Knoten) aus verschiedenen Ebenen der Hierarchie.
Pseudo-Token-Interface: Die retrieved Vektoren werden durch einen Projektor (MLP) in Pseudo-Tokens (kontinuierliche Vektoren) umgewandelt.
- Diese Pseudo-Tokens werden an den Eingabe-Embedding-Sequenz des Generators angehängt (Soft-Prompt-Style).
- Statt Tausenden von rohen Tokens werden nur eine feste Anzahl (z. B. 32) Pseudo-Tokens verarbeitet.
Generierung: Der Code-Generator (Qwen-2.5-Coder-1.5B) erzeugt die Vervollständigung basierend auf dem Präfix und den Pseudo-Tokens.

C. Trainingsregime

Das Paper vergleicht zwei Trainingsstrategien:

Separat: Der Fuser wird zuerst kontrastiv vortrainiert, dann werden nur Projektor und Generator feinabgestimmt.
End-to-End: Fuser, Projektor und Generator werden gemeinsam optimiert (mit Ausnahme des eingefrorenen Embedders). Dies liefert die besten Ergebnisse.

3. Wichtige Beiträge

Methodik: Einführung einer hierarchischen dichten Cache-Struktur kombiniert mit einer Pseudo-Token-Schnittstelle. Dies entkoppelt die Repository-Größe von der Online-Prompt-Länge.
Trainingsstrategien: Analyse von kontrastivem Vortraining vs. End-to-End-Optimierung und die Einführung eines unsupervisierten Datenfilterverfahrens (UWL) zur Verbesserung der Trainingsqualität.
Umfassende Evaluation: Detaillierte Messungen von Genauigkeit und Latenz auf den Benchmarks RepoBench und RepoEval, einschließlich Abhängigkeitsstudien (Ablations) zu Pseudo-Token-Budget, Embedding-Modellen und Robustheit gegenüber schädlichem Retrieval.

4. Ergebnisse

HEF wurde auf einem einzelnen NVIDIA A100 GPU evaluiert und zeigt folgende Leistungen:

Genauigkeit:
- Auf RepoBench erreicht HEF (End-to-End) eine Exact-Match-Accuracy von 61,3 %. Dies ist vergleichbar mit oder besser als deutlich größere Modelle (z. B. GraphCoder mit 16B Parametern erreicht 64,1 %, ist aber 20-mal langsamer).
- Auf RepoEval erreicht HEF 42,7 %, was einen deutlichen Vorsprung gegenüber Low-Latency-Baselines wie RepoFusion (33,2 %) und reinen Modellen ohne Retrieval (28,4 %) darstellt.
Latenz und Effizienz:
- HEF erreicht eine mediane Latenz von 0,68 Sekunden.
- Dies ist 13- bis 26-mal schneller als Graph-basierte oder iterative Retrieval-Systeme (DRACO, GraphCoder, RLCoder), die Latenzen von 8 bis 17 Sekunden haben.
- Der Offline-Overhead (Cache-Erstellung) beträgt ca. 35 Sekunden pro Repository, was als einmaliger Kostenfaktor akzeptabel ist.
Robustheit: HEF ist robuster gegenüber irrelevantem oder schädlichem Retrieval-Kontext als klassische Snippet-Injection, da die Fusion im dichten Vektorraum Rauschen filtert.
Ablationsstudien:
- Ein Budget von 30–40 Pseudo-Tokens reicht aus, um den Großteil der Repository-Informationen zu erfassen.
- Die Größe des Fuser-Modells (0,5B vs. 1,5B vs. 3B) hat nur einen marginalen Einfluss auf die Genauigkeit, aber einen großen Einfluss auf die Build-Zeit; ein kleines Modell (0,5B) ist optimal.
- Zusätzliche Techniken wie „Entity Pre-parsing" (Hinzufügen von Symbolnamen) und „Per-chunk p-tuning" können die Genauigkeit weiter steigern.

5. Bedeutung und Fazit

Das Paper demonstriert, dass hierarchisches dichtes Caching eine effektive Methode ist, um Repository-Level-Wissen für die Code-Generierung zugänglich zu machen, ohne die Latenz zu opfern.

Paradigmenwechsel: HEF ersetzt die traditionelle „Snippet-Injection" (roher Text) durch eine kompakte Vektor-Hierarchie, die als Pseudo-Tokens injiziert wird.
Praktische Relevanz: Es bietet eine praktikable Lösung für interaktive Code-Completion-Tools, bei denen Reaktionszeiten unter einer Sekunde entscheidend sind, aber dennoch projektweiter Kontext benötigt wird.
Zukunftsausblick: Die Arbeit legt den Grundstein für adaptive Hierarchien und hybride Ansätze, die symbolische Programmstrukturen mit kompakten kontinuierlichen Caches kombinieren.

Zusammenfassend zeigt HEF, dass man durch intelligente Komprimierung und Hierarchisierung von Repository-Daten die Lücke zwischen hoher Genauigkeit (wie bei großen Graph-Systemen) und niedriger Latenz (wie bei reinen Modellen) schließen kann.