Hierarchical Embedding Fusion for Retrieval-Augmented Code Generation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een programmeur bent die een enorme, complexe bibliotheek van code moet doorzoeken om een nieuw stukje software te schrijven. De bibliotheek bevat miljoenen boeken (bestanden) met instructies, definities en voorbeelden.

Het oude probleem:
Vroeger, als je een vraag stelde aan een slimme AI-assistent, moest je de assistent eerst alle relevante boeken uit de bibliotheek laten lezen voordat hij antwoord gaf.

Het nadeel: Dit duurde eeuwen (traagheid).
Het andere nadeel: De assistent raakte in de war door alle informatie tegelijk (ruis). Het was alsof je iemand probeert te helpen met een vraag, maar je schreeuwt hem tegelijkertijd 1000 verschillende verhalen toe.

De oplossing: HEF (Hierarchical Embedding Fusion)
De auteurs van dit papier hebben een slimme truc bedacht genaamd HEF. Je kunt het zien als het bouwen van een ultra-snelle, samengevatte "geheugenkaart" van de hele bibliotheek.

Hier is hoe het werkt, in drie simpele stappen:

1. De "Samenvatter" (Offline Fase)

Stel je voor dat je een team van slimme, snelle samenvatters hebt die voordat je überhaupt een vraag stelt, aan de slag gaan.

Ze nemen elk boek in de bibliotheek, lezen het, en maken er een korte, krachtige samenvatting van.
Ze doen dit niet zomaar: ze groeperen de samenvattingen. Alle samenvattingen van één hoofdstuk worden samengevoegd tot één samenvatting van het hoofdstuk. Alle hoofdstukken van één boek worden samengevoegd tot één samenvatting van het boek.
Het resultaat: In plaats van miljoenen pagina's tekst, heb je nu een hiërarchische boom van duizend woorden die de essentie van de hele bibliotheek bevat. Dit wordt opgeslagen in een cache (een soort snel geheugen). Dit kost tijd om te doen, maar dat doe je maar één keer per bibliotheek.

2. De "Vertaler" (Online Fase)

Nu komt de gebruiker met een vraag (bijvoorbeeld: "Hoe schrijf ik deze functie?").

De oude methode zou de hele bibliotheek opnieuw moeten scannen.
De HEF-methode kijkt direct naar die samenvattingen (de boom).
De slimme AI zoekt de 30 of 40 meest relevante samenvattingen uit die boom.
De magische stap: In plaats van die samenvattingen als tekst terug te sturen naar de programmeur, vertaalt de AI ze naar geheime "pseudo-woorden" (zoals geheime codes of emoji's die alleen de AI begrijpt).
Deze codes worden aan de vraag toegevoegd. Het is alsof je de programmeur niet 1000 pagina's geeft, maar slechts 30 geheime aanwijzingen die precies zeggen wat hij moet weten.

3. Het Resultaat: Snel en Slim

Omdat de AI nu alleen maar naar die 30 codes hoeft te kijken in plaats van duizenden pagina's tekst:

Het is razendsnel: De AI kan binnen een seconde antwoorden (zoals een flits).
Het is accuraat: Omdat de codes de essentie van de hele bibliotheek bevatten, weet de AI nog steeds precies welke variabelen of functies er in andere bestanden staan. Hij hallucineert niet meer (droomt hij geen onzin uit).

Waarom is dit zo cool? (De Analogie)

Stel je voor dat je een chef-kok bent die een gerecht moet maken, maar je hebt een recept nodig dat ergens in een berg van 10.000 kookboeken staat.

De oude manier: Je roept de kok en laat hem de hele berg boeken één voor één doorbladeren. Hij komt pas over een uur terug, en onderweg heeft hij waarschijnlijk de helft van de boeken verkeerd begrepen omdat er te veel informatie was.
De HEF-methode:
1. Vooraf: Een assistent heeft al alle 10.000 boeken gelezen en er een klein, perfect georganiseerd notitieboekje van gemaakt, waarin elke pagina een samenvatting is van een heel hoofdstuk.
2. Nu: Als je vraagt om een recept, kijkt de assistent direct in dat notitieboekje, pakt de 30 belangrijkste regels eruit, en schrijft ze op een geheime code op een post-it.
3. De kok: De kok leest de post-it (de code) en weet direct precies wat hij moet doen, zonder de berg boeken aan te raken. Het duurt maar een seconde en het resultaat is perfect.

Samenvattend

Dit papier introduceert een manier om enorme hoeveelheden code te "samenvatten" in een compacte, slimme vorm. Hierdoor kunnen AI's code schrijven die rekening houdt met het hele project, maar dan zo snel als een flits, zonder dat ze verdrinken in informatie. Het is de perfecte balans tussen "alles weten" en "snel zijn".

Each language version is independently generated for its own context, not a direct translation.

Hier volgt een gedetailleerde technische samenvatting van het paper "Hierarchical Embedding Fusion for Retrieval-Augmented Code Generation" in het Nederlands.

Titel

Hierarchical Embedding Fusion (HEF) voor Retrieval-Augmented Code Generation

1. Het Probleem

Bij het genereren van code op repository-niveau (waarbij cross-file context nodig is, zoals geïmporteerde klassen en projectbrede API's) lopen bestaande Retrieval-Augmented Generation (RAG) systemen tegen twee fundamentele beperkingen aan:

Koppeling van kosten aan repository-grootte: Traditionele methoden injecteren ruwe code-snippets direct in de prompt. Dit koppelt de online latency (vertraging) direct aan het aantal tokens dat wordt opgehaald. Bij grote repositories wordt de prompt extreem lang, wat de inferentie-tijd en kosten explodeert.
Ruis en context-lengte: Het invoegen van irrelevante fragmenten introduceert ruis in het contextvenster, wat de kwaliteit van de gegenereerde code kan verminderen.
Bestaande alternatieven: Methoden die gebruikmaken van grafieken of iteratieve retrieval (zoals DRACO of GraphCoder) verbeteren de relevantie, maar vereisen dure grafiektraversies of meerdere modelaanroepen per query, wat leidt tot hoge latency (vaak >10 seconden).

2. Methodologie: Hierarchical Embedding Fusion (HEF)

HEF is een tweestapsbenadering die een repository vertaalt naar een compacte, hiërarchische vectorrepresentatie, waardoor de online promptlengte onafhankelijk wordt van de repository-grootte.

A. Offline Stage: Constructie van de Hiërarchische Cache

In deze fase wordt de repository eenmalig verwerkt om een herbruikbare "dense cache" te bouwen:

Chunking: Bestanden worden opgesplitst in semantische chunks van maximaal 512 tokens.
Embedding: Een bevroren encoder (Qwen3-Embedding-8B) zet elke chunk om in een dichte vector.
Hiërarchie-opbouw (Fuser): Een klein "Fuser"-model (Qwen-2.5-Coder-0.5B) fuseert recursief vectorgroepen.
- Chunks worden samengevoegd tot bestandsvectoren.
- Bestandsvectoren worden samengevoegd tot modulevectoren.
- Modulevectoren worden samengevoegd tot repositoryvectoren.
- Dit creëert een boomstructuur (chunks → files → modules → repo) die in een index (HNSW) wordt opgeslagen.

B. Online Stage: Query Verwerking

Tijdens inferentie (bij het typen van code):

Query Vorming: De laatste 512 tokens van de huidige code-prefix worden geëmbed.
Retrieval: De top- $K$ (meestal 32) meest relevante knopen uit de hiërarchische cache worden opgehaald via HNSW-zoekopdrachten.
Pseudo-Token Projectie: De opgehaalde vectoren worden via een projector (MLP) omgezet in "pseudo-tokens". Deze zijn continue vectoren die direct in de input van de code-generator worden ingebracht, zonder de discrete tokensequentie te verlengen.
Generatie: De generator (Qwen-2.5-Coder-1.5B) genereert de volgende code op basis van de prefix en de pseudo-tokens.

C. Training Regimes

Het paper onderzoekt twee trainingsstrategieën:

Contrastive Pre-training: Het fuser-model wordt getraind met een contrastief doel (InfoNCE loss) om te leren welke chunks tot welke repository behoren.
End-to-End Optimalisatie: Het fuser-model, de projector en de generator worden gezamenlijk getraind met een Language Modeling loss. Dit levert de beste resultaten op.
Data Filtering (UWL): Er wordt een "Utility-Weighted Likelihood" signaal gebruikt om trainingscontexten te filteren; alleen contexten die de waarschijnlijkheid van de juiste oplossing verhogen, worden gebruikt.

3. Belangrijkste Bijdragen

Decoupling van Repository-grootte en Promptlengte: HEF vervangt duizenden ruwe tokens door een vast budget aan pseudo-tokens (bijv. 32), waardoor de latency constant blijft ongeacht de grootte van de codebase.
End-to-End Pipeline: Een geïntegreerde pipeline die een sterke embedder, een lichtgewicht fuser en een pseudo-token interface combineert voor repository-level code completion.
Ongeleide Data Constructie: Een procedure om trainingsignalen af te leiden uit ruwe repositories zonder handmatige labeling van query-context paren.
Robuustheid: Het systeem is minder gevoelig voor ruis dan traditionele RAG-systemen, omdat de fuser irrelevante informatie comprimeert in plaats van deze als ruwe tekst door te geven.

4. Resultaten

De methoden zijn getest op de benchmarks RepoBench en RepoEval:

Nauwkeurigheid:
- HEF (End-to-End) bereikt 61.3% Exact Match op RepoBench.
- Dit is vergelijkbaar met of beter dan veel zwaardere systemen (bijv. GraphCoder met 16B parameters scoort 64.1%, maar is veel trager).
- HEF presteert aanzienlijk beter dan de "Low-latency" baseline RepoFusion (39.8% vs 61.3%).
Latentie (Snelheid):
- HEF bereikt een mediane latency van 0.68 seconden op één A100 GPU.
- Dit is 13x tot 26x sneller dan grafiek-gebaseerde systemen (DRACO: 11s, GraphCoder: 17.5s).
- Het systeem is sneller dan de tijd die nodig is voor het offline bouwen van de cache (35s per project).
Ablatie Studies:
- Token Budget: 30-40 pseudo-tokens vangen het merendeel van de repository-informatie; meer dan 60 tokens geeft afnemende meerwaarde.
- Fuser Grootte: Een klein model (0.5B) voor de fuser is voldoende; grotere modellen (3B) geven geen significante nauwkeurigheidsverbetering maar verhogen wel de bouwtijd.
- Robuustheid: Bij het invoeren van schadelijke context (negatieve utility) degradeert HEF minder sterk dan systemen die ruwe tekst injecteren.

5. Betekenis en Conclusie

HEF biedt een praktische oplossing voor het dilemma tussen nauwkeurigheid en snelheid in repository-level code completion.

Het bewijst dat repository-context effectief kan worden gedistilleerd naar een compacte vectorhiërarchie zonder de kwaliteit van de generatie te verliezen.
Het vult een gat in de markt: het is niet bedoeld om de allerhoogst nauwkeurige (maar trage) systemen te vervangen in kritieke scenario's, maar biedt een superieure balans voor interactieve toepassingen waar responsiviteit (<1s) cruciaal is.
De methode demonstreert dat "dense caching" en "pseudo-tokens" een effectief alternatief zijn voor het streamen van grote hoeveelheden ruwe code naar de generator.

Kortom, HEF maakt het mogelijk om repository-bewuste codegeneratie uit te voeren met de snelheid van single-file completion, terwijl het de contextuele voordelen van de volledige codebase behoudt.