Hierarchical Embedding Fusion for Retrieval-Augmented Code Generation

Each language version is independently generated for its own context, not a direct translation.

🚀 Le Problème : Le Défi du "Méga-Livre"

Imaginez que vous êtes un architecte de génie (l'intelligence artificielle) chargé de construire une extension à une maison. Mais il y a un problème : la maison est énorme, elle a des milliers de pièces, et vous n'avez pas le droit de lire tout le plan de la maison avant de commencer à dessiner.

Si vous essayez de lire tous les plans (le code source complet du projet) avant de répondre à une question, cela prendrait une éternité. C'est comme si vous deviez lire 10 000 livres pour trouver une seule recette de cuisine. C'est lent, coûteux en énergie, et souvent, vous vous perdez dans les détails inutiles (le "bruit").

Les méthodes actuelles d'aide à la programmation font souvent cela : elles prennent des milliers de lignes de code et les collent toutes ensemble pour essayer de deviner la suite. C'est lourd et inefficace.

💡 La Solution : HEF (La Fusion Hiérarchique)

Les auteurs de ce papier proposent une méthode intelligente appelée HEF (Hierarchical Embedding Fusion). Pour faire simple, c'est comme transformer une bibliothèque de 10 000 livres en un résumé ultra-condensé que votre cerveau peut lire en une seconde.

Voici comment cela fonctionne, étape par étape, avec des analogies :

1. L'Offre : Créer une "Carte au Trésor" (Phase Hors Ligne)

Avant même que l'architecte ne commence à travailler, un assistant très rapide (le modèle "Fuser") parcourt tout le projet de code.

Ce qu'il fait : Au lieu de lire chaque mot, il résume chaque pièce (fichier) en une petite carte. Ensuite, il résume tout l'étage (module) en une seule carte, et enfin, tout le bâtiment (le dépôt) en une carte maîtresse.
L'analogie : Imaginez que vous avez un livre de 500 pages. Au lieu de le lire, vous écrivez un résumé de 3 phrases pour chaque chapitre, puis un résumé de 1 phrase pour chaque partie du livre, et enfin un résumé de 1 phrase pour tout le livre. Vous avez maintenant une "carte" qui contient l'essence de tout le livre, mais qui tient sur un post-it.

2. L'Enquête : Chercher la bonne carte (Phase En Ligne)

Quand l'architecte a besoin d'aide pour une nouvelle pièce, il ne relit pas le livre entier.

Ce qu'il fait : Il regarde le résumé (la carte) et dit : "Ah, il me faut des infos sur la cuisine !" L'assistant va chercher les 32 résumés les plus pertinents dans sa petite pile de cartes.
L'astuce : Au lieu de donner 32 pages de texte à l'architecte, l'assistant lui donne 32 mots magiques (appelés "pseudo-jetons"). Ce sont des symboles qui contiennent toute l'information des 32 pages, mais qui prennent très peu de place.

3. La Création : Construire avec les mots magiques

L'architecte (le générateur de code) reçoit ces 32 mots magiques.

Le résultat : Il comprend instantanément le contexte de toute la maison sans avoir à lire des milliers de lignes. Il peut donc répondre en moins d'une seconde, avec une précision incroyable.

🏆 Pourquoi c'est génial ? (Les Résultats)

Le papier compare cette méthode à d'autres approches :

Les méthodes lentes (GraphCoder, DRACO) : C'est comme envoyer un détective fouiller chaque tiroir du grenier, dessiner un plan complexe et revenir. C'est précis, mais cela prend 10 à 20 secondes.
La méthode HEF : C'est comme avoir un GPS qui vous dit exactement où aller. C'est 13 à 26 fois plus rapide (moins d'une seconde), tout en étant aussi précis que les méthodes lentes.

🛡️ La Sécurité : Éviter les mauvaises informations

Parfois, on peut chercher des informations qui sont fausses ou inutiles (du "bruit").

L'analogie : Si vous demandez à un ami de vous donner un résumé d'un livre, et qu'il vous donne un résumé d'un livre qui n'a rien à voir, vous allez faire une erreur.
La solution du papier : Ils ont ajouté un filtre intelligent (appelé "UWL") qui vérifie si le résumé est vraiment utile avant de le donner à l'architecte. Même si l'information est mauvaise, le système HEF est plus robuste et ne s'effondre pas aussi facilement que les autres.

🎯 En Résumé

Ce papier nous dit : "Pourquoi lire tout le livre quand on peut avoir un résumé parfait en une seconde ?"

Ils ont créé un système qui :

Résume tout le code d'un projet en une hiérarchie de cartes (phase hors ligne).
Transforme ces cartes en quelques mots magiques (phase en ligne).
Permet à l'IA de coder vite et bien, sans être submergée par trop d'informations.

C'est une victoire pour la vitesse et l'efficacité, rendant l'assistance au code beaucoup plus fluide pour les développeurs humains.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La génération de code au niveau du dépôt (repository-level code completion) nécessite de prédire le code suivant en tenant compte non seulement du fichier en cours, mais aussi du contexte global du projet (classes importées, définitions de types, APIs partagées).

Les approches actuelles de Génération Augmentée par Recherche (RAG) pour le code souffrent de deux limitations majeures :

Coût et Latence : Les méthodes d'injection de snippets (copier-coller de chunks de code bruts dans le prompt) couplent la latence en ligne à la taille du contexte récupéré. Injecter des milliers de tokens ralentit considérablement la génération.
Bruit Contextuel : L'inclusion de fragments de code non pertinents dans la fenêtre de contexte introduit du bruit, dégradant la qualité de la génération.
Complexité des méthodes structurelles : Les approches basées sur des graphes (DRACO, GraphCoder) ou itératives améliorent la pertinence mais nécessitent des traversées de graphes coûteuses et multiples appels de modèles, rendant le système trop lent pour une utilisation interactive.

L'objectif est de concevoir un système capable d'accéder à l'information du dépôt entier avec une latence sub-secondaire tout en maintenant une haute précision.

2. Méthodologie : HEF (Hierarchical Embedding Fusion)

Les auteurs proposent HEF, une approche en deux étapes qui remplace les snippets de code bruts par une hiérarchie d'embeddings denses compressés, injectés via des "pseudo-tokens".

A. Phase Hors Ligne (Offline) : Construction du Cache Hiérarchique

Cette phase traite chaque dépôt une seule fois pour créer un cache réutilisable :

Découpage (Chunking) : Les fichiers sont divisés en chunks sémantiques (≤ 512 tokens).
Embedding : Un encodeur figé (Qwen3-Embedding-8B) transforme chaque chunk en un vecteur dense.
Fusion Hiérarchique : Un petit modèle "Fuser" (Qwen-2.5-Coder-0.5B) fusionne récursivement les vecteurs enfants pour créer des vecteurs parents.
- Niveau 0 : Chunks de code.
- Niveau 1 : Vecteurs de fichiers.
- Niveau 2 : Vecteurs de modules/dossiers.
- Niveau 3 : Vecteur du dépôt entier.
- Cette hiérarchie est indexée (HNSW) pour une recherche rapide.

B. Phase En Ligne (Online) : Requêtes et Génération

Lors d'une requête de complétion :

Recherche : Le préfixe de code est encodé et utilisé pour rechercher les $K$ nœuds les plus pertinents dans la hiérarchie (quel que soit le niveau).
Projection en Pseudo-tokens : Les vecteurs récupérés sont projetés via un MLP (Projecteur) pour devenir des pseudo-tokens (vecteurs continus) de dimension adaptée au générateur.
Génération : Le générateur (Decoder) reçoit le préfixe de code suivi de ces $K$ pseudo-tokens (au lieu de milliers de tokens de texte brut). Cela fixe la longueur du prompt indépendamment de la taille du dépôt.

C. Entraînement et Filtrage

Régimes d'entraînement :
- Contrastif : Pré-entraînement du Fuser pour apprendre à fusionner les vecteurs (InfoNCE).
- End-to-End : Optimisation conjointe du Fuser, du Projecteur et du Générateur pour maximiser la vraisemblance du code cible.
Filtrage UWL (Utility-Weighted Likelihood) : Un mécanisme pour filtrer les données d'entraînement. Seuls les contextes qui augmentent la vraisemblance du code cible (par rapport à un modèle de référence) sont conservés, éliminant le bruit des données d'entraînement.

3. Contributions Clés

Interface à Pseudo-tokens : Découplage de la taille du dépôt et de la longueur du prompt. Le système remplace des milliers de tokens par un budget fixe de ~32-40 pseudo-tokens.
Cache Densé Hiérarchique : Une représentation compressée qui préserve l'information structurelle du dépôt sans nécessiter de graphes explicites ou de traversées coûteuses à l'inférence.
Pipeline End-to-End : Intégration complète d'un encodeur, d'un fuser, d'un projecteur et d'un générateur, avec une procédure de construction de données non supervisée (UWL).
Analyse de Robustesse : Démonstration que la fusion hiérarchique est moins sensible au bruit (contexte nuisible) que l'injection directe de snippets.

4. Résultats Expérimentaux

Les évaluations ont été menées sur RepoBench et RepoEval.

Précision (Exact Match) :
- HEF (End-to-End) atteint 61,3 % sur RepoBench, surpassant le modèle de base (Qwen-2.5-Coder-1.3B) de +12,2 points et le baselines à faible latence (RepoFusion) de +22,5 points.
- Il rivalise avec des systèmes beaucoup plus lourds : GraphCoder (16B paramètres) atteint 64,1 %, soit seulement 2,8 points de plus que HEF (1,8B paramètres).
Latence et Efficacité :
- Latence médiane : 0,68 seconde sur une seule carte A100.
- Comparaison : HEF est 13x à 26x plus rapide que les systèmes à haute latence (DRACO, GraphCoder, RLCoder) qui prennent entre 8 et 17 secondes.
- Le coût de prétraitement (construction du cache) est d'environ 35 secondes par dépôt, ce qui est négligeable par rapport au gain en temps d'inférence.
Robustesse : Sur des contextes nuisibles (où la recherche apporte du bruit), HEF dégrade moins les performances que l'injection brute de 4k tokens.

5. Signification et Impact

Ce travail démontre qu'il est possible de réaliser une complétion de code au niveau du dépôt avec une latence interactive sans sacrifier la qualité.

Changement de paradigme : Au lieu d'injecter du texte brut, HEF suggère que l'information sémantique d'un dépôt entier peut être distillée dans un petit nombre de vecteurs denses.
Compromis Précision/Latence : HEF occupe une niche idéale pour les IDE et les assistants de codage interactifs où la réactivité est cruciale, offrant une alternative pratique aux méthodes graphiques lentes mais précises.
Futur : L'article ouvre la voie à des recherches sur la construction adaptative de hiérarchies et des méthodes hybrides combinant structures symboliques et caches continus.

En résumé, HEF propose une solution élégante et efficace pour l'augmentation de contexte dans la génération de code, transformant un problème de "long contexte" en un problème de "recherche de vecteurs" optimisé.