KohakuRAG: A simple RAG framework with hierarchical document indexing

Each language version is independently generated for its own context, not a direct translation.

Voici une explication de la recherche KohakuRAG en français, imagée et simplifiée pour tout le monde.

Imaginez que vous avez une bibliothèque gigantesque remplie de 32 livres techniques très denses sur la consommation d'énergie des intelligences artificielles. On vous pose une question précise, par exemple : "Combien d'eau faut-il pour entraîner un modèle spécifique ?". Vous devez trouver la réponse exacte, citer le livre où vous l'avez trouvée, et ne pas inventer de réponse si l'information n'est pas là.

C'est là que le système KohakuRAG entre en jeu. C'est un "super-chercheur" conçu pour gagner le défi WattBot 2025, et il a remporté la première place. Voici comment il fonctionne, comparé à un détective très méthodique.

1. Le problème des méthodes classiques : Le "Hachoir à viande"

Habituellement, les systèmes qui lisent des documents (appelés RAG) fonctionnent comme un hachoir à viande. Ils prennent un document, le coupent en petits morceaux de taille égale (des "chunks") sans se soucier de la structure, et les jettent dans un tas.

Le problème : Si vous cherchez une information précise, vous risquez de trouver un morceau de phrase coupé en deux, ou de perdre le contexte (le chapitre, le paragraphe). C'est comme essayer de comprendre une histoire en lisant des phrases décousues prises au hasard dans un livre.

2. La solution KohakuRAG : L'Arbre de Savoir

Au lieu de hacher le document, KohakuRAG le traite comme un arbre généalogique ou un arbre de décision.

La structure : Il garde l'ordre naturel : le Livre (Document) → le Chapitre (Section) → le Paragraphe → la Phrase.
L'astuce : Il lit le document de la base vers le sommet (des phrases vers les chapitres). Il résume chaque phrase pour créer un "résumé" du paragraphe, puis un résumé du chapitre.
L'analogie : Imaginez que vous cherchez un mot dans un dictionnaire. Au lieu de chercher dans chaque lettre aléatoirement, vous allez directement à la bonne section, puis au bon mot. KohakuRAG sait exactement où chercher et peut vous dire : "La réponse est dans le chapitre 3, paragraphe 2, phrase 4", ce qui permet de citer la source avec une précision chirurgicale.

3. La recherche intelligente : Le Chef d'Orchestre

Quand on pose une question, les humains utilisent souvent des mots différents de ceux écrits dans les livres techniques. Si vous demandez "PUE" (un terme technique) mais que le livre parle de "efficacité énergétique", un chercheur classique rate la réponse.

KohakuRAG utilise un Chef d'Orchestre (une IA) qui fait ceci :

Le Planificateur : Avant de chercher, il demande à l'IA de réécrire votre question de 4 ou 5 façons différentes. "PUE", "Efficacité de l'énergie", "Ratio de consommation", etc.
Le Vote de Consensus : Il lance toutes ces questions en même temps. Si une information apparaît dans les résultats de plusieurs questions différentes, elle reçoit un "vote" et monte en haut de la liste. C'est comme si vous demandiez à 5 experts différents la même chose : si 3 d'entre eux parlent du même livre, c'est probablement le bon.

4. La réponse stable : Le Jury de 10 Juges

Les intelligences artificielles sont parfois capricieuses (stochastiques). Si vous leur posez la même question deux fois, elles peuvent donner deux réponses légèrement différentes ou citer deux livres différents.

Pour éviter cela, KohakuRAG ne fait pas confiance à un seul juge. Il réunit un jury de 10 juges (il lance la recherche 10 fois).

Le vote : Il regarde les 10 réponses. Si 7 juges disent "La réponse est 500 kWh" et 3 disent "Je ne sais pas", il prend la réponse de 500 kWh.
Le filtre "Je ne sais pas" : Si un juge dit "Je ne sais pas" parce qu'il n'a pas trouvé l'info, mais que les autres l'ont trouvée, le système ignore le juge timide. Cela évite que le système renonce trop facilement.
Le mécanisme de "Re-try" : Si le jury dit tous "Je ne sais pas", le système ne panique pas. Il se dit : "Peut-être que je n'ai pas cherché assez loin". Il élargit sa recherche et réessaie. C'est comme chercher une aiguille dans une botte de foin : si on ne la trouve pas, on fouille un peu plus profondément.

5. Le résultat : Pourquoi ils ont gagné ?

Le défi WattBot 2025 était très difficile : il fallait des réponses numériques précises (à 0,1 % près) et des citations exactes.

La victoire : KohakuRAG a gagné à la fois sur le classement public et le classement privé (caché). C'est la seule équipe à avoir gardé la première place des deux côtés.
La leçon : Ils ont prouvé que la structure (garder l'ordre du document) et la répétition (faire plusieurs essais et voter) sont plus importantes que d'essayer de combiner des techniques de recherche compliquées.

En résumé

KohakuRAG est comme un détective très organisé qui ne coupe pas les preuves en morceaux, qui pose la question à plusieurs experts pour être sûr de ne rien manquer, et qui fait voter un jury pour éviter les erreurs d'humeur. Grâce à cette méthode, il a réussi à naviguer dans une montagne de documents techniques pour donner la réponse exacte, avec la preuve à l'appui, chaque fois.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les systèmes de Génération Augmentée par Récupération (RAG) actuels rencontrent des difficultés majeures lorsqu'ils doivent répondre à des questions techniques exigeant une précision extrême et des citations exactes. Le papier identifie trois limitations fondamentales des approches RAG standards (notamment dans le contexte du défi WattBot 2025, qui implique 32 documents techniques sur la consommation énergétique de l'IA) :

Perte de structure documentaire : Le "hachage plat" (flat chunking) standard brise les limites sémantiques naturelles (sections, paragraphes), rendant le suivi des citations imprécis.
Décalage lexical (Vocabulary Mismatch) : Une formulation de requête unique échoue souvent à récupérer les passages pertinents si le vocabulaire de l'utilisateur diffère de celui du document (ex: "PUE" vs "Power Usage Effectiveness").
Instabilité des réponses : L'inférence unique d'un LLM produit des résultats stochastiques (variables en contenu et en citations) et conduit souvent à des abstentions inutiles (le modèle refuse de répondre même lorsque les preuves sont présentes mais difficiles à localiser).

Le défi WattBot 2025 impose des contraintes sévères : une tolérance numérique de ±0,1 %, une attribution de source exacte, et une capacité à s'abstenir correctement lorsque les preuves sont insuffisantes.

2. Méthodologie : KohakuRAG

KohakuRAG propose un cadre RAG hiérarchique conçu pour adresser ces trois défis via une architecture en trois piliers principaux :

A. Indexation Hiérarchique des Documents

Au lieu de découper les documents en blocs fixes, KohakuRAG les représente sous forme d'arbres à quatre niveaux :

Structure : Document $\rightarrow$ Section $\rightarrow$ Paragraphe $\rightarrow$ Phrase.
Encodage Ascendant (Bottom-up) : Les embeddings sont calculés pour les phrases (feuilles), puis agrégés vers les niveaux supérieurs (paragraphes, sections) via une moyenne pondérée par la longueur (nombre de tokens).
Avantage : Cela préserve la structure sémantique et permet un suivi de provenance précis à chaque granularité. Les nœuds récupérés incluent automatiquement leur contexte hiérarchique (parent et frères).

B. Récupération Multi-Requêtes avec Réordonnancement

Pour combler le fossé lexical :

Planificateur de Requêtes (LLM) : Transforme une question unique en $n$ requêtes sémantiquement liées (reformulations, expansion d'acronymes, décomposition).
Récupération Densité : Chaque requête récupère les $k$ meilleurs nœuds.
Réordonnancement Inter-Requêtes (Cross-Query Reranking) : Les résultats sont fusionnés. Un nœud récupéré par plusieurs requêtes reçoit un score plus élevé (signal de consensus). Trois stratégies sont testées : fréquence, score cumulé, ou une combinaison des deux.
Optionnel : Une augmentation hybride avec BM25 est possible pour les correspondances lexicales exactes, bien que l'approche dense hiérarchique s'avère suffisante dans la plupart des cas.

C. Inférence d'Ensemble avec Filtrage des Abstentions

Pour stabiliser les réponses et gérer l'incertitude :

Inférence Multiple : Le système exécute $m$ inférences indépendantes avec une température $>0$ .
Mécanisme de Réessai (Retry) : Si le modèle indique une abstention (manque de preuves), le système augmente le nombre de contextes récupérés ( $k$ ) et réessaie.
Vote Majoritaire avec Filtrage : Les réponses sont agrégées par vote majoritaire. Une innovation clé est le filtrage des réponses vides (blank filtering) : si au moins une exécution fournit une réponse, les abstentions sont ignorées lors du vote pour éviter qu'une exécution "conservatrice" ne domine.

3. Contributions Clés

Schéma d'indexation hiérarchique : Une représentation en arbre avec agrégation d'embeddings ascendante qui préserve la structure et permet un suivi de citation précis.
Planification de requêtes pilotée par LLM : Une méthode de récupération multi-requêtes couplée à un réordonnancement par consensus, améliorant la couverture sans nécessiter de réécriture complexe de requêtes.
Mécanisme d'inférence d'ensemble robuste : Une stratégie de vote qui filtre intelligemment les abstentions, adressant le mode d'erreur dominant (l'abstention inutile).
Validation empirique : Démonstration que la récupération dense hiérarchique seule est compétitive, rendant l'ajout de BM25 marginal (+3,1 points de pourcentage), et que l'ordre des prompts (contexte avant question) a un impact plus significatif (+80 %) que les stratégies de récupération hybrides.

4. Résultats Expérimentaux

Les évaluations ont été menées sur le défi WattBot 2025 (32 documents, ~500k tokens, ~300 questions techniques).

Performance Globale : KohakuRAG a obtenu la première place sur les classements publics et privés avec un score final de 0,861.
Stabilité : Kohaku-Lab était la seule équipe à maintenir la première place sur les deux partitions (publique et privée), démontrant une excellente généralisation.
Analyse d'Ablation (Impact des composants) :
- Ordre du Prompt : Placer le contexte avant la question a amélioré les performances de +80 % (relative).
- Mécanisme de Réessai : A apporté +69 % d'amélioration relative à faible profondeur de récupération ( $k=4$ ).
- Vote d'Ensemble (avec filtrage) : A ajouté +1,2 point de pourcentage pour $n=9$ .
- Récupération : La récupération dense hiérarchique seule est très performante ; l'ajout de BM25 n'apporte que +3,1 pp.
Analyse des Erreurs :
- 75,2 % des prédictions étaient correctes.
- Les erreurs dominantes étaient l'abstention inutile (26,8 %), le mauvais ciblage des références (23,6 %) et la sélection de valeurs incorrectes (22,2 %).
- Le mécanisme de réessai a directement résolu une grande partie des abstentions inutiles.

5. Signification et Implications

Ce travail démontre que pour les tâches de RAG exigeant une haute précision et des citations exactes :

La structure compte plus que la complexité de la récupération : Préserver la hiérarchie naturelle du document (arbres) est plus efficace que le simple hachage plat ou l'ajout de méthodes de récupération hybrides complexes.
La robustesse par l'ensemble : L'utilisation d'ensembles (ensembles) avec des stratégies de vote intelligentes (filtrage des abstentions) est cruciale pour surmonter la stochasticité des LLM et éviter les erreurs de type "hallucination" ou "refus injustifié".
Généralisation : La capacité de KohakuRAG à maintenir sa performance entre les partitions publiques et privées suggère que les méthodes basées sur la diversité (multi-requêtes, inférence multiple) sont moins sujettes au surapprentissage (overfitting) aux spécificités d'un sous-ensemble de données de test.

Le code source est disponible en open-source, permettant la reproduction et l'adaptation de ce cadre pour d'autres domaines nécessitant une compréhension documentaire fine.