Each language version is independently generated for its own context, not a direct translation.
Voici une explication de la recherche KohakuRAG en français, imagée et simplifiée pour tout le monde.
Imaginez que vous avez une bibliothèque gigantesque remplie de 32 livres techniques très denses sur la consommation d'énergie des intelligences artificielles. On vous pose une question précise, par exemple : "Combien d'eau faut-il pour entraîner un modèle spécifique ?". Vous devez trouver la réponse exacte, citer le livre où vous l'avez trouvée, et ne pas inventer de réponse si l'information n'est pas là.
C'est là que le système KohakuRAG entre en jeu. C'est un "super-chercheur" conçu pour gagner le défi WattBot 2025, et il a remporté la première place. Voici comment il fonctionne, comparé à un détective très méthodique.
1. Le problème des méthodes classiques : Le "Hachoir à viande"
Habituellement, les systèmes qui lisent des documents (appelés RAG) fonctionnent comme un hachoir à viande. Ils prennent un document, le coupent en petits morceaux de taille égale (des "chunks") sans se soucier de la structure, et les jettent dans un tas.
- Le problème : Si vous cherchez une information précise, vous risquez de trouver un morceau de phrase coupé en deux, ou de perdre le contexte (le chapitre, le paragraphe). C'est comme essayer de comprendre une histoire en lisant des phrases décousues prises au hasard dans un livre.
2. La solution KohakuRAG : L'Arbre de Savoir
Au lieu de hacher le document, KohakuRAG le traite comme un arbre généalogique ou un arbre de décision.
- La structure : Il garde l'ordre naturel : le Livre (Document) → le Chapitre (Section) → le Paragraphe → la Phrase.
- L'astuce : Il lit le document de la base vers le sommet (des phrases vers les chapitres). Il résume chaque phrase pour créer un "résumé" du paragraphe, puis un résumé du chapitre.
- L'analogie : Imaginez que vous cherchez un mot dans un dictionnaire. Au lieu de chercher dans chaque lettre aléatoirement, vous allez directement à la bonne section, puis au bon mot. KohakuRAG sait exactement où chercher et peut vous dire : "La réponse est dans le chapitre 3, paragraphe 2, phrase 4", ce qui permet de citer la source avec une précision chirurgicale.
3. La recherche intelligente : Le Chef d'Orchestre
Quand on pose une question, les humains utilisent souvent des mots différents de ceux écrits dans les livres techniques. Si vous demandez "PUE" (un terme technique) mais que le livre parle de "efficacité énergétique", un chercheur classique rate la réponse.
KohakuRAG utilise un Chef d'Orchestre (une IA) qui fait ceci :
- Le Planificateur : Avant de chercher, il demande à l'IA de réécrire votre question de 4 ou 5 façons différentes. "PUE", "Efficacité de l'énergie", "Ratio de consommation", etc.
- Le Vote de Consensus : Il lance toutes ces questions en même temps. Si une information apparaît dans les résultats de plusieurs questions différentes, elle reçoit un "vote" et monte en haut de la liste. C'est comme si vous demandiez à 5 experts différents la même chose : si 3 d'entre eux parlent du même livre, c'est probablement le bon.
4. La réponse stable : Le Jury de 10 Juges
Les intelligences artificielles sont parfois capricieuses (stochastiques). Si vous leur posez la même question deux fois, elles peuvent donner deux réponses légèrement différentes ou citer deux livres différents.
Pour éviter cela, KohakuRAG ne fait pas confiance à un seul juge. Il réunit un jury de 10 juges (il lance la recherche 10 fois).
- Le vote : Il regarde les 10 réponses. Si 7 juges disent "La réponse est 500 kWh" et 3 disent "Je ne sais pas", il prend la réponse de 500 kWh.
- Le filtre "Je ne sais pas" : Si un juge dit "Je ne sais pas" parce qu'il n'a pas trouvé l'info, mais que les autres l'ont trouvée, le système ignore le juge timide. Cela évite que le système renonce trop facilement.
- Le mécanisme de "Re-try" : Si le jury dit tous "Je ne sais pas", le système ne panique pas. Il se dit : "Peut-être que je n'ai pas cherché assez loin". Il élargit sa recherche et réessaie. C'est comme chercher une aiguille dans une botte de foin : si on ne la trouve pas, on fouille un peu plus profondément.
5. Le résultat : Pourquoi ils ont gagné ?
Le défi WattBot 2025 était très difficile : il fallait des réponses numériques précises (à 0,1 % près) et des citations exactes.
- La victoire : KohakuRAG a gagné à la fois sur le classement public et le classement privé (caché). C'est la seule équipe à avoir gardé la première place des deux côtés.
- La leçon : Ils ont prouvé que la structure (garder l'ordre du document) et la répétition (faire plusieurs essais et voter) sont plus importantes que d'essayer de combiner des techniques de recherche compliquées.
En résumé
KohakuRAG est comme un détective très organisé qui ne coupe pas les preuves en morceaux, qui pose la question à plusieurs experts pour être sûr de ne rien manquer, et qui fait voter un jury pour éviter les erreurs d'humeur. Grâce à cette méthode, il a réussi à naviguer dans une montagne de documents techniques pour donner la réponse exacte, avec la preuve à l'appui, chaque fois.