RADAR: Reasoning-Ability and Difficulty-Aware Routing for Reasoning LLMs

Le papier présente RADAR, un cadre de routage léger et interprétable qui optimise le compromis performance-coût des modèles de raisonnement en adaptant dynamiquement les requêtes aux paires modèle-budgétisation les plus appropriées en fonction de la difficulté de la requête et des capacités du modèle, inspiré par la psychométrie.

Nigel Fernandez, Branislav Kveton, Ryan A. Rossi, Andrew S. Lan, Zichao Wang

Publié 2026-03-12
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez une bibliothèque de cuisiniers (les modèles d'intelligence artificielle) de tous niveaux : du petit apprenti rapide et peu coûteux, au chef étoilé lent mais génial, et à tous les niveaux intermédiaires.

Le problème ? Si vous commandez un sandwich simple, engager le chef étoilé pour qu'il passe deux heures à réfléchir est un gaspillage d'argent et de temps. Mais si vous commandez un plat complexe de 100 ingrédients, l'apprenti va échouer.

C'est exactement le défi que résout RADAR, présenté dans ce papier de recherche. Voici comment cela fonctionne, expliqué simplement :

1. Le Problème : "Trop de réflexion" coûte cher

Aujourd'hui, les modèles d'IA "raisonneurs" (comme les nouveaux modèles de mathématiques ou de code) peuvent passer beaucoup de temps à réfléchir avant de répondre. Plus ils réfléchissent longtemps (ce qu'on appelle le "budget de raisonnement"), plus ils sont précis, mais plus cela coûte cher et prend de temps.

Les développeurs se demandent souvent : "Dois-je utiliser le modèle le plus puissant pour chaque question ?"
La réponse est non. Pour une question facile, un petit modèle suffit. Pour une question difficile, il faut le grand modèle. Mais comment savoir lequel choisir pour chaque question sans essayer tous les modèles (ce qui serait trop lent) ?

2. La Solution : RADAR, le "Chef de Cuisine Intelligent"

RADAR est un système de routage (un guide) qui décide instantanément quel cuisinier (modèle) et quelle quantité de temps de réflexion (budget) utiliser pour chaque question.

Il utilise deux idées principales :

A. La "Psychologie des Examens" (IRT)

Imaginez un professeur qui a noté des milliers d'examens. Il sait exactement :

  • La difficulté de la question : "Cette question de maths est très dure."
  • La capacité du modèle : "Le modèle A est un génie en géométrie mais nul en algèbre."

RADAR utilise une vieille technique de la psychologie scolaire appelée Théorie de la Réponse à l'Item (IRT). Au lieu de deviner, il apprend à estimer :

  1. La difficulté de la nouvelle question qui arrive.
  2. La capacité de chaque modèle à différents niveaux de temps de réflexion.

C'est comme si RADAR avait une carte mentale qui dit : "Pour cette question difficile, il faut le Chef Étoilé avec 10 minutes de réflexion. Pour cette question facile, l'Apprenti avec 10 secondes suffit."

B. L'Optimisation "Gagnant-Gagnant" (Pareto)

RADAR ne cherche pas seulement la meilleure réponse, mais le meilleur compromis. Il essaie de trouver le point idéal où vous avez le maximum de qualité pour le minimum de coût.

  • Si vous voulez économiser de l'argent, RADAR enverra la question à un modèle plus petit.
  • Si vous voulez la perfection absolue, il enverra la question au modèle le plus puissant.
    Il trouve le "sweet spot" (le juste milieu) automatiquement.

3. Comment RADAR apprend-il ? (L'Analogie du Test Adaptatif)

Supposons qu'un nouveau modèle (un nouveau cuisinier) arrive dans la cuisine. Comment savoir s'il est bon sans le faire cuisiner 10 000 plats ?
RADAR utilise une technique inspirée des tests adaptatifs (comme les tests de QI sur ordinateur).

  • Il pose d'abord une question très facile. Si le modèle échoue, il sait qu'il est faible.
  • Si le modèle réussit, il pose une question plus difficile.
  • En quelques questions seulement (très peu de temps et d'argent), RADAR peut estimer avec précision le niveau du nouveau modèle et l'ajouter à sa liste de choix.

4. Les Résultats Magiques

Les chercheurs ont testé RADAR sur 8 défis difficiles (mathématiques, sciences, droit, etc.) :

  • Économie massive : RADAR peut obtenir 90 % de la performance du modèle le plus cher (OpenAI o4-mini) en ne dépensant que 1,3 % du coût. C'est comme obtenir un dîner de 100 € pour le prix d'un café, sans sacrifier la qualité.
  • Généralisation : Même si RADAR est entraîné sur des questions courtes, il fonctionne très bien sur des documents très longs et complexes (comme des articles de Wikipédia entiers) qu'il n'a jamais vus.
  • Vitesse : La décision de RADAR prend moins de 7 millisecondes. C'est plus rapide que le clignement d'un œil.

En Résumé

RADAR est comme un système de navigation GPS intelligent pour l'IA.
Au lieu de prendre toujours la même route (le même modèle), il analyse la destination (la question), le trafic (la difficulté) et votre budget (le coût), puis choisit le véhicule et l'itinéraire parfaits pour vous amener à destination rapidement et économiquement.

C'est une méthode simple, rapide et interprétable qui permet d'utiliser l'IA de manière beaucoup plus intelligente, en évitant de gaspiller de l'argent sur des tâches faciles et en réservant la puissance brute pour les vrais défis.