Learning to Reason without External Rewards

Each language version is independently generated for its own context, not a direct translation.

Le Titre : Apprendre à raisonner sans professeur

Imaginez que vous apprenez à jouer au piano.

La méthode actuelle (RLVR) : C'est comme avoir un professeur qui vous écoute et vous dit : "Bravo, c'est juste !" ou "Non, c'est faux, recommence". Le problème, c'est que ce professeur coûte cher, il faut en avoir un pour chaque type de musique (maths, code, histoire), et parfois, pour des sujets très complexes, personne ne sait encore si la réponse est juste ou non.
La nouvelle méthode (INTUITOR) : C'est comme si vous appreniez seul, en vous écoutant jouer. Vous ne cherchez pas à savoir si la note est "juste" par rapport à une partition, mais vous cherchez à sentir votre propre confiance. Si vous jouez une phrase avec assurance, vous vous dites : "Ça sonne bien, je vais continuer comme ça". Si vous hésitez et que ça sonne faux, vous vous dites : "Non, je dois essayer autre chose".

Ce papier, intitulé "Learning to Reason Without External Rewards" (Apprendre à raisonner sans récompenses externes), propose une méthode appelée INTUITOR. Elle permet aux intelligences artificielles (les grands modèles de langage) de s'améliorer toutes seules, sans avoir besoin d'un humain ou d'un test de validation pour leur dire si elles ont raison.

L'Analogie du "Sentiment de Certitude"

Pour comprendre comment ça marche, prenons l'image d'un étudiant qui révise pour un examen.

Le problème des méthodes actuelles :
Aujourd'hui, pour entraîner une IA à résoudre des problèmes de maths, on lui donne la réponse exacte (la "correction"). Si elle trouve la bonne réponse, elle reçoit un point. Si elle se trompe, elle perd un point. C'est efficace, mais cela demande de préparer des milliers de corrections manuelles. C'est comme si l'étudiant ne pouvait apprendre que s'il avait le corrigé sous les yeux.
La solution INTUITOR :
Les chercheurs se sont demandé : "Et si l'IA apprenait à se fier à son propre 'feeling' ?"
Ils ont découvert que les IA ont un "sixième sens" appelé la certitude interne (ou self-certainty).
- Quand une IA génère une réponse qu'elle trouve logique et cohérente, elle le fait avec une grande "confiance" (elle choisit les mots les plus probables, sans hésitation).
- Quand elle est perdue, elle hésite, elle tourne en rond, elle est moins "sûre d'elle".
L'idée géniale : Au lieu de demander à l'IA "Est-ce que ta réponse est correcte ?", on lui demande "Est-ce que tu es sûre de ta réponse ?".
Si l'IA produit une réponse avec une haute certitude, elle se récompense elle-même. Si elle produit une réponse hésitante, elle ne se récompense pas.

Comment ça marche en pratique ? (Le jeu de l'exploration)

Imaginez que l'IA doit résoudre un problème de mathématiques.

L'essai : Au lieu de donner une seule réponse, l'IA imagine 7 ou 14 solutions différentes (comme si elle essayait 14 chemins différents dans une forêt).
L'auto-évaluation : Pour chaque chemin, elle se demande : "Est-ce que ce chemin me semble solide ?". Elle attribue un score de confiance à chaque tentative.
L'apprentissage : Elle regarde les 7 chemins. Celui qui a le score de confiance le plus élevé devient son "modèle" pour la prochaine fois. Elle dit : "Ah, le chemin numéro 3 me semblait le plus logique, je vais apprendre à emprunter ce genre de chemin plus souvent".

C'est un peu comme un explorateur qui, perdu dans une forêt, essaie plusieurs directions. Il ne sait pas où est la sortie, mais il remarque que le sentier de gauche lui semble plus "naturel" et moins embrouillé que celui de droite. Il décide donc de suivre le sentier de gauche. Avec le temps, il finit par trouver la sortie, même sans carte.

Les Résultats Surprenants

Les chercheurs ont testé cette méthode sur des modèles d'IA (comme Qwen) avec des résultats étonnants :

En Mathématiques : L'IA apprend aussi bien qu'avec un professeur humain, même sans avoir les réponses correctes. Elle arrive à résoudre des problèmes complexes.
En Programmation (Code) : C'est là que c'est magique. L'IA a été entraînée uniquement sur des problèmes de maths, mais ensuite, elle a été capable de générer du code informatique beaucoup mieux que les modèles entraînés avec des réponses correctes.
- Pourquoi ? Parce qu'en apprenant à être "sûre d'elle" en maths, elle a appris à structurer sa pensée de manière logique. Cette logique est transférable. C'est comme un musicien qui apprend à jouer du violon et qui, du coup, devient meilleur pour composer de la musique électronique, même s'il n'a jamais touché un synthétiseur.
La Raison "Humaine" : Les IA entraînées avec cette méthode commencent à faire des choses que les humains adorent : elles expliquent leur raisonnement avant de donner la réponse. Elles ne se contentent pas de donner le résultat, elles disent : "Voici comment j'y suis arrivé". C'est ce qu'on appelle le "raisonnement structuré".

Pourquoi est-ce important ?

Aujourd'hui, pour créer des IA intelligentes, nous devons dépenser des fortunes pour annoter des données et créer des tests de validation. C'est comme construire une usine pour fabriquer des réponses.

Avec INTUITOR, nous ouvrons la porte à une IA autonome.

Plus besoin de professeur pour chaque nouvelle tâche.
Plus besoin de savoir si la réponse est "vraie" pour apprendre.
L'IA peut s'améliorer elle-même en n'importe quel domaine, même ceux où personne ne connaît encore la réponse (comme la recherche scientifique de pointe).

En Résumé

Ce papier nous dit que les IA ont en elles une boussole interne : leur propre confiance. En apprenant à écouter cette boussole plutôt qu'à attendre les ordres d'un maître externe, elles peuvent devenir plus intelligentes, plus créatives et capables de résoudre des problèmes que nous n'avons même pas encore définis. C'est un pas de géant vers des machines qui apprennent à apprendre, seules.

Each language version is independently generated for its own context, not a direct translation.

Titre : Learning to Reason Without External Rewards (Apprendre à raisonner sans récompenses externes)

Auteurs : Xuandong Zhao, Zhewei Kang, Aosong Feng, Sergey Levine, Dawn Song (UC Berkeley, Yale University).

1. Problématique et Contexte

L'apprentissage par renforcement (RL) est devenu crucial pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Deux paradigmes dominants existent actuellement :

RLHF (Reinforcement Learning from Human Feedback) : Nécessite une annotation humaine massive, coûteuse et potentiellement biaisée.
RLVR (Reinforcement Learning with Verifiable Rewards) : Utilise des vérificateurs automatiques (ex: correspondance exacte de la réponse en mathématiques, exécution de tests de code). Bien que plus efficace, cette méthode est limitée aux domaines où des solutions de référence ("gold solutions") ou des suites de tests exhaustives existent.

Le problème central : Comment permettre aux LLMs d'améliorer leurs capacités de raisonnement dans des domaines ouverts ou complexes où aucune vérification externe (réponses correctes, tests d'exécution) n'est disponible, sans dépendre de l'annotation humaine ?

2. Méthodologie : RLIF et INTUITOR

Les auteurs proposent un nouveau paradigme appelé RLIF (Reinforcement Learning from Internal Feedback) et une méthode spécifique nommée INTUITOR.

A. Le Paradigme RLIF

Contrairement au RLHF ou au RLVR, le RLIF ne repose sur aucune supervision externe. Le modèle optimise une fonction de récompense intrinsèque dérivée de son propre état interne ou de ses calculs. L'objectif est de maximiser :
$\max_{\pi_\theta} \mathbb{E}_{o \sim \pi_\theta(q)} [u(q, o) - \beta \text{KL}[\pi_\theta(o|q) \parallel \pi_{\text{ref}}(o|q)]]$
Où $u(q, o)$ est un signal intrinsèque (et non une vérification externe).

B. L'Algorithme INTUITOR

INTUITOR utilise la certitude de soi (self-certainty) du modèle comme unique signal de récompense.

Concept : Les LLMs tendent à avoir une confiance plus faible face à des tâches difficiles ou inconnues. En récompensant les trajectoires où le modèle est plus confiant, on l'incite à affiner son raisonnement.
Mesure de la certitude : Les auteurs utilisent la métrique Self-certainty (définie par Kang et al., 2025), qui correspond à la divergence de Kullback-Leibler (KL) moyenne entre la distribution uniforme sur le vocabulaire et la distribution de prédiction du modèle pour chaque token.
$\text{Self-certainty}(o|q) := \frac{1}{|o|} \sum_{i=1}^{|o|} \text{KL}(U \parallel p_{\pi_\theta}(\cdot|q, o_{<i}))$
Une valeur plus élevée indique une plus grande confiance. Contrairement à l'entropie (qui pénalise la diversité), la certitude de soi est "mode-seeking" (elle favorise les réponses cohérentes et convaincantes).
Optimisation : INTUITOR remplace les récompenses vérifiables dans l'algorithme GRPO (Group Relative Policy Optimization) par les scores de certitude de soi.
- Pour une requête $q$ , le modèle génère un groupe de $G$ réponses.
- Chaque réponse est notée par son score de certitude de soi.
- L'avantage ( $\hat{A}_{i,t}$ ) est calculé en normalisant ces scores au sein du groupe (score de la réponse moins la moyenne du groupe, divisé par l'écart-type).
- Le modèle est mis à jour pour favoriser les réponses où il est plus confiant.

3. Contributions Clés

Introduction du RLIF : Un nouveau paradigme permettant l'apprentissage du raisonnement via des signaux intrinsèques, sans données étiquetées ni vérificateurs externes.
Développement d'INTUITOR : Une méthode simple et efficace utilisant la certitude de soi comme récompense unique, intégrée dans le cadre GRPO.
Généralisation et Émergence : Démonstration que l'optimisation intrinsèque permet non seulement d'égaler les performances supervisées sur les tâches d'entraînement, mais aussi de mieux généraliser à des tâches hors domaine (code, instructions) et d'encourager l'émergence de chaînes de raisonnement structurées (long-form reasoning).

4. Résultats Expérimentaux

Les expériences ont été menées sur des modèles Qwen2.5 (1.5B, 3B), Llama et OLMo, entraînés sur le dataset MATH (7 500 problèmes) sans utiliser les réponses correctes pour l'entraînement.

Performance In-Domain (Mathématiques) :
- INTUITOR atteint des performances comparables à GRPO (qui utilise les réponses dorées) sur les benchmarks GSM8K et MATH500.
- Sur le modèle Qwen2.5-3B, INTUITOR obtient 0.792 sur GSM8K contre 0.826 pour GRPO, et 0.612 sur MATH500 contre 0.636 pour GRPO.
Généralisation Hors-Domain (Code et Instructions) :
- C'est ici que INTUITOR surpasse GRPO. Entraîné uniquement sur des mathématiques, le modèle INTUITOR montre une amélioration significative sur des tâches de génération de code (LiveCodeBench, CRUXEval-O).
- Exemple : Sur LiveCodeBench, l'amélioration relative est de 65% pour INTUITOR contre 0% pour GRPO.
- Sur CRUXEval-O, l'amélioration est de 76% pour INTUITOR contre 44% pour GRPO.
Qualité du Raisonnement :
- INTUITOR favorise l'émergence de raisonnements longs et structurés (pré-raisonnement avant la réponse finale), même lorsque le prompt exige une réponse directe.
- Le modèle apprend à distinguer ses propres réponses correctes et incorrectes (meilleure séparation des scores de certitude pour les réponses justes vs fausses) et évite les boucles de répétition (hallucinations) qui affectent souvent les modèles de base.
Robustesse :
- L'utilisation d'un annotateur de certitude de soi en ligne (mis à jour avec la politique courante) empêche l'exploitation de la récompense (reward hacking), un problème fréquent avec les récompenses statiques. Le modèle ne peut pas "tricher" en augmentant artificiellement sa certitude sans améliorer la qualité réelle.

5. Signification et Impact

Autonomie des Systèmes IA : INTUITOR ouvre la voie à des agents IA capables d'apprentissage autonome dans des domaines où les humains ne peuvent pas fournir de feedback direct ou où les solutions de référence sont inconnues (ex: recherche scientifique, créativité complexe).
Scalabilité : La méthode élimine le goulot d'étranglement de l'annotation humaine et de la création de vérificateurs de domaine, rendant l'amélioration des LLMs potentiellement illimitée et scalable.
Potentiel Latent : Les résultats suggèrent que les modèles pré-entraînés possèdent des priors comportementaux riches et des capacités de raisonnement latentes qui peuvent être débloquées par l'optimisation de signaux internes, sans besoin de supervision externe explicite.

En conclusion, INTUITOR démontre que l'auto-réflexion et la confiance interne peuvent servir de moteur puissant pour l'apprentissage par renforcement, offrant une alternative viable et plus générale au RLVR pour les systèmes d'IA futurs. Le code est disponible publiquement sur GitHub.