Generalization of RLVR Using Causal Reasoning as a Testbed

Each language version is independently generated for its own context, not a direct translation.

🎓 Le Grand Défi : Apprendre à "Penser" plutôt qu'à "Mémoriser"

Imaginez que vous avez deux élèves très intelligents, mais qui ont des méthodes d'apprentissage très différentes. Le but de l'étude est de voir qui deviendra le meilleur détective capable de résoudre des énigmes complexes, même celles qu'il n'a jamais vues auparavant.

Ces énigmes sont basées sur la causalité (comprendre ce qui cause quoi). Par exemple : "Si j'arrête de fumer, est-ce que mon risque de maladie diminue ?" ou "Si j'avais pris un autre chemin ce matin, aurais-je raté le bus ?".

Les deux méthodes d'apprentissage testées sont :

Le SFT (L'Élève "Par Cœur") : On lui donne la question et la réponse parfaite, et il apprend à répéter ce qu'on lui a montré. C'est comme apprendre par cœur les solutions d'un manuel.
Le RLVR (L'Élève "Entraîné par l'Erreur") : On lui donne le problème, il essaie de le résoudre tout seul, et un professeur (un algorithme) lui dit immédiatement "Bravo !" s'il a la bonne réponse ou "Non, recommence" s'il se trompe. Il apprend par essai-erreur, comme un enfant qui apprend à marcher en tombant et se relevant.

🔍 L'Expérience : Le Laboratoire des Graphes

Pour tester ces élèves, les chercheurs ont créé un terrain de jeu spécial : des graphes causaux.
Imaginez un réseau de tuyaux avec des vannes (les variables). Si vous ouvrez une vanne (une intervention), l'eau coule différemment dans tout le système.

Niveau 1 (Association) : "Si je vois de l'eau ici, où est-elle passée ?" (Observation simple).
Niveau 2 (Intervention) : "Si je force cette vanne à être ouverte, où va l'eau ?" (Action directe).
Niveau 3 (Contrefactuel) : "Si, dans un monde parallèle où j'avais fermé cette vanne, l'eau était-elle passée ici ?" (Le plus difficile : imaginer un monde alternatif).

Les chercheurs ont utilisé des modèles de tailles différentes (du petit "3B" au géant "32B") pour voir si la taille comptait.

🏆 Les Résultats Surprenants

Voici ce qu'ils ont découvert, traduit en langage courant :

1. La taille compte énormément (La règle des "Petits vs Géants")

Les petits modèles (3B) : C'est comme donner un problème de calcul avancé à un enfant de 5 ans. Même avec l'entraînement par essai-erreur (RLVR), ils ne comprennent pas les bases. Ils finissent par abandonner la logique et devinent la réponse au hasard. Ils n'ont pas assez de "matière grise" pour commencer à raisonner.
Les grands modèles (7B et 32B) : Là, c'est une autre histoire. Avec l'entraînement par essai-erreur (RLVR), ces modèles deviennent de véritables détectives. Ils apprennent à construire leur propre raisonnement étape par étape, au lieu de simplement copier la réponse.

2. Le super-pouvoir du RLVR : La "Stratégie de Marginalisation"

C'est le cœur de la découverte.

L'élève SFT (Par cœur) : Il a tendance à essayer de tout calculer d'un coup, comme si on lui demandait de résoudre une équation géante en une seconde. Il se perd souvent dans les détails et fait des erreurs de calcul.
L'élève RLVR (Entraîné) : Il apprend une stratégie intelligente appelée "marginalisation incrémentale".
- L'analogie : Imaginez que vous devez nettoyer une maison immense.
  - L'élève SFT essaie de tout nettoyer d'un coup (il s'épuise et fait des erreurs).
  - L'élève RLVR apprend à nettoyer pièce par pièce, en commençant par les coins, puis en avançant. Il ne perd jamais le fil.
- Résultat : Sur les énigmes complexes, l'élève RLVR est beaucoup plus précis et moins sujet aux erreurs de logique.

3. Le secret : Il faut savoir "commencer"

Le RLVR ne fonctionne pas par magie. Il a besoin que l'élève ait déjà un minimum de compétences avant de commencer l'entraînement.

Si le modèle de base est trop nul (comme le modèle 3B), le RLVR ne peut pas l'aider à "sauter" le fossé.
Mais si le modèle a déjà un peu de bon sens (comme les modèles 7B+), le RLVR agit comme un catalyseur. Il transforme une compréhension vague en une compétence de raisonnement solide et fiable.

💡 La Conclusion pour Tout Le Monde

Cette étude nous dit deux choses importantes pour l'avenir de l'Intelligence Artificielle :

L'entraînement par essai-erreur (RLVR) est puissant, mais seulement si l'IA a déjà un cerveau assez développé pour comprendre les règles du jeu. C'est comme essayer d'enseigner le golf à quelqu'un qui ne sait pas encore marcher : ça ne marchera pas. Mais si la personne sait marcher, le golf l'amènera à un niveau professionnel.
La taille du modèle est cruciale. Pour que l'IA apprenne à raisonner (et pas juste à réciter), il faut des modèles assez gros pour supporter la charge mentale de construire des chaînes de logique complexes.

En résumé : Pour créer des IA qui raisonnent vraiment, il ne suffit pas de leur donner des exercices difficiles. Il faut leur donner un cerveau assez grand pour commencer, et ensuite les laisser s'entraîner par la pratique, en leur donnant des feedbacks immédiats sur leurs erreurs. C'est ainsi qu'elles apprennent à devenir de véritables experts, capables de résoudre des problèmes qu'elles n'ont jamais vus.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Le Reinforcement Learning with Verifiable Rewards (RLVR) est devenu un paradigme prometteur pour l'entraînement postérieur (post-training) des grands modèles de langage (LLM) sur des tâches de raisonnement complexes, tels que les mathématiques ou la preuve de théorèmes. Cependant, les conditions sous lesquelles le RLVR permet une généralisation robuste au-delà des données d'entraînement restent mal comprises.

La plupart des travaux précédents se sont concentrés sur des tâches textuelles ou visuelles. Cet article propose d'étudier la généralisation du RLVR dans un domaine plus structuré et formel : l'inférence probabiliste sur des modèles graphiques causaux. Ce domaine offre un cadre idéal pour tester la généralisation selon deux axes :

Le niveau de l'inférence (l'échelle causale de Pearl) : Associatif, Interventionnel et Contrefactuel.
La complexité structurelle : Mesurée par la taille du sous-graphe pertinent nécessaire pour répondre à la requête.

L'objectif est de déterminer si le RLVR améliore la capacité des modèles à généraliser vers des requêtes plus complexes ou de niveaux différents par rapport à l'entraînement, et comment cela se compare au Supervised Fine-Tuning (SFT).

2. Méthodologie

A. Construction du Dataset (RLCausal)

Les auteurs ont créé un dataset synthétique nommé RLCausal basé sur des Modèles Causaux Structurels (SCM) avec des variables binaires.

Génération : Ils génèrent des graphes acycliques dirigés (DAG) aléatoires de 10 nœuds avec des tables de probabilité conditionnelle (CPT) spécifiées.
Types de requêtes :
- Associatif : $P(V_i | V_j = v_j)$ (Observation).
- Interventionnel : $P(V_i | do(V_j = c))$ (Intervention).
- Contrefactuel : $P(V_i(V_j=c) | V_k = v_k)$ (Hypothèse dans un monde alternatif).
Difficulté : La difficulté est stratifiée par le niveau de la requête et la taille du sous-graphe pertinent ( $|V_{rel}|$ ), c'est-à-dire le nombre de nœuds nécessaires pour calculer la réponse via élimination de variables.

B. Protocole d'Entraînement

Les auteurs ont comparé deux approches sur la famille de modèles Qwen-2.5-Instruct (tailles 3B, 7B et 32B) :

SFT (Supervised Fine-Tuning) : Le modèle apprend à prédire directement la distribution de probabilité de référence ( $p^\star$ ) calculée par un solveur exact (élimination de variables).
RLVR (Reinforcement Learning with Verifiable Rewards) : Le modèle génère une chaîne de raisonnement (Thought Process) suivie de la réponse. La récompense est basée sur :
- L'exactitude de la réponse finale (distance de variation totale par rapport à $p^\star$ ).
- Le format de sortie.
- Des algorithmes comme GRPO et DAPO ont été utilisés.

C. Évaluation

Les modèles sont évalués sur :

Généralisation intra-niveau : Performance sur le même type de requête que l'entraînement, mais avec des graphes ou des complexités différents.
Généralisation inter-niveau : Performance sur un type de requête différent de celui utilisé pour l'entraînement (ex: entraîné sur l'associatif, testé sur l'interventionnel).
Analyse des traces : Utilisation d'un juge LLM (o4-mini) pour analyser les stratégies de raisonnement (marginalisation incrémentale vs brute) et détecter les erreurs (dérivation, copie, calcul).

3. Résultats Clés

A. Généralisation Intra et Inter-niveau

Supériorité conditionnelle du RLVR : Le RLVR surpasse le SFT de manière significative pour les modèles ≥ 7B sur les requêtes associatives et interventionnelles.
Limites des petits modèles : Pour les modèles 3B, le RLVR échoue souvent, voire performe moins bien que le SFT. Les modèles 3B tendent à abandonner le raisonnement explicite après l'entraînement RL pour prédire directement la réponse.
Généralisation inter-niveau : Les modèles RLVR de taille ≥ 7B généralisent mieux vers des niveaux de requêtes non vus pendant l'entraînement que les modèles SFT.
Complexité : Le RLVR excelle particulièrement sur les requêtes complexes (grandes tailles de sous-graphes), là où le SFT a tendance à échouer.

B. L'Importance de la "Compétence Initiale" (Scaling)

Le succès du RLVR dépend fortement de la compétence de raisonnement initiale du modèle avant l'entraînement.
Les modèles 32B en zero-shot (avec incitation au raisonnement) surpassent déjà les modèles 32B SFT entraînés sans raisonnement.
Le RLVR améliore cette compétence initiale, mais seulement si le modèle possède une base de raisonnement suffisante. C'est un problème de "démarrage à froid" (cold start) : si le modèle ne peut pas raisonner correctement au début, le RLVR ne peut pas l'apprendre.

C. Analyse des Stratégies et des Erreurs

L'analyse fine des traces de raisonnement révèle comment le RLVR améliore les modèles (pour les tailles ≥ 7B) :

Changement de stratégie : Le RLVR favorise une marginalisation incrémentale (somme progressive des variables) plutôt qu'une somme brute (brute-force) ou l'absence de calcul. Cette stratégie est plus robuste et moins sujette aux erreurs sur les graphes complexes.
Réduction des erreurs de déduction : Le RLVR réduit significativement les erreurs de raisonnement abstrait (ex: fausses hypothèses d'indépendance, confusion entre observation et intervention).
Précision : Les modèles RLVR sont plus précis que les modèles SFT. Même lorsque la réponse n'est pas exactement correcte, elle est souvent plus proche de la vérité (plus petite distance de variation totale).

D. Cas des Requêtes Contrefactuelles

Le RLVR échoue à généraliser sur les requêtes contrefactuelles pour toutes les tailles de modèles.
Les modèles ne parviennent pas à construire correctement les "réseaux jumeaux" (twin networks) nécessaires pour ce type d'inférence, même avec des indices dans le prompt. Cela suggère que cette tâche est trop complexe pour les capacités actuelles de raisonnement des LLMs dans ce cadre formel.

4. Contributions Principales

Banc d'essai formel : Introduction d'un environnement contrôlé (RLCausal) pour étudier la généralisation du RLVR, isolant le raisonnement logique de la compréhension du langage naturel.
Condition de succès du RLVR : Démonstration que le RLVR n'est pas une solution magique ; il nécessite une compétence de raisonnement initiale suffisante (scaling + capacité de raisonnement) pour être efficace.
Mécanisme d'amélioration : Identification que le RLVR agit en corrigeant les stratégies de raisonnement (passage à la marginalisation incrémentale) et en réduisant les erreurs de déduction, plutôt qu'en apprenant simplement à mémoriser des réponses.
Comparaison SFT vs RL : Preuve que pour les tâches de raisonnement formel complexes, le RLVR surpasse le SFT (même avec des chaînes de pensée) pour la généralisation, à condition que le modèle de base soit assez grand.

5. Signification et Implications

Ce travail apporte des nuances cruciales à la compréhension actuelle du RLVR :

Limites du scaling : Le simple fait d'augmenter la taille du modèle ne suffit pas ; la qualité du raisonnement initial est le prérequis critique.
Spécificité du domaine : Contrairement aux tâches de codage ou de mathématiques où le RLVR a montré des résultats spectaculaires, les tâches causales formelles révèlent des limites, notamment sur les niveaux les plus complexes (contrefactuels).
Stratégie d'entraînement : Pour les tâches complexes, il est préférable d'utiliser le RLVR sur des modèles ayant déjà démontré une capacité de raisonnement, car le RL affine les stratégies de résolution plutôt que d'enseigner les concepts de zéro.

En conclusion, l'article établit que le RLVR est un outil puissant pour améliorer la généralisation des LLMs sur des tâches de raisonnement formel, mais son efficacité est strictement conditionnée par la maturité du modèle de base et la nature de la tâche.