Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de cette recherche, conçue pour être comprise par tout le monde, même sans être expert en intelligence artificielle.

🧩 Le Grand Défi : Apprendre sans oublier

Imaginez que votre cerveau est un bibliothécaire très savant qui connaît par cœur des millions de livres (c'est ce qu'on appelle la connaissance préalable de l'IA). Maintenant, on lui demande d'apprendre un nouveau jeu très étrange : le puzzle.

Le problème, c'est que dans le monde de l'IA, il existe deux méthodes principales pour lui apprendre ce nouveau jeu, et elles ont des effets très différents sur sa mémoire :

La méthode "Cramming" (SFT - Affinage Supervisé) : C'est comme si un professeur vous donnait la solution du puzzle et vous disait : "Répète-moi ça 100 fois".
- Résultat : Vous apprenez le puzzle très vite ! Mais le prix à payer est terrible : votre cerveau se "reprogramme" si fort pour ce puzzle qu'il efface accidentellement des livres entiers de votre bibliothèque. Vous oubliez comment parler, comment lire des documents ou même comment reconnaître des objets. C'est ce qu'on appelle l'oubli catastrophique.
La méthode "Exploration" (RFT - Affinage par Renforcement) : C'est comme si on vous laissait jouer au puzzle seul. Vous faites des essais, vous vous trompez, vous recevez un point si vous trouvez la bonne pièce, et vous ajustez votre stratégie petit à petit.
- Résultat : Cela prend beaucoup plus de temps pour apprendre le puzzle. Mais, miracle ! Votre bibliothèque reste intacte. Vous savez jouer au puzzle, et vous savez toujours tout le reste.

🔍 La Découverte : Ce n'est pas la méthode, c'est le "Manuel"

Les chercheurs se sont demandé : Pourquoi la méthode "Exploration" (RFT) protège-t-elle mieux la mémoire que la méthode "Cramming" (SFT) ?

Ils ont découvert que ce n'est pas la méthode d'apprentissage qui compte le plus, mais le contenu du manuel utilisé pour apprendre.

Le problème du manuel SFT : Souvent, on donne à l'IA des réponses toutes faites, sans explication. C'est comme si on lui collait une étiquette "Réponse : 2, 1, 3..." sur le front. Cela force son cerveau à changer radicalement pour coller à cette étiquette, ce qui bouscule tout le reste de sa mémoire.
La magie du manuel RFT : Avec la méthode d'exploration, l'IA génère elle-même ses propres chemins de pensée (ses "raisonnements"). Elle trouve des solutions qui sont déjà un peu cachées dans sa propre logique. C'est comme si elle trouvait un chemin dans la forêt qu'elle connaissait déjà, au lieu de devoir construire une nouvelle route sur un terrain inconnu.

🧠 L'Analogie du "Sentier de la Forêt"

Imaginez que la connaissance de l'IA est une forêt dense.

L'oubli catastrophique (SFT classique) arrive quand on essaie de tracer un nouveau chemin en coupant des arbres au hasard pour aller vite. On arrive au but, mais on a détruit la forêt.
La préservation (RFT) arrive quand l'IA explore la forêt. Elle découvre que certains sentiers existent déjà, qu'ils sont un peu cachés mais qu'ils mènent au but. En suivant ces sentiers naturels (ce qu'on appelle des trajectoires à faible perplexité, un terme technique pour dire "des chemins qui lui semblent familiers"), elle arrive au but sans abattre d'arbres.

💡 La Solution Magique : Le "Cheat Code"

La partie la plus cool de l'article, c'est la conclusion pratique. Les chercheurs ont réalisé qu'on peut avoir le meilleur des deux mondes :

Laissez l'IA explorer un peu (RFT) pour qu'elle trouve ses propres chemins de pensée naturels.
Prenez ces chemins qu'elle a trouvés elle-même.
Utilisez-les pour entraîner l'IA avec la méthode rapide (SFT).

Résultat : L'IA apprend le nouveau jeu aussi vite que la méthode "Cramming", mais elle oublie aussi peu que la méthode "Exploration". C'est comme si on lui donnait un manuel écrit par elle-même, ce qui rend l'apprentissage beaucoup plus doux pour sa mémoire.

🚀 En Résumé

Cette recherche nous dit que pour faire évoluer nos intelligences artificielles sans qu'elles ne deviennent amnésiques, il ne faut pas seulement changer l'algorithme. Il faut surtout choisir les bonnes données.

Si on laisse l'IA réfléchir et générer ses propres explications (même imparfaites) avant de lui apprendre la réponse, on préserve sa personnalité et ses connaissances passées. C'est une victoire majeure pour créer des IA qui peuvent apprendre toute leur vie sans oublier qui elles sont.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article de conférence "WHY REINFORCEMENT FINE-TUNING PRESERVES PRIOR KNOWLEDGE BETTER: A DATA PERSPECTIVE", publié à ICLR 2026.

1. Problématique

L'adaptation des grands modèles de langage (LLM) et des modèles de langage multimodaux (MLLM) à des tâches spécifiques repose principalement sur deux méthodes de post-entraînement : le Fine-Tuning Supervisé (SFT) et le Fine-Tuning par Renforcement (RFT). Bien que ces méthodes améliorent les performances sur les tâches cibles, leur impact sur la rétention des connaissances préalables (le "savoir antérieur") reste mal compris.

Le problème central abordé est le phénomène d'oubli catastrophique : le SFT permet souvent une acquisition rapide de nouvelles tâches mais entraîne une dégradation sévère des compétences existantes. À l'inverse, le RFT semble mieux préserver ces connaissances, mais la raison fondamentale de cette différence reste floue. L'article cherche à déterminer si cette divergence est due aux algorithmes eux-mêmes ou à la nature des données d'entraînement utilisées.

2. Méthodologie

A. Tâche Nouvelle : Les Puzzles Jigsaw

Pour isoler l'effet de l'apprentissage de connaissances totalement nouvelles (absentes du corpus de pré-entraînement), les auteurs introduisent une tâche inédite : la résolution de puzzles jigsaw (images découpées en 9 patches et mélangées).

Justification : Les modèles de pointe actuels (y compris GPT-4o et Qwen2.5-VL-72B) obtiennent un score de 0% sur cette tâche en zero-shot, confirmant qu'il s'agit d'une tâche véritablement nouvelle.
Protocole : Les modèles Qwen2.5-VL (3B et 7B) sont entraînés sur cette tâche via SFT et RFT (algorithme GRPO).

B. Comparaison des Stratégies d'Entraînement

Les auteurs comparent plusieurs configurations :

SFT (Non-Raisonnement) : Données avec la réponse directe (sans chaîne de pensée).
SFT (Raisonnement GPT-4o) : Données avec des trajectoires de raisonnement générées par GPT-4o.
RFT (GRPO) : Entraînement par renforcement où le modèle génère ses propres trajectoires et reçoit des récompenses basées sur la justesse de la solution.
SFT sur Rollouts RFT : Utilisation des trajectoires correctes générées par le modèle durant le RFT comme données d'entraînement pour le SFT.

C. Analyse par Dynamique d'Apprentissage (Learning Dynamics)

Pour expliquer les résultats, les auteurs utilisent une perspective théorique basée sur la dynamique d'apprentissage (Ren & Sutherland, 2024). Ils analysent comment un exemple d'entraînement $x_u$ influence la probabilité d'un exemple de connaissance antérieure $x_v$ en décomposant l'impact en deux facteurs :

L'ampleur de l'interférence : Mesurée par la norme du Noyau Tangente Neuronale Empirique (eNTK) entre les données d'entraînement et les connaissances antérieures.
La direction de l'interférence : Analysée via la perplexité des données par rapport au modèle de base.

3. Résultats Clés

A. Performance et Oubli

SFT : Apprend la tâche jigsaw très rapidement (quelques centaines d'étapes) mais provoque un oubli catastrophique massif sur les benchmarks antérieurs (Grounding, OCR, VQA, Mathématiques). La perte de performance peut atteindre 80% sur certaines tâches.
RFT : Apprend plus lentement (nécessite des dizaines de milliers d'étapes) mais préserve remarquablement bien les connaissances antérieures, maintenant des performances stables sur les tâches existantes tout en acquérant la nouvelle compétence.

B. Le Rôle Déterminant des Données (Data-Centric)

L'expérience cruciale consiste à entraîner un modèle SFT sur les rollouts corrects générés par le RFT (SFT-Rea-GRPO-Rollout).

Résultat : Ce modèle atteint une performance sur la tâche jigsaw comparable au RFT pur, tout en préservant les connaissances antérieures bien mieux que le SFT standard ou le SFT avec raisonnement GPT-4o.
Conclusion : Ce n'est pas l'algorithme (RFT vs SFT) qui détermine l'oubli, mais la distribution des données d'entraînement.

C. Analyse Théorique : Perplexité et Interférence

Ampleur (Magnitude) : Les données SFT sans raisonnement (Non-Rea) présentent une norme eNTK élevée, indiquant une forte interférence avec les connaissances antérieures. Les données avec raisonnement (Rea) réduisent cette interférence.
Direction (Perplexité) :
- Les trajectoires générées par GPT-4o (Rea-4o) se situent souvent dans des régions de haute perplexité pour le modèle de base, ce qui signifie qu'elles sont "étrangères" à sa distribution pré-entraînée, causant un conflit.
- Les trajectoires générées par le modèle lui-même via RFT (Rea-GRPO) se situent dans des régions de basse perplexité. Le modèle de base a déjà une certaine familiarité avec ces régions linguistiques.
Symétrie : Selon la théorie de la dynamique d'apprentissage, l'impact d'apprendre $x_u$ sur $x_v$ est symétrique à l'impact de $x_v$ sur $x_u$ . En renforçant des régions de faible perplexité (alignées avec le modèle), le RFT dégrade moins la probabilité des connaissances antérieures.

D. Validation Généralisée

Ces résultats sont confirmés sur des tâches textuelles pures (raisonnement mathématique avec Qwen2.5-Instruct) et des questions scientifiques (Sci-MCQ4), montrant une hiérarchie constante d'oubli : Non-Raisonnement > Raisonnement GPT-4o > Rollouts RFT.

4. Contributions Principales

Preuve Empirique de la Supériorité du RFT : Démonstration que le RFT permet d'apprendre des tâches totalement nouvelles (jigsaw) sans oublier les compétences antérieures, contrairement au SFT.
Découplage Algorithme vs Données : Démonstration que l'entraînement SFT sur des données générées par RFT (rollouts) permet de combiner la rapidité du SFT avec la stabilité du RFT. Cela prouve que la construction des données est le facteur clé de l'oubli, plus que l'algorithme d'optimisation lui-même.
Interprétation par Dynamique d'Apprentissage : Proposition d'un cadre théorique expliquant l'oubli par l'analyse de l'ampleur (eNTK) et de la direction (perplexité) de l'interférence. L'article établit que les données à faible perplexité (alignées avec le modèle de base) sont intrinsèquement moins destructrices pour les connaissances existantes.

5. Signification et Impact

Cette recherche remet en question la vision purement algorithmique de l'oubli catastrophique. Elle suggère que pour un post-entraînement stable et continu :

Il ne suffit pas de choisir un algorithme (SFT ou RFT), mais il faut construire des données qui respectent la distribution du modèle de base.
Le RFT agit comme un mécanisme d'exploration efficace pour découvrir des "régions linguistiques" cachées dans l'espace du modèle de base qui sont compatibles à la fois avec la nouvelle tâche et les connaissances antérieures.
Une stratégie hybride prometteuse émerge : utiliser une phase courte de RFT pour générer des données de raisonnement de haute qualité, puis utiliser ces données pour un SFT rapide et stable.

En résumé, l'article plaide pour une approche centrée sur les données ("Data-Centric") dans le post-entraînement des LLM/MLLM, où la qualité et l'alignement distributionnel des données d'entraînement sont prioritaires pour éviter l'oubli catastrophique.