CapTrack: Multifaceted Evaluation of Forgetting in LLM Post-Training

Ce papier présente CapTrack, un cadre d'évaluation axé sur les capacités qui redéfinit l'oubli dans le post-entraînement des LLM comme une dérive comportementale systémique et révèle, via une étude à grande échelle, que ce phénomène affecte profondément la robustesse et les comportements par défaut, avec des impacts variables selon les algorithmes et les familles de modèles.

Lukas Thede, Stefan Winzeck, Zeynep Akata, Jonathan Richard Schwarz

Publié 2026-03-10
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un grand chef cuisinier très talentueux (c'est le modèle de langage, ou LLM, comme ceux qui écrivent des emails ou résolvent des problèmes de maths). Ce chef a appris à cuisiner de tout pendant des années, grâce à des milliers de livres de recettes (c'est l'entraînement initial).

Maintenant, vous voulez que ce chef se spécialise dans la cuisine légale (pour rédiger des contrats) ou médicale (pour donner des conseils de santé). Vous lui donnez donc un stage intensif de quelques semaines avec des livres de cuisine spécialisés. C'est ce qu'on appelle le "post-entraînement".

Le problème ? Après ce stage, le chef devient excellent en cuisine légale, mais il commence à oublier certaines choses importantes qu'il savait faire avant.

Le problème : Ce n'est pas juste de l'oubli de "faits"

Jusqu'à présent, les chercheurs pensaient que l'oubli était simple : le chef oublie des faits précis (par exemple, il ne sait plus qui a écrit Les Misérables ou comment calculer une racine carrée).

Mais cette nouvelle étude, appelée CapTrack, dit : "Attendez, c'est plus compliqué que ça !"

L'équipe explique que l'oubli ne concerne pas seulement les connaissances, mais aussi la personnalité et les habitudes du chef. Imaginez que votre chef, qui était auparavant :

  • Rassurant et détaillé (il expliquait chaque étape),
  • Polyglotte (il parlait couramment espagnol et chinois),
  • Respectueux des règles (il suivait scrupuleusement les consignes de présentation),

...devient soudainement :

  • Sec et brutal (il donne juste la réponse sans explication),
  • Bégueule (il refuse de parler espagnol),
  • Désobéissant (il ne met plus les plats dans l'assiette comme demandé).

Le chef sait toujours cuisiner (il a la compétence), mais son comportement a changé de façon négative. C'est ça, le vrai "oubli" selon CapTrack.

La solution : CapTrack, le "Test de Santé Comportemental"

Pour mesurer ce phénomène, les auteurs ont créé CapTrack. C'est comme un grand examen de santé pour le chef, divisé en trois catégories :

  1. CAN (Ce qu'il PEUT faire) : Est-ce qu'il sait encore cuisiner un gâteau ? (Connaissances, raisonnement).
  2. WILL (Ce qu'il VEUT faire) : Est-ce qu'il a envie de répondre à une question bizarre ? Est-ce qu'il est trop bavard ou trop court ? (Comportement par défaut).
  3. HOW (Comment il FAIT les choses) : Est-ce qu'il respecte le format de l'assiette ? Est-ce qu'il se souvient de ce qu'il a dit 5 minutes plus tôt dans la conversation ? (Respect des règles et exécution).

Ce qu'ils ont découvert (Les résultats)

En testant des chefs de différentes tailles (de 4 milliards à 80 milliards de "neurones") avec différentes méthodes d'apprentissage, ils ont vu des choses surprenantes :

  • L'apprentissage intensif (IFT) est le plus dangereux : Si vous forcez le chef à apprendre par cœur de nouvelles recettes (Fine-Tuning), il perd beaucoup de ses anciennes habitudes. Il devient très spécialisé, mais il perd sa polyvalence et son "style". C'est comme si, en apprenant à faire des sushis, il avait oublié comment faire des pâtes et avait perdu son sourire.
  • L'apprentissage par préférence (DPO) est plus doux : Cette méthode consiste à dire au chef : "J'aime bien cette réponse, mais pas celle-là". C'est plus subtil. Le chef apprend la spécialité sans oublier autant ses anciennes habitudes. C'est comme un coach qui corrige doucement la posture plutôt que de réécrire tout le manuel.
  • La taille n'est pas une garantie : Un chef géant (80 milliards de paramètres) n'est pas forcément plus résistant à l'oubli qu'un petit chef. Parfois, le géant oublie même plus de choses !
  • On ne peut pas tout avoir (Le compromis) : Ils ont essayé de "sauver" le chef en mélangeant ses nouvelles compétences avec ses anciennes (comme si on mélangeait deux versions du même chef). Résultat : soit il est excellent en spécialité mais oublie tout, soit il garde tout mais ne devient pas meilleur en spécialité. On ne peut pas avoir les deux gratuitement.

En résumé

Cette étude nous dit que quand on adapte une intelligence artificielle à un nouveau métier (médecine, droit, etc.), on ne doit pas seulement vérifier si elle connaît les bons faits. Il faut aussi vérifier :

  • Est-elle devenue trop arrogante ?
  • Est-elle capable de parler d'autres langues ?
  • Est-elle toujours polie et respectueuse des règles ?

CapTrack est l'outil qui permet de voir ces changements invisibles. C'est comme un miroir qui nous montre que notre chef, même s'il est devenu un expert en sushis, a peut-être perdu son âme de cuisinier polyvalent. Et c'est crucial pour s'assurer que l'IA reste utile et sûre pour tout le monde.