Agents Learn Their Runtime: Interpreter Persistence as Training-Time Semantics

Each language version is independently generated for its own context, not a direct translation.

🧠 Le Grand Secret des Agents IA : Ils apprennent leur "mémoire"

Imaginez que vous apprenez à un robot à cuisiner. Vous lui donnez des recettes (les données d'entraînement) et il doit préparer un plat complexe (la tâche).

Dans le monde des intelligences artificielles modernes (les "agents"), ces robots utilisent souvent du code informatique comme des outils pour résoudre des problèmes. Mais il y a un détail crucial : comment le robot se souvient-il de ce qu'il a fait une minute plus tôt ?

C'est là que l'article pose une question fascinante : Est-ce que le robot apprend à se souvenir parce que son "cerveau" (le modèle) est intelligent, ou simplement parce que la cuisine dans laquelle il travaille lui permet de laisser les ingrédients sur le comptoir ?

🏠 L'Analogie de la Cuisine : "Le Comptoir Persistant" vs "Le Comptoir Vide"

Pour comprendre l'expérience, imaginons deux types de cuisines :

La Cuisine Persistante (Persistent Runtime) : C'est une cuisine où, une fois que vous posez un bol de farine sur le comptoir, il y reste. Si vous sortez de la pièce pour chercher une cuillère, le bol est toujours là quand vous revenez. Vous n'avez pas besoin de le remettre.
La Cuisine "Amnésique" (Stateless Runtime) : C'est une cuisine magique mais bizarre. Dès que vous tournez le dos ou finissez une étape, tout disparaît. Le comptoir est vide. Si vous vouliez utiliser la farine, vous devez la sortir du placard et la remettre sur le comptoir à chaque fois.

Le problème :
Les chercheurs ont découvert que les robots apprennent à cuisiner en regardant des vidéos de chefs (les données d'entraînement).

Si le chef sur la vidéo travaille dans une Cuisine Persistante, le robot apprend : "Ah, je peux juste utiliser ce bol qui est déjà là !"
Si le chef travaille dans une Cuisine Amnésique, le robot apprend : "Je dois toujours tout remettre à neuf, sinon je perds tout."

🧪 L'Expérience : Le Test des 4 Scénarios

Les chercheurs ont créé un jeu de logique appelé "Le Sac à Dos Opaque" (comme un jeu où il faut choisir des objets pour un sac, mais on ne voit pas leurs poids ni leur valeur, il faut les "inspecter" un par un).

Ils ont entraîné deux robots sur ce jeu, mais avec des règles différentes :

Robot A a regardé des vidéos de chefs dans une Cuisine Persistante.
Robot B a regardé des vidéos de chefs dans une Cuisine Amnésique.

Ensuite, ils ont mis les robots dans les deux cuisines pour voir ce qui se passait. Résultat : 4 scénarios possibles.

1. 🟢 Le Match Parfait (Robot A dans Cuisine Persistante)

Le robot a appris à laisser les choses sur le comptoir, et la cuisine lui permet de le faire.

Résultat : Super efficace ! Il cuisinait vite, utilisait peu de mots (tokens) et ne se trompait pas.

2. 🟡 La Taxe de l'Amnésie (Robot B dans Cuisine Persistante)

Le robot a appris à tout remettre à neuf, même si la cuisine lui permettait de laisser les choses sur place.

Résultat : Il fonctionne, mais il est très inefficace. C'est comme si quelqu'un qui a l'habitude de ranger ses clés dans sa poche les remettait systématiquement dans son sac à main, même s'il a une poche. Il gaspille du temps et de l'énergie (3,5 fois plus de "mots" ou de calculs) pour faire la même chose. Les chercheurs appellent cela la "Taxe de l'Amnésie".

3. 🔴 La Catastrophe (Robot A dans Cuisine Amnésique)

C'est le scénario le plus dramatique. Le robot a appris à laisser les ingrédients sur le comptoir. Il arrive, il veut utiliser le bol de farine... il n'est plus là !

Résultat : Panique totale. Le robot crie "Erreur !", essaie de réparer, crie encore, et tourne en rond jusqu'à épuisement. Il ne comprend pas pourquoi son "mémoire" a disparu. Il échoue dans 80% des cas parce qu'il fait confiance à une règle qui n'existe plus.

4. 🟢 Le Basique (Robot B dans Cuisine Amnésique)

Le robot s'attend à tout remettre à neuf, et c'est exactement ce qui se passe.

Résultat : Il fonctionne, mais lentement et avec beaucoup de gaspillage, car c'est sa méthode d'apprentissage.

💡 La Leçon Principale

Ce papier nous apprend quelque chose de très important pour le futur de l'IA :

L'environnement dans lequel on entraîne une IA n'est pas juste un décor technique. C'est une partie de ce qu'elle apprend.

Si vous entraînez un agent pour qu'il utilise la mémoire de l'ordinateur (la cuisine persistante), il deviendra dépendant de cette mémoire. Si vous le déployez ensuite dans un système où cette mémoire n'existe pas, il va s'effondrer. À l'inverse, si vous l'entraînez à tout réécrire, il gaspillera de l'énergie même si vous lui donnez un super ordinateur capable de se souvenir de tout.

En résumé :
Ne laissez pas l'environnement d'exécution (la cuisine) être un secret caché. Si vous voulez un agent efficace, l'entraînement et le déploiement doivent utiliser la même "règle de mémoire". C'est comme entraîner un nageur dans une piscine avec des vagues et l'envoyer ensuite dans un lac calme : il ne saura pas nager correctement car il a appris à lutter contre les vagues qui n'existent plus !

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les agents de modèles de langage (LLM) augmentés par des outils résolvent de plus en plus de tâches en entrelaçant un raisonnement en langage naturel avec des actions exécutables (généralement du code Python). De nombreux frameworks d'agents utilisent un interpréteur persistant, où les variables et les structures de données définies dans une étape restent disponibles pour les étapes suivantes.

Cependant, les traces d'entraînement utilisées pour affiner (fine-tuning) ces modèles laissent souvent cette hypothèse de persistance implicite. La question centrale de l'article est la suivante : La persistance de l'interpréteur est-elle simplement un "échafaudage" à l'inférence (un outil d'exécution), ou est-ce une propriété apprise des données d'entraînement qui façonne la manière dont l'agent gère l'état ?

Si un modèle est entraîné sur des traces générées dans un environnement persistant mais déployé dans un environnement sans état (stateless), ou vice-versa, quelles sont les conséquences sur la stabilité, l'efficacité et la qualité des solutions ?

2. Méthodologie

Les auteurs ont conçu une étude contrôlée en matrice 2×2 pour dissocier les effets de l'entraînement de ceux de l'environnement d'exécution.

A. Tâche : OPAQUE KNAPSACK

Pour isoler ce phénomène, ils ont créé un nouveau benchmark appelé OPAQUE KNAPSACK, une variante du problème du sac à dos (0/1) conçue pour être "non effondrable" (non-collapsible) :

Observabilité partielle : Les attributs des objets (poids, valeur, classe) et les contraintes de validité sont cachés.
Accès budgétisé : Les agents doivent utiliser des outils (inspect, take_item) avec un budget limité pour découvrir les informations.
Boucle itérative : La tâche ne peut pas être résolue par un seul script statique ; elle nécessite une collecte d'informations progressive et une révision du plan, forçant une gestion d'état multi-tours.

B. Génération de Traces et Entraînement

Pour chaque instance de tâche, les auteurs génèrent deux types de trajectoires d'entraînement identiques en termes de contenu, mais différant uniquement par la sémantique d'exécution :

Persistent (Persistant) : Les variables définies dans l'interpréteur Python persistent entre les tours.
Stateless (Sans état) : L'état de l'interpréteur est réinitialisé après chaque action ; l'agent doit réécrire ou réimporter les variables à chaque étape.

Ils entraînent ensuite deux modèles identiques (basés sur Qwen3-8B avec LoRA) : l'un sur des traces persistantes, l'autre sur des traces sans état.

C. Évaluation Croisée

Les deux modèles sont évalués dans les deux environnements d'exécution (Persistant et Stateless), créant quatre conditions :

Entraînement Persistant → Exécution Persistante (Aligné)
Entraînement Stateless → Exécution Stateless (Aligné)
Entraînement Persistant → Exécution Stateless (Inaligné)
Entraînement Stateless → Exécution Persistante (Inaligné)

3. Contributions Clés

Benchmark OPAQUE KNAPSACK : Une tâche synthétique conçue spécifiquement pour forcer la gestion d'état itérative et rendre la persistance de l'interpréteur critique pour l'efficacité, sans être strictement nécessaire pour la solvabilité.
Preuve que la persistance s'apprend : L'étude démontre que la persistance n'est pas une capacité "zero-shot" ; c'est un préjugé comportemental (behavioral prior) absorbé lors de l'entraînement.
Analyse des modes d'échec asymétriques : Identification de deux modes d'échec distincts lorsque l'entraînement et l'exécution sont désalignés.

4. Résultats Principaux

A. Coût de l'Amnésie ("Amnesia Tax")

Lorsqu'un modèle entraîné sur des traces Stateless est déployé dans un environnement Persistant, il ne profite pas de la persistance disponible.

Il continue de réimporter et de réécrire les variables à chaque étape, même si elles existent déjà dans l'interpréteur.
Résultat : Une surconsommation massive de tokens (environ 3,5 fois plus que la configuration alignée persistante) sans gain de qualité de solution. C'est une "taxe d'amnésie" apprise.

B. Échecs de Mismatch (Désalignement)

Lorsqu'un modèle entraîné sur des traces Persistantes est déployé dans un environnement Stateless :

Erreurs de variables manquantes : Dans environ 80 % des épisodes, le modèle génère des erreurs NameError car il tente d'accéder à des variables qui ont été effacées par l'interpréteur.
Boucles de récupération destructrices : Le modèle entre dans des boucles d'erreurs et de tentatives de réparation qui consomment son budget de tokens sans faire progresser la tâche.
Instabilité : Contrairement à la taxe d'amnésie (qui est inefficace mais fonctionnelle), ce désalignement conduit à une instabilité critique et à l'échec de l'exécution.

C. Qualité de la Solution

Intéressamment, malgré ces différences drastiques en termes d'efficacité (tokens) et de stabilité, la qualité de la solution (optimalité normalisée) ne montre pas de différence statistiquement significative entre les modèles entraînés et les conditions d'exécution (pour $n=100$ ).

Cela suggère que la persistance de l'interpréteur façonne comment l'agent atteint la solution (stratégie de gestion d'état, coût, stabilité), mais pas nécessairement si il trouve la solution optimale.

5. Signification et Implications

La sémantique d'exécution est un hyperparamètre d'entraînement : Le choix de l'environnement d'exécution (persistant ou non) utilisé pour générer les données d'entraînement ne doit pas être un détail d'implémentation caché, mais un choix de conception explicite.
Alignement Training-Inference : Pour des agents robustes et efficaces, l'environnement d'exécution de déploiement doit correspondre aux hypothèses d'état apprises lors du fine-tuning.
Efficacité des Tokens : L'utilisation d'un interpréteur persistant, lorsqu'elle est apprise correctement, permet de réduire considérablement la longueur des contextes et le nombre de tokens nécessaires en évitant la redondance de l'état dans le texte.
Risque de Déploiement : Changer silencieusement la persistance de l'interpréteur entre l'entraînement et le déploiement peut dégrader la stabilité du système sans modifier les poids du modèle.

En conclusion, l'article démontre que les agents ne se contentent pas d'apprendre à utiliser des outils ; ils apprennent la mémoire de leur environnement d'exécution. Ignorer cet aspect conduit à des inefficacités coûteuses ou à des échecs catastrophiques lors du déploiement.