AgentOCR: Reimagining Agent History via Optical Self-Compression

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un détective privé très intelligent (c'est l'Agent IA) chargé de résoudre des énigmes complexes. Pour résoudre ces énigmes, vous devez consulter un immense dossier qui s'accumule à chaque étape de votre enquête.

Le Problème : Le Dossier qui devient trop lourd

Dans les systèmes actuels, ce dossier est écrit uniquement en texte.

À chaque fois que vous posez une question ou recevez une réponse, vous ajoutez une nouvelle page de texte à votre dossier.
Après quelques dizaines d'étapes, ce dossier devient une montagne de papier.
Le souci : Votre cerveau (le modèle d'IA) doit relire toutes ces pages à chaque nouvelle étape pour ne rien oublier. C'est lent, ça coûte cher en énergie, et votre cerveau finit par être saturé (il atteint sa limite de mémoire). C'est comme essayer de lire un livre entier avant de pouvoir tourner la page suivante.

La Solution : AgentOCR (Le Dossier "Image")

Les auteurs proposent une idée géniale : arrêter d'écrire le dossier en texte et commencer à le dessiner.

Au lieu d'avoir des milliers de lignes de texte, l'agent transforme son historique de conversation en une image compacte.

L'analogie : Imaginez que votre dossier n'est plus un roman de 500 pages, mais une seule photo de haute qualité où toutes les informations sont écrites en tout petit, mais parfaitement lisibles.
Pourquoi c'est mieux ? Une image contient beaucoup plus d'informations dans moins d'espace. Pour l'ordinateur, "lire" une image prend beaucoup moins de place (moins de "tokens") que de lire le même texte mot par mot. C'est comme passer d'un camion de déménagement rempli de journaux à un petit coffre-fort contenant les mêmes documents, mais compressés.

Les Deux Super-Pouvoirs d'AgentOCR

Pour que cette idée fonctionne parfaitement, le papier propose deux innovations clés :

1. Le "Cache Optique" (La Bibliothèque Magique)

Quand l'agent avance, il ne redessine pas tout le dossier à chaque fois.

L'analogie : Imaginez que votre dossier est composé de pages détachables. Si vous avez déjà dessiné la page "Recherche Google" une fois, vous ne la redessinez pas à chaque fois que vous la réutilisez. Vous avez un magasin (un cache) où vous gardez les dessins déjà faits.
Si l'agent a besoin de cette page, il va simplement la chercher dans le magasin et la colle à son dossier.
Résultat : C'est ultra-rapide. Au lieu de dessiner 100 pages à chaque étape, il ne dessine que les nouvelles pages. Cela rend le système 20 fois plus rapide !

2. L'Auto-Compression Intelligente (Le Réglage de Zoom)

C'est la partie la plus intelligente. L'agent n'est pas obligé de garder la même taille d'image tout le temps.

L'analogie : L'agent a un bouton de zoom dans sa main.
- S'il doit faire une tâche simple (comme "prendre une tasse"), il peut dézoomer (compresser l'image). Les détails deviennent flous, mais ça suffit pour comprendre l'action, et ça économise énormément d'énergie.
- S'il doit faire une tâche difficile (comme "résoudre une énigme mathématique"), il zoome (augmente la qualité) pour voir les petits détails et ne pas faire d'erreur.
L'agent apprend tout seul, par essais et erreurs, à savoir quand compresser et quand garder de la haute qualité. Il trouve le juste milieu entre "être rapide et pas cher" et "être précis".

Les Résultats : Gagner sans perdre

Les chercheurs ont testé cette méthode sur deux types de jeux :

Des tâches de maison virtuelles (comme ranger une chambre).
Des recherches d'informations complexes (comme répondre à des questions en cherchant sur internet).

Le verdict ?

L'agent avec AgentOCR est aussi intelligent que l'agent classique (il réussit plus de 95% des mêmes tâches).
Mais il consomme moins de 50% d'énergie (de "tokens") et va beaucoup plus vite.
C'est comme si vous pouviez conduire la même voiture, sur le même trajet, mais en utilisant moitié moins d'essence.

En Résumé

AgentOCR, c'est comme transformer un roman interminable en une bande dessinée concise.

On remplace le texte lourd par des images légères.
On réutilise les dessins existants pour ne pas perdre de temps (le Cache).
On apprend à l'agent à ajuster la qualité de l'image selon la difficulté de la tâche (l'Auto-Compression).

C'est une façon élégante de rendre les intelligences artificielles plus rapides, moins chères et capables de se souvenir de beaucoup plus de choses sans se "noyer" dans l'information.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les systèmes d'agents basés sur les grands modèles de langage (LLM) et entraînés par apprentissage par renforcement (RL) font face à un goulot d'étranglement critique lors de déploiements pratiques : l'explosion de la longueur du contexte.

Surcharge de Tokens : Au fur et à mesure que l'agent interagit avec un environnement sur de multiples tours (boucles de décision), l'historique complet des observations et des actions s'accumule. Cette croissance linéaire (voire exponentielle dans certains cas) gonfle considérablement le nombre de tokens d'entrée.
Coûts et Latence : Cette accumulation épuise rapidement les budgets de tokens des LLMs actuels, augmente la latence d'inférence et les coûts de calcul, principalement en raison de la complexité superlinéaire des mécanismes d'attention et de la gestion des caches KV (Key-Value).
Limites des Méthodes Actuelles : Les approches classiques de compression de contexte (résumé textuel, attention sparse) risquent de perdre des informations critiques ou ne parviennent pas à réduire suffisamment la charge computationnelle pour des trajectoires très longues.

2. Méthodologie : AgentOCR

Le papier propose AgentOCR, un cadre innovant qui réinvente la gestion de l'historique de l'agent en passant d'une représentation textuelle brute à une mémoire optique compacte. L'idée centrale est d'exploiter la densité d'information supérieure des tokens visuels par rapport aux tokens textuels.

Le système repose sur trois piliers techniques :

A. Encodage Optique de la Mémoire (Optical Memory Encoding)

Au lieu de fournir à l'agent la chaîne de caractères brute de l'historique, AgentOCR rend (rendu) cet historique sous forme d'image.

Un rendu déterministe transforme les paires observation-action $(o_t, a_t)$ en une image RGB.
L'agent (un modèle Vision-Language Model ou VLM) reçoit cette image comme contexte historique, ce qui réduit drastiquement le nombre de tokens nécessaires pour représenter la même information (environ 10x moins de tokens que le texte brut).

B. Mise en Cache Optique par Segments (Segment Optical Caching)

Pour éviter que le rendu de l'historique complet à chaque étape ne devienne un goulot d'étranglement en termes de temps de calcul, l'auteur introduit une mise en cache intelligente :

Décomposition : L'historique est découpé en segments indépendants.
Cache de Contenu : Chaque segment est haché et stocké dans un dictionnaire avec son image rendue correspondante.
Réutilisation : À chaque étape, le système vérifie si un segment a déjà été rendu. Si c'est le cas (cache hit), il réutilise l'image existante sans recalcul. Si c'est un nouveau segment (cache miss), il est rendu et ajouté au cache.
Assemblage : L'image finale est construite par empilement vertical des segments (cache hits + nouveaux rendus). Cela permet une accélération significative du rendu au fil du temps.

C. Auto-Compression Agentique (Agentic Self-Compression)

Plutôt que d'utiliser une compression statique, l'agent est capable de moduler dynamiquement la fidélité de l'image.

Décision : À chaque étape, l'agent génère un facteur de compression $c_t$ (via un tag spécial <compression>).
Mécanisme : Ce facteur réduit la résolution spatiale de l'image rendue ( $H/\sqrt{c_t}, W/\sqrt{c_t}$ ), diminuant ainsi le nombre de tokens visuels.
Récompense Adaptative : Pour entraîner l'agent à trouver le bon équilibre entre précision et coût, une récompense de compression est ajoutée au signal de RL (GRPO). Cette récompense est logarithmique et conditionnée au succès de la tâche ( $r_{comp} = \ln(c_t)$ si succès, sinon 0).
Planification Intermittente : Pour éviter que l'agent ne devienne trop gourmand (sacrifiant la tâche pour maximiser la compression), la récompense de compression n'est injectée que tous les $K$ itérations d'entraînement.

3. Contributions Clés

Changement de Paradigme : Passage d'une mémoire textuelle à une mémoire visuelle pour les agents, exploitant la haute densité d'information des images pour compresser l'historique.
Efficacité du Rendu : Introduction de la Segment Optical Caching, qui élimine les rendus redondants et accélère le traitement de l'historique croissant.
Stratégie Dynamique : Développement d'un mécanisme d'auto-compression où l'agent apprend à ajuster sa propre fidélité visuelle en fonction des besoins de la tâche, optimisant le compromis coût/performance.
Validation Empirique : Démonstration que cette approche permet de réduire la consommation de tokens de plus de 50 % (jusqu'à 80 % pour les pics) tout en maintenant plus de 95 % des performances des agents textuels de référence.

4. Résultats Expérimentaux

Les expériences ont été menées sur deux benchmarks exigeants : ALFWorld (tâches d'embodiment à long horizon) et Search-based QA (questions-réponses basées sur la recherche web, très denses en texte).

Performance :
- Sur ALFWorld, AgentOCR (modèles 3B et 7B) atteint des taux de réussite de 78,2 % et 81,2 %, comparables aux agents textuels entraînés par RL (environ 79,9 % et 81,8 %).
- Sur les tâches de recherche (QA), AgentOCR conserve >95 % des performances des baselines textuelles (ex: 40,1 % vs 41,9 % pour le modèle 7B).
Efficacité des Tokens :
- Réduction moyenne de la consommation de tokens de ~55 % sur ALFWorld et ~70 % sur les tâches de recherche.
- Réduction maximale observée de 80,9 % sur les pics de contexte.
Performance du Cache :
- La mise en cache par segments offre un accélération de rendu de 20x par rapport à l'absence de cache, et de 17x par rapport à une mise en cache naïve (incrémentale).
- Réduction de la mémoire de cache de 26,8 % par rapport aux méthodes incrémentales classiques.
Analyse de l'Auto-Compression :
- Sans RL, l'agent ne sait pas moduler la compression efficacement.
- Avec un calendrier de récompense intermittent ( $K=5$ ), l'agent apprend à réduire la consommation de tokens visuels de 458 à 381 en moyenne, tout en maintenant un taux de réussite élevé, prouvant qu'il peut identifier les moments où une compression agressive est sans risque.

5. Signification et Impact

Ce travail ouvre une nouvelle voie pour le déploiement d'agents autonomes à long terme :

Viabilité Économique : En réduisant drastiquement la consommation de tokens et la latence d'inférence, AgentOCR rend le déploiement d'agents complexes (nécessitant des milliers de tours d'interaction) économiquement et techniquement viable.
Inspiration Biologique : L'approche imite la manière dont les systèmes biologiques traitent l'information (compression visuelle et mémoire sélective) plutôt que de tout stocker sous forme de texte brut.
Futur de l'IA : Cela suggère que les interfaces multimodales (texte + image) ne sont pas seulement pour la perception, mais peuvent devenir le mécanisme principal de gestion de la mémoire et de l'efficacité computationnelle pour les agents intelligents.

En résumé, AgentOCR démontre que la vision peut servir de support de compression supérieur au texte pour l'historique des agents, résolvant le problème de la "longueur de contexte" sans sacrifier la capacité de raisonnement.