M$^2$: Dual-Memory Augmentation for Long-Horizon Web Agents via Trajectory Summarization and Insight Retrieval

Each language version is independently generated for its own context, not a direct translation.

Imagine que vous essayez de naviguer sur un site web pour accomplir une tâche complexe, comme acheter un ordinateur spécifique avec des options très précises. C'est un peu comme essayer de trouver un objet dans une immense bibliothèque sans carte, en ayant peur de tourner en rond.

C'est là qu'interviennent les agents web intelligents (des robots logiciels). Le problème, c'est que lorsqu'ils doivent faire une longue série d'actions (par exemple : chercher, filtrer, comparer, ajouter au panier), ils ont tendance à oublier ce qu'ils ont fait il y a 10 étapes, ou à se noyer dans une quantité d'informations si énorme qu'ils deviennent confus et lents. C'est ce qu'on appelle le "problème de la mémoire à long terme".

Les chercheurs de cette paper (M2) ont inventé une solution géniale qui ne nécessite pas de réapprendre le cerveau du robot, mais qui lui donne simplement deux nouveaux outils de mémoire.

Voici comment cela fonctionne, avec des analogies simples :

1. Le Problème : Le "Sac à dos trop lourd"

Imaginez que votre robot est un randonneur. Pour chaque pas qu'il fait, il prend une photo du paysage et écrit tout ce qu'il a vu dans un carnet.

Avant (Méthode classique) : À la 50e étape, il a 50 photos et un carnet de 50 pages. Pour décider de la prochaine étape, il doit relire tout le carnet et regarder toutes les photos. C'est lourd, ça prend du temps, et il finit par oublier le début de la randonnée au milieu de la lecture.
Le résultat : Le robot devient lent, coûte cher en énergie (car il faut lire tout ça), et fait des erreurs parce qu'il est distrait par des détails inutiles (comme une publicité sur la photo 3).

2. La Solution M2 : Le Duo de Mémoire

L'équipe propose M2, un système qui donne au robot deux aides mémoires distinctes, comme un guide de voyage et un journal de bord.

A. La Mémoire Interne : Le "Résumé du Journal de Bord" (Trajectory Summarization)

Au lieu de garder toutes les 50 photos et les 50 pages de texte, le robot est invité à faire un résumé à chaque étape.

L'analogie : Imaginez que le robot ne garde pas toutes les photos, mais écrit juste une phrase par jour dans un carnet : "Jour 1 : J'ai trouvé la section ordinateurs. Jour 2 : J'ai cliqué sur 'Mac'. Jour 3 : J'ai vu le prix."
L'avantage : Au lieu de lire 50 pages, il ne lit que 50 phrases courtes. C'est léger, rapide, et il garde l'essentiel de l'histoire sans se perdre dans les détails inutiles (comme les publicités). C'est comme transformer un roman de 1000 pages en une liste de points clés.

B. La Mémoire Externe : Le "Guide de l'Expert" (Insight Retrieval)

Parfois, le robot rencontre un piège qu'il ne connaît pas (par exemple, un site qui demande de se connecter de manière bizarre).

L'analogie : Imaginez que le robot a accès à une bibliothèque de conseils d'experts. Avant de commencer sa tâche, il demande : "J'ai besoin d'acheter un ordinateur sur ce site, quels sont les pièges à éviter ?". La bibliothèque lui sort 5 conseils tirés de milliers de réussites passées : "Attention, ne cliquez pas tout de suite sur 'Acheter', vérifiez d'abord le filtre 'Stock'."
L'avantage : Le robot ne réinvente pas la roue. Il bénéficie de l'expérience accumulée d'autres robots qui ont réussi la même tâche avant lui. C'est comme avoir un guide touristique qui vous dit : "Évitez cette rue, il y a des travaux, prenez l'autre chemin".

3. Le Résultat : Plus rapide, plus intelligent, moins cher

En combinant ces deux outils (le résumé de son propre parcours + les conseils des experts), le robot M2 obtient des résultats incroyables :

Il est plus rapide : Il ne gaspille pas de temps à relire des tonnes d'informations inutiles.
Il est plus précis : Il ne se perd plus au milieu du chemin et évite les pièges connus grâce aux conseils des experts.
Il est moins cher : Comme il traite moins d'informations, il consomme moins d'énergie (moins de "tokens" dans le jargon technique).

En résumé :
Cette recherche montre que pour faire naviguer un robot sur le web sur de longues distances, il ne faut pas nécessairement le rendre plus "intelligent" ou le faire réapprendre des années de données. Il suffit de lui apprendre à résumer son passé (pour ne pas se noyer) et à consulter un manuel d'experts (pour ne pas faire les mêmes erreurs). C'est une solution simple, élégante et très efficace qui permet même à des modèles "gratuits" (open-source) de rivaliser avec les géants payants du marché.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les agents web autonomes basés sur les Modèles de Langage Multimodaux (MLLM) montrent un potentiel remarquable, mais ils peinent à gérer des tâches à horizon long (long-horizon tasks). Les approches actuelles reposent souvent sur une stratégie de "contexte complet" (full-context), où l'historique entier des interactions (captures d'écran HTML, textes d'interaction) est concaténé dans le prompt. Cela engendre deux problèmes majeurs :

Coût computationnel exorbitant : L'accumulation de captures d'écran haute résolution et de textes verbeux fait exploser la fenêtre de contexte, augmentant drastiquement les coûts d'inférence et la latence.
Dégradation des performances ("Lost-in-the-middle") : Un contexte trop long et bruyant distrait le modèle, noyant les indices critiques sous des informations historiques redondantes, ce qui conduit à des erreurs de raisonnement et à une perte de cohérence dans les tâches complexes.

Les solutions existantes (mémoire augmentée par SFT ou RL) souffrent souvent de coûts d'entraînement élevés, de besoins en données massifs et de complexités de déploiement.

2. Méthodologie : Le Framework M2

Pour résoudre ces défis, les auteurs proposent M2, un framework sans entraînement (training-free) et léger, reposant sur une mémoire à double niveau (Dual-Memory) qui optimise l'efficacité du contexte et la robustesse décisionnelle.

A. Mémoire Interne : Résumé Dynamique de la Trajectoire (Dynamic Trajectory Summarization)

Concept : Au lieu de conserver toutes les observations brutes (captures d'écran et textes) d'une fenêtre glissante, l'agent est invité à résumer lui-même son historique.
Mécanisme : À chaque étape $t$ , l'agent génère un triplet $(T_t, A_t, s_t)$ où $s_t$ est une abstraction textuelle concise de l'état précédent (ce qui a été vu et fait).
Fonctionnement : La mémoire interne $M_{int}$ est une chaîne récursive de ces résumés textuels. Les observations brutes et les pensées intermédiaires sont supprimées de la fenêtre de contexte active après avoir été résumées.
Avantage : Cela maintient la longueur du contexte sub-linéaire par rapport à la durée de la tâche, éliminant le bruit visuel tout en préservant la cohérence de l'état.

B. Mémoire Externe : Augmentation par Récupération d'Insights (Insight Retrieval Augmentation)

Concept : Une banque de connaissances externe ("Insight Bank") contenant des règles d'interaction stratégiques extraites de trajectoires réussies passées.
Construction de la Banque : Un modèle abstrait (Abstractor) analyse des milliers de trajectoires réussies (générées par divers modèles de pointe) pour en extraire des "règles à fort levier" (High-Leverage Interaction Rules). Ces règles sont généralisées (ex: "Toujours vérifier l'icône du panier après un ajout") plutôt que de mémoriser des URLs spécifiques.
Récupération : Lors d'une nouvelle tâche, le système calcule la similarité sémantique entre la requête utilisateur et les entrées de la banque. Les $Top-i$ insights les plus pertinents sont récupérés et injectés dans le prompt système comme des "indices défensifs" (Defensive Hints).
Avantage : Cela permet à l'agent d'éviter les pièges communs et d'adopter des stratégies éprouvées sans avoir besoin d'apprentissage supplémentaire.

3. Contributions Clés

Architecture à Double Mémoire Sans Entraînement : Un framework léger qui intègre un suivi interne récursif et une guidance externe, éliminant le besoin de coûteux SFT (Supervised Fine-Tuning) ou RL (Reinforcement Learning).
Compression Intra-Trajectoire et Récupération Inter-Trajectoire : Distillation de l'historique d'exécution en chaînes de résumés concis et récupération d'experts transversaux, atténuant la surcharge d'information.
Efficacité Évolutive et Parité de Modèles : Démonstration que cette approche permet aux modèles open-source locaux (comme Qwen) de rivaliser avec les modèles propriétaires fermés (comme Claude) en termes de précision, tout en réduisant massivement les coûts de tokens.

4. Résultats Expérimentaux

Le framework a été évalué sur deux benchmarks majeurs : WebVoyager et OnlineMind2Web, en utilisant des modèles variés (Claude-3.7-Sonnet, Claude-Sonnet-4, et Qwen3-VL-32B).

Amélioration du Taux de Réussite :
- Qwen3-VL-32B (Open Source) : Augmentation du taux de réussite de +16,2 % sur WebVoyager et +19,6 % sur OnlineMind2Web.
- Modèles Propriétaires (Claude) : Gains de précision allant jusqu'à +12,5 %.
- Surprenant : Avec M2, le modèle open-source Qwen3-VL-32B (74,0 %) dépasse le modèle Claude-3.7-Sonnet standard (72,0 %) sur WebVoyager.
Efficacité Computationnelle (Réduction des Tokens) :
- Réduction des coûts en tokens de 57,8 % pour Qwen3-VL-32B sur WebVoyager.
- Réduction de 55,0 % pour les modèles Claude sur OnlineMind2Web.
Analyse de Robustesse : Les gains sont particulièrement marqués sur les tâches "Moyennes" et "Difficiles", où la gestion de la mémoire empêche l'agent de se perdre dans des hiérarchies de navigation profondes.

5. Signification et Impact

Ce travail démontre que la gestion intelligente du contexte est aussi cruciale, voire plus, que la simple augmentation de la taille des modèles pour les agents web.

Démocratisation : En permettant aux modèles open-source de surpasser ou égaler les modèles propriétaires fermés grâce à une architecture de mémoire efficace, M2 réduit la barrière à l'entrée pour le développement d'agents web autonomes.
Durabilité : La réduction drastique de la consommation de tokens rend le déploiement d'agents web à long terme économiquement viable et écologiquement plus durable.
Approche Pragmatique : En évitant l'entraînement complexe, M2 offre une solution immédiatement déployable et adaptable à divers domaines web dynamiques, prouvant que la "mémoire" bien structurée est la clé de la navigation web autonome fiable.

M2^22: Dual-Memory Augmentation for Long-Horizon Web Agents via Trajectory Summarization and Insight Retrieval

1. Le Problème : Le "Sac à dos trop lourd"

2. La Solution M2 : Le Duo de Mémoire

A. La Mémoire Interne : Le "Résumé du Journal de Bord" (Trajectory Summarization)

B. La Mémoire Externe : Le "Guide de l'Expert" (Insight Retrieval)

3. Le Résultat : Plus rapide, plus intelligent, moins cher

1. Problématique

2. Méthodologie : Le Framework M2

A. Mémoire Interne : Résumé Dynamique de la Trajectoire (Dynamic Trajectory Summarization)

B. Mémoire Externe : Augmentation par Récupération d'Insights (Insight Retrieval Augmentation)

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

Multi-Agent Home Energy Management Assistant

ProCap: Projection-Aware Captioning for Spatial Augmented Reality

Fundamentals of Computing Continuous Dynamic Time Warping in 2D under Different Norms

UniLACT: Depth-Aware RGB Latent Action Learning for Vision-Language-Action Models

Efficient Model Repository for Entity Resolution: Construction, Search, and Integration

M $^2$ : Dual-Memory Augmentation for Long-Horizon Web Agents via Trajectory Summarization and Insight Retrieval