M$^2$: Dual-Memory Augmentation for Long-Horizon Web Agents via Trajectory Summarization and Insight Retrieval

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un asistente de inteligencia artificial muy inteligente que quiere ayudarte a navegar por internet para hacer tareas complejas, como comprar un regalo específico, reservar un viaje o investigar un tema profundo.

El problema es que, cuando la tarea es larga y complicada (llamada "de largo alcance"), este asistente se vuelve confuso y lento. ¿Por qué? Porque tiene una mala memoria: intenta recordar cada detalle de cada página que ha visitado, cada clic y cada imagen. Es como si alguien te pidiera que recordaras la historia completa de tu vida desde que naciste cada vez que te hacen una pregunta simple; te abrumarías y olvidarías lo que realmente importa.

Los investigadores de este paper (M2) han creado una solución genial llamada M2, que funciona como un "doble sistema de memoria" para darle al asistente un superpoder: saber cuándo olvidar y cuándo consultar un manual de trucos.

Aquí te explico cómo funciona con dos analogías simples:

1. El "Resumen Diario" (Memoria Interna)

El problema: Imagina que el asistente lleva un cuaderno gigante donde anota todo lo que ve. Si la tarea dura 20 pasos, el cuaderno tiene 20 páginas llenas de texto y fotos. Leerlo todo antes de dar el siguiente paso es lento y abrumador.

La solución de M2: En lugar de guardar todo el cuaderno, el asistente tiene un secretario muy eficiente. Después de cada paso, el secretario lee todo lo que pasó y escribe una sola frase que resume lo importante.

Antes: "Hice clic en el botón rojo, luego bajé la página, vi un anuncio, luego hice clic en 'comprar'..." (Miles de palabras).
Ahora con M2: "Estoy en la página de productos y acabo de seleccionar el modelo X".

La magia: El asistente ya no necesita leer 20 páginas; solo lee la última frase resumen. Esto hace que sea más rápido y no se sienta abrumado por la información de más.

2. El "Manual de Trucos de Experto" (Memoria Externa)

El problema: A veces, el asistente comete errores tontos porque nunca ha visto ese tipo de página antes. Por ejemplo, intenta buscar algo en Google y se queda atascado en una página de resultados vacía, sin saber que debería cambiar sus palabras clave.

La solución de M2: Imagina que el asistente tiene acceso a una biblioteca de experiencias de otros agentes que ya han tenido éxito en tareas similares. Antes de empezar, el sistema busca en esta biblioteca: "¿Alguien ha tenido problemas buscando en sitios de compras? ¿Qué hicieron?".

Si encuentra un "truco" (por ejemplo: "Si la búsqueda da cero resultados, prueba quitar los adjetivos y usa solo el nombre del producto"), se lo entrega al asistente como una pista estratégica.

La magia: El asistente no tiene que aprender por ensayo y error. Llega al trabajo con un mapa de los agujeros (dónde no caer) y las atajos (cómo llegar rápido) que otros ya descubrieron.

¿Qué logran con esto?

Al combinar estas dos ideas (resumir lo que pasó y consultar trucos de expertos), el sistema M2 consigue tres cosas increíbles:

Es más rápido y barato: Al no tener que leer miles de palabras de historia, el asistente gasta mucha menos energía (y dinero, si usas modelos de pago). En las pruebas, redujeron el "gasto de palabras" en un 58%.
Es más inteligente: Cometen muchos menos errores porque tienen las pistas de los expertos. En algunas pruebas, la tasa de éxito subió casi un 20%.
Funciona con modelos "normales": Lo mejor es que no necesitan entrenar al asistente durante meses. Funciona con modelos de código abierto (gratuitos) haciéndolos parecer tan inteligentes como los modelos de pago más caros.

En resumen

El paper M2 es como darle a un turista (el asistente) dos herramientas:

Un cuaderno de notas donde solo escribe lo esencial de su viaje, para no perderse en detalles.
Un guía turístico local que le dice: "Oye, en esta ciudad, si buscas el museo, no entres por la puerta principal, usa la entrada trasera que es más rápida".

Con estas dos herramientas, el turista llega a su destino más rápido, sin cansarse y sin perderse, incluso si el viaje es muy largo.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: M2 - Doble Memoria para Agentes Web de Largo Alcance

1. El Problema: Navegación Web de Largo Alcance

Los Agentes basados en Modelos de Lenguaje Multimodal (MLLM) han demostrado gran potencial en la navegación web autónoma. Sin embargo, enfrentan un cuello de botella crítico al manejar tareas de largo alcance (long-horizon tasks), que requieren múltiples pasos de interacción para completar objetivos complejos.

Las estrategias actuales sufren de dos problemas principales:

Costo Computacional Exorbitante: Los enfoques tradicionales utilizan una estrategia de "contexto completo", concatenando todo el historial de capturas de pantalla (HTML/visuales) y texto interactivo. Esto agota rápidamente la ventana de contexto, incrementando drásticamente los costos de tokens y los recursos de inferencia.
Degradación del Rendimiento ("Lost-in-the-Middle"): Un contexto excesivamente largo y ruidoso distrae al modelo, haciendo que pierda las señales críticas de la tarea bajo la información histórica redundante. Además, los métodos existentes que intentan solucionar esto (como el ajuste fino SFT o el Aprendizaje por Refuerzo RL) requieren grandes cantidades de datos, entrenamiento costoso y arquitecturas complejas de múltiples agentes, lo que dificulta su despliegue escalable.

2. Metodología: El Framework M2

Los autores proponen M2, un marco de trabajo libre de entrenamiento (training-free) y ligero que optimiza la eficiencia del contexto y la robustez en la toma de decisiones mediante un mecanismo de doble memoria:

A. Memoria Interna: Resumen Dinámico de Trayectorias (Dynamic Trajectory Summarization)

Mecanismo: En lugar de retener capturas de pantalla crudas y texto histórico extenso, el agente está instruido para realizar una auto-resumen en cada paso.
Funcionamiento: El agente extrae la retroalimentación visual y la acción ejecutada para generar una abstracción textual concisa ( $s_t$ ) que describe el estado actual y la acción tomada.
Actualización Recursiva: La memoria interna ( $M_{int}$ ) es una cadena de estos resúmenes. A medida que avanza la tarea, las observaciones crudas anteriores se descartan permanentemente, manteniendo el contexto compacto y libre de ruido visual (anuncios, barras laterales irrelevantes).
Beneficio: Reduce la longitud del contexto a un crecimiento sublineal, preservando la coherencia de la trayectoria sin el costo de los tokens visuales.

B. Memoria Externa: Recuperación de Insights (Insight Retrieval Augmentation)

Mecanismo: Utiliza una Banco de Insights (Insight Bank) offline, construido a partir de 55,000 trayectorias exitosas de diversos modelos avanzados.
Extracción: Un modelo abstractor distila reglas de interacción de alto nivel ("High-Leverage Interaction Rules") de estas trayectorias, generalizando valores específicos en estrategias universales (ej. cómo filtrar búsquedas, validar estados de la UI, evitar bucles infinitos).
Recuperación: Durante la inferencia, el agente recupera los Top-i insights más relevantes basándose en la similitud semántica entre la consulta del usuario y los historiales del banco.
Inyección: Estos insights se inyectan en el prompt del sistema como "Consejos Defensivos", guiando al agente para evitar errores comunes y navegar estructuras UI complejas sin necesidad de entrenamiento adicional.

3. Contribuciones Clave

Arquitectura de Doble Memoria Libre de Entrenamiento: Un marco ligero que integra el seguimiento interno recursivo con la guía externa, eliminando la necesidad de costosos procesos de SFT/RL o interacciones complejas entre múltiples agentes.
Compresión Intra-Trayectoria y Recuperación Inter-Trayectoria: Mecanismos para destilar el historial de ejecución en cadenas de resúmenes concisos y recuperar conocimientos expertos cruzados, mitigando la sobrecarga de información.
Eficacia Escalable y Paridad de Modelos: Demostración de que M2 permite que modelos de código abierto (como Qwen3-VL-32B) igualen o superen el rendimiento de modelos propietarios (como Claude), con una eficiencia de tokens superior.

4. Resultados Experimentales

El framework fue evaluado en dos benchmarks principales: WebVoyager y OnlineMind2Web, utilizando modelos como Claude-3.7-Sonnet, Claude-Sonnet-4 y Qwen3-VL-32B.

Mejora en Tasa de Éxito:
- Qwen3-VL-32B: Aumentó su tasa de éxito en un 16.2% en WebVoyager y un 19.6% en OnlineMind2Web.
- Modelos Propietarios (Claude): Lograron mejoras de precisión de hasta 12.5% (Claude-3.7-Sonnet).
- Paridad: Con M2, el modelo local Qwen3-VL-32B (74.0% de precisión) superó al agente base de Claude-3.7-Sonnet (72.0%), cerrando la brecha entre modelos abiertos y cerrados.
Eficiencia de Recursos:
- Reducción de Tokens: Se logró una reducción de tokens de hasta 58.7% para Qwen3-VL-32B y entre 30.3% y 55.0% para los modelos Claude.
- Costo de Inferencia: La latencia de recuperación de insights es negligible (~6 ms), haciendo el enfoque sostenible para despliegues en tiempo real.
Robustez: Las mejoras son más pronunciadas en tareas de dificultad media y alta, donde la gestión de la memoria evita que el agente se pierda en jerarquías de navegación profundas.

5. Significado e Impacto

El trabajo M2 establece un nuevo paradigma para la navegación web autónoma al demostrar que la gestión inteligente del contexto es tan crucial como la capacidad del modelo base.

Sostenibilidad: Al eliminar la necesidad de reentrenamiento masivo y reducir drásticamente el consumo de tokens, M2 ofrece una vía escalable y económica para desplegar agentes web de alta fidelidad en entornos reales.
Generalización: La capacidad de transferir "insights" de una tarea a otra demuestra que las reglas de interacción de UI son transferibles entre dominios web diversos.
Accesibilidad: Permite que organizaciones con recursos limitados utilicen modelos de código abierto para lograr un rendimiento de nivel empresarial en tareas complejas, democratizando el acceso a agentes web avanzados.

En conclusión, M2 resuelve el problema de la "explosión de contexto" en agentes web mediante una arquitectura de memoria dual que combina la compresión de la historia reciente con la sabiduría acumulada de experiencias pasadas, logrando un equilibrio óptimo entre precisión, robustez y eficiencia computacional.

M2^22: Dual-Memory Augmentation for Long-Horizon Web Agents via Trajectory Summarization and Insight Retrieval

1. El "Resumen Diario" (Memoria Interna)

2. El "Manual de Trucos de Experto" (Memoria Externa)

¿Qué logran con esto?

En resumen

Resumen Técnico: M2 - Doble Memoria para Agentes Web de Largo Alcance

1. El Problema: Navegación Web de Largo Alcance

2. Metodología: El Framework M2

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

M-RAG: Making RAG Faster, Stronger, and More Efficient

Bridge-RAG: An Abstract Bridge Tree Based Retrieval Augmented Generation Algorithm With Cuckoo Filter

ReCQR: Incorporating conversational query rewriting to improve Multimodal Image Retrieval

SRAG: RAG with Structured Data Improves Vector Retrieval

Can AI be a Teaching Partner? Evaluating ChatGPT, Gemini, and DeepSeek across Three Teaching Strategies

M $^2$ : Dual-Memory Augmentation for Long-Horizon Web Agents via Trajectory Summarization and Insight Retrieval