M$^2$: Dual-Memory Augmentation for Long-Horizon Web Agents via Trajectory Summarization and Insight Retrieval

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô muito inteligente, mas com uma memória de curto prazo limitada, a navegar na internet para realizar tarefas complexas, como "comprar um MacBook específico" ou "encontrar um voo para Paris".

O problema é que, quanto mais o robô clica e navega, mais ele "esquece" o que fez antes porque a lista de tudo o que aconteceu fica gigantesca. É como tentar ler um livro onde cada página nova é colada na anterior sem parar; em pouco tempo, o livro fica tão grosso que o robô não consegue mais ver a página atual, fica confuso e desiste. Isso é o que os cientistas chamam de "longo horizonte" (tarefas que exigem muitos passos).

A solução proposta neste artigo, chamada M2, é como dar a esse robô dois tipos de "diários" inteligentes para ajudá-lo a não se perder. Vamos chamar esse sistema de "O Robô com Dois Diários Mágicos".

O Problema: O Robô Afogado em Papelada

Normalmente, para lembrar o que fez, o robô guarda tudo: cada tela que viu, cada clique que deu.

Analogia: Imagine que você está dirigindo e, em vez de olhar pela janela, você é obrigado a levar consigo o registro de cada árvore, poste e carro que passou nos últimos 100 km. Seu carro (o processador do robô) ficaria sobrecarregado, o combustível (custo computacional) acabaria rápido e você se perderia no meio do caminho.

A Solução: O Sistema M2 (Memória Dupla)

Os autores criaram um sistema que não precisa treinar o robô de novo (o que seria caro e demorado). Em vez disso, eles deram a ele duas ferramentas de organização:

1. O Diário Interno: "Resumo do Dia" (Trajectory Summarization)

Em vez de guardar cada foto da tela, o robô é instruído a escrever um resumo curto e inteligente a cada passo.

Como funciona: Ao invés de guardar 50 fotos de telas cheias de anúncios e menus, o robô escreve: "Estava na página da Apple, cliquei em 'Mac', agora estou na página de iPhones."
Analogia: É como transformar um filme de 3 horas em um resumo de 10 linhas. O robô joga fora o "ruído" (anúncios, barras laterais) e guarda apenas a essência: onde ele estava e o que fez. Isso mantém a memória leve e rápida.

2. O Diário Externo: "O Manual de Erros Passados" (Insight Retrieval)

Aqui está a parte genial. O robô tem acesso a uma biblioteca gigante de "lições aprendidas" de outros robôs que já fizeram tarefas semelhantes com sucesso.

Como funciona: Antes de começar uma tarefa nova, o robô pergunta à biblioteca: "Alguém já tentou comprar um computador na Apple? Qual foi o truque?" A biblioteca responde: "Ah, sim! Sempre clique em 'Mac' antes de procurar o modelo específico, senão você se perde."
Analogia: É como ter um mentor experiente ao seu lado. Se você vai cozinhar um prato complexo pela primeira vez, em vez de tentar adivinhar, você consulta um livro de receitas de um chef que já fez isso mil vezes. O livro te avisa: "Cuidado, não adicione o sal antes de ferver a água, senão o prato fica ruim." Isso evita que o robô cometa erros óbvios e repita caminhos sem saída.

O Resultado: Mais Rápido, Mais Barato e Mais Inteligente

Ao usar esses dois diários juntos, o robô consegue:

Não se afogar: A memória interna mantém o foco no que importa, economizando "espaço" (tokens) e dinheiro.
Não tropeçar: A memória externa dá dicas estratégicas para evitar armadilhas comuns da internet.

Na prática:

O robô ficou muito mais preciso (até 19% melhor em acertar a tarefa).
O robô gastou muito menos "combustível" (redução de até 58% no uso de dados), tornando a tarefa mais barata e rápida.
Robôs de código aberto (gratuitos) conseguiram fazer tarefas tão bem quanto robôs pagos e caros, graças a essa organização inteligente.

Resumo Final

O artigo M2 não inventou um novo cérebro para o robô. Em vez disso, ele inventou um sistema de organização brilhante. É como pegar uma pessoa inteligente, mas desorganizada, e dar a ela um caderno de anotações resumidas e um manual de dicas de especialistas. De repente, ela consegue resolver problemas complexos sem se perder, sem gastar horas e sem precisar de um curso de treinamento de anos.

É a prova de que, às vezes, a melhor inteligência não é ter um cérebro maior, mas saber o que guardar e o que esquecer.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: M2 – Augmentação de Memória Dupla para Agentes Web de Longo Alcance

1. O Problema

Os Agentes baseados em Modelos de Linguagem Multimodal (MLLMs) demonstraram grande potencial na navegação autônoma na web. No entanto, lidar com tarefas de longo alcance (long-horizon) permanece um gargalo crítico. As abordagens atuais enfrentam dois desafios principais:

Custo Computacional Exorbitante: Estratégias de "contexto completo" concatenam todo o histórico de interações (capturas de tela de alta resolução e texto) no prompt. À medida que a tarefa avança, o tamanho do contexto cresce indefinidamente, sobrecarregando os recursos de inferência.
Degradação de Desempenho ("Lost-in-the-Middle"): Contextos excessivamente longos e ruidosos distraem o modelo, fazendo com que informações cruciais para a tarefa sejam "enterradas" sob dados históricos redundantes, levando a erros de raciocínio.
Dependência de Treinamento: Muitas soluções existentes exigem Supervised Fine-Tuning (SFT) ou Reinforcement Learning (RL) massivos, o que implica custos elevados de dados e computação, além de arquiteturas complexas de múltiplos agentes.

2. Metodologia: O Framework M2

Os autores propõem o M2, um framework livre de treinamento (training-free) e leve que otimiza a eficiência do contexto e a robustez da decisão através de um mecanismo de memória dupla:

A. Memória Interna: Resumo Dinâmico de Trajetória (Dynamic Trajectory Summarization)

Objetivo: Comprimir o histórico de interações verboso em atualizações de estado concisas.
Mecanismo: Em vez de manter capturas de tela brutas e logs de texto completos, o agente é instruído a realizar uma auto-resumo em cada passo.
Processo: O agente gera um triplet $(T_t, A_t, s_t)$ , onde $s_t$ é uma abstração textual concisa do estado atual e da ação realizada.
Atualização Recursiva: A memória interna ( $M^{int}_t$ ) é uma cadeia de resumos textuais. As observações brutas anteriores são descartadas do contexto ativo, garantindo que o tamanho do contexto cresça de forma sublinear, independentemente da duração da tarefa.

B. Memória Externa: Augmentação por Recuperação de Insights (Insight Retrieval Augmentation)

Objetivo: Fornecer orientação estratégica global baseada em experiências passadas.
Banco de Insights (Insight Bank): Um banco de dados offline construído a partir de 55.000 trajetórias de sucesso geradas por diversos modelos de ponta. Um modelo "Abstractor" extrai regras de interação de alto nível (ex: estratégias de busca, validação de estado, eficiência de navegação) e generaliza-as para serem aplicáveis a tarefas semanticamente similares.
Recuperação: Durante a execução, o agente calcula a similaridade semântica entre a consulta do usuário e o banco de insights, recuperando os Top-i insights mais relevantes.
Injeção: Esses insights são injetados no prompt do sistema como "Dicas Defensivas" (Defensive Hints), orientando o agente a evitar armadilhas comuns e erros históricos sem necessidade de re-treinamento.

C. Integração
O contexto de decisão final ( $C'_t$ ) combina o prompt do sistema, a consulta do usuário, a Memória Interna (resumo do progresso atual) e a Memória Externa (insights estratégicos), substituindo o histórico bruto completo.

3. Contribuições Principais

Arquitetura de Memória Dupla Livre de Treinamento: Um framework leve que integra rastreamento interno recursivo com orientação externa, eliminando a necessidade de SFT/RL custoso ou interações complexas entre múltiplos agentes.
Compressão Intra-Trajetória e Recuperação Inter-Trajetória: Mecanismos inovadores para destilar o histórico de execução em cadeias de resumo e recuperar insights de especialistas entre tarefas, mitigando a sobrecarga de informações.
Eficiência Escalável e Paridade de Modelos: Demonstra que o M2 permite que modelos de código aberto (como Qwen3-VL-32B) alcancem desempenho comparável ou superior a modelos proprietários (como Claude), com ganhos significativos em eficiência de tokens.

4. Resultados Experimentais

O framework foi avaliado nos benchmarks WebVoyager e OnlineMind2Web utilizando modelos como Qwen3-VL-32B, Claude-3.7-Sonnet e Claude-Sonnet-4.

Aumento de Sucesso:
- Qwen3-VL-32B: Aumento de 16,2% na taxa de sucesso no WebVoyager e 19,6% no OnlineMind2Web.
- Claude-3.7-Sonnet: Aumento de até 12,5% na precisão.
- O modelo Qwen3-VL-32B com M2 (74,0% de acurácia) superou o agente Claude-3.7-Sonnet padrão (72,0%), fechando a lacuna entre modelos open-source e proprietários.
Eficiência de Recursos (Tokens):
- Redução de 58,7% no consumo de tokens para o Qwen3-VL-32B no OnlineMind2Web.
- Redução de 57% no WebVoyager.
- O custo computacional de recuperação de insights é negligenciável (~6ms por tarefa).
Robustez: O desempenho melhora significativamente em tarefas de dificuldade "Média" e "Difícil", onde a estabilidade da memória e a orientação estratégica são cruciais para evitar loops e erros de navegação.

5. Significado e Impacto

O trabalho M2 estabelece um novo paradigma para agentes web de longo alcance:

Viabilidade Econômica: Ao eliminar a necessidade de treinamento pesado e reduzir drasticamente o consumo de tokens, torna a implantação de agentes web autônomos em larga escala economicamente viável.
Generalização: A capacidade de transferir "insights" de um conjunto de tarefas para outro sem re-treinamento demonstra que regras de interação de UI são transferíveis entre domínios web distintos.
Sustentabilidade: A arquitetura desacopla o crescimento do contexto do crescimento da tarefa, permitindo navegação de alta fidelidade com custos computacionais sustentáveis, resolvendo o problema da "explosão de contexto" de forma elegante e eficiente.

Em suma, o M2 prova que uma gestão inteligente de memória (resumo interno + recuperação externa) é mais eficaz para tarefas complexas de navegação web do que simplesmente aumentar a capacidade de contexto ou treinar modelos maiores.

M2^22: Dual-Memory Augmentation for Long-Horizon Web Agents via Trajectory Summarization and Insight Retrieval

O Problema: O Robô Afogado em Papelada

A Solução: O Sistema M2 (Memória Dupla)

1. O Diário Interno: "Resumo do Dia" (Trajectory Summarization)

2. O Diário Externo: "O Manual de Erros Passados" (Insight Retrieval)

O Resultado: Mais Rápido, Mais Barato e Mais Inteligente

Resumo Final

Resumo Técnico: M2 – Augmentação de Memória Dupla para Agentes Web de Longo Alcance

1. O Problema

2. Metodologia: O Framework M2

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

M-RAG: Making RAG Faster, Stronger, and More Efficient

Bridge-RAG: An Abstract Bridge Tree Based Retrieval Augmented Generation Algorithm With Cuckoo Filter

ReCQR: Incorporating conversational query rewriting to improve Multimodal Image Retrieval

SRAG: RAG with Structured Data Improves Vector Retrieval

Can AI be a Teaching Partner? Evaluating ChatGPT, Gemini, and DeepSeek across Three Teaching Strategies

M $^2$ : Dual-Memory Augmentation for Long-Horizon Web Agents via Trajectory Summarization and Insight Retrieval