Hybrid Self-evolving Structured Memory for GUI Agents

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô a usar o computador para você. O robô é muito inteligente, consegue "ver" a tela e entender o que você pede, mas ele tem um grande defeito: ele esquece tudo o que aconteceu há dois minutos.

Se você pedir para ele "comprar um presente, escolher o tamanho, pagar e confirmar", ele pode fazer a primeira parte, mas na hora de pagar, ele esquece qual presente escolheu ou onde estava. É como tentar montar um quebra-cabeça gigante, mas a cada peça que você coloca, o robô apaga a memória das peças anteriores.

Os pesquisadores deste artigo criaram uma solução genial chamada HYMEM. Vamos entender como funciona usando uma analogia simples: o Cérebro Humano vs. uma Pilha de Papéis.

O Problema: A Pilha de Papéis Desorganizada

Antes, os robôs guardavam suas experiências em uma "memória" que era como uma pilha gigante de papéis soltos no chão.

Quando precisava lembrar de algo, o robô lia todos os papéis procurando palavras-chave.
O problema: Era lento, confuso e não entendia a história por trás das ações. Era como tentar encontrar uma receita específica em um monte de jornais velhos misturados com recibos de mercado.

A Solução: O HYMEM (A Biblioteca Viva)

O HYMEM é como dar ao robô um cérebro humano e uma biblioteca inteligente. Eles dividem a memória em duas partes que trabalham juntas, inspiradas no nosso próprio cérebro:

1. A Parte "Conceitual" (O Mapa do Tesouro)

Imagine que você tem um mapa desenhado à mão. Ele não mostra cada árvore ou pedra do caminho, mas mostra os pontos principais: "Aqui é a praça", "Aqui é a ponte", "Aqui é o tesouro".

No robô, isso são os nós simbólicos. Eles guardam a "estratégia": "Para comprar algo barato, sempre filtre do menor para o maior preço".
Isso é como ter um resumo da história, fácil de ler e entender rápido.

2. A Parte "Detalhada" (A Caixa de Fotos e Vídeos)

Agora, imagine que, ao lado de cada ponto no mapa, há uma caixa com fotos, vídeos e anotações detalhadas daquele momento específico.

No robô, isso são os embeddings contínuos. Eles guardam a "evidência visual": a cor exata do botão que você clicou, o texto que apareceu, o layout da tela.
Isso garante que o robô não esqueça os detalhes importantes que o resumo não consegue explicar.

O Truque Mágico: A Memória que Cresce Sozinha

A parte mais legal do HYMEM é que ele evolui sozinho, como se aprendesse com a vida.

Auto-Evolução (O Bibliotecário Inteligente): Toda vez que o robô faz uma tarefa nova, ele não apenas joga o papel na pilha. Ele pergunta: "Já tenho um mapa parecido com isso?"
- Se for novo, ele desenha um novo ponto no mapa.
- Se for igual ao que já existe, ele atualiza o ponto antigo com informações melhores (como corrigir um erro de rota).
- Se for pior que o que já tem, ele joga fora.
- Resultado: A memória nunca fica bagunçada. Ela fica mais inteligente e organizada com o tempo, sem ficar gigante demais.
Memória de Trabalho "Ao Vivo" (O GPS em Tempo Real):
Durante a tarefa, o robô tem uma "memória de trabalho" (como a memória de curto prazo de um humano). O HYMEM atualiza essa memória enquanto o robô trabalha.
- Exemplo: Se o robô estava "procurando um hotel" e de repente a tela muda para "pagamento", o HYMEM percebe a mudança, descarta as instruções de "procura" e traz novas instruções de "pagamento" da biblioteca. Ele se adapta instantaneamente.

Por que isso é incrível?

Os pesquisadores testaram isso em robôs "pequenos" (modelos de 7 bilhões de parâmetros, que são mais baratos e rápidos).

Sem HYMEM: Eles erravam muito em tarefas longas.
Com HYMEM: Eles começaram a fazer tão bem quanto (ou até melhor!) que os robôs "gigantes" e caros de empresas como Google e OpenAI.

Resumo da Ópera:
O HYMEM transformou a memória do robô de uma pilha de papéis velhos em uma biblioteca viva e inteligente. Ele sabe resumir o que importa (estratégia), guardar os detalhes (visual) e se atualizar sozinho enquanto trabalha. Isso permite que robôs mais simples e baratos consigam realizar tarefas complexas no computador, como um humano experiente faria.

Each language version is independently generated for its own context, not a direct translation.

1. Problema

Os agentes de Interface Gráfica do Usuário (GUI) baseados em Modelos de Linguagem e Visão (VLMs) têm avançado significativamente, permitindo interações semelhantes às humanas com computadores. No entanto, tarefas reais de uso de computador enfrentam desafios críticos:

Horizontes Longos e Diversidade: Fluxos de trabalho complexos e interfaces variadas exigem planejamento de longo prazo.
Erros Intermediários: Agentes atuais frequentemente falham devido a erros não triviais ou à omissão de condições críticas durante a execução.
Limitações da Memória Atual: Trabalhos anteriores equipam agentes com memórias externas baseadas em recuperação plana (flat retrieval) de resumos discretos ou embeddings contínuos. Essas abordagens carecem da organização estruturada e da capacidade de autoevolução (atualização contínua) características da memória humana. Elas não conseguem organizar o conhecimento de forma hierárquica nem se adaptar dinamicamente a novas experiências sem crescimento descontrolado.

2. Metodologia: HYMEM

O artigo propõe o HYMEM (Hybrid Self-evolving Structured Memory), uma memória externa baseada em grafos inspirada na neurobiologia humana (hipocampo e neocórtex). O sistema combina dois caminhos:

A. Estrutura Híbrida do Grafo

O conhecimento é organizado em um grafo evolutivo $G = (V, E)$ , onde os nós representam trajetórias de interação bem-sucedidas. Cada nó é uma tupla com três componentes:

Estratégia de Alto Nível (Símbolo Discreto): Um resumo heurístico da estratégia central (ex: "filtrar preços do menor para o maior"). Funciona como o "neocórtex", fornecendo conceitos abstratos.
Atributos de Nível Médio (Símbolo Discreto): Tags semânticas (ex: #search, #filter, $price) que fornecem dicas sobre ações e elementos de UI.
Embeddings de Trajetória de Baixo Nível (Contínuo): Representações latentes contínuas da trajetória completa, preservando evidências multimodais detalhadas (imagens e ações). Funciona como o "hipocampo".

As arestas conectam nós que compartilham atributos idênticos, permitindo buscas estruturadas de múltiplos saltos (multi-hop).

B. Construção e Autoevolução (Self-Evolving)

O sistema atualiza o grafo dinamicamente à medida que novas trajetórias chegam, utilizando um pipeline de três etapas:

Recuperação de Nós Relevantes: Usa CLIP (texto + imagem) e FAISS para encontrar nós vizinhos semanticamente similares.
Verificação de Redundância (Judge VLM): Um VLM avalia se a nova trajetória deve ser:
- ADICIONADA (ADD): Se traz uma estratégia ou atributo inédito.
- FUNDIDA (MERGE): Se complementa uma estratégia existente com novas evidências.
- SUBSTITUÍDA (REPLACE): Se é estritamente superior à existente (menos passos, maior sucesso).
Atualização Estruturada: O grafo é refinado adicionando, fundindo ou substituindo nós e fortalecendo arestas baseadas em co-ocorrências observadas, garantindo que a memória cresça de forma controlada e coerente.

C. Utilização da Memória (Inferência)

Durante a execução do agente, o HYMEM opera em duas fases:

Inicialização da Memória de Trabalho: Recupera sementes semânticas e expande o grafo para coletar vizinhos (1-hop), criando um contexto rico que combina instruções de estratégia (discreto) e evidências visuais (contínuo).
Atualização em Tempo Real (On-the-fly): Após cada ação, o agente detecta "mudanças de fase" (ex: de "busca" para "checkout"). Se detectada, o sistema reavalia o contexto, descarta informações obsoletas e busca novas diretrizes, mantendo a memória de trabalho sincronizada com o estado atual da GUI.

3. Principais Contribuições

Arquitetura Híbrida: Unificação de símbolos discretos (para raciocínio e planejamento) e embeddings contínuos (para precisão perceptiva) em uma única estrutura de grafo.
Mecanismo de Autoevolução: Um sistema que não apenas armazena, mas evolui o conhecimento através de operações de adição, fusão e substituição, evitando redundância e mantendo a qualidade da memória.
Atualização Dinâmica de Trabalho: Capacidade de refrescar a memória de trabalho durante a inferência baseada na detecção de mudanças de fase da tarefa, essencial para interações de longo prazo.
Eficiência Computacional: Utilização de VLMs leves (como Qwen2.5-VL-7B) para codificação e atualização, permitindo que backbones pequenos superem modelos fechados massivos.

4. Resultados Experimentais

Os experimentos foram realizados em benchmarks desafiadores: WebVoyager, Multimodal-Mind2Web e MMInA.

Desempenho Geral: O HYMEM melhorou consistentemente agentes de código aberto.
- Qwen2.5-VL-7B: Aumentou a taxa de sucesso de 12.5% para 35.0% (+22.5 pontos percentuais).
- Superação de Modelos Fechados: O agente com HYMEM (7B) superou o Gemini 2.5 Pro Vision e o GPT-4o em média, e superou o Claude-4 em domínios específicos como Viagem e Wikipedia.
- Qwen3-VL-8B e UI-TARS-1.5-7B: Também alcançaram seus melhores resultados com a abordagem híbrida.
Análise de Evolução:
- A evolução global (aprendizado contínuo) trouxe ganhos de ~25% no domínio da Amazon.
- A evolução local (atualização de memória de trabalho) foi crucial para lidar com mudanças de fase, melhorando a consistência em tarefas longas.
Escalabilidade: O desempenho aumentou com o tamanho do grafo de memória, mas a estrutura de grafos comprimiu trajetórias redundantes, permitindo que o número de nós crescesse sublinearmente em relação ao número de trajetórias brutas.
Equilíbrio Similaridade-Diversidade: A estratégia de recuperação que misturava 5 sementes semânticas com 5 vizinhos do grafo (diversidade) superou estratégias puramente baseadas em similaridade ou puramente baseadas em diversidade.

5. Significado e Impacto

O HYMEM representa um avanço significativo na automação de GUIs ao demonstrar que agentes leves e de código aberto podem rivalizar ou superar modelos proprietários massivos quando equipados com uma memória estruturada e evolutiva.

Paradigma de Memória: Move o campo de "armazenamento plano" para "memória estruturada e viva", imitando processos cognitivos humanos de consolidação e recuperação associativa.
Custo-Efetividade: Oferece um caminho viável para criar agentes de IA de alto desempenho sem a necessidade de modelos de base gigantescos, reduzindo barreiras de custo e acesso.
Futuro: Estabelece uma base para aprendizado contínuo em agentes, onde a memória não é estática, mas um ativo que se refina e se adapta com a experiência.

Em suma, o trabalho prova que a organização inteligente da experiência passada (memória) é tão crítica quanto a capacidade de percepção do modelo para resolver tarefas complexas de uso de computador.