HiconAgent: History Context-aware Policy Optimization for GUI Agents

O artigo apresenta o HiconAgent, um agente de interface gráfica otimizado com a estratégia HCPO, que utiliza amostragem de contexto dinâmico e compressão de histórico guiada por âncoras para melhorar a eficiência e o desempenho em tarefas de navegação sequencial, superando modelos maiores com menor custo computacional.

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao

Publicado 2026-03-10
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando um robô novato a usar o celular de alguém. O objetivo é fazer tarefas complexas, como "comprar uma passagem de avião" ou "encontrar um par de sapatos".

O problema é que, para tomar a decisão certa agora, o robô precisa lembrar do que aconteceu antes. Mas aqui está o dilema:

  1. Se ele esquecer tudo do passado, ele vai se perder e repetir erros.
  2. Se ele lembrar de absolutamente tudo (cada tela que ele viu, cada clique que fez), a memória dele fica tão cheia que ele fica lento, confuso e gasta muita energia (como tentar ler um livro inteiro antes de decidir qual página virar).

Os pesquisadores criaram o HiconAgent para resolver exatamente isso. Eles desenvolveram um método inteligente chamado HCPO (Otimização de Política Consciente do Contexto Histórico).

Aqui está como funciona, usando analogias do dia a dia:

1. O Problema: O "Sobrecarregado" vs. o "Esquecido"

Pense em um funcionário de escritório.

  • O jeito antigo: O chefe diz: "Para resolver este problema, leia todos os e-mails dos últimos 5 anos". O funcionário gasta horas lendo coisas irrelevantes e chega atrasado.
  • O jeito super simples: O chefe diz: "Apenas olhe para a tela de agora". O funcionário não sabe que o cliente já reclamou ontem e faz a mesma coisa errada.

O HiconAgent quer o equilíbrio perfeito: ler apenas o que é realmente útil para o momento atual.

2. A Solução: Duas Técnicas Mágicas

O HiconAgent usa duas estratégias principais para aprender a ser eficiente:

A. A "Bússola de Memória Variável" (Dynamic Context Sampling)

Imagine que você está jogando um jogo de aventura.

  • Às vezes, você só precisa lembrar do que aconteceu 5 segundos atrás (ex: "eu pulei um buraco").
  • Outras vezes, você precisa lembrar de 10 minutos atrás (ex: "eu peguei a chave dourada no castelo").

O HiconAgent não usa uma regra fixa ("lembre sempre dos últimos 3 passos"). Em vez disso, durante o treinamento, ele pratica com diferentes tamanhos de memória.

  • Às vezes, ele é forçado a lembrar de pouco.
  • Às vezes, é forçado a lembrar de muito.
  • Com o tempo, ele aprende a adicionar ou remover informações da memória automaticamente, dependendo de quão difícil é a tarefa. É como um aluno que aprende a saber quanto estudar para cada prova, em vez de decorar tudo de qualquer jeito.

B. O "Guia de Ação" (Anchor-guided History Compression)

Aqui está a parte mais inteligente. O robô precisa lembrar de duas coisas do passado:

  1. O que ele viu (as telas, os botões).
  2. O que ele fez (os cliques, os toques).

O papel descobriu que as telas antigas (o que ele viu) são muitas vezes redundantes e pesadas (como ter 100 fotos da mesma parede). Mas os cliques antigos (o que ele fez) são como âncoras ou marcadores. Eles dizem: "Eu cliquei aqui, então agora o estado mudou".

O HiconAgent faz o seguinte:

  • Ele joga fora as telas antigas (para economizar energia e ficar rápido).
  • Mas ele mantém os registros dos cliques (as âncoras).
  • Ele usa uma técnica de "dupla via": treina uma versão que vê tudo (o professor) e uma versão que vê pouco (o aluno). O "aluno" (versão leve) aprende a imitar o "professor" apenas olhando para as âncoras dos cliques.

Resultado: O robô fica super rápido (como um carro esportivo) porque não carrega peso desnecessário, mas ainda toma decisões precisas porque sabe exatamente onde pisou antes.

3. Os Resultados: O "Pequeno Gigante"

O modelo HiconAgent é pequeno (3 Bilhões de parâmetros), mas é mais inteligente e rápido que modelos gigantes (7 Bilhões) que tentam lembrar de tudo.

  • Velocidade: Ele é 2,47 vezes mais rápido.
  • Eficiência: Usa 60% menos energia computacional.
  • Precisão: Em testes de navegação em celulares, ele erra menos e completa mais tarefas do que os modelos maiores.

Resumo em uma frase

O HiconAgent é como um detetive experiente que, em vez de revisar todo o arquivo do caso (que é gigante), sabe exatamente quais pistas específicas (os cliques anteriores) olhar para resolver o mistério atual, economizando tempo e energia sem perder a precisão.