TimeWarp: Evaluating Web Agents by Revisiting the Past

O artigo apresenta o TimeWarp, um benchmark que avalia a robustez de agentes web diante de mudanças no design e layout da internet, e propõe o algoritmo TimeTraj, que utiliza destilação de planos em múltiplas versões de interface para superar as limitações da clonagem de comportamento tradicional e melhorar significativamente o desempenho de modelos como Qwen-3 e Llama-3.1.

Md Farhan Ishmam, Kenneth Marino

Publicado 2026-03-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você treinou um funcionário muito inteligente para trabalhar em um supermercado. Ele aprendeu a encontrar o leite, o pão e o queijo perfeitamente, seguindo os corredores e prateleiras exatamente como eles eram na semana em que foi treinado.

Agora, imagine que, da noite para o dia, o supermercado muda tudo: o leite foi movido para o teto, o pão está escondido atrás de um espelho e as prateleiras agora são feitas de vidro que muda de cor. O que acontece com seu funcionário? Ele provavelmente fica perdido, bate na cabeça no vidro e não consegue mais fazer seu trabalho.

É exatamente esse o problema que o artigo TIMEWARP tenta resolver.

Aqui está uma explicação simples do que os pesquisadores descobriram e como eles criaram uma solução:

1. O Problema: A Internet é um Camaleão

Hoje, os "agentes da web" (robôs de IA que navegam na internet para nós) estão ficando muito bons em tarefas específicas. Mas a internet não é estática; ela muda o tempo todo. Sites mudam de layout, botões mudam de lugar, e o design evolui.

O artigo mostra que, se você treinar um robô apenas no "site de hoje", ele vai falhor miseravelmente no "site de amanhã" ou no "site de ontem". É como treinar um piloto apenas em um dia de sol e esperar que ele pouse perfeitamente em uma tempestade.

2. A Solução: A Máquina do Tempo (TIMEWARP)

Os pesquisadores criaram um novo "campo de treinamento" chamado TIMEWARP.

  • A Analogia: Imagine um museu de carros antigos, mas em vez de carros, são versões de sites. Eles pegaram sites reais (como uma enciclopédia, um site de notícias e uma loja virtual) e criaram 6 versões de cada um, desde o design "retro" dos anos 2000 até o design moderno de hoje.
  • O Teste: Eles colocaram os robôs para tentar realizar tarefas (como "comprar um biscoito" ou "ler uma notícia") nessas diferentes versões.
  • O Resultado: Os robôs, especialmente os que usam visão (como câmeras), ficaram confusos. Quando o site mudou um pouco, eles travaram. Isso provou que os robôs atuais são frágeis e não entendem a lógica do site, apenas memorizam onde os botões estão.

3. A Técnica Mágica: TIMETRAJ (O Mestre e o Aprendiz)

Como treinar um robô para lidar com todas essas mudanças sem ter que reescrever o manual de instruções 6 vezes? Eles criaram um método chamado TIMETRAJ.

  • A Analogia do Mestre e do Aprendiz:
    • O Mestre (Planner): Um humano (ou uma IA muito inteligente) olha para o objetivo (ex: "comprar biscoitos") e cria um plano de alto nível. "Vá até a prateleira A, pegue o pacote azul, pague no caixa". Esse plano é genérico e funciona em qualquer versão do site.
    • O Executor (Teacher): Um robô "mestre" pega esse plano e tenta executá-lo em todas as 6 versões do site (do antigo ao novo). Ele aprende como adaptar o plano: "Ah, na versão antiga, a prateleira A estava no chão, então eu tenho que agachar".
    • O Aprendiz (Student): O robô que queremos treinar assiste a todas essas execuções do Mestre. Ele não apenas vê o que foi feito, mas como o Mestre pensou, planejou e lembrou das coisas.

4. O Resultado: Robôs que Pensam e Se Adaptam

Ao usar essa técnica, os pesquisadores conseguiram treinar robôs que são muito mais fortes:

  • Eles aprenderam a pensar antes de agir (não apenas clicar cegamente).
  • Eles aprenderam a lembrar do que viram em passos anteriores.
  • Eles aprenderam a planejar rotas diferentes dependendo de como o site se parece.

Os números são impressionantes:

  • Um modelo que antes tinha 0% de sucesso em sites antigos, saltou para 27% após esse treinamento.
  • Outro modelo melhorou de 20% para quase 38%.

Resumo Final

O TIMEWARP é como um "simulador de voo" para a internet. Em vez de treinar pilotos apenas para voar em um dia específico, eles os treinam para voar em qualquer clima, em qualquer época da história da aviação.

A lição principal é: para criar robôs que realmente funcionem no mundo real (que muda o tempo todo), não podemos apenas ensiná-los a repetir movimentos. Temos que ensiná-los a entender o plano, a pensar e a se adaptar quando a "decoração" da internet muda.