AI Planning Framework for LLM-Based Web Agents

Este artigo apresenta um framework de planejamento que mapeia arquiteturas de agentes web baseados em LLMs para paradigmas de busca tradicionais, introduz uma nova taxonomia e métricas de avaliação para diagnosticar falhas, e valida essa abordagem comparando agentes passo a passo com agentes de planejamento completo em um novo conjunto de dados.

Orit Shahnovsky, Rotem Dror

Publicado 2026-03-16
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você precisa ensinar um robô muito inteligente, mas um pouco "sonhador" (chamado de Agente de IA), a fazer tarefas complexas na internet, como comprar um presente, reservar uma viagem ou organizar planilhas.

O problema é que, até agora, esses robôs funcionavam como uma "caixa preta". Eles tentavam fazer as coisas, mas quando falhavam, ninguém sabia exatamente por quê. Será que esqueceram o objetivo? Será que se perderam no meio do caminho?

Este artigo é como um manual de instruções e um novo sistema de avaliação para entender como esses robôs pensam e como podemos consertá-los.

Aqui está a explicação simplificada, usando analogias do dia a dia:

1. Os Três Tipos de "Mentes" de Robô

Os autores descobriram que existem basicamente três formas de um robô planejar suas ações na internet, e eles compararam cada uma a um método clássico de navegação:

  • O "Passo a Passo" (BFS - Busca em Largura):

    • A Analogia: Imagine que você está em um labirinto e decide olhar apenas para o chão, na frente dos seus pés, antes de dar o próximo passo. Você não planeja o caminho todo; você apenas reage ao que vê agora.
    • Como funciona: O robô olha a página atual, decide uma ação (ex: "clicar aqui"), faz a ação, olha o resultado e decide a próxima. É muito reativo e flexível.
    • Vantagem: Se a página mudar de repente, ele se adapta rápido.
    • Desvantagem: Ele pode se perder no meio do caminho e esquecer o objetivo final (como alguém que começa a caminhar e esquece para onde ia).
  • O "Caçador de Caminhos" (Tree Search):

    • A Analogia: Imagine que você está no topo de uma montanha e olha para vários caminhos possíveis. Você escolhe o que parece mais promissor, mas se ele parecer ruim, você volta e tenta outro.
    • Como funciona: O robô simula várias possibilidades antes de agir, escolhendo a melhor rota com base em uma "pontuação" de sucesso.
  • O "Planejador Total" (DFS - Busca em Profundidade / Full-Plan-in-Advance):

    • A Analogia: Imagine que você vai fazer uma viagem de carro. Antes de sair da garagem, você imprime um roteiro completo: "Sair, virar à direita, passar pelo posto, entrar na estrada X, parar no posto Y". Você segue esse roteiro à risca, sem olhar para o trânsito ao redor.
    • Como funciona: O robô cria todo o plano de ações antes de clicar em qualquer coisa. Ele segue esse mapa mental rigidamente.
    • Vantagem: É muito preciso em tarefas estruturadas e raramente se perde.
    • Desvantagem: Se houver um imprevisto (ex: uma estrada fechada), ele pode ficar preso tentando seguir o plano antigo, em vez de desviar.

2. O Novo Sistema de Avaliação (Não é só "Passou ou Reprovou")

Antes, a gente só olhava se o robô conseguiu a tarefa ou não (como um teste de escola: 0 ou 10). O problema é que um robô pode ter feito um ótimo trabalho, mas falhar no último segundo, ou ter feito 50 cliques inúteis para chegar lá.

Os autores criaram 5 novas métricas (como se fossem notas em diferentes matérias):

  1. Taxa de Recuperação: Se o robô errou e saiu do caminho, ele consegue se corrigir e voltar para a rota certa? (Como um motorista que entra na rua errada, percebe, dá a volta e continua).
  2. Taxa de Repetição: O robô fica repetindo a mesma ação inútil? (Como alguém que aperta a campainha 10 vezes sem ninguém atender).
  3. Taxa de Sucesso por Passo: O robô fez as ações corretas no meio do caminho, mesmo que não tenha terminado a tarefa?
  4. Precisão do Elemento: O robô planejou clicar no botão "Comprar" e realmente clicou nele? Ou ele planejou clicar e acabou clicando em "Cancelar"?
  5. Sucesso Parcial: Se a tarefa era listar 5 produtos e ele listou 4, ele merece um "quase lá" em vez de zero.

3. O Experimento: Quem é Melhor?

Os autores criaram um robô "Planejador Total" (que faz o roteiro completo antes de agir) e o compararam com o robô "Passo a Passo" (que já existe no mercado).

  • O Resultado Surpreendente:
    • O robô "Passo a Passo" foi melhor em sobreviver e se adaptar. Ele seguiu mais de perto o caminho que um humano faria e conseguiu recuperar-se de erros melhor. Ele completou mais tarefas no geral.
    • O robô "Planejador Total" foi melhor em precisão técnica. Quando ele planejava clicar em algo, ele acertava o botão certo com mais frequência e não repetia ações bobas. Porém, ele era mais "teimoso": se o plano inicial estivesse errado, ele não sabia se adaptar e falhava mais vezes.

4. A Lição Principal: Não existe "Melhor", existe "Mais Adequado"

A grande descoberta do artigo é que não devemos tentar criar um robô que faça tudo de uma vez.

  • Use o "Passo a Passo" para ambientes caóticos e imprevisíveis (como redes sociais, onde o conteúdo muda o tempo todo, ou sistemas de saúde). É como dirigir em um trânsito caótico: você precisa olhar para frente e reagir.
  • Use o "Planejador Total" para ambientes rígidos e previsíveis (como lojas online, sistemas bancários ou formulários de empresa). É como seguir uma receita de bolo: você sabe exatamente quais ingredientes precisa e em que ordem.

Conclusão

Este artigo nos ensina que, para criar robôs inteligentes na internet, precisamos parar de olhar apenas se eles "passaram" ou "reprovaram". Precisamos olhar como eles pensaram, como se recuperaram de erros e se seguiram um plano lógico.

É como avaliar um jogador de futebol: não basta ver se ele fez o gol. É preciso ver se ele correu na posição certa, se passou a bola para o companheiro e se soube reagir quando o adversário roubou a bola. Com essas novas ferramentas, os cientistas agora podem construir robôs mais inteligentes e menos propensos a falhas.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →