AI Planning Framework for LLM-Based Web Agents

Each language version is independently generated for its own context, not a direct translation.

Imagine que você precisa ensinar um robô muito inteligente, mas um pouco "sonhador" (chamado de Agente de IA), a fazer tarefas complexas na internet, como comprar um presente, reservar uma viagem ou organizar planilhas.

O problema é que, até agora, esses robôs funcionavam como uma "caixa preta". Eles tentavam fazer as coisas, mas quando falhavam, ninguém sabia exatamente por quê. Será que esqueceram o objetivo? Será que se perderam no meio do caminho?

Este artigo é como um manual de instruções e um novo sistema de avaliação para entender como esses robôs pensam e como podemos consertá-los.

Aqui está a explicação simplificada, usando analogias do dia a dia:

1. Os Três Tipos de "Mentes" de Robô

Os autores descobriram que existem basicamente três formas de um robô planejar suas ações na internet, e eles compararam cada uma a um método clássico de navegação:

O "Passo a Passo" (BFS - Busca em Largura):
- A Analogia: Imagine que você está em um labirinto e decide olhar apenas para o chão, na frente dos seus pés, antes de dar o próximo passo. Você não planeja o caminho todo; você apenas reage ao que vê agora.
- Como funciona: O robô olha a página atual, decide uma ação (ex: "clicar aqui"), faz a ação, olha o resultado e decide a próxima. É muito reativo e flexível.
- Vantagem: Se a página mudar de repente, ele se adapta rápido.
- Desvantagem: Ele pode se perder no meio do caminho e esquecer o objetivo final (como alguém que começa a caminhar e esquece para onde ia).
O "Caçador de Caminhos" (Tree Search):
- A Analogia: Imagine que você está no topo de uma montanha e olha para vários caminhos possíveis. Você escolhe o que parece mais promissor, mas se ele parecer ruim, você volta e tenta outro.
- Como funciona: O robô simula várias possibilidades antes de agir, escolhendo a melhor rota com base em uma "pontuação" de sucesso.
O "Planejador Total" (DFS - Busca em Profundidade / Full-Plan-in-Advance):
- A Analogia: Imagine que você vai fazer uma viagem de carro. Antes de sair da garagem, você imprime um roteiro completo: "Sair, virar à direita, passar pelo posto, entrar na estrada X, parar no posto Y". Você segue esse roteiro à risca, sem olhar para o trânsito ao redor.
- Como funciona: O robô cria todo o plano de ações antes de clicar em qualquer coisa. Ele segue esse mapa mental rigidamente.
- Vantagem: É muito preciso em tarefas estruturadas e raramente se perde.
- Desvantagem: Se houver um imprevisto (ex: uma estrada fechada), ele pode ficar preso tentando seguir o plano antigo, em vez de desviar.

2. O Novo Sistema de Avaliação (Não é só "Passou ou Reprovou")

Antes, a gente só olhava se o robô conseguiu a tarefa ou não (como um teste de escola: 0 ou 10). O problema é que um robô pode ter feito um ótimo trabalho, mas falhar no último segundo, ou ter feito 50 cliques inúteis para chegar lá.

Os autores criaram 5 novas métricas (como se fossem notas em diferentes matérias):

Taxa de Recuperação: Se o robô errou e saiu do caminho, ele consegue se corrigir e voltar para a rota certa? (Como um motorista que entra na rua errada, percebe, dá a volta e continua).
Taxa de Repetição: O robô fica repetindo a mesma ação inútil? (Como alguém que aperta a campainha 10 vezes sem ninguém atender).
Taxa de Sucesso por Passo: O robô fez as ações corretas no meio do caminho, mesmo que não tenha terminado a tarefa?
Precisão do Elemento: O robô planejou clicar no botão "Comprar" e realmente clicou nele? Ou ele planejou clicar e acabou clicando em "Cancelar"?
Sucesso Parcial: Se a tarefa era listar 5 produtos e ele listou 4, ele merece um "quase lá" em vez de zero.

3. O Experimento: Quem é Melhor?

Os autores criaram um robô "Planejador Total" (que faz o roteiro completo antes de agir) e o compararam com o robô "Passo a Passo" (que já existe no mercado).

O Resultado Surpreendente:
- O robô "Passo a Passo" foi melhor em sobreviver e se adaptar. Ele seguiu mais de perto o caminho que um humano faria e conseguiu recuperar-se de erros melhor. Ele completou mais tarefas no geral.
- O robô "Planejador Total" foi melhor em precisão técnica. Quando ele planejava clicar em algo, ele acertava o botão certo com mais frequência e não repetia ações bobas. Porém, ele era mais "teimoso": se o plano inicial estivesse errado, ele não sabia se adaptar e falhava mais vezes.

4. A Lição Principal: Não existe "Melhor", existe "Mais Adequado"

A grande descoberta do artigo é que não devemos tentar criar um robô que faça tudo de uma vez.

Use o "Passo a Passo" para ambientes caóticos e imprevisíveis (como redes sociais, onde o conteúdo muda o tempo todo, ou sistemas de saúde). É como dirigir em um trânsito caótico: você precisa olhar para frente e reagir.
Use o "Planejador Total" para ambientes rígidos e previsíveis (como lojas online, sistemas bancários ou formulários de empresa). É como seguir uma receita de bolo: você sabe exatamente quais ingredientes precisa e em que ordem.

Conclusão

Este artigo nos ensina que, para criar robôs inteligentes na internet, precisamos parar de olhar apenas se eles "passaram" ou "reprovaram". Precisamos olhar como eles pensaram, como se recuperaram de erros e se seguiram um plano lógico.

É como avaliar um jogador de futebol: não basta ver se ele fez o gol. É preciso ver se ele correu na posição certa, se passou a bola para o companheiro e se soube reagir quando o adversário roubou a bola. Com essas novas ferramentas, os cientistas agora podem construir robôs mais inteligentes e menos propensos a falhas.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

O desenvolvimento de agentes autônomos para tarefas baseadas na web é um desafio central na IA. Embora os Agentes baseados em Grandes Modelos de Linguagem (LLMs) possam interpretar solicitações complexas, eles frequentemente operam como "caixas pretas". Isso dificulta:

Diagnóstico de Falhas: É difícil entender por que um agente falha ou como ele planeja suas ações.
Falta de Estrutura: A maioria das arquiteturas atuais carece de um tratamento formal de tarefas web como processos de decisão sequenciais, dificultando a comparação com paradigmas de planejamento tradicionais.
Métricas de Avaliação Insuficientes: As avaliações atuais focam quase exclusivamente na taxa de sucesso binária (sucesso/fracasso), ignorando a qualidade do processo de execução, a coerência do plano, a eficiência e a capacidade de recuperação do agente.

2. Metodologia

Os autores propõem uma abordagem estruturada que conecta a IA moderna (LLMs) com paradigmas clássicos de planejamento e busca.

Taxonomia de Planejamento: O artigo mapeia as arquiteturas modernas de agentes para paradigmas de busca tradicionais:
1. Agentes Passo a Passo (Step-by-Step): Mapeados para Busca em Largura (BFS). O agente gera ações imediatas, executa uma, observa o novo estado e recalcula. É reativo e limitado a um horizonte de profundidade $d=1$ .
2. Agentes de Busca em Árvore (Tree Search): Mapeados para Busca em Árvore Best-First. O agente mantém uma árvore de estados explorados, usando uma função de valor para priorizar os ramos mais promissores antes de executar.
3. Agentes de Planejamento Total Antecipado (Full-Plan-in-Advance): Mapeados para Busca em Profundidade (DFS). O agente gera um trajeto completo de ações antes de executar qualquer uma delas, seguindo esse plano rigidamente.
Implementação de um Novo Agente: Os autores implementaram um agente do tipo Full-Plan-in-Advance que gera um plano completo baseado na intenção do usuário e na árvore de acessibilidade da página inicial. Este plano atua como uma memória externa de alto nível para evitar "deriva de contexto" (context drift).
Novas Métricas de Avaliação: Para ir além da taxa de sucesso binária, foram propostas cinco métricas quantitativas:
1. Taxa de Recuperação (Recovery Rate): Mede a capacidade do agente de voltar ao trajeto de referência humano após um desvio.
2. Taxa de Repetitividade (Repetitiveness Rate): Quantifica ações redundantes (repetidas consecutivamente).
3. Taxa de Sucesso por Passo (Step Success Rate): Proporção de passos do "padrão ouro" humano que foram cumpridos pelo agente.
4. Taxa de Sucesso Parcial (Partial Success Rate): Avalia tarefas com múltiplos requisitos, medindo quantos elementos corretos foram entregues.
5. Taxa de Precisão do Elemento (Element Accuracy Rate): Compara a ação planejada pelo agente com a ação realmente executada, capturando falhas na implementação do plano.
Uso de LLM como Juiz: As métricas utilizam LLMs para realizar comparações semânticas entre as ações do agente e as trajetórias humanas de referência, permitindo uma avaliação mais robusta do que simples correspondência de strings.

3. Principais Contribuições

Taxonomia Unificada: Estabelecimento de uma nomenclatura clara que conecta arquiteturas de agentes web a paradigmas de planejamento clássicos (BFS, Best-First, DFS).
Novo Agente de Planejamento: Desenvolvimento e implementação de um agente Full-Plan-in-Advance para benchmarking.
Dataset de Trajetórias Humanas: Criação de um conjunto de dados de referência com 794 trajetórias anotadas por humanos baseadas no benchmark WebArena, fornecendo o "padrão ouro" necessário para calcular as métricas de desvio e recuperação.
Framework de Avaliação Multidimensional: Introdução de um conjunto de 5 métricas que avaliam a coerência, eficiência e estabilidade do plano, não apenas o resultado final.
Análise Comparativa Empírica: Experimentos comparando o agente Step-by-Step (WebArena original) com o novo agente Full-Plan-in-Advance utilizando as novas métricas.

4. Resultados

Os experimentos foram conduzidos no benchmark WebArena (812 tarefas) comparando o agente WebArena (Step-by-Step) com o novo agente Full-Plan-in-Advance:

Taxa de Sucesso Geral: O agente Step-by-Step teve um desempenho ligeiramente superior em sucesso global (38,41% vs. 36,29%).
Alinhamento Humano: O agente Step-by-Step mostrou uma Taxa de Sucesso por Passo muito superior (82% vs. 58%), indicando que suas ações seguem mais de perto o raciocínio humano.
Precisão Técnica: O agente Full-Plan-in-Advance superou o outro na Precisão do Elemento (89% vs. 82%), sugerindo que, quando planeja, ele identifica melhor os elementos alvo, mas falha na execução ou no seguimento do plano.
Eficiência e Repetição: O agente Full-Plan-in-Advance gerou menos ações repetitivas (19% vs. 21%), mas produziu trajetórias mais longas em média (20,21 passos vs. 15,02 passos), indicando que ele tende a adicionar passos desnecessários ou falhar em prever estados intermediários.
Recuperação: O agente Step-by-Step recuperou-se de desvios com mais frequência (36% vs. 31%), demonstrando maior adaptabilidade em ambientes dinâmicos.
Domínios Específicos: O planejamento antecipado funcionou melhor em domínios estruturados e previsíveis (e-commerce e Reddit), enquanto o Step-by-Step foi superior em ambientes mais dinâmicos ou complexos (CMS, GitLab).

5. Significado e Conclusão

O artigo demonstra que a escolha da arquitetura de planejamento não é universal; depende das restrições da aplicação:

Ambientes Dinâmicos/Parcialmente Observáveis: Beneficiam-se de agentes Step-by-Step (BFS), que reagem ao estado atual e têm maior capacidade de recuperação e alinhamento com o fluxo humano.
Ambientes Estruturados/Previsíveis: Beneficiam-se de agentes Full-Plan-in-Advance (DFS), que podem explorar a lógica de negócios rígida para criar rotas eficientes e precisas, embora sofram com a deriva de contexto em tarefas longas.

A principal contribuição do trabalho é a mudança de paradigma na avaliação de agentes: mover-se de uma métrica binária de "sucesso/fracasso" para uma análise granular da qualidade do processo de decisão. Isso permite diagnósticos mais precisos de falhas (ex: falha no planejamento vs. falha na execução) e guia o desenvolvimento de agentes híbridos ou adaptativos para diferentes cenários da web.

AI Planning Framework for LLM-Based Web Agents

1. Os Três Tipos de "Mentes" de Robô

2. O Novo Sistema de Avaliação (Não é só "Passou ou Reprovou")

3. O Experimento: Quem é Melhor?

4. A Lição Principal: Não existe "Melhor", existe "Mais Adequado"

Conclusão

1. O Problema

2. Metodologia

3. Principais Contribuições

4. Resultados

5. Significado e Conclusão

Mais como este

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks