The World Won't Stay Still: Programmable Evolution for Agent Benchmarks

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está treinando um assistente virtual superinteligente para ajudar você a comprar coisas online, reservar voos ou resolver problemas complexos.

Até agora, a maneira de testar esses assistentes era como se eles estivessem jogando em um tabuleiro de xadrez estático. As peças (ferramentas), as regras (dados) e o cenário nunca mudavam. O assistente aprendia a jogar perfeitamente naquele tabuleiro específico. Mas, na vida real, o mundo não para de girar: lojas mudam seus sistemas, novos produtos são lançados, ferramentas antigas são descontinuadas e regras são atualizadas constantemente.

O problema é que, se você treinar um atleta apenas em uma pista de corrida que nunca muda, ele pode falhar miseravelmente quando a pista de repente ganha um buraco, uma curva nova ou uma barreira diferente.

É aqui que entra o trabalho "O Mundo Não Vai Ficar Parado: Evolução Programável para Benchmarks de Agentes".

A Grande Ideia: O "Universo de Lego" Dinâmico

Os autores criaram uma nova maneira de testar esses agentes, chamada PROEVOLVE. Em vez de criar cenários estáticos, eles criaram um sistema que faz o ambiente "crescer" e "mudar" de forma controlada, como se fosse um organismo vivo ou um jogo de vídeo game que evolui de nível em nível.

Aqui está como funciona, usando analogias simples:

1. O Mapa Mágico (O Gráfico)

Imagine que todo o sistema de uma loja online (produtos, usuários, carrinhos de compras, ferramentas de pagamento) é desenhado como um mapa gigante de conexões.

Nós (Pontos): São as coisas (ex: "Usuário", "Pedido", "Produto").
Arestas (Linhas): São as conexões entre elas (ex: "O Usuário fez o Pedido").

No PROEVOLVE, esse mapa não é feito de pedra; é feito de massa de modelar digital. Os pesquisadores podem programar o sistema para:

Adicionar novas peças (Completion): "Vamos criar uma nova função de 'Lista de Desejos'". O sistema desenha automaticamente as novas linhas conectando o Usuário à Lista de Desejos.
Criar atalhos (Saturation): "Nossa, para ver o histórico de um cliente, o agente precisa clicar em 5 lugares diferentes. Vamos criar um atalho mágico que faz isso em 1 clique". O sistema cria uma nova linha direta no mapa.
Remover peças (Deprecation): "O sistema de carrinho de compras antigo vai ser desligado para manutenção". O sistema apaga essas linhas e pontos do mapa, forçando o agente a encontrar um novo caminho.

2. O Treinamento Contínuo

Em vez de testar o agente uma vez e pronto, o PROEVOLVE cria uma trajetória de evolução.

Começa com uma loja simples (Nível 1).
O sistema evolui para uma loja com mais funções (Nível 2).
Depois, remove algumas funções antigas e adiciona outras (Nível 3).
E assim por diante.

O agente é testado em cada etapa. A pergunta não é mais: "Ele consegue fazer a tarefa?" Mas sim: "Quando o mundo muda, ele consegue se adaptar sem entrar em pânico?"

3. O Resultado: Quem é o Verdadeiro Campeão?

Os pesquisadores testaram vários agentes famosos (como GPT-5, Claude, Gemini, etc.) nesse ambiente que muda. O que eles descobriram foi fascinante:

Alguns agentes são "teimosos": Eles continuam tentando usar ferramentas que já foram apagadas, como se o mundo não tivesse mudado.
Outros são "adaptáveis": Eles percebem que a ferramenta sumiu, olham o novo mapa e encontram um caminho alternativo.
O custo da adaptação: Às vezes, para se adaptar, o agente precisa fazer mais perguntas ou clicar em mais botões (o que custa mais tempo e dinheiro).

Por que isso importa?

Pense em um motorista de aplicativo.

O teste antigo: Você o testa em um bairro onde as ruas nunca mudam. Ele é perfeito.
O teste PROEVOLVE: Você muda as ruas, fecha avenidas, adiciona novos semáforos e exige que ele aprenda novos destinos enquanto dirige.

Se o motorista (o agente) só foi treinado no cenário antigo, ele vai bater o carro no primeiro sinal de mudança. O PROEVOLVE nos ajuda a descobrir quais agentes são realmente inteligentes o suficiente para lidar com o caos do mundo real, onde as regras mudam todos os dias.

Resumo em uma frase

Este paper criou um "simulador de realidade" onde o ambiente muda de forma programável, permitindo que vejamos quais inteligências artificiais conseguem realmente se adaptar quando o mundo ao redor delas deixa de estar parado.

Each language version is independently generated for its own context, not a direct translation.

Título: O Mundo Não Fica Parado: Evolução Programável para Benchmarks de Agentes

1. O Problema

Os agentes impulsionados por Grandes Modelos de Linguagem (LLMs) operam interagindo com ambientes externos (dados, ferramentas, APIs) em processos de múltiplas voltas. No entanto, a maioria dos benchmarks existentes avalia esses agentes em ambientes estáticos, caracterizados por:

Conjuntos de ferramentas fixos.
Esquemas de dados imutáveis.
Cenários que são "instantâneos" isolados da realidade.

Essa abordagem ignora a natureza evolutiva do mundo real, onde ambientes mudam continuamente: novas capacidades são introduzidas, ferramentas são iteradas e funcionalidades obsoletas são descontinuadas. Essa lacuna impede uma avaliação abrangente da adaptabilidade e robustez dos agentes frente a mudanças dinâmicas no ambiente. Além disso, métodos anteriores de escalonamento de ambientes frequentemente falham em manter a coerência entre componentes (ferramentas, dados e esquemas) ao criar variações, tratando-os como entidades isoladas em vez de um sistema integrado.

2. Metodologia: O Framework PROEVOLVE

Os autores propõem o PROEVOLVE, um framework baseado em grafos que torna a evolução do ambiente programável, escalável e controlável.

A. Formalismo de Grafos para Modelagem de Ambiente
O núcleo do sistema é um grafo relacional tipado ( $G = (V, E)$ ) que representa unificadamente:

Nós ( $V$ ): Elementos de esquema (ex: User.user_id, Order.order_id) e entidades de dados.
Arestas ( $E$ ): Relações tipadas ou transições habilitadas por ferramentas que mapeiam informações entre elementos.
A evolução do ambiente é formalizada como uma sequência de transformações de grafos:
$G^{(0)} \xrightarrow{\Delta^{(1)}} G^{(1)} \xrightarrow{\Delta^{(2)}} \dots \xrightarrow{\Delta^{(K)}} G^{(K)}$
Onde cada $\Delta^{(k)}$ é uma estratégia de evolução que aplica operações estruturadas (adicionar/remover nós e arestas) de maneira coerente.

B. Pipeline de Evolução Programável (Fase I e II)
Para gerar essas transformações automaticamente e em escala, o PROEVOLVE utiliza um pipeline de agentes:

Proposta de Evolução (LLM Agent): O agente analisa o grafo atual e propõe transformações baseadas em três estratégias principais:
- Completude ( $\Delta_{comp}$ ): Adiciona nós e arestas para suportar novas capacidades (ex: adicionar funcionalidade de "lista de desejos").
- Saturação ( $\Delta_{sat}$ ): Descobre relações indiretas e cria "atalhos" (novas ferramentas) para otimizar acessos a dados que exigiam múltiplas etapas (ex: criar uma ferramenta que retorna produtos comprados diretamente, sem precisar navegar por pedidos e itens).
- Descontinuação ( $\Delta_{dep}$ ): Remove nós e arestas para simular a descontinuação de APIs ou falhas de serviço, forçando o agente a encontrar alternativas.
Implementação e Validação (Coding Agent): Um agente de codificação gera o código executável (modelos de dados, implementações de ferramentas e testes unitários) correspondente ao novo grafo, garantindo que as mudanças sejam coerentes e testáveis.

C. Geração de Tarefas como Subgrafos
As tarefas não são criadas manualmente, mas programadas como subgrafos condicionados ( $H \subseteq G^{(k)}$ ):

Amostragem de Subgrafo: Seleciona uma parte conectada do grafo que define o escopo da tarefa.
Materialização do Sandbox: Sintetiza entidades e dados iniciais necessários para que a tarefa seja executável.
Execução de Caminhada Agente: Gera um trajeto de referência multi-turno onde um "simulador de usuário" fornece instruções estado a estado, baseadas na expansão do subgrafo acessível.

D. Avaliação
A avaliação é realizada através de uma taxa de sucesso por estado. O simulador verifica se o agente obteve as informações necessárias (nós do grafo) em cada etapa da conversa. Isso permite medir a progressão do agente através de um ambiente em evolução, em vez de apenas avaliar o resultado final.

3. Contribuições Principais

Formulação do Problema: Identificou e abordou a lacuna crítica na avaliação de agentes em ambientes estáticos, propondo a evolução de ambientes como um problema de pesquisa autônomo.
Framework Programável: Introduziu o PROEVOLVE, que utiliza transformações de grafos para gerar automaticamente ambientes coerentes e dinâmicos, resolvendo o dilema entre escalabilidade e coerência.
Metodologia de Geração: Capaz de transformar um único ambiente "semente" em centenas de variantes com 3.000 tarefas específicas, mantendo a integridade estrutural entre dados, esquemas e ferramentas.
Insights Empíricos: Forneceu a primeira avaliação sistemática de como agentes LLM se adaptam a mudanças estruturais contínuas, revelando falhas em estratégias de adaptação atuais.

4. Resultados Experimentais

Os autores validaram o framework em um cenário de comércio eletrônico, evoluindo um ambiente semente para 200 variantes de ambiente e 3.000 sandboxes de tarefas. Foram testados agentes representativos (GPT-5, Claude-Opus-4.5, DeepSeek-V3.2, Qwen3, Gemini-2.5-Pro).

Principais Descobertas:

Variabilidade de Desempenho: O desempenho dos agentes flutua drasticamente conforme o ambiente evolui. Um agente pode melhorar significativamente com a adição de ferramentas (estratégia de Completude) e cair abruptamente com a remoção delas (estratégia de Descontinuação).
Falta de Padrões Consistentes: Não há uma tendência universal de adaptação; diferentes modelos exibem comportamentos heterogêneos. Por exemplo, o GPT-5 tende a ser mais intensivo no uso de ferramentas, enquanto o Gemini-2.5-Pro é mais conservador.
Limitações de Replay: Estratégias simples de "replay" (memória de conversas passadas ou reflexões) não garantem melhoria consistente. Em alguns casos, o replay leva a um aumento no custo (mais chamadas de ferramentas) sem ganho proporcional de sucesso, indicando que os agentes não conseguem generalizar experiências passadas para novos contextos estruturais.
Trade-off Custo-Robustez: Tarefas mais difíceis exigem orçamentos de interação maiores (mais voltas e chamadas de ferramentas). Agentes que são mais robustos (como o GPT-5) tendem a gastar mais recursos para explorar o ambiente, enquanto modelos mais econômicos podem falhar em tarefas complexas devido à sub-exploração.

5. Significado e Impacto

Este trabalho representa um avanço fundamental na avaliação de agentes de IA:

Mudança de Paradigma: Move a comunidade de benchmarks estáticos para dinâmicos, refletindo melhor a realidade de implantação de sistemas onde APIs e esquemas mudam constantemente.
Padrão de Robustez: Estabelece que a verdadeira robustez de um agente não é apenas resolver uma tarefa em um ambiente fixo, mas adaptar-se a mudanças estruturais no ambiente sem degradação catastrófica.
Ferramenta de Pesquisa: Oferece uma metodologia automatizada para gerar cenários de teste controlados, permitindo que pesquisadores estudem falhas de adaptação e desenvolvam agentes mais resilientes para o mundo real.

Em resumo, o PROEVOLVE demonstra que "o mundo não fica parado" e que os benchmarks de agentes devem evoluir junto com ele para fornecer avaliações precisas e úteis.

The World Won't Stay Still: Programmable Evolution for Agent Benchmarks

A Grande Ideia: O "Universo de Lego" Dinâmico

1. O Mapa Mágico (O Gráfico)

2. O Treinamento Contínuo

3. O Resultado: Quem é o Verdadeiro Campeão?

Por que isso importa?

Resumo em uma frase

Título: O Mundo Não Fica Parado: Evolução Programável para Benchmarks de Agentes

1. O Problema

2. Metodologia: O Framework PROEVOLVE

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems