Ares: Adaptive Reasoning Effort Selection for Efficient LLM Agents

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um assistente pessoal superinteligente (um "agente" de IA) que precisa resolver tarefas complexas para você, como comprar passagens aéreas, pesquisar na internet ou navegar em sites.

O problema é que, para fazer isso bem, esse assistente precisa "pensar muito" antes de agir. Se ele pensar muito em tudo o que faz, ele fica extremamente preciso, mas gasta uma fortuna em energia e tempo (custos de computação). Se ele pensar pouco em tudo, ele é rápido e barato, mas comete muitos erros.

Aqui entra o ARES (Seleção Adaptativa de Esforço de Raciocínio), a solução proposta neste artigo.

A Analogia do "Gerente de Projeto"

Pense no agente de IA como um funcionário e no ARES como um gerente de projeto experiente que observa o trabalho dele.

O Problema do "Pensar Sempre Demais":
Imagine que seu funcionário precisa abrir um e-mail, clicar em um link e depois responder uma pergunta difícil.
- Estratégia Antiga (Estática): O funcionário decide: "Vou pensar com o máximo de profundidade em tudo". Ele gasta horas analisando como abrir o e-mail (que é fácil) e depois continua pensando demais na resposta (que é difícil). Resultado: Ele acerta, mas gasta uma fortuna em tempo e energia.
- Estratégia Ingênua (Barata): O funcionário decide: "Vou pensar rápido em tudo". Ele abre o e-mail rápido, mas na hora de responder a pergunta difícil, ele chuta e erra. Resultado: É barato, mas o trabalho fica ruim.
A Solução do ARES (O Gerente Esperto):
O ARES é um pequeno "cérebro" (um modelo leve) que vigia o funcionário e diz:
- "Ei, abrir esse e-mail é fácil. Pense rápido! (Esforço Baixo)"
- "Agora, essa pergunta sobre o clima é complicada. Pare e pense muito! (Esforço Alto)"
- "Esse link é meio confuso, pense um pouco mais. (Esforço Médio)"

O ARES não substitui o funcionário; ele apenas gerencia o nível de esforço em cada passo da jornada.

Como o ARES Aprende a Ser um Bom Gerente?

Os autores criaram um processo de treinamento em três etapas, como se estivessem treinando um novo gerente:

Observando os Maestros (Coleta de Trajetórias): Eles primeiro deixaram o funcionário mais inteligente (o modelo grande) resolver as tarefas com esforço máximo, garantindo que o trabalho fosse feito corretamente.
Testando o Mínimo Necessário (Anotação): Depois, eles pegaram cada passo daquela tarefa perfeita e perguntaram: "Se o funcionário pensasse apenas um pouquinho aqui, ele ainda conseguiria acertar?". Eles testaram várias vezes para descobrir o nível mínimo de esforço necessário para cada passo específico.
Ensinando o "Porquê" (Geração de Racional): O ARES não aprende apenas a dizer "use esforço baixo". Ele aprende a explicar o motivo: "O ambiente é simples, então não precisamos de muita energia". Isso ajuda o sistema a tomar decisões mais inteligentes.

Os Resultados: Mais Rápido, Mais Barato, Igual de Bom

Os testes mostraram que o ARES é incrível:

Economia Gigantesca: Em algumas tarefas, o ARES reduziu o uso de "tokens" (a moeda de energia da IA) em mais de 50%. É como se você pagasse metade da conta de luz para fazer o mesmo trabalho.
Precisão Mantida: Mesmo gastando menos, o sucesso das tarefas permaneceu quase o mesmo do que quando se usava o "modo de pensamento máximo" o tempo todo.
Adaptabilidade: O ARES aprendeu a identificar momentos críticos. Por exemplo, em tarefas de navegação na web, ele usa pouco esforço para clicar em botões simples, mas usa muito esforço quando precisa voltar atrás (corrigir um erro) ou tomar uma decisão complexa.

Resumo em Uma Frase

O ARES é como um chefe sábio que diz ao seu assistente de IA: "Não gaste energia pensando demais em coisas bobas; guarde sua inteligência para os momentos realmente difíceis". Isso torna os agentes de IA mais baratos, mais rápidos e tão inteligentes quanto antes.

Each language version is independently generated for its own context, not a direct translation.

1. Problema

Os agentes modernos impulsionados por Grandes Modelos de Linguagem (LLMs) com capacidades de raciocínio (como Chain-of-Thought) alcançam alta precisão em tarefas complexas e multi-etapa, mas incurram em custos de inferência substanciais devido ao grande número de tokens de raciocínio gerados em cada passo.

Embora muitos LLMs de ponta agora suportem níveis de raciocínio configuráveis (ex: alto, médio, baixo), as estratégias estáticas são frequentemente ineficazes:

Uso constante de baixo esforço: Leva a uma degradação significativa de desempenho, pois passos críticos (como navegação em estruturas complexas de sites) exigem raciocínio intenso.
Seleção aleatória: Falha em preservar a precisão ou fornecer redução de custos significativa.
Roteamento entre modelos: Estratégias que alternam entre modelos diferentes (de tamanhos variados) introduzem custos extras de latência e não reutilizam o KV Cache (cache de chave-valor), além de apresentar relações custo-desempenho não monotônicas.

O desafio central é desenvolver um mecanismo que adapte dinamicamente o esforço de raciocínio em cada passo individual de uma tarefa multi-etapa, reservando alto esforço para etapas difíceis e usando baixo esforço para tarefas simples, sem comprometer o sucesso final da tarefa.

2. Metodologia (ARES)

O ARES (Adaptive Reasoning Effort Selection) é um framework que utiliza um roteador leve (um pequeno LLM) para prever o nível de esforço de raciocínio mais adequado para cada passo de um agente, baseado no histórico de interação.

O processo de treinamento e funcionamento divide-se em três fases principais:

A. Formulação do Problema

O objetivo é encontrar uma política de seleção que maximize a taxa de sucesso da tarefa enquanto minimiza o custo cumulativo de inferência (número total de tokens). O roteador recebe o contexto (histórico, observação atual) e prevê o nível de esforço $e_t \in \{baixo, médio, alto\}$ para o próximo passo do agente.

B. Pipeline de Treinamento Supervisionado (SFT)

Para treinar o roteador, os autores desenvolveram um pipeline automatizado de geração de dados:

Coleta de Trajetórias: Coletam trajetórias de sucesso usando o agente com o nível de esforço máximo (alto) para estabelecer um "padrão-ouro" de ações.
Anotação de Esforço de Raciocínio: Para cada passo da trajetória de sucesso, o sistema testa iterativamente os níveis de esforço (baixo, médio, alto) para determinar o mínimo esforço necessário para reproduzir a ação correta com estabilidade (verificado via múltiplas amostras e um "juiz" LLM).
Geração de Racional (Rationale): Um modelo "professor" gera uma justificativa breve (3-5 frases) explicando por que aquele nível de esforço é o ideal para aquele passo específico, analisando a complexidade da observação e o progresso da tarefa.
Ajuste Fino (Fine-tuning): Um modelo leve (ex: Qwen3-1.7B) é ajustado para prever tanto o racional quanto a etiqueta de esforço, aprendendo a mapear o contexto para a decisão ótima.

C. Otimização por Aprendizado por Reforço (RL)

Para superar as limitações do SFT (que trata cada passo de forma independente e pode não capturar a dinâmica de longo prazo), os autores aplicam Reinforcement Learning (RL) usando o algoritmo GRPO (Group Relative Policy Optimization).

Função de Recompensa: Composta por três partes:
1. Recompensa de Resultado: Alta recompensa se a tarefa for concluída com sucesso.
2. Recompensa de Custo: Penalidade por cada token de raciocínio gerado (diferenciada por nível de esforço), incentivando a eficiência.
3. Recompensa de Formato: Penalidade se o modelo não seguir o template de saída (garantindo a geração do racional).
Filtragem de Dados: Apenas prompts onde o agente tem sucesso em todas as tentativas, mas com variância significativa de custo, são usados para treinar o roteador, focando nos casos onde a escolha do esforço é o fator crítico de eficiência.

3. Contribuições Chave

Seleção Dinâmica de Esforço: Propõe o primeiro framework para seleção adaptativa de esforço de raciocínio por passo em agentes multi-etapa, superando as abordagens estáticas.
Eficiência de Inferência: Ao contrário do roteamento entre modelos heterogêneos, o ARES opera dentro do mesmo modelo, permitindo a reutilização do KV Cache, o que reduz drasticamente a latência e o custo computacional adicional.
Pipeline de Dados Automatizado: Desenvolveu um método robusto para identificar e rotular o "mínimo esforço necessário" para cada passo, resolvendo o problema de falta de ground truth para essa tarefa.
Integração Plug-and-Play: O roteador é agnóstico ao modelo e pode ser integrado a qualquer arquitetura de agente existente.

4. Resultados Experimentais

O ARES foi avaliado em três benchmarks distintos: TAU-Bench (agentes de ferramentas), BrowseComp-Plus (agentes de pesquisa profunda) e WebArena (agentes web). Usando o modelo gpt-oss-20b como base:

Redução de Tokens: O ARES reduziu o uso de tokens de raciocínio em até 52,7% (em média ~35-45% nos benchmarks) comparado ao uso constante de esforço alto.
Desempenho:
- Em TAU-Bench (Retail), manteve a mesma taxa de sucesso (54,8%) do esforço alto, mas com custos muito menores.
- Em WebArena, superou o esforço alto (46,5% vs 45,0%), demonstrando que o "super-raciocínio" (overthinking) pode ser prejudicial em navegação web.
- Em BrowseComp-Plus, alcançou 41,3% de sucesso (quase igual ao teto de 42,7% do esforço alto) com uma redução de 41,8% nos tokens.
Impacto do RL: A fase de RL melhorou ainda mais os resultados, aumentando a precisão e reduzindo o consumo de tokens em comparação com o SFT puro (ex: no TAU-Bench Airline, precisão subiu de 36% para 42% com redução de 80% nos tokens).
Generalização: O roteador treinado em um modelo menor (20B) generalizou bem para um modelo maior (120B), mantendo alta eficiência.

5. Significado e Conclusão

O trabalho demonstra que a eficiência em agentes LLM não depende apenas de modelos maiores ou mais caros, mas de uma alocação inteligente de recursos de raciocínio. O ARES prova que é possível alcançar desempenho de nível "alto esforço" gastando uma fração dos recursos computacionais, resolvendo o dilema entre custo e precisão em tarefas autônomas complexas.

A descoberta de que certos passos (como navegação inicial) não exigem raciocínio profundo, enquanto outros (como correção de erros ou ramificação de planos) são críticos, oferece um novo paradigma para o desenvolvimento de agentes mais econômicos e escaláveis. O framework é particularmente relevante para aplicações do mundo real onde o custo de inferência e a latência são barreiras críticas para a adoção de agentes autônomos.

Ares: Adaptive Reasoning Effort Selection for Efficient LLM Agents

A Analogia do "Gerente de Projeto"

Como o ARES Aprende a Ser um Bom Gerente?

Os Resultados: Mais Rápido, Mais Barato, Igual de Bom

Resumo em Uma Frase

1. Problema

2. Metodologia (ARES)

A. Formulação do Problema

B. Pipeline de Treinamento Supervisionado (SFT)

C. Otimização por Aprendizado por Reforço (RL)

3. Contribuições Chave

4. Resultados Experimentais

5. Significado e Conclusão

Mais como este

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing