In-Context Reinforcement Learning for Tool Use in Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gênio muito inteligente, mas que nunca saiu de casa. Ele leu milhões de livros e sabe quase tudo sobre o mundo, mas tem um problema: ele não sabe o que aconteceu hoje e não sabe fazer contas complexas de cabeça. Se você perguntar "quem ganhou o jogo ontem?" ou "quanto é 1234 x 5678?", ele vai tentar adivinhar, mas provavelmente errará.

Para resolver isso, damos a esse gênio um celular (para pesquisar na internet) e uma calculadora (para fazer contas). O desafio é: como ensinamos o gênio a usar essas ferramentas sem ter que passar meses treinando ele com um professor particular (o que seria caro e demorado)?

Aqui está a explicação do paper "In-Context Reinforcement Learning" (ICRL) usando uma analogia simples:

O Problema: O "Treinamento Tradicional" é Caríssimo

Antes, para ensinar um modelo de IA a usar ferramentas, os cientistas faziam duas coisas:

Escola (SFT): Eles pegavam milhares de exemplos de perguntas e respostas perfeitas (com a ferramenta sendo usada corretamente) e "ensinavam" o modelo a imitar. É como ter um professor particular para cada aluno. É muito caro e demorado.
Treino de Campo (RL): Depois de "escolar", eles deixavam o modelo praticar e ganhava pontos se acertasse.

O problema é que o passo 1 (a escola) exige muitos dados anotados por humanos.

A Solução: O "Mentor Virtual" que some aos poucos (ICRL)

Os autores criaram o ICRL. A ideia é genialmente simples: em vez de dar uma aula longa antes, eles colocam o modelo diretamente no "campo de treino" (Reinforcement Learning), mas com um ajudante invisível.

Pense assim:

O Início (Com Exemplos): Imagine que você está jogando um videogame novo. No começo, o jogo mostra na tela: "Olhe, veja como o personagem pula aqui. Agora veja como ele ataca ali." (São os exemplos de "few-shot" no prompt). O modelo olha para esses exemplos e tenta fazer o mesmo. Ele não precisa de um professor humano; ele apenas lê o exemplo no próprio texto da conversa.
O Treino (Reinforcement Learning): O modelo tenta resolver o problema. Se ele usar a ferramenta (pesquisar ou calcular) e acertar a resposta, ganha um "ponto de recompensa". Se errar, não ganha nada. Ele aprende sozinho com esses pontos.
O Desvanecimento (Curriculum): Aqui está a mágica. Conforme o modelo vai ficando bom, os autores removem gradualmente os exemplos da tela.
- Primeiro, o modelo vê 3 exemplos de como usar a ferramenta.
- Depois, o jogo mostra apenas 2 exemplos.
- Depois, apenas 1.
- Por fim, nenhum exemplo. O modelo tem que fazer tudo sozinho, mas como ele já praticou muito com os exemplos anteriores, ele já sabe o que fazer.

Por que isso é incrível?

Economia de Recursos: Você não precisa pagar um professor para escrever milhares de exemplos de treino. O modelo aprende vendo apenas alguns exemplos "na hora" e praticando.
Aprendizado Rápido: O modelo sai da fase de "imitação" (copiar o exemplo) para a fase de "autonomia" (fazer sozinho) de forma natural.
Resultados: Nos testes, esse método funcionou melhor do que os métodos tradicionais que exigiam muito treinamento prévio. O modelo aprendeu a pesquisar na internet e a fazer contas complexas com código, superando rivais que usaram métodos antigos e caros.

Resumo da Ópera

É como ensinar alguém a cozinhar:

Método Antigo: Você dá um livro de receitas inteiro para a pessoa ler de cor antes de deixar ela entrar na cozinha.
Método ICRL: Você coloca a pessoa na cozinha com um cardápio que diz: "Veja como o Chef cortou a cebola. Agora tente você." A pessoa tenta, erra, acerta, ganha um "bom trabalho". Depois de um tempo, você tira o cardápio da frente dela. Ela já aprendeu a cozinhar sozinha, sem nunca ter lido o livro inteiro antes.

O paper mostra que essa abordagem é mais barata, mais rápida e funciona muito bem para ensinar IAs a usarem ferramentas do mundo real.

Each language version is independently generated for its own context, not a direct translation.

`).
* Penaliza violações de formato para garantir que o modelo aprenda a estrutura necessária para a interação com a ferramenta.

Otimização (GRPO com Máscara de Perda):
- Utiliza o algoritmo GRPO (Group Relative Policy Optimization).
- Loss Masking: Um aspecto crucial é que os tokens gerados pelas ferramentas (ex: resultados de busca retornados pelo sistema) são mascarados na função de perda. Apenas os tokens gerados pelo próprio modelo contribuem para o gradiente, garantindo que o modelo aprenda a tomar decisões de uso da ferramenta, e não apenas a memorizar o conteúdo retornado.

3. Contribuições Chave

Eliminação do SFT: Demonstra que é possível treinar modelos para uso de ferramentas complexas sem a etapa custosa de Supervised Fine-Tuning com dados rotulados.
Eficiência de Dados: O método alcança desempenho superior utilizando apenas exemplos in-context gerados dinamicamente e sinais de recompensa esparsos, em vez de milhares de trajetórias anotadas.
Curriculum de Aprendizado: A estratégia de reduzir progressivamente os exemplos few-shot durante o RL permite uma transição suave da imitação para o uso autônomo de ferramentas.
Generalização: O framework é aplicado com sucesso em dois domínios distintos: busca na web (QA) e execução de código (raciocínio matemático).

4. Resultados Experimentais

Os autores avaliaram o ICRL em várias benchmarks de QA e raciocínio, utilizando modelos da família Qwen2.5 (3B, 7B, 14B) e Qwen3 (8B).

Desempenho em QA (Busca na Web):
- No modelo Qwen2.5-3B, o ICRL alcançou uma precisão média de 40.16%, superando o melhor baseline (Search-R1) em +8.94 pontos.
- No modelo Qwen2.5-7B, alcançou 49.12% de média, superando o baseline ParallelSearch em +7.34 pontos.
- Melhorias significativas foram observadas em tarefas de raciocínio multi-hop (ex: 2Wiki, Musique, Bamboogle), onde o ICRL obteve ganhos de dois dígitos.
Comparação com Métodos com SFT:
- Ao comparar com o O2-Searcher (que usa SFT frio + RL), o ICRL (sem SFT) superou o método com SFT em 4 dos 5 conjuntos de dados, demonstrando maior eficiência de dados.
Raciocínio Matemático (Código):
- No benchmark AIME2025, o ICRL superou o método ReTool (que usa SFT + RL) em +2.4% de precisão, provando sua eficácia em tarefas de execução de código sem pré-treinamento supervisionado.
Análise de Ablação:
- Um currículo de 3 estágios (3-shot $\to$ 2-shot $\to$ 0-shot) mostrou-se superior a um de 4 estágios, indicando que a redução muito agressiva dos exemplos pode prejudicar o raciocínio de múltiplas etapas.

5. Significado e Impacto

O trabalho do ICRL representa um avanço significativo na viabilidade de treinar agentes de IA autônomos. Ao remover a dependência de grandes conjuntos de dados anotados para SFT, o método torna o treinamento de modelos com ferramentas mais escalável, barato e acessível.

A descoberta de que o RL pode aprender comportamentos complexos de uso de ferramentas diretamente através de exemplos in-context e recompensas de formato sugere um novo paradigma para o desenvolvimento de agentes LLMs, onde a capacidade de adaptação e o uso de ferramentas podem ser adquiridos puramente através de interação e feedback, sem a necessidade de supervisão humana massiva prévia. Isso abre caminho para modelos que podem aprender novas ferramentas rapidamente em cenários do mundo real.

In-Context Reinforcement Learning for Tool Use in Large Language Models

O Problema: O "Treinamento Tradicional" é Caríssimo

A Solução: O "Mentor Virtual" que some aos poucos (ICRL)

Por que isso é incrível?

Resumo da Ópera

3. Contribuições Chave

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

AnchorNote: Exploring Speech-Driven Spatial Externalization for Co-Located Collaboration in Augmented Reality

Your Robot Will Feel You Now: Empathy in Robots and Embodied Agents

FIGURA: A Modular Prompt Engineering Method for Artistic Figure Photography in Safety-Filtered Text-to-Image Models

Measuring Research Convergence in Interdisciplinary Teams Using Large Language Models and Graph Analytics