Improving Search Agent with One Line of Code

O artigo propõe o SAPO, uma modificação de uma única linha no algoritmo GRPO que estabiliza o treinamento de agentes de busca ao aplicar uma restrição condicional de KL em nível de token, eliminando o colapso catastrófico causado pelo desvio na distribuição de amostragem e resultando em melhorias significativas de desempenho em benchmarks de perguntas e respostas.

Jian Li, Dongsheng Chen, Zhenhua Xu, Yizhang Jin, Jiafu Wu, Chengjie Wang, Xiaotong Yuan, Yabiao Wang

Publicado 2026-03-12
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está treinando um detetive de inteligência artificial para resolver mistérios complexos. Esse detetive não sabe tudo de cabeça; ele precisa pesquisar na internet, ler artigos, conectar as pontas e, finalmente, dar a resposta correta.

O artigo que você enviou fala sobre um problema grave que acontece quando tentamos ensinar esses detetives a serem melhores: eles começam a "alucinar" ou a esquecer o que aprenderam, piorando em vez de melhorar. Os autores chamam isso de Colapso do Modelo.

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: O Detetive que Perdeu a Confiança

A maioria desses agentes usa um método de aprendizado chamado GRPO. Pense no GRPO como um treinador de futebol que dá dicas baseadas em jogos anteriores.

  • O que acontece: O agente tenta uma estratégia nova. Se der errado, o treinador diz "não faça isso". Se der certo, diz "faça mais disso".
  • O defeito: Às vezes, o agente muda tanto de estratégia que o treinador (o algoritmo) fica confuso. Ele começa a dar pesos negativos para as coisas que eram boas antes, mas que o agente agora está tentando fazer de um jeito diferente.
  • A consequência: O agente recebe sinais de "não faça nada" para todas as suas tentativas, mesmo as boas. É como se o treinador gritasse "PARE!" para tudo, e o jogador parasse de aprender, travando ou piorando seu desempenho. Isso é a Deriva de Distribuição de Amostragem (ISDD).

2. A Solução: O "Freio de Mão" Inteligente (SAPO)

Os autores criaram uma solução chamada SAPO. A parte mais incrível é que eles dizem que isso pode ser feito com apenas uma linha de código mudando no programa existente.

Como funciona a analogia?

  • O método antigo (GRPO): Era como usar um cinto de segurança rígido. Se o carro (o agente) desviasse um pouco da estrada, o cinto travava tudo de uma vez, impedindo qualquer movimento. Isso era bom para segurança, mas ruim para aprender curvas novas.
  • O novo método (SAPO): É como um sistema de direção assistida inteligente.
    • Se o agente tentar virar para a esquerda (uma ação ruim), o sistema não faz nada.
    • Mas, se o agente tentar virar para a direita (uma ação que deveria ser boa, mas ele está fazendo com pouca confiança), o sistema aplica um leve freio para garantir que ele não se afaste demais do caminho seguro.
    • O segredo: Esse freio só é aplicado quando o agente está tentando fazer algo bom (com vantagem positiva), mas está hesitando ou mudando de ideia de forma perigosa.

3. Por que é tão especial?

Imagine que você está ensinando um cachorro a pegar uma bola.

  • Antes: Se o cachorro tentasse pegar a bola de um jeito novo e falhasse uma vez, você parava de dar biscoitos para sempre. O cachorro ficava triste e parava de tentar.
  • Com SAPO: Você diz: "Ei, tente de novo! Se você fizer isso de um jeito muito estranho, eu vou te dar um leve 'não', mas se você fizer o movimento certo, eu vou te dar um biscoito". Isso mantém o cachorro motivado e estável.

4. Os Resultados

Os autores testaram essa "linha de código" em vários testes de perguntas e respostas (como mistérios que exigem pesquisar em vários lugares).

  • O resultado foi que os agentes ficaram muito melhores (cerca de 30% mais inteligentes) do que os métodos anteriores.
  • Funcionou para modelos pequenos e gigantes.
  • Funcionou em diferentes "raças" de modelos (Qwen, LLaMA).

Resumo em uma frase

O artigo descobriu que os agentes de busca estavam "quebrando" porque mudavam de estratégia de forma muito brusca, e criou um freio suave e inteligente (SAPO) que impede essa mudança perigosa sem impedir o aprendizado, melhorando tudo com uma mudança mínima no código.

É como se eles tivessem encontrado o "segredo" para fazer a IA aprender a pesquisar na internet sem ficar tonta e cair no chão.