Learning to Retrieve from Agent Trajectories

Este trabalho propõe o paradigma "Learning to Retrieve from Agent Trajectories" (LRAT), que treina modelos de recuperação diretamente a partir de dados de interação de agentes de IA, utilizando sinais comportamentais como ações de navegação e raciocínio pós-busca para superar as limitações dos métodos tradicionais focados em humanos e melhorar o desempenho em tarefas de pesquisa autônoma.

Yuqi Zhou, Sunhao Dai, Changle Qu, Liang Pang, Jun Xu, Ji-Rong Wen

Publicado 2026-04-08
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um detetive muito inteligente (um Agente de IA) que precisa resolver um caso complexo, como encontrar a resposta para uma pergunta difícil na internet.

No passado, esse detetive usava um catálogo de biblioteca (o motor de busca) que foi treinado apenas para entender como pessoas comuns procuram coisas. As pessoas geralmente clicam no primeiro resultado que parecem interessantes e param de ler se não acharem o que querem rápido. O catálogo aprendeu com esses cliques humanos.

Mas aqui está o problema: o detetive não é uma pessoa comum.

O Problema: Um Detetive com um Mapa Errado

Quando o detetive (a IA) usa o catálogo, ele age de forma diferente:

  1. Ele não apenas "clica"; ele lê trechos, decide se vale a pena abrir o livro inteiro, e depois escreve um relatório sobre o que achou.
  2. Ele faz várias perguntas de uma vez, refina a busca e usa a informação para pensar no próximo passo.

O catálogo antigo, treinado com dados humanos, não entende isso. Ele acha que se o detetive não clicar no primeiro resultado, aquele resultado é ruim. Mas o detetive pode estar apenas analisando o resumo e decidindo que o terceiro resultado é o melhor, mesmo que ninguém tenha clicado nele antes. É como tentar ensinar um piloto de F1 a dirigir usando as regras de um carro de passeio: o piloto vai achar que o carro está "quebrado" porque ele não está usando o freio de mão da maneira que o manual diz.

A Solução: Aprender com os Passos do Próprio Detetive

Os autores deste paper (LRAT) tiveram uma ideia brilhante: "Por que não ensinar o catálogo a ler os diários de bordo do próprio detetive?"

Em vez de olhar para os cliques humanos, eles olharam para os rastros de ação (trajetórias) que a IA deixa enquanto trabalha. Eles criaram um novo método de ensino chamado LRAT (Aprendizado para Recuperar a partir de Trajetórias de Agente).

Eles descobriram três sinais mágicos nos diários do detetive:

  1. A "Leitura" é o Sinal de Ouro: Se o detetive decide abrir o livro inteiro (a ação de "Browse" ou navegar), isso significa que aquele documento é muito provável de ser útil. É como se o detetive dissesse: "Isso aqui parece promissor, vou ler tudo".
  2. O que foi Ignorado é Ruído: Se o detetive viu a capa do livro (o resumo) e não o abriu, é porque ele achou que não servia. Diferente dos humanos, que às vezes não clicam porque estão com pressa, a IA analisa com calma. Então, se ela não abriu, podemos confiar que aquele documento é irrelevante para aquele momento.
  3. O "Raciocínio" Mostra a Importância: Depois de ler, o detetive escreve um pensamento.
    • Se ele escreve um pensamento curto ("Isso não serve"), o documento era pouco útil.
    • Se ele escreve um pensamento longo e detalhado ("Isso me ajudou a conectar o ponto A com o B"), o documento foi extremamente valioso.
    • O sistema usa o tamanho do pensamento como uma medida de "quanto esse documento ajudou".

Como Funciona na Prática?

Imagine que você está treinando um novo assistente de busca. Em vez de perguntar a 1 milhão de pessoas "o que você clicou?", você pega os diários de 10.000 missões que a IA já fez.

  • Você pega os documentos que a IA leu e diz: "Isso é bom!".
  • Você pega os documentos que a IA viu e ignorou e diz: "Isso é ruim para essa pergunta".
  • Você dá mais pontos para os documentos que fizeram a IA pensar muito e escrever muito depois de ler.

Depois de treinar o motor de busca com esses dados, ele se torna um especialista em entender o que a IA precisa, e não mais o que um humano precisa.

Os Resultados: O Detetive Fica Mais Rápido e Inteligente

O paper mostra que, ao usar esse novo método:

  • O detetive acerta mais: A taxa de sucesso em resolver problemas complexos aumentou drasticamente (em alguns casos, quase 30% a mais).
  • O detetive trabalha menos: Ele precisa fazer menos perguntas e menos buscas para encontrar a resposta, porque o catálogo agora entrega exatamente o que ele precisa na primeira tentativa.
  • Funciona para todos: Funciona tanto com IAs pequenas quanto com as gigantes (como a GLM-4.7 com 358 bilhões de parâmetros).

A Metáfora Final: O Ciclo Virtuoso

A parte mais legal é o conceito de "Voo de Dados" (Data Flywheel).
Antes, os motores de busca dependiam de humanos para melhorar. Agora, cada vez que a IA usa o motor de busca, ela gera novos dados de treinamento.

  1. A IA usa o motor.
  2. O motor aprende com a IA.
  3. O motor fica melhor.
  4. A IA fica mais eficiente.
  5. Gera mais dados para o motor ficar ainda melhor.

É como se o detetive estivesse constantemente reescrevendo o próprio mapa de navegação enquanto viaja, tornando a viagem cada vez mais rápida e segura para todos os futuros detetives.

Resumo: O paper diz que, na era das IAs que pensam e agem sozinhas, precisamos parar de treinar nossos motores de busca com base em como humanos clicam, e começar a treiná-los com base em como IAs pensam, leem e raciocinam.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →