TRAJEVAL: Decomposing Code Agent Trajectories for Fine-Grained Diagnosis

O artigo apresenta o TRAJEVAL, um framework de diagnóstico que decompõe as trajetórias de agentes de código em etapas de busca, leitura e edição para identificar falhas específicas, permitindo melhorias significativas no desempenho e na redução de custos através de feedback em tempo real.

Myeongsoo Kim, Dingmin Wang, Siwei Cui, Farima Farmahinifarahani, Shweta Garg, Baishakhi Ray, Terry Yue Zhuo, Rajdeep Mukherjee, Varun Kumar

Publicado 2026-03-27
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um estagiário muito inteligente, mas um pouco desajeitado, chamado "Agente de Código". A função dele é entrar em uma biblioteca gigante de livros (o repositório de código do GitHub), encontrar um erro específico em um dos livros e consertá-lo sozinho.

Às vezes, ele acerta. Às vezes, ele erra.

O problema é que, até hoje, como os chefes avaliavam esse estagiário? Apenas perguntando: "O livro foi consertado? Sim ou Não?".

  • Se sim: Parabéns, nota 10!
  • Se não: Nota 0, tente de novo.

Isso é como o sistema atual de avaliação (chamado Pass@k). Ele diz se o trabalho foi feito, mas não diz por que o estagiário falhou. Ele não diz se o estagiário perdeu tempo procurando o livro errado, se achou o livro certo mas não entendeu o que estava escrito, ou se entendeu tudo mas escreveu a correção no lugar errado.

É aqui que entra o TRAJEVAL (o tema deste artigo).

O Que é o TRAJEVAL?

O TRAJEVAL é como um detetive que assiste a todo o filme da jornada do estagiário, em vez de apenas olhar o resultado final. Ele divide o trabalho do agente em três etapas simples, como se fosse uma receita de bolo:

  1. Procurar (Search): O agente encontrou o livro certo na prateleira?
    • Analogia: Se você precisa achar "Harry Potter", você vai direto à seção de fantasia ou fica vasculhando a seção de culinária por 2 horas?
  2. Ler (Read): O agente leu as páginas certas dentro do livro?
    • Analogia: Você pegou o livro, mas só olhou a capa e o índice, ou leu o capítulo onde está o erro?
  3. Editar (Edit): O agente fez a correção no lugar certo?
    • Analogia: Você riscou o erro na página 50, ou riscou a página 51 por engano?

O Que Eles Descobriram?

Ao analisar mais de 16.000 tentativas de diferentes "estagiários" (modelos de IA), eles descobriram coisas fascinantes:

  • Todos são muito "gastos": Os agentes leem e exploram 22 vezes mais do que o necessário! É como se, para achar um único livro, eles lessem a biblioteca inteira. Isso é ineficiente e caro.
  • O segredo do sucesso não é ser rápido, é ser completo: O que realmente faz o agente acertar não é ser eficiente (ler pouco), mas sim garantir que ele leu tudo o que precisava (alta "Recall"). Se ele ler tudo e errar a edição, ainda é melhor do que ler pouco e não achar o problema.
  • Cada modelo tem um "defeito de fábrica" diferente:
    • O GPT-5 é ótimo em achar o livro e ler as páginas, mas às vezes faz a correção no lugar errado (como quem sabe a receita, mas coloca sal no bolo em vez de açúcar).
    • O Qwen-32B (um modelo menor) muitas vezes nem consegue achar o livro na biblioteca (falha na busca).

A Mágica: Usando o Diagnóstico para Ajudar

A parte mais legal do TRAJEVAL é que ele não serve só para criticar depois. Ele pode ajudar em tempo real.

Imagine que, enquanto o agente está procurando, o sistema TRAJEVAL sussurra no ouvido dele:

"Ei, você está olhando para o arquivo certo! Continue focado ali!"

Ou:

"Cuidado, você está editando o arquivo errado!"

Quando os pesquisadores testaram isso, os agentes ficaram melhores e mais baratos. Eles acertaram mais tarefas e gastaram menos "dinheiro" (tokens de processamento) porque não perderam tempo procurando coisas que não eram relevantes.

Resumo em uma Frase

O TRAJEVAL transformou a avaliação de robôs programadores de um simples "aprovado/reprovado" em um check-up de saúde detalhado, mostrando exatamente onde eles estão doentes e como curá-los enquanto trabalham, tornando-os mais inteligentes e eficientes.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →