TRAJEVAL: Decomposing Code Agent Trajectories for Fine-Grained Diagnosis

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um estagiário muito inteligente, mas um pouco desajeitado, chamado "Agente de Código". A função dele é entrar em uma biblioteca gigante de livros (o repositório de código do GitHub), encontrar um erro específico em um dos livros e consertá-lo sozinho.

Às vezes, ele acerta. Às vezes, ele erra.

O problema é que, até hoje, como os chefes avaliavam esse estagiário? Apenas perguntando: "O livro foi consertado? Sim ou Não?".

Se sim: Parabéns, nota 10!
Se não: Nota 0, tente de novo.

Isso é como o sistema atual de avaliação (chamado Pass@k). Ele diz se o trabalho foi feito, mas não diz por que o estagiário falhou. Ele não diz se o estagiário perdeu tempo procurando o livro errado, se achou o livro certo mas não entendeu o que estava escrito, ou se entendeu tudo mas escreveu a correção no lugar errado.

É aqui que entra o TRAJEVAL (o tema deste artigo).

O Que é o TRAJEVAL?

O TRAJEVAL é como um detetive que assiste a todo o filme da jornada do estagiário, em vez de apenas olhar o resultado final. Ele divide o trabalho do agente em três etapas simples, como se fosse uma receita de bolo:

Procurar (Search): O agente encontrou o livro certo na prateleira?
- Analogia: Se você precisa achar "Harry Potter", você vai direto à seção de fantasia ou fica vasculhando a seção de culinária por 2 horas?
Ler (Read): O agente leu as páginas certas dentro do livro?
- Analogia: Você pegou o livro, mas só olhou a capa e o índice, ou leu o capítulo onde está o erro?
Editar (Edit): O agente fez a correção no lugar certo?
- Analogia: Você riscou o erro na página 50, ou riscou a página 51 por engano?

O Que Eles Descobriram?

Ao analisar mais de 16.000 tentativas de diferentes "estagiários" (modelos de IA), eles descobriram coisas fascinantes:

Todos são muito "gastos": Os agentes leem e exploram 22 vezes mais do que o necessário! É como se, para achar um único livro, eles lessem a biblioteca inteira. Isso é ineficiente e caro.
O segredo do sucesso não é ser rápido, é ser completo: O que realmente faz o agente acertar não é ser eficiente (ler pouco), mas sim garantir que ele leu tudo o que precisava (alta "Recall"). Se ele ler tudo e errar a edição, ainda é melhor do que ler pouco e não achar o problema.
Cada modelo tem um "defeito de fábrica" diferente:
- O GPT-5 é ótimo em achar o livro e ler as páginas, mas às vezes faz a correção no lugar errado (como quem sabe a receita, mas coloca sal no bolo em vez de açúcar).
- O Qwen-32B (um modelo menor) muitas vezes nem consegue achar o livro na biblioteca (falha na busca).

A Mágica: Usando o Diagnóstico para Ajudar

A parte mais legal do TRAJEVAL é que ele não serve só para criticar depois. Ele pode ajudar em tempo real.

Imagine que, enquanto o agente está procurando, o sistema TRAJEVAL sussurra no ouvido dele:

"Ei, você está olhando para o arquivo certo! Continue focado ali!"

Ou:

"Cuidado, você está editando o arquivo errado!"

Quando os pesquisadores testaram isso, os agentes ficaram melhores e mais baratos. Eles acertaram mais tarefas e gastaram menos "dinheiro" (tokens de processamento) porque não perderam tempo procurando coisas que não eram relevantes.

Resumo em uma Frase

O TRAJEVAL transformou a avaliação de robôs programadores de um simples "aprovado/reprovado" em um check-up de saúde detalhado, mostrando exatamente onde eles estão doentes e como curá-los enquanto trabalham, tornando-os mais inteligentes e eficientes.

TRAJEVAL: Decomposing Code Agent Trajectories for Fine-Grained Diagnosis

O Que é o TRAJEVAL?

O Que Eles Descobriram?

A Mágica: Usando o Diagnóstico para Ajudar

Resumo em uma Frase

Resumo Técnico: TRAJEVAL

1. O Problema

2. Metodologia: O Framework TRAJEVAL

Decomposição em Três Estágios

Definição do "Golden Context"

Extração de Recursos e Predição

3. Principais Contribuições

4. Resultados Chave

Ineficiência Universal vs. Eficácia

Modos de Falha Distintos (Diagnóstico por Modelo)

Validação de Predição

Estudo de Intervenção (Feedback em Tempo Real)

5. Significado e Impacto

TRAJEVAL: Decomposing Code Agent Trajectories for Fine-Grained Diagnosis

O Que é o TRAJEVAL?

O Que Eles Descobriram?

A Mágica: Usando o Diagnóstico para Ajudar

Resumo em uma Frase

Resumo Técnico: TRAJEVAL

1. O Problema

2. Metodologia: O Framework TRAJEVAL

Decomposição em Três Estágios

Definição do "Golden Context"

Extração de Recursos e Predição

3. Principais Contribuições

4. Resultados Chave

Ineficiência Universal vs. Eficácia

Modos de Falha Distintos (Diagnóstico por Modelo)

Validação de Predição

Estudo de Intervenção (Feedback em Tempo Real)

5. Significado e Impacto

Mais como este