Process-Centric Analysis of Agentic Software Systems

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um ajudante de cozinha muito inteligente, mas um pouco caótico. Ele usa uma inteligência artificial (um "cérebro" de computador) para tentar consertar receitas estragadas.

Até hoje, quando avaliávamos esse ajudante, olhávamos apenas para o prato final: "O bolo ficou bom? Sim ou não?". Se o bolo estava bom, o ajudante era um gênio. Se estava queimado, era um desastre.

Mas e se o ajudante tivesse queimado o bolo três vezes, derrubado farinha no chão, tentado usar sal em vez de açúcar, e só no quarto tentativa, por sorte, acertou a receita? O resultado final foi um "sucesso", mas o processo foi um caos total, desperdiçando tempo e ingredientes.

É exatamente sobre isso que trata este artigo de pesquisa. Os autores criaram uma nova maneira de olhar para esses "agentes de software" (os ajudantes de cozinha digitais), focando não apenas no resultado, mas em como eles pensaram e agiram.

Aqui está a explicação simples, usando analogias:

1. O Problema: Olhar apenas para o "Prato Pronto"

Os sistemas atuais de IA para programação (como o SWE-agent e o OpenHands) são avaliados apenas se conseguem corrigir um erro no código. Se conseguem, tudo bem. Se não, falharam.

O problema: Isso esconde os erros. Um agente pode ter dado 50 passos errados, entrado em círculos, apagado o que escreveu e voltado a escrever de novo, só para, no final, conseguir o resultado. Isso é ineficiente e perigoso, pois pode esconder falhas de raciocínio que vão causar problemas maiores no futuro.

2. A Solução: O "Graphectory" (O Mapa da Jornada)

Os pesquisadores criaram algo chamado Graphectory. Pense nele como um GPS que não apenas mostra o destino, mas desenha todo o caminho que você percorreu, incluindo os desvios, os atalhos errados e as voltas que você deu.

Como funciona: Em vez de ver uma lista linear de ações (1, 2, 3, 4...), o Graphectory transforma a história do agente em um mapa de conexões.
- Se o agente olhou para um arquivo, depois editou, depois olhou de novo, o mapa mostra essas conexões.
- Se ele entrou em um "loop" (ficou repetindo a mesma ação sem sucesso), o mapa mostra um círculo fechado.
- Se ele foi para um lugar errado e teve que voltar, o mapa mostra a seta de volta.

Isso permite ver a "alma" do processo: o agente foi direto ao ponto? Ele explorou o código com cuidado? Ele ficou preso em um ciclo de erros?

3. A "Linguagem" do Agente: O "Langutory"

O Graphectory é um mapa complexo. Para torná-lo fácil de ler, eles criaram o Langutory.

A analogia: Imagine que o Graphectory é um filme inteiro de 2 horas. O Langutory é o resumo em uma frase ou um "trailer" que diz: "O agente passou 5 minutos procurando o problema, 2 minutos tentando consertar, 1 minuto verificando, e depois repetiu tudo de novo".
Isso permite comparar rapidamente: "O Agente A seguiu um caminho direto, enquanto o Agente B ficou girando em círculos".

4. O Que Eles Descobriram? (As Surpresas)

Analisando 4.000 tentativas de conserto de código, eles encontraram coisas interessantes:

Sucesso não significa eficiência: Mesmo quando o agente conserta o código com sucesso, ele muitas vezes faz um caminho desnecessariamente longo e confuso. É como chegar ao trabalho a tempo, mas ter passado por 5 ruas erradas e dado 3 voltas no quarteirão.
IA "Inteligente" é mais complexa: Modelos de IA mais fortes (os "cérebros" mais potentes) tendem a explorar mais, ler mais arquivos e fazer mais testes antes de entregar. Isso é bom para a qualidade, mas o mapa (Graphectory) mostra que eles gastam mais "combustível" (tempo e recursos) no processo.
Padrões de Erro: Eles encontraram "vícios" comuns. Por exemplo, o agente às vezes tenta editar um arquivo que não existe, ou tenta substituir um texto que é idêntico ao original (como tentar trocar uma palavra por ela mesma). O mapa mostra isso claramente como um "caminho sem saída".

5. O Grande Truque: O "Co-piloto" em Tempo Real

A parte mais legal é que eles não usaram o Graphectory apenas para olhar para trás (como um historiador). Eles criaram um sistema que monitora o agente enquanto ele trabalha.

A analogia: Imagine que, enquanto o ajudante de cozinha está na cozinha, um chefe de cozinha invisível está olhando o mapa em tempo real.
Se o chefe vê que o ajudante está dando voltas no mesmo lugar (um loop de erro) ou pulando uma etapa importante (como não testar o bolo antes de servir), ele interrompe o processo.
Ele diz: "Ei, você está preso! Volte um passo e tente outra coisa" ou "Você pulou a etapa de testar, faça isso agora".

O resultado? Ao fazer isso, eles conseguiram:

Reduzir drasticamente o tempo que o agente leva para resolver o problema.
Aumentar a taxa de sucesso (mais problemas resolvidos).
Fazer tudo isso com quase nenhum custo extra de tempo.

Resumo Final

Este artigo diz: "Pare de olhar apenas se o trabalho foi feito. Olhe como foi feito."

Eles criaram um novo "mapa" (Graphectory) e um "resumo" (Langutory) para entender a jornada dos agentes de IA. Com isso, eles não só entendem melhor onde os agentes erram, mas conseguem corrigi-los em tempo real, transformando agentes caóticos e ineficientes em profissionais mais rápidos e inteligentes. É como dar um GPS inteligente para quem está dirigindo, em vez de apenas olhar se ele chegou ao destino.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

Os sistemas de software baseados em Agentes de Inteligência Artificial (impulsionados por Grandes Modelos de Linguagem - LLMs) estão emergindo como uma solução promissora para tarefas complexas, como a resolução automática de bugs em engenharia de software. No entanto, a avaliação atual desses sistemas é predominantemente centrada no resultado (outcome-centric): o sucesso é julgado apenas com base na correção final do código (sucesso ou falha na resolução do problema).

Essa abordagem tem limitações críticas:

Cegueira Processual: Ignora os passos intermediários, mascarando ineficiências recorrentes, loops de raciocínio falho e estratégias de resolução inadequadas.
Falta de Explicabilidade: Não explica como o agente raciocinou, planejou ou mudou de estratégia, nem se o sucesso foi fruto de um raciocínio sistemático ou de sorte.
Dificuldade de Escala: A análise manual de trajetórias (sequências de ações) é subjetiva, não escala para grandes volumes de dados e falha em capturar a semântica estrutural do comportamento do agente.

2. Metodologia: Graphectory e Langutory

Para superar essas limitações, os autores propõem uma nova estrutura de dados e uma metodologia de análise centrada no processo.

A. Graphectory (Grafo de Trajetória)

O Graphectory é uma representação gráfica cíclica e direcionada que codifica automaticamente as relações temporais e semânticas das trajetórias de um agente.

Nós: Representam ações distintas do agente (ex: visualizar arquivo, editar código, executar teste).
Arestas Temporais ( $TE$ ): Conectam ações na ordem cronológica de execução.
Arestas Estruturais ( $SE$ ): Conectam ações que operam em entidades aninhadas no espaço do problema (ex: de um diretório para um arquivo dentro dele, ou de um arquivo para um bloco de código).
Fases Lógicas: Os nós são rotulados com fases de resolução de problemas: Localização (encontrar o bug), Correção/Patching (editar o código) e Validação (testar a correção).

B. Langutory (Linguagem de Trajetória)

O Langutory é uma abstração humana e compacta do Graphectory. Ele comprime a sequência de fases lógicas em uma "linguagem" (ex: $L^5P^5L^1P^1V^1$ , onde L=Localização, P=Patching, V=Validação). Isso permite:

Comparação rápida de estratégias entre diferentes agentes e modelos.
Detecção de desvios em relação ao plano esperado (ex: pular a validação).
Identificação de padrões comuns e anti-padrões.

C. Métricas e Análise

O sistema define métricas quantitativas baseadas em teoria de grafos, como:

Contagem de Nós e Arestas: Medem o esforço e a complexidade da exploração.
Contagem de Loops: Indica repetição de ações falhas ou necessidade de replanejamento.
Análise de Fluxo de Fase: Detecta atalhos estratégicos (ex: ir direto da Localização para Validação sem corrigir) ou retrocessos (backtracking).
Detecção de Padrões: Identifica anti-padrões de ineficiência, como "ZoomOut" (navegação reversa), "Scroll" (visualizações redundantes) e "UnresolvedRetry" (tentativas de edição falhas consecutivas).

D. Monitoramento Online e Intervenção

Uma contribuição inovadora é a capacidade de construir e analisar o Graphectory em tempo real durante a execução do agente.

Se o sistema detectar ineficiências (ex: loops longos, violação de plano), ele envia uma mensagem diagnóstica ao agente.
Em casos graves, pode reverter a trajetória (rollback) para um estado anterior, forçando o agente a tentar uma nova estratégia.

3. Contribuições Principais

Graphectory: Uma nova representação estrutural de trajetórias de agentes que vai além da lista linear de logs.
Langutory: Uma abstração legível por humanos para sumarizar e comparar estratégias de resolução de problemas.
Métricas Centradas no Processo: Um conjunto de métricas para quantificar complexidade, ineficiência e alinhamento com o plano.
Análise de Padrões e Anti-padrões: Uma metodologia sistemática para identificar falhas recorrentes (como edições sem efeito ou navegação redundante).
Intervenção Online: Um mecanismo que usa a análise de processo para corrigir agentes em tempo real, melhorando taxas de resolução.
Dataset e Avaliação: Uma análise sistemática de 4.000 trajetórias de dois frameworks principais (SWE-agent e OpenHands) usando quatro LLMs diferentes (DeepSeek-V3, DeepSeek-R1, Devstral, Claude Sonnet 4) no benchmark SWE-bench Verified.

4. Resultados Chave

A análise de 4.000 execuções revelou insights profundos:

Ineficiência em Falhas: Trajetórias de problemas não resolvidos são consistentemente maiores, com mais loops e padrões de retrocesso caóticos em comparação com as resolvidas.
Complexidade vs. Dificuldade: A complexidade do Graphectory aumenta com a dificuldade do problema (classificada por humanos). Agentes em problemas difíceis exploram mais profundamente e mudam de estratégia com mais frequência.
Modelos Fortes vs. Fracos: Modelos LLM mais fortes (como Claude Sonnet 4) geram Graphectories mais complexos, refletindo uma coleta de contexto mais ampla e validação mais rigorosa. No entanto, mesmo modelos fortes exibem ineficiências.
Ineficiência em Sucesso: Mesmo quando bem-sucedidos, os agentes frequentemente exibem processos ineficientes (ex: edições repetidas, falta de testes de regressão). A análise centrada no processo revela que o sucesso nem sempre é o resultado de um processo otimizado.
Padrões de Falha Comuns: Foram identificados anti-padrões específicos, como:
- RepeatedView: Revisitar o mesmo arquivo sem progresso.
- ZoomOut: Navegar de um arquivo para o diretório pai erroneamente.
- StrNotFound/NoEffectEdit: Falhas na edição de texto devido a formatação ou strings idênticas.
Eficácia da Intervenção Online: Ao aplicar monitoramento e intervenção online em casos problemáticos:
- A taxa de resolução aumentou entre 6,9% e 23,5% dependendo do modelo.
- O comportamento oscilatório (loops) foi reduzido em mais de 90%.
- O número de passos na trajetória foi significativamente reduzido, com custo computacional quase zero (<10ms de sobrecarga).

5. Significado e Impacto

Este trabalho representa uma mudança de paradigma na avaliação de sistemas agênticos:

Transição de Resultado para Processo: Demonstra que entender como um agente resolve um problema é tão crucial quanto saber se ele o resolveu.
Ferramenta de Diagnóstico: O Graphectory oferece uma base para ferramentas de depuração e otimização de agentes, permitindo identificar gargalos de raciocínio e uso de ferramentas.
Melhoria Contínua: A capacidade de intervenção online sugere que sistemas agênticos podem ser tornados mais robustos e eficientes dinamicamente, sem necessidade de retreinamento do modelo base.
Reprodutibilidade: A disponibilização do dataset e das ferramentas (Graphectory/Langutory) permite que a comunidade científica realize análises escaláveis e padronizadas de novos agentes e modelos.

Em suma, o artigo estabelece que a análise estrutural e semântica das trajetórias de agentes é fundamental para desenvolver sistemas de IA mais eficientes, confiáveis e explicáveis para engenharia de software.