Process-Centric Analysis of Agentic Software Systems

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes un detective de inteligencia artificial (un "agente") al que le pides que arregle un error en un programa de computadora.

Hasta ahora, la forma en que evaluábamos a estos detectives era muy simple: "¿Arregló el problema o no?". Si el código funcionaba al final, el detective era un héroe. Si no, era un fracaso. Pero esto es como juzgar a un chef solo por si el plato final sabe rico, sin importar si quemó la cocina, tiró ingredientes por el suelo o cocinó durante 10 horas para hacer algo que se puede hacer en 10 minutos.

Este paper presenta una nueva forma de mirar las cosas llamada Graphectory (una mezcla de "Grafo" y "Trajectoria"). Aquí te explico cómo funciona con analogías sencillas:

1. El Mapa del Tesoro vs. La Lista de Pasos

Imagina que el detective deja un rastro de sus pasos.

El método antiguo: Era como una lista de compras lineal: "1. Entrar a la tienda, 2. Mirar estante A, 3. Mirar estante B...". Solo veías el orden, pero no entendías por qué miraba el estante B o si se había perdido.
El nuevo método (Graphectory): Es como un mapa de metro o un diagrama de flujo. Conecta las acciones no solo por el tiempo, sino por su significado.
- Si el detective va de la "Sala de estar" a la "Cocina" y luego vuelve a la "Sala de estar" porque se dio cuenta de que olvidó las llaves, el mapa muestra ese bucle y te dice: "¡Oye, se perdió!".
- Si va de la "Cocina" a la "Cama" (saltando habitaciones), el mapa te dice: "¡Está saltando pasos importantes!".

2. El "Idioma" del Detective (Langutory)

Para que los humanos podamos entender este mapa complejo, crearon algo llamado Langutory.

Imagina que el detective habla un idioma muy técnico y rápido. Langutory es como un traductor que resume la historia en frases cortas.
En lugar de ver 50 pasos de "buscar archivo", "abrir archivo", "leer línea", "cerrar archivo", Langutory te dice: "Búsqueda (5 pasos) -> Parche (1 paso) -> Validación (1 paso)".
Esto nos permite ver rápidamente si el detective siguió el plan correcto (Buscar -> Arreglar -> Probar) o si se saltó la parte de probar y fue directo a entregar el trabajo.

3. Lo que descubrieron (Las Sorpresas)

Analizaron a 4,000 detectives trabajando en problemas reales y encontraron cosas fascinantes:

Los "Genios" a veces son torpes: Los modelos de IA más potentes (como Claude o DeepSeek) a veces hacen un trabajo mejor, pero su "mapa" es mucho más complejo. Se meten en más habitaciones, leen más libros y hacen más pruebas. A veces, esto es bueno (encuentran el error oculto), pero a veces es un desperdicio de tiempo (se pierden en detalles que no importan).
El problema difícil hace que se pierdan más: Cuando el problema es muy difícil, los detectives tienden a dar vueltas en círculos, borrar lo que escribieron y volver a empezar. Es como si un humano se quedara atascado pensando: "¿Debería usar un martillo o un destornillador?" y termina golpeando la pared.
El éxito no siempre es eficiente: Muchos detectives arreglaron el problema, pero lo hicieron de una manera muy ineficiente. Como un mecánico que cambia todas las piezas de un coche para arreglar un faro roto. ¡Funciona, pero costó una fortuna y mucho tiempo!

4. El "Ángel de la Guarda" en Tiempo Real (Monitoreo Online)

La parte más emocionante es que no solo miramos el mapa después de que el detective termina. ¡Podemos poner un supervisor en tiempo real!

Cómo funciona: Mientras el detective trabaja, el supervisor mira el mapa. Si ve que el detective está dando vueltas en círculos (un bucle infinito) o saltando la etapa de "probar" antes de "entregar", el supervisor le grita: "¡Eh! Estás dando vueltas. Tienes que probar tu arreglo antes de enviarlo".
El resultado: Cuando el detective recibe esta advertencia, se corrige. En los experimentos, esto hizo que arreglaran más problemas (hasta un 23% más) y lo hicieran mucho más rápido, ahorrando tiempo y dinero.

En resumen

Este paper nos dice que no basta con mirar el resultado final. Para mejorar a la inteligencia artificial, debemos entender cómo piensa y actúa mientras trabaja.

Es como si dejáramos de juzgar a un corredor solo por si cruzó la meta, y empezáramos a analizar su técnica de carrera, sus tropiezos y su estrategia para que, la próxima vez, corra más rápido y sin caerse. Con Graphectory, ahora tenemos las gafas especiales para ver esos detalles invisibles.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Análisis Centrado en el Proceso de Sistemas de Software Agénticos

1. El Problema

Los sistemas agénticos modernos, impulsados por Modelos de Lenguaje Grandes (LLMs), están diseñados para resolver tareas complejas y multi-paso de forma autónoma. Sin embargo, la evaluación actual de estos sistemas es predominantemente centrada en el resultado (outcome-centric): se juzga su éxito o fracaso basándose únicamente en si la tarea final (por ejemplo, reparar un bug en un repositorio de código) se completó correctamente.

Este enfoque tiene limitaciones críticas:

Ceguera ante el proceso: Ignora los pasos intermedios, ocultando ineficiencias recurrentes, bucles de retroceso o estrategias de razonamiento fallidas.
Falta de explicabilidad: No explica cómo el agente razonó, planeó o actuó, ni por qué falló si el resultado fue negativo.
Formato lineal insuficiente: Los registros de trayectoria (trajectories) en su formato crudo son secuencias lineales que no capturan eficazmente la semántica de las relaciones temporales y estructurales, ni la eficiencia del flujo de ejecución.

2. Metodología: Graphectory y Langutory

Para abordar estas limitaciones, los autores proponen un marco de análisis estructural que transforma las trayectorias lineales en representaciones gráficas ricas.

Graphectory: Es una representación gráfica cíclica y dirigida ( $G = (V, TE \cup SE)$ ) de las trayectorias de los agentes.
- Nodos ( $V$ ): Representan acciones distintas del agente (ej. ver archivo, editar código, ejecutar prueba). Cada nodo contiene metadatos como el tipo de acción, la fase lógica (Localización, Parcheo, Validación) y el nivel de navegación.
- Aristas Temporales ( $TE$ ): Conectan acciones en orden cronológico.
- Aristas Estructurales ( $SE$ ): Conectan acciones que operan sobre entidades que se incluyen jerárquicamente (ej. directorio $\to$ archivo $\to$ bloque de código), capturando la navegación en el espacio del problema.
- Fases Lógicas: Las acciones se etiquetan automáticamente en tres fases principales: Localización (encontrar el bug), Parcheo (corregir el código) y Validación (probar la solución), más una fase General.
Langutory: Es una abstracción legible por humanos de Graphectory.
- Comprime la secuencia de fases en una "lenguaje" de trayectorias (ej. $L_5P_5LPV$ ), donde $L$ , $P$ y $V$ representan las fases y los subíndices la longitud de la ejecución en esa fase.
- Permite identificar patrones de estrategia, desviaciones del plan esperado y comparaciones rápidas entre diferentes agentes o modelos.
Métricas y Análisis Centrado en el Proceso:
- Se definen métricas cuantitativas como el Recuento de Nodos, Recuento de Bordes Temporales, Conteo de Bucles (repetición de acciones fallidas) y Ancho de Navegación.
- Se implementan análisis de Flujo de Fases (transiciones estratégicas, atajos o retrocesos) y Detección de Patrones (anti-patrones de ineficiencia).
Monitoreo en Tiempo Real: El sistema permite construir y analizar Graphectory/Langutory durante la ejecución del agente. Si se detectan ineficiencias (bucles, violaciones de plan), se notifica al agente con mensajes diagnósticos o se revierte la acción para corregir la estrategia sobre la marcha.

3. Contribuciones Clave

Graphectory y Langutory: Nuevas estructuras de datos para representar y abstraer semánticamente las trayectorias de agentes, superando la limitación de los logs lineales.
Métricas y Análisis Procesales: Un conjunto de métricas y técnicas (análisis de flujo de fases, detección de patrones) para cuantificar la complejidad, eficiencia y coherencia estratégica de los agentes.
Evaluación Sistemática a Gran Escala: Un análisis exhaustivo de 4,000 trayectorias generadas por dos frameworks de programación agéntica (SWE-agent y OpenHands) combinados con cuatro LLMs principales (DeepSeek-V3, DeepSeek-R1, Devstral, Claude Sonnet 4) resolviendo 500 problemas reales de SWE-Bench Verified.
Técnica de Intervención en Línea: Un método novedoso para monitorear y corregir agentes en tiempo real, mejorando las tasas de resolución y reduciendo la longitud de las trayectorias.

4. Resultados Principales

El análisis de los 4,000 casos reveló hallazgos significativos:

Ineficiencias en Ejecuciones Fallidas: Las trayectorias de problemas no resueltos son consistentemente más complejas, con más bucles de retroceso y patrones ineficientes (repetición de acciones fallidas, navegación caótica) en comparación con las exitosas.
Complejidad vs. Dificultad: A medida que aumenta la dificultad del problema (medida por el tiempo humano para resolverlo), los agentes exploran más profundamente y cambian de estrategia con mayor frecuencia.
Desbalance Eficiencia-Éxito: Incluso cuando los agentes tienen éxito, a menudo exhiben procesos ineficientes (trayectorias prolongadas innecesariamente). Los modelos más fuertes (como Claude Sonnet 4) tienden a tener trayectorias más complejas y exploratorias, lo que aumenta la tasa de éxito pero también la longitud del proceso.
Patrones de Ineficiencia Identificados: Se descubrieron "anti-patrones" comunes, como:
- RepeatedView: Revisar repetidamente el mismo archivo sin progreso.
- ZoomOut: Navegación hacia atrás en la jerarquía de directorios.
- UnresolvedRetry: Múltiples intentos fallidos de edición en el mismo archivo.
- EditReversion: Revertir una edición exitosa.
Eficacia del Monitoreo en Línea: La intervención en tiempo real (OMI) demostró ser altamente efectiva. En instancias problemáticas recurrentes, el monitoreo en línea:
- Aumentó la tasa de resolución entre un 6.9% y un 23.5% dependiendo del modelo.
- Redujo significativamente la longitud de las trayectorias (menos pasos).
- Disminuyó el comportamiento oscilatorio en más del 90%.
- Se logró esto con un costo computacional casi nulo (<10 ms de sobrecarga).

5. Significado e Impacto

Este trabajo representa un cambio de paradigma en la evaluación de sistemas agénticos:

Más allá del resultado: Demuestra que entender cómo un agente llega a una solución es tan crucial como la solución misma para mejorar la robustez y eficiencia de los sistemas.
Herramienta de Diagnóstico: Graphectory proporciona una base objetiva y automatizable para diagnosticar fallos de razonamiento y planificación que antes requerían análisis manual subjetivo.
Mejora de Sistemas: La capacidad de intervenir en tiempo real sugiere un futuro donde los agentes no solo actúan, sino que se auto-correguyen o son corregidos dinámicamente, optimizando el uso de recursos y mejorando la fiabilidad en entornos de ingeniería de software reales.
Reproducibilidad: Los autores han hecho públicos sus artefactos, incluyendo el código, los datos de las 4,000 trayectorias y las herramientas de análisis, fomentando la investigación futura en este campo.

En conclusión, el artículo establece que el análisis centrado en el proceso, habilitado por representaciones estructurales como Graphectory, es esencial para desbloquear el verdadero potencial de los sistemas agénticos en la ingeniería de software automatizada.

Process-Centric Analysis of Agentic Software Systems

1. El Mapa del Tesoro vs. La Lista de Pasos

2. El "Idioma" del Detective (Langutory)

3. Lo que descubrieron (Las Sorpresas)

4. El "Ángel de la Guarda" en Tiempo Real (Monitoreo Online)

En resumen

Resumen Técnico: Análisis Centrado en el Proceso de Sistemas de Software Agénticos

1. El Problema

2. Metodología: Graphectory y Langutory

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Impacto

Más como este

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance