Reducing Cost of LLM Agents with Trajectory Reduction

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que un Agente de IA (como un asistente virtual muy inteligente) es como un detective que está resolviendo un caso complejo, por ejemplo, arreglar un error en un programa de computadora.

El Problema: La Mochila que se Hace Pesada

Imagina que este detective va investigando paso a paso. Cada vez que hace una pregunta, busca un archivo o ejecuta una orden, escribe todo lo que pasa en su cuaderno de notas (esto se llama "trayectoria").

El problema es que, a medida que el caso avanza, el detective nunca borra nada de su cuaderno.

Si abre un archivo gigante, lo copia entero.
Si ejecuta una prueba y salen 100 resultados, copia los 100, aunque solo le importe uno.
Si busca algo en 50 archivos y solo encuentra el correcto en el último, sigue guardando los 49 que no sirvieron.

Con el tiempo, este cuaderno se vuelve enorme. Cada vez que el detective quiere pensar en el siguiente paso, tiene que leer todo el cuaderno desde la primera página hasta la última. Esto es como intentar correr una maratón cargando una mochila que se llena de piedras a medida que avanzas.

Consecuencia: Se gasta muchísima energía (dinero y tiempo de computación) y el detective se vuelve más lento y torpe porque está abrumado por tanta información basura.

La Solución: "AgentDiet" (La Dieta del Agente)

Los autores de este paper crearon una solución llamada AgentDiet. Imagina que, en lugar de dejar que el detective cargue con todo, tenemos un asistente de limpieza (un segundo cerebro más rápido y barato) que revisa el cuaderno periódicamente.

Este asistente hace tres cosas mágicas:

Elimina lo inútil: Borra las listas de archivos que no se usaron o los mensajes de error que ya no importan.
Resum lo repetitivo: Si el detective escribió lo mismo tres veces, lo deja escrito una sola vez.
Olvida lo viejo: Si el detective ya encontró el archivo correcto, borra la información de los 49 archivos que revisó antes y que no sirvieron.

La analogía clave: Es como si, en lugar de llevar todo el historial de una conversación de WhatsApp de 5 años para decidir qué decir hoy, solo guardaras los mensajes importantes de las últimas horas y resumieras el resto en una nota: "Hablamos de comida, luego de trabajo, y luego de fútbol".

¿Cómo funciona en la vida real?

El sistema funciona así:

El Detective Principal (el modelo de IA potente) trabaja en el problema.
Cada cierto tiempo, el sistema le dice al Asistente de Limpieza (un modelo de IA más barato y rápido): "Oye, revisa lo que escribimos hace un momento. ¿Hay algo que podamos tirar o resumir?".
El Asistente de Limpieza hace el trabajo sucio, borra la "basura" y devuelve un cuaderno más limpio.
El Detective Principal sigue trabajando, pero ahora con un cuaderno más ligero y fácil de leer.

Los Resultados: ¡Más rápido y más barato!

Los autores probaron esto con agentes que arreglan errores de código reales. Los resultados fueron increíbles:

Ahorro de espacio: Eliminaron entre un 40% y un 60% de la información innecesaria.
Ahorro de dinero: Redujeron el costo de computación en un 21% al 36%.
Calidad: Lo más importante es que el detective no cometió más errores. De hecho, al tener menos "ruido" en su mente, a veces resolvió los problemas incluso mejor o más rápido.

En resumen

Este paper nos enseña que no necesitamos leer todo para entenderlo. En el mundo de la Inteligencia Artificial, a veces "menos es más". Al limpiar la basura de la memoria de los agentes, podemos hacerlos más rápidos, más baratos y más eficientes, sin sacrificar su inteligencia.

Es como pasar de llevar una casa entera en la espalda a llevar solo lo esencial en un bolsillo: llegas más lejos, más rápido y con menos esfuerzo.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Reducción del Costo de los Agentes LLM

1. El Problema: Ineficiencia en Agentes LLM Multi-turno

Los sistemas de agentes basados en Modelos de Lenguaje Grande (LLM) han demostrado ser altamente efectivos para tareas de ingeniería de software (generación de código, pruebas, reparación). Sin embargo, su adopción masiva enfrenta una barrera crítica: el alto costo computacional.

Causa Raíz: En un flujo de trabajo típico de un agente, cada llamada a una herramienta (tool call) y su resultado se concatenan en la "trayectoria" (el historial de conversación) y se mantienen indefinidamente hasta que se completa la tarea.
El Desperdicio: A medida que la trayectoria crece, el agente envía repetidamente tokens irrelevantes, redundantes o caducados en cada paso subsiguiente.
- Información inútil: Salidas verbosas de compilación, listas de archivos irrelevantes (ej. __pycache__).
- Información redundante: Repetición de argumentos de edición de archivos o resultados de herramientas que ya se conocen.
- Información caducada: Contexto de pasos anteriores que ya no es necesario una vez completada una sub-tarea (ej. búsquedas fallidas de símbolos).
Impacto: Este "snowball" de tokens genera un costo de entrada (input tokens) masivo. En algunos casos, el 99% de los tokens utilizados son de entrada acumulada, mientras que solo el 1% es generado por el modelo. Además, el uso excesivo de memoria (VRAM) y ancho de banda I/O debido a la caché KV (Key-Value) limita la escalabilidad.

2. Metodología: AgentDiet

Los autores proponen AgentDiet, un enfoque de reducción de trayectorias en tiempo de inferencia que elimina automáticamente el desperdicio sin comprometer el rendimiento del agente.

Componentes Clave:

Análisis de Desperdicio: Mediante un estudio piloto en SWE-bench Verified, se identificó que la mayoría de las trayectorias contienen grandes cantidades de tokens que pueden ser comprimidos o eliminados sin perder información crítica para la resolución de la tarea.
Módulo de Reflexión (Reflection Module):
- Se descubrió que los agentes LLM no pueden reducir su propia trayectoria de manera autónoma (tienden a ignorar herramientas de borrado si se les dan instrucciones de continuar la tarea).
- Por ello, se introduce un módulo externo separado que actúa como un "reductor". Este módulo es invocado por el sistema para limpiar la trayectoria.
Ventana Deslizante (Sliding Window):
- Para controlar la sobrecarga (overhead) de invocar otro LLM, el sistema no revisa toda la historia, sino una ventana específica.
- Cuando el agente llega al paso $s$ , el módulo de reflexión revisa el paso $s-a$ (donde $a$ es un hiperparámetro, ej. 2 pasos atrás) utilizando un contexto de $b$ pasos anteriores.
- Solo se procesan pasos que superan un umbral de longitud $\theta$ (ej. 500 tokens) para evitar que el costo de la reducción supere el ahorro.
Selección de Modelo Económico: El módulo de reflexión utiliza un LLM más barato y eficiente (ej. GPT-5 mini, Gemini Flash) en lugar del modelo principal del agente (ej. Claude 4 Sonnet), minimizando el costo adicional de la operación de reducción.
Algoritmo: El algoritmo serializa el paso objetivo, pide al LLM de reflexión que lo comprima (eliminando información inútil, redundante o caducada) y reemplaza el paso original en la trayectoria si la reducción supera un umbral de beneficio.

3. Contribuciones Clave

Identificación del Problema: Demostración empírica de que las trayectorias de agentes de codificación contienen un desperdicio significativo (39.9% - 59.7% de tokens de entrada) que puede ser eliminado.
Propuesta de Solución (AgentDiet): Un enfoque simple, de código abierto y fácil de integrar que reduce el costo computacional sin requerir cambios en el modelo LLM subyacente (funciona con modelos propietarios).
Evaluación Rigurosa: Validación en múltiples benchmarks (SWE-bench Verified, Multi-SWE-bench Flash) y modelos (Claude 4 Sonnet, Gemini 2.5 Pro), demostrando que la reducción de tokens no degrada el rendimiento.

4. Resultados Experimentales

La evaluación se realizó integrando AgentDiet en el agente Trae Agent (uno de los mejores en SWE-bench).

Reducción de Tokens de Entrada: AgentDiet logró reducir los tokens de entrada acumulados entre un 39.9% y un 59.7%.
Reducción de Costo Computacional: El costo total de inferencia se redujo entre un 21.1% y un 35.9%.
- Nota: La reducción de costo es menor que la de tokens debido al costo de los tokens de salida y la invalidación parcial de la caché KV, pero sigue siendo significativa.
Rendimiento (Performance):
- La tasa de éxito (Pass%) se mantuvo prácticamente idéntica a la del agente original (variaciones de -1.0% a +2.0%).
- En algunos casos (especialmente con Gemini 2.5 Pro en tareas complejas), AgentDiet mejoró la robustez, reduciendo el número de pasos necesarios y evitando que el agente se quedara atrapado en bucles infinitos debido a contextos demasiado largos.
Generalización: Los resultados se mantuvieron consistentes a través de diferentes lenguajes de programación (Rust, TypeScript, Java, C++, etc.) y diferentes modelos LLM.

5. Significado e Impacto

Este trabajo es fundamental porque:

Desafía la creencia del "Trade-off": Refuta la idea de que la eficiencia (menos tokens) implica necesariamente una pérdida de rendimiento. Al eliminar "ruido" en el contexto, se puede mantener o incluso mejorar la capacidad de razonamiento del agente.
Viabilidad Económica: Hace que el uso de agentes LLM en entornos de producción sea más sostenible y escalable, reduciendo drásticamente los costos operativos para empresas y desarrolladores.
Independencia del Modelo: Al ser un enfoque de "caja negra" (no requiere fine-tuning ni acceso al código fuente del modelo), es aplicable inmediatamente a los LLMs propietarios más avanzados del mercado.
Nueva Dirección de Investigación: Abre la puerta a la optimización de la gestión de contexto en tiempo de ejecución como un área crítica para el futuro de los sistemas de agentes autónomos.

En conclusión, AgentDiet demuestra que la reducción de trayectorias es una estrategia prometedora y necesaria para hacer que los agentes de IA sean económicamente viables sin sacrificar su capacidad para resolver problemas complejos de ingeniería de software.