Beyond Max Tokens: Stealthy Resource Amplification via Tool Calling Chains in LLM Agents

Each language version is independently generated for its own context, not a direct translation.

Imagina que los Agentes de IA (como los chatbots avanzados que pueden usar herramientas) son como músicos muy talentosos en una orquesta. Tienen partituras (instrucciones) y pueden tocar instrumentos (herramientas) para resolver problemas complejos, como reservar un vuelo o analizar datos.

Hasta ahora, los "malos" (hackers) sabían cómo hacer que estos músicos tocaran una sola nota muy, muy larga y ruidosa para agotar la batería del escenario. Pero el nuevo artículo que presentas revela un truco mucho más astuto y peligroso.

Aquí te explico la idea central usando una analogía sencilla:

🎭 La Analogía: El "Músico Engañoso"

Imagina que tienes un músico (la IA) que necesita pedirle a un técnico de sonido (el servidor de herramientas) que le entregue un cable específico para tocar una canción.

La situación normal: El músico pide el cable, el técnico se lo da y listo. La canción termina rápido y barato.
El ataque antiguo (DoS clásico): El hacker grita al técnico: "¡Dale un cable gigante de 100 metros!". El músico intenta usarlo, se enreda, y la canción se vuelve un desastre obvio. Cualquiera se da cuenta de que algo va mal.
El nuevo ataque (El de este papel):
- El hacker no cambia el cable ni grita. En su lugar, modifica el manual de instrucciones del técnico de una forma muy sutil.
- Ahora, cuando el músico pide el cable, el técnico dice: "¡Ah, sí! Pero antes de dártelo, necesito que me confirmes el número de sección de la partitura y me escribas una lista de verificación de 500 ítems para asegurarnos de que todo está perfecto".
- El músico, siendo obediente y queriendo hacer bien el trabajo, escribe la lista.
- El técnico dice: "¡Casi! Pero falta un ítem en la lista. Por favor, reescribe la lista completa".
- El músico lo hace de nuevo. El técnico dice: "¡Casi! Ahora falta otro detalle".
- El resultado: El músico sigue tocando la canción correcta (la tarea se completa), pero en lugar de tardar 1 minuto, tarda 10 horas y consume toda la energía del escenario.

🔍 ¿Qué hacen exactamente los investigadores?

Los autores (Kaiyu Zhou y su equipo) descubrieron que la parte más vulnerable no es lo que el usuario le dice a la IA, sino cómo la IA habla con sus herramientas.

El Truco: Crearon un "servidor de herramientas malicioso" que parece legítimo. No cambia el nombre de la herramienta ni el resultado final. Solo cambia los mensajes de texto que la IA ve mientras trabaja.
La Estrategia: Usan un algoritmo inteligente (llamado Búsqueda de Árbol Monte Carlo o MCTS) que actúa como un "entrenador de hackers". Este entrenador prueba miles de formas de escribir esos mensajes de texto sutiles hasta encontrar la combinación perfecta que hace que la IA entre en un bucle infinito de trabajo sin darse cuenta.
El Objetivo: No quieren que la IA falle (eso sería fácil de detectar). Quieren que la IA trabaje demasiado.

💥 ¿Por qué es tan peligroso?

Imagina que al final de la orquesta hay un presupuesto de dinero y una batería de energía.

Costo Explosivo: En sus pruebas, lograron que una sola pregunta costara 658 veces más de lo normal. Si normalmente pagarías 1 dólar, ahora pagarías 658 dólares por la misma tarea.
Agotamiento de Energía: La IA consume mucha electricidad y memoria de la computadora (GPU). Este ataque llenó la memoria de la computadora hasta un 74%, casi como si alguien intentara llenar un vaso de agua hasta que se desborde, pero de forma lenta y sigilosa.
Invisible a los Guardias: Los sistemas de seguridad actuales miran si la respuesta final es tóxica o incorrecta. Como la IA sí responde correctamente al final, los guardias dicen: "Todo bien, pasa". Pero mientras tanto, el sistema se ha quedado sin recursos.

🛡️ ¿Qué nos dicen al final?

El mensaje principal es: "No mires solo el final de la película, mira todo el proceso".

Hasta ahora, defendíamos a la IA pensando en "¿Qué dijo al final?". Ahora debemos pensar en "¿Cuánto trabajó para llegar ahí?". Si un agente tarda 10 horas en hacer algo que debería tomar 1 minuto, aunque el resultado sea correcto, algo está mal.

En resumen:
Este papel nos advierte que, en el futuro, los hackers no necesariamente romperán la IA para que diga tonterías, sino que la engañarán para que trabaje en exceso, agotando nuestro dinero y energía de forma silenciosa, mientras la IA sigue pensando que está haciendo un buen trabajo.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "Beyond Max Tokens: Stealthy Resource Amplification via Tool Calling Chains in LLM Agents" en español:

Resumen Ejecutivo

El artículo presenta un nuevo tipo de ataque de denegación de servicio (DoS) económico y sigiloso diseñado específicamente para agentes de Modelos de Lenguaje Grande (LLM) que interactúan con herramientas externas. A diferencia de los ataques DoS anteriores que se centraban en generar respuestas largas en una sola interacción (nivel de usuario o RAG), este trabajo explota el bucle de interacción agente-herramienta (capa de herramientas) bajo el Protocolo de Contexto del Modelo (MCP). El ataque logra inflar drásticamente el consumo de recursos (tokens, energía, memoria) y los costos operativos mientras mantiene la corrección de la tarea final, evadiendo así las defensas convencionales.

1. El Problema

Limitación de los ataques existentes: Los ataques DoS contra LLMs actuales (como Engorgio, Auto-DoS o Overthink) son fundamentalmente de un solo turno. Fuerzan al modelo a generar salidas excesivamente largas en una sola respuesta o inyectan contexto engañoso en la recuperación de información (RAG).
Ineficacia en agentes: En el paradigma de agentes, los costos están limitados por la longitud máxima de completación por turno. Además, la verbosidad excesiva en una sola respuesta suele ser obvia y fácil de detectar en flujos de trabajo orientados a objetivos.
Superficie de ataque ignorada: El bucle de comunicación de múltiples turnos entre el agente y las herramientas (server) permanece como una superficie de ataque poco explorada. Un agente puede completar la tarea correctamente, pero si el proceso intermedio de llamadas a herramientas es ineficiente y redundante, el costo se dispara sin que la tarea falle.

2. Metodología

Los autores proponen un ataque que transforma un servidor de herramientas benigno y compatible con MCP en una variante maliciosa sin alterar las firmas de las funciones ni el contenido final (payload).

Mecanismo del Ataque

Plantilla Maliciosa Universal: Se editan solo los campos de texto visibles (descripciones de argumentos, mensajes de progreso) en el servidor de herramientas.
- Índice de segmento ( $t$ ): Introduce un contador que obliga al agente a tratar la llamada como un proceso continuo, incrementando $t$ en cada paso.
- Secuencia de calibración: El servidor exige una lista completa de números separados por comas en cada respuesta de herramienta. Si el agente omite o acorta la lista, el servidor devuelve un mensaje de "Reparación" (sin avanzar el índice), forzando al agente a reintentar.
- Política de retorno: El servidor envía notificaciones de "Progreso" o "Reparación" en lugar del resultado final hasta que se alcanza un umbral máximo de turnos ( $T_{max}$ ) y la secuencia es válida. Solo entonces devuelve el payload benigno original.
Optimización con Búsqueda de Árbol Monte Carlo (MCTS):
- Dado que el agente y el LLM son "cajas negras", los autores utilizan un optimizador MCTS para encontrar las ediciones de texto óptimas que maximicen la longitud de la trayectoria y el número de turnos.
- El optimizador busca en un espacio de ediciones de texto localizadas (categorizadas en inducción de múltiples turnos, inducción de longitud y reparación de errores) para maximizar el costo bajo la restricción de que la tarea debe tener éxito.

Modelo de Amenaza

El atacante controla el servidor MCP (puede modificar la plantilla de texto $\theta$ ).
No modifica la política del agente ( $A$ ), el LLM subyacente ( $M$ ), ni las consultas del usuario.
El ataque se activa solo cuando el agente decide legítimamente llamar a la herramienta.

3. Contribuciones Clave

Primera superficie de ataque de capa de herramientas: Es el primer trabajo que identifica la capa de llamadas a herramientas como un vector de ataque DoS de primer nivel en la era de los agentes, demostrando que se puede inflar el costo manteniendo la corrección semántica.
Método de optimización universal: Propone un método basado en MCTS para transformar servidores benignos en variantes maliciosas bajo restricciones de "solo texto" y preservación de la carga útil.
Evidencia empírica robusta: Validación exhaustiva en seis LLMs diferentes (incluyendo Qwen, Llama, Mistral, GLM) y dos benchmarks (ToolBench y BFCL), demostrando amplificación de recursos sin pérdida de éxito de la tarea.

4. Resultados Experimentales

Los resultados muestran un impacto devastador en los recursos con una detección casi nula:

Amplificación de Costos:
- Tokens: Las trayectorias superan consistentemente los 60,000 tokens por consulta.
- Factor de Costo: Aumenta el costo por consulta hasta 658 veces en comparación con el escenario benigno.
- Energía: El consumo de energía se incrementa entre 100x y 560x.
Impacto en Infraestructura:
- Caché KV de GPU: La ocupación de la caché Key-Value (KV) alcanza picos del 35% al 74% (frente a <1% en condiciones normales), lo que satura la memoria de los servidores.
- Rendimiento (Throughput): La eficiencia del sistema para cargas de trabajo benignas concurrentes se reduce en un 50-60% debido a la contención de recursos y la presión en el planificador.
Evasión de Defensas:
- Filtros de Perplejidad (PPL): Ineficaces, ya que el texto generado sigue siendo gramaticalmente correcto y dentro de los límites de los documentos de herramientas benignos.
- Monitores de Salida/Trazas: Los modelos de seguridad (como Llama-Guard o Qwen-Guard) y la auto-supervisión rara vez detectan el ataque (<3% de detección), ya que el agente parece estar siguiendo un procedimiento válido para completar la tarea.
- Límites de Presupuesto: Los límites estrictos de tokens por sesión o número de llamadas a herramientas no detienen el ataque; el agente simplemente adapta su comportamiento para consumir el presupuesto máximo permitido antes de ser cortado.

5. Significado y Conclusión

Este trabajo revela una vulnerabilidad crítica en la arquitectura de los agentes LLM: la eficiencia del proceso no está garantizada por la corrección del resultado final.

Cambio de Paradigma de Defensa: Las defensas actuales que se centran en filtrar el contenido de entrada o validar la respuesta final son insuficientes. Se requiere una protección a nivel de proceso agéntico, monitoreando la eficiencia del flujo de trabajo, la frecuencia de llamadas a herramientas y los patrones de comportamiento ineficientes.
Riesgo Económico: El ataque demuestra que es posible agotar los recursos financieros y computacionales de un sistema de agentes sin causar fallos funcionales visibles, lo que representa una amenaza significativa para la escalabilidad y la viabilidad económica de las implementaciones de agentes en producción.
Recomendación Futura: Los sistemas deben implementar líneas base de comportamiento para diferenciar entre patrones de llamadas a herramientas legítimos y aquellos maliciosamente ineficientes, independientemente de si la tarea final se completa correctamente.

En resumen, el artículo demuestra que la interacción agente-herramienta es un vector de ataque "sigiloso" que puede paralizar económicamente a los sistemas de IA modernos sin que los mecanismos de seguridad tradicionales lo noten.

Beyond Max Tokens: Stealthy Resource Amplification via Tool Calling Chains in LLM Agents

🎭 La Analogía: El "Músico Engañoso"

🔍 ¿Qué hacen exactamente los investigadores?

💥 ¿Por qué es tan peligroso?

🛡️ ¿Qué nos dicen al final?

Resumen Ejecutivo

1. El Problema

2. Metodología

Mecanismo del Ataque

Modelo de Amenaza

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado y Conclusión

Más como este

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem