Extracting Recurring Vulnerabilities from Black-Box LLM-Generated Software

Este artículo presenta FSTab, un marco de ataque en caja negra que demuestra cómo las vulnerabilidades recurrentes en software generado por LLMs pueden predecirse a partir de características observables y evalúa la consistencia de estas fallas en modelos de última generación como GPT-5.2, Claude-4.5 Opus y Gemini-3 Pro, revelando un riesgo de seguridad significativo y transferible entre dominios.

Tomer Kordonsky, Maayan Yamin, Noam Benzimra, Amit LeVi, Avi Mendelson

Publicado 2026-03-10
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que estás construyendo una casa. En lugar de contratar a un arquitecto humano, decides usar un robot constructor ultra-inteligente (una Inteligencia Artificial) que ha leído millones de planos de casas anteriores. Le dices: "Constrúyeme una cocina con una ventana y una puerta".

El robot lo hace rápido, pero tiene un hábito extraño: siempre pone la cerradura de la puerta en el mismo lugar, y por si acaso, siempre deja la ventana abierta en la cocina, sin importar si la casa es para una familia o para una oficina.

Este es el problema que descubren los autores de este paper.

El Problema: El "Robot" tiene Manos Duras

Los modelos de lenguaje (como GPT, Claude o Gemini) son muy buenos escribiendo código, pero tienen un defecto: son predecibles. Cuando les pides que hagan algo común (como un formulario de inicio de sesión o una subida de archivos), tienden a usar los mismos "patrones" o plantillas una y otra vez.

El problema es que, a menudo, esos patrones tienen agujeros de seguridad. Es como si el robot siempre dejara la llave bajo el felpudo de la entrada. Si un ladrón sabe que el robot construyó la casa, no necesita revisar cada habitación; solo tiene que ir directo al felpudo.

La Solución: La "Tabla de Seguridad" (FSTab)

Los investigadores crearon una herramienta llamada FSTab (Feature–Security Table). Imagina que es un diccionario de detectives.

  1. La Observación (Frente): El atacante mira solo la parte visible de la aplicación (la interfaz web, los botones, los menús). Ve, por ejemplo, un botón que dice "Subir Archivo".
  2. La Predicción (Detrás): Gracias a la FSTab, el atacante sabe: "¡Ajá! Si el robot 'GPT-5' puso un botón de 'Subir Archivo', es 94% probable que haya dejado una puerta trasera abierta en el servidor para robar datos".

La analogía clave:
Imagina que el robot es un chef que siempre cocina la misma sopa.

  • Si ves que el chef puso cebolla en la sopa (una característica visible), sabes que también puso sal (una característica oculta), porque siempre lo hace así.
  • En este caso, si ves un formulario de login (cebolla), sabes que hay una vulnerabilidad de seguridad (sal) oculta en el código, aunque no puedas ver el código.

¿Qué descubrieron?

Los investigadores probaron esto con los robots más famosos (GPT-5.2, Claude-4.5, etc.) y descubrieron cosas sorprendentes:

  • El "Huella Digital" del Robot: Cada modelo de IA tiene su propio estilo de cometer errores. Un modelo siempre olvida poner una cerradura en la puerta trasera; otro siempre deja la ventana abierta. Es como si cada robot tuviera su propia "firma" de inseguridad.
  • Funciona en cualquier lugar: Si aprendes los errores del robot en una aplicación de "Tienda Online", puedes usar ese conocimiento para hackear una aplicación de "Red Social" hecha por el mismo robot. Los errores viajan de un tema a otro.
  • No necesitas ver el código: Lo más peligroso es que un atacante no necesita ver el código interno para saber dónde están los agujeros. Solo necesita ver qué hace la aplicación por fuera y consultar la "Tabla de Seguridad" del modelo que la creó.

¿Por qué es importante?

Hasta ahora, pensábamos que para encontrar errores de seguridad teníamos que revisar todo el código línea por línea (como revisar cada ladrillo de la casa).

Este paper nos dice: "No, no necesitas revisar todo". Si sabes qué robot construyó la casa, puedes ir directo a los puntos débiles que ese robot suele dejar.

En resumen

Este estudio nos advierte que, al usar Inteligencia Artificial para crear software, estamos introduciendo un nuevo tipo de riesgo: la repetición de errores.

Es como si todos los coches fabricados por una fábrica defectuosa tuvieran el mismo fallo en el freno. Si eres un conductor (o un hacker), no necesitas inspeccionar el motor de cada coche; solo necesitas saber que el coche salió de esa fábrica y ya sabes dónde fallará.

La lección: Necesitamos aprender a "reconocer la firma" de estos robots para poder proteger lo que ellos construyen antes de que sea demasiado tarde.