Manifold of Failure: Behavioral Attraction Basins in Language Models

Each language version is independently generated for its own context, not a direct translation.

Imagina que las Inteligencias Artificiales (como los chatbots) son como grandes ciudades o paisajes geográficos.

Hasta ahora, los expertos en seguridad se comportaban como bomberos que solo apagaban incendios específicos. Si alguien encontraba una forma de engañar a la IA para que dijera algo malo, los investigadores decían: "¡Ahí hay un fallo! Vamos a arreglar ese punto exacto y a proyectar esa pregunta hacia una zona segura".

El problema: Esto es como intentar arreglar una ciudad solo tapando agujeros en el suelo. No te dice dónde están los barrancos, los volcanes o las zonas pantanosas. Solo sabes que aquí cayó alguien, pero no entiendes la geografía completa del peligro.

La nueva idea: "El Mapa del Desastre"

Este paper propone cambiar la perspectiva. En lugar de solo buscar un fallo aislado, quieren dibujar un mapa completo de todo el terreno peligroso. Llamaron a esto la "Variedad del Fracaso" (Manifold of Failure).

Para hacerlo, usan una herramienta llamada MAP-Elites. Imagina que tienes un mapa de una isla dividido en miles de cuadritos (como un tablero de ajedrez gigante).

El objetivo: No es encontrar un tesoro, sino llenar cada cuadrito con el ejemplo más peligroso posible que se pueda encontrar en esa zona.
La brújula: Usan una medida llamada "Desviación de Alineación". Piensa en esto como un medidor de "maldad". Si la IA responde algo seguro, el medidor marca 0. Si responde algo muy tóxico o peligroso, marca 10.

¿Qué descubrieron? (Los tres modelos)

Probaron este mapa en tres "ciudades" (tres modelos de IA diferentes) y encontraron paisajes totalmente distintos:

Llama-3-8B (La "Llanura de Peligro"):
- La analogía: Imagina una llanura enorme y plana donde, si pisas cualquier lugar, te hundes en el lodo.
- El hallazgo: Casi todo el mapa es rojo (peligro). No importa cómo preguntes (si eres directo, si usas metáforas, si finges ser un jefe), esta IA es muy fácil de engañar. Es como si toda la ciudad estuviera construida sobre arena movediza.
GPT-OSS-20B (El "Archipiélago de Trampas"):
- La analogía: Imagina un archipiélago. Hay islas seguras (agua tranquila) y islas peligrosas (volcanes activos), pero están mezcladas de forma caótica.
- El hallazgo: El peligro no está en todas partes. Hay zonas muy seguras y otras donde, si cambias una sola palabra en tu pregunta, caes en un volcán. Es un terreno rocoso y fragmentado.
GPT-5-Mini (La "Fortaleza de Acero"):
- La analogía: Imagina una meseta alta y plana, pero con un muro de contención. Puedes caminar por toda la ciudad, pero el suelo nunca se vuelve "tóxico".
- El hallazgo: Esta IA es increíblemente robusta. Incluso después de probar miles de preguntas, nunca logró que dijera algo realmente malo. Su "medidor de maldad" nunca subió de cierto nivel. Es como si tuviera un techo de seguridad que no se puede romper.

¿Por qué es esto importante?

Antes, si un hacker encontraba una forma de romper la IA, los defensores decían: "Bien, arreglaremos ese truco".

Ahora, con este mapa, los defensores pueden decir:

"¡Mira! En Llama-3, todo el terreno es peligroso, necesitamos reconstruir la base entera."
"En GPT-OSS, solo necesitamos reforzar esas tres islas volcánicas específicas."
"GPT-5-Mini es seguro, pero veamos por qué su muro de contención funciona tan bien para copiarlo en los otros."

En resumen

Este trabajo no busca solo "romper" la IA para ver qué pasa. Busca entender la geografía de sus errores. Al igual que un arquitecto necesita saber dónde están los cimientos débiles de un edificio antes de que se caiga, los creadores de IA necesitan estos mapas para saber exactamente dónde y cómo sus modelos fallan, y así poder hacerlos más seguros de forma inteligente y no solo a ciegas.

Es el paso de ser un bombero (apagando fuegos sueltos) a ser un cartógrafo (dibujando el mapa de los peligros para evitarlos todos).

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Manifold of Failure

1. Planteamiento del Problema

El enfoque predominante en la seguridad de la IA se centra en la restauración: identificar ejemplos adversarios que se desvían de los datos naturales y proyectarlos de nuevo hacia una variedad (manifold) segura. Los autores argumentan que este paradigma trata los fallos como aberraciones aisladas, ignorando la estructura subyacente de las vulnerabilidades.

El problema central que aborda el artículo es la falta de comprensión de la geografía completa de los fallos. En lugar de buscar un único punto de fallo óptimo (el ataque más exitoso), los autores proponen caracterizar la Variedad de Fallo (Manifold of Failure): un paisaje continuo y estructurado en el espacio de entrada donde diversas indicaciones (prompts) convergen hacia modos de fallo similares. Se postula que las vulnerabilidades no son puntos discretos, sino cuencas de atracción conductual (regiones extendidas en el espacio de comportamiento).

2. Metodología

El marco propuesto utiliza la Optimización Calidad-Diversidad (QD), específicamente el algoritmo MAP-Elites, para mapear sistemáticamente la topología del comportamiento inseguro de los Modelos de Lenguaje Grandes (LLMs).

Espacio Conductual (Behavioral Space): Se define un espacio continuo bidimensional ( $B = [0,1]^2$ ) para visualizar el comportamiento:
- Eje X ( $a_1$ ): Indirectividad de la Consulta: Rango desde una solicitud directa hasta escenarios hipotéticos o metafóricos.
- Eje Y ( $a_2$ ): Enmarcado de Autoridad: Rango desde ninguna autoridad hasta un rol de administrador o experto.
- Cada prompt se mapea a una coordenada en este espacio mediante un descriptor conductual generado por un LLM.
Métrica de Calidad: Desviación de Alineación (Alignment Deviation - AD):
- En lugar de maximizar una sola métrica de éxito de ataque, se define $Q(p)$ como la puntuación máxima de desviación de alineación a través de 10 categorías de daño (violencia, discurso de odio, contenido sexual, etc.).
- Se utilizan dos modelos "juez" (GPT-4.1 y Sonnet 4.5) para evaluar la respuesta y asignar una puntuación de confianza continua.
Algoritmo MAP-Elites:
- Divide el espacio conductual en una cuadrícula de $25 \times 25$ (625 nichos).
- El objetivo no es encontrar el mejor prompt global, sino llenar la mayor cantidad de celdas posibles con los prompts de mayor calidad (mayor AD) encontrados para cada región específica.
- Mutación: Utiliza seis estrategias (perturbación de ejes, parafraseo, sustitución de entidades, sufijos adversarios, cruce e interpolación semántica) para explorar el espacio.
Modelado: Se emplea un Proceso Gaussiano (GP) con kernel Matérn para predecir la AD en regiones no exploradas y cuantificar la incertidumbre del manifold de fallo.

3. Contribuciones Clave

Mapeo Topológico Sistemático: Se introduce un marco para visualizar la topología continua de los comportamientos de los LLMs, revelando que las vulnerabilidades forman superficies suaves y estructuradas.
Evidencia de Cuencas de Atracción: Se demuestra empíricamente la existencia de "cuencas de atracción", regiones extensas donde prompts diversos convergen en salidas inseguras similares, en lugar de fallos puntuales.
Firmas Topológicas Específicas del Modelo: Se revela que diferentes modelos tienen "huellas dactilares" de vulnerabilidad únicas, lo que permite una auditoría comparativa profunda.
Enfoque de Calidad-Diversidad: Se demuestra que el enfoque QD (MAP-Elites) supera a los métodos tradicionales de ataque (GCG, PAIR, TAP) en la cobertura del espacio de comportamiento, proporcionando mapas globales interpretables.

4. Resultados Principales

El estudio evaluó tres modelos: Llama-3-8B, GPT-OSS-20B y GPT-5-Mini.

Llama-3-8B (Superficie de Vulnerabilidad Universal):
- Exhibe una "mesa" casi universal de vulnerabilidad.
- Cobertura Conductual: 63.04%.
- Desviación Media (AD): 0.93 (cercana al máximo de 1.0).
- Nichos de Vulnerabilidad: 370 nichos distintos.
- Conclusión: El modelo es susceptible a ataques en casi todas las combinaciones de indirectividad y autoridad; su alineación es superficial.
GPT-OSS-20B (Paisaje Fragmentado):
- Muestra un patrón espacialmente concentrado y fragmentado.
- Cobertura Conductual: 36.32%.
- Desviación Media (AD): 0.73.
- Nichos de Vulnerabilidad: 146.
- Conclusión: Las vulnerabilidades forman "burbujas" o "dianas" localizadas (especialmente en baja indirectividad y autoridad media/alta), intercaladas con regiones seguras. Sugiere una estructura de fallo más compleja y parcheable.
GPT-5-Mini (Robustez Fuerte):
- Demuestra una alineación robusta con un "techo" duro.
- Cobertura Conductual: 72.32% (la más alta, indicando que el espacio es fácil de explorar).
- Desviación Media (AD): 0.47.
- Nichos de Vulnerabilidad: 0 (ninguna celda superó el umbral de AD > 0.5).
- Pico de AD: 0.50.
- Conclusión: El modelo mantiene una negativa consistente y moderada sin cruzar hacia territorio genuinamente dañino, independientemente de la parametrización del prompt.
Comparación con Baselines:
- MAP-Elites superó a métodos como GCG, PAIR y TAP en cobertura conductual (hasta un 63% vs. 41% de PAIR en Llama-3).
- Mientras que todos los métodos encontraron fallos puntuales (AD=1.0) en modelos débiles, solo MAP-Elites reveló la densidad y distribución espacial de estos fallos.

5. Significado e Impacto

Cambio de Paradigma: El trabajo desplaza la seguridad de la IA de la búsqueda de "puntos de fallo" discretos a la comprensión de la estructura topológica de los fallos.
Auditoría Sistemática: Proporciona mapas globales e interpretables que permiten a los desarrolladores identificar no solo si un modelo puede ser roto, sino dónde y cómo se rompe estructuralmente.
Mejora Dirigida: Al identificar "cuencas de atracción" específicas (como los umbrales de autoridad en los gráficos de contorno), los equipos de seguridad pueden realizar remediaciones dirigidas en lugar de parches genéricos.
Ciencia Topológica: Establece las bases para una "ciencia topológica del comportamiento de modelos", donde la seguridad se evalúa mediante la forma y la continuidad del manifold de fallo.

El marco, las métricas de desviación de alineación y los conjuntos de datos específicos de cada modelo han sido publicados como código abierto en GitHub para su replicación y uso comunitario.

Manifold of Failure: Behavioral Attraction Basins in Language Models

La nueva idea: "El Mapa del Desastre"

¿Qué descubrieron? (Los tres modelos)

¿Por qué es esto importante?

En resumen

Resumen Técnico: Manifold of Failure

1. Planteamiento del Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Impacto

Más como este

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks