FORCE: Transferable Visual Jailbreaking Attacks via Feature Over-Reliance CorrEction

El artículo propone FORCE, un método que mejora la transferibilidad de los ataques de jailbreaking visual entre modelos de lenguaje multimodal al corregir la sobredependencia de características específicas mediante la corrección de representaciones de capas y componentes espectrales para explorar regiones de ataque más generalizables.

Runqi Lin, Alasdair Paren, Suqin Yuan, Muyang Li, Philip Torr, Adel Bibi, Tongliang Liu

Publicado 2026-03-03
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los Modelos de Lenguaje Multimodales (MLLM) son como unos guardias de seguridad súper inteligentes en un museo. Estos guardias están entrenados para no dejarte pasar si intentas pedirles que te enseñen cómo hacer algo peligroso (como construir una bomba o robar).

Normalmente, si les preguntas con palabras maliciosas, el guardia te dice: "No, eso no se puede". Pero, ¿qué pasa si en lugar de hablarle, le muestras una imagen?

El Problema: El "Truco de la Magia" que solo funciona una vez

Los investigadores descubrieron que puedes engañar a estos guardias mostrando una imagen con un "ruido" casi invisible (como un grano de polvo microscópico en una foto). Si le muestras esa imagen al guardia A (el modelo de entrenamiento), este se confunde y te da las instrucciones peligrosas.

Pero aquí está el truco: Si tomas esa misma imagen y se la muestras al guardia B (un modelo diferente, quizás uno más nuevo o de una empresa distinta), el guardia B no se confunde. Sigue diciendo "No".

¿Por qué? Porque el truco que creaste para el guardia A era demasiado específico. Era como si hubieras aprendido a abrir la cerradura del guardia A usando una llave maestra que solo encajaba en su cerradura, pero no en la del guardia B.

La Investigación: ¿Por qué fallan los trucos?

Los autores del paper (llamado FORCE) decidieron investigar qué estaba pasando dentro de la "mente" de estos modelos. Descubrieron dos cosas curiosas:

  1. Dependencia de "Capas Superficiales": Imagina que el modelo es como una cebolla con muchas capas. Los trucos que funcionaban dependían demasiado de las capas más externas (las primeras que tocan la imagen). Esas capas son muy específicas de cada modelo. Si cambias un poco la cebolla (cambias de modelo), el truco deja de funcionar.
  2. Obsesión por los "Detalles Ruidosos": Los trucos se volvían locos con los detalles de alta frecuencia (como el ruido estático de una TV vieja o las texturas muy finas). El modelo aprendía a ignorar el significado real de la imagen (que es lo que todos entendemos) y se fijaba en esos "ruidos" que no tienen sentido semántico. Es como si el guardia te dejara pasar no porque entendió tu disfraz, sino porque notó que tenías una mota de polvo en la nariz que solo él podía ver.

Esto hacía que el truco fuera muy "afilado" y frágil. Un cambio mínimo y el truco se rompía.

La Solución: FORCE (La Corrección de la Sobre-Dependencia)

Los autores crearon un nuevo método llamado FORCE (Corrección de la Sobre-Dependencia de Características). Imagina que FORCE es un entrenador de espías que enseña a crear trucos más inteligentes y universales.

FORCE hace dos cosas principales:

  1. Aplana el Terreno (Capas): En lugar de buscar un camino estrecho y peligroso en las capas superficiales, el entrenador guía al ataque para que explore un terreno más amplio y plano. Imagina que en lugar de intentar cruzar un puente de madera muy estrecho (que se rompe si sopla el viento), FORCE te enseña a caminar por un sendero ancho y seguro que funciona para todos los guardias, no solo para uno.
  2. Baja el Volumen del Ruido (Frecuencias): El entrenador le dice al ataque: "¡Oye, deja de fijarte en el ruido de la estática! Enfócate en el significado de la imagen". FORCE reduce la importancia de esos detalles raros y de alta frecuencia, obligando al ataque a basarse en cosas que tienen sentido para todos los modelos (como el contenido real de la imagen).

El Resultado: Un Truco Universal

Gracias a FORCE, los nuevos trucos visuales son como llaves maestras universales.

  • Antes: Un truco funcionaba solo en el modelo A.
  • Ahora: Un truco creado con FORCE funciona en el modelo A, en el modelo B, y hasta en los guardias de seguridad más estrictos de las empresas comerciales (como los de GPT o Claude).

En resumen

El papel nos dice que los ataques visuales actuales son como llaves hechas a mano que solo abren una puerta. Los autores han descubierto que estas llaves fallan porque dependen de detalles muy específicos y ruidosos. Con su método FORCE, han aprendido a crear llaves universales que funcionan en casi cualquier puerta, haciendo que sea mucho más fácil (y peligroso, por eso es importante para la seguridad) probar si estos sistemas de IA son realmente seguros.

Es un paso gigante para que los "red teamers" (los buenos que prueban la seguridad) puedan encontrar agujeros en los sistemas más avanzados antes de que los "malos" los encuentren.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →