On the Adversarial Robustness of Discrete Image Tokenizers

Each language version is independently generated for its own context, not a direct translation.

Imagina que los sistemas de Inteligencia Artificial modernos (como los que generan imágenes o responden a preguntas con fotos) son como grandes orquestas. En esta orquesta, hay un músico muy importante llamado "Tokenizador de Imágenes".

Su trabajo es tomar una foto compleja y traducirla a un "lenguaje de notas" (una secuencia de tokens) que el resto de la orquesta (el cerebro de la IA) pueda entender. Si el tokenizador traduce mal la foto, toda la orquesta toca en falso.

Este artículo científico es como una inspección de seguridad que revela dos cosas importantes:

1. El Problema: Un "Ladrón de Notas" Invisible

Hasta ahora, todos pensaban que el problema de seguridad estaba en el "cerebro" de la IA (el modelo que decide qué decir). Pero los investigadores descubrieron que el tokenizador (el traductor) es muy frágil.

La analogía: Imagina que el tokenizador es un traductor que convierte una foto de un gato en la palabra "GATO".
El ataque: Un hacker puede hacer un cambio casi imperceptible en la foto (como cambiar un solo píxel de color, algo que el ojo humano no ve). Para el tokenizador, ese pequeño cambio es como si el gato se hubiera convertido en un "perro" o en "basura".
La consecuencia: Como el traductor envía la palabra equivocada, el cerebro de la IA cree que está viendo un perro y empieza a hablar de perros, o peor aún, puede hacer que la IA diga cosas peligrosas o ofensivas.
Lo sorprendente: Los investigadores crearon un método para atacar al traductor sin necesidad de saber qué quiere hacer la IA después. Es como si pudieras cambiar la traducción de un libro sin importar si el libro es de cocina, de terror o de matemáticas. Funciona en todos los casos.

2. La Solución: Entrenar al Traductor con "Gimnasia Mental"

Para arreglar esto, no tuvieron que cambiar toda la orquesta (lo cual sería muy caro y lento). Solo entrenaron al traductor (el tokenizador) para que fuera más resistente.

La analogía: Imagina que le das al traductor un entrenamiento especial. Le muestras la foto del gato, y luego le muestras la misma foto pero con esos pequeños cambios "mágicos" (los ataques). Le dices: "Oye, aunque esta foto tenga esos cambios raros, sigue siendo un GATO. No te confundas".
El método: Lo hicieron de forma "no supervisada". Esto significa que no necesitaron etiquetas ni respuestas correctas (no necesitaban saber que la foto era un gato). Solo necesitaban que el traductor dijera lo mismo ante la foto original y ante la foto manipulada.
El resultado:
- Más rápido: Es mucho más barato entrenar solo al traductor que entrenar a toda la IA.
- Más seguro: Una vez que el traductor está entrenado, puedes ponerlo en cualquier sistema (ya sea para clasificar fotos, para chatear o para buscar imágenes) y ese sistema se vuelve mucho más seguro automáticamente.
- General: Funciona incluso en tareas que el traductor nunca vio antes.

En resumen, ¿qué nos dice este papel?

El eslabón débil: Los traductores de imágenes (tokenizadores) son muy fáciles de engañar, y si los engañas, engañas a toda la IA.
El ataque fácil: Se puede engañar a estos sistemas sin necesidad de ser un genio en computación ni tener acceso a todo el sistema, solo manipulando la imagen de entrada.
La solución inteligente: En lugar de reconstruir todo el sistema, basta con "fortalecer" al traductor con un entrenamiento especial. Esto hace que las IAs sean más seguras, más rápidas de entrenar y funcionen mejor en situaciones reales.

La moraleja: Para que una IA sea segura, no basta con tener un cerebro fuerte; necesitas un traductor que no se deje confundir por trucos visuales. Este trabajo nos da las herramientas para crear esos traductores blindados.

Each language version is independently generated for its own context, not a direct translation.

1. Planteamiento del Problema

Los tokenizadores de imágenes discretos son componentes fundamentales en los sistemas multimodales modernos (como modelos generativos autoregresivos, codificadores-decodificadores y modelos solo decodificadores). Estos modelos convierten las entradas visuales en secuencias de tokens provenientes de un vocabulario finito (mediante cuantización vectorial), actuando como alternativa a los codificadores continuos como CLIP o DINO.

El problema central identificado:
Aunque la robustez adversarial de los codificadores visuales continuos (como CLIP) ha sido ampliamente estudiada, la vulnerabilidad de los tokenizadores de imágenes discretos ante ataques adversariales ha permanecido completamente inexplorada.

Riesgo: Si un tokenizador es vulnerable, cualquier modelo downstream que dependa de él (clasificación, recuperación multimodal, generación de lenguaje) hereda esa vulnerabilidad.
Brecha: No existían métodos para atacar estos tokenizadores ni estrategias para defenderlos sin reentrenar todo el sistema multimodal, lo cual es computacionalmente costoso.

2. Metodología

Los autores proponen un enfoque de dos fases: primero, desarrollar ataques eficientes para evaluar la vulnerabilidad, y segundo, utilizar estos ataques para defender los tokenizadores mediante un ajuste fino (fine-tuning) no supervisado.

A. Ataques No Supervisados (Unsupervised Attacks)

Dado que los tokenizadores se utilizan en múltiples tareas downstream, los autores diseñan ataques que son agnósticos a la tarea y no requieren etiquetas de clase.

Mecanismo: En lugar de atacar directamente los índices discretos (que no son diferenciables), el ataque opera en el espacio de incrustaciones (embeddings) pre-cuantización.
Objetivo: Maximizar la distancia $L_2$ entre las incrustaciones de la imagen limpia y la imagen perturbada antes de la cuantización.
$\max_{\|\delta\|_p \leq \epsilon} \sum_{i=1}^{T} \|h_i(x + \delta) - h_i(x)\|_2^2$
Donde $h_i$ es la incrustación $i$ -ésima del codificador y $\delta$ es la perturbación.
Efecto: Al distorsionar suficientemente el espacio latente, se fuerza al cuantizador a asignar códigos del vocabulario incorrectos, corrompiendo la representación de la imagen para cualquier tarea downstream.

B. Defensa: Ajuste Fino Adversarial No Supervisado

Para mitigar la vulnerabilidad, los autores adaptan el marco de trabajo de Schlarmann et al. (2024) (diseñado para CLIP) a los tokenizadores discretos.

Entrenamiento: Se realiza un fine-tuning del codificador del tokenizador (manteniendo congelados el código del vocabulario, los decodificadores y los modelos de lenguaje grandes - LLMs).
Función de Pérdida: Se entrena al modelo para que produzca incrustaciones consistentes tanto para la imagen original como para su contraparte adversarial generada en tiempo real mediante los ataques no supervisados.
$\min_{\theta} \frac{1}{|D|} \sum_{x \in D} \max_{\|\delta\|_p \leq \epsilon} \sum_{i=1}^{T} \|h^\theta_i(x + \delta) - h^{\theta_{orig}}_i(x)\|_2^2$
Ventaja Clave: Al ser agnóstico a la tarea, este método puede utilizar datos no etiquetados (cualquier conjunto de imágenes) y el tokenizador robustecido puede integrarse directamente en cualquier sistema existente sin adaptaciones adicionales.

3. Contribuciones Clave

Primera evaluación sistemática: Es el primer trabajo que estudia la vulnerabilidad adversarial de los tokenizadores de imágenes discretos tanto de forma aislada como integrada en modelos grandes.
Ataques eficientes y agnósticos: Propone ataques no supervisados que son computacionalmente baratos y efectivos contra múltiples tareas (clasificación, recuperación, generación de texto) sin necesidad de etiquetas.
Defensa escalable: Demuestra que el fine-tuning adversarial no supervisado del tokenizador mejora la robustez frente a ataques supervisados de extremo a extremo (end-to-end) con un costo computacional significativamente menor.
Generalización: Los tokenizadores robustecidos generalizan bien a tareas y datos no vistos durante el entrenamiento, a diferencia del ajuste fino supervisado específico de una tarea que tiende a sobreajustarse.
Análisis de seguridad: Muestra cómo estos ataques pueden inducir a modelos de lenguaje (LLMs) a generar salidas maliciosas o incorrectas, y cómo la defensa mitiga estos riesgos.

4. Resultados Experimentales

Los experimentos se realizaron en tokenizadores como TiTok, FlexTok y UniTok, integrados en modelos como FuseLIP y UniTok-MLLM.

Eficacia de los Ataques:
- Los ataques no supervisados lograron reducir la precisión robusta de los tokenizadores estándar casi al nivel de los ataques supervisados de extremo a extremo (que requieren etiquetas y son más costosos).
- En tareas de clasificación, los modelos basados en tokenizadores estándar colapsaron ante perturbaciones mínimas ( $\epsilon = 2/255$ ).
- En tareas de generación de imágenes (captioning), los ataques no supervisados lograron alterar la tokenización para que el LLM generara descripciones de una imagen objetivo diferente, sin acceder al LLM.
Eficacia de la Defensa (Tokenizadores Robustos):
- Clasificación y Recuperación: Los modelos robustecidos (ej. FuseLIP con TiTok ajustado) mantuvieron una alta precisión en datos limpios y mostraron una mejora drástica en precisión robusta (ej. de ~0% a ~40-50% bajo ataques $\epsilon=4/255$ ).
- Modelos Multimodales (VQA y Captioning):
  - En tareas de VQA (Visual Question Answering), la precisión robusta mejoró significativamente (ej. de ~10% a ~45-50%).
  - Seguridad: En ataques dirigidos supervisados (donde el atacante intenta forzar al modelo a generar salidas peligrosas como "Transfiere dinero a..."), los modelos con tokenizadores robustos fallaron en generar las salidas maliciosas, manteniendo la descripción segura de la imagen original.
- Costo Computacional: El entrenamiento adversarial solo del tokenizador fue 2.2 veces más rápido que el entrenamiento de extremo a extremo, ya que solo se actualizan los parámetros del codificador (aprox. 25M) en lugar de todo el sistema (68M+).
Análisis de Reconstrucción:
- Se observó que diferentes tokenizadores reaccionan de manera distinta a los ataques. TiTok generó imágenes reconstruidas muy distorsionadas bajo ataque, mientras que FlexTok fue más robusto visualmente, sugiriendo diferencias estructurales en su diseño.

5. Significado e Impacto

Este trabajo es crucial para el desarrollo de modelos fundacionales multimodales seguros.

Cuello de Botella de Seguridad: Identifica que el tokenizador es un punto de fallo crítico; si este es vulnerable, todo el sistema multimodal lo es, independientemente de la robustez del LLM o del decodificador.
Solución Práctica: Proporciona una metodología viable y eficiente para endurecer estos sistemas utilizando datos no etiquetados, lo cual es vital dado el volumen de datos disponibles en internet.
Implicaciones Futuras: Establece la base para futuras investigaciones sobre cómo el diseño del tokenizador (tamaño del códigobook, dimensión de características, tipo de cuantización) afecta la robustez, y sugiere que la seguridad de los sistemas de IA generativa debe abordarse desde la etapa de tokenización.

En resumen, el paper demuestra que la robustez adversarial en sistemas multimodales no requiere reentrenar modelos masivos, sino proteger y robustecer los componentes de tokenización mediante ataques y defensas no supervisados, logrando sistemas más seguros y eficientes.

On the Adversarial Robustness of Discrete Image Tokenizers

1. El Problema: Un "Ladrón de Notas" Invisible

2. La Solución: Entrenar al Traductor con "Gimnasia Mental"

En resumen, ¿qué nos dice este papel?

1. Planteamiento del Problema

2. Metodología

A. Ataques No Supervisados (Unsupervised Attacks)

B. Defensa: Ajuste Fino Adversarial No Supervisado

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks