Vision Transformers Need More Than Registers

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los Transformers de Visión (ViT) son como un grupo de estudiantes muy inteligentes que acaban de entrar a la escuela de reconocimiento de imágenes. Han estudiado miles de libros (imágenes) y son geniales para decirte: "¡Eso es un gato!".

Sin embargo, el problema es que, aunque saben qué es el gato, no saben dónde está exactamente. Si les pides que dibujen el contorno del gato, terminan pintando también el sofá, el suelo y la pared de fondo.

Aquí te explico qué descubrió este paper y cómo lo solucionaron, usando analogías sencillas:

1. El Problema: "La Pereza del Estudiante" (Lazy Aggregation)

Imagina que el profesor le da al estudiante una foto de un gato en una sala llena de muebles. El profesor solo le pregunta: "¿Hay un gato?".

Lo que hace un ConvNet (el modelo antiguo): El estudiante mira la foto, ve el gato, se fija en sus bigotes y cola, y dice: "¡Sí, es un gato!".
Lo que hace el ViT (el modelo moderno): El estudiante es muy listo, pero también un poco perezoso. En lugar de esforzarse en analizar cada detalle del gato, nota que en la foto hay mucho "ruido" de fondo (el sofá, la alfombra). Como el gato es pequeño comparado con el sofá, el estudiante piensa: "¡Ah! Si el sofá está ahí, probablemente haya un gato cerca. ¡Mejor me fijo en el sofá y digo que es un gato!".

El modelo aprende un atajo: en lugar de buscar al gato (el objeto importante), usa el fondo (lo irrelevante) para adivinar la respuesta. Esto funciona bien para aprobar el examen (clasificar la imagen), pero falla estrepitosamente cuando le piden que señale al gato (segmentación o detección).

2. La Herramienta de Diagnóstico: "El Examen de Puntos"

Los autores crearon una forma de medir esta pereza. Imagina que le dan al estudiante una foto y le dicen: "Señala la parte de la imagen que más te dice 'gato'".

En un modelo normal (ResNet): El estudiante señala la nariz del gato.
En el ViT con pereza: El estudiante señala el sofá o una silla vacía, porque su cerebro asoció "sofá" con "gato" durante el entrenamiento.

Llaman a esto "Puntuación de Parche" (Patch Score). Descubrieron que, en los modelos ViT, las partes "aburridas" del fondo siempre tenían la puntuación más alta, mientras que el gato real tenía una puntuación baja. ¡Es como si el estudiante estuviera adivinando al revés!

3. La Solución: "El Guardia de Seguridad Selectivo" (LaSt-ViT)

El paper propone una solución llamada LaSt-ViT (que significa "Golpea la Pereza").

Imagina que el modelo tiene un token CLS (una especie de "capitán" o "representante" que resume toda la imagen).

Antes: El capitán escuchaba a todos los trozos de la imagen (parches) por igual. Como había muchos trozos de sofá y pocos de gato, el capitán se dejaba llevar por el sofá.
Con LaSt-ViT: Introducen un filtro de seguridad. Antes de que el capitán escuche a alguien, el filtro pregunta: "¿Eres un trozo estable y consistente, o eres solo ruido de fondo?".

La analogía de la frecuencia:
Imagina que el gato es una canción clara y constante, y el fondo es un ruido de estática que cambia todo el tiempo.

El modelo antiguo se confundía con la estática.
LaSt-ViT actúa como un ecualizador de audio. Filtra las frecuencias inestables (el ruido del fondo) y solo deja pasar las frecuencias estables (el gato).

Así, el "capitán" (el token CLS) deja de escuchar al sofá y empieza a escuchar solo al gato.

4. ¿Por qué es importante esto?

Antes, los investigadores pensaban que el problema era que faltaba un "token de registro" (como un cuaderno de notas extra) para guardar información. Este paper dice: "No, el problema no es que les falte un cuaderno, es que son perezosos y usan el cuaderno para anotar cosas que no importan".

Al arreglar esta "pereza":

Funciona en todo: Ya sea que el modelo haya aprendido con etiquetas (profesor corrigiendo), con texto (leyendo descripciones) o solo viendo fotos (aprendizaje automático), el problema de la pereza existía en todos.
Mejora todo: Al hacer que el modelo se enfoque en el objeto real, mejora en tareas difíciles como encontrar objetos en fotos, separar el fondo del primer plano y entender imágenes sin necesidad de reentrenar todo el sistema.

En resumen

Este paper nos dice que los Transformers de Visión son como estudiantes brillantes pero distraídos que, para ahorrar esfuerzo, miran el fondo de la foto en lugar del objeto principal.

La solución (LaSt-ViT) es como ponerles unas gafas especiales que les permiten ignorar el ruido del fondo y concentrarse solo en lo que realmente importa, haciendo que sean mucho más precisos y útiles para tareas del mundo real. ¡Y lo mejor es que lo hacen sin complicar la arquitectura, simplemente corrigiendo su comportamiento!

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "Vision Transformers Need More Than Registers" (Los Transformadores de Visión Necesitan Más que Registros), presentado en español:

1. El Problema: Artefactos en los ViT y el "Comportamiento Perezoso"

A pesar de que los Transformadores de Visión (ViT) se han convertido en el estándar para la extracción de características visuales, los autores identifican un problema fundamental: la presencia de artefactos en sus representaciones densas. Estos artefactos se manifiestan bajo diversos paradigmas de supervisión (supervisado, auto-supervisado y supervisado por texto) y afectan tareas que requieren alineación espacial precisa, como la segmentación semántica, la detección de objetos y la localización.

La Causa Raíz: El artículo descarta que la causa sea simplemente la falta de "registros" (tokens adicionales propuestos por trabajos previos como Register). En su lugar, propone que el origen es un "comportamiento perezoso" (lazy aggregation).
Mecanismo del Error: Debido a la supervisión semántica de grano grueso (etiquetas a nivel de imagen) y la dependencia global de la atención, los ViT aprenden un atajo: utilizan parches de fondo semánticamente irrelevantes para representar la semántica global de la imagen. En lugar de enfocarse en el objeto principal (fondo), el token CLS (que encapsula la semántica global) se alinea erróneamente con regiones de fondo.
Consecuencias: Esto genera:
- Tokens de alta norma: Parches de fondo que adquieren valores de norma extremadamente altos, dominando el mapa de características.
- Desalineación: Una pobre correspondencia entre las características densas y las señales de supervisión (texto o etiquetas), lo que degrada el rendimiento en tareas de visión densa.

2. Metodología y Análisis

Los autores introducen un marco unificado para diagnosticar y mitigar este problema:

A. Nuevas Métricas de Diagnóstico

Para cuantificar el problema independientemente del método de entrenamiento, proponen:

Puntuación de Parche (Patch Score): Mide la similitud entre las características de cada parche y el token CLS. Un alto puntaje en el fondo indica que el modelo está usando el fondo para inferir la clase.
Punto en Caja (Point-in-Box, PiB): Evalúa si el parche con la puntuación más alta cae dentro de la caja delimitadora del objeto (fondo). Los ViT estándar muestran un PiB muy bajo (alrededor de 0.42-0.44) en comparación con las CNN (ResNet, ~0.68), confirmando el sesgo hacia el fondo.

B. Hipótesis de Validación

Mediante experimentos controlados, validan que el comportamiento perezoso surge desde el inicio del entrenamiento y es impulsado por dos factores:

Supervisión de grano grueso: La falta de señales a nivel de parche permite que el modelo ignore la localización precisa.
Dependencias globales: La atención global permite que la semántica del objeto se difunda a los abundantes parches de fondo.
- Evidencia: Aumentar el tamaño del parche (reduciendo tokens de fondo) o restringir la atención a ventanas locales mejora el PiB pero reduce la precisión de clasificación, confirmando el compromiso entre clasificación global y consistencia semántica local.

C. Solución Propuesta: LaSt-ViT (LazyStrike ViT)

En lugar de añadir tokens extra (registros), el método propone una agregación selectiva y consciente de la frecuencia para anclar el token CLS a las regiones de fondo.

Puntaje de Estabilidad (Stability Score): Se basa en la observación de que las señales de fondo suelen tener una mayor diversidad semántica (variación), mientras que el objeto principal es más homogéneo.
- Se aplica una Transformada de Fourier 1D a lo largo del canal de características de cada parche.
- Se aplica un filtro paso bajo (usando pesos gaussianos) para suavizar las variaciones de alta frecuencia.
- Se calcula la estabilidad comparando el parche original con el filtrado. Los parches que mantienen su estructura tras el filtrado (estables) se consideran candidatos a ser parte del objeto.
Agrupación Top-K por Canal: Para cada canal de características, el modelo selecciona los $K$ parches más estables y promedia sus características para actualizar el token CLS.
Resultado: El token CLS deja de depender de los parches de fondo inestables y se concentra en las regiones del objeto, eliminando los artefactos sin cambiar la arquitectura base ni requerir fine-tuning posterior.

3. Contribuciones Clave

Análisis Sistemático: Identifican y definen formalmente el "comportamiento perezoso" como la causa raíz de los artefactos en ViT, demostrando que persiste desde las primeras etapas del entrenamiento.
Hipótesis Unificada: Conectan la supervisión de grano grueso y las dependencias globales con la tendencia de los ViT a usar atajos de fondo, explicando fenómenos observados en modelos CLIP, DINO y ViT supervisados.
Método LaSt-ViT: Proponen una solución simple, eficiente y sin parámetros adicionales (no requiere registros) que utiliza la estabilidad de frecuencia para seleccionar características relevantes.
Rendimiento Universal: Demuestran que el método funciona consistentemente bajo tres paradigmas de entrenamiento: supervisado, auto-supervisado y supervisado por texto.

4. Resultados Experimentales

El método se evaluó en 12 benchmarks diversos, mostrando mejoras consistentes:

Eliminación de Artefactos:
- El puntaje Point-in-Box (PiB) de ViT con LaSt-ViT mejora drásticamente (ej. de 42.7% a 55.1% en ViT supervisado, acercándose al rendimiento de ResNet).
- Se eliminan los tokens de alta norma (high-norm tokens) en los mapas de características.
Segmentación Semántica (Zero-shot):
- En modelos CLIP (ViT-B/16 y ViT-L/14), LaSt-ViT mejora significativamente el mIoU en datasets como Pascal VOC, Cityscapes y ADE20K. Por ejemplo, en VOC, el mIoU sube de 49.0% a 75.0% en ViT-B/16.
Detección y Segmentación de Objetos (Open-Vocabulary):
- Mejoras sustanciales en benchmarks OV-COCO y OV-LVIS, superando a baselines basados en ConvNets y otros ViT.
Descubrimiento de Objetos No Supervisado:
- En tareas de auto-supervisión (DINO), el método supera a los métodos state-of-the-art (como LOST y DINO-seg) en métricas CorLoc, con un rendimiento de inferencia más rápido (55.9 imágenes/segundo).
Propiedades Emergentes:
- Logra que ViT bajo supervisión de etiquetas muestre propiedades de segmentación emergente (antes exclusivas de DINO), alcanzando un mIoU de 41.9% en VOC12 (comparable a DINO-v1 que obtiene 47.7%).

5. Significado e Impacto

Este trabajo ofrece un cambio de paradigma en la comprensión del comportamiento interno de los ViT:

Más allá de los Registros: Refuta la idea de que añadir tokens de registro es la solución definitiva, demostrando que el problema es fundamentalmente de agregación y no de capacidad de almacenamiento.
Eficiencia: LaSt-ViT es una solución "plug-and-play" que no requiere reentrenamiento masivo ni arquitecturas complejas, sino un mecanismo de agregación inteligente durante el pre-entrenamiento.
Generalización: Al abordar la causa raíz (el atajo de fondo), el método mejora la robustez y la interpretabilidad de los ViT en una amplia gama de tareas y modalidades de supervisión, estableciendo una nueva línea base para futuras investigaciones en representaciones visuales densas.

En resumen, el paper argumenta que para que los ViT sean verdaderamente efectivos en tareas densas, deben dejar de ser "perezosos" y aprender a ignorar el fondo mediante una agregación selectiva basada en la estabilidad de las características, en lugar de depender de trucos arquitectónicos como los registros.