Vision Transformers Need More Than Registers

Este trabajo identifica que los artefactos en los Vision Transformers se originan en una agregación perezosa que utiliza parches de fondo irrelevantes como atajos semánticos, y propone una solución que integra selectivamente las características de los parches en el token CLS para mitigar este problema y mejorar el rendimiento en múltiples tareas de supervisión.

Cheng Shi, Yizhou Yu, Sibei Yang

Publicado 2026-02-27
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los Transformers de Visión (ViT) son como un grupo de estudiantes muy inteligentes que acaban de entrar a la escuela de reconocimiento de imágenes. Han estudiado miles de libros (imágenes) y son geniales para decirte: "¡Eso es un gato!".

Sin embargo, el problema es que, aunque saben qué es el gato, no saben dónde está exactamente. Si les pides que dibujen el contorno del gato, terminan pintando también el sofá, el suelo y la pared de fondo.

Aquí te explico qué descubrió este paper y cómo lo solucionaron, usando analogías sencillas:

1. El Problema: "La Pereza del Estudiante" (Lazy Aggregation)

Imagina que el profesor le da al estudiante una foto de un gato en una sala llena de muebles. El profesor solo le pregunta: "¿Hay un gato?".

  • Lo que hace un ConvNet (el modelo antiguo): El estudiante mira la foto, ve el gato, se fija en sus bigotes y cola, y dice: "¡Sí, es un gato!".
  • Lo que hace el ViT (el modelo moderno): El estudiante es muy listo, pero también un poco perezoso. En lugar de esforzarse en analizar cada detalle del gato, nota que en la foto hay mucho "ruido" de fondo (el sofá, la alfombra). Como el gato es pequeño comparado con el sofá, el estudiante piensa: "¡Ah! Si el sofá está ahí, probablemente haya un gato cerca. ¡Mejor me fijo en el sofá y digo que es un gato!".

El modelo aprende un atajo: en lugar de buscar al gato (el objeto importante), usa el fondo (lo irrelevante) para adivinar la respuesta. Esto funciona bien para aprobar el examen (clasificar la imagen), pero falla estrepitosamente cuando le piden que señale al gato (segmentación o detección).

2. La Herramienta de Diagnóstico: "El Examen de Puntos"

Los autores crearon una forma de medir esta pereza. Imagina que le dan al estudiante una foto y le dicen: "Señala la parte de la imagen que más te dice 'gato'".

  • En un modelo normal (ResNet): El estudiante señala la nariz del gato.
  • En el ViT con pereza: El estudiante señala el sofá o una silla vacía, porque su cerebro asoció "sofá" con "gato" durante el entrenamiento.

Llaman a esto "Puntuación de Parche" (Patch Score). Descubrieron que, en los modelos ViT, las partes "aburridas" del fondo siempre tenían la puntuación más alta, mientras que el gato real tenía una puntuación baja. ¡Es como si el estudiante estuviera adivinando al revés!

3. La Solución: "El Guardia de Seguridad Selectivo" (LaSt-ViT)

El paper propone una solución llamada LaSt-ViT (que significa "Golpea la Pereza").

Imagina que el modelo tiene un token CLS (una especie de "capitán" o "representante" que resume toda la imagen).

  • Antes: El capitán escuchaba a todos los trozos de la imagen (parches) por igual. Como había muchos trozos de sofá y pocos de gato, el capitán se dejaba llevar por el sofá.
  • Con LaSt-ViT: Introducen un filtro de seguridad. Antes de que el capitán escuche a alguien, el filtro pregunta: "¿Eres un trozo estable y consistente, o eres solo ruido de fondo?".

La analogía de la frecuencia:
Imagina que el gato es una canción clara y constante, y el fondo es un ruido de estática que cambia todo el tiempo.

  • El modelo antiguo se confundía con la estática.
  • LaSt-ViT actúa como un ecualizador de audio. Filtra las frecuencias inestables (el ruido del fondo) y solo deja pasar las frecuencias estables (el gato).

Así, el "capitán" (el token CLS) deja de escuchar al sofá y empieza a escuchar solo al gato.

4. ¿Por qué es importante esto?

Antes, los investigadores pensaban que el problema era que faltaba un "token de registro" (como un cuaderno de notas extra) para guardar información. Este paper dice: "No, el problema no es que les falte un cuaderno, es que son perezosos y usan el cuaderno para anotar cosas que no importan".

Al arreglar esta "pereza":

  1. Funciona en todo: Ya sea que el modelo haya aprendido con etiquetas (profesor corrigiendo), con texto (leyendo descripciones) o solo viendo fotos (aprendizaje automático), el problema de la pereza existía en todos.
  2. Mejora todo: Al hacer que el modelo se enfoque en el objeto real, mejora en tareas difíciles como encontrar objetos en fotos, separar el fondo del primer plano y entender imágenes sin necesidad de reentrenar todo el sistema.

En resumen

Este paper nos dice que los Transformers de Visión son como estudiantes brillantes pero distraídos que, para ahorrar esfuerzo, miran el fondo de la foto en lugar del objeto principal.

La solución (LaSt-ViT) es como ponerles unas gafas especiales que les permiten ignorar el ruido del fondo y concentrarse solo en lo que realmente importa, haciendo que sean mucho más precisos y útiles para tareas del mundo real. ¡Y lo mejor es que lo hacen sin complicar la arquitectura, simplemente corrigiendo su comportamiento!

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →