SPoT: Subpixel Placement of Tokens in Vision Transformers

El artículo presenta SPoT, una estrategia de tokenización que posiciona tokens de manera continua y subpíxel dentro de las imágenes para superar las limitaciones de las cuadrículas discretas, logrando así un rendimiento superior con menos tokens y redefiniendo la escasez como una ventaja estratégica en los Transformadores de Visión.

Martine Hjelkrem-Tan, Marius Aasan, Gabriel Y. Arteaga, Adín Ramírez Rivera

Publicado 2026-03-09
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que estás intentando describir un cuadro de pintura a alguien que no puede verlo, pero solo tienes una caja de herramientas muy rígida.

El Problema: La "Caja de Herramientas Rígida"

Imagina que tienes una imagen (como una foto de un gato) y quieres que una Inteligencia Artificial (IA) la reconozca.

La forma tradicional de hacer esto, llamada Vision Transformer (ViT), es como si tomaras una rejilla de cuadrícula perfecta (como un tablero de ajedrez) y la colocaras sobre la foto. La rejilla divide la imagen en cuadraditos iguales. La IA solo puede "mirar" lo que hay dentro de esos cuadraditos.

El problema es que la naturaleza no sigue las reglas de la cuadrícula.

  • Si el ojo del gato está justo en la línea que separa dos cuadraditos, la rejilla lo corta por la mitad. La IA ve medio ojo en un cuadro y el otro medio en el siguiente. ¡Es confuso!
  • Si quieres ahorrar energía (hacer el proceso más rápido), la IA intenta mirar solo algunos cuadraditos. Pero si el gato está en una esquina "fea" de la cuadrícula, la IA podría perderse el gato por completo porque su ojo cayó en un cuadradito que decidieron ignorar.

Es como intentar comer una sopa con un tenedor: es posible, pero muy ineficiente y frustrante. La información se "pierde" en los bordes de los cuadraditos.

La Solución: SPoT (El "Puntero Mágico")

Los autores de este paper proponen algo llamado SPoT (Subpixel Placement of Tokens).

Imagina que, en lugar de usar esa rejilla rígida, le das a la IA un puntero láser mágico o un dedo que puede tocar cualquier punto exacto de la foto, incluso si está a medio píxel entre dos cuadraditos.

  • Sin rejilla: La IA puede colocar sus "ojos" (tokens) exactamente donde está el ojo del gato, la nariz o la cola, sin importar si caen en una línea o en un espacio vacío.
  • Eficiencia: Como la IA puede apuntar con precisión milimétrica, no necesita mirar toda la foto. Puede elegir mirar solo los 10 puntos más importantes (los ojos, la nariz) y saltarse el resto. Esto la hace muchísimo más rápida y eficiente.

El Experimento: "El Oráculo" (El Chef Estrella)

Para probar si su idea funcionaba, los investigadores crearon una herramienta llamada SPoT-ON (Oráculo).

Imagina que tienes un chef estrella (el Oráculo) que tiene superpoderes: puede ver la foto y decirte exactamente: "Si miras aquí, aquí y aquí, podrás adivinar el nombre del animal con un 99% de seguridad, usando solo el 12% de la información".

El Oráculo no es un truco para usar en la vida real (es demasiado lento calcularlo cada vez), pero sirve para demostrar algo increíble: Si pudiéramos colocar los "ojos" de la IA en los lugares perfectos, la máquina sería mucho más inteligente y rápida.

¿Qué descubrieron?

  1. La libertad gana: Cuando la IA puede mover sus "ojos" libremente (subpíxel) en lugar de estar atada a la cuadrícula, funciona mucho mejor, especialmente cuando tiene pocos recursos (pocos "ojos" para mirar).
  2. El centro importa: En fotos de objetos (como en ImageNet), los objetos suelen estar en el centro. Si le dices a la IA que sus "ojos" tiendan a agruparse en el centro, funciona mejor.
  3. No es solo lo que ves, sino cómo te relacionas: A veces, el Oráculo no pone los ojos directamente sobre el objeto, sino justo al lado, para captar el contexto. Es como si para reconocer un gato, no solo miraras sus bigotes, sino también el borde de la caja donde está sentado.

En Resumen

Este paper nos dice que la rigidez es enemiga de la inteligencia.

  • Antes: La IA estaba atada a una cuadrícula rígida, como un soldado marchando en formación. Si el objetivo se movía fuera de la formación, el soldado lo perdía de vista.
  • Ahora (con SPoT): La IA es como un francotirador experto con un telescopio. Puede apuntar a cualquier lugar exacto de la imagen, ignorar lo que no importa y centrarse solo en lo crucial.

Esto significa que en el futuro, las IAs podrían ser más rápidas, gastar menos batería y entender mejor las imágenes, simplemente porque dejaron de intentar encajar el mundo en una cuadrícula cuadrada y empezaron a mirar donde realmente importa.