Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que este artículo es como un descubrimiento en el mundo de la cocina de la Inteligencia Artificial. Aquí te explico de qué trata, usando analogías sencillas y divertidas.

🍕 La Gran Pizza de la Visión por Computadora

Hasta hace poco, cuando las computadoras querían "ver" una imagen (como una foto de un gato), usaban un método un poco torpe llamado "Patchification" (o fragmentación).

Imagina que tienes una pizza gigante de 224x224 trozos. Para que la computadora la entienda rápido, los científicos le decían: "¡Oye, no mires cada trozo de queso y pepperoni individualmente! Agrupa los trozos en cuadrados grandes de 16x16 y trata cada cuadrado como si fuera una sola palabra".

Esto es como si, para describirte una película, en lugar de contarte cada escena y cada diálogo, te dijera: "La película tiene 196 escenas principales". Es rápido de procesar, pero pierdes muchos detalles. ¿Qué pasa si el gato tiene una mancha pequeña en la oreja? ¡Esa mancha se pierde dentro de un cuadrado gigante!

🔍 El Descubrimiento: "¡Una imagen vale 50,176 palabras!"

Los autores de este paper (Feng Wang y su equipo) se preguntaron: "¿Y si dejamos de agrupar los trozos? ¿Y si le damos a la computadora la pizza entera, trozo por trozo, píxel por píxel?".

Su conclusión fue sorprendente y cambió las reglas del juego:

Más detalles = Mejor inteligencia: Descubrieron que, cuanto más pequeños hacían los "trozos" (hasta llegar a 1 píxel, que es el tamaño más pequeño posible), mejor entendía la computadora la imagen.
La ley de escalado: Imagina que tienes un motor de coche. Antes pensábamos que para ir más rápido solo podíamos hacer el motor más grande (más parámetros). Ellos descubrieron que hay otra forma: hacer el motor más eficiente mirando mejor. Al reducir el tamaño del trozo, la precisión sube constantemente, sin importar si usas un modelo pequeño o gigante.
El récord: Lograron que una computadora procesara una imagen como si fuera una oración de 50,176 palabras (tokens). ¡Es una oración larguísima! Y gracias a esto, lograron un puntaje de 84.6% en pruebas de reconocimiento de imágenes, algo muy difícil de lograr.

🧩 La Analogía del Traductor

Piensa en la visión por computadora como un traductor de idiomas:

El método antiguo (16x16): Era como traducir un libro entero a un idioma nuevo, pero solo leyendo un párrafo cada vez y adivinando el resto. A veces acertaba, pero perdía la esencia.
El nuevo método (1x1): Es como traducir cada letra del libro. Al principio parece una locura porque hay muchísimas letras, pero al final, la traducción es perfecta. La computadora entiende la "textura" y los detalles finos que antes ignoraba.

🏗️ ¿Qué pasa con los "Arquitectos" (Decodificadores)?

En el mundo de la IA, cuando se hace una tarea difícil como "seguir los bordes de un objeto" (segmentación), se suele usar un "arquitecto" extra (un decoder) al final para arreglar los detalles.

El paper descubrió algo curioso: Si le das a la computadora los detalles finos desde el principio (píxel a píxel), ya no necesita al arquitecto extra.

Es como si, en lugar de construir un edificio y luego contratar a alguien para que le ponga los ladrillos finales, construyeras el edificio tan bien desde el principio que no necesitas a nadie más. ¡El modelo se vuelve más simple y eficiente!

🚀 ¿Por qué no lo hacían antes?

La pregunta lógica es: "Si funciona tan bien, ¿por qué no lo hicieron hace 5 años?".

La respuesta es computación.
Hace unos años, mirar una imagen píxel a píxel requería una cantidad de energía y memoria que las computadoras no podían soportar. Era como intentar leer un libro de un millón de páginas en un segundo; la computadora se "quemaba".

Pero gracias a:

Hardware nuevo: Las tarjetas gráficas actuales (como las A100) son monstruosas.
Nuevas técnicas: Algoritmos más inteligentes que no se agotan tanto.

Ahora es posible hacer esto. Ya no tenemos que sacrificar la calidad por la velocidad.

💡 La Lección Principal

El mensaje final del paper es optimista: No necesitamos comprimir la realidad para entenderla.

Antes, pensábamos que para que una IA fuera inteligente, teníamos que simplificarle el mundo (comprimir la imagen). Ahora sabemos que, si le damos los recursos necesarios, la IA puede entender el mundo tal como es: con todos sus detalles, píxel a píxel.

Es como pasar de mirar un mapa borroso de una ciudad a caminar por las calles reales, viendo cada árbol y cada ventana. ¡Y eso hace que la IA sea mucho más inteligente!

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Leyes de Escalamiento en la Parchificación

1. El Problema: La Pérdida de Información por Compresión

Desde la introducción de los Vision Transformers (ViT), la parchificación (dividir una imagen en bloques de $p \times p$ píxeles) se ha establecido como el estándar para tokenizar imágenes en arquitecturas visuales planas.

Limitación actual: Este enfoque es un paradigma de codificación compresiva. Reduce el tamaño espacial de la imagen para acortar la secuencia de tokens y disminuir el costo computacional (especialmente crítico en la atención cuadrática de los Transformers).
Consecuencia: Esta compresión provoca una pérdida de información irreversible. Por ejemplo, una imagen de $224 \times 224$ píxeles contiene mucha más información que una secuencia de texto de 196 palabras (equivalente a parches de $16 \times 16$ ), pero bajo un ViT estándar, ambas ocupan un espacio de representación similar.
Hipótesis: Los autores argumentan que la parchificación no es un componente necesario para la codificación visual, sino un compromiso histórico debido a limitaciones de memoria y cómputo. La información perdida en la compresión (características de bajo nivel) es crucial para la comprensión visual.

2. Metodología

El estudio realiza una investigación exhaustiva sobre el escalamiento de parches, reduciendo progresivamente el tamaño del parche desde el estándar ( $16 \times 16$ ) hasta el límite mínimo ( $1 \times 1$ , es decir, tokenización a nivel de píxel).

Arquitecturas Utilizadas:
- ViT (Vision Transformer): Utilizado para secuencias cortas (hasta 4,096 tokens) debido a su complejidad cuadrática.
- Adventurer: Una arquitectura basada en Mamba (Modelos de Espacio de Estado) con complejidad lineal. Esto permitió escalar a secuencias extremadamente largas (hasta 50,176 tokens) con recursos computacionales manejables.
Tareas Evaluadas:
- Clasificación de imágenes (ImageNet-1k).
- Segmentación semántica (ADE20k).
- Detección de objetos y segmentación de instancias (COCO).
Enfoque Experimental: Se mantuvieron constantes los hiperparámetros de entrenamiento, el tamaño de entrada y la arquitectura base, variando únicamente el tamaño del parche para aislar el efecto de la compresión. También se exploró la eliminación de las "cabezas decodificadoras" (decoder heads) en tareas densas.

3. Contribuciones Clave y Descubrimientos

A. Descubrimiento de una Nueva Ley de Escalamiento (Patchification Scaling Laws)
Se observó una ley de escalamiento consistente: a medida que el tamaño del parche disminuye, el rendimiento predictivo del modelo mejora de manera suave y constante, alcanzando su máximo cuando el tamaño del parche es $1 \times 1$ (sin compresión).

Esto contradice la noción de que los modelos visuales necesitan compresión para ser eficientes; sugiere que, con recursos suficientes, la representación no compresiva es superior.

B. Tokenización a Nivel de Píxel y Secuencias Ultra-Largas
El equipo logró escalar la secuencia visual de una imagen estándar de ImageNet ( $224 \times 224$ ) a 50,176 tokens (parches de $1 \times 1$ ).

Resultado: Un modelo de tamaño "Base" (100M parámetros) alcanzó una precisión de 84.6% en ImageNet-1k, superando significativamente a los modelos con parches grandes (82.6% con $16 \times 16$ ).
Esto demuestra que la comprensión visual puede realizarse efectivamente desde contextos extremadamente largos sin dividir la imagen.

C. Redundancia de las Cabezas Decodificadoras (Decoder Heads)
En tareas de predicción densa (como segmentación semántica), se descubrió que a medida que el tamaño del parche disminuye y el codificador (encoder) produce características lo suficientemente finas, la necesidad de una cabeza decodificadora compleja (como UperNet) desaparece.

Un simple capa lineal sobre las características del encoder es suficiente para obtener resultados competitivos cuando la compresión espacial es mínima. Esto sugiere el camino hacia arquitecturas visuales universales "solo codificador" (encoder-only).

D. Escalamiento de Parches vs. Escalamiento de Parámetros
El estudio compara aumentar el número de parámetros del modelo frente a reducir el tamaño del parche:

Escalamiento de parámetros: Tiene un punto de rendimientos decrecientes y es costoso (requiere más datos y ajuste fino).
Escalamiento de parches: Ofrece una mejor relación costo-precisión y permite superar los límites de rendimiento donde el escalamiento de parámetros falla. Además, es más simple de implementar (no requiere cambiar estrategias de entrenamiento).

4. Resultados Principales

Tarea	Métrica	Parche $16 \times 16$	Parche $1 \times 1$ (Píxel)	Observación
Clasificación (ImageNet)	Precisión Top-1	~82.6% (Adventurer-B)	84.6%	Mejora consistente en todas las resoluciones.
Segmentación (ADE20k)	mIoU	~45.7% (Base)	46.8%	Mejora incluso sin decodificador complejo.
Detección (COCO)	AP (Box)	~48.4% (Base)	50.3%	Gains significativos en precisión.

Costo Computacional: Aunque el escalamiento a $1 \times 1$ aumenta drásticamente el uso de memoria y FLOPs (especialmente en ViT), los avances en hardware (GPUs A100) y arquitecturas lineales (Mamba) hacen que esto sea viable.
Ablación de Longitud: Se demostró que la mejora no proviene simplemente de tener una secuencia más larga (interpolando tokens), sino de desbloquear la información visual comprimida. Extender la secuencia sin reducir el parche no mejora el rendimiento.

5. Significado e Impacto

Cambio de Paradigma: El trabajo desafía el dogma de la "compresión necesaria" en visión por computadora. Propone un futuro donde los modelos visuales aprenden directamente de los píxeles ("Un píxel vale un token"), eliminando la pérdida de información inherente a la parchificación.
Fundamento Teórico: Proporciona una base teórica para el desarrollo de Modelos Fundamentales Visuales No Compresivos.
Simplificación Arquitectónica: Sugiere que las arquitecturas futuras podrían eliminar las cabezas decodificadoras complejas, dependiendo únicamente de un codificador de alta fidelidad, simplificando el diseño de modelos para tareas densas.
Viabilidad: Demuestra que, gracias a la evolución del hardware y algoritmos eficientes (como FlashAttention y Mamba), el costo computacional de procesar imágenes a nivel de píxel ya no es una barrera insuperable, sino una oportunidad para mejorar el rendimiento.

En conclusión, el artículo establece que reducir la tasa de compresión espacial es una nueva dimensión de escalamiento que garantiza mejoras de rendimiento en diversas tareas visuales, superando a menudo las mejoras obtenidas simplemente aumentando el tamaño del modelo.

Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More

🍕 La Gran Pizza de la Visión por Computadora

🔍 El Descubrimiento: "¡Una imagen vale 50,176 palabras!"

🧩 La Analogía del Traductor

🏗️ ¿Qué pasa con los "Arquitectos" (Decodificadores)?

🚀 ¿Por qué no lo hacían antes?

💡 La Lección Principal

Resumen Técnico: Leyes de Escalamiento en la Parchificación

1. El Problema: La Pérdida de Información por Compresión

2. Metodología

3. Contribuciones Clave y Descubrimientos

4. Resultados Principales

5. Significado e Impacto

Más como este

Evaluating Generalization and Robustness in Russian Anti-Spoofing: The RuASD Initiative

KAIJU: An Executive Kernel for Intent-Gated Execution of LLM Agents

What Are Adversaries Doing? Automating Tactics, Techniques, and Procedures Extraction: A Systematic Review

Cardinality is Not Enough: Super Host Detection via Segmented Cardinality Estimation

A Dynamic Toolkit for Transmission Characteristics of Precision Reducers with Explicit Contact Geometry