Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More

Este trabajo demuestra que reducir progresivamente el tamaño de los parches en modelos de visión hasta llegar a la tokenización a nivel de píxel (1x1) mejora consistentemente el rendimiento en diversas tareas y arquitecturas, permitiendo escalar secuencias visuales a más de 50.000 tokens sin necesidad de cabezales de decodificación específicos para tareas densas.

Feng Wang, Yaodong Yu, Guoyizhe Wei, Wei Shao, Yuyin Zhou, Alan Yuille, Cihang Xie

Publicado 2026-02-23
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que este artículo es como un descubrimiento en el mundo de la cocina de la Inteligencia Artificial. Aquí te explico de qué trata, usando analogías sencillas y divertidas.

🍕 La Gran Pizza de la Visión por Computadora

Hasta hace poco, cuando las computadoras querían "ver" una imagen (como una foto de un gato), usaban un método un poco torpe llamado "Patchification" (o fragmentación).

Imagina que tienes una pizza gigante de 224x224 trozos. Para que la computadora la entienda rápido, los científicos le decían: "¡Oye, no mires cada trozo de queso y pepperoni individualmente! Agrupa los trozos en cuadrados grandes de 16x16 y trata cada cuadrado como si fuera una sola palabra".

Esto es como si, para describirte una película, en lugar de contarte cada escena y cada diálogo, te dijera: "La película tiene 196 escenas principales". Es rápido de procesar, pero pierdes muchos detalles. ¿Qué pasa si el gato tiene una mancha pequeña en la oreja? ¡Esa mancha se pierde dentro de un cuadrado gigante!

🔍 El Descubrimiento: "¡Una imagen vale 50,176 palabras!"

Los autores de este paper (Feng Wang y su equipo) se preguntaron: "¿Y si dejamos de agrupar los trozos? ¿Y si le damos a la computadora la pizza entera, trozo por trozo, píxel por píxel?".

Su conclusión fue sorprendente y cambió las reglas del juego:

  1. Más detalles = Mejor inteligencia: Descubrieron que, cuanto más pequeños hacían los "trozos" (hasta llegar a 1 píxel, que es el tamaño más pequeño posible), mejor entendía la computadora la imagen.
  2. La ley de escalado: Imagina que tienes un motor de coche. Antes pensábamos que para ir más rápido solo podíamos hacer el motor más grande (más parámetros). Ellos descubrieron que hay otra forma: hacer el motor más eficiente mirando mejor. Al reducir el tamaño del trozo, la precisión sube constantemente, sin importar si usas un modelo pequeño o gigante.
  3. El récord: Lograron que una computadora procesara una imagen como si fuera una oración de 50,176 palabras (tokens). ¡Es una oración larguísima! Y gracias a esto, lograron un puntaje de 84.6% en pruebas de reconocimiento de imágenes, algo muy difícil de lograr.

🧩 La Analogía del Traductor

Piensa en la visión por computadora como un traductor de idiomas:

  • El método antiguo (16x16): Era como traducir un libro entero a un idioma nuevo, pero solo leyendo un párrafo cada vez y adivinando el resto. A veces acertaba, pero perdía la esencia.
  • El nuevo método (1x1): Es como traducir cada letra del libro. Al principio parece una locura porque hay muchísimas letras, pero al final, la traducción es perfecta. La computadora entiende la "textura" y los detalles finos que antes ignoraba.

🏗️ ¿Qué pasa con los "Arquitectos" (Decodificadores)?

En el mundo de la IA, cuando se hace una tarea difícil como "seguir los bordes de un objeto" (segmentación), se suele usar un "arquitecto" extra (un decoder) al final para arreglar los detalles.

El paper descubrió algo curioso: Si le das a la computadora los detalles finos desde el principio (píxel a píxel), ya no necesita al arquitecto extra.

  • Es como si, en lugar de construir un edificio y luego contratar a alguien para que le ponga los ladrillos finales, construyeras el edificio tan bien desde el principio que no necesitas a nadie más. ¡El modelo se vuelve más simple y eficiente!

🚀 ¿Por qué no lo hacían antes?

La pregunta lógica es: "Si funciona tan bien, ¿por qué no lo hicieron hace 5 años?".

La respuesta es computación.
Hace unos años, mirar una imagen píxel a píxel requería una cantidad de energía y memoria que las computadoras no podían soportar. Era como intentar leer un libro de un millón de páginas en un segundo; la computadora se "quemaba".

Pero gracias a:

  1. Hardware nuevo: Las tarjetas gráficas actuales (como las A100) son monstruosas.
  2. Nuevas técnicas: Algoritmos más inteligentes que no se agotan tanto.

Ahora es posible hacer esto. Ya no tenemos que sacrificar la calidad por la velocidad.

💡 La Lección Principal

El mensaje final del paper es optimista: No necesitamos comprimir la realidad para entenderla.

Antes, pensábamos que para que una IA fuera inteligente, teníamos que simplificarle el mundo (comprimir la imagen). Ahora sabemos que, si le damos los recursos necesarios, la IA puede entender el mundo tal como es: con todos sus detalles, píxel a píxel.

Es como pasar de mirar un mapa borroso de una ciudad a caminar por las calles reales, viendo cada árbol y cada ventana. ¡Y eso hace que la IA sea mucho más inteligente!

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →