From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

Este artículo presenta NEO, una nueva familia de Modelos de Visión-Lenguaje (VLM) nativos construidos desde cero que abordan las limitaciones de los modelos modulares mediante primitivas unificadas, logrando un rendimiento competitivo y democratizando el desarrollo de VLMs a gran escala.

Haiwen Diao, Mingxuan Li, Silei Wu, Linjun Dai, Xiaohua Wang, Hanming Deng, Lewei Lu, Dahua Lin, Ziwei Liu

Publicado 2026-02-24
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que quieres enseñarle a un robot a entender el mundo tal como lo hacemos los humanos: viendo una foto y leyendo una historia al mismo tiempo, sin tener que separar los dos procesos.

Hasta ahora, la mayoría de los "cerebros" de inteligencia artificial (llamados Modelos de Visión y Lenguaje) funcionaban como una orquesta con dos secciones separadas: un grupo de músicos experto solo en ver imágenes (el codificador visual) y otro grupo experto solo en hablar (el modelo de lenguaje). Para que funcionaran juntos, necesitaban un "traductor" o un "director de orquesta" (un proyector) que conectara ambos grupos. Esto funcionaba bien, pero era como intentar que dos personas que hablan idiomas distintos se entiendan solo gritándose a través de una pared; a veces se perdían matices, detalles finos o la conexión emocional.

¿Qué propone este nuevo trabajo (NEO)?

Los autores de este paper, llamados NEO, dicen: "¿Por qué tener dos equipos separados? Hagamos un solo equipo que sea nativamente bilingüe".

Aquí te explico las ideas clave con analogías sencillas:

1. De "Dos Habitaciones" a "Una Casa Abierta"

  • El problema antiguo (Modelos Modulares): Imagina que tienes una casa con dos habitaciones separadas por una puerta pesada. En una habitación vive "Ojo" (que ve fotos) y en la otra vive "Boca" (que habla). Para que Ojo le diga algo a Boca, tiene que pasar un papelito por la puerta. A veces el papelito se arruga, se pierde o no explica bien lo que vio.
  • La solución NEO (Modelo Nativo): NEO es como una casa con paredes de cristal. No hay separación. "Ojo" y "Boca" son la misma persona. Cuando ven una manzana roja, no tienen que traducir la imagen a palabras; simplemente sienten la manzana y la nombran al mismo tiempo. Todo ocurre en un solo espacio mental unificado.

2. El "Ladrillo Mágico" (Primitivos Nativos)

Para construir esta casa de cristal, NEO no usa ladrillos viejos reciclados. Diseñaron un nuevo tipo de ladrillo llamado "Primitivo Nativo".

  • La analogía: Imagina que los ladrillos antiguos solo servían para hacer paredes (texto) o techos (imágenes), pero no ambos. Los nuevos ladrillos de NEO tienen una propiedad especial: pueden ser una pared o un techo dependiendo de dónde los pongas.
  • Cómo funciona: Este ladrillo sabe cómo manejar la altura, el ancho y el tiempo (como en un video) de forma natural. Es como si el ladrillo supiera que una foto es un plano, pero un video es un río que fluye, y se adapta a eso sin confundirse.

3. El Entrenamiento: De "Recitar" a "Comprender"

  • El método antiguo: Primero le enseñaban a "Ojo" a reconocer 1000 cosas, luego le enseñaban a "Boca" a hablar, y al final los juntaban y les decían: "¡Ahora, intenten entenderse!". Esto requería mucho esfuerzo y a veces perdían la esencia.
  • El método NEO (Pre-Buffer y Post-LLM):
    1. Fase 1 (El Pre-Buffer): Imagina que le das al robot un montón de fotos y textos mezclados, pero le dices: "Primero, aprende a ver y a leer al mismo tiempo, sin preocuparte por hablar todavía". Aquí, el modelo aprende a alinear los píxeles (los puntos de la imagen) con las palabras desde el principio. Es como enseñar a un niño a ver un perro y decir "perro" al mismo tiempo, sin separar las dos habilidades.
    2. Fase 2 (El Post-LLM): Una vez que ha aprendido a ver y leer juntos, se le permite usar su "cerebro" de lenguaje completo para razonar, hacer preguntas y responder.
    • El resultado: Al final, todo se fusiona en un solo cerebro gigante que no necesita "traductores" internos.

4. ¿Por qué es importante?

NEO demuestra que no necesitas dos cerebros separados para entender el mundo visual y lingüístico.

  • Eficiencia: Es más barato y rápido entrenar un solo cerebro unificado que dos separados.
  • Precisión: Al no tener que "traducir" entre dos sistemas, el modelo entiende mejor los detalles finos (como la diferencia entre una manzana roja y una verde, o el texto escrito en una señal de tráfico).
  • Escalabilidad: Funciona bien tanto en modelos pequeños (como un teléfono móvil) como en gigantes.

En resumen

Este paper presenta NEO, un nuevo tipo de inteligencia artificial que deja de lado la vieja idea de "unir dos piezas separadas" y opta por crear una sola pieza que es nativamente capaz de ver y hablar.

Es como pasar de tener un traductor humano que te ayuda a hablar con un extranjero, a tener un bilingüe nativo que piensa en ambos idiomas al mismo tiempo. El resultado es una comprensión más rápida, natural y profunda de las imágenes y el texto.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →