From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

Each language version is independently generated for its own context, not a direct translation.

Imagina que quieres enseñarle a un robot a entender el mundo tal como lo hacemos los humanos: viendo una foto y leyendo una historia al mismo tiempo, sin tener que separar los dos procesos.

Hasta ahora, la mayoría de los "cerebros" de inteligencia artificial (llamados Modelos de Visión y Lenguaje) funcionaban como una orquesta con dos secciones separadas: un grupo de músicos experto solo en ver imágenes (el codificador visual) y otro grupo experto solo en hablar (el modelo de lenguaje). Para que funcionaran juntos, necesitaban un "traductor" o un "director de orquesta" (un proyector) que conectara ambos grupos. Esto funcionaba bien, pero era como intentar que dos personas que hablan idiomas distintos se entiendan solo gritándose a través de una pared; a veces se perdían matices, detalles finos o la conexión emocional.

¿Qué propone este nuevo trabajo (NEO)?

Los autores de este paper, llamados NEO, dicen: "¿Por qué tener dos equipos separados? Hagamos un solo equipo que sea nativamente bilingüe".

Aquí te explico las ideas clave con analogías sencillas:

1. De "Dos Habitaciones" a "Una Casa Abierta"

El problema antiguo (Modelos Modulares): Imagina que tienes una casa con dos habitaciones separadas por una puerta pesada. En una habitación vive "Ojo" (que ve fotos) y en la otra vive "Boca" (que habla). Para que Ojo le diga algo a Boca, tiene que pasar un papelito por la puerta. A veces el papelito se arruga, se pierde o no explica bien lo que vio.
La solución NEO (Modelo Nativo): NEO es como una casa con paredes de cristal. No hay separación. "Ojo" y "Boca" son la misma persona. Cuando ven una manzana roja, no tienen que traducir la imagen a palabras; simplemente sienten la manzana y la nombran al mismo tiempo. Todo ocurre en un solo espacio mental unificado.

2. El "Ladrillo Mágico" (Primitivos Nativos)

Para construir esta casa de cristal, NEO no usa ladrillos viejos reciclados. Diseñaron un nuevo tipo de ladrillo llamado "Primitivo Nativo".

La analogía: Imagina que los ladrillos antiguos solo servían para hacer paredes (texto) o techos (imágenes), pero no ambos. Los nuevos ladrillos de NEO tienen una propiedad especial: pueden ser una pared o un techo dependiendo de dónde los pongas.
Cómo funciona: Este ladrillo sabe cómo manejar la altura, el ancho y el tiempo (como en un video) de forma natural. Es como si el ladrillo supiera que una foto es un plano, pero un video es un río que fluye, y se adapta a eso sin confundirse.

3. El Entrenamiento: De "Recitar" a "Comprender"

El método antiguo: Primero le enseñaban a "Ojo" a reconocer 1000 cosas, luego le enseñaban a "Boca" a hablar, y al final los juntaban y les decían: "¡Ahora, intenten entenderse!". Esto requería mucho esfuerzo y a veces perdían la esencia.
El método NEO (Pre-Buffer y Post-LLM):
1. Fase 1 (El Pre-Buffer): Imagina que le das al robot un montón de fotos y textos mezclados, pero le dices: "Primero, aprende a ver y a leer al mismo tiempo, sin preocuparte por hablar todavía". Aquí, el modelo aprende a alinear los píxeles (los puntos de la imagen) con las palabras desde el principio. Es como enseñar a un niño a ver un perro y decir "perro" al mismo tiempo, sin separar las dos habilidades.
2. Fase 2 (El Post-LLM): Una vez que ha aprendido a ver y leer juntos, se le permite usar su "cerebro" de lenguaje completo para razonar, hacer preguntas y responder.
- El resultado: Al final, todo se fusiona en un solo cerebro gigante que no necesita "traductores" internos.

4. ¿Por qué es importante?

NEO demuestra que no necesitas dos cerebros separados para entender el mundo visual y lingüístico.

Eficiencia: Es más barato y rápido entrenar un solo cerebro unificado que dos separados.
Precisión: Al no tener que "traducir" entre dos sistemas, el modelo entiende mejor los detalles finos (como la diferencia entre una manzana roja y una verde, o el texto escrito en una señal de tráfico).
Escalabilidad: Funciona bien tanto en modelos pequeños (como un teléfono móvil) como en gigantes.

En resumen

Este paper presenta NEO, un nuevo tipo de inteligencia artificial que deja de lado la vieja idea de "unir dos piezas separadas" y opta por crear una sola pieza que es nativamente capaz de ver y hablar.

Es como pasar de tener un traductor humano que te ayuda a hablar con un extranjero, a tener un bilingüe nativo que piensa en ambos idiomas al mismo tiempo. El resultado es una comprensión más rápida, natural y profunda de las imágenes y el texto.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: NEO – Modelos de Visión-Lenguaje Nativos (NEO)

1. El Problema: Limitaciones de los Modelos Modulares vs. Nativos

Los Modelos de Visión-Lenguaje (VLM) actuales dominan el campo mediante un diseño modular, que combina un Codificador Visual (VE) preentrenado, un proyector y un Modelo de Lenguaje Grande (LLM). Aunque efectivos, estos modelos sufren de:

Sesgos inductivos fuertes: Los VE preentrenados tienen limitaciones en resolución, flexibilidad de aspecto y sensibilidad a detalles finos.
Complejidad de infraestructura: Requieren múltiples etapas de entrenamiento y alineación costosa entre componentes heterogéneos.
Desconexión de la alineación: La separación entre visión y lenguaje dificulta la integración de propiedades intrínsecas de cada modalidad, dejando desequilibrios en la capacidad de razonamiento unificado.

Por otro lado, los intentos previos de VLMs Nativos (arquitecturas monolíticas que aprenden visión desde cero) han enfrentado desafíos de eficiencia, inestabilidad en la optimización y pérdida de conocimiento lingüístico preexistente al intentar mapear píxeles dentro de LLMs preentrenados.

La pregunta central: ¿Qué propiedades fundamentales deben tener los VLMs nativos para competir con los modulares, y cómo democratizar su investigación?

2. Metodología: La Arquitectura NEO

El artículo presenta NEO, una nueva familia de VLMs nativos construida desde primeros principios. En lugar de "injertar" un codificador visual en un LLM, NEO utiliza primitivas nativas unificadas que integran codificación, alineación y razonamiento en un solo módulo.

Componentes Clave de la Arquitectura:

Primitiva Nativa de VLM (Native VLM Primitive):
- Codificación de Posición Nativa (Native-RoPE): A diferencia de los RoPE 1D o 3D existentes, NEO descompone completamente las dimensiones de Tiempo (T), Altura (H) y Ancho (W). Asigna frecuencias base distintas y canales separados para cada dimensión. Esto permite manejar escalas temporales (hasta 1 millón) y espaciales (cientos) simultáneamente sin distorsionar la capacidad lingüística.
- Atención Nativa Multi-Cabeza (MHNA): Utiliza una atención bidireccional completa para los tokens de imagen (similar a un codificador visual) y atención causal para los tokens de texto. Esto captura dependencias espaciales exhaustivas dentro de la imagen mientras mantiene la generación autoregresiva del texto.
- Alineación de Píxeles y Palabras: Los tokens visuales y textuales se procesan en un espacio semántico compartido desde el inicio, eliminando la necesidad de proyectores externos.
Estrategia de Entrenamiento: Pre-Búfer y Post-LLM:
- Pre-Búfer (Pre-Buffer): Una capa inicial de la arquitectura (capas $L_1$ ) que se inicializa aleatoriamente. Su función es transformar las entradas de píxeles y palabras en una representación unificada, guiada por el LLM preentrenado, para establecer una alineación coherente sin perturbar el conocimiento lingüístico.
- Post-LLM: Las capas restantes ( $L_2$ ) heredan los pesos del LLM preentrenado (específicamente en la dimensión temporal), pero se expanden con nuevas dimensiones para H y W.
- Fusión: Durante el entrenamiento, estas dos partes se optimizan juntas. Posteriormente, se fusionan en una sola columna vertebral monolítica que asigna capacidades autónomamente.
Proceso de Entrenamiento (3 Etapas):
1. Pre-entrenamiento: 345 millones de pares imagen-texto (web y sintéticos). Se aprenden conceptos visuales básicos desde cero mientras se preserva el conocimiento lingüístico del LLM (pesos congelados en el Post-LLM, excepto nuevos pesos Q/K).
2. Entrenamiento Intermedio (Mid-Training): 40 millones de muestras para fortalecer la alineación visión-lenguaje, reconocimiento de alta resolución, OCR y anclaje espacial.
3. Ajuste Fino Supervisado (SFT): 4 millones de instrucciones de alta calidad para mejorar el razonamiento complejo y el seguimiento de instrucciones.

3. Contribuciones Clave

Definición de Primitivas Nativas: Establece tres principios fundamentales para los VLMs nativos: alineación efectiva en un espacio compartido, integración sin fisuras de fortalezas modales y propiedades cruzadas intrínsecas.
Diseño de Native-RoPE: Una innovación en la codificación de posición que desacopla T, H y W, resolviendo el conflicto de frecuencias entre datos visuales (alta frecuencia/espacial) y lingüísticos (baja frecuencia/longitudinal).
Paradigma Pre-Búfer/Post-LLM: Una estrategia de entrenamiento que permite escalar el aprendizaje visual masivo sin destruir la capacidad de razonamiento del LLM, actuando como un "amortiguador" de alineación.
NEO (El Modelo): Lanzamiento de modelos de 2.2B y 9B parámetros que demuestran que los modelos nativos pueden competir con los modulares de última generación sin necesidad de codificadores visuales externos ni alineación post-hoc compleja.

4. Resultados Experimentales

NEO fue evaluado en una amplia gama de benchmarks (VLMEvalKit), comparándose con modelos modulares (como Qwen2-VL, InternVL) y nativos (como EVE, Mono-InternVL).

Rendimiento General: NEO logra un rendimiento altamente competitivo, cerrando significativamente la brecha con los VLMs modulares de primer nivel (Top-tier).
- En la escala de 2B, NEO supera a la mayoría de los VLMs nativos existentes y se acerca a modelos modulares como Qwen2-VL e InternVL2.5 en tareas de percepción visual y razonamiento (MMMU, MMBench, MMVet).
- En la escala de 8B, NEO supera a modelos nativos anteriores (EVE, Chameleon) y compite fuertemente con modelos modulares, logrando puntuaciones superiores en benchmarks de percepción visual (AI2D, ChartQA) y razonamiento (MMStar).
Eficiencia de Datos: A pesar de utilizar menos datos de entrenamiento que algunos competidores modulares masivos, NEO demuestra una capacidad de escalado eficiente gracias a sus primitivas nativas.
Análisis de Ablación:
- La Atención Mixta (bidireccional para imagen, causal para texto) supera consistentemente a la atención causal pura.
- Native-RoPE supera a variantes 1D, IL-RoPE, M-RoPE y Video-RoPE, confirmando la importancia de desacoplar las dimensiones espaciales y temporales.
- El Pre-Búfer entrenado desde cero alcanza un rendimiento cercano a codificadores visuales preentrenados (CLIP, InternViT) con una fracción del costo de entrenamiento.

5. Significado e Impacto

El trabajo NEO representa un cambio de paradigma hacia modelos de inteligencia multimodal nativos, unificados e intrínsecamente multimodales.

Democratización: Proporciona componentes reutilizables y una arquitectura simplificada que reduce las barreras para la investigación en VLMs nativos, eliminando la dependencia de codificadores visuales propietarios o complejos.
Escalabilidad: Demuestra que es posible construir sistemas potentes de visión-lenguaje desde cero, sin los sesgos de los codificadores preentrenados, permitiendo una mejor adaptación a resoluciones arbitrarias y tareas de razonamiento complejo.
Futuro: Establece una base sólida para futuras investigaciones en generación de video, comprensión de videos largos y agentes de IA corporificados, donde la integración temprana y unificada de modalidades es crucial.

En conclusión, NEO valida que la arquitectura monolítica, cuando se diseña con primitivas adecuadas (Native-RoPE, atención mixta y estrategias de entrenamiento híbridas), puede igualar e incluso superar a la arquitectura modular dominante, ofreciendo un camino más eficiente y escalable para la próxima generación de modelos multimodales.

From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

1. De "Dos Habitaciones" a "Una Casa Abierta"

2. El "Ladrillo Mágico" (Primitivos Nativos)

3. El Entrenamiento: De "Recitar" a "Comprender"

4. ¿Por qué es importante?

En resumen

Resumen Técnico: NEO – Modelos de Visión-Lenguaje Nativos (NEO)

1. El Problema: Limitaciones de los Modelos Modulares vs. Nativos

2. Metodología: La Arquitectura NEO

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems