Beyond Language Modeling: An Exploration of Multimodal Pretraining

Este artículo presenta un estudio empírico de preentrenamiento multimodal desde cero que demuestra cómo la arquitectura Transfusion con MoE, combinada con representaciones visuales óptimas, revela sinergias entre modalidades, capacidades emergentes de modelado del mundo y una asimetría en las leyes de escalado que la visión requiere más datos que el lenguaje.

Shengbang Tong, David Fan, John Nguyen, Ellis Brown, Gaoyue Zhou, Shengyi Qian, Boyang Zheng, Théophane Vallaeys, Junlin Han, Rob Fergus, Naila Murray, Marjan Ghazvininejad, Mike Lewis, Nicolas Ballas, Amir Bar, Michael Rabbat, Jakob Verbeek, Luke Zettlemoyer, Koustuv Sinha, Yann LeCun, Saining Xie

Publicado 2026-03-04
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

Imagina que hasta ahora, las Inteligencias Artificiales (IA) más avanzadas eran como eruditos que han leído todos los libros del mundo, pero nunca han salido de su habitación. Conocen perfectamente las palabras, la gramática y la historia, pero no saben cómo se siente el viento en la cara, cómo se ve un atardecer real o cómo funciona la gravedad cuando lanzas una pelota. Solo han visto "sombras" en la pared de una cueva (una referencia a la alegoría de Platón), pero nunca han visto el objeto real que proyecta la sombra.

Este paper, titulado "Más allá del modelado de lenguaje: Una exploración del preentrenamiento multimodal", propone sacar a la IA de esa habitación y enseñarle a ver y entender el mundo real directamente.

Aquí tienes los puntos clave explicados con analogías sencillas:

1. El Problema: Solo leer no es suficiente

Los modelos actuales son como bibliotecarios expertos. Han leído millones de libros (texto), pero si les preguntas "¿cómo se ve un gato corriendo?", solo pueden describirlo con palabras basadas en lo que han leído. No tienen una "experiencia" visual real. Además, los libros (datos de texto) se están acabando; no hay más historias nuevas que leer. Pero el mundo visual (videos, fotos) es infinito.

2. La Solución: Un "Cerebro" que piensa en dos idiomas a la vez

Los autores entrenaron un modelo desde cero (sin usar conocimientos previos de otros modelos) para aprender dos cosas al mismo tiempo:

  • El idioma de las palabras (como un humano escribiendo).
  • El idioma de las imágenes (como un artista pintando o un cámara grabando).

La analogía: Imagina que antes tenías dos cerebros separados: uno para leer y otro para ver, y tenían que pasarse notas. Ahora, tienen un solo cerebro que puede leer un libro y, al mismo tiempo, imaginar la película que cuenta esa historia, o ver una película y escribir el guion.

3. Los 4 Descubrimientos Clave (Los "Secretos" del Modelo)

A. Un solo "lente" para todo (Representación RAE)

Antes, los científicos pensaban que necesitaban dos tipos de "lentes" diferentes: uno para entender qué hay en una foto (como un detective) y otro para crear una foto nueva (como un pintor).

  • El hallazgo: Descubrieron que un solo tipo de lente (llamado RAE) funciona perfecto para ambas cosas. Es como si un solo par de gafas te sirviera tanto para leer el menú del restaurante como para pintar un cuadro. Esto simplifica todo el sistema.

B. Mezclar datos es mejor que separarlos

Algunos pensaban que enseñarle a la IA a ver videos podría confundirla y hacerla peor escribiendo texto.

  • El hallazgo: ¡Al contrario! Ver videos y leer textos se ayudan mutuamente. Es como si un chef aprendiera a cocinar mientras lee recetas; la práctica visual mejora su comprensión teórica y viceversa. El modelo aprende mejor cuando ve el mundo real (videos) junto con las palabras.

C. El modelo empieza a "soñar" con el futuro (Modelado del Mundo)

Esta es la parte más emocionante. Al entrenar al modelo con videos y acciones (como "moverse hacia la izquierda"), el modelo aprendió a predecir lo que pasará después.

  • La analogía: Si le muestras al modelo cuatro fotos de un coche girando una esquina y le dices "gira a la derecha", el modelo puede imaginar las siguientes fotos de lo que ocurrirá, sin que nadie se lo enseñe explícitamente. Ha aprendido las leyes de la física y la realidad simplemente viendo el mundo moverse. ¡Ha desarrollado una "intuición" sobre cómo funciona el universo!

D. El equipo de expertos (MoE)

Para manejar tanta información, el modelo usa una arquitectura llamada Mezcla de Expertos (MoE).

  • La analogía: Imagina una gran oficina. En lugar de tener un solo empleado que hace todo (y se agota), tienes un equipo de 1000 expertos.
    • Cuando llega una carta, el "gerente" (el router) llama al experto en literatura.
    • Cuando llega una foto, llama al experto en arte.
    • Lo genial es que el modelo aprende solo quién es el mejor experto para cada tarea. No se lo diseñaron los humanos; el modelo descubrió por sí mismo que necesita más expertos para el texto y otros para las imágenes, ajustándose dinámicamente.

4. El Gran Desafío: La "Hambre" de Datos

Descubrieron algo curioso: La visión tiene mucha más hambre de datos que el lenguaje.

  • La analogía: Para aprender a hablar, un niño necesita escuchar miles de frases. Pero para aprender a ver y entender el espacio 3D, necesita ver millones de escenas diferentes.
  • La solución: La arquitectura de "expertos" (MoE) actúa como un adaptador inteligente. Permite que el modelo tenga una capacidad enorme para el lenguaje (que es más fácil de aprender) y, al mismo tiempo, le da la capacidad masiva necesaria para procesar la inmensa cantidad de datos visuales sin colapsar.

En resumen

Este paper nos dice que el futuro de la Inteligencia Artificial no es solo hacer que las máquinas hablen mejor, sino hacerlas ver y entender el mundo real.

Han creado un modelo que:

  1. Usa un solo sistema para ver y hablar.
  2. Aprende mejor cuando mezcla libros con películas.
  3. Empieza a predecir el futuro (como un mundo virtual) solo viendo videos.
  4. Se organiza solo, usando un equipo de expertos para no confundirse.

Es un paso gigante para pasar de tener "chatbots" que solo recitan libros, a tener agentes inteligentes que realmente entienden la realidad física en la que vivimos.