Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que quieres enseñar a un niño a entender no solo fotos, sino películas enteras, y que además de contarle qué pasa, le pidas que señale con el dedo exactamente dónde y cuándo ocurre cada cosa. Eso es básicamente lo que hace Molmo2.

Aquí tienes una explicación sencilla, usando analogías de la vida real, de lo que han logrado estos investigadores del Instituto Allen de IA y la Universidad de Washington.

🎬 ¿Qué es Molmo2?

Piensa en Molmo2 como un super-observador que acaba de terminar sus estudios. A diferencia de otros "super-observadores" (modelos de IA) que son secretos y solo las grandes empresas pueden usar, Molmo2 es totalmente abierto. Es como si alguien hubiera escrito un libro de texto de cocina, abierto la cocina y dejado que todo el mundo cocine con él, en lugar de vender solo el plato final.

Su especialidad no es solo "ver" una película y decirte "hay un perro", sino entender la historia completa, contar cuántos perros hay, decirte en qué segundo exacto el perro se cae, y hasta seguir al perro mientras corre por la pantalla.

🧩 El Problema: Los "Cocineros" Secretos

Hasta ahora, los mejores modelos para entender videos eran como chefes secretos. Tenían recetas (datos de entrenamiento) que nadie conocía. Algunos incluso copiaban lo que hacían otros chefs secretos para aprender.

El problema: Si quieres mejorar la cocina, necesitas saber qué ingredientes usaron. Como no sabían los ingredientes, la comunidad de código abierto se estancaba.
La solución de Molmo2: Decidieron cocinar desde cero, sin copiar a nadie. Crearon sus propios ingredientes (datos) y compartieron la receta completa.

🛠️ Los Ingredientes Secretos (Los Datos)

Para entrenar a este nuevo modelo, no usaron robots para escribir las descripciones (eso suele ser aburrido y repetitivo). En su lugar, contrataron a humanos reales para que hicieran cosas geniales:

Narradores de Cine (Descripciones Densas): Imagina que le pides a alguien que describa un video de 30 segundos. La mayoría diría: "Un hombre camina". Pero los anotadores de Molmo2 actuaron como narradores de documentales: describían el color de la camisa, el ruido del viento, el cambio de luz y cada movimiento pequeño. ¡Crearon descripciones tan largas y detalladas que parecen guiones de película!
Detectives de Puntos (Grounding): Aquí está la magia. Le preguntaron a los humanos: "¿Dónde está el gato?". El humano no solo escribió "el gato", sino que hizo clic en el video exactamente donde estaba el gato en ese segundo. Esto le enseñó al modelo a "señalar" con el dedo virtual.
Cazadores de Objetos (Seguimiento): Le pidieron a la gente que siguiera a un objeto a través de todo el video, como si fuera un juego de "encuentra al intruso" pero en movimiento.

🏋️‍♂️ El Entrenamiento: Cómo aprendió

Molmo2 no aprendió de golpe. Fue como un atleta que sigue un plan de entrenamiento estricto:

Fase 1 (Mirar fotos): Primero aprendió a ver fotos y señalar cosas en ellas (como un niño aprendiendo a usar un puntero láser).
Fase 2 (Ver videos): Luego, le mostraron miles de videos. Aquí aprendió a conectar los puntos en el tiempo. No solo vio qué pasó, sino cuándo pasó.
Fase 3 (La técnica del "Empaquetado"): Imagina que tienes que leer 100 libros. En lugar de leerlos uno por uno, aprendió a leer fragmentos de muchos libros al mismo tiempo de forma eficiente. Esto le permitió aprender muchísimo más rápido sin volverse loco.

🏆 ¿Qué tan bueno es?

El resultado es impresionante. Molmo2 es el campeón de los modelos abiertos.

En contar cosas: Si le preguntas "¿Cuántos coches hay en la carretera?", Molmo2 cuenta mejor que casi cualquier otro modelo abierto, e incluso le gana a algunos modelos de pago (como Gemini o GPT) en tareas de contar objetos específicos.
En señalar: Si le dices "Señala el momento en que el jugador marca el gol", Molmo2 puede poner un punto exacto en el video. ¡Otro modelo abierto (Qwen) apenas acertaba el 15% de las veces, mientras que Molmo2 acertó casi el 40%!
En seguir objetos: Si le pides "Sigue al bailarín que salta", Molmo2 puede mantener el foco en ese bailarín aunque se mueva rápido o se esconda detrás de otros.

💡 ¿Por qué es importante esto?

Imagina que quieres construir un robot que ayude a limpiar tu casa. Ese robot necesita entender videos: "¿Dónde está el vaso que se cayó?" o "¿Cuántas veces se cayó el gato?".

Antes, solo las grandes empresas podían tener robots con esa inteligencia.
Con Molmo2, cualquier investigador, estudiante o desarrollador puede tomar este modelo, adaptarlo y crear robots, herramientas de seguridad o asistentes médicos que entiendan el mundo en movimiento.

En resumen

Molmo2 es como abrir la caja de juguetes más avanzada del mundo y decir: "Aquí están los planos, los materiales y las instrucciones. ¡Construyan algo increíble!". Han demostrado que no necesitas ser una corporación gigante para crear inteligencia artificial que vea, cuente y señale el mundo con una precisión asombrosa.

¡Es un gran paso para que la tecnología sea de todos y no solo de unos pocos! 🚀🌍

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

🎬 ¿Qué es Molmo2?

🧩 El Problema: Los "Cocineros" Secretos

🛠️ Los Ingredientes Secretos (Los Datos)

🏋️‍♂️ El Entrenamiento: Cómo aprendió

🏆 ¿Qué tan bueno es?

💡 ¿Por qué es importante esto?

En resumen

Resumen Técnico: Molmo2 - Modelos de Lenguaje Visual Abiertos con Comprensión de Video y Anclaje (Grounding)

1. El Problema

2. Metodología y Arquitectura

Arquitectura del Modelo

Estrategias de Entrenamiento Innovadoras

3. Contribuciones Clave: Datos Abiertos

4. Resultados

5. Significancia e Impacto

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

🎬 ¿Qué es Molmo2?

🧩 El Problema: Los "Cocineros" Secretos

🛠️ Los Ingredientes Secretos (Los Datos)

🏋️‍♂️ El Entrenamiento: Cómo aprendió

🏆 ¿Qué tan bueno es?

💡 ¿Por qué es importante esto?

En resumen

Resumen Técnico: Molmo2 - Modelos de Lenguaje Visual Abiertos con Comprensión de Video y Anclaje (Grounding)

1. El Problema

2. Metodología y Arquitectura

Arquitectura del Modelo

Estrategias de Entrenamiento Innovadoras

3. Contribuciones Clave: Datos Abiertos

4. Resultados

5. Significancia e Impacto

Más como este

How Emotion Shapes the Behavior of LLMs and Agents: A Mechanistic Study

One Panel Does Not Fit All: Case-Adaptive Multi-Agent Deliberation for Clinical Prediction

Open, Reliable, and Collective: A Community-Driven Framework for Tool-Using AI Agents

A Safety-Aware Role-Orchestrated Multi-Agent LLM Framework for Behavioral Health Communication Simulation

Human-in-the-Loop Control of Objective Drift in LLM-Assisted Computer Science Education