From Instructions to Assistance: a Dataset Aligning Instruction Manuals with Assembly Videos for Evaluating Multimodal LLMs

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que acabas de comprar un mueble de IKEA. Sabes lo que viene: esa caja gigante, cientos de tornillos y un manual de instrucciones que parece escrito en un idioma alienígena. Ahora, imagina que en lugar de luchar solo, tienes un asistente virtual superinteligente que no solo lee el manual, sino que te ve mientras trabajas y te dice exactamente qué hacer.

Ese es el sueño al que apunta este paper. Aquí te explico de qué trata, usando analogías sencillas:

1. El Problema: Los "Cerebros" que solo leen

Hasta hace poco, las Inteligencias Artificiales (IA) eran como bibliotecarios expertos: podían leer millones de libros (texto) y responder preguntas increíbles. Pero si les mostrabas una foto de un mueble desarmado, se quedaban mirando fijamente sin entender nada.

Recientemente, surgieron los Modelos de Lenguaje Multimodales (MLM). Son como esos bibliotecarios que de repente ganaron ojos y oídos. Ahora pueden ver videos y escuchar, no solo leer. Pero, ¿son lo suficientemente inteligentes para ayudarte a armar un mueble en tiempo real? ¿Pueden entender que "poner el tornillo A en el agujero B" significa lo mismo en una foto del manual que en la realidad?

2. La Solución: El "Entrenamiento de Realidad" (M2AD)

Para poner a prueba a estos robots, los autores crearon un nuevo "campo de entrenamiento" llamado M2AD (Dataset de Manual a Acción).

¿Qué es? Imagina una biblioteca gigante donde cada libro (manual de instrucciones) está emparejado con un video real de alguien armando ese mueble.
¿Por qué es especial? Antes, los datos para entrenar a las IAs eran como recetas de cocina escritas por un chef perfecto: cada paso estaba marcado milimétricamente. Pero la vida real es caótica. La gente salta pasos, vuelve atrás, se distrae o mira el manual de forma diferente.
La analogía: M2AD es como tener un entrenador de realidad. No le dice al robot "haz esto en el segundo 5.2", sino que le muestra el video real y el manual, y le pregunta: "¿Qué está pasando aquí? ¿Coincide con el paso 3 del manual?".

3. El Examen: ¿Pueden los Robots Armar Muebles?

Los investigadores tomaron varios de estos "cerebros" de IA (algunos gratuitos y que caben en una computadora normal, no en superordenadores) y les pusieron tres pruebas difíciles:

El Detective de Pasos Completados: Se les muestra una foto del mueble a medio armar y una página del manual. La IA debe decir: "¿Ya se hizo este paso?".
- Resultado: Algunos acertaron un poco más de la mitad, pero muchos fallaron como si estuvieran adivinando al azar.
El Buscador de la Página Correcta: Se les da un video de alguien trabajando y dos páginas del manual (una correcta y una incorrecta). La IA debe elegir la página correcta.
- Resultado: Solo unos pocos modelos lograron hacerlo mejor que un niño de 5 años adivinando.
El Contador de Pasos: Se les muestra el video y deben decir exactamente en qué número de paso están (ej: "Están en el paso 14").
- Resultado: ¡Aquí fue donde más se trabaron! La mayoría se perdió. Uno de los modelos (MolMo) tuvo éxito, pero solo porque usó un "truco": miró la imagen como un mapa, diciendo "el paso correcto está a la izquierda", en lugar de entender realmente el contenido.

4. La Verdad Incómoda (y Esperanzadora)

El estudio revela dos cosas importantes:

El problema de hardware: Imagina que le pides a un robot que resuelva un rompecabezas de 1000 piezas, pero solo le das una ventana pequeña para mirar. Así funcionan las IAs actuales en computadoras normales: tienen "ventanas" de visión limitadas. No pueden ver todo el video y todo el manual a la vez con claridad.
La necesidad de "Ojos y Oídos" juntos: Las IAs actuales son buenas leyendo o viendo, pero malas conectando ambas cosas. Necesitan aprender a "pensar" viendo el video y leyendo el texto al mismo tiempo, no por separado.

En Resumen

Este paper es como un informe de salud para los asistentes robóticos del futuro. Nos dice: "¡Están mejorando! Ya no son ciegos, pero todavía se confunden cuando intentan seguir instrucciones complejas en tiempo real".

El mensaje final es que, aunque hoy en día un robot no puede reemplazar a un amigo que te ayuda a armar un armario sin que se le caiga todo, estamos en el camino correcto. Necesitamos entrenarlos mejor y darles computadoras más potentes para que, en el futuro, puedan ser esos asistentes virtuales perfectos que nos guían paso a paso sin que tengamos que leer un manual aburrido.

¿El objetivo? Que la próxima vez que compres un mueble, tu IA te diga: "Oye, ese tornillo va aquí, no en el agujero de al lado, y mira, el paso 5 del manual coincide con lo que estás haciendo". ¡Y que no se pierda en el intento!

From Instructions to Assistance: a Dataset Aligning Instruction Manuals with Assembly Videos for Evaluating Multimodal LLMs

1. El Problema: Los "Cerebros" que solo leen

2. La Solución: El "Entrenamiento de Realidad" (M2AD)

3. El Examen: ¿Pueden los Robots Armar Muebles?

4. La Verdad Incómoda (y Esperanzadora)

En Resumen

1. Planteamiento del Problema

2. Metodología y Contribución Principal: M2AD

3. Experimentos y Evaluación

4. Resultados Clave

5. Significado y Conclusiones

From Instructions to Assistance: a Dataset Aligning Instruction Manuals with Assembly Videos for Evaluating Multimodal LLMs

1. El Problema: Los "Cerebros" que solo leen

2. La Solución: El "Entrenamiento de Realidad" (M2AD)

3. El Examen: ¿Pueden los Robots Armar Muebles?

4. La Verdad Incómoda (y Esperanzadora)

En Resumen

1. Planteamiento del Problema

2. Metodología y Contribución Principal: M2AD

3. Experimentos y Evaluación

4. Resultados Clave

5. Significado y Conclusiones

Más como este

Founder effects shape the evolutionary dynamics of multimodality in open LLM families

Causal Direct Preference Optimization for Distributionally Robust Generative Recommendation

Graphs RAG at Scale: Beyond Retrieval-Augmented Generation With Labeled Property Graphs and Resource Description Framework for Complex and Unknown Search Spaces

T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning