Multimodal LLMs Do Not Compose Skills Optimally Across Modalities

Each language version is independently generated for its own context, not a direct translation.

Imagina que los Modelos de Lenguaje Grandes Multimodales (MLLM) son como estudiantes universitarios muy inteligentes que han estudiado dos materias por separado: "Arte Visual" (ver e interpretar imágenes) y "Literatura y Lógica" (leer y razonar con texto).

El papel que acabas de compartir se pregunta una cosa muy sencilla pero profunda: ¿Pueden estos estudiantes combinar lo que saben de ambas materias para resolver un problema nuevo, o se les "traba" el cerebro al intentar mezclarlas?

Aquí tienes la explicación de la investigación, contada como una historia:

1. El Problema: El "Atasco" de la Cocina

Los investigadores diseñaron tres pruebas sencillas, como si fueran recetas de cocina que un humano resolvería sin pensar:

La receta escrita en una foto: Te muestran una foto de un problema matemático escrito a mano y te piden que lo resuelvas. (Necesitas leer la foto + hacer matemáticas).
Contar naranjas: Te muestran una foto con muchas naranjas y te preguntan cuántas hay. (Necesitas ver las naranjas + contar).
El juego de cartas: Te muestran cuatro cartas en una foto y te piden que las ordenes o sumes sus puntos según reglas extrañas. (Necesitas reconocer las cartas + hacer cálculos).

El hallazgo sorprendente:
Aunque estos modelos son geniales por separado, cuando se les pide hacer las dos cosas a la vez en un solo paso (como un estudiante que intenta leer y sumar al mismo tiempo), fallan mucho más de lo esperado.

Los autores llaman a esto la "brecha de composición de habilidades". Es como si el estudiante supiera leer y supiera sumar, pero cuando le das un problema escrito en una pizarra, olvida cómo sumar porque está demasiado concentrado en descifrar la letra.

2. La Prueba de Fuego: El Método del "Dos Pasos"

Para ver si el problema era la inteligencia del modelo o su falta de organización, los investigadores usaron una trampa:

Opción A (Directa): Le dan la foto y la pregunta al modelo de una vez. (El modelo intenta hacerlo todo junto).
Opción B (En Cascada): Le piden al modelo que primero solo describa la foto (leer), y luego toman esa descripción y se la dan de nuevo al mismo modelo para que solo resuelva el problema (sumar).

El resultado: La Opción B (dos pasos) funcionaba mucho mejor. Esto demostró que el modelo sí tenía las habilidades, pero no sabía cómo combinarlas de forma fluida en una sola toma. Es como tener un coche con un motor potente y ruedas buenas, pero el conductor no sabe cómo usar el embrague y el acelerador a la vez.

3. Intentando arreglarlo: ¿Parches o Soluciones Reales?

Los investigadores probaron dos formas de ayudar a estos estudiantes:

El "Guion Maestro" (Prompting CoT): Le dijeron al modelo: "Oye, primero lee la imagen, escribe lo que ves, y luego usa eso para sumar".
- Resultado: Funcionó un poco mejor, como darle una hoja de instrucciones al estudiante. Pero no fue perfecto y, además, hay que escribir un guion diferente para cada tipo de problema, lo cual es muy tedioso.
El "Curso Intensivo" (Fine-tuning): Entrenaron al modelo específicamente con ejemplos de estos problemas mixtos.
- Resultado: El modelo mejoró, pero seguía fallando en situaciones nuevas. Fue como estudiar para un examen específico, pero el estudiante no aprendió la lógica de cómo combinar las habilidades, solo memorizó respuestas.

4. La Conclusión: Aún hay mucho por aprender

La moraleja de la historia es que, aunque estos modelos de IA parecen muy avanzados y pueden hacer cosas increíbles, todavía no son expertos en "multitarea creativa".

Cuando un humano ve una foto de un problema matemático, su cerebro integra la visión y el razonamiento de forma natural. Para la IA, estas dos habilidades parecen vivir en compartimentos estancos que no se comunican bien.

En resumen:
Los modelos multimodales actuales son como dos pianistas geniales tocando en la misma habitación, pero cada uno en un piano diferente. A veces logran tocar una melodía juntos, pero a menudo se pierden el ritmo porque no saben cómo coordinar sus manos para crear una sola pieza de música perfecta. Los investigadores dicen que necesitamos investigar más para enseñarles a tocar en armonía.

Multimodal LLMs Do Not Compose Skills Optimally Across Modalities

1. El Problema: El "Atasco" de la Cocina

2. La Prueba de Fuego: El Método del "Dos Pasos"

3. Intentando arreglarlo: ¿Parches o Soluciones Reales?

4. La Conclusión: Aún hay mucho por aprender

1. El Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Implicaciones

Multimodal LLMs Do Not Compose Skills Optimally Across Modalities

1. El Problema: El "Atasco" de la Cocina

2. La Prueba de Fuego: El Método del "Dos Pasos"

3. Intentando arreglarlo: ¿Parches o Soluciones Reales?

4. La Conclusión: Aún hay mucho por aprender

1. El Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Implicaciones

Más como este

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance