UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark

Este artículo presenta UniM, el primer benchmark unificado de 31.000 instancias de alta calidad para evaluar la capacidad de los modelos de lenguaje multimodal grandes de comprender y generar entradas y salidas arbitrariamente intercaladas en siete modalidades, junto con una suite de evaluación y un modelo base agéntico para abordar este desafío.

Yanlin Li, Minghui Guo, Kaiwen Zhang, Shize Zhang, Yiran Zhao, Haodong Li, Congyue Zhou, Weijie Zheng, Yushen Yan, Shengqiong Wu, Wei Ji, Lei Cui, Furu Wei, Hao Fei, Mong-Li Lee, Wynne Hsu

Publicado 2026-03-06
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que las Inteligencias Artificiales actuales son como chef de cocina muy especializados, pero que solo saben cocinar un tipo de plato a la vez. Uno es experto en hacer ensaladas (texto), otro solo sabe hornear pasteles (imágenes), y otro solo sabe preparar batidos (audio). Si le pides al chef de ensaladas que te haga un menú completo que incluya un pastel, un batido y una ensalada, todo mezclado en el mismo plato, ¡se va a quedar paralizado!

El paper que nos presentas, UNIM, llega para cambiar esa historia. Aquí te lo explico como si fuera una gran aventura culinaria:

1. El Problema: El "Menú Desordenado" de la Vida Real

En la vida real, cuando le pedimos ayuda a una IA (como un asistente virtual), no le damos instrucciones ordenadas y separadas. Le decimos cosas como:

"Mira este video de cómo se ensambla una silla

Esto es un interleaved multimodal (multimodal entrelazado). Es como si te pidieran cocinar un plato donde los ingredientes (texto, video, audio) están mezclados en el mismo bocado. Hasta ahora, las IAs se confundían con este "menú desordenado".

2. La Solución: El Gran Banco de Pruebas "UNIM"

Los autores crearon UNIM, que es como el primer examen de cocina "Todo en Uno" del mundo.

  • El Menú: No es solo texto e imágenes. Incluye 7 ingredientes: Texto, Imágenes, Audio, Video, Documentos (como PDFs), Código (programación) y modelos 3D.
  • La Cantidad: Tienen más de 31,000 recetas (ejemplos) de situaciones reales, desde arreglar una silla hasta programar una app o diseñar un viaje.
  • La Dificultad: Las recetas van desde "hacer un sándwich simple" (fácil) hasta "crear un banquete de 7 platos con ingredientes que nunca antes se habían mezclado" (difícil).

3. El Juez Estricto: La "Suite de Evaluación"

Antes, para ver si una IA era buena, solo mirábamos si la respuesta era correcta (sí/no). Pero en este mundo mezclado, eso no basta. Imagina que te piden un pastel y te dan uno que sabe bien pero está en un plato sucio.
Por eso, crearon un sistema de calificación de 3 dimensiones:

  1. ¿Sabe de qué hablas? (Verdad Semántica): ¿El pastel sabe a chocolate como pediste?
  2. ¿Está bien presentado? (Integridad Estructural): ¿Te dieron el pastel, el audio de la receta y el video de cómo hornearlo, o solo te dieron el texto? ¿Faltó algo?
  3. ¿Todo encaja? (Coherencia Entrelazada): ¿El video coincide con lo que dice el texto? ¿El audio tiene el mismo tono que la imagen? Es como si el chef te diera un pastel de chocolate pero te dijera que es de fresa y pusiera una foto de un perro. ¡Eso no vale!

4. El Nuevo Chef: UNIMA

Para probar este examen, crearon un nuevo modelo llamado UNIMA.

  • ¿Cómo funciona? No es un chef que intenta adivinar todo de golpe. Es un chef con un asistente y un inspector.
    • Primero, lee y entiende todos los ingredientes (video, audio, texto).
    • Luego, planea paso a paso qué va a cocinar y en qué orden.
    • Tiene un inspector que revisa el plato antes de servirlo: "Oye, te falta el audio, y el video no coincide con el texto. ¡Vuelve a hacerlo!".
    • Finalmente, sirve el plato perfecto, con todo mezclado en el orden correcto.

5. ¿Qué descubrieron?

Cuando pusieron a las IAs actuales (los chefs tradicionales) a hacer este examen, casi todas fallaron estrepitosamente.

  • Se confundían con los ingredientes.
  • Olvidaban partes del pedido.
  • Mezclaban el audio con el video de forma extraña.

Sin embargo, UNIMA (el chef con asistente) lo hizo mucho mejor, demostrando que para lograr una inteligencia artificial que realmente entienda el mundo como lo hacemos los humanos (mezclando ver, oír, leer y tocar), necesitamos dejar de tratar cada cosa por separado y empezar a pensar en todo junto, todo el tiempo.

En resumen:
Este paper nos dice que el futuro de la IA no es tener un experto en texto y otro en video, sino tener un super-intelecto que pueda leer un libro, ver un video, escuchar una canción y escribir código, todo al mismo tiempo y sin perder el hilo. ¡Y ahora tenemos el examen perfecto para medir quién es el mejor! 🍽️🤖✨