LVOmniBench: Pioneering Long Audio-Video Understanding Evaluation for Omnimodal LLMs

El artículo presenta LVOmniBench, un nuevo benchmark diseñado para evaluar la comprensión de audio y video de larga duración en modelos de lenguaje multimodal, revelando que las capacidades actuales de estos modelos son insuficientes para manejar contextos extensos.

Keda Tao, Yuhua Zheng, Jia Xu, Wenjie Du, Kele Shao, Hesong Wang, Xueyi Chen, Xin Jin, Junhan Zhu, Bohan Yu, Weiqiang Wang, Jian Liu, Can Qin, Yulun Zhang, Ming-Hsuan Yang, Huan Wang

Publicado 2026-03-20
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que los modelos de inteligencia artificial (IA) son como estudiantes muy inteligentes que acaban de entrar a la universidad. Hasta ahora, los exámenes que les ponían eran como preguntas de cultura general sobre videos cortos de 10 segundos. Podían ver un gato saltando o escuchar un perro ladrar y responder correctamente.

Pero la vida real no son videos de 10 segundos. La vida real son documentales de una hora, películas completas o grabaciones de viajes donde la historia cambia, los personajes hablan, hay música de fondo y cosas que ocurren hace 40 minutos que son importantes para entender lo que pasa ahora.

Aquí es donde entra el LVOmniBench, el tema de este paper. Vamos a explicarlo con analogías sencillas:

1. El Problema: "La Amnesia de los 5 Minutos"

Los investigadores descubrieron que las IAs actuales (llamadas OmniLLMs) tienen una especie de amnesia selectiva. Si les muestras un video de 5 minutos, van bien. Pero si les das un video de 40 minutos, se pierden.

  • La analogía: Imagina que le pides a un estudiante que te cuente la trama de una película de 2 horas, pero solo le dejaste ver los primeros 5 minutos. ¡No podrá responder preguntas sobre el final! Las IAs actuales hacen lo mismo: olvidan lo que pasó al principio del video o no logran conectar el sonido de hace 20 minutos con la imagen de ahora.

2. La Solución: LVOmniBench (El "Examen Final" de la Vida Real)

Los autores crearon un nuevo banco de pruebas (un "benchmark") llamado LVOmniBench.

  • ¿Qué es? Es un conjunto de 275 videos largos (de 10 a 90 minutos) que cubren todo tipo de cosas: desde recetas de cocina y vlogs de viajes hasta documentales y deportes.
  • La clave: No son videos aburridos. Son videos donde el audio y la imagen están muy mezclados. Por ejemplo, alguien habla sobre un objeto que aparece en la pantalla, o hay un sonido de fondo que te dice dónde está la cámara.
  • El examen: Crearon 1,014 preguntas sobre estos videos. No son preguntas fáciles como "¿de qué color es el coche?". Son preguntas tipo: "¿Cuántas veces el hombre mencionó al perro Toby en el patio durante todo el video?" o "¿Qué libro leyó la blogger que no se ve en el video pero se menciona en el audio?".

3. ¿Cómo les fue a las IAs? (Los Resultados)

Los investigadores pusieron a prueba a las IAs más famosas (como Gemini de Google, Qwen, MiniCPM, etc.) con este nuevo examen difícil.

  • Los "Estudiantes Privados" (Modelos de pago como Gemini 3 Pro): Fueron los mejores, pero incluso ellos solo acertaron el 65% de las preguntas. Es como si un estudiante brillante sacara un 6.5 sobre 10. ¡Se equivocaron en casi la mitad!
  • Los "Estudiantes Públicos" (Modelos de código abierto): Aquí la cosa se puso fea. La mayoría acertó menos del 35%. Básicamente, estaban adivinando (como lanzando una moneda al aire).
  • La lección: Esto nos dice que, aunque las IAs son muy buenas viendo fotos o videos cortos, todavía no saben "escuchar y ver" al mismo tiempo durante mucho tiempo. Se les olvida el contexto.

4. ¿Dónde fallaron exactamente? (Los Errores)

El paper analiza dónde se trabaron las IAs y encontró tres problemas principales:

  1. La "Ceguera Auditiva": A veces la IA ve la imagen perfectamente, pero ignora el audio. O viceversa. Es como si alguien te hablara mientras miras un paisaje, y la IA solo mira el paisaje y no te escucha.
  2. La "Pérdida de Tiempo": En videos largos, es difícil saber cuándo ocurrió algo. La IA a veces cree que un evento pasó al minuto 5 cuando en realidad pasó al minuto 45.
  3. El "Salto Lógico": Si el video dice "compré leche" y luego "hice café", la IA a veces no conecta que la leche fue para el café. Les cuesta hacer la "magia" de unir los puntos entre lo que se oye y lo que se ve.

5. ¿Por qué es importante esto?

Este trabajo es como un semáforo en rojo para la comunidad de inteligencia artificial.

  • Nos dice: "Oigan, las IAs actuales no están listas para analizar películas completas, reuniones de trabajo de una hora o tutoriales largos de YouTube con total precisión".
  • El objetivo de LVOmniBench es obligar a los investigadores a crear IAs que tengan una memoria de elefante y que sepan integrar lo que ven y lo que oyen, tal como lo hacemos los humanos cuando vemos una película o escuchamos una historia larga.

En resumen:
Los creadores de LVOmniBench dijeron: "Dejemos de probar las IAs con videos de TikTok de 10 segundos. Vamos a ponerles un examen con videos largos y complejos". El resultado fue que, aunque las IAs son impresionantes, todavía tienen mucho que aprender para entender el mundo real en toda su longitud y complejidad. ¡Es un gran paso para que la IA deje de ser un "genio con amnesia" y se convierta en un verdadero entendido!

¿Ahogado en artículos de tu campo?

Recibe resúmenes diarios de los artículos más novedosos que coincidan con tus palabras clave de investigación — con resúmenes técnicos, en tu idioma.

Probar Digest →