OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

Caorui Li, Yu Chen, Yiyan Ji, Jin Xu, Zhenyu Cui, Shihao Li, Yuanxing Zhang, Wentao Wang, Zhenghao Song, Dingling Zhang, Ying He, Haoxiang Liu, Yuxuan Wang, Qiufeng Wang, Jiafu Tang, Zhenhe Wu, Jiehui Luo, Zhiyu Pan, Weihao Xie, Chenchen Zhang, Zhaohui Wang, Jiayi Tian, Yanghai Wang, Zhe Cao, Minxin Dai, Ke Wang, Runzhe Wen, Yinghao Ma, Yaning Pan, Sungkyun Chang, Termeh Taheri, Haiwen Xia, Christos Plachouras, Emmanouil Benetos, Yizhi Li, Ge Zhang, Jian Yang, Tianhao Peng, Zili Wang, Minghao Liu, Junran Peng, Zhaoxiang Zhang, Jiaheng Liu

Publicado 2026-03-06

📖 4 min de lectura☕ Lectura para el café

Ver en arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que los modelos de inteligencia artificial (IA) son como estudiantes muy inteligentes que han leído millones de libros y visto miles de películas. Pero, hasta ahora, estos estudiantes tenían un problema: cuando les mostrabas una película, a menudo ignoraban el sonido o no entendían cómo el sonido y la imagen trabajaban juntos.

Aquí te explico el paper "OmniVideoBench" como si fuera una historia, usando analogías sencillas:

1. El Problema: El Estudiante que Solo Mira, No Escucha

Imagina que estás en una clase de cine. El profesor pone una película donde un personaje susurra un secreto mientras hace un gesto con la mano.

Los modelos antiguos (y algunos actuales): Se enfocan tanto en la imagen que dicen: "¡Vi que movió la mano! ¡Eso es todo!". Ignoran el susurro.
Otro problema: A veces, las pruebas que usábamos para evaluarlos eran como exámenes de "rellenar huecos" muy fáciles, donde la respuesta estaba escrita en la pregunta misma. No medían si realmente entendían la película, solo si podían adivinar.

El equipo de NJU-LINK (de la Universidad de Nanjing) dijo: "¡Alto ahí! Necesitamos un examen que obligue a la IA a escuchar y ver al mismo tiempo, y a pensar lógicamente sobre cómo se conectan ambas cosas".

2. La Solución: El "Examen de Cine" Definitivo (OmniVideoBench)

Han creado un nuevo banco de pruebas llamado OmniVideoBench. Imagina que es una gymkana gigante diseñada para entrenar y probar a estos estudiantes de IA.

El Material: No usaron clips de 5 segundos. Usaron 628 videos reales (noticias, documentales, vlogs, deportes) que duran desde unos segundos hasta 30 minutos. Es como pedirle a un estudiante que analice una película completa, no solo un fotograma.
Las Preguntas: Crearon 1,000 preguntas muy difíciles. No son del tipo "¿De qué color es el coche?". Son del tipo: "Si el personaje no hubiera dicho esa frase en el audio, ¿qué habría pasado con el objeto que estaba en la pared?".
La Magia (El Razonamiento): Lo más genial es que cada pregunta viene con un "mapa de pensamiento". No solo tienen la respuesta correcta, sino que explicaron paso a paso cómo se llegó a ella: "Paso 1: Escuché la risa (audio). Paso 2: Vi que la persona se tapaba la boca (video). Paso 3: Concluyo que está escondiendo algo". Esto es como tener el libro de respuestas con la explicación del profesor.

3. La Prueba de Fuego: ¿Cómo les fue a los estudiantes?

Cuando pusieron a los modelos de IA más famosos (como Gemini, Qwen, etc.) a hacer este examen, los resultados fueron un poco... decepcionantes, pero reveladores.

La Brecha Humana: Los humanos obtuvieron un 82% de aciertos. ¡Los mejores modelos de IA apenas llegaron al 59%! Es como si un estudiante de secundaria (la IA) estuviera intentando competir contra un doctor (el humano) en un examen de medicina.
El Problema de la Música: A las IAs les va terriblemente mal cuando hay música de fondo. Si la película tiene una canción triste, la IA no entiende que la escena es triste; solo ve caras. Los humanos, en cambio, conectan la melodía con la emoción instantáneamente.
Videos Largos: Cuando los videos son muy largos (más de 10 minutos), la IA se pierde. Es como si le pidieras a alguien que recuerde todos los detalles de una novela de 500 páginas después de leerla una sola vez; se les olvida el principio.

4. ¿Por qué es importante esto?

Piensa en OmniVideoBench como un entrenador personal estricto.
Antes, las IAs podían "hacer trampa" en los exámenes antiguos. Ahora, con este nuevo banco de pruebas, no pueden ignorar el sonido ni saltarse detalles importantes.

El objetivo: Que las IAs dejen de ser "ciegas y sordas" y se conviertan en verdaderos detectives multimodales que entienden el mundo tal como lo hacemos nosotros: viendo, escuchando y conectando los puntos.

En resumen

Este paper nos dice: "Tenemos una nueva herramienta de evaluación muy estricta que demuestra que, aunque las IAs son inteligentes, todavía les falta mucho para entender la complejidad de los videos reales, especialmente cuando hay que combinar lo que se ve con lo que se oye".

Es un paso necesario para que, en el futuro, tu IA no solo te diga "hay un perro en la pantalla", sino que te explique: "El perro está ladrando porque el sonido de la puerta indica que alguien se acerca, y su postura sugiere que está asustado".

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

1. El Problema: El Estudiante que Solo Mira, No Escucha

2. La Solución: El "Examen de Cine" Definitivo (OmniVideoBench)

3. La Prueba de Fuego: ¿Cómo les fue a los estudiantes?

4. ¿Por qué es importante esto?

En resumen

1. El Problema

2. Metodología

Recolección de Datos

Anotación y Construcción del Dataset

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Impacto

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

1. El Problema: El Estudiante que Solo Mira, No Escucha

2. La Solución: El "Examen de Cine" Definitivo (OmniVideoBench)

3. La Prueba de Fuego: ¿Cómo les fue a los estudiantes?

4. ¿Por qué es importante esto?

En resumen

1. El Problema

2. Metodología

Recolección de Datos

Anotación y Construcción del Dataset

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Impacto

Más como este

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation