Do Modern Video-LLMs Need to Listen? A Benchmark Audit and Scalable Remedy

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un chef muy talentoso (un modelo de Inteligencia Artificial) al que le pides que describa una película. Pero, hay un problema: en la cocina, le han puesto unos tapones de cera en los oídos.

Este chef puede ver la película perfectamente, pero no puede escuchar ni una sola palabra de los diálogos, ni el sonido de la lluvia, ni la música de fondo. Aun así, cuando le preguntan sobre la película, el chef responde muy bien... porque la mayoría de las preguntas que le hacen en los exámenes de cocina solo requieren mirar la imagen.

El artículo que acabas de leer es como una investigación periodística que descubre que:

Los exámenes actuales son "trampas visuales".
Si quitamos los tapones y le damos oídos al chef, ¡puede hacer un trabajo mucho mejor en las tareas que realmente importan!

Aquí te explico los puntos clave con analogías sencillas:

1. El problema de los "Exámenes Trampa"

Los investigadores probaron 10 exámenes famosos para ver si los modelos de video realmente necesitan escuchar.

La analogía: Imagina que te ponen un examen de historia, pero todas las preguntas se pueden responder solo mirando una única foto de un libro de texto. Si te dan la foto y te preguntan "¿Quién es el personaje?", puedes adivinarlo sin leer nada.
El hallazgo: Descubrieron que en exámenes populares como AVQA, el 77% de las preguntas se pueden responder solo con una imagen muda. ¡Es como si el examen no midiera si el estudiante sabe escuchar, sino solo si sabe mirar!
La solución: Crearon una "filtro" que elimina esas preguntas fáciles. Solo dejan las preguntas donde es obligatorio escuchar (por ejemplo: "¿Quién habla más bajo?" o "¿Qué sonido hace el motor?").

2. El desafío de la "Sobrecarga de Ruido"

Los modelos actuales son como un camión de mudanza que intenta cargar todo el sonido de una película de una hora.

El problema: El sonido es muy denso. Una hora de video genera unas 90.000 "piezas" de información de audio. Si intentas meter todo eso en el cerebro del modelo, se satura, se vuelve lento y se olvida de lo importante. Es como intentar leer un libro entero en un segundo; no puedes procesarlo.
La solución (El Compresor): Los investigadores inventaron un "compresor mágico" (llamado Mamba). Imagina que en lugar de leer cada palabra de una conversación, el compresor toma una nota cada 25 palabras y resume lo esencial.
- Reduce las 90.000 piezas a solo 3.600.
- El modelo sigue entendiendo todo, pero ahora es 25 veces más rápido y no se ahoga en datos.

3. ¿Funciona realmente escuchar?

Cuando los investigadores quitaron las preguntas "trampa" (las que se podían responder solo mirando) y le dieron al modelo el compresor de audio:

En tareas visuales (como "¿De qué color es el coche?"): El modelo no cambió mucho. Seguiría siendo igual de bueno.
En tareas de audio (como "¿Qué dijo el profesor?" o "¿Quién está hablando más fuerte?"): ¡El modelo mejoró drásticamente!
La conclusión: Los modelos sí necesitan escuchar, pero los exámenes actuales no les daban la oportunidad de demostrarlo.

4. La forma de "conectar" los sentidos

También probaron cómo mezclar el video y el audio.

Opción A: Poner todo el video primero y luego todo el audio (como leer el guion y luego escuchar la banda sonora por separado).
Opción B (La ganadora): Mezclarlos en el tiempo (como ver la película y escucharla al mismo tiempo).
Resultado: La mezcla sincronizada es mejor, especialmente porque permite que el modelo funcione en tiempo real (como una videollamada en vivo), donde el audio llega poco a poco junto con el video.

En resumen

Este trabajo nos dice que los modelos de IA modernos están subutilizados.
Hasta ahora, los hemos entrenado como si fueran mudos, porque los exámenes no les pedían que escucharan. Pero cuando les quitamos los tapones y les damos un "compresor" inteligente para manejar el sonido, se vuelven mucho más capaces de entender el mundo real, donde el sonido y la imagen van de la mano.

La moraleja: Si quieres un asistente de IA que realmente entienda tus reuniones, clases o videos, no solo debes darle ojos, ¡tienes que darle oídos! Y para que no se vuelva lento, necesitas un buen "secretario" (el compresor) que resuma lo que escucha.

Each language version is independently generated for its own context, not a direct translation.

1. El Problema: La Brecha entre la Capacidad y la Evaluación

A pesar de que los codificadores de voz y audio (como Whisper o Qwen2-Audio) han alcanzado un alto nivel de madurez, los modelos de Lenguaje Grande Multimodal (Video-LLMs) actuales (ej. familia LLaVA, Qwen) suelen excluir el audio de sus pipelines de comprensión de video.

Causa Estructural: Los benchmarks (conjuntos de pruebas) estándar no requieren "escuchar". Muchos conjuntos de datos, incluso aquellos etiquetados como "Audio-Visual" (AV), se pueden resolver casi en su totalidad utilizando solo pistas visuales.
El Ciclo de Retroalimentación Negativa: Como los benchmarks no exigen audio, los modelos no se entrenan ni evalúan en esta capacidad, lo que normaliza la exclusión del sonido.
Cuello de Botella de Tokens: El audio crudo genera una cantidad masiva de tokens (25-50 Hz). Un video de una hora puede producir ~90.000 tokens de audio, saturando rápidamente los presupuestos de contexto de los LLM y aumentando la latencia de inferencia (ej. Qwen2.5-Omni tarda 4.1s vs 1.0s sin audio comprimido).

2. Metodología

Los autores proponen un enfoque en dos etapas: una auditoría rigurosa de los benchmarks existentes y el desarrollo de una arquitectura escalable para integrar audio.

**A. Auditoría de Benchmarks (Protocolo de "Single-Frame")**

Para cuantificar la dependencia real del audio, los autores diseñaron una prueba conservadora:

Procedimiento: Se alimenta al modelo GPT-4o únicamente con el cuadro central temporal del video (sin audio y sin otros cuadros).
Criterio: Si el modelo responde correctamente en dos ejecuciones independientes con diferentes temperaturas, el ítem se considera "soluble solo con visión" y se elimina del conjunto de pruebas.
Hallazgo: Se auditó 10 benchmarks. Resultados alarmantes:
- TempCompass: ~80% de los ítems solubles solo con un cuadro mudo.
- AVQA: ~77% solubles sin audio.
- AVSpeakerBench y WorldSense: Mantienen la mayoría de los ítems (solo ~18-25% solubles sin audio), confirmando que son los únicos que realmente requieren escucha.

B. Arquitectura del Modelo (Basada en LLaVA-OneVision)

Se construyó un modelo que integra un codificador de audio (Qwen2-Audio/Whisper) con un LLM (Qwen2-7B).

Estrategias de Entrada: Se compararon tres políticas:
1. Solo visión.
2. No intercalado (todos los tokens visuales, luego todos los de audio).
3. Intercalado alineado en el tiempo: Los tokens de audio se colocan adyacentes a los tokens del cuadro de video correspondiente.
Compresión de Tokens de Audio: Para manejar la alta frecuencia (25 Hz), se implementó un módulo de compresión ligero que reduce la tasa de tokens de 25 Hz a 1 Hz (compresión 25x).
- Mecanismo: Diseño de "Consulta Periódica" (Periodic Queries). Se inserta una consulta entrenable cada $R$ pasos (donde $R=25$ ) y se pasa la secuencia aumentada por una red de compresión.
- Arquitecturas Comparadas: Se probaron cinco diseños:
  1. Avg Pool (Promedio simple + MLP).
  2. Resampler (Atención cruzada con consultas aprendidas).
  3. UniMamba (SSM causal/unidireccional).
  4. BiMamba (SSM bidireccional).
  5. UniMambaMia (Adaptación de MambaMia con atención gateada, pero usando un backbone causal).

3. Contribuciones Clave

Auditoría de Benchmarks: Demostraron que la mayoría de los conjuntos de datos populares admiten atajos visuales, lo que distorsiona la evaluación de la capacidad de razonamiento audio-visual. Liberan las particiones filtradas para una evaluación más justa.
Estrategia de Integración Escalable: Proponen el intercalado alineado en el tiempo combinado con un compresor causal (UniMambaMia). Esta es la única configuración compatible con la inferencia en streaming (donde el audio llega incrementalmente con el video).
Validación de la Utilidad del Audio: Demostraron que, una vez eliminados los atajos visuales, el audio aporta mejoras significativas y medibles en tareas que requieren comprensión del habla o anclaje cruzado de modalidades.

4. Resultados Principales

Impacto del Audio tras el Filtrado:
- En los benchmarks filtrados (sin atajos visuales), la inclusión de audio mejoró el rendimiento en 5 de 10 benchmarks, especialmente en AVSpeakerBench (+3.0 pp), WorldSense (+2.5 pp) y VideoMME (+2.3 pp).
- En benchmarks puramente visuales (como TempCompass o ActivityNetQA), el audio no aportó beneficios o incluso degradó ligeramente el rendimiento al introducir ruido.
Comparación de Compresores:
- Los compresores aprendibles superaron consistentemente al Avg Pool.
- UniMambaMia (causal) fue el más estable y alcanzó los mejores resultados en 4 de 6 benchmarks filtrados.
- BiMamba (bidireccional) no ofreció ventajas sobre UniMamba, confirmando que la naturaleza secuencial y causal del audio no se beneficia de la información futura (a diferencia del video 2D).
Eficiencia y Latencia:
- El modelo propuesto reduce los tokens de audio de ~90k/hora a ~3.6k/hora.
- La latencia aumenta moderadamente (1.60s vs 1.00s para LLaVA-Video), pero es drásticamente inferior a los modelos que no comprimen (Qwen2.5-Omni: 4.12s).
Comparación con el Estado del Arte:
- El modelo propuesto (Ours) logró el mejor o empate al mejor resultado en 7 de 10 benchmarks entre los modelos basados en Qwen2-7B, superando a LLaVA-Video y Qwen2-VL, especialmente en tareas que requieren escucha real.

5. Significado e Impacto

El artículo concluye que sí, los Video-LLMs modernos necesitan escuchar, pero solo si los benchmarks están diseñados para exigirlo.

Cambio de Paradigma: El "silencio" en la evaluación actual subestima sistemáticamente el valor de las representaciones de voz y audio.
Solución Práctica: La combinación de intercalado temporal y compresión causal (UniMambaMia) ofrece una receta simple y escalable para integrar audio en videos largos sin sacrificar la viabilidad computacional.
Futuro: Los autores abogan por una evaluación más rigurosa que elimine los atajos visuales, cerrando la brecha entre la evaluación en laboratorio y el uso en el mundo real (donde conferencias, reuniones y videos cotidianos dependen críticamente del sonido).

El código, los modelos y las particiones de evaluación filtradas se han hecho de código abierto en el repositorio del proyecto.

Do Modern Video-LLMs Need to Listen? A Benchmark Audit and Scalable Remedy

1. El problema de los "Exámenes Trampa"

2. El desafío de la "Sobrecarga de Ruido"

3. ¿Funciona realmente escuchar?

4. La forma de "conectar" los sentidos

En resumen

1. El Problema: La Brecha entre la Capacidad y la Evaluación

2. Metodología

A. Auditoría de Benchmarks (Protocolo de "Single-Frame")

B. Arquitectura del Modelo (Basada en LLaVA-OneVision)

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Impacto

Más como este

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers

**A. Auditoría de Benchmarks (Protocolo de "Single-Frame")**