Do Modern Video-LLMs Need to Listen? A Benchmark Audit and Scalable Remedy

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'enseigner à un élève très intelligent (une intelligence artificielle) comment comprendre des vidéos. Jusqu'à présent, on lui a appris à regarder les images, mais on lui a bouché les oreilles.

Voici l'histoire de cette recherche, racontée simplement :

1. Le Problème : L'Élève qui a les oreilles bouchées

Pendant des années, les chercheurs ont créé des modèles capables de "voir" et de "parler" (les Video-LLMs). Pourtant, quand il s'agissait de comprendre une vidéo, ils ignoraient systématiquement le son.

Pourquoi ? Parce que les examens (les tests utilisés pour juger ces modèles) étaient mal conçus.

L'analogie : Imaginez que vous testez un élève en lui montrant une photo d'une personne qui crie, mais sans le son. Vous lui posez la question : "Est-ce que cette personne crie ?". L'élève peut deviner juste en voyant la bouche ouverte !
La découverte choquante : Les auteurs ont découvert que 77 % des questions posées dans les tests actuels pouvaient être résolues uniquement en regardant une seule image figée, sans jamais écouter le son. Les modèles n'avaient donc aucune raison d'apprendre à écouter, car les examens ne le demandaient pas.

2. L'Expérience : Le "Test de l'Image Silencieuse"

Les chercheurs ont décidé de faire un audit. Ils ont pris 10 grands examens vidéo et ont appliqué un filtre drastique :

Ils ont donné au modèle une seule image (au milieu de la vidéo) et lui ont couper le son.
Si le modèle trouvait la bonne réponse juste avec l'image, ils supposaient que la question était "tricheuse" (trop facile visuellement).
Résultat : Dans des tests comme TempCompass, 80 % des questions étaient des "triches" visuelles. Mais dans des tests plus récents et plus difficiles (comme WorldSense), seulement 18 % des questions pouvaient être devinées sans le son.

3. La Solution : Apprendre à écouter (et à résumer)

Une fois qu'ils ont nettoyé les examens pour ne garder que les questions qui vraiment nécessitent d'écouter (ex: "Qui parle le plus doucement ?" ou "Quel bruit fait-on derrière la porte ?"), ils ont branché des "oreilles" à leur modèle.

Mais il y avait un gros problème technique :

Le problème du volume : Le son est une information continue. Pour une vidéo d'une heure, le modèle reçoit environ 90 000 morceaux de données sonores. C'est comme essayer de lire un livre de 90 000 pages en une seconde. C'est trop lent et ça coûte trop cher.
La solution ingénieuse (Le Compresseur) : Les chercheurs ont créé un petit outil magique, basé sur une architecture appelée Mamba.
- L'analogie : Imaginez que le son est un long fil de perles (90 000 perles). Au lieu de donner toutes les perles au modèle, ce petit outil prend une perle tous les 25, résume ce qui s'est passé entre les deux, et ne donne que 3 600 perles au modèle.
- C'est comme si un résumé de 100 pages était réduit à 4 pages, mais en gardant toute l'histoire importante.

4. Les Résultats : L'Écoute change tout (quand c'est nécessaire)

Une fois le modèle équipé de ses nouvelles oreilles et de son compresseur magique, ils l'ont remis aux examens "nettoyés" (sans les questions tricheuses).

Sur les tâches visuelles (ex: "De quelle couleur est la voiture ?") : Le son n'aide pas, le modèle reste aussi bon qu'avant.
Sur les tâches auditives (ex: "Que dit le professeur ?", "Qui rit ?") : Le modèle explose les scores ! Il devient beaucoup plus intelligent.
Comparaison avec les géants : Leur modèle, qui écoute et compresse, est plus rapide et parfois plus précis que des modèles très puissants qui écoutent tout sans compresser (ce qui les rend très lents).

En résumé

Cette recherche nous dit deux choses importantes :

Nos examens sont faux : Ils nous ont fait croire que l'IA n'avait pas besoin d'écouter, alors qu'elle le ferait très bien si on lui posait les bonnes questions.
L'écoute est la clé : Pour comprendre vraiment une vidéo (comme une réunion, un cours ou un film), il faut écouter. Avec la bonne technologie pour gérer la quantité de données, les modèles peuvent enfin devenir des observateurs complets, utilisant à la fois leurs yeux et leurs oreilles.

Les auteurs ont rendu leur code et leurs nouveaux examens publics pour que tout le monde puisse construire des intelligences artificielles qui, enfin, savent écouter.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les encodeurs de parole et d'audio (comme Whisper ou Qwen2-Audio) ont atteint un niveau de maturité remarquable, excellant dans la reconnaissance, l'analyse de la voix et la détection d'événements sonores. Pourtant, ils sont systématiquement exclus des pipelines de compréhension vidéo dans les modèles de type LLM (Large Language Models) multimodaux (ex: famille LLaVA, Qwen).

Les auteurs identifient deux causes structurelles à ce phénomène :

Le biais des benchmarks : Les suites d'évaluation populaires (ActivityNetQA, NExTQA, etc.) se concentrent sur la reconnaissance visuelle et la structure temporelle, ignorant souvent la piste audio. Cela crée un cycle vicieux où les modèles ne sont ni entraînés ni évalués sur l'écoute.
Les raccourcis visuels (Visual Shortcuts) : Même les benchmarks conçus pour le question-réponse audio-visuel (AVQA) souffrent de raccourcis. Les auteurs démontrent qu'en ne fournissant qu'une seule image centrale (sans audio), un modèle comme GPT-4o peut répondre correctement à ~77 % des questions de benchmarks AVQA standards. Cela signifie que ces benchmarks ne mesurent pas véritablement le raisonnement audio-visuel.

De plus, l'intégration directe de l'audio pose un problème d'évolutivité : un encodeur audio génère des tokens à 25–50 Hz. Pour une vidéo d'une heure, cela représente environ 90 000 tokens, saturant rapidement les budgets de contexte et augmentant considérablement la latence (ex: 4,1 s par échantillon pour Qwen2.5-Omni contre 1,0 s sans audio).

2. Méthodologie

L'approche proposée se divise en deux axes principaux : l'audit des benchmarks et l'architecture du modèle.

A. Audit des Benchmarks (Protocole de filtrage)

Les auteurs ont audité 10 benchmarks vidéo (incluant des suites anciennes et récentes).

Protocole : Ils soumettent uniquement la trame temporelle centrale (sans audio, sans autres images) à GPT-4o.
Critère : Si le modèle répond correctement à deux températures différentes, l'élément est considéré comme "solvable par une seule image muette" et est filtré.
Objectif : Créer une partition de données filtrée qui ne contient que les éléments nécessitant réellement l'écoute ou le raisonnement multimodal.

B. Architecture du Modèle (LLaVA-AV-SSM)

Basé sur LLaVA-OneVision, les auteurs intègrent un encodeur audio (Qwen2-Audio/Whisper) et comparent différentes stratégies d'intégration et de compression.

Stratégies d'entrée :
- Vision seule (V).
- Non-intercalé ([V; A]) : Tous les tokens visuels suivis de tous les tokens audio.
- Intercalé temporellement (Time-aligned Interleaving) : Les tokens audio sont placés à côté des tokens vidéo correspondant à leur moment temporel. C'est la seule méthode compatible avec l'inférence en flux (streaming).
Compression des tokens audio :
Pour réduire les 90k tokens d'une heure de vidéo à un niveau gérable (~3,6k tokens, soit 1 token/seconde), ils proposent un module de compression léger inséré entre l'encodeur audio et le LLM.
- Mécanisme : Conception à requêtes périodiques (Periodic Queries). Une requête apprenable partagée $q$ est insérée tous les $R$ pas (stride $R=25$ ).
- Architectures comparées :
  - Avg Pool : Pooling moyen simple + MLP (sans paramètres appris pour la compression).
  - Resampler : Cross-attention avec requêtes apprenables.
  - UniMamba : Modèle à espace d'état (SSM) causal (unidirectionnel).
  - BiMamba : SSM bidirectionnel (inadapté au streaming).
  - UniMambaMia : Adaptation de MambaMia avec un mécanisme d'attention gating, utilisant un backbone Mamba causal.

3. Résultats Clés

A. Validation de l'audit

Les benchmarks traditionnels (TempCompass, AVQA) sont massivement solubles sans audio (~77-80 %).
Les benchmarks récents conçus pour l'audio (AVSpeakerBench, WorldSense) résistent mieux au filtrage (seulement ~18-25 % solubles sans audio), confirmant qu'ils mesurent réellement la compréhension audio.

B. Impact de l'audio sur la performance

Après application du filtrage (élimination des raccourcis visuels) :

L'ajout de l'audio apporte des gains clairs sur 5 des 10 benchmarks, notamment ceux exigeant la compréhension de la parole ou l'ancrage multimodal (AVSpeakerBench +3,0 pp, WorldSense +2,5 pp, VideoMME +2,3 pp).
Sur les benchmarks purement visuels (ActivityNetQA, Music-AVQA), l'ajout d'audio n'apporte aucun gain, voire une légère dégradation due au bruit.
Conclusion : L'audio n'est pas utile partout, mais il est crucial pour les tâches spécifiques, ce que les benchmarks non filtrés masquaient.

C. Comparaison des compresseurs

Les compresseurs apprenables surpassent systématiquement le Avg Pool.
UniMambaMia (causal) obtient les meilleurs résultats sur 4 des 6 benchmarks testés.
BiMamba (bidirectionnel) n'offre pas d'avantage significatif par rapport à UniMamba, confirmant que la nature séquentielle et causale de l'audio ne bénéficie pas de la vision vers le futur.
Le modèle causal est essentiel pour supporter l'inférence en flux (streaming).

D. Efficacité et Latence

Compression : Réduction de 25x (de 25 Hz à 1 Hz).
Latence : Le modèle proposé (Ours) a une latence de 1,60 s par échantillon (vidéo d'une heure), contre 4,12 s pour Qwen2.5-Omni qui utilise un audio non compressé (~90k tokens).
Le modèle atteint les meilleurs résultats (ou ex-aequo) sur 7 des 10 benchmarks parmi les modèles basés sur Qwen2-7B, même après filtrage.

4. Contributions Principales

Audit des Benchmarks : Démonstration que les suites d'évaluation actuelles, même celles étiquetées "audio-visuel", admettent des raccourcis visuels massifs. Les auteurs publient des partitions filtrées pour une évaluation plus équitable.
Preuve de concept : Confirmation que les encodeurs de parole améliorent significativement la compréhension vidéo, mais uniquement sur des tâches où l'audio est indispensable (compréhension de la parole, ancrage croisé).
Architecture Évolutif : Proposition d'une méthode d'intégration audio efficace via un intercalage temporel couplé à un compresseur causal basé sur Mamba (UniMambaMia). Cette architecture permet de réduire le nombre de tokens audio de 25x tout en préservant les performances et en permettant l'inférence en temps réel.

5. Signification et Impact

Ce travail remet en question la pratique courante de "muet" (muted) dans l'évaluation des Video-LLMs. Il démontre que :

Le silence dans les benchmarks a masqué le véritable potentiel de l'audio.
L'intégration de l'audio n'est pas seulement une question de performance brute, mais de conception de tâches pertinentes.
Une compression intelligente (causale) est indispensable pour rendre la compréhension audio-visuelle longue (vidéos d'une heure) praticable en production, comblant ainsi le fossé entre les évaluations académiques et les cas d'usage réels (réunions, cours, vidéos quotidiennes).

Les auteurs ont rendu leur code, leurs modèles et leurs partitions de données filtrées disponibles publiquement sur GitHub.