OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention

Each language version is independently generated for its own context, not a direct translation.

🎬 Le Problème : Le Cinéaste qui a oublié ses oreilles

Imaginez un super-cinéaste (une intelligence artificielle) nommé Qwen3-Omni. Il est très doué pour regarder des films et comprendre les images. Mais quand on lui ajoute le son (la musique, les bruits, les dialogues), il devient bizarre.

C'est comme si vous lui donniez un casque de réalité virtuelle et des écouteurs, mais qu'il décidait soudainement de se boucher les oreilles. Résultat ? Il rate des indices cruciaux. Parfois, le son est la clé pour comprendre une scène (un cri de détresse, un rire moqueur), mais le modèle l'ignore et se contente de deviner en regardant juste l'image. C'est ce qu'on appelle un biais de modalité : il préfère une seule source d'information (la vue) et oublie l'autre (l'ouïe), même quand les deux sont nécessaires.

💡 La Solution : OmniVideo-R1, le Détective "Tout-En-Un"

Les chercheurs ont créé OmniVideo-R1. Ce n'est pas juste un nouveau modèle, c'est une méthode d'entraînement (un régime de formation) pour apprendre au détective à utiliser tous ses sens en même temps.

Leur secret ? Ils ne lui donnent pas simplement plus de vidéos. Ils lui apprennent à réfléchir avant de répondre, en utilisant deux étapes clés, comme un entraînement de sport de haut niveau.

Étape 1 : Le "Sourire de la Preuve" (Ancrage Intentionnel)

Le concept : Avant de donner la réponse finale, le modèle doit dire : "Attends, je regarde cette partie précise de la vidéo où le chien aboie, et j'écoute ce son précis."
L'analogie : Imaginez un élève qui doit résoudre un problème de maths. Au lieu de donner la réponse tout de suite, on lui demande de surligner les lignes du texte qui contiennent la solution.
Le génie du papier : Habituellement, pour faire ça, il faudrait des humains pour surligner chaque seconde de la vidéo (ce qui coûte une fortune). OmniVideo-R1 utilise une astuce : il se corrige lui-même. Il génère une hypothèse ("Je pense que c'est à 10 secondes"), puis vérifie si cette hypothèse correspond à la description du texte. C'est un auto-entraînement : le modèle apprend à pointer du doigt les bons indices sans avoir besoin d'un professeur humain à chaque fois.

Étape 2 : La "Danse des Sens" (Fusion Attentionnelle)

Le concept : Maintenant que le modèle sait pointer les indices, il faut s'assurer qu'il ne néglige pas le son.
L'analogie : C'est comme un test de goût. On donne au modèle un plat (la vidéo avec le son). Ensuite, on lui enlève les épices (le son) et on lui enlève la viande (l'image).
- Si le modèle dit "Le plat avec les épices ET la viande est meilleur que le plat sans rien", il gagne des points.
- S'il dit "Je préfère le plat sans épices", il perd des points.
Le but : Cela force le modèle à réaliser que 1 + 1 = 3. La combinaison du son et de l'image doit être plus intelligente que la somme des parties séparées. Il apprend à faire confiance à la synergie entre ses yeux et ses oreilles.

🏆 Les Résultats : Pourquoi c'est impressionnant ?

Grâce à cette méthode, OmniVideo-R1 devient un champion :

Il ne perd pas ses compétences visuelles : Parfois, quand on apprend à un robot à écouter, il oublie comment voir. Ici, non. Il reste excellent pour les vidéos muettes, tout en devenant un expert des vidéos avec son.
Il bat les géants : Il surpasse des modèles très connus (comme les versions de Gemini ou d'autres modèles "Open Source") sur des tests complexes où il faut comprendre l'intention derrière une scène (ex: "Pourquoi cette personne rit-elle ?" -> Parce qu'on entend un bruit de gaz dans le fond).
Il évite les raccourcis : Au lieu de deviner au hasard en se basant sur des biais (ex: "Si je vois un chien, c'est qu'il aboie"), il cherche activement la preuve dans le son et l'image.

🚀 En Résumé

OmniVideo-R1, c'est comme donner à un détective de l'IA une paire de lunettes de vision nocturne et des écouteurs de haute fidélité, puis lui apprendre à croiser les informations pour résoudre des mystères qu'il ne pourrait pas résoudre seul.

Au lieu de simplement "regarder" ou "écouter", il apprend à penser avec ses deux sens simultanément, rendant son intelligence beaucoup plus proche de celle d'un humain qui perçoit le monde dans toute sa richesse.

Each language version is independently generated for its own context, not a direct translation.

Titre : OmniVideo-R1 : Renforcement du raisonnement audio-visuel par l'intention de requête et l'attention modale

1. Problématique

Bien que la cognition humaine soit intrinsèquement multimodale (intégrant vision et audition de manière synergique), les modèles de langage multimodaux (MLLM) actuels, y compris les modèles "omnimodaux" de pointe comme la famille Qwen3-Omni, font face à des défis majeurs dans la compréhension audio-visuelle.

Le Paradoxe de la Multimodalité : L'ajout de la modalité audio ne conduit pas systématiquement à une meilleure compréhension. Au contraire, les modèles pré-entraînés sur des tâches hétérogènes souffrent souvent d'un biais modal. Par exemple, la variante "Omni" (audio-visuelle) de Qwen3-30B-A3B performe moins bien que sa variante purement visuelle (VL) sur des benchmarks de raisonnement (chute de 72,1 à 68,5 sur MMStar).
Limites des approches existantes :
- Le simple ajout de données mixtes audio-visuel lors du pré-entraînement est difficile à mettre à l'échelle et coûteux.
- Les méthodes de post-entraînement actuelles (SFT ou RL standard comme GRPO) ne supervisent pas explicitement les comportements de raisonnement intermédiaires, tels que la localisation et la composition de preuves à travers les modalités.
- En conséquence, les modèles peuvent ignorer des indices audio ou visuels décisifs et trouver la bonne réponse en exploitant des biais de données ou des raccourcis unimodaux, sans véritable fusion des modalités.

2. Méthodologie : OmniVideo-R1

OmniVideo-R1 est le premier cadre de post-entraînement basé sur l'apprentissage par renforcement (RL) conçu spécifiquement pour améliorer le raisonnement multimodal mixte. Il repose sur une optimisation de deux capacités fondamentales via un cadre GSPO (Group Sequence Policy Optimization) appliqué au niveau de la séquence.

Le processus d'entraînement se déroule en deux étapes distinctes :

A. Ancrage Intense par Requête (Query-Intensive Grounding - QI)

Objectif : Permettre au modèle de localiser et de raisonner explicitement sur les segments audio-visuels pertinents par rapport à la requête utilisateur avant de générer une réponse.
Approche Auto-supervisée : Puisque les annotations de localisation précises sont coûteuses, le modèle est entraîné à générer des paires temps-légende (<time>...</time><caption>...</caption>) au sein de sa chaîne de pensée.
Récompenses :
- Format : Respect du template de sortie.
- Cohérence (Consistency) : Vérification que la légende générée correspond au segment audio-visuel extrait.
- Complétude : Évaluation si les segments ancrés contiennent suffisamment d'informations pour justifier la réponse finale.
- Résultat : Score basé sur la qualité de la réponse finale.
Résultat : Le modèle apprend à "penser avec des indices omnimodaux" en identifiant activement les preuves pertinentes sans annotations de processus explicites.

B. Fusion Attentive aux Modalités (Modality-Attentive Fusion - MA)

Objectif : Forcer le modèle à exploiter la complémentarité entre l'audio et la vidéo, évitant ainsi de dépendre uniquement d'une modalité.
Stratégie Contrastive : Pour chaque entrée, le modèle effectue trois déductions (rollouts) :
1. Entrée audio-visuelle complète.
2. Entrée vidéo seule (silencieuse).
3. Entrée audio seule.
Récompense d'Attention ( $r_{attn}$ ) : Une récompense est accordée uniquement si la performance avec l'entrée complète est supérieure ou égale à celle des entrées unimodales. Cela encourage le modèle à découvrir des relations synergiques entre les événements visuels et sonores.
Données : Cette étape utilise un sous-ensemble de données à forte dépendance audio-visuelle.

3. Contributions Clés

Cadre OmniVideo-R1 : Premier cadre RL conçu pour améliorer le raisonnement multimodal mixte via l'intention de requête et l'attention modale.
Corpus de Données de Haute Qualité : Construction d'un corpus de 80 000 échantillons audio-visuels nettoyés via un pipeline rigoureux (évaluation de qualité, filtrage heuristique, équilibrage catégoriel).
Paradigme RL à Deux Étapes : Introduction d'une méthode combinant un ancrage auto-supervisé (QI) et une fusion contrastive (MA), permettant d'apprendre des comportements de raisonnement complexes sans annotations de processus coûteuses.
Performance et Robustesse : Démonstration que l'approche améliore les performances audio-visuelles tout en préservant, voire en améliorant, les capacités de raisonnement purement visuel.

4. Résultats Expérimentaux

Les expériences ont été menées sur plusieurs benchmarks de référence (Daily-Omni, WorldSense, IntentBench, VideoHolmes, OmniVideoBench).

Performance Audio-Visuelle :
- OmniVideo-R1 surpasse systématiquement les modèles de base et les modèles open-source de pointe (SOTA).
- Sur Daily-Omni, il atteint 82,8 %, surpassant le modèle fermé Gemini-3-Pro (81,1 %) et le modèle open-source Video-SALMONN 2+-72B (79,4 %).
- Sur OmniVideoBench (tâches complexes nécessitant une synergie), il obtient 44,8 % contre 37,0 % pour le modèle de base Qwen3-Omni, soit une amélioration de 7,8 points.
Performance Visuelle Unimodale :
- Le modèle ne subit aucune dégradation sur les tâches de vidéo silencieuse (Video-MME, MLVU, LVBench). Il montre même des améliorations (ex: +4,4 % sur Video-MME), prouvant que l'intégration multimodale n'entraîne pas de compromis négatif (trade-off).
Études d'Ablation :
- La suppression de la récompense d'ancrage ( $r_{intent}$ ) ou de la récompense d'attention modale ( $r_{attn}$ ) entraîne une baisse significative des performances, confirmant la nécessité des deux étapes.
- L'ajout de la phase MA sur un modèle déjà entraîné en QI apporte des gains substantiels, prouvant que l'ancrage seul ne suffit pas à capturer les indices sonores décisifs.

5. Signification et Impact

OmniVideo-R1 marque une avancée significative dans le domaine de l'intelligence artificielle multimodale en résolvant le paradoxe de la dégradation des performances lors de l'ajout de modalités.

Changement de Paradigme : Au lieu de simplement augmenter le volume de données, l'approche se concentre sur l'instillation de comportements de raisonnement robustes. Elle force le modèle à "penser" activement avec des indices omnimodaux plutôt que de simplement réagir.
Efficacité des Données : La capacité à apprendre des comportements de localisation et de fusion sans annotations de processus (process-level annotations) rend l'entraînement plus évolutif et moins coûteux.
Fondation pour l'AGI : En permettant aux modèles de construire des représentations multimodales cohérentes et de réaliser des "moments d'épiphanie" (aha moments) grâce à la synergie audio-visuelle, ce travail pose les bases pour des systèmes d'IA plus proches de la cognition humaine.

En résumé, OmniVideo-R1 démontre que le renforcement du raisonnement par l'intention de requête et l'attention modale est la clé pour débloquer le plein potentiel des modèles omnimodaux.

OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention

🎬 Le Problème : Le Cinéaste qui a oublié ses oreilles

💡 La Solution : OmniVideo-R1, le Détective "Tout-En-Un"

Étape 1 : Le "Sourire de la Preuve" (Ancrage Intentionnel)

Étape 2 : La "Danse des Sens" (Fusion Attentionnelle)

🏆 Les Résultats : Pourquoi c'est impressionnant ?

🚀 En Résumé

Titre : OmniVideo-R1 : Renforcement du raisonnement audio-visuel par l'intention de requête et l'attention modale

1. Problématique

2. Méthodologie : OmniVideo-R1

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

OpenKedge: Governing Agentic Mutation with Execution-Bound Safety and Evidence Chains

From Business Events to Auditable Decisions: Ontology-Governed Graph Simulation for Enterprise AI

Sustained Impact of Agentic Personalisation in Marketing: A Longitudinal Case Study

RAMP: Hybrid DRL for Online Learning of Numeric Action Models

Parameterized Complexity Of Representing Models Of MSO Formulas