OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention

Ce papier présente OmniVideo-R1, un cadre innovant qui améliore le raisonnement audio-visuel en combinant un ancrage basé sur l'apprentissage auto-supervisé et une fusion attentive des modalités fondée sur l'apprentissage contrastif, surpassant ainsi les modèles existants sur plusieurs benchmarks.

Zhangquan Chen, Jiale Tao, Ruihuang Li, Yihao Hu, Ruitao Chen, Zhantao Yang, Xinlei Yu, Haodong Jing, Manyuan Zhang, Shuai Shao, Biao Wang, Qinglin Lu, Ruqi Huang

Publié 2026-02-17
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🎬 Le Problème : Le Cinéaste qui a oublié ses oreilles

Imaginez un super-cinéaste (une intelligence artificielle) nommé Qwen3-Omni. Il est très doué pour regarder des films et comprendre les images. Mais quand on lui ajoute le son (la musique, les bruits, les dialogues), il devient bizarre.

C'est comme si vous lui donniez un casque de réalité virtuelle et des écouteurs, mais qu'il décidait soudainement de se boucher les oreilles. Résultat ? Il rate des indices cruciaux. Parfois, le son est la clé pour comprendre une scène (un cri de détresse, un rire moqueur), mais le modèle l'ignore et se contente de deviner en regardant juste l'image. C'est ce qu'on appelle un biais de modalité : il préfère une seule source d'information (la vue) et oublie l'autre (l'ouïe), même quand les deux sont nécessaires.

💡 La Solution : OmniVideo-R1, le Détective "Tout-En-Un"

Les chercheurs ont créé OmniVideo-R1. Ce n'est pas juste un nouveau modèle, c'est une méthode d'entraînement (un régime de formation) pour apprendre au détective à utiliser tous ses sens en même temps.

Leur secret ? Ils ne lui donnent pas simplement plus de vidéos. Ils lui apprennent à réfléchir avant de répondre, en utilisant deux étapes clés, comme un entraînement de sport de haut niveau.

Étape 1 : Le "Sourire de la Preuve" (Ancrage Intentionnel)

  • Le concept : Avant de donner la réponse finale, le modèle doit dire : "Attends, je regarde cette partie précise de la vidéo où le chien aboie, et j'écoute ce son précis."
  • L'analogie : Imaginez un élève qui doit résoudre un problème de maths. Au lieu de donner la réponse tout de suite, on lui demande de surligner les lignes du texte qui contiennent la solution.
  • Le génie du papier : Habituellement, pour faire ça, il faudrait des humains pour surligner chaque seconde de la vidéo (ce qui coûte une fortune). OmniVideo-R1 utilise une astuce : il se corrige lui-même. Il génère une hypothèse ("Je pense que c'est à 10 secondes"), puis vérifie si cette hypothèse correspond à la description du texte. C'est un auto-entraînement : le modèle apprend à pointer du doigt les bons indices sans avoir besoin d'un professeur humain à chaque fois.

Étape 2 : La "Danse des Sens" (Fusion Attentionnelle)

  • Le concept : Maintenant que le modèle sait pointer les indices, il faut s'assurer qu'il ne néglige pas le son.
  • L'analogie : C'est comme un test de goût. On donne au modèle un plat (la vidéo avec le son). Ensuite, on lui enlève les épices (le son) et on lui enlève la viande (l'image).
    • Si le modèle dit "Le plat avec les épices ET la viande est meilleur que le plat sans rien", il gagne des points.
    • S'il dit "Je préfère le plat sans épices", il perd des points.
  • Le but : Cela force le modèle à réaliser que 1 + 1 = 3. La combinaison du son et de l'image doit être plus intelligente que la somme des parties séparées. Il apprend à faire confiance à la synergie entre ses yeux et ses oreilles.

🏆 Les Résultats : Pourquoi c'est impressionnant ?

Grâce à cette méthode, OmniVideo-R1 devient un champion :

  1. Il ne perd pas ses compétences visuelles : Parfois, quand on apprend à un robot à écouter, il oublie comment voir. Ici, non. Il reste excellent pour les vidéos muettes, tout en devenant un expert des vidéos avec son.
  2. Il bat les géants : Il surpasse des modèles très connus (comme les versions de Gemini ou d'autres modèles "Open Source") sur des tests complexes où il faut comprendre l'intention derrière une scène (ex: "Pourquoi cette personne rit-elle ?" -> Parce qu'on entend un bruit de gaz dans le fond).
  3. Il évite les raccourcis : Au lieu de deviner au hasard en se basant sur des biais (ex: "Si je vois un chien, c'est qu'il aboie"), il cherche activement la preuve dans le son et l'image.

🚀 En Résumé

OmniVideo-R1, c'est comme donner à un détective de l'IA une paire de lunettes de vision nocturne et des écouteurs de haute fidélité, puis lui apprendre à croiser les informations pour résoudre des mystères qu'il ne pourrait pas résoudre seul.

Au lieu de simplement "regarder" ou "écouter", il apprend à penser avec ses deux sens simultanément, rendant son intelligence beaucoup plus proche de celle d'un humain qui perçoit le monde dans toute sa richesse.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →