OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention

Das Paper stellt OmniVideo-R1 vor, ein neuartiges verstärktes Framework, das durch query-intensives Grounding und modality-attentive Fusion die audio-visuelle Reasoning-Fähigkeit von Omnivideo-Modellen signifikant verbessert und dabei in umfangreichen Experimenten starke Baselines übertrifft.

Zhangquan Chen, Jiale Tao, Ruihuang Li, Yihao Hu, Ruitao Chen, Zhantao Yang, Xinlei Yu, Haodong Jing, Manyuan Zhang, Shuai Shao, Biao Wang, Qinglin Lu, Ruqi Huang

Veröffentlicht 2026-02-17
📖 3 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🎬 OmniVideo-R1: Der Meister-Detektiv für Video und Ton

Stell dir vor, du hast einen sehr klugen Assistenten (eine Künstliche Intelligenz), der dir Videos ansehen kann. Bisher war dieser Assistent wie ein tauber Filmkritiker: Er konnte die Bilder perfekt analysieren, aber wenn im Video jemand sprach oder Musik lief, ignorierte er diese Geräusche oft oder verstand sie falsch. Er verließ sich zu sehr auf das, was er sah, und vergaß, was er hörte.

Das neue Papier stellt OmniVideo-R1 vor. Das ist wie ein Super-Detektiv, der endlich lernt, sowohl mit den Augen als auch mit den Ohren zu denken, um die Wahrheit in einem Video zu finden.

Hier ist, wie dieser Detektiv trainiert wird, in zwei einfachen Schritten:

Schritt 1: „Wo genau muss ich hinschauen?" (Die Such-Strategie)

Stell dir vor, du bekommst einen Rätsel-Fall: „Warum hat der Mann im Video plötzlich angefangen zu lachen?"

Ein normaler KI-Assistent würde vielleicht das ganze Video durchsuchen und raten. OmniVideo-R1 lernt jedoch eine neue Fähigkeit: Fragen-Intensives Suchen.

  • Die Analogie: Stell dir vor, der Detektiv hat eine Taschenlampe. Bevor er eine Antwort gibt, leuchtet er gezielt auf die genauen Momente im Video, die für die Frage wichtig sind.
  • Das Besondere: Früher brauchte man dafür teure menschliche Trainer, die mit dem Finger auf den richtigen Moment zeigen mussten („Hier, bei Sekunde 12!"). OmniVideo-R1 ist schlauer: Es lernt selbstständig. Es versucht, einen Moment zu beschreiben („Ein Mann lacht") und prüft dann selbst, ob diese Beschreibung mit dem Bild und Ton an dieser Stelle übereinstimmt. Es ist wie ein Schüler, der sich selbst korrigiert, indem er sagt: „Passt das, was ich sehe, zu dem, was ich höre?"

Schritt 2: „Hören und Sehen zusammenbringen" (Die Teamwork-Strategie)

Nun, wo der Detektiv weiß, wo er hinschauen muss, muss er lernen, wie er Bild und Ton kombiniert.

  • Das Problem: Oft ist das Bild irreführend. Vielleicht sieht man jemanden lachen, aber im Ton hört man, dass er eigentlich weint (Ironie). Oder man sieht nur einen leeren Raum, aber der Ton verrät, dass ein Sturm tobt.
  • Die Lösung: OmniVideo-R1 wird in einem Wettkampf trainiert.
    1. Es bekommt nur das Bild (stumm).
    2. Es bekommt nur den Ton (schwarz).
    3. Es bekommt beides zusammen.
  • Die Regel: Der Detektiv bekommt einen Bonus, wenn er mit beiden Sinnen (Bild + Ton) eine bessere Antwort findet als mit nur einem Sinn. Er lernt sozusagen: „Hey, wenn ich beides nutze, bin ich viel schlauer als wenn ich nur halb so gut arbeite!"

Warum ist das so wichtig?

Bisherige Modelle waren wie ein Einäugiger Riese: Er sah alles, aber hörte nichts. Wenn man ihm ein Video mit viel Sprache gab, wurde er oft dümmer, weil der Ton ihn verwirrte.

OmniVideo-R1 ist wie ein voll funktionsfähiger Mensch:

  • Er ignoriert nicht den Ton, wenn er das Bild sieht.
  • Er nutzt den Ton, um das Bild besser zu verstehen.
  • Er bleibt trotzdem super gut darin, nur Bilder zu verstehen (falls der Ton fehlt).

Das Ergebnis

In Tests hat sich gezeigt, dass dieser neue „Detektiv" bei Aufgaben, bei denen man genau hinhören und genau hinsehen muss (z. B. „Was sagt die Person im Hintergrund, während der Held kämpft?"), deutlich besser abschneidet als alle bisherigen Spitzenmodelle. Er ist robuster, macht weniger Fehler und versteht die Welt so, wie wir Menschen sie erleben: durch ein Zusammenspiel von Sehen und Hören.

Kurz gesagt: OmniVideo-R1 hat dem KI-Modell beigebracht, nicht nur zu „schauen", sondern wirklich zu „verstehen", indem es lernt, seine Sinne zu koordinieren und genau dort hinzuschauen, wo die Antwort versteckt ist.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →