OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention

Each language version is independently generated for its own context, not a direct translation.

🎬 OmniVideo-R1: Der Meister-Detektiv für Video und Ton

Stell dir vor, du hast einen sehr klugen Assistenten (eine Künstliche Intelligenz), der dir Videos ansehen kann. Bisher war dieser Assistent wie ein tauber Filmkritiker: Er konnte die Bilder perfekt analysieren, aber wenn im Video jemand sprach oder Musik lief, ignorierte er diese Geräusche oft oder verstand sie falsch. Er verließ sich zu sehr auf das, was er sah, und vergaß, was er hörte.

Das neue Papier stellt OmniVideo-R1 vor. Das ist wie ein Super-Detektiv, der endlich lernt, sowohl mit den Augen als auch mit den Ohren zu denken, um die Wahrheit in einem Video zu finden.

Hier ist, wie dieser Detektiv trainiert wird, in zwei einfachen Schritten:

Schritt 1: „Wo genau muss ich hinschauen?" (Die Such-Strategie)

Stell dir vor, du bekommst einen Rätsel-Fall: „Warum hat der Mann im Video plötzlich angefangen zu lachen?"

Ein normaler KI-Assistent würde vielleicht das ganze Video durchsuchen und raten. OmniVideo-R1 lernt jedoch eine neue Fähigkeit: Fragen-Intensives Suchen.

Die Analogie: Stell dir vor, der Detektiv hat eine Taschenlampe. Bevor er eine Antwort gibt, leuchtet er gezielt auf die genauen Momente im Video, die für die Frage wichtig sind.
Das Besondere: Früher brauchte man dafür teure menschliche Trainer, die mit dem Finger auf den richtigen Moment zeigen mussten („Hier, bei Sekunde 12!"). OmniVideo-R1 ist schlauer: Es lernt selbstständig. Es versucht, einen Moment zu beschreiben („Ein Mann lacht") und prüft dann selbst, ob diese Beschreibung mit dem Bild und Ton an dieser Stelle übereinstimmt. Es ist wie ein Schüler, der sich selbst korrigiert, indem er sagt: „Passt das, was ich sehe, zu dem, was ich höre?"

Schritt 2: „Hören und Sehen zusammenbringen" (Die Teamwork-Strategie)

Nun, wo der Detektiv weiß, wo er hinschauen muss, muss er lernen, wie er Bild und Ton kombiniert.

Das Problem: Oft ist das Bild irreführend. Vielleicht sieht man jemanden lachen, aber im Ton hört man, dass er eigentlich weint (Ironie). Oder man sieht nur einen leeren Raum, aber der Ton verrät, dass ein Sturm tobt.
Die Lösung: OmniVideo-R1 wird in einem Wettkampf trainiert.
1. Es bekommt nur das Bild (stumm).
2. Es bekommt nur den Ton (schwarz).
3. Es bekommt beides zusammen.
Die Regel: Der Detektiv bekommt einen Bonus, wenn er mit beiden Sinnen (Bild + Ton) eine bessere Antwort findet als mit nur einem Sinn. Er lernt sozusagen: „Hey, wenn ich beides nutze, bin ich viel schlauer als wenn ich nur halb so gut arbeite!"

Warum ist das so wichtig?

Bisherige Modelle waren wie ein Einäugiger Riese: Er sah alles, aber hörte nichts. Wenn man ihm ein Video mit viel Sprache gab, wurde er oft dümmer, weil der Ton ihn verwirrte.

OmniVideo-R1 ist wie ein voll funktionsfähiger Mensch:

Er ignoriert nicht den Ton, wenn er das Bild sieht.
Er nutzt den Ton, um das Bild besser zu verstehen.
Er bleibt trotzdem super gut darin, nur Bilder zu verstehen (falls der Ton fehlt).

Das Ergebnis

In Tests hat sich gezeigt, dass dieser neue „Detektiv" bei Aufgaben, bei denen man genau hinhören und genau hinsehen muss (z. B. „Was sagt die Person im Hintergrund, während der Held kämpft?"), deutlich besser abschneidet als alle bisherigen Spitzenmodelle. Er ist robuster, macht weniger Fehler und versteht die Welt so, wie wir Menschen sie erleben: durch ein Zusammenspiel von Sehen und Hören.

Kurz gesagt: OmniVideo-R1 hat dem KI-Modell beigebracht, nicht nur zu „schauen", sondern wirklich zu „verstehen", indem es lernt, seine Sinne zu koordinieren und genau dort hinzuschauen, wo die Antwort versteckt ist.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Aktuelle Multimodal-Modelle (MLLMs), insbesondere solche, die für die Verarbeitung von Audio und Video ausgelegt sind (Omnimodal-Modelle), stehen vor einem fundamentalen Paradoxon: Obwohl die Integration zusätzlicher Modalitäten theoretisch zu einem besseren Verständnis führen sollte, zeigen bestehende Modelle oft eine modale Verzerrung (Modality Bias).

Das Phänomen: Das Hinzufügen des Audio-Modus kann die bereits etablierten visuellen Schlussfolgerungsfähigkeiten eines Modells verschlechtern. Beispielsweise performt die „Omni"-Variante von Qwen3-Omni in visuellen Benchmarks schlechter als die rein visuelle „VL"-Variante.
Die Ursache: Herkömmliche Nachtrainingsverfahren (wie Supervised Fine-Tuning oder einfaches Reinforcement Learning) trainieren nicht explizit das Verhalten, Beweise über Modalitäten hinweg zu lokalisieren und zu synthetisieren. Modelle ignorieren daher oft entscheidende Audio- oder visuelle Hinweise und nutzen stattdessen Datensatz-Bias oder einseitige Abkürzungen, um die richtige Antwort zu erraten.
Die Herausforderung: Es fehlt an effizienten Methoden, um Modelle dazu zu bringen, aktiv und synergistisch zwischen Audio und Video zu „denken", ohne auf teure, prozessbezogene Annotationen (z. B. manuelle Markierung von Schlüsselaugenblicken) angewiesen zu sein.

2. Methodik: OmniVideo-R1

Das Paper stellt OmniVideo-R1 vor, ein neuartiges Reinforcement-Learning-Framework (basierend auf GSPO – Group Sequence Policy Optimization), das die audio-visuelle Schlussfolgerung durch zwei strategische Stufen verbessert. Das Ziel ist es, dem Modell beizubringen, mit „omnimodalen Hinweisen" zu denken.

A. Datenvorbereitung

Es wurde ein hochwertiger Korpus von 80.000 Audio-Video-Trainingsstichproben erstellt. Dieser wurde durch eine dedizierte Pipeline gefiltert, die Qualitätsbewertung (durch Gemini-2.5-Pro), heuristische Filterung und eine kategorische Balance umfasst, um sicherzustellen, dass die Daten komplexe Schlussfolgerungsaufgaben unterstützen.

B. Zwei-Stufen-Trainingsparadigma

Das Training erfolgt in zwei aufeinanderfolgenden Phasen, die keine prozessbezogenen Annotationen benötigen:

Phase 1: Query-Intensive Grounding (QI)
- Ziel: Das Modell lernt, explizit die für die Benutzeranfrage relevanten Audio-Video-Segmente zu lokalisieren, bevor es eine Antwort generiert.
- Ansatz: Ein selbstüberwachter Lernansatz. Das Modell wird dazu angehalten, eine strukturierte Ausgabe zu generieren, die Zeitstempel und Bildunterschriften (<time>...</time><caption>...</caption>) enthält.
- Belohnungsfunktion ( $R_{QI}$ ):
  - Format-Regularisierung: Strafe für falsche Ausgabeformate.
  - Selbstüberwachtes Konsistenz-Reward ( $r_{cons}$ ): Die generierte Bildunterschrift wird mit dem zugehörigen Audio-Video-Segment abgeglichen (evaluiert durch ein Judge-Modell).
  - Vollständigkeits-Reward ( $r_{comp}$ ): Sicherstellung, dass die ausgewählten Segmente alle notwendigen Hinweise für die Beantwortung der Frage enthalten.
  - Ergebnis-Reward ( $r_{ans}$ ): Bewertung der finalen Antwortqualität.
Phase 2: Modality-Attentive Fusion (MA)
- Ziel: Sicherstellen, dass das Modell Audio- und visuelle Informationen synergistisch nutzt und nicht nur auf eine Modalität verlässt.
- Ansatz: Ein kontrastives Lernverfahren. Für jede Eingabe werden drei Szenarien verglichen: (i) Audio + Video, (ii) nur Video, (iii) nur Audio.
- Belohnungsfunktion ( $R_{MA}$ ): Ein Attention-Reward ( $r_{attn}$ ) wird nur dann vergeben, wenn die Leistung mit der kombinierten Eingabe (Audio+Video) strikt besser ist als mit jeder einzelnen Modalität. Dies zwingt das Modell, die Synergie zwischen den Modalitäten zu entdecken.

3. Schlüsselbeiträge

Erstes RL-Framework für gemischte Modalitäten: OmniVideo-R1 ist das erste Nachtrainingsframework, das speziell darauf ausgelegt ist, die Schlussfolgerungsfähigkeit über Audio und Video hinweg zu verbessern.
Hochwertiger Datensatz: Erstellung eines 80k großen, sauberen Audio-Video-Korpus, der speziell für komplexe Reasoning-Aufgaben kuratiert wurde.
Annotation-freies Training: Einführung eines zweistufigen RL-Paradigmas (QI + MA), das Query-Intention und Modality-Attention durch selbstüberwachtes Grounding und kontrastives Lernen erlernt, ohne auf teure Prozess-Annotationen angewiesen zu sein.
Robustheit: Das Framework verbessert die multimodalen Fähigkeiten, ohne die rein visuellen Fähigkeiten des Basismodells zu beeinträchtigen.

4. Ergebnisse

Die Experimente wurden auf mehreren Benchmarks durchgeführt (Daily-Omni, WorldSense, IntentBench, VideoHolmes, OmniVideoBench).

Überlegenheit gegenüber SOTA: OmniVideo-R1 übertrifft konsistent starke Open-Source-Baselines (wie Video-SALMONN 2+-72B) und sogar aktuelle Closed-Source-Modelle (wie Gemini-3-Pro).
- Auf Daily-Omni erreichte OmniVideo-R1 82,8 % (vs. 81,1 % bei Gemini-3-Pro).
- Auf IntentBench erreichte es 74,2 % (vs. 71,5 % bei Gemini-3-Pro).
Audio-Visuelle Reasoning: Auf dem OmniVideoBench, wo frühere Methoden nahe am Zufall lagen, erzielte OmniVideo-R1 einen signifikanten Sprung von 44,8 % (Base: 37,0 %).
Erhaltung visueller Fähigkeiten: Im Gegensatz zu anderen Ansätzen, die bei der Einführung von Audio oft visuelle Fähigkeiten verlieren, zeigt OmniVideo-R1 auf rein visuellen Benchmarks (Video-MME, MLVU, LVBench) keine Verschlechterung, sondern teilweise Verbesserungen (z. B. +4,4 % auf Video-MME).
Ablationsstudien: Die Entfernung der QI-Phase oder des MA-Rewards führte zu deutlichen Leistungseinbußen, was die Notwendigkeit beider Komponenten für das synergistische Verständnis bestätigt.

5. Bedeutung und Fazit

OmniVideo-R1 adressiert eine kritische Lücke in der Entwicklung von Multimodal-Modellen: Die Fähigkeit, Audio und Video nicht nur parallel zu verarbeiten, sondern sie logisch zu verknüpfen, um komplexe Fragen zu beantworten.

Paradigmenwechsel: Statt nur mehr Daten zu sammeln, fokussiert sich das Paper auf das Einüben robuster Schlussfolgerungsverhalten (Reasoning Behaviors).
Effizienz: Durch den Verzicht auf manuelle Prozess-Annotationen (wie das Markieren von Schlüsselaugenblicken durch Menschen) macht die Methode das Training skalierbarer und kosteneffizienter.
Zukunft: Die Arbeit legt einen soliden Grundstein für zukünftige Forschung im Bereich der audio-visuellen Schlussfolgerung und zeigt, wie Modelle lernen können, „mit multimodalen Hinweisen" zu denken, um echte „Aha-Momente" in komplexen Umgebungen zu erreichen.

OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention

🎬 OmniVideo-R1: Der Meister-Detektiv für Video und Ton

Schritt 1: „Wo genau muss ich hinschauen?" (Die Such-Strategie)

Schritt 2: „Hören und Sehen zusammenbringen" (Die Teamwork-Strategie)

Warum ist das so wichtig?

Das Ergebnis

1. Problemstellung

2. Methodik: OmniVideo-R1

A. Datenvorbereitung

B. Zwei-Stufen-Trainingsparadigma

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

OpenKedge: Governing Agentic Mutation with Execution-Bound Safety and Evidence Chains

From Business Events to Auditable Decisions: Ontology-Governed Graph Simulation for Enterprise AI

Sustained Impact of Agentic Personalisation in Marketing: A Longitudinal Case Study

RAMP: Hybrid DRL for Online Learning of Numeric Action Models

Parameterized Complexity Of Representing Models Of MSO Formulas