OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention

Each language version is independently generated for its own context, not a direct translation.

🎬 Il Problema: Il "Cinema Muto" nel Cervello dell'AI

Immagina di avere un'intelligenza artificiale molto intelligente, come un regista esperto. Fino a poco tempo fa, questo regista era bravissimo a guardare i film (video) e a capire cosa succedeva, ma quando gli davamo anche l'audio (musica, voci, rumori), si confondeva.

È come se avessi un regista che guarda un film di un'auto che si schianta:

Senza audio: Dice: "L'auto si schianta contro un albero". (Corretto).
Con audio: Se senti il rumore di un clacson e un urlo, il regista potrebbe dire: "L'auto si schianta contro un albero... aspetta, forse sta suonando la radio?".

Il problema è che i modelli attuali, quando aggiungono l'audio, spesso dimenticano quanto erano bravi a guardare il video. L'audio diventa un "disturbo" invece che un aiuto. È come se qualcuno ti mettesse le cuffie mentre guidi: invece di aiutarti a sentire la sirena dell'ambulanza, ti confondono e rischi di fare un incidente.

💡 La Soluzione: OmniVideo-R1

Gli autori di questo paper hanno creato OmniVideo-R1, un nuovo metodo per addestrare l'AI a diventare un vero "regista multimodale". Invece di farle guardare e ascoltare passivamente, gli insegnano a pensare usando tutti i sensi insieme.

Hanno usato due strategie principali, che possiamo paragonare a due allenamenti sportivi:

1. L'Allenamento "Caccia al Tesoro" (Query-Intensive Grounding)

Immagina di dare all'AI un indovinello: "Cosa ha fatto il cane prima di abbaiare?".
Prima di rispondere, l'AI deve imparare a fare una cosa fondamentale: fermarsi e cercare le prove.

Come funziona: Invece di saltare subito alla risposta, l'AI deve dire: "Ok, guardo qui (secondo 10-15) e sento qui (secondo 10-15)...".
Il trucco: Non hanno bisogno di un umano che le dica esattamente dove guardare (che costerebbe una fortuna). Usano un metodo "auto-supervisionato": l'AI genera una descrizione di cosa sta vedendo e ascoltando in quel momento, e poi si controlla da sola: "La mia descrizione corrisponde a quello che ho visto?".
L'analogia: È come un detective che, prima di accusare qualcuno, deve indicare esattamente sul nastro video il momento in cui il sospetto ha commesso il crimine. Se non riesce a trovare il momento esatto, non può dare la risposta.

2. L'Allenamento "Sinfonia Perfetta" (Modality-Attentive Fusion)

Una volta che l'AI sa cercare le prove, deve imparare a unire le prove visive e sonore.

Il problema: A volte l'AI guarda solo il video e ignora il suono, o viceversa.
La soluzione: Hanno creato un gioco di confronto. Hanno dato all'AI tre compiti:
1. Guarda il video + Ascolta l'audio.
2. Guarda solo il video (muto).
3. Ascolta solo l'audio (senza video).
La regola: L'AI riceve un premio solo se la sua risposta è migliore quando usa entrambi i sensi rispetto a quando ne usa uno solo.
L'analogia: È come un'orchestra. Se il violino (video) e il violoncello (audio) suonano da soli, è bello. Ma se suonano insieme e si ascoltano a vicenda per creare un'armonia perfetta, il risultato è magico. L'AI impara che la risposta "perfetta" nasce solo dalla collaborazione tra occhio e orecchio.

🚀 I Risultati: Cosa è successo?

Dopo questi due allenamenti, l'AI (OmniVideo-R1) è diventata un super-regista:

È più precisa: Risponde meglio ai quesiti complessi dove servono sia l'immagine che il suono (come capire l'emozione di una scena o risolvere un mistero).
Non perde le sue abilità: Anche se è stata addestrata a usare l'audio, non ha dimenticato come guardare i video muti. Anzi, è diventata ancora più brava!
Supera i giganti: Ha battuto modelli molto potenti e costosi (come Gemini o Qwen) in diverse prove, dimostrando che "pensare" con tutti i sensi è la chiave.

🌟 In Sintesi

OmniVideo-R1 insegna all'intelligenza artificiale a non essere solo un "guardone" o un "ascoltatore", ma un investigatore completo.

Prima impara a cercare le prove giuste nel video e nell'audio (senza farsi aiutare da un umano).
Poi impara a mescolare queste prove per ottenere una risposta migliore di quella che potrebbe dare usando un solo senso.

È come trasformare un turista che guarda un film muto in un critico cinematografico che vive l'esperienza completa, sentendo ogni nota e vedendo ogni dettaglio, per capire davvero la storia.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Il Paradosso Multimodale

Nonostante i modelli linguistici multimodali (MLLM) siano progettati per comprendere il mondo attraverso segnali visivi e uditivi, i modelli "omnimodali" attuali (come la famiglia Qwen3-Omni) mostrano un comportamento paradossale.

Bias Modale: L'integrazione della modalità audio spesso degrada le capacità di ragionamento visivo già consolidate. Ad esempio, nella famiglia Qwen3-30B-A3B, la variante Omni (audio-visiva) performa peggio della variante VL (solo visiva) su benchmark come MMStar e MathVista_mini.
Limiti delle Metodologie Esistenti:
- L'aumento dei dati di supervisione mista durante il pre-addestramento è costoso e difficile da scalare.
- Le pipeline di post-addestramento attuali (SFT o RL standard come GRPO) non allenano esplicitamente il comportamento di ragionamento misto (es. localizzare e comporre prove tra audio e video).
- Di conseguenza, i modelli tendono a ignorare segnali audio o visivi decisivi, sfruttando bias del dataset o scorciatoie unimodali per produrre risposte corrette senza una vera comprensione sinergica.

2. Metodologia: OmniVideo-R1

OmniVideo-R1 è un nuovo framework di post-addestramento basato sul Reinforcement Learning (RL) progettato per migliorare il ragionamento multimodale misto. Il framework si basa su due strategie chiave e utilizza l'algoritmo GSPO (Group Sequence Policy Optimization) per ottimizzare l'intero processo di ragionamento a livello di sequenza, evitando il rumore ad alta varianza tipico dei metodi token-level su modelli MoE (Mixture-of-Experts).

Il processo di addestramento avviene in due fasi distinte:

A. Fase 1: Grounding Intensivo alla Query (Query-intensive Grounding - QI)

L'obiettivo è insegnare al modello a localizzare e ragionare sui segmenti audio-visivi rilevanti per la query dell'utente prima di generare una risposta.

Apprendimento Auto-supervisionato: Poiché le annotazioni di grounding sono costose, il metodo utilizza coppie "tempo-descrizione" multiple. Il modello genera ipotesi di grounding (es. <time>...</time><caption>...</caption>) e le valida contro le descrizioni testuali corrispondenti.
Funzione di Ricompensa ( $R_{QI}$ ): Combina tre componenti:
1. Regolarizzazione del formato ( $r_{format}$ ): Assicura che l'output segua uno schema strutturato.
2. Ricompensa basata sull'esito ( $r_{ans}$ ): Valuta la qualità della risposta finale.
3. Auto-supervisione di processo ( $r_{intent}$ ): Valuta la coerenza tra i segmenti temporali selezionati e le relative didascalie, assicurando che i segmenti coprano completamente le prove necessarie per la risposta senza ridondanza.

B. Fase 2: Fusione Attenta alla Modaltà (Modality-attentive Fusion - MA)

Questa fase mira a massimizzare l'utilizzo sinergico di audio e video, correggendo il bias visivo emerso nella fase QI.

Apprendimento Contrastivo: Il modello viene confrontato in tre scenari di esecuzione (rollout): input audio-visivo combinato, solo video silenzioso e solo audio.
Ricompensa di Attenzione ( $r_{attn}$ ): Viene assegnata una ricompensa positiva solo se la performance con l'input multimodale completo è superiore o uguale a quella ottenuta con le singole modalità. Questo forza il modello a scoprire relazioni sinergiche tra eventi visivi e sonori, garantendo che la rappresentazione fusa sia superiore alla somma delle sue parti.
Funzione di Ricompensa ( $R_{MA}$ ): Somma del formato, della risposta e della ricompensa di attenzione contrastiva.

3. Contributi Chiave

Primo Framework RL per il Ragionamento Misto: OmniVideo-R1 è il primo framework basato su RL specificamente progettato per migliorare il ragionamento audio-visivo misto, superando i limiti delle metodologie standard.
Corpus di Dati di Alta Qualità: È stato costruito un dataset di 80.000 campioni audio-visivi (88k per la fase QI, 12k per la fase MA) attraverso una pipeline di pulizia rigorosa che include valutazione della qualità, filtraggio euristico e bilanciamento categoriale.
Paradigma RL a Due Stadi: Un approccio innovativo che integra grounding auto-supervisionato e fusione contrastiva, permettendo al modello di apprendere l'intenzione della query e l'attenzione alla modalità senza bisogno di annotazioni a livello di processo.
Generalizzazione Robusta: Il modello dimostra capacità di generalizzazione eccezionali, mantenendo alte prestazioni anche su compiti puramente visivi.

4. Risultati Sperimentali

OmniVideo-R1 è stato valutato su una vasta gamma di benchmark, superando costantemente i modelli open-source e closed-source più avanzati (SOTA).

Comprensione Audio-Visiva:
- Su Daily-Omni, OmniVideo-R1 raggiunge 82.8, superando il modello closed-source Gemini-3-Pro (81.1) e il modello open-source Video-SALMONN 2+-72B (79.4).
- Su IntentBench, ottiene 74.2, con un vantaggio significativo rispetto a Qwen3-Omni-30B-A3B-Thinking (68.5).
- Su OmniVideoBench, il modello mostra un miglioramento drastico del 21.1% rispetto alla base (44.8 vs 37.0), rompendo il collo di bottiglia dove i metodi precedenti performavano vicino al caso.
Comprensione Solo Visiva:
- Il modello non subisce degradazione sulle modalità singole. Anzi, mostra miglioramenti su benchmark come Video-MME (+4.4%) e LVBench (+3.4%) rispetto alla base, dimostrando che l'integrazione multimodale non compromette le capacità visive esistenti.
Ablation Study:
- La rimozione della ricompensa di grounding ( $r_{intent}$ ) o della fusione contrastiva ( $r_{attn}$ ) porta a cali significativi nelle prestazioni, confermando che entrambe le fasi sono essenziali.
- Il confronto con SFT standard e RL "vanilla" mostra che il paradigma proposto di OmniVideo-R1 è superiore in tutti i benchmark testati.

5. Significato e Impatto

OmniVideo-R1 rappresenta un passo avanti fondamentale verso l'Intelligenza Artificiale Generale (AGI) multimodale.

Superamento del Trade-off: Dimostra che è possibile potenziare il ragionamento audio-visivo senza sacrificare le capacità visive, risolvendo il problema del "bias modale" che affligge i modelli attuali.
Ragionamento "Pensante": Il modello impara a "pensare con segnali omnimodali", localizzando attivamente le prove chiave (sia sonore che visive) prima di rispondere, imitando più da vicino il processo cognitivo umano.
Efficienza dei Dati: L'uso di tecniche auto-supervisionate e contrastive riduce la dipendenza da costose annotazioni umane a livello di processo, rendendo scalabile l'addestramento di modelli di ragionamento complesso.

In sintesi, OmniVideo-R1 stabilisce un nuovo standard per la comprensione video-audio, fornendo una base solida per futuri sviluppi in sistemi che richiedono una fusione profonda e logica di informazioni sensoriali eterogenee.