OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

Caorui Li, Yu Chen, Yiyan Ji, Jin Xu, Zhenyu Cui, Shihao Li, Yuanxing Zhang, Wentao Wang, Zhenghao Song, Dingling Zhang, Ying He, Haoxiang Liu, Yuxuan Wang, Qiufeng Wang, Jiafu Tang, Zhenhe Wu, Jiehui Luo, Zhiyu Pan, Weihao Xie, Chenchen Zhang, Zhaohui Wang, Jiayi Tian, Yanghai Wang, Zhe Cao, Minxin Dai, Ke Wang, Runzhe Wen, Yinghao Ma, Yaning Pan, Sungkyun Chang, Termeh Taheri, Haiwen Xia, Christos Plachouras, Emmanouil Benetos, Yizhi Li, Ge Zhang, Jian Yang, Tianhao Peng, Zili Wang, Minghao Liu, Junran Peng, Zhaoxiang Zhang, Jiaheng Liu

Pubblicato 2026-03-06

📖 4 min di lettura☕ Lettura da pausa caffè

Vedi su arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Immagina che l'Intelligenza Artificiale (IA) stia cercando di diventare un detective perfetto. Fino a poco tempo fa, questi detective erano bravissimi a guardare le foto (visione) o ad ascoltare le registrazioni (audio), ma quando dovevano risolvere un caso guardando un video, spesso fallivano miseramente.

Perché? Perché i video sono complessi: c'è l'azione che cambia, le persone parlano, c'è musica di sottofondo e rumori ambientali. Spesso, per capire cosa sta succedendo, devi incrociare ciò che vedi con ciò che senti.

1. Il Problema: I Detective "Sordi" o "Ciechi"

Fino ad oggi, i test per valutare questi detective erano come esami scolastici truccati.

Alcuni test chiedevano di guardare solo il video, ignorando il suono.
Altri test usavano clip brevissime, come se il detective potesse vedere solo un fotogramma alla volta.
Spesso, le domande potevano essere risposte guardando solo un'immagine o ascoltando solo una frase, senza davvero "capire" la storia completa.

È come chiedere a un detective di risolvere un omicidio guardando solo la pistola, senza ascoltare le testimonianze o vedere le impronte digitali.

2. La Soluzione: "OmniVideoBench" (La Grande Prova)

Il team di ricerca (NJU-LINK) ha creato un nuovo esame, chiamato OmniVideoBench. Immaginalo come una pista di ostacoli definitiva per i detective IA.

Ecco come funziona, con un'analogia culinaria:

Gli Ingredienti (I Video): Hanno raccolto 628 video reali, lunghi da pochi secondi a 30 minuti. Sono come piatti complessi: ci sono notizie, sport, documentari, vlog. Non sono video finti o sintetici, ma scene di vita reale.
La Ricetta (Le Domande): Hanno creato 1.000 domande su questi video. Ma non sono domande banali tipo "Cosa c'è sullo sfondo?". Sono domande che richiedono di unire i puntini.
- Esempio: "Dove si trova il poster 'Nessuno combatte da solo' rispetto alla persona che ha lanciato il Culein-Anbar?"
- Per rispondere, il detective deve vedere il poster, ascoltare chi parla, e capire la relazione spaziale tra i due. Se ignora l'audio o il video, sbaglia.
La Verifica (Il Controllo): Hanno assicurato che ogni domanda avesse una sola risposta corretta e che fosse impossibile indovinare senza guardare e ascoltare tutto. Hanno anche aggiunto una "mappa del pensiero": ogni risposta è accompagnata da una spiegazione passo-passo di come l'IA ha ragionato.

3. Cosa è Succeso? (Il Risultato Shock)

Hanno fatto fare questo esame ai migliori detective IA del mondo (sia quelli gratuiti che quelli a pagamento come Gemini o Qwen).

Il risultato? Nessuno ha passato l'esame.

Il miglior modello (Gemini-2.0-Pro) ha preso un 58,90%. In un test a scelta multipla, il 50% è indovinare a caso. Quindi, anche il migliore è appena sopra la media, ma non è un "genio".
I modelli open-source (gratuiti) hanno fatto peggio, spesso vicino al caso puro.
Il punto debole: L'IA è terribile quando c'è la musica. Se in un video c'è una canzone che cambia ritmo o un'atmosfera emotiva, l'IA si perde. Capisce le parole (come se leggessi i sottotitoli), ma non capisce l'emozione o il contesto creato dalla musica.

4. Perché è Importante?

Questo paper ci dice una cosa fondamentale: l'Intelligenza Artificiale non è ancora "onnivora" (capace di capire tutto insieme).

Attualmente, l'IA è come uno studente che ha studiato molto sui libri (testo) e sulle foto (visione), ma quando deve guardare un film e capire perché un personaggio è triste basandosi sulla sua musica di sottofondo e sulla sua espressione, si blocca.

OmniVideoBench è la nuova bussola. Non serve solo a dire "sei bravo o no", ma a mostrare esattamente dove i detective IA stanno sbagliando (specialmente nel collegare suoni e immagini in modo logico).

In Sintesi

Immagina di voler insegnare a un robot a guardare un film e discuterne con te.

Prima: Gli davi solo le foto dei personaggi.
Ora (con OmniVideoBench): Gli dai il film intero, con audio, e gli chiedi: "Perché quel personaggio ha pianto quando ha sentito quella nota di violino?".
Risultato: Il robot si blocca. Non sa ancora collegare la nota di violino (audio) alle lacrime (video) in modo intelligente.

Questo paper ci dà la mappa per insegnarglielo, rendendo l'IA più umana, più attenta e capace di capire il mondo reale, dove vedere e sentire vanno sempre di pari passo.

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

1. Il Problema: I Detective "Sordi" o "Ciechi"

2. La Soluzione: "OmniVideoBench" (La Grande Prova)

3. Cosa è Succeso? (Il Risultato Shock)

4. Perché è Importante?

In Sintesi

Titolo: OmniVideoBench: Verso la Comprensione Audio-Visiva per la Valutazione dei MLLM Omni

1. Il Problema

2. Metodologia e Costruzione del Dataset

3. Risultati Sperimentali

4. Contributi Chiave

5. Significato e Implicazioni

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

1. Il Problema: I Detective "Sordi" o "Ciechi"

2. La Soluzione: "OmniVideoBench" (La Grande Prova)

3. Cosa è Succeso? (Il Risultato Shock)

4. Perché è Importante?

In Sintesi

Titolo: OmniVideoBench: Verso la Comprensione Audio-Visiva per la Valutazione dei MLLM Omni

1. Il Problema

2. Metodologia e Costruzione del Dataset

3. Risultati Sperimentali

4. Contributi Chiave

5. Significato e Implicazioni

Articoli simili

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation

Logic-Gated Time-Shared Feedforward Networks for Alternating Finite Automata: Exact Simulation and Learnability

CLPIPS: A Personalized Metric for AI-Generated Image Similarity

Runtime Burden Allocation for Structured LLM Routing in Agentic Expert Systems: A Full-Factorial Cross-Backend Methodology

DarwinNet: An Evolutionary Network Architecture for Agent-Driven Protocol Synthesis