Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities

Each language version is independently generated for its own context, not a direct translation.

🎬 Daily-Omni: De "Synchronisatie-Test" voor AI's

Stel je voor dat je een film kijkt. Je ziet iemand rennen en je hoort zware voetstappen. Je hersenen koppelen die twee dingen direct aan elkaar: die voetstappen horen bij die rennende persoon op dat exacte moment.

Voor kunstmatige intelligentie (AI) is dit echter nog steeds een enorme uitdaging. Veel moderne AI's zijn goed in kijken (visueel) of goed in luisteren (auditief), maar ze hebben moeite om die twee werelden op hetzelfde moment te laten samenkomen. Ze zien de film en horen de geluiden, maar ze "voelen" niet dat ze bij elkaar horen.

De auteurs van dit paper (van de Universiteit van Fudan) hebben daarom Daily-Omni bedacht. Het is een nieuwe test voor AI's, speciaal ontworpen om te kijken of ze echt begrijpen wat er in een video gebeurt, door te kijken én te luisteren.

1. Het Probleem: De "Doofstomme" AI

Tot nu toe zijn veel AI's als een blinde muzikant of een doof schilder.

Sommige AI's kijken alleen naar het beeld (zoals een schilder die geen geluid hoort).
Andere AI's luisteren alleen naar de audio (zoals een muzikant die blind is).
De nieuwste AI's proberen beide te doen, maar vaak kijken ze naar het beeld en luisteren ze naar het geluid alsof het twee losse dingen zijn. Ze missen de synchronisatie.

Vergelijking: Stel je voor dat je een orkest hebt waar de violist en de drummer niet op elkaar letten. De violist speelt een langzaam liedje, terwijl de drummer razendsnel trommelt. Een mens zou zeggen: "Dat klopt niet!" Maar een AI zonder goede synchronisatie zou denken: "Nee, dit is gewoon muziek en drummen, alles is prima."

2. De Oplossing: De Daily-Omni Test

De onderzoekers hebben een nieuwe testbank gemaakt met 684 echte video's uit het dagelijks leven (geen studio-opnames, maar echte situaties) en 1.197 vragen.

Deze vragen dwingen de AI om te denken als een detective die zowel oog als oor gebruikt:

Voorbeeld 1: "Wie zegt 'hallo' terwijl hij zwaait?" (De AI moet het geluid van de stem koppelen aan de beweging van de hand op dat specifieke moment).
Voorbeeld 2: "Wat hoor je in het begin van de video, en wat verandert er later?" (De AI moet de tijdlijn volgen).

Het is alsof je een AI een film geeft en vraagt: "Vertel me precies wat er gebeurt, maar let op: als de deur dichtslaat, moet je ook horen wanneer die dichtslaat, niet alleen dat hij dichtgaat."

3. Hoe hebben ze dit gemaakt? (De "AI-Fabriek")

Het maken van zo'n test is moeilijk. Mensen kunnen niet duizenden video's per seconde bekijken en annoteren. Daarom hebben ze een semi-automatische fabriek gebouwd:

Snijden: Ze knippen lange video's in stukjes van 30 of 60 seconden.
AI-Hulp: Ze gebruiken andere slimme AI's om eerst te beschrijven wat ze zien en horen.
De "Redacteur": Een nog slimmere AI (een "Redacteur") kijkt naar die beschrijvingen en zegt: "Wacht, hier is een fout. Je zegt dat de deur dichtslaat, maar in de video zie je dat het een raam is. Pas het aan!"
De "Vervalser": Ze maken vragen die zo slim zijn dat een AI die alleen tekst leest (zonder video of geluid) ze niet kan beantwoorden. Als de AI het antwoord al weet door alleen te lezen, is de vraag te makkelijk en wordt hij weggegooid.

Het resultaat is een test die echt moeilijk is en waar je voor moet kijken én luisteren.

4. De Resultaten: De "Grote Teleurstelling"

Toen ze de beste AI's van vandaag de dag (zoals de nieuwste versies van Qwen, Gemini en andere modellen) op deze test zetten, gebeurde er iets verrassends:

De "Alles-in-één" AI's: De meest geavanceerde AI's, die zowel video als audio kunnen verwerken, bleven vaak steken. Ze haalden vaak slechtere scores dan je zou verwachten.
De "Simpele" AI: De onderzoekers bouwden een simpele, losse AI (de "Daily-Omni Agent"). Deze AI deed geen ingewikkelde magie, maar deed iets heel slim: hij splitste de video en het geluid op in kleine stukjes en zocht specifiek naar momenten waar iets gebeurde.
- Vergelijking: Stel je voor dat je een zoektocht doet in een groot huis. De geavanceerde AI loopt door het hele huis en probeert alles in één keer te onthouden. De simpele AI neemt een lijstje, loopt kamer voor kamer, en zegt: "Hier is de sleutel."
- Het resultaat: Deze simpele, gestructureerde AI deed het soms beter dan de super-slimme, dure AI's.

5. Wat betekent dit voor de toekomst?

De boodschap van dit paper is duidelijk: AI's zijn nog niet goed in "synchroniseren".

Ze kunnen zien en horen, maar ze hebben moeite om die twee dingen op het exacte juiste tijdstip aan elkaar te koppelen. Het is alsof ze een film kijken met een geluidsvertraging van een seconde; ze zien de actie, maar horen het geluid te laat, waardoor ze de betekenis missen.

Conclusie in één zin:
Daily-Omni is een nieuwe, strenge test die laat zien dat AI's nog moeten leren om niet alleen te kijken en te luisteren, maar om die twee zintuigen perfect op elkaar af te stemmen, net zoals wij mensen dat doen. Zolang ze dat niet kunnen, zullen ze moeite hebben met het begrijpen van de echte, complexe wereld om ons heen.

Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities

🎬 Daily-Omni: De "Synchronisatie-Test" voor AI's

1. Het Probleem: De "Doofstomme" AI

2. De Oplossing: De Daily-Omni Test

3. Hoe hebben ze dit gemaakt? (De "AI-Fabriek")

4. De Resultaten: De "Grote Teleurstelling"

5. Wat betekent dit voor de toekomst?

Probleemstelling

Methodologie: Daily-Omni

Belangrijkste Resultaten

Bijdragen en Significantie

Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities

🎬 Daily-Omni: De "Synchronisatie-Test" voor AI's

1. Het Probleem: De "Doofstomme" AI

2. De Oplossing: De Daily-Omni Test

3. Hoe hebben ze dit gemaakt? (De "AI-Fabriek")

4. De Resultaten: De "Grote Teleurstelling"

5. Wat betekent dit voor de toekomst?

Probleemstelling

Methodologie: Daily-Omni

Belangrijkste Resultaten

Bijdragen en Significantie

Meer zoals dit

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem