SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

Each language version is independently generated for its own context, not a direct translation.

SocialOmni: De "Sociale Dans" voor AI

Stel je voor dat je op een drukke feestje bent. Iedereen praat tegelijk, er wordt gelachen, iemand schreeuwt iets over de muziek en een ander fluistert een grapje. Om hier goed mee te doen, moet je niet alleen wat er gezegd wordt begrijpen, maar ook drie andere dingen:

Wie heeft het net gezegd? (Is dat de man links of de vrouw rechts?)
Wanneer moet jij iets zeggen? (Moet je nu onderbreken, of wachten tot ze klaar is?)
Hoe zeg je het? (Zeg je iets grappigs, serieus of steunend, passend bij de sfeer?)

Dit is precies wat mensen goed kunnen, maar waar kunstmatige intelligentie (AI) nog veel moeite mee heeft.

Het Probleem: De "Stomme" AI

Tot nu toe hebben we AI getest met vragen als: "Wat zie je op deze video?" of "Wat is het antwoord op deze vraag?". Het is alsof we een dansleraar testen door te vragen of hij de stappen uit zijn hoofd kent, maar we laten hem nooit echt dansen met een partner.

De huidige AI-modellen (zogenoemde "Omni-modellen") zijn slim in het beantwoorden van vragen, maar ze zijn vaak slecht in het meedoen aan een gesprek. Ze kunnen de woorden horen, maar ze snappen niet wanneer ze moeten stoppen met praten, wie er precies aan het woord is als er drie mensen tegelijk in beeld zijn, of hoe ze een gesprek natuurlijk moeten voortzetten.

De Oplossing: SocialOmni

De auteurs van dit paper hebben een nieuwe test ontwikkeld, genaamd SocialOmni. Ze noemen het een "benchmark", maar je kunt het zien als een sociale danswedstrijd voor AI.

Ze hebben 12 van de slimste AI-modellen ter wereld uitgedaagd om mee te doen aan dit feestje. De test bestaat uit drie hoofddelen:

De "Wie"-test (Oren en Ogen):
De AI moet kijken naar een video met meerdere mensen en horen wie er praat.
- De valkuil: Soms is het gezicht van de spreker niet te zien, of praat iemand terwijl de camera op een ander gericht is. De AI moet dan slim zijn en zeggen: "Ho, dat is niet de persoon die ik zie, maar degene die ik hoor!"
- Resultaat: Veel AI's kijken alleen naar het gezicht dat het grootst in beeld is en vergeten te luisteren.
De "Wanneer"-test (Het Dansmoment):
De AI moet beslissen: "Moet ik nu iets zeggen?"
- De valkuil: Als je te vroeg praat, onderbreek je iemand (onbeleefd). Als je te laat praat, is het gesprek voorbij (verlegen).
- Resultaat: Sommige AI's zijn te agressief (ze onderbreken constant), terwijl andere te bang zijn (ze praten nooit). De beste modellen vinden het perfecte moment.
De "Hoe"-test (De Dansstijl):
Als de AI mag praten, moet het iets zeggen dat past bij de situatie.
- De valkuil: Als iemand verdrietig is, moet je niet een grapje maken. Als iemand boos is, moet je niet lachen.
- Resultaat: Veel AI's zeggen wel iets, maar het klinkt als een robot die een script leest. Het mist de "menselijke" connectie.

De Verbluffende Bevindingen

Toen ze de resultaten keken, ontdekten ze iets verrassends:

Slim zijn in kijken, betekent niet slim zijn in praten.
Een AI die perfect kan zeggen wie er praat (de "Wie"-test), kan vaak heel slecht zijn in het kiezen van het juiste moment om te praten (de "Wanneer"-test). Het is alsof iemand die perfect kan dansen, maar totaal geen ritme heeft voor de muziek.
De "Onzichtbare" fouten.
Als je een AI alleen test op of het antwoord klopt, zie je niet dat het gesprek onnatuurlijk is. SocialOmni laat zien dat een AI een gesprek kan "winnen" door het juiste antwoord te geven, maar het gesprek toch kan verpesten door op het verkeerde moment te praten.

Waarom is dit belangrijk?

Voor de toekomst willen we AI's die niet alleen antwoorden geven, maar die echt kunnen meedoen aan een gesprek. Denk aan een virtuele assistent die je helpt terwijl je kookt, of een robot die met kinderen kan spelen. Die moeten weten wanneer ze moeten luisteren, wie ze moeten aanspreken, en hoe ze zich moeten gedragen.

Kortom: SocialOmni is de eerste grote test die kijkt of AI's niet alleen "slim" zijn, maar ook "sociaal" kunnen zijn. Het leert ons dat voor een echt goed gesprek, je niet alleen je hersenen, maar ook je gevoel voor timing en menselijke interactie nodig hebt. En tot nu toe, zijn de AI's daar nog niet helemaal klaar voor.

SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

Het Probleem: De "Stomme" AI

De Oplossing: SocialOmni

De Verbluffende Bevindingen

Waarom is dit belangrijk?

Probleemstelling

Methodologie: SocialOmni Benchmark

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

Het Probleem: De "Stomme" AI

De Oplossing: SocialOmni

De Verbluffende Bevindingen

Waarom is dit belangrijk?

Probleemstelling

Methodologie: SocialOmni Benchmark

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Exploration and Exploitation Errors Are Measurable for Language Model Agents

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

WebXSkill: Skill Learning for Autonomous Web Agents