SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

Each language version is independently generated for its own context, not a direct translation.

SocialOmni: Der neue Test für KI-Gesprächspartner

Stell dir vor, du hast einen neuen Freund, einen Roboter, der alles sehen und hören kann. Er ist super schlau, kennt die Fakten und kann Texte schreiben. Aber wenn ihr euch unterhaltet, passiert Folgendes: Er unterbricht dich mitten im Satz, weil er denkt, du hättest geendet. Oder er schaut dich an, während eine andere Person spricht, und antwortet dieser Person, obwohl du gerade etwas gesagt hast.

Das ist das Problem, das die Forscher mit dem neuen Projekt SocialOmni aufgedeckt haben.

Hier ist die einfache Erklärung, was sie gemacht haben und warum es wichtig ist, mit ein paar anschaulichen Vergleichen:

1. Das Problem: Der "stille" Schüler vs. der "lebhafte" Gesprächspartner

Bisher wurden KI-Modelle (die sogenannten "Omni-Modelle") wie stille Schüler in einer Prüfung getestet.

Der alte Test: Der Lehrer zeigt ein Bild und eine Frage: "Wer ist auf dem Bild?" oder "Was passiert hier?". Der Schüler muss die richtige Antwort geben. Wenn die Antwort stimmt, gibt es Punkte.
Das Problem: Im echten Leben geht es nicht nur darum, die richtige Antwort zu wissen. Es geht darum, wie man sich in ein Gespräch einfügt. Wann unterbricht man? Wann wartet man? Wer spricht gerade?

Die alten Tests haben diese "soziale Intelligenz" komplett ignoriert. Es war, als würde man einen Fußballspieler nur testen, ob er den Ball ins Netz schießen kann, aber nie, ob er die Spielzüge seiner Mitspieler versteht oder fair spielt.

2. Die Lösung: SocialOmni – Der "Sozial-Check"

Die Forscher haben einen neuen Test entwickelt, den sie SocialOmni nennen. Sie vergleichen das KI-Gespräch mit einem Tango-Tanz. Ein guter Tanzpartner muss drei Dinge perfekt beherrschen:

WER spricht? (Who)
- Die Analogie: Stell dir vor, du tanzst mit drei Paaren gleichzeitig. Du musst genau wissen, wer gerade mit dir tanzt und wer nicht, auch wenn die Musik laut ist und die Lichter flackern.
- Der Test: Die KI muss erkennen, wer im Video gerade spricht, selbst wenn das Bild und der Ton nicht übereinstimmen (z. B. wenn jemand im Bild den Mund bewegt, aber eine andere Stimme zu hören ist).
WANN sprechen? (When)
- Die Analogie: Beim Tanzen gibt es den perfekten Moment, um den nächsten Schritt zu machen. Wenn du zu früh kommst, stolperst du. Wenn du zu spät kommst, ist der Moment vorbei.
- Der Test: Die KI muss entscheiden: "Soll ich jetzt etwas sagen oder warten?" Sie darf nicht unterbrechen, wenn der andere noch redet, aber auch nicht zu lange warten, bis das Gespräch tot ist.
WIE sprechen? (How)
- Die Analogie: Wenn du den Schritt machst, muss er zur Musik und zum Gefühl des Partners passen. Ein freudiger Tanzschritt passt nicht zu trauriger Musik.
- Der Test: Wenn die KI spricht, muss ihr Satz zum Gespräch passen. Sie darf nicht einfach irgendeinen Fakt hinschreiben, sondern muss emotional und inhaltlich "im Takt" sein.

3. Was haben sie herausgefunden?

Die Forscher haben 12 der besten KI-Modelle (wie GPT-4o, Gemini, Qwen) durch diesen Test geschickt. Das Ergebnis war überraschend:

Kein Superheld: Kein einzelnes Modell war in allen drei Bereichen gut. Manche waren super im "Wer spricht?" (sie kannten die Fakten), aber total ungeschickt beim "Wann?" (sie unterbrachen ständig). Andere waren höflich, sagten aber Unsinn.
Der "Hör-Verstehen"-Trugschluss: Ein Modell konnte perfekt erkennen, wer sprach (hohe Punktzahl bei "Wer"), aber trotzdem völlig unpassende Sätze sagen. Das zeigt: Verstehen allein reicht nicht für gutes Reden. Man muss auch das Timing und den sozialen Kontext verstehen.
Die "Lücken" im Tanz: Viele KIs unterbrachen zu früh, weil sie nur auf kurze Pausen im Ton reagierten, anstatt zu hören, ob der Gedanke wirklich zu Ende war. Andere warteten so lange, dass das Gespräch langweilig wurde.

4. Warum ist das wichtig?

Stell dir vor, du willst einen persönlichen Assistenten, der dir hilft, während du kochst, telefonierst und gleichzeitig den Fernseher im Hintergrund hast.

Wenn der Assistent nicht weiß, wer gerade spricht, wird er dich verwirren.
Wenn er nicht weiß, wann er eingreifen darf, wird er nervig.
Wenn er nicht weiß, wie er antworten soll, wirkt er wie ein Roboter, der keine Gefühle hat.

SocialOmni ist wie ein neuer Fahrerschein für KIs. Er prüft nicht nur, ob sie die Verkehrsregeln auswendig lernen können (Faktenwissen), sondern ob sie auch sicher und höflich im echten Verkehr (dem Gespräch) fahren können.

Fazit:
Die KI-Welt hat bisher nur auf das "Gehirn" der Modelle geschaut. SocialOmni zeigt uns, dass wir jetzt auch auf das "Herz" und den "Rhythmus" achten müssen, wenn wir KIs bauen wollen, die wirklich wie menschliche Gesprächspartner funktionieren. Es ist der erste Schritt von einem "wissenden Roboter" zu einem "sozialen Gesprächspartner".

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Omni-modale Large Language Models (OLMs) integrieren Audio, Vision und Text nativ, um Echtzeit-Multimodal-Kommunikation zu ermöglichen. Bisherige Benchmarks für OLMs konzentrieren sich jedoch fast ausschließlich auf statische, korrektheitsbasierte Aufgaben (z. B. Beantwortung von Fragen zu vorab segmentierten Clips). Es fehlt eine kritische Bewertung der sozialen Interaktivität: Die Fähigkeit eines Modells, dynamische Dialoghinweise zu verarbeiten, den richtigen Zeitpunkt für einen Gesprächsbeitrag zu bestimmen und sozial kohärente Unterbrechungen oder Antworten zu generieren.

Das Paper identifiziert drei zentrale Lücken:

Fehlende Bewertung von „Wer, Wann, Wie": Wer spricht gerade? Wann sollte das Modell unterbrechen? Wie sollte die Unterbrechung formuliert sein?
Decoupling von Wahrnehmung und Handlung: Hohe Genauigkeit bei der Sprechererkennung garantiert nicht, dass das Modell sozial angemessen reagiert.
Mangelnde Robustheit: Bestehende Tests prüfen selten, wie Modelle mit inkonsistenten audiovisuellen Signalen (z. B. wenn das Bild eine andere Person zeigt als die Stimme) umgehen.

2. Methodik: SocialOmni Benchmark

Die Autoren stellen SocialOmni vor, einen umfassenden Benchmark, der soziale Interaktivität über drei Kern-Dimensionen operationalisiert:

A. Datenaufbau

Umfang: 2.209 Videosegmente aus 15 Dialog-Kategorien (z. B. Unterhaltung, Bildung, Alltag) in vier Domänen.
Aufteilung:
- Wahrnehmung (Perception): 2.000 Multiple-Choice-Fragen zur Sprecheridentifikation.
- Generierung (Generation): 209 offene Interaktionsaufgaben zur Entscheidungsfindung und Antwortgenerierung.
Robustheits-Test: Ein Teil der Daten enthält absichtlich audio-visuelle Inkonsistenzen (z. B. Lippenbewegung passt nicht zur Stimme oder die Kamera zeigt eine andere Person als den Sprecher), um die Stabilität der Modelle zu testen.

B. Aufgaben-Design (Die drei Dimensionen)

Who (Wer): Identifikation des aktiven Sprechers zu einem bestimmten Zeitpunkt $t$ durch Integration visueller Hinweise, akustischer Merkmale und Kontext. Dies wird als Klassifikationsaufgabe mit Distraktoren (falscher Sprecher, falscher Inhalt, etc.) getestet.
When (Wann): Bestimmung des optimalen Zeitpunkts für einen Gesprächsbeitrag (Turn-Taking). Das Modell muss entscheiden, ob es zu einem bestimmten Zeitpunkt sprechen sollte.
How (Wie): Generierung einer kontextangemessenen Antwort, die den Gesprächsfluss und die Absicht des Sprechers respektiert.

C. Evaluierungs-Metriken

Für „Who": Top-1-Genauigkeit und Macro-F1 (um Verzerrungen bei der Antwortposition zu vermeiden). Zusätzlich wird die Konsistenz-Lücke ( $\Delta_{cons}$ ) berechnet, um den Leistungsabfall bei inkonsistenten Daten zu messen.
Für „When": Analyse des Antwort-Offsets ( $\Delta\tau$ ) im Vergleich zum Ground-Truth-Zeitpunkt. Kategorien: Interrupted (zu früh), Perfect (richtig), Delayed (zu spät).
Für „How": Bewertung durch LLM-as-a-Judge (GPT-4o, Gemini 2.5 Pro, Qwen3-Omni) auf einer Skala von 25–100 Punkten, basierend auf Kohärenz, Angemessenheit und Kontextbezug.

3. Key Contributions

Neuer Benchmark (SocialOmni): Der erste Benchmark, der die integrierte Triade aus Sprecherattribution, Turn-Eintrittsentscheidung und Unterbrechungsrealisierung in einem einzigen Rahmenwerk bewertet.
Dual-Axis Evaluierungs-Protokoll: Eine Methode, die die Diagnose der Wahrnehmung (Frame-Level) mit der Bewertung der Generierung (Multi-Judge) koppelt, um das Entkopplungsphänomen zwischen Verstehen und Handeln zu analysieren.
Robustheits-Proben: Systematische Tests unter kontrollierten audiovisuellen Konfliktszenarien, um die Generalisierungsfähigkeit von OLMs zu quantifizieren.

4. Ergebnisse

Die Autoren evaluierten 12 führende OLMs (inkl. GPT-4o, Gemini 3, Qwen3-Omni, VITA-1.5). Die Ergebnisse zeigen:

Kein dominantes Modell: Kein Modell ist in allen drei Dimensionen („Who", „When", „How") führend.
- Qwen3-Omni führt bei „Who" (69,25 %).
- Gemini 3 Pro Preview führt bei „When" (67,31 %).
- Gemini 2.5 Flash führt bei „How" (85,08 Punkte).
Starke Entkopplung: Es gibt eine signifikante negative Korrelation zwischen Wahrnehmungsgenauigkeit und Generierungsqualität. Modelle, die Sprecher sehr gut identifizieren, produzieren oft unnatürliche oder unpassende Unterbrechungen.
Open-Source vs. Commercial: Kommerzielle Modelle (Gemini, GPT) schneiden bei der Generierungsqualität („How") deutlich besser ab als Open-Source-Modelle (bis zu 19 Punkte Unterschied).
Robustheitsprobleme: Viele Modelle zeigen einen starken Leistungsabfall bei inkonsistenten Daten (z. B. wenn das Bild nicht zur Stimme passt), was auf eine mangelnde tiefgreifende audiovisuelle Bindung hindeutet.
Fehlermuster:
- Perception: Modelle verlassen sich oft auf saliente Gesichter statt auf die tatsächliche Sprachquelle (Saliency-Bias).
- Timing: Entweder zu aggressiv (Unterbrechung bei kurzen Pausen) oder zu vorsichtig (Verpassen des Zeitfensters).
- Generation: Auch bei korrektem Timing sind Antworten oft generisch oder emotional nicht passend.

5. Bedeutung und Fazit

Das Paper zeigt, dass reine „Verstehens-Metriken" (Accuracy bei Fragen) unzureichend sind, um die soziale Kompetenz von Omni-Modellen zu charakterisieren. Ein Modell kann Fakten korrekt wiedergeben, aber im Dialog sozial unangemessen handeln.

Schlussfolgerungen:

Die Entwicklung zukünftiger OLMs muss sich von reinen Wahrnehmungs-Optimierungen hin zu einer integrierten Wahrnehmungs-Interaktions-Architektur bewegen.
Benchmarks müssen dynamische, zeitkritische Aspekte (Turn-Taking) und Robustheit gegenüber multimodalen Konflikten einbeziehen.
SocialOmni liefert actionable Signale, um die Lücke zwischen audiovisueller Wahrnehmung und sozialer Interaktion zu schließen, was für den Einsatz von KI-Assistenten in realen, mehrteiligen Dialogen essenziell ist.

Zusammenfassend etabliert SocialOmni einen neuen Standard für die Bewertung von KI-Systemen, die nicht nur „wissen", sondern auch „sozial interagieren" sollen.

SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

1. Das Problem: Der "stille" Schüler vs. der "lebhafte" Gesprächspartner

2. Die Lösung: SocialOmni – Der "Sozial-Check"

3. Was haben sie herausgefunden?

4. Warum ist das wichtig?

1. Problemstellung

2. Methodik: SocialOmni Benchmark

A. Datenaufbau

B. Aufgaben-Design (Die drei Dimensionen)

C. Evaluierungs-Metriken

3. Key Contributions

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Exploration and Exploitation Errors Are Measurable for Language Model Agents

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

WebXSkill: Skill Learning for Autonomous Web Agents