SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

Das Paper stellt SocialOmni vor, ein umfassendes Benchmark-Tool, das die soziale Interaktivität von Omni-Modellen durch die Bewertung von Sprecheridentifikation, Unterbrechungstiming und der Generierung natürlicher Unterbrechungen in dynamischen Audio-Visuellen Dialogen evaluiert und dabei eine signifikante Diskrepanz zwischen reiner Wahrnehmungsgenauigkeit und kontextangemessener Gesprächskompetenz aufdeckt.

Tianyu Xie, Jinfa Huang, Yuexiao Ma, Rongfang Luo, Yan Yang, Wang Chen, Yuhui Zeng, Ruize Fang, Yixuan Zou, Xiawu Zheng, Jiebo Luo, Rongrong Ji

Veröffentlicht 2026-03-18
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

SocialOmni: Der neue Test für KI-Gesprächspartner

Stell dir vor, du hast einen neuen Freund, einen Roboter, der alles sehen und hören kann. Er ist super schlau, kennt die Fakten und kann Texte schreiben. Aber wenn ihr euch unterhaltet, passiert Folgendes: Er unterbricht dich mitten im Satz, weil er denkt, du hättest geendet. Oder er schaut dich an, während eine andere Person spricht, und antwortet dieser Person, obwohl du gerade etwas gesagt hast.

Das ist das Problem, das die Forscher mit dem neuen Projekt SocialOmni aufgedeckt haben.

Hier ist die einfache Erklärung, was sie gemacht haben und warum es wichtig ist, mit ein paar anschaulichen Vergleichen:

1. Das Problem: Der "stille" Schüler vs. der "lebhafte" Gesprächspartner

Bisher wurden KI-Modelle (die sogenannten "Omni-Modelle") wie stille Schüler in einer Prüfung getestet.

  • Der alte Test: Der Lehrer zeigt ein Bild und eine Frage: "Wer ist auf dem Bild?" oder "Was passiert hier?". Der Schüler muss die richtige Antwort geben. Wenn die Antwort stimmt, gibt es Punkte.
  • Das Problem: Im echten Leben geht es nicht nur darum, die richtige Antwort zu wissen. Es geht darum, wie man sich in ein Gespräch einfügt. Wann unterbricht man? Wann wartet man? Wer spricht gerade?

Die alten Tests haben diese "soziale Intelligenz" komplett ignoriert. Es war, als würde man einen Fußballspieler nur testen, ob er den Ball ins Netz schießen kann, aber nie, ob er die Spielzüge seiner Mitspieler versteht oder fair spielt.

2. Die Lösung: SocialOmni – Der "Sozial-Check"

Die Forscher haben einen neuen Test entwickelt, den sie SocialOmni nennen. Sie vergleichen das KI-Gespräch mit einem Tango-Tanz. Ein guter Tanzpartner muss drei Dinge perfekt beherrschen:

  • WER spricht? (Who)

    • Die Analogie: Stell dir vor, du tanzst mit drei Paaren gleichzeitig. Du musst genau wissen, wer gerade mit dir tanzt und wer nicht, auch wenn die Musik laut ist und die Lichter flackern.
    • Der Test: Die KI muss erkennen, wer im Video gerade spricht, selbst wenn das Bild und der Ton nicht übereinstimmen (z. B. wenn jemand im Bild den Mund bewegt, aber eine andere Stimme zu hören ist).
  • WANN sprechen? (When)

    • Die Analogie: Beim Tanzen gibt es den perfekten Moment, um den nächsten Schritt zu machen. Wenn du zu früh kommst, stolperst du. Wenn du zu spät kommst, ist der Moment vorbei.
    • Der Test: Die KI muss entscheiden: "Soll ich jetzt etwas sagen oder warten?" Sie darf nicht unterbrechen, wenn der andere noch redet, aber auch nicht zu lange warten, bis das Gespräch tot ist.
  • WIE sprechen? (How)

    • Die Analogie: Wenn du den Schritt machst, muss er zur Musik und zum Gefühl des Partners passen. Ein freudiger Tanzschritt passt nicht zu trauriger Musik.
    • Der Test: Wenn die KI spricht, muss ihr Satz zum Gespräch passen. Sie darf nicht einfach irgendeinen Fakt hinschreiben, sondern muss emotional und inhaltlich "im Takt" sein.

3. Was haben sie herausgefunden?

Die Forscher haben 12 der besten KI-Modelle (wie GPT-4o, Gemini, Qwen) durch diesen Test geschickt. Das Ergebnis war überraschend:

  • Kein Superheld: Kein einzelnes Modell war in allen drei Bereichen gut. Manche waren super im "Wer spricht?" (sie kannten die Fakten), aber total ungeschickt beim "Wann?" (sie unterbrachen ständig). Andere waren höflich, sagten aber Unsinn.
  • Der "Hör-Verstehen"-Trugschluss: Ein Modell konnte perfekt erkennen, wer sprach (hohe Punktzahl bei "Wer"), aber trotzdem völlig unpassende Sätze sagen. Das zeigt: Verstehen allein reicht nicht für gutes Reden. Man muss auch das Timing und den sozialen Kontext verstehen.
  • Die "Lücken" im Tanz: Viele KIs unterbrachen zu früh, weil sie nur auf kurze Pausen im Ton reagierten, anstatt zu hören, ob der Gedanke wirklich zu Ende war. Andere warteten so lange, dass das Gespräch langweilig wurde.

4. Warum ist das wichtig?

Stell dir vor, du willst einen persönlichen Assistenten, der dir hilft, während du kochst, telefonierst und gleichzeitig den Fernseher im Hintergrund hast.

  • Wenn der Assistent nicht weiß, wer gerade spricht, wird er dich verwirren.
  • Wenn er nicht weiß, wann er eingreifen darf, wird er nervig.
  • Wenn er nicht weiß, wie er antworten soll, wirkt er wie ein Roboter, der keine Gefühle hat.

SocialOmni ist wie ein neuer Fahrerschein für KIs. Er prüft nicht nur, ob sie die Verkehrsregeln auswendig lernen können (Faktenwissen), sondern ob sie auch sicher und höflich im echten Verkehr (dem Gespräch) fahren können.

Fazit:
Die KI-Welt hat bisher nur auf das "Gehirn" der Modelle geschaut. SocialOmni zeigt uns, dass wir jetzt auch auf das "Herz" und den "Rhythmus" achten müssen, wenn wir KIs bauen wollen, die wirklich wie menschliche Gesprächspartner funktionieren. Es ist der erste Schritt von einem "wissenden Roboter" zu einem "sozialen Gesprächspartner".

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →