Social Norm Reasoning in Multimodal Language Models: An Evaluation

Diese Studie bewertet die Fähigkeit von fünf multimodalen Sprachmodellen, soziale Normen in Texten und Bildern zu erkennen und zu schlussfolgern, wobei sich zeigt, dass GPT-4o die beste Leistung erbringt, alle Modelle jedoch bei komplexen Normen Schwierigkeiten haben und die Bildanalyse im Vergleich zum Text noch unzureichend ist.

Oishik Chowdhury, Anushka Debnath, Bastin Tony Roy Savarimuthu

Veröffentlicht 2026-03-05
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie bringen einem neuen, sehr klugen Roboter bei, wie man sich in einer Menschenmenge benimmt. Der Roboter muss nicht nur wissen, dass man „Bitte" und „Danke" sagt, sondern auch verstehen, wann es unhöflich ist, jemandem den Platz im Bus zu nehmen oder warum man nicht einfach mitten auf dem Gehweg stehen bleiben darf.

Diese Forschungsarbeit von Oishik Chowdhury und seinem Team aus Neuseeland fragt im Grunde: Können die neuesten, super-intelligenten KI-Modelle (die sogenannten Multimodalen Sprachmodelle) diese sozialen Regeln verstehen?

Hier ist die Geschichte der Studie, einfach erklärt:

1. Das Problem: Alte Regeln vs. Neue Intelligenz

Früher haben Wissenschaftler versucht, Robotern soziale Regeln beizubringen, indem sie ihnen wie einem strengen Mathematiklehrer formale Logik-Regeln eingetrichtert haben. Das ist wie ein Kochbuch, in dem steht: „Wenn Person A in Raum B geht, muss Person C warten." Das funktioniert gut in einfachen, vorhersehbaren Welten, aber im echten Leben ist es chaotisch.

Heute gibt es KI-Modelle (wie GPT-4o oder Qwen), die wie ein sehr gut lesender und sehender Mensch sind. Sie können Texte lesen und Bilder sehen. Die Forscher wollten wissen: Können diese KI-Modelle soziale Regeln „fühlen" und verstehen, ohne dass man ihnen jede einzelne Regel mühsam einprogrammiert?

2. Der Test: Eine Prüfung für Roboter-Geister

Die Forscher haben fünf dieser KI-Modelle einem großen Test unterzogen. Stellen Sie sich das wie eine Schulprüfung vor, bei der die Schüler (die KIs) 60 verschiedene Geschichten lösen mussten:

  • 30 Geschichten als Text: Wie eine kurze Geschichte in einem Buch.
  • 30 Geschichten als Bilder: Wie ein Comic-Strip mit vier Bildern, der dieselbe Geschichte erzählt.

Die Geschichten handelten von alltäglichen Dingen:

  • Klopfen, bevor man eine Tür öffnet.
  • Nichts in den Park werfen.
  • Sich in einer Schlange anstellen.
  • Pünktlich sein.
  • Älteren Menschen den Platz anbieten.

Jede Geschichte hatte verschiedene Varianten:

  • Jemand hält sich an die Regel und bekommt Lob.
  • Jemand hält sich nicht an die Regel und wird ermahnt.
  • Jemand wird bestraft, weil er nicht bestraft hat (das ist eine sehr knifflige „Meta-Regel").

Die KI musste dann auf acht Fragen antworten: „Wer hat die Regel gebrochen?", „Wurde er gelobt?", „Wurde er bestraft?"

3. Die Ergebnisse: Text ist der König, Bilder sind die Herausforderung

Hier kommt das Spannende:

  • Text ist wie ein offenes Buch: Wenn die KI die Geschichte als Text las, waren die Ergebnisse fast perfekt. Die Modelle verstanden die Nuancen, das Lob und die Strafen hervorragend. Es war, als würde ein sehr gut lesender Mensch eine Geschichte hören.
  • Bilder sind wie ein Rätsel: Als die KI nur die Comic-Bilder sehen durfte, wurde es schwieriger. Die Ergebnisse waren immer noch gut, aber nicht so sicher wie beim Text. Es ist, als würde man versuchen, eine Geschichte nur aus einem Gemälde zu erraten – man sieht die Farben, aber die genauen Gedanken der Figuren sind schwerer zu lesen.

Der Gewinner:
Das Modell GPT-4o war der Klassenbeste. Es hat sowohl bei Texten als auch bei Bildern die besten Noten geschrieben.
Der Qwen-2.5VL war der zweitbeste – und das ist besonders cool, weil er kostenlos nutzbar ist. Das bedeutet, auch Forscher mit kleinem Budget können damit gute soziale Roboter bauen.
Das Modell LLaMa-4 Maverick hatte die meisten Schwierigkeiten, besonders bei den Bildern.

4. Wo haben sie sich geirrt? (Die „Meta-Regeln")

Die KI hatte am meisten Mühe mit den kompliziertesten Regeln, den sogenannten „Meta-Normen".

  • Beispiel: Nicht nur jemanden zu bestrafen, der die Regel bricht, sondern auch jemanden zu bestrafen, der zuschaut und nichts tut.
    Das war für die KIs wie ein sehr schwieriges Schachspiel. Sie verstanden die einfache Regel („Nicht lügen"), aber die zweite Ebene („Warum schweigst du, wenn jemand lügt?") war zu komplex.

5. Warum ist das wichtig?

Stellen Sie sich einen sozialen Roboter vor, der in einem Pflegeheim arbeitet oder als Assistenzsystem in einer Stadt.

  • Wenn er nur auf starre Regeln programmiert ist, wird er verwirrt, wenn die Situation sich ändert.
  • Wenn er aber wie diese getesteten KIs funktioniert, kann er sehen und hören, was passiert, und intuitiv verstehen: „Oh, dieser alte Herr braucht einen Platz, und dieser Junge, der ihn nicht anbietet, macht etwas Falsches."

Fazit in einem Satz

Die Studie zeigt, dass unsere modernen KI-Modelle bereits sehr gut darin sind, soziale Regeln zu verstehen, besonders wenn sie Texte lesen können. Sie sind wie sehr kluge Schüler, die beim Lesen von Büchern glänzen, aber beim „Lesen" von Bildern noch etwas mehr Übung brauchen – besonders wenn es um die komplizierten, unausgesprochenen Regeln des menschlichen Miteinanders geht. Aber der Weg zu wirklich sozial intelligenten Robotern sieht vielversprechend aus!