Social Norm Reasoning in Multimodal Language Models: An Evaluation

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie bringen einem neuen, sehr klugen Roboter bei, wie man sich in einer Menschenmenge benimmt. Der Roboter muss nicht nur wissen, dass man „Bitte" und „Danke" sagt, sondern auch verstehen, wann es unhöflich ist, jemandem den Platz im Bus zu nehmen oder warum man nicht einfach mitten auf dem Gehweg stehen bleiben darf.

Diese Forschungsarbeit von Oishik Chowdhury und seinem Team aus Neuseeland fragt im Grunde: Können die neuesten, super-intelligenten KI-Modelle (die sogenannten Multimodalen Sprachmodelle) diese sozialen Regeln verstehen?

Hier ist die Geschichte der Studie, einfach erklärt:

1. Das Problem: Alte Regeln vs. Neue Intelligenz

Früher haben Wissenschaftler versucht, Robotern soziale Regeln beizubringen, indem sie ihnen wie einem strengen Mathematiklehrer formale Logik-Regeln eingetrichtert haben. Das ist wie ein Kochbuch, in dem steht: „Wenn Person A in Raum B geht, muss Person C warten." Das funktioniert gut in einfachen, vorhersehbaren Welten, aber im echten Leben ist es chaotisch.

Heute gibt es KI-Modelle (wie GPT-4o oder Qwen), die wie ein sehr gut lesender und sehender Mensch sind. Sie können Texte lesen und Bilder sehen. Die Forscher wollten wissen: Können diese KI-Modelle soziale Regeln „fühlen" und verstehen, ohne dass man ihnen jede einzelne Regel mühsam einprogrammiert?

2. Der Test: Eine Prüfung für Roboter-Geister

Die Forscher haben fünf dieser KI-Modelle einem großen Test unterzogen. Stellen Sie sich das wie eine Schulprüfung vor, bei der die Schüler (die KIs) 60 verschiedene Geschichten lösen mussten:

30 Geschichten als Text: Wie eine kurze Geschichte in einem Buch.
30 Geschichten als Bilder: Wie ein Comic-Strip mit vier Bildern, der dieselbe Geschichte erzählt.

Die Geschichten handelten von alltäglichen Dingen:

Klopfen, bevor man eine Tür öffnet.
Nichts in den Park werfen.
Sich in einer Schlange anstellen.
Pünktlich sein.
Älteren Menschen den Platz anbieten.

Jede Geschichte hatte verschiedene Varianten:

Jemand hält sich an die Regel und bekommt Lob.
Jemand hält sich nicht an die Regel und wird ermahnt.
Jemand wird bestraft, weil er nicht bestraft hat (das ist eine sehr knifflige „Meta-Regel").

Die KI musste dann auf acht Fragen antworten: „Wer hat die Regel gebrochen?", „Wurde er gelobt?", „Wurde er bestraft?"

3. Die Ergebnisse: Text ist der König, Bilder sind die Herausforderung

Hier kommt das Spannende:

Text ist wie ein offenes Buch: Wenn die KI die Geschichte als Text las, waren die Ergebnisse fast perfekt. Die Modelle verstanden die Nuancen, das Lob und die Strafen hervorragend. Es war, als würde ein sehr gut lesender Mensch eine Geschichte hören.
Bilder sind wie ein Rätsel: Als die KI nur die Comic-Bilder sehen durfte, wurde es schwieriger. Die Ergebnisse waren immer noch gut, aber nicht so sicher wie beim Text. Es ist, als würde man versuchen, eine Geschichte nur aus einem Gemälde zu erraten – man sieht die Farben, aber die genauen Gedanken der Figuren sind schwerer zu lesen.

Der Gewinner:
Das Modell GPT-4o war der Klassenbeste. Es hat sowohl bei Texten als auch bei Bildern die besten Noten geschrieben.
Der Qwen-2.5VL war der zweitbeste – und das ist besonders cool, weil er kostenlos nutzbar ist. Das bedeutet, auch Forscher mit kleinem Budget können damit gute soziale Roboter bauen.
Das Modell LLaMa-4 Maverick hatte die meisten Schwierigkeiten, besonders bei den Bildern.

4. Wo haben sie sich geirrt? (Die „Meta-Regeln")

Die KI hatte am meisten Mühe mit den kompliziertesten Regeln, den sogenannten „Meta-Normen".

Beispiel: Nicht nur jemanden zu bestrafen, der die Regel bricht, sondern auch jemanden zu bestrafen, der zuschaut und nichts tut.
Das war für die KIs wie ein sehr schwieriges Schachspiel. Sie verstanden die einfache Regel („Nicht lügen"), aber die zweite Ebene („Warum schweigst du, wenn jemand lügt?") war zu komplex.

5. Warum ist das wichtig?

Stellen Sie sich einen sozialen Roboter vor, der in einem Pflegeheim arbeitet oder als Assistenzsystem in einer Stadt.

Wenn er nur auf starre Regeln programmiert ist, wird er verwirrt, wenn die Situation sich ändert.
Wenn er aber wie diese getesteten KIs funktioniert, kann er sehen und hören, was passiert, und intuitiv verstehen: „Oh, dieser alte Herr braucht einen Platz, und dieser Junge, der ihn nicht anbietet, macht etwas Falsches."

Fazit in einem Satz

Die Studie zeigt, dass unsere modernen KI-Modelle bereits sehr gut darin sind, soziale Regeln zu verstehen, besonders wenn sie Texte lesen können. Sie sind wie sehr kluge Schüler, die beim Lesen von Büchern glänzen, aber beim „Lesen" von Bildern noch etwas mehr Übung brauchen – besonders wenn es um die komplizierten, unausgesprochenen Regeln des menschlichen Miteinanders geht. Aber der Weg zu wirklich sozial intelligenten Robotern sieht vielversprechend aus!

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Social Norm Reasoning in Multimodal Language Models: An Evaluation" auf Deutsch:

Titel: Bewertung des sozialen Normen-Reasonings in multimodalen Sprachmodellen

1. Problemstellung und Motivation

In Multi-Agenten-Systemen (MAS) ist die Fähigkeit von Agenten, soziale Normen zu verstehen, zu erkennen und darauf zu reagieren, entscheidend für die Aufrechterhaltung sozialer Ordnung und Kooperation. Bisherige Forschung im Bereich der Normativen Multi-Agenten-Systeme (NorMAS) stützt sich oft auf symbolische Ansätze (z. B. deontische Logik), die jedoch in dynamischen, realen Umgebungen an Skalierbarkeit und Anpassungsfähigkeit scheitern, da Normen manuell kodiert werden müssen.

Während Large Language Models (LLMs) vielversprechende Alternativen für kontextsensitives Reasoning bieten, konzentrierten sich frühere Arbeiten fast ausschließlich auf textbasierte Szenarien. Es fehlt jedoch eine systematische Untersuchung der Fähigkeiten von Multimodalen Large Language Models (MLLMs), soziale Normen zu erkennen und zu reasoning, wenn diese sowohl durch Text als auch durch visuelle Eingaben (Bilder) dargestellt werden. Dies ist besonders relevant für die Entwicklung sozial intelligenter Roboter, die in der physischen Welt interagieren müssen.

2. Methodik

Die Autoren entwickelten einen umfassenden Evaluierungsrahmen, um die Normen-Reasoning-Kompetenz von fünf state-of-the-art MLLMs zu testen.

Getestete Modelle:
1. GPT-4o
2. Gemini 2.0 Flash
3. Qwen-2.5VL (72B)
4. Intern-VL3 (14B)
5. Meta LLaMa-4 Maverick
Datensatz und Szenarien:
- 5 Normen-Szenarien: An die Tür klopfen, Nicht-Abfall in Parks, Warteschlangen-Ordnung, Pünktlichkeit, Sitzplatz-Angebot an Ältere.
- 6 Varianten pro Szenario: Diese variierten den Zustand der Norm (Einhaltung vs. Verletzung) und die Konsequenzen (kein Lob/Sanktion, Lob, sanfter Rat, Tadel, Meta-Sanktionierung).
- Gesamtumfang: 30 textbasierte Geschichten und 30 daraus generierte Comic-Streifen (jeweils 4 Panels), die die Geschichten visuell darstellen.
- Generierung: Die Texte wurden mit GPT-4o erstellt, die Bilder ebenfalls durch GPT-4o basierend auf Textbeschreibungen generiert.
Evaluierungsprozess:
- Jedes Modell beantwortete für jede Geschichte 8 spezifische Fragen (z. B. „Was ist die Norm?", „Wer ist das Subjekt?", „Wurde die Norm verletzt?", „Gibt es eine Meta-Sanktion?").
- Ground Truth: Zwei menschliche Evaluatoren (die Autoren) sowie zwei externe Evaluatoren erstellten die korrekten Antworten. Die Übereinstimmung (Cohen's Kappa) lag bei über 0,90, was eine fast perfekte Übereinstimmung zeigt.
- Die Antworten der Modelle wurden mit der Ground Truth verglichen und als korrekt oder inkorrekt bewertet.

3. Wichtige Beiträge

Erweiterter Evaluierungsrahmen: Erstmalige systematische Bewertung von MLLMs in Bezug auf soziale Normen unter Einbeziehung sowohl textueller als auch visueller Eingaben.
Differenzierte Varianten: Im Gegensatz zu früheren Arbeiten, die oft nur binäre Klassifikationen (Einhaltung/Verletzung) testeten, wurden komplexe Varianten eingeführt, einschließlich Meta-Normen (Sanktionierung von Personen, die Normverletzungen nicht sanktionieren) und unterschiedlicher sozialer Konsequenzen (Lob, Tadel, Meta-Punishment).
Vergleichende Analyse: Direkter Vergleich der Leistung zwischen Text- und Bild-Eingaben sowie zwischen verschiedenen Modellarchitekturen (inklusive kostenloser Modelle).

4. Ergebnisse

Die statistische Auswertung (Boxplots, t-Tests, Friedman-Tests) ergab folgende Hauptergebnisse:

Text vs. Bild: Alle MLLMs schnitten bei textbasierten Eingaben signifikant besser ab als bei bildbasierten Eingaben.
- Text-Accuracy: Mittelwert $M = 0,95$ (SD = 0,09).
- Bild-Accuracy: Mittelwert $M = 0,84$ (SD = 0,17).
- Der Unterschied ist statistisch signifikant ( $p < 0,001$ ) mit einem großen Effekt ( $d_z = 0,82$ ).
Modellvergleich:
- GPT-4o erzielte in beiden Modalitäten die besten Ergebnisse (98,75 % bei Text, 92,5 % bei Bildern) und übertraf signifikant LLaMa-4, Intern-VL und Gemini 2.0 Flash.
- Qwen-2.5VL zeigte die zweitbeste Leistung und ist als kostenlose Alternative besonders hervorzuheben (97,5 % Text, 85,41 % Bild).
- Meta LLaMa-4 Maverick schnitt am schlechtesten ab (92 % Text, 76,66 % Bild).
Komplexität der Normen:
- Modelle waren am besten im Erkennen einfacher Normverletzungen (Kategorie 2).
- Sie hatten größere Schwierigkeiten bei der Erkennung von Norm-Einhaltung (Kategorie 1).
- Meta-Normen (Kategorie 3) stellten die größte Herausforderung dar, mit einer Median-Accuracy von nur 75 %. Die mehrstufige Logik (Verletzung erkennen -> Sanktionierung erkennen -> Sanktionierung der Nicht-Sanktionierer erkennen) führte zu den meisten Fehlern, insbesondere bei Variante V5.
Spezifische Schwächen:
- Bei Bildern waren Fragen zu Fortschritten in Comic-Streifen (z. B. „Wurde die Norm am Anfang eingehalten?") und das Erkennen von Lob (Variante V2) schwierig.
- Das Szenario „Sitzplatz-Angebot" war visuell am schwersten zu interpretieren.

5. Bedeutung und Ausblick

Diese Studie belegt, dass MLLMs vielversprechende Kandidaten für die Integration in soziale Agenten-Systeme sind, um Normen in komplexen Umgebungen zu interpretieren.

Praktische Implikation: GPT-4o und das kostenlose Qwen-2.5VL können als „Engines" für soziale Roboter dienen, die Normverletzungen erkennen und sanktionieren können, was die soziale Ordnung in Multi-Agenten-Systemen fördert.
Herausforderungen: Die aktuelle Schwäche beim Reasoning über Meta-Normen und bei visuellen Eingaben zeigt, dass noch Forschungsbedarf besteht, insbesondere für Anwendungen in der physischen Welt (Embodied AI).
Zukünftige Richtungen: Die Autoren schlagen Erweiterungen hin zu Video-Analysen, Fine-Tuning, Retrieval-Augmented Generation (RAG), Tree-of-Thought-Strategien und die Einbeziehung kulturell spezifischer Normen vor. Zudem wird die Evaluation in realen Umgebungen mit physischen Robotern als kritischer nächster Schritt identifiziert.

Fazit: Multimodale Modelle können soziale Normen effektiv aus Text ableiten, zeigen jedoch noch Defizite beim visuellen Verständnis und beim Reasoning über komplexe, mehrstufige soziale Regeln (Meta-Normen).

Social Norm Reasoning in Multimodal Language Models: An Evaluation

1. Das Problem: Alte Regeln vs. Neue Intelligenz

2. Der Test: Eine Prüfung für Roboter-Geister

3. Die Ergebnisse: Text ist der König, Bilder sind die Herausforderung

4. Wo haben sie sich geirrt? (Die „Meta-Regeln")

5. Warum ist das wichtig?

Fazit in einem Satz

Titel: Bewertung des sozialen Normen-Reasonings in multimodalen Sprachmodellen

1. Problemstellung und Motivation

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Explainable machine learning for predicting shellfish toxicity in the Adriatic Sea using long-term monitoring data of HABs

Talking like Piping and Instrumentation Diagrams (P&IDs)

SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models

IntrinsicWeather: Controllable Weather Editing in Intrinsic Space

Expert Evaluation of LLM World Models: A High-TcT_cTc​ Superconductivity Case Study

Expert Evaluation of LLM World Models: A High- $T_c$ Superconductivity Case Study