Social Norm Reasoning in Multimodal Language Models: An Evaluation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot bouwt die niet alleen dingen kan doen, maar ook sociaal slim is. Een robot die weet dat je niet zomaar de deur inloopt zonder te kloppen, of dat je niet zomaar je afval op de grond gooit. Dit noemen we "sociale normen".

Deze paper onderzoekt of de slimste kunstmatige intelligenties (AI) van vandaag, die zowel tekst als plaatjes kunnen begrijpen, deze sociale regels ook echt snappen.

Hier is de samenvatting, vertaald naar een simpel verhaal met een paar leuke vergelijkingen:

1. Het Probleem: Robots die niet weten hoe ze zich moeten gedragen

Vroeger programmeerden wetenschappers robots met een soort strenge rekenmachine in hun hoofd. Je gaf ze een lijst met regels: "Als je ziet dat iemand afval gooit, zeg dan: 'Nee, dat mag niet'."

Het nadeel: Dit werkt alleen in een heel simpel wereldje. In de echte wereld zijn situaties vaak ingewikkeld. Wat als iemand afval gooit omdat hij ziek is? Of wat als iemand een ander scheldt omdat diegene de regels overtreedt? De oude rekenmachines konden hier niet mee omgaan.

2. De Nieuwe Kandidaten: De "Multimodale" Superhersens

De auteurs van dit paper kijken naar de nieuwste AI-modellen (zoals GPT-4o, Qwen, etc.). Deze modellen zijn als een student die zowel kan lezen als kijken. Ze kunnen een verhaal lezen én een plaatje bekijken, en dan proberen ze te begrijpen wat er gebeurt.

De vraag: Kunnen deze AI's het verschil zien tussen iemand die netjes is, iemand die een fout maakt, en iemand die iemand anders scheldt voor die fout?

3. De Proef: Een Kookwedstrijd met 5 Chefs

De onderzoekers hebben een proef opgezet, alsof ze een kookwedstrijd houden met 5 verschillende AI-chefs:

GPT-4o (De sterrenchef)
Gemini 2.0 Flash
Qwen-2.5VL (Een gratis alternatief)
Intern-VL3
LLaMa-4 Maverick

Ze kregen 30 verhalen te zien.

De tekst-versie: Ze kregen een kort verhaal te lezen (bijvoorbeeld: "Jan klopt op de deur, de buurman is blij").
De plaatjes-versie: Ze kregen een stripverhaal te zien van hetzelfde verhaal.

Ze moesten 8 vragen beantwoorden over elk verhaal, zoals:

"Wat is de regel hier?"
"Heeft iemand de regel gebroken?"
"Kreeg de overtreder een waarschuwing?"
"Kreeg iemand die niet ingreep, ook een straf?" (Dit is een heel ingewikkelde regel, een zogenaamde 'meta-norm').

4. De Resultaten: Wie is de beste kok?

🏆 De Winnaar: GPT-4o
Deze AI was veruit de beste. Hij snapt de regels bijna perfect, zowel in tekst als in plaatjes. Hij is als een meesterkok die elke smaak proeft.

🥈 De Troostprijs: Qwen-2.5VL
Dit is een gratis model, maar het deed het verrassend goed! Het is als een talentvolle amateurkok die bijna net zo goed kookt als de sterrenchef. Voor mensen die geen geld hebben om dure AI te huren, is dit een geweldige optie.

📉 De Moeilijkheden:

Tekst vs. Plaatjes: Alle AI's waren veel beter in het lezen van verhalen dan in het kijken naar plaatjes.
- Vergelijking: Het is alsof je een boek kunt lezen, maar als je een tekening ziet, raak je in de war over wie er precies wat doet. Plaatjes zijn vaak vaagder dan woorden.
De "Meta-Norm" (De moeilijkste taak): De AI's hadden veel moeite met de vraag: "Straf je iemand die niet ingreep toen iemand anders de regels overtrad?"
- Vergelijking: Dit is als een drie-laagse taart. Eerst moet je zien dat iemand een appeltje steelt. Dan moet je zien dat de bakker dat ziet. Dan moet je zien dat de bakker niets doet, en dat dat ook een fout is. De AI's kwamen vaak al bij de eerste laag in de war.

5. Wat betekent dit voor de toekomst?

Dit onderzoek laat zien dat we op de goede weg zitten. Robots kunnen binnenkort waarschijnlijk beter omgaan met sociale situaties dan voorheen.

De droom: Een robot die in een supermarkt ziet dat iemand zijn rij niet respecteert, en dat op een beleefde manier aanpakt, zonder dat we hem elke mogelijke situatie handmatig hoeven in te programmeren.
De realiteit: We moeten nog wel even oefenen. Vooral het kijken naar plaatjes en het begrijpen van complexe sociale straffen (zoals "meta-punishment") gaat nog niet helemaal vanzelf.

Kortom: De AI's worden steeds slimmer in het begrijpen van onze sociale regels, maar ze zijn nog steeds beter in het lezen van een krant dan in het interpreteren van een tekenfilm. En als je een robot wilt bouwen die beleefd is, is GPT-4o momenteel de beste keuze, maar Qwen is een fantastisch gratis alternatief.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Social Norm Reasoning in Multimodal Language Models: An Evaluation" in het Nederlands.

Probleemstelling

In Normatieve Multi-Agent Systemen (NorMAS) zijn agenten ontworpen om sociale concepten, zoals normen, te begrijpen en erover te redeneren tijdens interacties. Traditionele benaderingen in NorMAS maken gebruik van symbolische methoden (zoals deontische logica) voor de representatie en redenering van normen. Deze methoden hebben echter beperkingen: ze vereisen handmatige codering van normen in formele specificaties en missen schaalbaarheid en aanpassingsvermogen in dynamische, realistische omgevingen.

Hoewel Large Language Models (LLMs) een veelbelovend alternatief bieden voor contextgevoelig redeneren, is het vermogen van Multimodale Large Language Models (MLLMs) om sociale normen te redeneren op basis van zowel tekst als beelden (wat essentieel is voor robots in de fysieke wereld) tot nu toe niet systematisch onderzocht. Bestaand werk beperkt zich voornamelijk tot tekstuele scenario's. Er is een duidelijke kennislacune over hoe goed MLLMs complexe sociale situaties kunnen interpreteren en normovertredingen kunnen detecteren in multimodale inputs.

Methodologie

De auteurs hebben een uitgebreid evaluatiekader ontwikkeld om het vermogen tot normredenering van vijf state-of-the-art MLLMs te testen.

Geselecteerde Modellen: GPT-4o, Gemini 2.0 Flash, Qwen-2.5VL (72B), Intern-VL3 (14B) en Meta LLaMa-4 Maverick.
Dataset:
- Scenario's: Vijf verschillende sociale normen werden gedefinieerd: (1) op de deur kloppen, (2) niet lullen, (3) in de rij blijven, (4) op tijd zijn, en (5) een stoel aanbieden aan ouderen.
- Varianten: Elk scenario had zes varianten die verschillende uitkomsten en consequenties simuleerden:
  - V1 & V2: Normvolging (zonder of met lof).
  - V3, V4a, V4b: Normovertreding (zonder sanctie, met zacht advies, of met scheldwoorden).
  - V5: Metanorm (een waarnemer straft niet alleen de overtreder, maar ook passieve omstanders die niet ingrijpen).
- Inputs: Er werden 30 tekstuele verhalen en 30 bijbehorende stripverhalen (vier panelen) gegenereerd. De stripverhalen werden gegenereerd met GPT-4o op basis van tekstuele beschrijvingen.
Evaluatie:
- Voor elk verhaal werden acht vragen gesteld (zie Tabel 2 in het artikel), variërend van het identificeren van de norm en het onderwerp tot het bepalen van naleving, overtreding, en de aard van sancties (lof, advies, scheldwoorden, metastraffen).
- Ground Truth: Twee auteurs en twee externe evaluatoren beoordeelden de antwoorden. De inter-rater betrouwbaarheid was zeer hoog (Cohen's Kappa > 0.90).
- De prestaties van de MLLMs werden vergeleken met deze menselijke ground truth.

Belangrijkste Bijdragen

Eerste Systematische Evaluatie: Dit is het eerste werk dat het vermogen van MLLMs om sociale normen te redeneren op basis van zowel tekst als beelden systematisch evalueert.
Uitgebreid Evaluatiekader: In tegenstelling tot eerdere studies die zich beperkten tot binaire classificatie (wel/niet naleven), introduceert dit werk een nuanceerder kader met zes varianten per scenario, inclusief complexe concepten als metanormen (straffen voor het niet straffen van overtredingen).
Multimodale Vergelijking: Het biedt een directe vergelijking tussen tekstuele en visuele redenering, wat cruciaal is voor de ontwikkeling van sociale robots die in de fysieke wereld opereren.
Benchmark voor Toekomstig Onderzoek: De dataset (tekst en afbeeldingen) en de evaluatiemethodiek zijn openbaar gemaakt via een GitHub-repository om verder onderzoek te faciliteren.

Resultaten

De analyse van de resultaten leverde de volgende bevindingen op:

Tekst vs. Beeld: MLLMs presteerden over het algemeen significant beter bij tekstuele input dan bij beeldinput.
- Gemiddelde nauwkeurigheid tekst: 95,33%.
- Gemiddelde nauwkeurigheid beeld: 83,58%.
- Een gepaarde t-test bevestigde dit verschil als statistisch significant ( $p < 0.001$ ).
Modelprestaties:
- GPT-4o presteerde het beste in beide modaliteiten (98,75% op tekst, 92,5% op beeld).
- Qwen-2.5VL (een gratis model) kwam als tweede beste uit de bus en biedt een haalbaar alternatief voor onderzoekers.
- Meta LLaMa-4 Maverick presteerde het slechtst, vooral bij beeldinput (76,66%).
Complexiteit van Normen:
- Modellen hadden moeite met complexe scenario's. Variant V5 (Metanorm) was het moeilijkst voor alle modellen, met een mediane nauwkeurigheid van slechts 75%. Dit wijst op de uitdaging van meerlagig redeneren.
- Normovertredingen (Categorie 2) werden beter herkend dan normvolging (Categorie 1) of metanormen (Categorie 3).
Specifieke Uitdagingen:
- Bij beeldinput waren vragen over de voortgang van scènes in stripverhalen en het interpreteren van abstracte concepten zoals "lof" (Variant V2) of "straffen" (Variant V5) problematisch.
- Het scenario "Stoel aanbieden" bleek visueel het moeilijkst te interpreteren, mogelijk door de beperkte expressiviteit van de gegenereerde stripverhalen.

Betekenis en Toekomstperspectief

De studie bevestigt dat MLLMs veelbelovende kandidaten zijn voor het integreren van sociale intelligentie in Multi-Agent Systemen en robots. Hoewel tekstuele redenering al zeer geavanceerd is, is er nog ruimte voor verbetering in visueel begrip van sociale contexten.

Praktische Toepassing: De resultaten suggereren dat robots, aangedreven door modellen zoals GPT-4o of Qwen-2.5VL, in staat kunnen zijn om sociale normen te detecteren en te handhaven in mens-robot interacties, wat bijdraagt aan sociale orde en veiligheid.
Toekomstig Onderzoek: De auteurs schetsen verschillende richtingen:
- Uitbreiding naar video-analyse (audio, tekst, beeld).
- Toepassing van fine-tuning en Retrieval-Augmented Generation (RAG) voor domeinspecifieke kennis.
- Onderzoek naar dynamisch leren van normen via menselijke feedback.
- Evaluatie in echte, fysieke omgevingen met embodied agents (sociale robots).

Concluderend biedt dit werk een solide basis voor het gebruik van multimodale AI in NorMAS, maar benadrukt het ook de noodzaak van verdere ontwikkeling om de complexiteit van menselijk sociaal gedrag en metanormen volledig te kunnen hanteren.

Social Norm Reasoning in Multimodal Language Models: An Evaluation

1. Het Probleem: Robots die niet weten hoe ze zich moeten gedragen

2. De Nieuwe Kandidaten: De "Multimodale" Superhersens

3. De Proef: Een Kookwedstrijd met 5 Chefs

4. De Resultaten: Wie is de beste kok?

5. Wat betekent dit voor de toekomst?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Toekomstperspectief

Meer zoals dit

Explainable machine learning for predicting shellfish toxicity in the Adriatic Sea using long-term monitoring data of HABs

Talking like Piping and Instrumentation Diagrams (P&IDs)

SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models

IntrinsicWeather: Controllable Weather Editing in Intrinsic Space

Expert Evaluation of LLM World Models: A High-TcT_cTc​ Superconductivity Case Study

Expert Evaluation of LLM World Models: A High- $T_c$ Superconductivity Case Study