Each language version is independently generated for its own context, not a direct translation.
Stel je voor dat je een robot bouwt die niet alleen dingen kan doen, maar ook sociaal slim is. Een robot die weet dat je niet zomaar de deur inloopt zonder te kloppen, of dat je niet zomaar je afval op de grond gooit. Dit noemen we "sociale normen".
Deze paper onderzoekt of de slimste kunstmatige intelligenties (AI) van vandaag, die zowel tekst als plaatjes kunnen begrijpen, deze sociale regels ook echt snappen.
Hier is de samenvatting, vertaald naar een simpel verhaal met een paar leuke vergelijkingen:
1. Het Probleem: Robots die niet weten hoe ze zich moeten gedragen
Vroeger programmeerden wetenschappers robots met een soort strenge rekenmachine in hun hoofd. Je gaf ze een lijst met regels: "Als je ziet dat iemand afval gooit, zeg dan: 'Nee, dat mag niet'."
- Het nadeel: Dit werkt alleen in een heel simpel wereldje. In de echte wereld zijn situaties vaak ingewikkeld. Wat als iemand afval gooit omdat hij ziek is? Of wat als iemand een ander scheldt omdat diegene de regels overtreedt? De oude rekenmachines konden hier niet mee omgaan.
2. De Nieuwe Kandidaten: De "Multimodale" Superhersens
De auteurs van dit paper kijken naar de nieuwste AI-modellen (zoals GPT-4o, Qwen, etc.). Deze modellen zijn als een student die zowel kan lezen als kijken. Ze kunnen een verhaal lezen én een plaatje bekijken, en dan proberen ze te begrijpen wat er gebeurt.
- De vraag: Kunnen deze AI's het verschil zien tussen iemand die netjes is, iemand die een fout maakt, en iemand die iemand anders scheldt voor die fout?
3. De Proef: Een Kookwedstrijd met 5 Chefs
De onderzoekers hebben een proef opgezet, alsof ze een kookwedstrijd houden met 5 verschillende AI-chefs:
- GPT-4o (De sterrenchef)
- Gemini 2.0 Flash
- Qwen-2.5VL (Een gratis alternatief)
- Intern-VL3
- LLaMa-4 Maverick
Ze kregen 30 verhalen te zien.
- De tekst-versie: Ze kregen een kort verhaal te lezen (bijvoorbeeld: "Jan klopt op de deur, de buurman is blij").
- De plaatjes-versie: Ze kregen een stripverhaal te zien van hetzelfde verhaal.
Ze moesten 8 vragen beantwoorden over elk verhaal, zoals:
- "Wat is de regel hier?"
- "Heeft iemand de regel gebroken?"
- "Kreeg de overtreder een waarschuwing?"
- "Kreeg iemand die niet ingreep, ook een straf?" (Dit is een heel ingewikkelde regel, een zogenaamde 'meta-norm').
4. De Resultaten: Wie is de beste kok?
🏆 De Winnaar: GPT-4o
Deze AI was veruit de beste. Hij snapt de regels bijna perfect, zowel in tekst als in plaatjes. Hij is als een meesterkok die elke smaak proeft.
🥈 De Troostprijs: Qwen-2.5VL
Dit is een gratis model, maar het deed het verrassend goed! Het is als een talentvolle amateurkok die bijna net zo goed kookt als de sterrenchef. Voor mensen die geen geld hebben om dure AI te huren, is dit een geweldige optie.
📉 De Moeilijkheden:
- Tekst vs. Plaatjes: Alle AI's waren veel beter in het lezen van verhalen dan in het kijken naar plaatjes.
- Vergelijking: Het is alsof je een boek kunt lezen, maar als je een tekening ziet, raak je in de war over wie er precies wat doet. Plaatjes zijn vaak vaagder dan woorden.
- De "Meta-Norm" (De moeilijkste taak): De AI's hadden veel moeite met de vraag: "Straf je iemand die niet ingreep toen iemand anders de regels overtrad?"
- Vergelijking: Dit is als een drie-laagse taart. Eerst moet je zien dat iemand een appeltje steelt. Dan moet je zien dat de bakker dat ziet. Dan moet je zien dat de bakker niets doet, en dat dat ook een fout is. De AI's kwamen vaak al bij de eerste laag in de war.
5. Wat betekent dit voor de toekomst?
Dit onderzoek laat zien dat we op de goede weg zitten. Robots kunnen binnenkort waarschijnlijk beter omgaan met sociale situaties dan voorheen.
- De droom: Een robot die in een supermarkt ziet dat iemand zijn rij niet respecteert, en dat op een beleefde manier aanpakt, zonder dat we hem elke mogelijke situatie handmatig hoeven in te programmeren.
- De realiteit: We moeten nog wel even oefenen. Vooral het kijken naar plaatjes en het begrijpen van complexe sociale straffen (zoals "meta-punishment") gaat nog niet helemaal vanzelf.
Kortom: De AI's worden steeds slimmer in het begrijpen van onze sociale regels, maar ze zijn nog steeds beter in het lezen van een krant dan in het interpreteren van een tekenfilm. En als je een robot wilt bouwen die beleefd is, is GPT-4o momenteel de beste keuze, maar Qwen is een fantastisch gratis alternatief.