Social Norm Reasoning in Multimodal Language Models: An Evaluation

Cette étude évalue la capacité de cinq modèles de langage multimodaux à raisonner sur les normes sociales à partir de scénarios textuels et visuels, révélant qu'ils surpassent les humains dans le texte mais peinent davantage avec les images, GPT-4o se distinguant comme le modèle le plus prometteur pour l'intégration dans des systèmes multi-agents malgré des difficultés persistantes face aux normes complexes.

Oishik Chowdhury, Anushka Debnath, Bastin Tony Roy Savarimuthu

Publié 2026-03-05
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Voici une explication de cette recherche, imagée et simplifiée, comme si nous en discutions autour d'un café.

🌍 Le Grand Défi : Enseigner la "Pudeur" aux Robots

Imaginez que vous construisez un robot pour qu'il vive parmi nous, dans notre société. Ce robot ne doit pas seulement savoir marcher ou parler ; il doit comprendre les règles non écrites de la vie en société. C'est ce qu'on appelle les normes sociales.

Par exemple :

  • Il faut frapper à la porte avant d'entrer.
  • On ne jette pas ses déchets dans le parc.
  • On laisse sa place aux personnes âgées dans le bus.

Jusqu'à présent, les chercheurs essayaient d'enseigner ces règles aux robots comme on apprendrait les tables de multiplication à un enfant : en écrivant des codes informatiques très stricts (des formules logiques). C'est comme essayer de décrire une tempête en utilisant uniquement une règle à dessin : ça marche pour les lignes droites, mais ça rate complètement pour le chaos de la réalité.

🎨 La Nouvelle Approche : Les "Super-Intelligences" Multimodales

Les auteurs de cette étude (de l'Université d'Otago, en Nouvelle-Zélande) se sont dit : "Et si on utilisait les nouveaux modèles d'intelligence artificielle (les MLLM) qui voient et lisent comme des humains ?"

Ils ont pris cinq de ces super-intelligences (dont GPT-4o, Qwen, Gemini, etc.) et les ont mises à l'épreuve. Leur mission ? Comprendre des histoires sociales présentées de deux façons :

  1. En texte (comme une petite nouvelle).
  2. En images (sous forme de bandes dessinées à 4 cases).

🧪 L'Examen de Fin d'Études

Pour tester ces robots, les chercheurs ont créé 30 histoires basées sur 5 règles sociales différentes. Chaque histoire avait 6 variantes pour voir si le robot comprenait les nuances :

  • Le robot a-t-il respecté la règle ?
  • A-t-il été félicité pour son bon comportement ?
  • A-t-il été puni pour son erreur ?
  • A-t-il puni quelqu'un d'autre qui n'avait pas puni le coupable ? (C'est ce qu'on appelle une "méta-norme", une règle sur les règles, très complexe !).

Ensuite, on a posé 8 questions à chaque modèle (ex: "Qui a transgressé la règle ?", "A-t-on grondé le coupable ?") et on a comparé leurs réponses avec celles d'humains (les "correcteurs").

🏆 Les Résultats : Qui a gagné ?

Voici ce que l'étude a révélé, avec quelques métaphores :

1. Le Texte est leur "Super-Pouvoir"
Les robots sont d'excellents lecteurs. Quand on leur donne une histoire écrite, ils comprennent très bien les règles sociales. C'est comme s'ils avaient lu tous les livres de la bibliothèque.

  • Le champion : GPT-4o a obtenu un score incroyable de 98,75 % en texte. C'est le "sage" du groupe.
  • Le champion gratuit : Qwen-2.5VL a aussi très bien fait (97,5 %), ce qui est une excellente nouvelle car c'est un modèle gratuit.

2. Les Images sont leur "Zone de Turbulence"
Quand on passe aux images (les bandes dessinées), les robots trébuchent un peu plus. C'est comme si un lecteur brillant devenait soudainement distrait quand on lui montre un film muet. Ils ont du mal à déduire les émotions ou les actions cachées dans un dessin.

  • Le score moyen en image est tombé à 83,58 %.
  • GPT-4o reste le meilleur (92,5 %), mais même lui fait des erreurs.
  • LLaMa-4 Maverick a eu le plus de mal, surtout avec les images (76,66 %).

3. Le Piège des "Règles sur les Règles"
La plus grande difficulté pour tous les robots était de comprendre les méta-normes (la variante V5).

  • Exemple : "Si Paul ne punit pas Jean qui a jeté un papier, doit-on punir Paul ?"
  • C'est comme un jeu d'échecs à trois dimensions. Les robots ont souvent eu la tête qui tourne ici, avec des scores beaucoup plus bas (autour de 75 %). Ils comprennent bien "Ne jette pas de papier", mais ils peinent à comprendre "Ne sois pas complice de celui qui jette du papier".

💡 La Leçon à Retenir

Cette étude nous dit deux choses importantes :

  1. L'avenir est prometteur : Nous avons maintenant des outils (comme GPT-4o ou Qwen) capables de comprendre le comportement social humain bien mieux que les anciens robots programmés à la main. Ils pourraient bientôt aider les robots sociaux à être plus polis et plus sûrs.
  2. Il reste du travail : Les robots sont encore des "élèves brillants en théorie mais parfois distraits en pratique visuelle". Ils doivent apprendre à mieux lire les images et à comprendre les règles complexes de la vie en société.

En résumé, nous ne sommes plus au stade où les robots ne savent pas ce qu'est un "bon comportement". Ils savent maintenant lire le manuel d'instructions. Le prochain défi est de leur apprendre à appliquer ces règles dans le monde réel, rempli d'images, d'émotions et de situations imprévues.