Social Norm Reasoning in Multimodal Language Models: An Evaluation

Este artigo avalia a capacidade de cinco Modelos de Linguagem Multimodal (MLLMs) de raciocinar sobre normas sociais em cenários baseados em texto e imagem, revelando que, embora o GPT-4o demonstre o melhor desempenho geral e supere os humanos no texto, todos os modelos apresentam dificuldades com normas complexas e têm desempenho inferior em imagens.

Oishik Chowdhury, Anushka Debnath, Bastin Tony Roy Savarimuthu

Publicado 2026-03-05
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

🤖 O Robô que Precisa Aprender a "Ler" a Sala

Imagine que você está criando um robô social. Ele não é apenas uma máquina que faz tarefas; ele precisa andar por entre pessoas, entrar em salas, fazer fila no banco e ajudar idosos. Para isso, ele precisa entender as regras não escritas da sociedade (o que chamamos de "normas sociais").

Por exemplo:

  • Você bate na porta antes de entrar? (Norma de obrigação)
  • Você não joga lixo no chão do parque? (Norma de proibição)
  • Você cede o lugar para um idoso? (Norma de cortesia)

O problema é que, até hoje, os robôs aprendiam essas regras como se estivessem decorando um livro de leis muito rígido. Se a situação fosse um pouco diferente do livro, o robô ficava confuso.

Os autores deste artigo (da Universidade de Otago, na Nova Zelândia) tiveram uma ideia brilhante: E se usássemos os "cérebros" superinteligentes das IAs modernas (os Modelos de Linguagem Multimodais) para ensinar os robôs a entender essas regras de forma natural?

Eles queriam saber: "Será que essas IAs conseguem olhar para uma foto ou ler uma história e entender o que é 'certo' ou 'errado' socialmente, assim como um humano faria?"

🧪 O Grande Teste: A Prova de Fogo

Para descobrir a resposta, eles criaram um "exame" gigante para 5 IAs famosas (incluindo o GPT-4o, o Gemini, o Qwen e outros).

O exame tinha duas partes:

  1. A Parte dos Textos: 30 pequenas histórias (como contos de fadas modernos) descrevendo situações sociais.
  2. A Parte das Imagens: As mesmas 30 histórias, mas transformadas em quadrinhos (como uma tirinha de jornal), para ver se a IA conseguia "ver" a cena.

O que eles perguntaram às IAs?
Eles não perguntaram apenas "isso é certo?". Eles foram mais fundo, como um professor de ética exigente:

  • "Qual é a regra aqui?"
  • "Quem quebrou a regra?"
  • "O personagem foi elogiado por fazer o certo?"
  • "O personagem foi punido por fazer o errado?"
  • "E se alguém viu a punição e não fez nada, essa pessoa também deve ser punida?" (Isso é uma regra complexa chamada metanorma).

🏆 Os Resultados: Quem passou na prova?

Aqui estão as descobertas principais, explicadas de forma simples:

1. Ler é mais fácil do que Ver 📖 vs. 🖼️

As IAs foram muito melhores em entender as histórias escritas do que as histórias em quadrinhos.

  • Analogia: É como se você fosse ótimo em ler um livro de instruções, mas quando alguém te mostra um desenho esquemático, você fica confuso. As IAs ainda têm dificuldade em "ler" as emoções e ações sutis apenas olhando para uma imagem.
  • O Vencedor: O GPT-4o foi o campeão absoluto, acertando quase tudo tanto no texto quanto nas imagens. O Qwen-2.5VL (que é gratuito) foi o vice-campeão e uma ótima opção para quem não pode pagar pelo GPT-4o.

2. O "Nível Mestre" é Difícil 🧠

As IAs foram ótimas em regras simples (ex: "não jogar lixo"). Mas quando o teste envolveu metanormas (regras sobre regras, como punir quem não pune quem quebrou a regra), elas travaram.

  • Analogia: É fácil para uma IA entender que "não pode pular a fila". Mas é muito difícil para ela entender que "se você viu alguém pular a fila e não fez nada, você também está errado". Isso exige um raciocínio de várias camadas, como um xadrez de três dimensões.

3. O Robô Mais "Burro" (e o Mais Caro) 📉

O modelo Meta LLaMa-4 Maverick teve o pior desempenho, especialmente nas imagens. Isso mostra que nem toda IA "inteligente" é boa em entender o mundo social visual.

💡 O Que Isso Significa para o Futuro?

Este estudo é como um "boletim escolar" para as IAs. Ele nos diz:

  1. Robôs Sociais são Possíveis: Podemos usar essas IAs para criar robôs que entendem o que é "bom comportamento" em uma sala de espera ou em um parque, sem precisar programar cada regra manualmente.
  2. Ainda Há Espaço para Crescer: As IAs ainda precisam aprender a "ler" melhor as imagens e a entender regras sociais mais complexas e sutis.
  3. A Solução Gratuita: O modelo Qwen-2.5VL mostrou que não é necessário gastar milhões para ter um robô social inteligente; existem opções gratuitas que funcionam muito bem.

🚀 Conclusão Final

Imagine que você quer construir um robô que seja o "vizinho perfeito". Este artigo diz: "Olha, já temos os cérebros (as IAs) que conseguem entender a maioria das regras sociais, especialmente se você lhes der um texto para ler. Mas, se você quiser que elas entendam o que está acontecendo apenas olhando para uma foto, ainda precisamos treinar um pouco mais. E, cuidado com as regras muito complicadas, pois elas ainda confundem!"

É um passo gigante para que, no futuro, nossos robôs não sejam apenas máquinas frias, mas companheiros que realmente sabem como se comportar na nossa sociedade.