Evaluation of Deontic Conditional Reasoning in Large Language Models: The Case of Wason's Selection Task

Este estudo demonstra que os modelos de linguagem de grande escala (LLMs) apresentam um desempenho superior e padrões de erro semelhantes aos humanos ao raciocinar sobre regras deonticas no Teste de Seleção de Wason, exibindo um viés de correspondência em vez de um viés de confirmação.

Hirohiko Abe, Kentaro Ozeki, Risako Ando, Takanobu Morishita, Koji Mineshima, Mitsuhiro Okada

Publicado 2026-03-09
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um detetive de regras muito inteligente, mas que às vezes comete erros de lógica. Esse detetive é um Modelo de Linguagem Grande (LLM), como o ChatGPT ou o Gemini.

Os pesquisadores deste artigo queriam saber: Esse detetive artificial pensa como um humano? Ele tem os mesmos "vícios" ou "pulos do gato" que a gente tem quando tenta seguir regras?

Para descobrir, eles usaram um teste clássico da psicologia chamado Tarefa de Seleção de Wason. Vamos simplificar tudo isso com uma analogia divertida.

1. O Jogo das Cartas (A Tarefa de Wason)

Imagine que você é um fiscal em um bar. Você tem uma regra:

"Se alguém está bebendo cerveja, então essa pessoa deve ter mais de 18 anos."

Na sua frente, há 4 cartas (ou pessoas):

  1. Uma pessoa bebendo Cerveja.
  2. Uma pessoa bebendo Suco.
  3. Uma pessoa com 17 anos.
  4. Uma pessoa com 25 anos.

A pergunta: Quais cartas você precisa virar para ver se alguém está quebrando a regra?

  • A resposta lógica correta: Você precisa virar a Cerveja (para checar a idade) e a Pessoa de 17 anos (para checar se ela está bebendo cerveja).
  • O erro comum (viés de confirmação): A maioria das pessoas (e muitos computadores) quer virar a Cerveja e a Pessoa de 25 anos. Por quê? Porque querem "confirmer" que a regra está certa (alguém com 25 bebendo cerveja é bom). Mas isso não prova que a regra não foi quebrada! A pessoa de 17 anos bebendo cerveja seria o problema real, e você não viu isso.

2. O Grande Experimento: Regras Abstratas vs. Regras da Vida Real

Os pesquisadores criaram dois tipos de cenários para testar os modelos:

  • Cenário Abstrato (Descritivo): Regras sem sentido, como "Se o lado da carta tem um número primo, o outro lado tem uma letra minúscula". É como tentar adivinhar um código secreto sem contexto.
  • Cenário da Vida Real (Deôntico): Regras de deveres e permissões, como "Se o sangue está derramado, a enfermeira deve usar luvas". Isso envolve obrigações, leis e moralidade.

O que eles descobriram?
Assim como os humanos, os modelos de IA foram muito melhores entendendo as regras da vida real (deônticas) do que as regras abstratas.

  • Analogia: É como se o cérebro (ou o cérebro digital) fosse um "especialista em regras sociais". Quando a regra tem a ver com "deveres" (como usar luvas ou não entrar em um local), a IA acerta mais. Quando é um código aleatório, ela se perde. Isso mostra que a IA tem uma "especificidade de domínio", assim como nós.

3. O Verdadeiro Vilão: O Vício de "Combinação" (Matching Bias)

Aqui está a parte mais interessante. Os cientistas queriam saber por que a IA errava. Eles suspeitavam de dois "vilões":

  1. O Vilão "Confirmação": A IA quer apenas encontrar provas que confirmem que ela está certa.
  2. O Vilão "Combinação" (Matching Bias): A IA é preguiçosa e só olha para as palavras que ela vê na regra, ignorando o "não" (negação).

O Teste da Negação:
Eles mudaram a regra para: "Se o número NÃO for primo, então a letra NÃO é minúscula".

  • Se fosse o vilão "Confirmação", a IA procuraria o que confirma a regra.
  • Se fosse o vilão "Combinação", a IA ignoraria o "NÃO" e escolheria as cartas que tinham as palavras "primo" e "minúscula", mesmo que a lógica fosse o oposto.

O Veredito:
Os modelos de IA agiram mais como o Vilão "Combinação".

  • Analogia: Imagine que a IA é como um aluno que, ao ler uma prova, só grifa as palavras que ele já conhece e ignora a palavra "não" escrita em vermelho. Ela diz: "Ah, a regra tem a palavra 'primo', então eu escolho a carta 'primo'!", sem perceber que a regra dizia "não primo".

Resumo Simples

  1. IA é como Humano: Assim como nós, as IAs são muito melhores em seguir regras de "dever" (como leis ou normas sociais) do que em decifrar códigos abstratos e sem sentido.
  2. O Erro é Visual: Quando a IA erra, não é porque ela quer "confirmer" que está certa. É porque ela é "cega" para a negação. Ela se apaixona pelas palavras que aparecem na regra e esquece de ler o "não".
  3. Conclusão: Os modelos de linguagem não são apenas calculadoras lógicas perfeitas. Eles têm "vícios" cognitivos muito parecidos com os nossos, especialmente a tendência de ignorar o que não está escrito e focar apenas no que está escrito.

Em suma, a IA está aprendendo a pensar como nós, mas ainda precisa de ajuda para não pular a letra "não" quando ela mais importa!