GPT-4o Lacks Core Features of Theory of Mind

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando descobrir se um robô superinteligente (como o GPT-4o) realmente "entende" o que as pessoas pensam e sentem, ou se ele apenas está muito bom em imitar alguém que entende.

Os autores deste estudo, da Universidade de Yale, decidiram testar isso não com perguntas de múltipla escolha (como em exames escolares), mas com uma abordagem mais profunda: eles queriam saber se o robô tem uma "Teoria da Mente" real.

Para entender o que isso significa, vamos usar uma analogia simples:

O Grande Teste: O Chef de Cozinha vs. O Robô de Receitas

Imagine que a "Teoria da Mente" é como ter um chef de cozinha dentro da sua cabeça.

O Chef (Humano): Ele entende por que as coisas acontecem. Se alguém está com fome (desejo) e o fogão está longe (custo), ele sabe que a pessoa vai cozinhar algo rápido e perto. Se o fogão queimar (crença), ele sabe que a pessoa vai mudar de ideia. O chef usa uma fórmula interna (causal) que funciona em qualquer cozinha, seja na sua casa, num restaurante ou numa cabana na floresta.
O Robô de Receitas (LLM atual): Ele tem um livro gigante com milhões de receitas. Se você perguntar "O que a pessoa faria?", ele olha no livro, encontra uma receita parecida e diz a resposta. Ele parece um chef incrível, mas se você mudar um detalhe que não está no livro (como trocar o fogão por uma fogueira), ele pode travar ou dar uma resposta sem sentido.

O estudo testou se o GPT-4o é um Chef (com uma lógica interna consistente) ou apenas um Robô de Receitas (que apenas memorizou padrões).

Os Três Testes do Estudo

Os pesquisadores criaram dois mundos virtuais para testar o robô:

Mundo das Caixas (ContainerWorld): Um personagem escolhe entre abrir uma caixa perto ou uma cesta longe, dependendo do que ele acha que tem dentro e do que ele gosta.
Mundo do Cinema (MovieWorld): O mesmo personagem, mas agora escolhe entre dois filmes (um começa em 5 minutos, outro em 90 minutos), dependendo do gênero que ele acha que será exibido e do que ele gosta.

Eles aplicaram três testes cruciais:

1. O Teste da Coerência (O Robô faz sentido?)

A Pergunta: O robô consegue prever o que o personagem vai fazer de forma lógica?
O Resultado: Sim! No Mundo das Caixas, o GPT-4o foi muito bom. Ele parecia entender que, se o personagem gosta de maçãs e acha que a caixa tem maçãs, ele vai abrir a caixa.
A Analogia: O robô acertou a receita. Ele parece um chef competente... mas será que ele só decorou aquela receita específica?

2. O Teste da Abstração (O Robô entende a lógica, ou só a forma?)

A Pergunta: Se mudarmos a "roupa" da situação (de caixas para filmes), mas mantivermos a mesma lógica matemática, o robô ainda acerta?
O Resultado: Não. O robô funcionou bem nas caixas, mas quando virou para o cinema, ele começou a errar e a se comportar de forma inconsistente.
A Analogia: Imagine que você ensinou o robô a dirigir um carro. Ele é ótimo. Mas quando você pede para ele dirigir um caminhão (que é basicamente a mesma lógica de volante e pedais, só que maior), ele entra em pânico e vira o volante para o lado errado. Isso mostra que ele não tem uma fórmula universal de direção; ele apenas memorizou como dirigir um carro específico. Ele não tem uma "Teoria da Mente" abstrata.

3. O Teste da Consistência (O Robô é honesto consigo mesmo?)

A Pergunta: Se o robô diz que "João vai abrir a caixa", ele consegue explicar por que (ex: "João gosta de maçãs")? E se você der a explicação ("João gosta de maçãs"), ele consegue prever a ação ("Ele vai abrir a caixa")? As duas partes da mente dele conversam entre si?
O Resultado: Não. O robô era como um ator improvisando. Às vezes ele adivinhava a ação certa, mas a explicação que ele dava para por que a ação aconteceu não batia com a ação. Era como se ele dissesse: "Ele vai abrir a caixa porque ele odeia maçãs" (o que não faz sentido).
A Analogia: Imagine um detetive que resolve o crime, mas quando você pergunta "como você sabe que foi o mordomo?", ele inventa uma história que não tem nada a ver com as pistas. O detetive (o robô) não tem um modelo interno consistente da realidade.

A Conclusão em Português Simples

O estudo conclui que o GPT-4o é um mestre da imitação, mas não um mestre da compreensão.

Ele é como um ator de teatro que decorou todas as falas de uma peça. Se você fizer a pergunta certa no momento certo, ele responde perfeitamente. Mas, se você mudar o cenário, a iluminação ou a lógica da história, ele perde o fio da meada.

Ele não tem uma "Teoria da Mente" real: Ele não construiu um modelo interno de como pensamentos geram ações.
Ele é frágil: Sua inteligência social depende de parecer humano, não de entender a lógica causal por trás do comportamento humano.

Por que isso importa?
Se confiarmos que o robô tem uma "mente" real, podemos achar que ele vai tomar decisões sensatas em situações novas e estranhas. Mas, como ele não tem essa lógica interna, ele pode falhar de formas imprevisíveis quando o mundo real não seguir exatamente o que ele viu nos seus dados de treinamento.

Em resumo: O robô é um espelho muito brilhante que reflete o que nós dizemos, mas ainda não tem a luz própria de quem realmente entende o que está pensando.

Each language version is independently generated for its own context, not a direct translation.

Título: GPT-4o Carece de Recursos Centrais da Teoria da Mente

Autores: John Muchovej, Amanda Royka, Shane Lee e Julian Jara-Ettinger (Yale University)

1. O Problema

A questão central investigada é se os Grandes Modelos de Linguagem (LLMs) possuem uma Teoria da Mente (ToM) genuína. Embora pesquisas anteriores tenham mostrado que LLMs têm sucesso em benchmarks de tarefas sociais, os autores argumentam que essas avaliações falham em testar a representação fundamental da ToM: um modelo causal abstrato e consistente que explica como estados mentais (crenças, desejos) geram comportamento.

O problema identificado é a confusão entre "proficiência social" (capacidade de imitar respostas humanas em tarefas específicas) e a existência de uma teoria interna unificada. A literatura atual é contraditória, com alguns estudos mostrando sucesso e outros fragilidade, muitas vezes devido ao uso de paradigmas inspirados no desenvolvimento humano que não controlam adequadamente para características de baixo nível ou que não testam a generalização fora da distribuição de treinamento (out-of-distribution).

2. Metodologia

Os autores propõem uma nova estrutura de avaliação baseada em uma definição cognitivamente fundamentada de ToM, focando em três características definidoras de uma teoria: Coerência, Abstração e Consistência. O estudo foi realizado com o modelo GPT-4o (versão de maio de 2024).

A metodologia envolveu três estudos distintos utilizando dois paradigmas logicamente equivalentes, mas superficialmente diferentes:

ContainerWorld (Mundo dos Recipientes): Um cenário onde um personagem deve escolher entre abrir uma caixa próxima ou uma cesta distante, baseado em crenças sobre o conteúdo (frutas), desejos (gostar/não gostar) e custos (distância física).
MovieWorld (Mundo do Cinema): Um cenário logicamente isomórfico (mapeamento 1:1) onde o personagem escolhe entre assistir a um filme em 5 minutos ou 90 minutos, baseado em crenças sobre o gênero do filme, desejos e custos (tempo de espera).

Os Três Estudos:

Estudo 1: Coerência (Coherence)
- Objetivo: Testar se o LLM gera previsões de ação aplicando um conjunto sistemático de representações centrais.
- Método: O LLM foi consultado para prever ações ( $\mathcal{A}$ ) dadas combinações paramétricas de crenças ( $\mathcal{B}$ ), desejos ( $\mathcal{D}$ ) e estados ( $\mathcal{S}$ ). Os resultados foram comparados com um modelo humano de ToM (HumanToM) e modelos "ablatados" (que ignoram crenças, desejos ou custos).
- Métrica: Grau de concordância entre as previsões do LLM e os modelos candidatos.
Estudo 2: Abstração (Abstractness)
- Objetivo: Testar se o modelo causal do LLM se generaliza entre domínios diferentes (ContainerWorld vs. MovieWorld). Uma ToM abstrata deve funcionar independentemente das características superficiais (ex: distância física vs. tempo).
- Método: Comparação das previsões de comportamento e inferências de estados mentais (crenças e desejos) entre os dois paradigmas.
- Métrica: Correlação entre as distribuições de probabilidade de ações e inferências nos dois mundos. Se o modelo for abstrato, o desempenho em um domínio deve prever o desempenho no outro.
Estudo 3: Consistência (Consistency)
- Objetivo: Testar se o modelo causal é bidirecionalmente consistente. Ou seja, se as inferências de estados mentais derivadas de uma ação observada podem ser usadas para prever a mesma ação novamente.
- Método:
  1. Avaliação Bayesiana: Inversão Bayesiana do modelo de previsão de ação para obter um posterior esperado e correlacionar com as inferências do LLM.
  2. Avaliação de Valididade: Verificar se as inferências de estados mentais feitas pelo LLM, quando usadas como entrada para o modelo de previsão de ação, geram a ação observada original.
- Métrica: Correlação e concordância entre previsões diretas (estados mentais $\to$ ação) e inversas (ação $\to$ estados mentais).

3. Principais Contribuições

Novo Framework de Avaliação: Propõe uma mudança de paradigma, saindo de benchmarks baseados em comparação com humanos para uma avaliação baseada nas propriedades estruturais de uma teoria (coerência, abstração, consistência).
Definição Operacional de ToM em IA: Estabelece que, para um LLM ter ToM, ele deve possuir um modelo causal unificado que seja capaz de generalizar logicamente entre domínios e manter consistência interna entre previsão e inferência, independentemente de parecer "humano".
Paradigmas Isomórficos: Desenvolveu o ContainerWorld e o MovieWorld para testar rigorosamente a generalização e a abstração, eliminando viéses de características superficiais.

4. Resultados

Estudo 1 (Coerência): O GPT-4o demonstrou alta concordância com o modelo HumanToM no ContainerWorld, sugerindo uma aparente coerência na previsão de ações baseada em crenças, desejos e custos.
Estudo 2 (Abstração):
- Ao transferir para o MovieWorld, a concordância do GPT-4o com o modelo humano diminuiu significativamente.
- Falha Crítica: As previsões de ação no ContainerWorld não previam confiavelmente as previsões no MovieWorld ( $r = 0.48$ ).
- As inferências de estados mentais também falharam em generalizar. Apenas as inferências de crenças ( $\mathcal{I}_{\mathcal{B}}$ ) mostraram correlação moderada entre os domínios, enquanto desejos e inferências conjuntas foram muito fracas.
- Conclusão: O LLM não possui um modelo causal abstrato; ele parece aprender regras específicas de domínio em vez de princípios gerais.
Estudo 3 (Consistência):
- O GPT-4o falhou em ambas as métricas de consistência (Bayesiana e de Valididade) em ambos os paradigmas.
- As inferências de estados mentais feitas pelo modelo não eram consistentes com as ações que o modelo previa que seriam tomadas com base nesses mesmos estados.
- Conclusão: Não há um modelo causal unificado ligando mentalidade e comportamento; as previsões e inferências são geradas de forma desconexa.

5. Significado e Conclusão

O estudo conclui que, embora o GPT-4o exiba proficiência social impressionante em tarefas isoladas, ele não possui uma Teoria da Mente genuína. A proficiência observada é o resultado de padrões estatísticos e imitação superficial, e não de um modelo causal abstrato, coerente e consistente.

Implicações:

Fragilidade: A capacidade social dos LLMs é frágil e não generaliza para domínios logicamente equivalentes, o que limita a confiança em suas inferências sociais em cenários do mundo real.
Reavaliação de Benchmarks: Os autores alertam que benchmarks tradicionais podem estar superestimando a inteligência social das IAs ao não testarem a estrutura causal subjacente.
Futuro da IA: Mesmo que futuros LLMs se tornem mais proficientes socialmente, isso não garantirá a existência de uma ToM. É necessário desenvolver métricas que priorizem a estrutura causal (coerência, abstração, consistência) em vez da mera imitação humana.

Em suma, o trabalho sugere que os LLMs atuais são "estrangeiros" em termos de inteligência social: podem parecer entender, mas carecem da arquitetura interna necessária para uma compreensão causal real das mentes alheias.