Are Large Language Models Truly Smarter Than Humans?

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um professor e decide testar seus alunos em uma prova final. Você pega as mesmas perguntas que usou no ano passado, que estão disponíveis em um site público, e entrega para a nova turma.

Se um aluno tira nota 100%, você diz: "Ele é um gênio!"? Ou você pensa: "Espera aí, ele só decorou o gabarito porque tinha acesso às perguntas antes da prova?"

É exatamente sobre isso que trata este artigo. Os autores (Eshwar Reddy M e Sourav Karmakar) investigaram se os "cérebros de computador" mais avançados do mundo (os Grandes Modelos de Linguagem, como o GPT-4 e o DeepSeek) são realmente mais inteligentes que humanos, ou se eles apenas decoraram as respostas porque as perguntas estavam escondidas no material de estudo deles.

Eles fizeram três experimentos diferentes, como se fossem três tipos de detetive, para descobrir a verdade.

O Cenário: A "Prova" que todo mundo conhece

Hoje em dia, as empresas de Inteligência Artificial (IA) mostram seus resultados em tabelas de classificação (leaderboards), dizendo: "Nosso modelo é melhor que 90% dos advogados humanos!" ou "Ele passou no exame de medicina!".

O problema é que essas "provas" (chamadas de benchmarks) são públicas. As perguntas e as respostas estão na internet há anos. Como os computadores são treinados lendo quase tudo o que existe na internet, é muito provável que eles tenham "lido" essas provas durante o treinamento.

Os Três Experimentos (Os Três Detetives)

Os autores testaram 6 modelos de IA diferentes usando três métodos criativos:

1. O Detetive da "Vazamento de Papel" (Experimento 1)

A Analogia: Imagine que você está tentando descobrir se um aluno trapaceou. Você pega as perguntas da prova e joga no Google para ver se elas aparecem em sites públicos.
O que eles fizeram: Eles usaram uma ferramenta de busca para ver quantas perguntas de uma prova famosa (MMLU) apareciam na internet.
O Resultado: Eles descobriram que 13,8% de todas as perguntas já estavam "vazadas" na internet. Em algumas matérias, como Filosofia, 66,7% das perguntas estavam lá!
A Lição: Se o computador treinou com esses dados, ele não está "pensando", está apenas "lembrando" o que viu.

2. O Detetive do "Troca de Palavras" (Experimento 2)

A Analogia: Imagine que você pergunta a um aluno: "Quem foi o primeiro presidente dos EUA?". Ele responde "Washington". Agora, você muda a pergunta para: "Quem liderou a revolução americana e se tornou o primeiro chefe de estado?". Se o aluno só decorou a resposta exata, ele pode travar. Se ele realmente entende a história, ele responde certo.
O que eles fizeram: Eles pegaram perguntas famosas e as reescreveram de formas diferentes (usando sinônimos ou mudando a estrutura da frase), mas mantendo o mesmo significado.
O Resultado: Quando as perguntas mudaram um pouco, a inteligência das IAs caiu drasticamente. Em matérias como Direito e Ética, a nota caiu quase 20 pontos.
A Lição: Isso prova que, em muitas áreas, as IAs não estão raciocinando; elas estão apenas reconhecendo o "formato" da pergunta. Se você mudar o "casaco" da pergunta, elas não reconhecem mais o "corpo" por baixo.

3. O Detetive da "Memória Invisível" (Experimento 3)

A Analogia: Imagine que você esconde uma palavra em uma frase e pergunta ao aluno: "Qual palavra faltava?". Se ele nunca viu aquela frase antes, ele chuta. Se ele decorou, ele acerta.
O que eles fizeram: Eles cobriram partes das perguntas e pediram para as IAs tentarem adivinhar o que estava escondido.
O Resultado: As IAs conseguiram adivinhar as partes escondidas em 72,5% dos casos! Isso é muito acima do acaso.
O Caso Estranho (DeepSeek-R1): Um modelo chamado DeepSeek-R1 foi muito estranho. Ele não conseguia repetir a frase exata, mas conseguia reconstruir o significado das respostas erradas. Era como se ele tivesse lido o livro todo e entendido a história, mas não tivesse memorizado as palavras exatas. Isso explica por que ele se saiu mal na prova original, mas não mudou tanto quando a pergunta foi reescrita.

O Veredito Final: O que isso significa?

O artigo conclui com uma mensagem importante, usando uma metáfora simples:

As IAs não são necessariamente "mais inteligentes" que humanos; elas são apenas "melhores em decorar o gabarito".

A Ilusão da Inteligência: Quando uma IA tira nota 100% em uma prova pública, ela pode estar apenas reconhecendo padrões que viu antes, não demonstrando um entendimento real do mundo.
O Perigo do Mundo Real: No mundo real, as perguntas não vêm com o mesmo "formato" de sempre. Se você pedir para uma IA de Direito analisar um caso novo (que ela nunca viu), ela pode falhar miseravelmente ou inventar fatos (alucinar), porque ela só sabe responder às perguntas que "decorou".
A Solução: Precisamos parar de confiar cegamente nas tabelas de classificação atuais. Precisamos criar novas provas que as IAs nunca viram, com perguntas reescritas e inéditas, para ver se elas realmente entendem o assunto ou só sabem repetir o que leram.

Em resumo: A pergunta do título "As IAs são realmente mais inteligentes que humanos?" tem uma resposta complicada. Elas são ótimas em reconhecer padrões e memorizar, mas ainda têm muita dificuldade em generalizar e raciocinar sobre coisas novas, exatamente como um aluno que só decorou a matéria para a prova, mas não aprendeu o conteúdo.

Are Large Language Models Truly Smarter Than Humans?

O Cenário: A "Prova" que todo mundo conhece

Os Três Experimentos (Os Três Detetives)

1. O Detetive da "Vazamento de Papel" (Experimento 1)

2. O Detetive do "Troca de Palavras" (Experimento 2)

3. O Detetive da "Memória Invisível" (Experimento 3)

O Veredito Final: O que isso significa?

Título: Modelos de Linguagem Grandes (LLMs) são Realmente Mais Inteligentes que Humanos? Contaminação de Benchmarks, Dependência de Padrões Superficiais e Memorização Comportamental

1. O Problema

2. Metodologia

3. Principais Contribuições

4. Resultados Chave

Experimento 1: Contaminação Lexical

Experimento 2: Degradação por Superfície

Experimento 3: Sonda Comportamental (TS-Guessing)

5. Significado e Implicações

Are Large Language Models Truly Smarter Than Humans?

O Cenário: A "Prova" que todo mundo conhece

Os Três Experimentos (Os Três Detetives)

1. O Detetive da "Vazamento de Papel" (Experimento 1)

2. O Detetive do "Troca de Palavras" (Experimento 2)

3. O Detetive da "Memória Invisível" (Experimento 3)

O Veredito Final: O que isso significa?

Título: Modelos de Linguagem Grandes (LLMs) são Realmente Mais Inteligentes que Humanos? Contaminação de Benchmarks, Dependência de Padrões Superficiais e Memorização Comportamental

1. O Problema

2. Metodologia

3. Principais Contribuições

4. Resultados Chave

Experimento 1: Contaminação Lexical

Experimento 2: Degradação por Superfície

Experimento 3: Sonda Comportamental (TS-Guessing)

5. Significado e Implicações

Mais como este

Exploration and Exploitation Errors Are Measurable for Language Model Agents

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

WebXSkill: Skill Learning for Autonomous Web Agents