The Dunning-Kruger Effect in Large Language Models: An Empirical Study of Confidence Calibration

Este estudo empírico revela que grandes modelos de linguagem, especialmente os com menor desempenho como o Kimi K2, exibem um efeito Dunning-Kruger ao demonstrarem uma confiança excessiva e descalibrada em suas respostas, levantando preocupações sobre sua segurança em aplicações de alto risco.

Sudipta Ghosh, Mrityunjoy Panday

Publicado 2026-03-12
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está em uma sala de aula com quatro alunos muito diferentes, cada um representando um "cérebro" de Inteligência Artificial (IA) moderno. O professor (nós, os pesquisadores) faz 24.000 perguntas difíceis para eles, de matemática a curiosidades históricas.

O objetivo não é apenas ver quem acertou mais, mas principalmente ver se eles sabem o quanto sabem. É aqui que entra o conceito do Efeito Dunning-Kruger.

O que é o Efeito Dunning-Kruger?

Pense no aluno que não sabe nada de música, mas acha que é o próximo Mozart. Ele canta desafinado, mas ri e diz: "Estou perfeito!". Esse é o Efeito Dunning-Kruger: quanto menos você sabe, mais confiante você acha que está. Por outro lado, o verdadeiro especialista, que sabe o quanto é complexo o assunto, tende a ter mais dúvidas e a ser mais humilde sobre suas respostas.

O Experimento: Quem é o "Mozart" e quem é o "Desafinado"?

Neste estudo, testamos quatro IAs famosas (Claude Haiku 4.5, Gemini 2.5 Pro, Gemini 2.5 Flash e Kimi K2) para ver se elas sofrem desse mesmo problema humano.

Aqui está o que descobrimos, usando analogias simples:

1. O "Aluno Confiante mas Desastroso" (Kimi K2)

Imagine um aluno que acertou apenas 23% das perguntas (ou seja, errou quase 4 em cada 5). Mas, quando o professor perguntou: "Você tem certeza?", ele respondeu com 95% de certeza.

  • A Analogia: É como alguém que joga dardos no escuro, erra o alvo 7 vezes de 10, mas grita: "Eu vi o alvo perfeitamente! Foi o vento que me atrapalhou!".
  • O Resultado: Essa IA (Kimi K2) tem o que chamamos de "Calibração Ruim". Ela é perigosa porque, quando está errada, ela acha que está certa. Isso é um pesadelo para médicos ou juízes que usassem essa IA, pois ela daria conselhos errados com uma voz de autoridade absoluta.

2. O "Aluno Humilde e Preciso" (Claude Haiku 4.5)

Este aluno acertou 75% das perguntas. Mas o mais impressionante é o que ele disse sobre sua confiança:

  • Quando acertou, ele disse: "Tenho 90% de certeza".
  • Quando estava em dúvida, ele disse: "Tenho apenas 40% de certeza".
  • A Analogia: É como um piloto experiente. Se o tempo está bom, ele diz: "Vou voar tranquilo". Se há uma tempestade, ele diz: "Não tenho certeza se devo voar, preciso verificar os instrumentos". Ele ajusta sua confiança à realidade.
  • O Resultado: Ele foi o campeão de "Calibração". Ele sabe quando sabe e, mais importante, sabe quando não sabe.

3. Os "Robôs de Confiança Fixa" (Gemini)

As IAs da Google (Pro e Flash) acertaram muitas perguntas (até 80%), mas tinham um problema curioso: elas eram teimosas.

  • A Analogia: Imagine um GPS que diz "Siga em frente" com a mesma voz confiante, quer você esteja na estrada certa ou querendo cair de um penhasco. Elas mantinham uma confiança de 99% o tempo todo, independentemente de estivessem acertando ou errando. Elas não conseguiam "baixar a guarda" quando estavam confusas.

Por que isso é importante para o mundo real?

O estudo nos ensina uma lição vital para o futuro: Não basta a IA ser inteligente; ela precisa ser honesta sobre o quanto sabe.

  • O Perigo: Se você usar uma IA como a "Kimi" (a superconfiante) para diagnosticar uma doença, ela pode inventar um tratamento errado e dizer com 99% de certeza que é a cura. O paciente pode confiar e se machucar.
  • A Solução: Precisamos de IAs como a "Claude" (a humilde). Se ela diz "Não tenho certeza sobre este diagnóstico", o médico humano pode intervir e verificar. Isso salva vidas.

Conclusão da História

Este estudo é como um teste de direção para carros autônomos. Descobrimos que alguns carros (modelos de IA) são ótimos em dirigir, mas têm um motorista que acha que é o melhor do mundo, mesmo quando está prestes a bater. Outros carros são bons e têm um motorista que sabe exatamente quando está em terreno perigoso.

Para usarmos essas tecnologias com segurança em hospitais, tribunais e laboratórios, não podemos olhar apenas para a nota final (quantas perguntas acertaram). Precisamos olhar para a humildade da máquina. A verdadeira inteligência artificial madura é aquela que sabe dizer: "Eu não sei".