Quantifying Hallucinations in Language Language Models on Medical Textbooks

Este estudo quantifica a prevalência de alucinações em modelos de linguagem médica, revelando que o LLaMA-70B-Instruct alucinou em 19,7% das respostas baseadas em livros didáticos, apesar de alta plausibilidade, e demonstra uma correlação entre menores taxas de alucinação e maior preferência dos clínicos.

Brandon C. Colelough, Davis Bartels, Dina Demner-Fushman

Publicado 2026-03-12
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um grupo de assistentes de inteligência artificial (IA) extremamente inteligentes, que leram milhões de livros e conseguem responder a perguntas de medicina como se fossem doutores formados há décadas. O problema é que, às vezes, esses assistentes são como crianças que inventam histórias para parecerem mais espertas: elas dizem coisas que soam muito convincentes e profissionais, mas que são totalmente falsas. Na área de IA, chamamos isso de "alucinação".

Este artigo é como um teste de realidade para ver quão frequentemente esses assistentes médicos "mentem" quando estão baseados em livros didáticos reais.

Aqui está a explicação do estudo, dividida em partes simples:

1. O Grande Problema: A "Mentira Elegante"

Até agora, os testes para medir a inteligência dessas IAs eram como provas de múltipla escolha onde a IA podia apenas "chutar" ou memorizar a resposta certa. O estudo diz que isso não é suficiente. É como se um aluno de medicina tirasse nota 10 na prova teórica, mas, quando colocado na frente de um paciente real, inventasse um remédio que não existe.

Os autores criaram um novo tipo de teste. Em vez de apenas perguntar "qual é a resposta?", eles deram para a IA um trecho específico de um livro médico e pediram para ela responder com base apenas naquele texto. Se a IA inventasse algo que não estava no texto, era considerada uma "alucinação".

2. A Experiência: O Detetive de Mentiras

Os pesquisadores fizeram dois experimentos principais:

  • Experimento 1 (O Teste Básico): Eles pegaram um modelo de IA famoso (o LLaMA-70B) e deram a ele milhares de perguntas baseadas em livros médicos.

    • O Resultado Chocante: A IA respondeu de forma muito convincente (98,8% das respostas pareciam perfeitas e profissionais), mas 19,7% das vezes ela inventou algo.
    • A Analogia: Imagine um ator de cinema que faz um discurso tão emocionante e bem escrito que você chora, mas ele está contando uma história que nunca aconteceu. Para quem não conhece o livro, a mentira parece real.
  • Experimento 2 (A Comparação e a Opinião dos Médicos): Eles testaram 8 modelos de IA diferentes (de tamanhos variados) e pediram para médicos reais avaliarem as respostas.

    • Os médicos não só verificaram se a resposta estava certa, mas também deram uma nota de "útil" ou "perigosa".
    • Descoberta Importante: Quanto maior e mais "gordo" o modelo de IA (mais dados ele tem), menos ele tende a alucinar. Porém, nenhum modelo foi perfeito. Todos eles cometeram erros.
    • O Paradoxo: Existe uma correlação clara: quanto menos a IA inventa, mais os médicos gostam dela. Mas mesmo as melhores IAs ainda erram.

3. As Armadilhas do Teste

O estudo descobriu que o formato da pergunta importa muito:

  • Perguntas "Inversas": Se você pergunta "Quais remédios são seguros?", a IA acerta mais. Se você pergunta "Quais remédios são inseguros?", a IA tende a alucinar muito mais (inventando perigos que não existem ou esquecendo os reais).
  • Listas: Pedir para a IA fazer uma lista completa de coisas (como "liste todas as contraindicações") é um teste muito difícil. A IA tende a esquecer itens ou inventar novos.

4. O Custo Real: O Preço da Verdade

Aqui está a parte mais importante para o futuro da medicina:

  • Para saber se a IA está mentindo, é necessário um médico humano lendo cada resposta.
  • A IA pode gerar a resposta em segundos, mas um médico leva minutos para verificar se aquilo é verdade.
  • A Metáfora Final: Imagine que a IA é uma máquina de imprimir bilhetes de loteria. Ela pode imprimir milhões de bilhetes em um segundo. Mas, para saber se algum deles é um prêmio, você precisa de um funcionário humano para conferir cada um. O custo de ter esse funcionário humano é tão alto que, no momento, não é seguro usar essas IAs sozinhas em hospitais.

Conclusão Simples

Este estudo nos diz que, embora as IAs médicas sejam impressionantes e pareçam muito inteligentes, elas ainda não são confiáveis o suficiente para trabalhar sozinhas. Elas podem inventar fatos com tanta elegância que até um leigo seria enganado.

Até que possamos criar uma forma automática de verificar se a IA está mentindo (algo que ainda não existe com a mesma precisão de um médico humano), nenhuma IA deve ser usada para tomar decisões médicas críticas sem a supervisão de um profissional real. A "mentira elegante" da IA ainda é um risco de segurança muito sério.