Quantifying Hallucinations in Language Language Models on Medical Textbooks

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um grupo de assistentes de inteligência artificial (IA) extremamente inteligentes, que leram milhões de livros e conseguem responder a perguntas de medicina como se fossem doutores formados há décadas. O problema é que, às vezes, esses assistentes são como crianças que inventam histórias para parecerem mais espertas: elas dizem coisas que soam muito convincentes e profissionais, mas que são totalmente falsas. Na área de IA, chamamos isso de "alucinação".

Este artigo é como um teste de realidade para ver quão frequentemente esses assistentes médicos "mentem" quando estão baseados em livros didáticos reais.

Aqui está a explicação do estudo, dividida em partes simples:

1. O Grande Problema: A "Mentira Elegante"

Até agora, os testes para medir a inteligência dessas IAs eram como provas de múltipla escolha onde a IA podia apenas "chutar" ou memorizar a resposta certa. O estudo diz que isso não é suficiente. É como se um aluno de medicina tirasse nota 10 na prova teórica, mas, quando colocado na frente de um paciente real, inventasse um remédio que não existe.

Os autores criaram um novo tipo de teste. Em vez de apenas perguntar "qual é a resposta?", eles deram para a IA um trecho específico de um livro médico e pediram para ela responder com base apenas naquele texto. Se a IA inventasse algo que não estava no texto, era considerada uma "alucinação".

2. A Experiência: O Detetive de Mentiras

Os pesquisadores fizeram dois experimentos principais:

Experimento 1 (O Teste Básico): Eles pegaram um modelo de IA famoso (o LLaMA-70B) e deram a ele milhares de perguntas baseadas em livros médicos.
- O Resultado Chocante: A IA respondeu de forma muito convincente (98,8% das respostas pareciam perfeitas e profissionais), mas 19,7% das vezes ela inventou algo.
- A Analogia: Imagine um ator de cinema que faz um discurso tão emocionante e bem escrito que você chora, mas ele está contando uma história que nunca aconteceu. Para quem não conhece o livro, a mentira parece real.
Experimento 2 (A Comparação e a Opinião dos Médicos): Eles testaram 8 modelos de IA diferentes (de tamanhos variados) e pediram para médicos reais avaliarem as respostas.
- Os médicos não só verificaram se a resposta estava certa, mas também deram uma nota de "útil" ou "perigosa".
- Descoberta Importante: Quanto maior e mais "gordo" o modelo de IA (mais dados ele tem), menos ele tende a alucinar. Porém, nenhum modelo foi perfeito. Todos eles cometeram erros.
- O Paradoxo: Existe uma correlação clara: quanto menos a IA inventa, mais os médicos gostam dela. Mas mesmo as melhores IAs ainda erram.

3. As Armadilhas do Teste

O estudo descobriu que o formato da pergunta importa muito:

Perguntas "Inversas": Se você pergunta "Quais remédios são seguros?", a IA acerta mais. Se você pergunta "Quais remédios são inseguros?", a IA tende a alucinar muito mais (inventando perigos que não existem ou esquecendo os reais).
Listas: Pedir para a IA fazer uma lista completa de coisas (como "liste todas as contraindicações") é um teste muito difícil. A IA tende a esquecer itens ou inventar novos.

4. O Custo Real: O Preço da Verdade

Aqui está a parte mais importante para o futuro da medicina:

Para saber se a IA está mentindo, é necessário um médico humano lendo cada resposta.
A IA pode gerar a resposta em segundos, mas um médico leva minutos para verificar se aquilo é verdade.
A Metáfora Final: Imagine que a IA é uma máquina de imprimir bilhetes de loteria. Ela pode imprimir milhões de bilhetes em um segundo. Mas, para saber se algum deles é um prêmio, você precisa de um funcionário humano para conferir cada um. O custo de ter esse funcionário humano é tão alto que, no momento, não é seguro usar essas IAs sozinhas em hospitais.

Conclusão Simples

Este estudo nos diz que, embora as IAs médicas sejam impressionantes e pareçam muito inteligentes, elas ainda não são confiáveis o suficiente para trabalhar sozinhas. Elas podem inventar fatos com tanta elegância que até um leigo seria enganado.

Até que possamos criar uma forma automática de verificar se a IA está mentindo (algo que ainda não existe com a mesma precisão de um médico humano), nenhuma IA deve ser usada para tomar decisões médicas críticas sem a supervisão de um profissional real. A "mentira elegante" da IA ainda é um risco de segurança muito sério.

Each language version is independently generated for its own context, not a direct translation.

Aqui está um resumo técnico detalhado do artigo "Quantifying Hallucinations in Language Models on Medical Textbooks", apresentado em português:

1. O Problema

Os Grandes Modelos de Linguagem (LLMs) demonstraram desempenho de nível especialista em benchmarks tradicionais de Perguntas e Respostas (QA) médicas. No entanto, esses modelos frequentemente produzem alucinações (afirmações factualmente incorretas ou não fundamentadas), o que representa um risco crítico de segurança na área da saúde.

Limitação dos Benchmarks Atuais: A maioria dos benchmarks médicos (como MEDQA ou MEDMCQA) baseia-se em exames de múltipla escolha ou dados de licenciamento. Eles avaliam a capacidade de memorização ou reconhecimento de padrões, mas não verificam se a resposta é fundamentada em uma fonte de evidência específica.
Contaminação de Dados: Muitos benchmarks podem estar contaminados com dados presentes no conjunto de treinamento dos modelos, inflando artificialmente as pontuações e mascarando a incapacidade do modelo de raciocinar sobre novos textos.
Definição de Alucinação: O estudo define alucinação como qualquer conteúdo plausível, mas não factual; informações falsas ou fabricadas; ou conteúdo que não é fiel às instruções de entrada ou à fonte de evidência autorizada.

2. Metodologia

Os autores desenvolveram um pipeline chamado ClinIQLink para criar um benchmark resistente à contaminação e fundamentado em texto, utilizando livros didáticos médicos de domínio público.

A. Construção do Corpus e Prompts

Fonte: Trechos de livros didáticos médicos de domínio público.
Filtragem: Remoção de textos curtos, boilerplate e ruído estrutural. Seleção baseada em heurísticas de densidade de entidades nomeadas e coerência semântica.
Geração de QA: Um LLM (LLaMA-70B-Instruct) gera pares de Pergunta-Resposta (QA) em sete formatos diferentes (Verdadeiro/Falso, Lista, Múltipla Escolha, Resposta Curta, Raciocínio Multi-hop e duas variantes inversas).
Validação Humana: Anotadores médicos treinados verificam os pares gerados, atribuindo pontuações de relevância e sinalizando erros factuais ou alucinações.

B. Experimentos Realizados

O estudo foi dividido em dois experimentos principais:

Experimento 1 (Prevalência Basal): Avaliação do modelo LLaMA-70B-Instruct (open-source) em um cenário zero-shot com os pares QA gerados. O objetivo foi medir a taxa base de alucinações.
Experimento 2 (Comparação Cross-Modelo e Preferência Clínica):
- Aplicação do benchmark a 8 modelos de linguagem de diferentes tamanhos e estratégias de treinamento (incluindo Phi-4, LLaMA 3.3, Qwen 3, Mistral, Falcon e modelos internos anonimizados).
- Estudo de Preferência: Médicos clínicos classificaram as respostas dos modelos (do melhor ao pior) e as rotularam como "Boa", "Ok" ou "Ruim", focando na correção factual e utilidade clínica.

C. Métricas e Análise

Taxa de Alucinação: Proporção de respostas que violam a definição de alucinação.
Plausibilidade e Resposta: Avaliação se a resposta parece médica e se responde à pergunta.
Acordo Inter-anotador: Coeficiente Kappa de Cohen (ponderado quadraticamente) e Fleiss' Kappa.
Correlação: Análise de correlação de Spearman entre a taxa de alucinação e a pontuação de utilidade clínica.

3. Principais Contribuições

Novo Benchmark Fundamentado em Texto: Criação de um conjunto de dados de 5.543 pares QA onde cada item é vinculado a um parágrafo de autoridade específico, permitindo a detecção precisa de alucinações (conteúdo não suportado pelo texto fonte).
Pipeline de Validação Híbrido: Combinação de geração automatizada com verificação rigorosa por especialistas médicos para garantir a qualidade do benchmark.
Análise de Viés de Formato: Investigação de como diferentes formatos de perguntas (especialmente perguntas "inversas" e listas) afetam a propensão à alucinação.
Correlação com Preferência Clínica: Estabelecimento de uma ligação quantitativa entre a taxa de alucinação e a preferência de médicos clínicos.

4. Resultados Chave

Taxa de Alucinação (Experimento 1)

O modelo LLaMA-70B-Instruct apresentou uma taxa de alucinação de 19,7% (IC 95%: 18,6% a 20,7%).
Paradoxo da Plausibilidade: 98,8% das respostas receberam a pontuação máxima de plausibilidade (pareciam médicas e bem escritas), indicando que a fluência não é um indicador confiável de veracidade.

Comparação Cross-Modelo (Experimento 2)

Escala vs. Alucinação: Houve uma correlação clara entre o tamanho do modelo e a redução de alucinações. A taxa caiu de 27,1% para modelos de 1 bilhão de parâmetros para 9,3% para modelos de 70 bilhões.
Impacto do Formato da Pergunta:
- Perguntas Inversas: Modelos cometeram 6-9% mais alucinações em perguntas com negação/inversão (ex: "Qual droga NÃO é segura?") em comparação com perguntas diretas.
- Listas: Perguntas do tipo "liste todas as contraindicações" foram as mais difíceis, com a maioria dos modelos omitindo itens reais ou adicionando itens não suportados.
Preferência Clínica: Médicos concordaram substancialmente na classificação das respostas (Kappa quadrático = 0,92 para validade).
Correlação Negativa: Existe uma forte correlação negativa ( $\rho = -0,71$ ) entre a taxa de alucinação e a pontuação de utilidade clínica. Modelos com menos alucinações foram preferidos pelos médicos.

Custos

A verificação humana é o gargalo de custo. O custo de verificação por item supera o custo de geração computacional em mais de uma ordem de magnitude, tornando a automação total inviável sem supervisão humana.

5. Significado e Conclusões

Inadequação para Uso Clínico Autônomo: O estudo conclui que os LLMs atuais, independentemente da escala ou arquitetura, não estão prontos para implantação clínica não supervisionada. Mesmo os melhores modelos ainda produzem alucinações em cerca de 1 a cada 10 a 20 respostas.
Necessidade de Supervisão Humana: Devido à alta taxa de erro e ao custo proibitivo da verificação humana em larga escala, nenhum sistema médico baseado em LLM pode ser usado em cenários de alto risco sem supervisão de especialistas humanos.
Mudança de Paradigma de Avaliação: A avaliação de modelos médicos deve abandonar benchmarks de múltipla escolha baseados em memorização e adotar protocolos fundamentados em texto que penalizem explicitamente alucinações, utilizando formatos de perguntas desafiadores (inversos e de lista) para estressar os modelos.

Em resumo, o trabalho fornece evidências empíricas robustas de que a "fluência" dos modelos não equivale a "fidedignidade" e que a verificação humana permanece como um componente essencial e custoso para qualquer aplicação médica segura de IA.