A statistical framework for evaluating the repeatability and reproducibility of large language models

⚕️

Esta é uma explicação gerada por IA de um preprint que não foi revisado por pares. Não é aconselhamento médico. Não tome decisões de saúde com base neste conteúdo. Ler aviso legal completo

Each language version is independently generated for its own context, not a direct translation.

Imagine que você pediu para um assistente de IA (como o ChatGPT) diagnosticar uma doença. Na primeira vez, ele diz: "É meningite". Você fica feliz. Mas, se você perguntar a mesma coisa 100 vezes seguidas, o que acontece?

Às vezes, ele pode responder "É meningite" novamente. Outras vezes, pode dizer "Provavelmente é encefalite" ou "Os sintomas sugerem uma infecção viral".

O problema é que, na medicina, consistência é tão importante quanto a resposta certa. Se o médico (ou a IA) muda de ideia a cada vez que você pisca, como você pode confiar nele?

Este artigo científico propõe um novo "termômetro" para medir essa consistência. Vamos explicar como funciona usando analogias do dia a dia:

1. O Problema: A IA é como um ator improvisando

Os modelos de linguagem (LLMs) não são calculadoras que dão sempre o mesmo resultado para a mesma conta. Eles são mais como atores de teatro improvisando.

Se você der a mesma peça (o prompt) para o mesmo ator (o modelo) 10 vezes, ele pode entregar a mesma cena, mas com palavras levemente diferentes.
Em algumas vezes, ele pode até mudar o final da cena.
Para a medicina, isso é perigoso. Um paciente não pode ter um diagnóstico diferente toda vez que o computador é reiniciado.

2. A Solução: O "Kit de Medição" de Confiança

Os autores criaram um sistema para medir duas coisas principais: Repetibilidade e Reprodutibilidade. Pense neles como testes de qualidade para um produto:

Repetibilidade (O Teste do Espelho): É quando você pede a mesma coisa, da mesma maneira, exatamente no mesmo momento.
- Analogia: É como pedir para um cozinheiro fazer o mesmo bolo 10 vezes seguidas na mesma cozinha. Se o bolo sair com o mesmo sabor e formato 10 vezes, ele é repetível.
Reprodutibilidade (O Teste da Receita): É quando você muda um detalhe (como o cozinheiro, a cozinha ou a receita) e vê se o resultado final ainda é o mesmo.
- Analogia: Se você pedir para três cozinheiros diferentes fazerem o mesmo bolo, eles devem chegar ao mesmo resultado final (o bolo de chocolate), mesmo que usem palavras diferentes para explicar o processo. Se um faz bolo de cenoura e o outro de chocolate, a reprodutibilidade é ruim.

3. As Duas Lentes de Observação

O artigo diz que não basta olhar apenas para a resposta final (o bolo pronto). É preciso olhar de duas formas:

Lente Semântica (O Significado):
- Olha se a ideia é a mesma.
- Exemplo: Se a IA diz "O paciente tem meningite" em uma vez e "A causa é meningite" na outra, o significado é o mesmo. A lente semântica diz: "Ok, eles concordam!".
Lente Interna (A Probabilidade):
- Olha para o "cérebro" da IA enquanto ela pensa.
- Exemplo: Mesmo que a IA diga "Meningite" nas duas vezes, a lente interna verifica: "Na primeira vez, a IA estava 99% certa. Na segunda, ela estava dividida entre 5 doenças diferentes e escolheu meningite por sorte".
- Se a IA estiver sempre "tremida" internamente (incerta), mesmo que a resposta pareça correta, ela não é confiável.

4. O Que Eles Descobriram? (Os Resultados)

Os pesquisadores testaram isso com perguntas de exames médicos reais e casos de pacientes raros. Eis o que descobriram:

A "Sorte" não é Consistência: Uma IA pode acertar o diagnóstico uma vez (sorte ou habilidade), mas falhar em acertar 10 vezes seguidas. Acerto não significa consistência.
O Modo de Perguntar Importa: A forma como você pede a resposta muda tudo.
- Analogia: É como perguntar a um amigo: "Qual é a resposta?" (ele pode chutar) vs. "Pense passo a passo como um médico, usando lógica e probabilidades" (ele tende a ser mais consistente).
- O estudo mostrou que pedir para a IA usar raciocínio bayesiano (uma forma de pensar baseada em atualizar probabilidades com novas provas) fez a IA ser muito mais consistente do que pedir apenas para "pensar".
Casos Reais vs. Provas: A IA foi mais consistente em casos de pacientes reais (que têm muitas informações detalhadas) do que em perguntas de prova de múltipla escolha (que são mais curtas e abstratas). Parece que ter mais contexto ajuda a IA a "se manter no caminho".

5. Por que isso é importante para você?

Antes, só nos importávamos se a IA estava certa. Agora, precisamos saber se ela é confiável.

Imagine que você está usando uma IA para ajudar a diagnosticar uma doença rara.

Se ela diz "É Doença X" hoje, e amanhã diz "É Doença Y" para o mesmo paciente, você não pode confiar nela.
Este novo sistema permite que médicos e reguladores (como a FDA, nos EUA) digam: "Esta IA é boa, mas ela é muito instável. Precisamos ajustar como perguntamos a ela antes de usá-la em hospitais."

Resumo Final:
Este artigo criou uma régua para medir a "estabilidade" da Inteligência Artificial. Ele nos ensina que, na medicina, não basta a IA acertar a resposta uma vez; ela precisa ser capaz de repetir essa acerto com a mesma certeza, não importa quantas vezes você pergunte ou como você formule a pergunta. É sobre transformar a IA de um "adivinho sorteiro" em um "médico confiável".

Each language version is independently generated for its own context, not a direct translation.

Título: Um Framework Estatístico para Avaliar a Repetibilidade e Reprodutibilidade de Modelos de Linguagem de Grande Escala (LLMs)

1. O Problema

Os Modelos de Linguagem de Grande Escala (LLMs) estão sendo cada vez mais aplicados em cenários biomédicos, como documentação clínica e suporte à decisão. No entanto, a avaliação atual foca predominantemente em métricas de precisão (acurácia) em relação a uma "verdade fundamental". Isso ignora uma limitação crítica: a variabilidade de saída. Como os LLMs geram texto amostrando tokens de distribuições de probabilidade, prompts idênticos podem produzir respostas diferentes em execuções repetidas.

A falta de métodos sistemáticos para quantificar essa variabilidade cria uma lacuna na avaliação de confiabilidade, especialmente em contextos clínicos onde a consistência é vital. Além disso, agências reguladoras, como o FDA (Food and Drug Administration) dos EUA, recomendam a avaliação de repetibilidade (acordo sob condições idênticas) e reprodutibilidade (acordo sob condições pré-especificadas diferentes), mas não existem frameworks padronizados para operacionalizar esses conceitos em LLMs.

2. Metodologia

Os autores desenvolveram um framework estatístico baseado nas diretrizes do FDA para software médico habilitado por IA. O framework define quatro métricas complementares divididas em duas dimensões: Semântica (significado do texto) e Interna (distribuições de probabilidade nos tokens).

Definições das Métricas:

Repetibilidade Semântica: Mede a consistência do significado das saídas em execuções repetidas sob condições idênticas (mesmo prompt, modelo e parâmetros). É calculada usando a similaridade de cosseno média entre vetores de embedding das saídas.
Repetibilidade Interna: Mede a certeza das distribuições de probabilidade nos tokens durante a geração sob condições idênticas. É calculada através da entropia de Shannon das distribuições truncadas (top-k) dos tokens. Menor entropia indica maior certeza (maior repetibilidade).
Reprodutibilidade Semântica: Mede a consistência do significado das saídas sob condições diferentes (ex.: prompts diferentes, usuários diferentes). Calculada pela similaridade de cosseno entre os vetores de embedding médios de diferentes condições.
Reprodutibilidade Interna: Mede a consistência da certeza das distribuições de probabilidade sob condições diferentes. Calculada pela diferença média na entropia entre as condições.

Configuração Experimental:

Dados: Duas bases de dados distintas:
- 518 questões do U.S. Medical Licensing Examination (USMLE/MedQA) – cenários padronizados e idealizados.
- 90 casos reais de doenças raras da Undiagnosed Diseases Network (UDN) – dados clínicos complexos, incompletos e heterogêneos.
Modelos: Três LLMs de diferentes tamanhos e origens: ChatGPT-4 (comercial), ChatGPT-4o-mini (comercial, leve) e LLaMA 3.2-1B (open-source, leve).
Prompts: Cinco estratégias de raciocínio Chain-of-Thought (CoT): Tradicional, Diagnóstico Diferencial, Intuitivo, Analítico e Bayesiano.
Execução: Cada combinação (prompt-caso-modelo) foi executada 100 vezes independentemente ( $R=100$ ).
Parâmetros: Temperatura $T=0.5$ e $top-k=30$ para equilibrar determinismo e diversidade.

3. Principais Contribuições

Framework Regulatório-Informado: O primeiro framework a operacionalizar as definições de repetibilidade e reprodutibilidade do FDA especificamente para LLMs, criando uma ponte entre requisitos regulatórios e avaliação técnica de IA.
Métricas Duais (Semântica e Interna): Propõe uma abordagem holística que avalia não apenas o texto final (semântica), mas também o processo interno de geração (probabilidades dos tokens), permitindo detectar instabilidades que não são visíveis na superfície do texto.
Agnosticismo: O framework é agnóstico ao modelo específico e à tarefa, aplicável a qualquer sistema de LLM autoregressivo.
Análise de Variáveis: Demonstra que a variabilidade não é uma propriedade fixa do modelo, mas depende da interação entre o modelo, a estratégia de prompting e o conjunto de dados.

4. Resultados

Variação por Prompt e Modelo: A repetibilidade e reprodutibilidade variaram significativamente dependendo do modelo, do conjunto de dados e, crucialmente, da estratégia de prompting.
- Prompts que elicitem raciocínio Bayesiano resultaram em significativamente maior repetibilidade semântica para o ChatGPT-4 ( $p < 0.001$ ).
- O modelo LLaMA 3.2-1B apresentou maior reprodutibilidade semântica em comparação aos modelos comerciais em ambos os conjuntos de dados.
Impacto do Tipo de Dado: Os casos da UDN (doenças raras, texto longo e complexo) exibiram menor variabilidade nas métricas de repetibilidade entre diferentes prompts em comparação com as questões do USMLE (mais curtas e padronizadas). Isso sugere que a estrutura narrativa detalhada pode restringir o espaço de respostas plausíveis.
Relação com Precisão Diagnóstica:
- Não há correlação direta: A precisão diagnóstica (resposta correta) não garantiu alta repetibilidade ou reprodutibilidade. Um modelo pode acertar uma vez e falhar em repetir a resposta correta consistentemente.
- Exceção: Sob a estratégia de raciocínio Intuitivo, casos diagnosticados corretamente tiveram repetibilidade interna significativamente maior do que os incorretos.
- Em geral, casos corretos e incorretos apresentaram pontuações de repetibilidade e reprodutibilidade semelhantes na maioria das outras estratégias.

5. Significância e Conclusão

Este trabalho estabelece que a consistência é uma dimensão distinta e crítica da performance de LLMs, separada da acurácia.

Para a Prática Clínica: A inconsistência nas saídas de um LLM pode reduzir a confiança dos médicos e complicar a interpretação clínica, mesmo que a resposta seja ocasionalmente correta. O framework oferece ferramentas para quantificar essa robustez.
Para Pesquisa e Regulação: As métricas propostas permitem comparações sistemáticas entre configurações de modelos e prompts, apoiando o desenvolvimento de software médico mais confiável e alinhado com as expectativas de agências como o FDA.
Limitações: O cálculo das métricas internas requer acesso às probabilidades dos tokens (disponível em modelos autoregressivos, mas não em todos os tipos de LLM) e é computacionalmente custoso devido à necessidade de múltiplas execuções.

Em suma, o estudo conclui que a avaliação de LLMs em biomedicina deve ir além da precisão, incorporando métricas de variabilidade para garantir que os sistemas sejam não apenas inteligentes, mas também confiáveis e consistentes.

A statistical framework for evaluating the repeatability and reproducibility of large language models

1. O Problema: A IA é como um ator improvisando

2. A Solução: O "Kit de Medição" de Confiança

3. As Duas Lentes de Observação

4. O Que Eles Descobriram? (Os Resultados)

5. Por que isso é importante para você?

Título: Um Framework Estatístico para Avaliar a Repetibilidade e Reprodutibilidade de Modelos de Linguagem de Grande Escala (LLMs)

1. O Problema

2. Metodologia

3. Principais Contribuições

4. Resultados

5. Significância e Conclusão

Mais como este

A case report on gendered biases in a Finnish healthcare AI assistant

An End-to-End Synthetic Oncology Clinical Trial Framework Integrating Radiographic Response, Circulating Tumor DNA, Safety, and Survival for Decision-Oriented Clinical Data Science

Who is leading medical AI? A systematic review and scientometric analysis of chest x-ray research

High-Throughput Observational Evidence Generation Using Linked Electronic Health Record and Claims Data

Perception of Safety in Behavioral Health Crisis Units among Patients and Care Partners versus Artificial Intelligence (AI): A Multimethod Study