Reproducibility and Robustness of Large Language Models for Mobility Functional Status Extraction

⚕️

Esta é uma explicação gerada por IA de um preprint que não foi revisado por pares. Não é aconselhamento médico. Não tome decisões de saúde com base neste conteúdo. Ler aviso legal completo

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um super-robô médico (chamado de "Modelo de Linguagem Grande" ou LLM) que é muito inteligente. Ele lê as anotações manuscritas ou digitadas dos médicos e consegue encontrar informações importantes, como se o paciente consegue andar, se usa cadeira de rodas ou se consegue levantar objetos.

O problema é que, às vezes, esse robô é um pouco inconstante. Se você fizer a mesma pergunta duas vezes, ele pode dar respostas diferentes. Ou, se você mudar apenas uma ou duas palavras na sua pergunta, ele pode mudar totalmente a resposta. Para um hospital, isso é perigoso: você não pode ter um sistema que diz "sim" hoje e "não" amanhã para o mesmo paciente.

Este estudo da Mayo Clinic foi como um teste de estresse para três desses robôs, para ver quais são os mais confiáveis e como fazê-los funcionar melhor.

Aqui está a explicação do que eles descobriram, usando analogias do dia a dia:

1. Os Três "Candidatos" (Os Modelos)

Os pesquisadores testaram três tipos de robôs diferentes:

O "Generalista Densa" (Llama 3.3): É como um maratonista. Ele usa toda a sua energia de uma vez para resolver qualquer problema. É consistente e estável.
O "Generalista Especialista" (Llama 4 - MoE): É como um time de especialistas onde, a cada pergunta, apenas alguns membros do time são escolhidos para responder. Isso é rápido e eficiente, mas o estudo descobriu que a escolha de quem responde pode mudar aleatoriamente, tornando-o instável (como se o capitão do time mudasse a cada rodada).
O "Médico Especialista" (MedGemma): É como um médico residente que estudou apenas medicina. Ele conhece a linguagem dos hospitais muito bem e tende a ser muito preciso e calmo.

2. O Teste de Temperatura (O "Botão de Criatividade")

Os pesquisadores ajustaram um "botão de temperatura" nos robôs.

Temperatura Baixa (0.0): É como pedir para o robô ser estrito e lógico. Ele dá sempre a mesma resposta.
Temperatura Alta: É como pedir para o robô ser criativo e improvisar. Ele pode inventar variações na resposta.

O que descobriram?
Aumentar a criatividade (temperatura) geralmente faz o robô ficar menos confiável. Ele começa a dar respostas diferentes para a mesma pergunta. Curiosamente, às vezes, um pouco de "criatividade" melhora a pontuação final (precisão), mas o preço é que o robô fica imprevisível. Para um hospital, a previsibilidade é mais importante que um pequeno ganho de precisão.

3. O Teste de "Reescrita" (A Robustez)

Eles mudaram a forma de fazer a pergunta, mas mantiveram o mesmo significado.

Pergunta A: "Verifique se o paciente anda."
Pergunta B: "Analise se há menção à capacidade de caminhar."

O Grande Achado:
O robô "Time de Especialistas" (Llama 4) ficou muito confuso quando a pergunta foi reescrita. Ele parecia não entender que era a mesma coisa. Já o "Médico Especialista" (MedGemma) e o "Maratonista" (Llama 3.3) entenderam perfeitamente, não importa como a pergunta foi feita. Isso mostra que, em ambientes reais onde diferentes médicos escrevem as perguntas, escolher o modelo certo é crucial.

4. A Solução Mágica: O "Voto da Maioria"

Como consertar a instabilidade? Os pesquisadores usaram uma técnica chamada auto-consistência.
Imagine que você precisa tomar uma decisão importante. Em vez de perguntar a uma pessoa, você pergunta a 10 pessoas e segue a resposta que a maioria delas deu.

Eles fizeram o robô responder 10 vezes para a mesma pergunta.
Depois, pegaram a resposta que apareceu mais vezes (voto da maioria).

Resultado: Isso funcionou como um filtro de ruído. Mesmo que o robô estivesse "criativo" e desconfiável, a maioria das respostas era correta. A técnica melhorou muito a estabilidade, quase como se o robô tivesse "acordado" e ficado mais sóbrio, sem precisar ser reprogramado.

Resumo das Lições para o Mundo Real

Precisão não é tudo: Um robô pode ter uma nota alta em um teste, mas se ele muda de opinião a cada vez que você o usa, ele é inútil para medicina.
O "Médico Especialista" (MedGemma) foi o campeão: Ele foi o mais estável e preciso, especialmente quando configurado para ser estrito (temperatura zero).
Cuidado com a criatividade: Em sistemas médicos, é melhor ser chato e consistente do que criativo e variável.
A técnica do "Voto da Maioria" é um salva-vidas: Se você precisa usar um robô que é um pouco instável, faça-o responder várias vezes e pegue a média. Isso custa um pouco mais de tempo de computador, mas garante que a resposta seja confiável.

Em suma: Para usar Inteligência Artificial em hospitais, não basta que ela seja inteligente; ela precisa ser confiável e consistente. Este estudo nos ensina como escolher o robô certo e como "acalmar" ele para que ele não cometa erros por pura oscilação.

Each language version is independently generated for its own context, not a direct translation.

Título: Reprodutibilidade e Robustez de Modelos de Linguagem de Grande Escala (LLMs) para Extração de Status Funcional de Mobilidade

1. Problema e Motivação

A extração de informações clínicas (IE) a partir de textos narrativos não estruturados é fundamental para a análise de dados de saúde. Embora os Modelos de Linguagem de Grande Escala (LLMs) demonstrem alta precisão em tarefas de IE clínica, sua reprodutibilidade (estabilidade sob repetições idênticas) e robustez (estabilidade sob variações naturais de prompts, como reescritas por diferentes clínicos) são frequentemente negligenciadas.

O Desafio: Para implantação clínica, a precisão média não é suficiente. Sistemas precisam ser estáveis para suportar auditorias, análises downstream e confiança do usuário final.
Caso de Estudo: O artigo foca na extração binária do status funcional de mobilidade, alinhado às classes da Classificação Internacional de Funcionalidade, Incapacidade e Saúde (CIF). A documentação de mobilidade é frequentemente indireta (ex: "usa andador", "sem mancar"), exigindo interpretação semântica complexa, o que torna o cenário ideal para testar a sensibilidade dos LLMs.

2. Metodologia

Os autores propuseram um desenho experimental controlado de fatorial para avaliar três modelos de pesos abertos (open-weight) com arquiteturas distintas:

Llama 3.3 70B: Modelo denso de propósito geral (baseline).
Llama-4-Scout-17B-16E: Modelo de Mixture-of-Experts (MoE) de propósito geral.
MedGemma 27B: Modelo especializado em medicina (domain-tuned).

Conjunto de Dados:

800 seções de notas clínicas anotadas (200 por cada uma das 4 classes de mobilidade da CIF).
Classes: Mudança/manutenção de posição corporal, Carregar/mover objetos, Caminhar/mover-se, Uso de transporte.

Configuração Experimental:

Experimento 1 (Reprodutibilidade Intra-Prompt): Avaliação da estabilidade sob o mesmo prompt, variando a temperatura de 0.0 a 1.0 (11 níveis). Cada combinação foi executada 100 vezes.
Experimento 2 (Robustez Inter-Prompt): Avaliação da estabilidade sob 10 paráfrases semanticamente equivalentes do prompt (variações de enquadramento, apresentação e regras de decisão), também variando a temperatura.
Experimento 3 (Mitigação): Avaliação da autoconsistência via votação majoritária (majority voting) sobre múltiplas gerações.

Métricas de Avaliação:

Desempenho: F1-score (média sobre as execuções).
Estabilidade: Coeficiente Kappa de Fleiss ( $\kappa$ ), calculado entre as múltiplas gerações (ou paráfrases) para medir a concordância.
Análise Estatística: ANOVA de três vias (Modelo, Temperatura, Classe de Mobilidade) com testes post-hoc Tukey HSD.

3. Contribuições Principais

Framework de Avaliação Unificado: Uma metodologia rigorosa que separa e quantifica simultaneamente a precisão preditiva e a estabilidade (reprodutibilidade e robustez) em tarefas de IE clínica.
Análise Comparativa de Arquiteturas: Evidência empírica de que modelos de arquitetura MoE (Mixture-of-Experts) podem apresentar instabilidade significativa devido à flutuação no roteamento (routing), mesmo com desempenho competitivo.
Descoberta de Trade-offs: Demonstração de que a temperatura ótima para maximizar o F1-score não é necessariamente a mesma para maximizar a reprodutibilidade.
Estratégia de Mitigação Prática: Validação de que a votação majoritária (self-consistency) é uma técnica eficaz para melhorar a estabilidade sem necessidade de re-treinamento do modelo.

4. Resultados Chave

A. Reprodutibilidade (Variação de Temperatura)

Tendência Geral: O aumento da temperatura degrada consistentemente o acordo ( $\kappa$ ), embora o F1-score varie pouco ou até melhore ligeiramente em alguns casos.
Comportamento por Modelo:
- Llama 3.3 (Denso): Apresentou o declínio mais gradual no $\kappa$ com o aumento da temperatura.
- Llama 4 (MoE): Demonstrou a degradação mais acentuada na estabilidade, especialmente em tarefas complexas, sugerindo que a aleatoriedade no roteamento dos especialistas amplifica a variabilidade.
- MedGemma: Mostrou forte dependência da tarefa, mantendo alta estabilidade em algumas classes de mobilidade, mas com quedas acentuadas em outras (ex: "Mudança de Posição") conforme a temperatura aumentava.
Recomendação: Para todos os modelos, a temperatura 0.0 é recomendada como padrão operacional para garantir reprodutibilidade clínica, pois os ganhos marginais de F1 em temperaturas mais altas não justificam a perda de estabilidade.

B. Robustez (Variação de Prompt/Paráfrase)

Impacto da Paráfrase: A reescrita natural dos prompts causou quedas significativas no $\kappa$ , confirmando que a estabilidade não é uma propriedade uniforme do modelo.
Diferenciação de Modelos:
- O modelo Llama 4 (MoE) apresentou robustez notavelmente inferior em 3 das 4 classes de mobilidade, com $\kappa$ extremamente baixo, indicando alta sensibilidade a pequenas mudanças nas instruções.
- Llama 3.3 e MedGemma foram comparativamente mais robustos à paráfrase.
Conclusão Estatística: A ANOVA confirmou que o Modelo é o fator dominante na robustez, com interações significativas entre Modelo e Tarefa.

C. Efeito da Autoconsistência (Votação Majoritária)

A aplicação de votação majoritária sobre 10 gerações resultou em:
- Aumento Substancial no $\kappa$ : Melhoria drástica na estabilidade, especialmente para o modelo MoE (Llama 4) e em temperaturas mais altas.
- Preservação ou Melhoria do F1: O desempenho preditivo foi mantido ou ligeiramente melhorado.
- Custo: Aumento proporcional no custo computacional e latência (necessidade de múltiplas inferências).

5. Significado e Implicações para Implantação Clínica

Precisão $\neq$ Confiabilidade: O estudo alerta que métricas de precisão média (F1) podem mascarar variabilidade crítica entre execuções, o que é inaceitável em pipelines clínicos onde a consistência é vital para auditoria e tomada de decisão.
Seleção de Modelos: A escolha do modelo deve considerar explicitamente a sensibilidade a prompts e a arquitetura. Modelos MoE podem exigir cautela extra em cenários onde os prompts são gerados por múltiplos usuários ou evoluem com o tempo.
Estratégias de Implantação:
- Para cenários que exigem comportamento determinístico: Use temperatura 0.0.
- Para cenários onde a temperatura não pode ser zero (ex: sistemas multi-agente, necessidade de exploração): Implemente votação majoritária como um controle de confiabilidade em tempo de inferência.
Recomendação Final: O modelo MedGemma em temperatura 0.0 emergiu como uma escolha sólida para implantação única, combinando alto desempenho preditivo com alta reprodutibilidade e robustez em todas as classes de mobilidade testadas.

6. Limitações e Trabalhos Futuros

O estudo focou em tarefas binárias de mobilidade e um único sistema de saúde. Trabalhos futuros devem investigar a generalização para extração de intervalos (span-level), extração de relações, validação multi-site e o impacto de outros parâmetros de decodificação (top-p, top-k) e variações mais complexas de prompts (múltiplos turnos, ferramentas).