Conformal Prediction for Risk-Controlled Medical Entity Extraction Across Clinical Domains

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem dois assistentes de IA muito inteligentes (chamados LLMs) que ajudam médicos a ler documentos complexos. O trabalho deles é encontrar informações importantes, como nomes de remédios, efeitos colaterais ou diagnósticos em exames de raio-X.

O problema é que esses assistentes às vezes confiam demais em si mesmos (dizem "tenho 99% de certeza" quando estão errados) ou confiam de menos (dizem "não tenho certeza" quando estão certos). Em medicina, um erro silencioso pode ser perigoso.

Os autores deste artigo criaram um "filtro de segurança" chamado Predição Conformal. Pense nele como um inspetor de qualidade ou um guardião que não confia apenas na confiança que o assistente diz ter, mas verifica estatisticamente se o que está sendo dito é seguro antes de deixar passar.

Aqui está a explicação do que eles descobriram, usando analogias do dia a dia:

1. Os Dois Mundos Diferentes

Os pesquisadores testaram os assistentes em dois tipos de documentos muito diferentes:

Rótulos de Medicamentos (FDA): São como receitas de bolo. Tudo é padronizado, escrito em linguagem formal e estruturado. É fácil saber onde começa e termina cada informação.
Laudos de Raio-X: São como bilhetes rabiscados de um médico. A linguagem é curta, cheia de gírias médicas, e às vezes o médico escreve "não podemos excluir" (o que significa que pode ser algo, mas não tem certeza). É caótico e difícil de ler.

2. A Grande Surpresa: A "Confiança" Inverteu!

A descoberta mais interessante é que os assistentes se comportaram de forma oposta nesses dois mundos:

Nos Rótulos de Medicamentos (Receitas): Os assistentes estavam tímidos demais. Eles diziam "tenho pouca certeza" sobre coisas que estavam 100% corretas. Era como um aluno que sabe a resposta da prova, mas treme de medo de levantá-la.
- Resultado: Como eles eram tão cautelosos, o filtro de segurança deixou passar quase tudo, porque os erros eram raros.
Nos Laudos de Raio-X (Bilhetes Rabiscados): Os assistentes estavam arrogantes demais. Eles diziam "tenho 100% de certeza" sobre coisas que estavam erradas. Era como um adivinho que acha que acertou o futuro, mas errou feio.
- Resultado: O filtro de segurança teve que ser muito rigoroso. Ele bloqueou quase 60% das respostas de um modelo (GPT-4.1) e 20% de outro (Llama), apenas para garantir que o que sobrasse fosse seguro.

3. O Filtro de Segurança (Predição Conformal)

Como o filtro funciona? Imagine que você tem uma balança que pesa a "confiança" de cada resposta.

Se o assistente é tímido (rótulos de remédios), o filtro diz: "Ok, você é tão cauteloso que podemos aceitar quase tudo."
Se o assistente é arrogante (raio-X), o filtro diz: "Ei, você está confiante demais! Vamos rejeitar tudo o que não tiver uma prova de fogo muito forte."

O filtro se adapta automaticamente. Ele não usa uma regra única para todos; ele aprende a "personalidade" do assistente naquele contexto específico.

4. O Que Isso Significa para a Medicina?

A lição principal é: Não existe uma solução única para todos os problemas.

Se você usar o mesmo ajuste de segurança para ler rótulos de remédios e laudos de raio-X, vai dar errado.
Em alguns casos, você pode confiar quase 100% no assistente.
Em outros, você precisa rejeitar a maioria das respostas dele e pedir para um médico humano revisar.

Em resumo: Os autores criaram um sistema inteligente que sabe quando confiar na IA e quando desconfiar, garantindo que, se algo for aceito, a chance de estar errado seja controlada e segura. Isso é essencial para que a Inteligência Artificial possa ser usada com segurança nos hospitais do futuro.

Each language version is independently generated for its own context, not a direct translation.

Aqui está um resumo técnico detalhado do artigo "Conformal Prediction for Risk-Controlled Medical Entity Extraction Across Clinical Domains", apresentado em português:

1. Problema e Motivação

Os Grandes Modelos de Linguagem (LLMs) estão sendo cada vez mais utilizados para a extração de entidades médicas estruturadas a partir de textos não estruturados (como prontuários e rótulos de medicamentos). No entanto, a implantação segura desses modelos em ambientes clínicos enfrenta um obstáculo crítico: a má calibração das pontuações de confiança.

Os modelos frequentemente atribuem probabilidades de softmax que não refletem a precisão real (podendo ser excessivamente confiantes em erros ou pouco confiantes em acertos).
Técnicas de calibração post-hoc tradicionais (como escalonamento de temperatura) exigem dados de validação separados e não oferecem garantias formais de cobertura.
A qualidade da calibração varia drasticamente entre diferentes tarefas, domínios e tipos de entidades, tornando impossível estabelecer um único limiar de confiabilidade global.

O objetivo do trabalho é fornecer um framework que garanta limites de Taxa de Descoberta Falsa (FDR - False Discovery Rate) finitos e controlados, permitindo rejeitar extracções incertas antes de serem usadas em decisões clínicas.

2. Metodologia

Os autores propõem um framework de Previsão Conformal (Conformal Prediction - CP) focado no controle de risco, baseado na estrutura de "conjuntos de previsão controlados por risco" de Bates et al. [3]. O pipeline consiste em quatro etapas principais:

Extração com Confiança de Token:
- Utilização de GPT-4.1 e Llama-4-Maverick para extrair entidades.
- Cálculo de confiança no nível do span (trecho de texto) utilizando a média geométrica das probabilidades de softmax dos tokens constituintes. Isso torna a métrica mais sensível a tokens com baixa probabilidade que podem indicar erros de extração.
Verificação (Ground Truth):
- Rótulos de Medicamentos da FDA: Extração de 1.000 rótulos em 8 seções padronizadas. A verificação é feita via "LLM-as-a-judge" (GPT-5-mini) usando o framework VeriFact, atribuindo uma pontuação factual (0-3). Apenas pontuação 3 é considerada correta.
- Relatórios de Radiologia (MIMIC-CXR): Extração seguindo o esquema RadGraph (entidades e relações). A verificação é feita contra anotações de ouro de médicos (correspondência exata de texto e rótulo).
Pontuação de Não-Conformidade:
- Transformação da confiança do span ( $\hat{p}$ ) em uma pontuação de não-conformidade ( $s_e$ ) usando a função logit: $s_e = \log(\frac{\hat{p}}{1-\hat{p}})$ . Isso espalha a região de alta confiança para melhor discriminação.
Calibração Conformal Controladora de FDR:
- Os dados são divididos em conjuntos de calibração (50%) e teste (50%).
- Um limiar ( $\tau$ ) é selecionado para garantir que a FDR empírica no conjunto de calibração não exceda um nível alvo $\alpha$ (ex: 0.05 ou 0.10).
- Apenas entidades com pontuação acima do limiar são aceitas; as demais são rejeitadas para revisão humana.

3. Contribuições Principais

Framework de Garantia Finita: Um método de previsão conformal que fornece garantias de FDR finitas para extração de entidades médicas em domínios heterogêneos.
Descoberta de Reversão de Calibração: Evidência empírica de que a direção da má calibração dos LLMs reverte dependendo do domínio:
- Em rótulos estruturados da FDA, os modelos tendem a ser subconfiantes.
- Em relatórios de radiologia em texto livre, os modelos tendem a ser superconfiantes.
Análise de "Sweep" (Varredura): Demonstração de que a análise através de diferentes valores de $\alpha$ revela transições abruptas no comportamento de aceitação, expondo a estrutura de erro basal de cada domínio.
Importância da Discriminabilidade: Mostra que os limiares de controle de FDR dependem não apenas da precisão de extração (F1), mas de quão bem as pontuações de confiança do modelo discriminam entre extrações corretas e incorretas.

4. Resultados Chave

A. Extração de Rótulos da FDA (Domínio Estruturado)

Desempenho: O GPT-4.1 alcançou 97,7% de precisão factual.
Calibração: O modelo é sistematicamente subconfiante (a precisão empírica é maior que a confiança prevista) na maioria das seções.
Controle de FDR: Como a taxa de erro basal global é baixa (2,3%), o limiar global para $\alpha=0.05$ aceita quase todas as extrações.
Heterogeneidade: A análise por seção revela que seções com maior complexidade ou erro basal (ex: "Uso Pediátrico", com 74,3% de precisão e superconfiança) exigem rejeição massiva (até 100%) para atender ao controle de risco, enquanto seções simples aceitam tudo.

B. Extração de Relatórios de Radiologia (Domínio de Texto Livre)

Desempenho: Ambos os modelos (GPT-4.1 e Llama-4-Maverick) alcançaram F1 de ~0,83-0,84 para entidades com few-shot prompting.
Calibração: Ambos os modelos são superconfiantes, atribuindo probabilidades próximas de 1 a extrações incorretas.
Controle de FDR:
- Para $\alpha=0.05$ , ambos os modelos rejeitam 100% das extrações, pois a taxa de erro basal (15-20%) é maior que o limite permitido.
- Para $\alpha=0.10$ $α = 0.10$ , ocorre uma divergência significativa baseada na calibração:
  - Llama-4-Maverick: Rejeita apenas 19,6% (aceita 80,4%). Suas pontuações de confiança discriminam melhor os erros.
  - GPT-4.1: Rejeita 59,3% (aceita apenas 40,7%), exigindo filtragem muito mais agressiva devido à pior calibração, apesar de ter desempenho de F1 similar.
- A categoria "OBS-U" (observações incertas) foi rejeitada em 100% por ambos os modelos, indicando que a ambiguidade inerente ao texto clínico não pode ser resolvida apenas com filtros de confiança atuais.

5. Significado e Conclusão

O estudo demonstra que a calibração não é uma propriedade global do modelo, mas sim dependente da estrutura do documento, da categoria de extração e da arquitetura do modelo.

Implicação Clínica: Uma única estratégia de calibração não funciona para todos os tipos de documentos médicos. A aplicação de Previsão Conformal é essencial para expor heterogeneidades que métodos de cobertura global ocultam.
Segurança: O framework permite que sistemas clínicos operem com garantias matemáticas de que a proporção de erros aceitos está limitada a um nível de risco pré-definido ( $\alpha$ ), rejeitando proativamente casos onde o modelo não tem certeza suficiente ou está mal calibrado.
Futuro: O trabalho sugere a necessidade de métodos adaptativos para lidar com mudanças de distribuição ao longo do tempo e a expansão para modelos black-box sem acesso a log-probabilidades.

Conformal Prediction for Risk-Controlled Medical Entity Extraction Across Clinical Domains

1. Os Dois Mundos Diferentes

2. A Grande Surpresa: A "Confiança" Inverteu!

3. O Filtro de Segurança (Predição Conformal)

4. O Que Isso Significa para a Medicina?

1. Problema e Motivação

2. Metodologia

3. Contribuições Principais

4. Resultados Chave

A. Extração de Rótulos da FDA (Domínio Estruturado)

B. Extração de Relatórios de Radiologia (Domínio de Texto Livre)

5. Significado e Conclusão

Mais como este

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance