VERI-DPO: Evidence-Aware Alignment for Clinical Summarization via Claim Verification and Direct Preference Optimization

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um médico muito ocupado. No final de um dia longo no hospital, você precisa escrever um resumo do que aconteceu com cada paciente para quem vai cuidar dele amanhã. Esse resumo é chamado de "Histórico Hospitalar Breve". O problema é que a informação sobre o paciente está espalhada em milhares de anotações diferentes: notas de enfermagem, exames de raio-X, listas de remédios, etc.

Escrever esse resumo manualmente é cansativo e propenso a erros. Então, os cientistas tentaram usar Inteligência Artificial (IA) para fazer isso. Mas a IA tem um defeito grave: ela adora "alucinar". Ou seja, ela pode inventar fatos que parecem reais, mas que não estão nas anotações do paciente. Se a IA disser que o paciente fez uma cirurgia que ele nunca fez, isso pode ser perigoso.

O artigo VERI-DPO apresenta uma solução inteligente para esse problema. Vamos explicar como funciona usando uma analogia simples:

1. O Problema: A IA que "Inventa Histórias"

Pense na IA como um estudante muito inteligente, mas que nunca foi à aula. Quando você pede para ele resumir o que aconteceu, ele usa sua imaginação para preencher as lacunas. Às vezes, ele inventa coisas que soam plausíveis, mas são falsas.

2. A Solução: O "Detetive de Fatos" (O Verificador)

Os autores criaram um sistema de duas etapas. A primeira é treinar um Detetive de Fatos (o "Verificador").

Como funciona: Imagine que a IA escreve uma frase como: "O paciente tomou antibióticos para pneumonia."
O Detetive pega essa frase e vai correndo até a "biblioteca" de anotações do paciente (os prontuários eletrônicos) para ver se há alguma prova disso.
O Detetive dá um de três "selos" para a frase:
1. Suportado: "Encontrei a nota de enfermagem confirmando isso. É verdade!"
2. Não Suportado: "Procurei em tudo e não encontrei nada. Ou pior, encontrei algo que diz o contrário. Isso é uma invenção!"
3. Não Abordado: "Não encontrei nada sobre isso, mas também não tenho certeza se é falso. Pode ser que a informação não esteja nas anotações que eu vi."

3. O Treinamento: O "Jogo do Bom e do Ruim" (DPO)

Aqui está a parte mais genial. Em vez de apenas corrigir a IA, eles usam o Detetive para ensinar a IA a se comportar melhor, através de um processo chamado Otimização Direta de Preferência (DPO).

Imagine que você está treinando um cão de guarda:

Você pede para a IA escrever duas versões do resumo do paciente.
O Detetive lê as duas versões e aponta os erros.
- Versão A: Tem 10 frases, mas 3 delas são invenções (marcadas como "Não Suportado").
- Versão B: Tem 12 frases, e apenas 1 é uma invenção.
O sistema diz para a IA: "Você gosta da Versão B? Então, aprenda a escrever como a Versão B e evite a Versão A."

A IA aprende, repetindo esse jogo milhares de vezes, a preferir escrever coisas que o Detetive confirma como verdadeiras, e a evitar inventar coisas.

4. O Truque para não ficar "Silencioso"

Um problema comum é que, para não errar, a IA pode começar a escrever resumos muito curtos e vazios (dizendo menos coisas para errar menos). Isso é chamado de "degeneração por omissão".

O VERI-DPO tem um filtro especial: ele pune a IA se ela tentar "escapar" escrevendo pouco. O sistema exige que o resumo seja longo e informativo, mas sem mentiras. É como se o treinador dissesse: "Você precisa contar toda a história, mas não pode inventar nenhum personagem!"

O Resultado Final

Depois de treinada com esse método, a IA se transformou de um "estudante que inventa histórias" em um "secretário rigoroso".

Antes: A IA inventava cerca de 10% das informações (1 em cada 10 frases era falsa).
Depois: A IA inventou apenas 1,9% das informações (menos de 1 em cada 50 frases).
Importante: Ela não ficou mudo. O resumo continua detalhado e útil, apenas agora é fiel à realidade.

Resumo em uma frase

O VERI-DPO é como dar um checador de fatos em tempo real para uma IA, ensinando-a a escolher sempre a versão da história que pode ser provada pelos documentos, sem deixar de contar todos os detalhes importantes. Isso torna a IA muito mais segura para uso em hospitais, onde um erro de informação pode custar caro.

Each language version is independently generated for its own context, not a direct translation.

Título: VERI-DPO: Alinhamento Consciente de Evidências para Sumarização Clínica via Verificação de Afirmações e Otimização Direta de Preferência

1. O Problema

A geração automática de narrativas de "Curso Hospitalar Breve" (BHC - Brief Hospital Course) é uma tarefa crítica na documentação clínica, destinada a fornecer um resumo conciso e acionável da trajetória do paciente para a continuidade dos cuidados. No entanto, existem dois desafios principais:

Fidelidade às Evidências: Os modelos de Linguagem (LLMs) tendem a gerar afirmações plausíveis, mas não fundamentadas (alucinações), pois as evidências nos prontuários eletrônicos de saúde (EHR) são fragmentadas, heterogêneas e dependem do contexto temporal.
Degradação por Omissão ("Say-less"): Métodos de alinhamento tradicionais, ao tentarem evitar erros, podem incentivar o modelo a produzir resumos mais curtos ou vagos, omitindo informações clinicamente relevantes apenas para reduzir o risco de cometer erros factuais.

O objetivo é criar um sistema que maximize a utilidade clínica (informação completa) enquanto minimiza drasticamente afirmações não suportadas, sem recorrer a anotações manuais extensivas e caras.

2. Metodologia: VERI-DPO

O VERI-DPO propõe um pipeline de três estágios que utiliza um verificador de afirmações como sinal intermediário auditável para guiar o alinhamento do modelo de sumarização via Otimização Direta de Preferência (DPO).

A. Dados e Pré-processamento

Dataset: Utiliza o MIMIC-III-Ext-VeriFact-BHC, contendo 100 pacientes (125 internações) com resumos BHC humanos e gerados por LLMs, além de 4.787 notas clínicas longitudinais (EHRs) como evidência de referência.
Supervisão: As narrativas são decompostas em proposições (afirmações atômicas). Clínicos rotulam essas proposições como: Suportado, Não Suportado (contradição/alucinação) ou Não Abordado (ausência de evidência).

B. Estágio 1: Treinamento do Verificador (Verifier)

Um modelo LLM leve (8B parâmetros, como Llama-3.1 ou Med42) é fine-tunado para atuar como um verificador de afirmações.
Entrada: Um par (Evidência recuperada, Afirmação).
Saída: Um único token de decisão: A (Suportado), B (Não Suportado) ou C (Não Abordado).
Recuperação: Utiliza um sistema de recuperação aumentada (RAG) com BM25 para buscar as evidências relevantes das notas do paciente antes de classificar a afirmação.
Calibração: Um viés logit (bias) é ajustado no token "Não Suportado" para equilibrar precisão e recall, garantindo que alucinações sejam detectadas com alta confiança.

C. Estágio 2: Mineração de Preferências Guiada pelo Verificador

Para cada prompt de evidência, o modelo base gera múltiplos candidatos de BHC.
Cada candidato é decomposto em afirmações e pontuado pelo verificador treinado.
Função de Utilidade ( $U$ ): Uma métrica agregada é calculada para cada candidato, penalizando fortemente afirmações "Não Suportadas" (contradições), mas também considerando a cobertura de afirmações e o comprimento do texto para evitar a degradação por omissão.
Seleção de Pares: São selecionados pares $(y^+, y^-)$ $(y^{+}, y^{-})$ onde:
- $y^+$ (Escolhido): Tem alta utilidade (poucas contradições, bom comprimento/abrangência).
- $y^-$ (Rejeitado): Contém pelo menos uma contradição de alta confiança (HCNS - High-Confidence Not Supported) ou tem utilidade significativamente menor.
Restrições são aplicadas para garantir que a diferença entre os pares não seja apenas devido a um texto mais curto ("say-less").

D. Estágio 3: Alinhamento via DPO

O conjunto de pares preferenciais minerados é usado para treinar o modelo de sumarização final usando Direct Preference Optimization (DPO).
O DPO ajusta a política do modelo para internalizar as preferências do verificador, aumentando a probabilidade de gerar textos semelhantes a $y^+$ e diminuindo a de $y^-$ , sem a necessidade de um modelo de recompensa separado ou inferência de reclassificação (reranking) em tempo de execução.

3. Contribuições Principais

Verificador Leve e Recuperável: Desenvolvimento de um verificador de afirmações clínicas baseado em recuperação de evidências, treinado com divisões por paciente, capaz de identificar alucinações com alta precisão.
Mineração de Preferências Consciente de Evidências: Introdução de uma estratégia que utiliza sinais de verificação (etiquetas de afirmação e margens de confiança) para construir pares de preferência que penalizam contradições específicas, mas impõem restrições rigorosas para manter a informatividade e o comprimento do texto.
Alinhamento Eficiente via DPO: Demonstração de que o DPO pode distilar a supervisão de um verificador externo em um único modelo de sumarização, reduzindo alucinações sem sacrificar a qualidade da informação ou a validade do texto.

4. Resultados

Os experimentos foram realizados em um conjunto de teste mantido (held-out) com 100 pacientes, avaliados por dois juízes: o verificador local e um juiz externo (GPT-4o).

Redução de Alucinações:
- Juiz Local: A taxa de afirmações não suportadas (NS-rate) caiu de 10,7% (modelo base) para 1,9% (VERI-DPO). O número médio de afirmações não suportadas por resumo reduziu de 1,98 para 0,36.
- Juiz GPT-4o: A taxa caiu de 11,6% para 6,4%, confirmando que a melhoria não é um artefato do verificador local.
Manutenção da Qualidade e Informatividade:
- Diferente de métodos que encurtam o texto para evitar erros, o VERI-DPO aumentou o comprimento médio do texto (de ~1855 para ~2159 caracteres) e o número de afirmações suportadas.
- A validade do texto (respeito a formatos e limites mínimos) melhorou de 76,7% para 82,5%.
Comparação com Baselines:
- O Fine-tuning Supervisionado (SFT) apenas aprendeu o formato de saída, mas não reduziu as alucinações (até as aumentou ligeiramente).
- O Reranking (Best-of-K) reduziu alucinações, mas exige múltiplas gerações em tempo de inferência, tornando-o computacionalmente custoso. O VERI-DPO alcança resultados superiores como uma política de amostra única.

5. Significado e Impacto

O VERI-DPO representa um avanço significativo na sumarização clínica segura e escalável.

Auditabilidade: Ao contrário de caixas-pretas, o pipeline gera artefatos intermediários (rótulos de afirmações, evidências recuperadas e margens de confiança) que permitem a localização de erros e auditoria pós-hoc.
Mitigação de "Say-less": O método resolve o dilema clássico de "segurança vs. utilidade", provando que é possível reduzir drasticamente erros factuais mantendo ou até expandindo a riqueza informativa do resumo.
Escalabilidade: Ao substituir a anotação humana granular por um verificador automatizado treinado, o método oferece uma via viável para o alinhamento de modelos em grandes volumes de dados clínicos, onde a supervisão humana direta é inviável.

Em resumo, o VERI-DPO estabelece um novo padrão para a geração de resumos clínicos, onde a fidelidade às evidências é garantida matematicamente através de verificação de afirmações e otimização direta de preferências, resultando em ferramentas mais confiáveis para a tomada de decisão médica.