From Entropy to Calibrated Uncertainty: Training Language Models to Reason About Uncertainty

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está conversando com um especialista muito inteligente, mas que às vezes tem um problema: ele fala com muita confiança, mesmo quando está totalmente errado. Em áreas como medicina, finanças ou direito, isso é perigoso. Se o especialista diz "100% seguro" e está errado, o resultado pode ser desastroso.

Este artigo apresenta uma solução para ensinar esses "especialistas digitais" (os Modelos de Linguagem, ou LLMs) a dizerem: "Ei, eu tenho certeza disso, mas talvez eu esteja enganado. Deixe-me dar uma chance de erro."

Aqui está a explicação do método deles, usando analogias do dia a dia:

O Problema: O "Apostador Confiante"

Atualmente, quando pedimos uma resposta a esses modelos, eles geram uma única frase. Métodos antigos para medir a dúvida exigiam que o modelo gerasse a mesma resposta 50 ou 100 vezes para ver se elas eram diferentes.

A analogia: É como pedir a um amigo para adivinhar o resultado de uma partida de futebol 50 vezes para ver se ele está inseguro. Demora muito, gasta muita energia e é chato. Além disso, o número que ele dá no final (ex: "dúvida 0,7") muitas vezes não significa nada real para nós.

A Solução: O Treinamento em Três Etapas

Os autores criaram um "treinamento especial" para ensinar o modelo a ser honesto sobre sua incerteza, sem precisar repetir a tarefa 50 vezes.

1. O "Espelho de Confusão" (Entropia de Von Neumann)

Primeiro, eles geram várias respostas do modelo para a mesma pergunta e olham para elas como se fossem um grupo de pessoas em uma sala.

A analogia: Imagine que você pergunta a um grupo de 10 pessoas qual é a capital da França. Se 9 dizem "Paris" e 1 diz "Londres", o grupo está confiante. Se 5 dizem "Paris", 3 dizem "Londres" e 2 dizem "Berlim", o grupo está muito confuso.
O método deles mede essa "confusão" no espaço das ideias (não apenas nas palavras), criando uma nota de incerteza muito precisa. É como um termômetro que mede o "calor" da confusão.

2. O "Tradutor de Números" (Calibração de Platt)

A nota de confusão do passo anterior é um número estranho (ex: 2,5 ou 0,8). Ninguém sabe o que isso significa na vida real.

A analogia: É como ter um termômetro que marca "30 graus" quando está gelado e "10 graus" quando está quente. Precisa de um tradutor.
Eles usam um processo matemático (Platt Scaling) para transformar esse número estranho em uma porcentagem real de probabilidade. Agora, em vez de "nota 2,5", o modelo entende: "Há 30% de chance de eu estar errado". Isso torna a incerteza calibrada e confiável.

3. O "Treinador de Esportes" (Aprendizado por Reforço)

Agora, eles ensinam o modelo a usar esse novo "olho" para a incerteza.

A analogia: Imagine um treinador de futebol que não deixa o jogador chutar a bola de novo e de novo. Em vez disso, ele mostra ao jogador a foto do lance, diz: "Você achou que ia entrar, mas a chance era de 80%. Na próxima vez, se você sentir essa mesma sensação, diga '80% de chance'".
O modelo é treinado para gerar uma resposta e, em seguida, explicar seu raciocínio antes de dar o número de incerteza. Se o número dele bater com a "verdade" calculada no passo 2, ele ganha um ponto (recompensa). Se errar, perde.
O resultado? O modelo aprende a pensar sobre sua própria confiança antes de falar.

Por que isso é incrível?

Rápido e Barato: Diferente dos métodos antigos que geravam 50 respostas, este modelo só precisa gerar uma resposta e uma estimativa de dúvida. É como trocar de andar de elevador para usar um elevador expresso.
Honesto: O modelo aprende a dizer "não sei" ou "tenho dúvida" quando realmente não sabe, em vez de inventar uma resposta confiante.
Funciona em Tudo: O modelo treinado com esse método funciona bem não só nas perguntas que viu no treino, mas também em perguntas novas e difíceis que nunca viu antes.

Resumo Final

Os autores criaram um método para transformar modelos de IA que são "confiantes demais" em modelos que são cuidadosos e honestos. Eles ensinaram a IA a usar um "termômetro de confusão" interno, traduzir esse termômetro para uma porcentagem que faz sentido e praticar essa habilidade até virar um hábito.

Isso é crucial para o futuro, pois queremos que a IA nos ajude em hospitais e tribunais, mas só se ela tiver a humildade de admitir quando não tem certeza absoluta.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

Os Grandes Modelos de Linguagem (LLMs) são amplamente utilizados em domínios de alto risco (como saúde, finanças e direito), mas frequentemente geram respostas confiantes, porém incorretas (alucinações). Para uma tomada de decisão segura, é crucial que os modelos forneçam estimativas de incerteza calibradas e interpretáveis.

As abordagens atuais enfrentam limitações significativas:

Métodos Post-hoc baseados em amostragem: Calculam incerteza gerando múltiplas respostas e medindo a variabilidade semântica (entropia). Embora eficazes, são computacionalmente caros devido à necessidade de múltiplas inferências e produzem valores de incerteza sem escala probabilística direta (não calibrados).
Métodos de Incerteza Verbalizada: Pedem ao modelo que declare sua confiança. São eficientes, mas dependem fortemente do tamanho do modelo e frequentemente produzem estimativas mal calibradas, especialmente em modelos menores.
Aprendizado por Reforço (RL) Existente: Métodos recentes tentam alinhar a confiança prevista com a correção real, mas muitas vezes dependem de sinais de supervisão grosseiros ou esquemas de otimização caros.

O objetivo deste trabalho é desenvolver um pipeline que permita aos LLMs inferir estimativas de incerteza calibradas, interpretáveis e computacionalmente eficientes no momento do teste (inferência), sem a necessidade de amostragem repetida.

2. Metodologia

Os autores propõem um pipeline de três etapas para pós-treinamento de LLMs:

Etapa 1: Cálculo de Sinais de Incerteza Baseados em Entropia

Para cada entrada, são geradas múltiplas amostras estocásticas ( $K$ amostras) a partir do modelo base.
Essas amostras são mapeadas para vetores de embedding.
Calcula-se uma matriz de kernel para capturar a similaridade par a par entre as respostas.
A Entropia de von Neumann é calculada a partir dos autovalores dessa matriz de kernel. Isso fornece uma medida de "dispersão" no espaço de representação, capturando a variabilidade distribucional além da simples correção binária.

Etapa 2: Calibração via Escala de Platt (Platt Scaling)

Como a entropia de von Neumann não é inerentemente uma probabilidade, ela precisa ser calibrada.
Utiliza-se a Escala de Platt (uma transformação logística paramétrica) em um conjunto de validação com rótulos de correção binária.
Isso mapeia os scores de entropia para probabilidades calibradas ( $u_{cal} \in [0, 1]$ ), representando a probabilidade estimada de a resposta estar incorreta.

Etapa 3: Pós-treinamento com Aprendizado por Reforço (RL)

O modelo é fine-tuned para prever diretamente essa incerteza calibrada.
Algoritmo: Utiliza-se GRPO (Group Relative Policy Optimization), uma variante eficiente do PPO que não requer uma rede critic separada, reduzindo o custo de memória.
Eficiência de Parâmetros: Emprega LoRA (Low-Rank Adaptation) para atualizar apenas um subconjunto de parâmetros, evitando o esquecimento catastrófico e permitindo a decuplagem entre a geração da resposta e a estimativa de incerteza.
Função de Recompensa: Define-se uma recompensa baseada na diferença entre a incerteza prevista pelo modelo ( $u_\theta$ ) e o alvo calibrado ( $u_{cal}$ ):
$R_{entropy} = 1 - \max(0.05, |u_\theta - u_{cal}|)$
Formato de Saída: O modelo é instruído a gerar uma cadeia de pensamento (Chain-of-Thought) refletindo sobre por que a resposta pode estar certa ou errada, seguida pela previsão numérica da incerteza.

3. Contribuições Principais

Nova Recompensa de Calibração: Introdução de uma função de recompensa que alinha a incerteza verbalizada do modelo com uma medida baseada em amostragem de última geração (entropia espectral), visando explicitamente saídas probabilísticas calibradas.
Alta Eficiência e Desempenho: Demonstra-se que o método alcança alta correlação de rank com a medida de amostragem (mantendo a capacidade de ordenação) e, ao mesmo tempo, obtém calibração superior e eficiência no momento da inferência (sem necessidade de múltiplas amostras).
Superioridade sobre Brier Score: O método proposto supera abordagens baseadas em Brier Score (comuns na literatura) tanto em dados in-domain quanto out-of-domain.

4. Resultados Experimentais

Os experimentos foram realizados nos conjuntos de dados TriviaQA e Natural Questions (in-domain) e GSM8K (out-of-domain), utilizando o modelo Qwen2.5-7B-Instruct.

Calibração (ECE - Expected Calibration Error):
- O modelo base apresentou um ECE de 41.99%.
- O método proposto reduziu o ECE para 7.2% no conjunto in-domain e para 3.15% no conjunto out-of-domain (GSM8K).
- Isso representa uma melhoria substancial em relação ao método baseado em Brier Score (15.70% e 33.28%, respectivamente) e ao Base+CoT (34.17%).
Qualidade de Ordenação (AUROC):
- O método alcançou um AUROC de 81.53% (in-domain) e 66.73% (out-of-domain), superando significativamente o modelo base (51.89% e 53.79%).
Correlação (Spearman):
- O método obteve a maior correlação de Spearman (0.67) com os alvos de incerteza calibrada, indicando que o modelo aprendeu a raciocinar sobre sua incerteza de forma robusta e generalizável.

5. Significado e Conclusão

Este trabalho representa um avanço significativo na quantificação de incerteza para LLMs. Ao integrar a estimativa de incerteza diretamente no comportamento do modelo através de RL, o método elimina a necessidade de amostragem repetida e custosa durante a inferência.

A abordagem demonstra que é possível treinar modelos para "raciocinar" sobre sua própria confiabilidade, produzindo estimativas que não apenas ordenam bem as respostas (detectando erros), mas que também são probabilisticamente calibradas (a confiança declarada corresponde à taxa real de erro). Isso é fundamental para a implantação segura de LLMs em aplicações críticas onde o custo de um erro é alto. O uso combinado de GRPO e LoRA torna a solução escalável e eficiente em termos computacionais.