From Entropy to Calibrated Uncertainty: Training Language Models to Reason About Uncertainty

El artículo propone un pipeline de tres etapas que entrena modelos de lenguaje para generar estimaciones de incertidumbre calibradas e interpretables de manera eficiente mediante el cálculo de entropía, la calibración con escalado de Platt y el ajuste fino con aprendizaje por refuerzo, superando así las limitaciones computacionales y de precisión de los métodos posteriores al entrenamiento.

Azza Jenane, Nassim Walha, Lukas Kuhn, Florian Buettner

Publicado 2026-03-09
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que las Inteligencias Artificiales (como los grandes modelos de lenguaje o LLMs) son como chefs muy talentosos pero un poco arrogantes.

Estos chefs pueden cocinar platos increíbles (responder preguntas, escribir textos, resolver problemas), pero a veces, cuando no saben la receta exacta, cocinan algo que sabe mal y lo sirven con total seguridad, diciendo: "¡Esto es lo mejor del mundo!". A esto los expertos le llaman "alucinación".

El problema es que en situaciones importantes (como en un hospital o un banco), no queremos que el chef diga "¡Estoy 100% seguro!" si en realidad está cocinando a ciegas. Necesitamos que diga: "Oye, creo que esto está bien, pero tengo un poco de duda".

Aquí es donde entra este paper. Los autores proponen un método de tres pasos para entrenar a estos "chefs" para que sean honestos sobre sus dudas. Vamos a verlo con una analogía sencilla:

El Problema: El Chef que no sabe medir su duda

Antes, para saber si un chef estaba seguro o no, teníamos que pedirle que cocinara el mismo plato 100 veces y ver cuántas veces salía diferente. Si salía diferente muchas veces, sabíamos que estaba inseguro.

  • El problema: ¡Cocinar 100 veces es muy lento y gasta mucha energía! Además, el resultado era un número confuso que no decíamos exactamente qué significaba (¿es un 70% de duda? ¿un 0.8?).

La Solución: El "Entrenador de Dudas" (El método de 3 pasos)

Los autores crearon un sistema para enseñar al modelo a decir su duda de forma rápida y precisa, sin tener que cocinar 100 veces.

Paso 1: El "Ojo de Halcón" (Entropía de Von Neumann)

Primero, usan una técnica matemática avanzada (llamada entropía de Von Neumann) que actúa como un ojo de halcón.
En lugar de mirar solo si la respuesta es correcta o incorrecta, este "ojo" mira el espacio de las ideas. Imagina que todas las posibles respuestas del chef son puntos en un mapa.

  • Si el chef da respuestas que son muy parecidas entre sí (todos los puntos están juntos), el "ojo" dice: "¡Vaya, está muy seguro!".
  • Si las respuestas están muy dispersas por todo el mapa, el "ojo" dice: "¡Uy, aquí hay mucho caos! El chef no sabe qué hacer".
    Este paso crea una "medida de caos" muy precisa, pero todavía es un número críptico que el chef no entiende.

Paso 2: El Traductor (Calibración de Platt)

Ahora tenemos un número de "caos", pero necesitamos que sea un porcentaje de duda que la gente entienda (como un 0% a 100%).
Aquí entra el Paso 2: El Traductor. Usan una herramienta llamada Platt Scaling.
Imagina que tienes un termómetro que mide en grados "alienígenas". El traductor convierte esos grados alienígenas en grados Celsius normales.

  • Convierte el "caos" matemático en una probabilidad real y honesta. Ahora sabemos exactamente: "El modelo tiene un 80% de probabilidad de equivocarse".

Paso 3: El Entrenador con Premios (Aprendizaje por Refuerzo)

Finalmente, tenemos que enseñar al modelo a decir esa duda él mismo, sin necesidad de que el "ojo de halcón" o el "traductor" estén ahí cada vez.
Usan un sistema de entrenamiento llamado GRPO (que es como un entrenador deportivo muy eficiente).

  • Cómo funciona: El modelo intenta responder y luego intenta adivinar su propia duda.
  • El Premio: Si el modelo dice "Tengo un 80% de duda" y el "ojo de halcón" (del Paso 1) le dijo que realmente tenía un 80% de duda, ¡gana un premio! Si miente o se equivoca, no gana.
  • Con el tiempo, el modelo aprende a pensar (hacer un razonamiento) antes de dar su número de duda, para que coincida con la realidad.

¿Por qué es genial esto?

  1. Es rápido: Antes teníamos que cocinar 100 veces para saber la duda. Ahora, el modelo lo dice de una sola vez, como un experto que ya sabe cuándo está inseguro.
  2. Es honesto: El modelo no solo ordena las respuestas (dice "esta es mejor que aquella"), sino que te da un porcentaje real de confianza. "Estoy 90% seguro" significa que, en 100 casos, 90 saldrán bien.
  3. Funciona en lo desconocido: Lo más impresionante es que, aunque entrenaron al modelo con preguntas de cultura general (como Trivia), cuando lo pusieron a resolver problemas de matemáticas que nunca había visto, siguió siendo muy bueno midiendo su propia duda. Aprendió a razonar sobre la incertidumbre, no solo a memorizar respuestas.

En resumen

Este paper nos da una forma de enseñar a la IA a ser humilde y honesta. En lugar de ser un robot que siempre dice "¡Lo sé todo!", ahora podemos tener un asistente que dice: "Creo que la respuesta es X, pero tengo un 30% de duda, así que revisa esto tú también".

Es como pasar de tener un empleado que siempre asiente con la cabeza a tener un socio que te avisa: "Oye, aquí hay un riesgo, ten cuidado". ¡Y todo eso sin gastar una fortuna en computadoras!