LLMs Uncertainty Quantification via Adaptive Conformal… — Explicación divulgativa

Autores originales: Hamed Karimi, Vaishali Meyappan, Reza Samavi

Publicado 2026-05-07

📖 5 min de lectura🧠 Análisis profundo

Autores originales: Hamed Karimi, Vaishali Meyappan, Reza Samavi

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita ni avalada por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Each language version is independently generated for its own context, not a direct translation.

Imagina que le haces una pregunta a un bibliotecario muy seguro de sí mismo y muy leído (la IA). El bibliotecario podría responder con absoluta certeza, incluso si está completamente equivocado. Este es el problema de la "sobreconfianza" que aborda el artículo: los Modelos de Lenguaje Grandes (LLM) a menudo alucinan (inventan cosas) mientras suenan 100% seguros.

El artículo introduce un nuevo sistema de seguridad llamado ACSE (Entropía Semántica Conformal Adaptativa). Piensa en ACSE como un mecanismo de "Verificación de la Realidad" que no solo escucha qué dice el bibliotecario, sino que verifica si el bibliotecario está realmente seguro del significado de su respuesta.

Así es como funciona, desglosado en pasos simples:

1. El Problema: La "Trampa del Sinónimo"

Las verificaciones de seguridad actuales a menudo examinan las palabras específicas que elige la IA. Si la IA dice "La capital es Sídney" el 70% de las veces y "La capital es Canberra" el 30% de las veces, un simple contador de palabras podría pensar: "¡Oh, está bastante segura de que es Sídney!" y darle luz verde.

Pero aquí está la trampa: La IA podría estar segura de la respuesta incorrecta (Sídney) mientras duda de la respuesta correcta (Canberra). O, podría dar cinco respuestas diferentes que significan todas lo mismo (por ejemplo, "Sídney", "Syd", "La gran ciudad del puerto"). Un simple contador de palabras se confunde con estas variaciones, pensando que la IA es insegura cuando en realidad solo está siendo charlatana.

2. La Solución: El Método del "Abrazo Grupal" (Agrupación Semántica)

ACSE cambia las reglas del juego al pedirle a la IA que responda la misma pregunta diez veces.

Paso A: Toma esas diez respuestas y las traduce a "mapas de significado" (incrustaciones o embeddings).
Paso B: Agrupa estas respuestas en "barrios" basándose en su significado, no en su ortografía.
- Ejemplo: Si 9 respuestas dicen "Sídney" y 1 dice "Canberra", forman dos barrios distintos.
- Ejemplo: Si 5 respuestas dicen "Sídney" y 5 dicen "La capital es Sídney", todas se abrazan en el mismo barrio porque significan lo mismo.

3. El Detector de "Fragilidad" (Inflación Adaptativa)

Este es el ingrediente secreto del artículo. Solo porque la IA esté de acuerdo en una respuesta (como "Sídney") no significa que esa respuesta sea segura.

La Analogía: Imagina un grupo de personas que todos están de acuerdo en una dirección. Si todos están de pie en un círculo apretado y sólido, eso es un consenso fuerte. Pero si todos están de acuerdo en una dirección mientras están de pie en un suelo inestable y que tiembla, eso es un consenso frágil.
ACSE busca este "temblor". Verifica si el grupo que está de acuerdo en "Sídney" es realmente inestable (quizás las respuestas son ligeramente diferentes, o el grupo es muy pequeño).
Si el grupo es "frágil", ACSE infla la puntuación de incertidumbre. Básicamente dice: "Aunque todos están de acuerdo, vuestro acuerdo es inestable, así que voy a tratar esto como una situación de alto riesgo".

4. La "Red de Seguridad" (Calibración Conformal)

Finalmente, el sistema necesita saber exactamente cuándo decir "No lo sé" (abstenerse) y cuándo dar una respuesta.

Los autores utilizan una "red de seguridad" estadística llamada Predicción Conformal.
Primero prueban el sistema con un conjunto de preguntas de práctica. Determinan una "línea de corte".
La Regla: Si la "puntuación de temblor" (incertidumbre) está por debajo de la línea, la IA responde. Si está por encima de la línea, la IA permanece en silencio.
La Garantía: Esto no es una suposición. Las matemáticas garantizan que si configuras la red de seguridad para atrapar el 90% de los errores, atrapará al menos el 90% de los errores, sin importar lo que haga la IA. Promete que los errores que sí veas serán raros.

Los Resultados: Por Qué Importa

El artículo probó esto en varios modelos de IA y conjuntos de datos (como preguntas de cultura general).

La Competencia: Los métodos antiguos (como contar las probabilidades de las palabras) eran como una brújula inestable. A menudo daban alta confianza a respuestas incorrectas.
El Ganador: ACSE actuó como un navegante inteligente. En una prueba de cultura general, identificó correctamente las respuestas incorrectas el 88% de las veces (AUROC 0.88), mientras que el siguiente mejor método solo obtuvo un 80%.
La Seguridad: Logró detener que la IA diera respuestas incorrectas en situaciones de alto riesgo con mucha más frecuencia que los métodos anteriores, sin ser tan cauteloso que se negara a responder nada en absoluto.

En Resumen

ACSE es un sistema que le pide a una IA que responda una pregunta varias veces, agrupa las respuestas por significado en lugar de por palabras, verifica si el grupo está de pie sobre suelo sólido o suelo inestable, y utiliza una red de seguridad matemáticamente probada para decidir cuándo hablar y cuándo quedarse en silencio. Asegura que cuando la IA habla, no solo sea segura de sí misma, sino que sea realmente fiable.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Entropía Semántica Conformal Adaptativa (ACSE)

Enunciado del Problema
Los Modelos de Lenguaje Grandes (LLM) exhiben frecuentemente sobreconfianza, particularmente al generar alucinaciones, lo que plantea riesgos significativos para su despliegue en dominios críticos para la seguridad como la atención médica, el derecho y la investigación científica. Los métodos existentes de cuantificación de incertidumbre (UQ) dependen principalmente de señales a nivel de token, como la entropía del siguiente token o la verosimilitud logarítmica de la secuencia. Estos enfoques no logran capturar la varianza semántica; a menudo asignan alta confianza a salidas que son léxicamente diversas pero semánticamente inconsistentes o incorrectas. Además, los métodos recientes a nivel semántico, como la Entropía Semántica (SE), dependen de un agrupamiento rígido (hard clustering), lo que puede producir estimaciones inestables al ignorar regiones semánticas superpuestas. Otros enfoques conformales, aunque ofrecen garantías estadísticas, a menudo tratan la incertidumbre como una señal escalar, haciéndolos vulnerables a las trampas del "consenso erróneo", donde agrupaciones léxicamente consistentes pero fácticamente incorrectas satisfacen los umbrales de confianza.

Metodología
El artículo propone la Entropía Semántica Conformal Adaptativa (ACSE), un marco independiente del modelo para estimar la incertidumbre a nivel de prompt midiendo la dispersión semántica en las salidas de los LLM. La metodología opera a través de tres etapas principales:

Incrustación Semántica y Agrupamiento Difuso (Soft Clustering):
Para un prompt dado, el modelo genera $n$ respuestas diversas utilizando muestreo de núcleo (nucleus sampling). Estas respuestas se incrustan en un espacio vectorial semántico continuo mediante un codificador de oraciones. En lugar de un agrupamiento rígido, ACSE emplea Agrupamiento Aglomerativo Jerárquico (HAC) con distancia coseno para formar grupos semánticos, seguido de asignaciones de clusters difusas. Esto permite que las respuestas pertenezcan probabilísticamente a múltiples clusters, preservando señales de ambigüedad semántica. Se deriva una puntuación de incertidumbre base, $u(x)$ , a partir de la entropía normalizada de la distribución resultante de los clusters.
Inflación Adaptativa de la Incertidumbre:
Para abordar la fragilidad estructural en los clusters (por ejemplo, un apoyo débil para los clusters dominantes o una alta diversidad interna), ACSE introduce una puntuación de incertidumbre ajustada, $\hat{u}(x)$ . Esta puntuación infla la entropía semántica base basándose en cinco características de robustez a nivel de prompt:
- Entropía Semántica: Mide la multimodalidad.
- Distancia al Centroide: Evalúa el soporte geométrico para la respuesta dominante.
- Dispersión del Cluster Dominante: Cuantifica la coherencia interna.
- Tamaño del Cluster Dominante: Penaliza un consenso frágil apoyado por pocas muestras.
- Margen hasta el Umbral: Suprime la confianza injustificada en regímenes de baja incertidumbre.
  Estas características se agregan en una "métrica de fragilidad" $B(x)$ , que escala un factor de inflación $\lambda(x)$ . La puntuación final $\hat{u}(x)$ es una transformación acotada y monótona que aumenta la incertidumbre cuando las estructuras de los clusters indican riesgo.
Calibración Conformal:
Las puntuaciones ajustadas se calibran utilizando Predicción Conformal (CP) en un conjunto de prompts retenido. Esto establece una regla de decisión con garantías finitas y libres de distribución. El sistema realiza dos funciones:
- Decisión a Nivel de Prompt: Determina si aceptar una respuesta o abstenerse basándose en un umbral de corte, asegurando que la tasa de error entre las respuestas aceptadas permanezca por debajo de una tolerancia especificada por el usuario $\alpha$ .
- Conjuntos de Predicción a Nivel de Respuesta: Construye un conjunto de respuestas muestreadas que satisfacen la cobertura conformal, apoyando la toma de decisiones del usuario al identificar salidas representativas y conformes semánticamente.

Contribuciones Clave

Marco ACSE: Un método novedoso para estimar la incertidumbre basada en entropía a nivel semántico, que va más allá de las señales a nivel de token para capturar la dispersión en el significado.
Mecanismo de Inflación Adaptativa: Una puntuación de incertidumbre ajustada que aprovecha características de robustez de los clusters para inflar adaptativamente la incertidumbre semántica, penalizando explícitamente las semánticas de respuesta ambiguas y mitigando las alucinaciones.
Garantías Conformales: Una fase de calibración post-hoc que aprende umbrales tanto para la abstención a nivel de prompt como para los conjuntos de predicción a nivel de respuesta, proporcionando garantías formales sobre las tasas de error.
Validación Empírica: Experimentos extensos que demuestran una discriminación y calibración superiores en comparación con las líneas base más avanzadas.

Resultados Experimentales
Los autores evaluaron ACSE en cinco benchmarks (TriviaQA, CoQA, Natural Questions, TruthfulQA y MMLU) utilizando diversas arquitecturas de LLM (Mistral-7B, LLaMA-2, Falcon, Qwen).

Detección de Alucinaciones: ACSE superó consistentemente a las líneas base en métricas de discriminación. En el conjunto de datos TriviaQA, ACSE logró un AUROC de 0.88, superando significativamente a la línea base de Entropía de Token (0.65) y a la Política de Abstención Conformal (CAP) (0.80).
Métricas de Seguridad: ACSE demostró tasas de falsos positivos (FPR) más bajas en umbrales de alta recuperación. Por ejemplo, en Falcon-7B, ACSE redujo el FPR@95 de 0.48 (CAP) a 0.31, una disminución relativa del 35.4% en alucinaciones aceptadas.
Garantías Conformales: ACSE se adhirió estrictamente a los niveles de cobertura especificados por el usuario ( $\alpha$ ) mientras mantenía tasas de aceptación más altas que los métodos competidores. En $\alpha=0.10$ , ACSE logró una tasa de aceptación del 75.8% en comparación con el 65.4% de CAP, con tamaños de conjuntos de predicción promedio más bajos (1.07 vs. 1.32) y una estabilidad de calibración superior (SSCV).
Cuantificación de la Incertidumbre: El análisis visual confirmó que ACSE separa eficazmente las respuestas correctas de las alucinaciones, asignando alta incertidumbre a las alucinaciones incluso cuando los métodos base (como SE o Entropía de Token) exhibían alta confianza.

Significado
El artículo afirma que ACSE ofrece una solución robusta para el despliegue confiable de LLM en dominios críticos para la seguridad al abordar los modos de fallo específicos de los métodos UQ existentes: la incapacidad de distinguir la variación léxica superficial de la ambigüedad semántica genuina y la vulnerabilidad a las trampas del consenso erróneo. Al combinar el análisis de dispersión semántica con la inflación adaptativa y las garantías conformales, ACSE proporciona un mecanismo estadísticamente riguroso para detectar alucinaciones y controlar las tasas de error sin requerir el reentrenamiento del modelo. Los autores postulan que, aunque el muestreo y el procesamiento posterior incurren en una sobrecarga computacional, este costo está justificado en aplicaciones de alto riesgo donde la fiabilidad del modelo es primordial.

LLMs Uncertainty Quantification via Adaptive Conformal Semantic Entropy