Do LLMs Really Know What They Don't Know? Internal States Mainly Reflect Knowledge Recall Rather Than Truthfulness

Each language version is independently generated for its own context, not a direct translation.

Imagina que las Inteligencias Artificiales (como los chatbots que usamos hoy) son como bibliotecarios gigantes que han leído casi todo lo que existe en internet. Tienen una memoria increíble, pero a veces, en lugar de admitir que no saben algo, inventan una respuesta que suena muy convincente pero que es falsa. A esto lo llamamos "alucinación".

Durante un tiempo, los científicos creyeron que estos bibliotecarios tenían un "sentido interno" o una "conciencia" que les permitía saber cuándo estaban mintiendo. Pensaban que podían mirar dentro de su "cerebro" (sus estados internos) y ver una señal de alerta roja cuando decían algo falso.

Pero este nuevo estudio nos dice algo muy importante: ¡Esa señal de alerta no existe como pensábamos!

Aquí te explico qué descubrieron los autores usando una analogía sencilla:

1. Los dos tipos de "mentiras"

El estudio descubre que hay dos formas en las que el modelo puede inventar algo, y son muy diferentes:

Tipo A: La "Mentira por Asociación" (Alucinación Asociada).
- La analogía: Imagina que le preguntas al bibliotecario: "¿En qué ciudad nació Barack Obama?". El modelo sabe que Obama y Chicago aparecen juntos muy a menudo en los libros que leyó (porque Obama estudió allí). Aunque la respuesta correcta es "Honolulu", el modelo, por inercia y por las estadísticas, dice "Chicago".
- El problema: En este caso, el modelo sí está usando su memoria. Está recordando una asociación fuerte que aprendió. Su "cerebro" está funcionando exactamente igual que cuando dice la verdad. Es como si el bibliotecario estuviera tan seguro de que "Obama" y "Chicago" van juntos, que no se da cuenta de que está cometiendo un error.
- Resultado: Es muy difícil detectar esta mentira porque, por dentro, el modelo se siente tan "seguro" como cuando dice la verdad.
Tipo B: La "Mentira al Azar" (Alucinación No Asociada).
- La analogía: Ahora le preguntas: "¿Cómo se llama el padre de Brenda Johnston?". Brenda Johnston es una persona normal, no famosa. El modelo no tiene ningún dato sobre ella. Como no sabe, inventa un nombre al azar, como "Pedro".
- La diferencia: Aquí el modelo no está usando su memoria. Está disparando al aire. Su "cerebro" se siente muy diferente a cuando responde una pregunta que conoce. Es como si el bibliotecario, al no saber la respuesta, empezara a tartamudear o a mirar nervioso por la ventana.
- Resultado: ¡Esta mentira es fácil de detectar! Por dentro, el modelo se ve muy diferente a cuando sabe la respuesta.

2. ¿Por qué es esto un problema?

Los científicos anteriores pensaban que podían poner un "detector de mentiras" dentro del modelo para que le dijera: "Oye, esto es falso".

Lo que descubrieron: El detector funciona muy bien para el Tipo B (las mentiras al azar), porque el modelo se ve "nervioso" por dentro.
El fallo: El detector falla estrepitosamente con el Tipo A. Como el modelo usa la misma "fuerza de memoria" para decir la verdad que para inventar la mentira (basada en asociaciones falsas), el detector no puede ver la diferencia. Para el detector, "Chicago" (mentira) y "Honolulu" (verdad) parecen exactamente lo mismo por dentro.

3. La gran conclusión

El estudio nos dice que los modelos no saben lo que no saben cuando se trata de estas "mentiras por asociación".

No es que el modelo esté "consciente" de la verdad.
Es que el modelo solo sabe si tiene la información guardada en su memoria o no.
Si tiene la información (aunque sea una asociación falsa), se siente seguro. Si no tiene la información, se siente inseguro.

¿Qué significa esto para el futuro?

No podemos confiar solo en el "sentimiento" del modelo: No basta con mirar sus señales internas para saber si nos está mintiendo.
Necesitamos verificadores externos: Como el modelo no puede distinguir sus propias mentiras de la verdad en muchos casos, necesitamos herramientas externas (como buscar en Google o bases de datos reales) para verificar lo que dice.
El peligro real: Las mentiras más peligrosas son las del Tipo A (las que suenan muy lógicas y seguras), porque son las que el modelo produce con más confianza y las que nuestros detectores actuales no pueden ver.

En resumen: Los modelos de IA son como un estudiante que estudia mucho pero a veces confunde dos conceptos. Si no sabe nada, admite que no sabe (o se ve nervioso). Pero si confunde dos cosas que conoce, está tan seguro de su error que nadie (ni siquiera su propio "cerebro") puede decirle que está mintiendo. Por eso, siempre debemos verificar sus respuestas.

Do LLMs Really Know What They Don't Know? Internal States Mainly Reflect Knowledge Recall Rather Than Truthfulness

1. Los dos tipos de "mentiras"

2. ¿Por qué es esto un problema?

3. La gran conclusión

¿Qué significa esto para el futuro?

1. El Problema

2. Metodología

A. Nueva Taxonomía de Alucinaciones

B. Intervención Causal y Análisis Mecanicista

C. Evaluación de Detección y Ajuste

3. Contribuciones Clave

4. Resultados Principales

Geometría de Estados Ocultos

Rendimiento de Detección

Ajuste de Rechazo (Refusal Tuning)

5. Significado e Implicaciones

Do LLMs Really Know What They Don't Know? Internal States Mainly Reflect Knowledge Recall Rather Than Truthfulness

1. Los dos tipos de "mentiras"

2. ¿Por qué es esto un problema?

3. La gran conclusión

¿Qué significa esto para el futuro?

1. El Problema

2. Metodología

A. Nueva Taxonomía de Alucinaciones

B. Intervención Causal y Análisis Mecanicista

C. Evaluación de Detección y Ajuste

3. Contribuciones Clave

4. Resultados Principales

Geometría de Estados Ocultos

Rendimiento de Detección

Ajuste de Rechazo (Refusal Tuning)

5. Significado e Implicaciones

Más como este

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models