A Geometric Taxonomy of Hallucinations in LLMs

Each language version is independently generated for its own context, not a direct translation.

Imagina que los Modelos de Lenguaje (como el que estás usando ahora) son como chefs extremadamente talentosos pero un poco alucinados. Son expertos en cocinar platos que suenan deliciosos y parecen perfectos, pero a veces, sin darse cuenta, usan ingredientes que no existen o olvidan lo que les pediste en la receta.

Este paper, escrito por Javier Marín, es como un manual de detectives geométricos para entender por qué estos "chefs" cometen errores y cómo podemos detectarlos sin tener que leer cada palabra que escriben.

Aquí tienes la explicación sencilla, usando analogías:

1. El Problema: No todos los errores son iguales

El autor dice que la palabra "alucinación" es confusa porque agrupa tres tipos de errores muy diferentes. Imagina que el "espacio de las palabras" es un globo terráqueo gigante donde cada concepto tiene su propia ubicación.

Tipo I: El Chef que ignora la receta (Deslealtad).
- La situación: Le das al chef una receta específica (el contexto) y le pides que cocine algo basado en ella. Pero él decide ignorar tu receta y cocinar lo que le viene a la mente de su propia memoria.
- La detección (SGI): El autor creó una regla llamada Índice de Anclaje Semántico. Imagina que el chef debería moverse hacia tu receta en el globo terráqueo. Si el plato final sigue pegado a la pregunta original y no se acerca a tu receta, ¡es una señal de alerta! El chef fue "perezoso" y no escuchó.
Tipo II: El Chef que inventa ingredientes (Confabulación).
- La situación: Le pides una receta de pasta, y el chef te describe un plato con "pasta de cristal" o "salsa de dragón". Son conceptos que no existen en la realidad, pero suenan plausibles.
- La detección (Gamma - Γ): Aquí usan un Índice de Dirección. Imagina que todos los platos reales y correctos siguen una "autopista" invisible en el globo terráqueo. Cuando el chef inventa algo falso, su respuesta se desvía bruscamente de esa autopista hacia un territorio desconocido. El autor creó un radar (Gamma) que detecta si el plato se ha salido de la carretera de la realidad. ¡Funciona increíblemente bien (95% de precisión) para detectar estas invenciones!
Tipo III: El Chef que se equivoca en los detalles (Error Factual).
- La situación: Le pides una receta de pizza. El chef te da una pizza real, pero dice que lleva "queso de vaca azul" en lugar de "mozzarella". El concepto es correcto (es una pizza), pero el detalle es falso.
- El problema: En el globo terráqueo, la "pizza con queso azul" y la "pizza con mozzarella" están tan cerca el uno del otro que no se pueden distinguir geométricamente. Son vecinos en el mismo barrio.
- La conclusión: El autor demuestra que no podemos detectar este tipo de error solo mirando la geometría. Es como intentar encontrar una aguja en un pajar cuando la aguja y el pajar tienen el mismo color.

2. La Gran Revelación: ¿Por qué fallan los detectores anteriores?

El paper analiza un famoso examen llamado TruthfulQA (Preguntas Veraces). Muchos detectores decían que podían encontrar errores aquí. Pero el autor descubrió que estaban siendo engañados por el estilo de escritura, no por la verdad.

La analogía: Imagina que los chefs "buenos" (respuestas verdaderas) siempre escriben sus recetas con mucho cuidado, usando muchas palabras y matices ("probablemente", "quizás"). Los chefs "mentirosos" (respuestas falsas) son más directos y cortos.
Los detectores antiguos no estaban midiendo la verdad; estaban midiendo cuántas palabras usaba el chef. Cuando el autor quitó ese "ruido" de estilo, el detector dejó de funcionar. Esto nos enseña que, si el error es solo un detalle dentro de un concepto correcto, la geometría de las palabras no nos ayuda a verlo.

3. ¿Qué aprendemos de esto? (El resumen final)

Los errores tienen "huellas dactilares" diferentes: Si ignoras el contexto o inventas cosas nuevas, hay formas matemáticas de detectarlo mirando la dirección de las palabras.
La invención es fácil de detectar: Si el modelo crea algo que no existe (Tipo II), se desvía de la "autopista de la realidad" y podemos atraparlo.
El error sutil es invisible: Si el modelo sabe de qué habla pero se equivoca en un dato pequeño (Tipo III), la matemática actual no puede verlo. Es una limitación teórica, no un fallo de la herramienta.
Cuidado con las pruebas: Muchos exámenes para probar a la IA están mal diseñados porque confunden "estilo de escritura" con "verdad".

En resumen: Javier Marín nos dice que no podemos arreglar todo con un solo detector mágico. Necesitamos saber qué tipo de error estamos buscando. Si el modelo inventa cosas raras, tenemos un radar potente. Pero si el modelo solo se equivoca en un detalle pequeño de algo que sí sabe, la geometría de las palabras no nos dará la respuesta... y eso es algo que debemos aceptar por ahora.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Una Taxonomía Geométrica de las Alucinaciones en LLMs

1. El Problema

El término "alucinación" en los Modelos de Lenguaje Grande (LLM) se utiliza de manera ambigua para describir múltiples modos de fallo distintos que, sin embargo, comparten una característica: generar texto fluido y confiable pero fácticamente incorrecto.

Limitación actual: La mayoría de los benchmarks y métodos de detección tratan la alucinación como un fenómeno monolítico. Sin embargo, los errores tienen orígenes, consecuencias y, crucialmente, firmas geométricas diferentes en el espacio de incrustaciones (embedding space).
El desafío: Distinguir entre ignorar el contexto, inventar entidades no existentes y cometer errores factuales dentro de un marco conceptual correcto. Además, muchos conjuntos de datos de evaluación se generan mediante LLMs que "mienten" por instrucción, lo que captura la fabricación de contenido pero no la geometría del error factual genuino.

2. Metodología y Taxonomía Propuesta

El autor propone una taxonomía basada en la geometría del espacio de incrustaciones (la esfera unitaria $S^{d-1}$ ), identificando tres tipos de fallos:

Tipo I (Infidelidad / Unfaithfulness): El modelo ignora el contexto proporcionado y genera desde su memoria paramétrica.
- Firma Geométrica: La respuesta permanece angularmente cerca de la consulta (query) en lugar de moverse hacia el contexto.
- Método de Detección: Índice de Anclaje Semántico (SGI). Mide la relación entre la distancia geodésica respuesta-consulta y respuesta-contexto. Si $SGI > 1$ , la respuesta se ancla al contexto; si $SGI \le 1$ , es una alucinación de Tipo I.
Tipo II (Confabulación): El modelo inventa entidades, mecanismos o conceptos que no existen (contenido semánticamente ajeno).
- Firma Geométrica: El desplazamiento de la respuesta se desvía de la variedad (manifold) de respuestas plausibles en direcciones geométricamente detectables.
- Método de Detección: Índice de Anclaje Direccional ( $\Gamma$ ). Calcula la proyección del vector de desplazamiento (respuesta - consulta) sobre una dirección media de anclaje aprendida ( $\hat{\mu}$ ) a partir de pares verificados. Valores bajos o negativos indican confabulación.
Tipo III (Error Factual): El modelo proporciona detalles incorrectos dentro de un marco conceptual correcto (ej. una fecha o nombre erróneo para un concepto real).
- Firma Geométrica: La respuesta es semánticamente plausible y ocupa la misma región del espacio de incrustaciones que una respuesta correcta.
- Conclusión Teórica: Estos errores son geométricamente invisibles para métodos basados en la geometría angular, ya que las representaciones distribucionales codifican co-ocurrencia, no condiciones de verdad.

3. Contribuciones Clave

Taxonomía Geométrica: La primera clasificación formal que distingue los modos de fallo de los LLMs basándose en sus firmas en el espacio de incrustaciones, en lugar de solo en la semántica superficial.
Nuevos Métodos de Detección:
- SGI: Para detectar ignorancia de contexto (Tipo I) sin necesidad de acceder a los pesos internos del modelo ni de múltiples generaciones.
- $\Gamma$ : Para detectar invención de contenido (Tipo II) utilizando únicamente la geometría de un solo llamado de incrustación.
Análisis de Límites Teóricos: Demostración de que la detección de errores factuales (Tipo III) tiene restricciones teóricas inherentes a la naturaleza de las representaciones distribucionales, desmitificando ciertos resultados de clasificadores que en realidad detectan estilos de anotación y no hechos.

4. Resultados Experimentales

Tipo I (SGI):
- Validado en HaluEval QA ( $n=10,000$ ).
- Las respuestas fundamentadas tienen un SGI promedio de 1.180 (>1), mientras que las infieles tienen 0.910 ( $\le 1$ ).
- AUROC consistente entre 0.776 y 0.824 a través de diferentes arquitecturas de incrustación.
Tipo II ( $\Gamma$ ):
- Conjuntos de datos humanos: En 142 confabulaciones escritas por humanos (finanzas, medicina, derecho), $\Gamma$ alcanzó un AUROC de 0.958 ± 0.034.
- Comparación: Superó significativamente a un modelo base de NLI (CrossEncoder) que obtuvo solo 0.611, ya que la NLI no puede detectar desplazamientos fuera de la variedad de plausibilidad cuando el texto es sintácticamente coherente.
- Degradación cruzada: Solo un 3.8% de degradación en dominios no vistos para confabulaciones humanas, confirmando que la desviación semántica es agnóstica al dominio.
Validación Externa (Benchmarks Humanos):
- ExpertQA: $\Gamma$ superó a la NLI por un margen de $\Delta = 0.243$ (AUROC 0.695 vs 0.452). La NLI operó al azar, confirmando que los errores de expertos son compatibles con la implicación superficial pero geométricamente distintos.
- WikiBio: El método falló (AUROC 0.581) porque la anotación de este dataset confunde errores Tipo II y Tipo III (cualquier detalle incorrecto se marca como error), demostrando la importancia de la distinción geométrica.
Tipo III (TruthfulQA):
- Un clasificador logístico (LR) sobre incrustaciones brutas obtuvo un AUROC de 0.731, lo que parecía contradecir la hipótesis de invisibilidad.
- Descubrimiento: El análisis reveló que la señal provenía de un confundidor estilístico: las respuestas falsas eran más cortas y directas, mientras que las verdaderas eran más largas y matizadas. Las respuestas falsas estaban geométricamente más cerca de la consulta (AUROC de similitud coseno = 0.365, invertido), lo opuesto a lo que se esperaría en una detección de error real.
- Al eliminar el estilo (usando $\Gamma$ con calibración), el rendimiento cayó a 0.535 (no significativo), confirmando que los errores factuales puros no tienen firma geométrica detectable.

5. Significado e Implicaciones

Límites de la Detección: El trabajo establece que la detección de alucinaciones no es un problema puramente algorítmico, sino que tiene límites teóricos definidos por la geometría del espacio de significados. Los errores factuales (Tipo III) son inherentemente indetectables mediante geometría angular.
Localidad del Dominio: La detección geométrica funciona bien dentro de regímenes de "confabulación genuina" (donde existe una dirección de anclaje consistente), pero falla en benchmarks generados por LLMs que imitan errores sin seguir la misma geometría de desplazamiento.
Cambio de Paradigma: Se propone dejar de tratar la alucinación como un error único y adoptar métodos específicos según el tipo de fallo (SGI para falta de contexto, $\Gamma$ para invención, y reconocimiento de la imposibilidad de detectar errores factuales sutiles solo con geometría).

En conclusión, el artículo proporciona un marco riguroso para entender cuándo y por qué los métodos de detección de alucinaciones funcionan, separando los errores detectables (infidelidad y confabulación) de los teóricamente invisibles (errores factuales dentro de un marco correcto), basándose en la evidencia empírica de la geometría de las incrustaciones.

A Geometric Taxonomy of Hallucinations in LLMs

1. El Problema: No todos los errores son iguales

2. La Gran Revelación: ¿Por qué fallan los detectores anteriores?

3. ¿Qué aprendemos de esto? (El resumen final)

Resumen Técnico: Una Taxonomía Geométrica de las Alucinaciones en LLMs

1. El Problema

2. Metodología y Taxonomía Propuesta

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Implicaciones

Más como este

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance