A Geometric Taxonomy of Hallucinations in LLMs

Este artículo propone una taxonomía geométrica de las alucinaciones en los modelos de lenguaje grande, clasificándolas en tres tipos según sus firmas en el espacio de incrustaciones, e introduce dos índices de detección (SGI y DGI) que demuestran alta eficacia en la identificación de falta de fidelidad y confabulación, al tiempo que revelan limitaciones metodológicas en la detección de errores factuales debido a sesgos estilísticos.

Javier Marín

Publicado Tue, 10 Ma
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

Imagina que los Modelos de Lenguaje (como el que estás usando ahora) son como chefs extremadamente talentosos pero un poco alucinados. Son expertos en cocinar platos que suenan deliciosos y parecen perfectos, pero a veces, sin darse cuenta, usan ingredientes que no existen o olvidan lo que les pediste en la receta.

Este paper, escrito por Javier Marín, es como un manual de detectives geométricos para entender por qué estos "chefs" cometen errores y cómo podemos detectarlos sin tener que leer cada palabra que escriben.

Aquí tienes la explicación sencilla, usando analogías:

1. El Problema: No todos los errores son iguales

El autor dice que la palabra "alucinación" es confusa porque agrupa tres tipos de errores muy diferentes. Imagina que el "espacio de las palabras" es un globo terráqueo gigante donde cada concepto tiene su propia ubicación.

  • Tipo I: El Chef que ignora la receta (Deslealtad).

    • La situación: Le das al chef una receta específica (el contexto) y le pides que cocine algo basado en ella. Pero él decide ignorar tu receta y cocinar lo que le viene a la mente de su propia memoria.
    • La detección (SGI): El autor creó una regla llamada Índice de Anclaje Semántico. Imagina que el chef debería moverse hacia tu receta en el globo terráqueo. Si el plato final sigue pegado a la pregunta original y no se acerca a tu receta, ¡es una señal de alerta! El chef fue "perezoso" y no escuchó.
  • Tipo II: El Chef que inventa ingredientes (Confabulación).

    • La situación: Le pides una receta de pasta, y el chef te describe un plato con "pasta de cristal" o "salsa de dragón". Son conceptos que no existen en la realidad, pero suenan plausibles.
    • La detección (Gamma - Γ): Aquí usan un Índice de Dirección. Imagina que todos los platos reales y correctos siguen una "autopista" invisible en el globo terráqueo. Cuando el chef inventa algo falso, su respuesta se desvía bruscamente de esa autopista hacia un territorio desconocido. El autor creó un radar (Gamma) que detecta si el plato se ha salido de la carretera de la realidad. ¡Funciona increíblemente bien (95% de precisión) para detectar estas invenciones!
  • Tipo III: El Chef que se equivoca en los detalles (Error Factual).

    • La situación: Le pides una receta de pizza. El chef te da una pizza real, pero dice que lleva "queso de vaca azul" en lugar de "mozzarella". El concepto es correcto (es una pizza), pero el detalle es falso.
    • El problema: En el globo terráqueo, la "pizza con queso azul" y la "pizza con mozzarella" están tan cerca el uno del otro que no se pueden distinguir geométricamente. Son vecinos en el mismo barrio.
    • La conclusión: El autor demuestra que no podemos detectar este tipo de error solo mirando la geometría. Es como intentar encontrar una aguja en un pajar cuando la aguja y el pajar tienen el mismo color.

2. La Gran Revelación: ¿Por qué fallan los detectores anteriores?

El paper analiza un famoso examen llamado TruthfulQA (Preguntas Veraces). Muchos detectores decían que podían encontrar errores aquí. Pero el autor descubrió que estaban siendo engañados por el estilo de escritura, no por la verdad.

  • La analogía: Imagina que los chefs "buenos" (respuestas verdaderas) siempre escriben sus recetas con mucho cuidado, usando muchas palabras y matices ("probablemente", "quizás"). Los chefs "mentirosos" (respuestas falsas) son más directos y cortos.
  • Los detectores antiguos no estaban midiendo la verdad; estaban midiendo cuántas palabras usaba el chef. Cuando el autor quitó ese "ruido" de estilo, el detector dejó de funcionar. Esto nos enseña que, si el error es solo un detalle dentro de un concepto correcto, la geometría de las palabras no nos ayuda a verlo.

3. ¿Qué aprendemos de esto? (El resumen final)

  1. Los errores tienen "huellas dactilares" diferentes: Si ignoras el contexto o inventas cosas nuevas, hay formas matemáticas de detectarlo mirando la dirección de las palabras.
  2. La invención es fácil de detectar: Si el modelo crea algo que no existe (Tipo II), se desvía de la "autopista de la realidad" y podemos atraparlo.
  3. El error sutil es invisible: Si el modelo sabe de qué habla pero se equivoca en un dato pequeño (Tipo III), la matemática actual no puede verlo. Es una limitación teórica, no un fallo de la herramienta.
  4. Cuidado con las pruebas: Muchos exámenes para probar a la IA están mal diseñados porque confunden "estilo de escritura" con "verdad".

En resumen: Javier Marín nos dice que no podemos arreglar todo con un solo detector mágico. Necesitamos saber qué tipo de error estamos buscando. Si el modelo inventa cosas raras, tenemos un radar potente. Pero si el modelo solo se equivoca en un detalle pequeño de algo que sí sabe, la geometría de las palabras no nos dará la respuesta... y eso es algo que debemos aceptar por ahora.