The System Hallucination Scale (SHS): A Minimal yet Effective Human-Centered Instrument for Evaluating Hallucination-Related Behavior in Large Language Models

El artículo presenta la Escala de Alucinación del Sistema (SHS), una herramienta ligera y centrada en el usuario inspirada en métricas psicométricas establecidas, diseñada para evaluar de forma rápida y válida la fiabilidad factual y la coherencia de los grandes modelos de lenguaje desde la perspectiva del usuario, tal como se demuestra mediante una evaluación empírica con 210 participantes.

Heimo Müller, Dominik Steiger, Markus Plass, Andreas Holzinger

Publicado 2026-03-12
📖 3 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que las Inteligencias Artificiales (como los chatbots avanzados) son como chefes de cocina extremadamente talentosos pero un poco soñadores.

Pueden cocinar un plato que huele increíble, se ve hermoso y tiene una presentación perfecta. Pero, a veces, en lugar de usar ingredientes reales, inventan uno que no existe (como "tomates de cristal" o "salsa de nube"). A esto le llamamos alucinación: cuando la IA dice cosas que suenan muy convincentes, pero que son falsas o inventadas.

El problema es que, hasta ahora, no teníamos una forma rápida y sencilla de que los usuarios dijeran: "Oye, este plato sabe bien, pero creo que me estás mintiendo sobre los ingredientes".

Aquí es donde entra el SHS (Escala de Alucinación del Sistema), la herramienta que presentan en este artículo.

🍽️ La Analogía: El "Menú de Calidad" para la IA

Imagina que quieres evaluar un restaurante. Podrías tener un robot que mide la temperatura exacta de la comida (eso es lo que hacen los expertos técnicos con métricas automáticas), pero eso no te dice si el camarero fue amable o si el plato te hizo sentir seguro.

El SHS es como un pequeño cuestionario de 10 preguntas que le das al cliente justo después de comer. No necesita ser un experto en química de alimentos; solo necesita decir si se sintió confiado o engañado.

¿Cómo funciona este cuestionario?

En lugar de preguntar cosas complicadas, el SHS hace preguntas sencillas en dos direcciones (como un balancín) para evitar trampas mentales:

  1. Precisión de los ingredientes: "¿La información era real?" vs. "¿La IA inventó datos?".
  2. Rastreo de la receta: "¿Podías verificar de dónde sacó la información?" vs. "¿Ocultó sus fuentes o inventó libros que no existen?".
  3. Lógica de la cocina: "¿El razonamiento tenía sentido?" vs. "¿Saltó pasos ilógicos?".
  4. El "truco" del chef: "¿Fue fácil notar el error?" vs. "¿La IA dijo la mentira con tanta seguridad que te confundió?".
  5. Corrección: "¿Podías pedirle que lo arreglara?" vs. "¿Ignoró tus correcciones y siguió mintiendo?".

📊 El Resultado: Una "Brújula de Confianza"

Al responder estas preguntas, el sistema te da una puntuación que va de -1 a +1 (o de 0 a 100 si lo prefieres):

  • Puntuación Alta (+): ¡Excelente! La IA es como un chef honesto. Lo que dice es fiable, puedes verificarlo y si te equivocas, te corrige.
  • Puntuación Baja (-): ¡Cuidado! La IA es como un chef soñador. Aunque habla con mucha seguridad, está inventando cosas. No confíes en su menú.

¿Por qué es importante esto?

Los autores probaron esta herramienta con 210 personas reales (estudiantes y expertos). Los resultados fueron muy positivos:

  • Es fácil de usar: Cualquiera puede entender las preguntas en minutos.
  • Es consistente: Si preguntas lo mismo dos veces, la gente responde de forma coherente (como un termómetro que siempre marca la misma temperatura).
  • Captura lo que importa: A diferencia de los robots que solo buscan errores de ortografía o datos exactos, el SHS mide cómo se siente el usuario. ¿Te sentiste engañado? ¿Te sentiste seguro? Eso es lo que realmente importa en la vida real.

En resumen

El SHS es como un termómetro de confianza para las Inteligencias Artificiales. Nos ayuda a detectar cuándo una IA está "soñando despierta" y inventando cosas, no solo para los expertos en informática, sino para cualquier persona que use estas herramientas en su día a día.

Es una herramienta ligera, rápida y humana, diseñada para que podamos confiar más en la tecnología, sabiendo cuándo es fiable y cuándo debemos ponerle un "cinturón de seguridad".