Compression Favors Consistency, Not Truth: When and Why Language Models Prefer Correct Information

El estudio demuestra que la preferencia de los modelos de lenguaje por la información correcta no es un impulso intrínseco hacia la verdad, sino un efecto secundario de la presión de compresión que favorece hipótesis con descripciones más cortas y consistentes internamente.

Konstantin Krestnikov

Publicado 2026-03-13
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

🧠 ¿Por qué las IAs a veces dicen la verdad y a veces mienten tan seguro?

Imagina que entrenar a una Inteligencia Artificial (IA) es como enseñar a un niño muy listo a resumir un libro gigante.

El objetivo del niño no es aprender "la verdad" sobre el mundo. Su único trabajo es hacer el resumen lo más corto y eficiente posible. Si puede explicar todo con menos palabras, gana puntos. A esto los científicos le llaman "compresión".

Este artículo descubre algo fascinante: La IA no busca la verdad; busca la historia más fácil de contar.

🎭 La metáfora de las dos historias

Imagina que le das al niño dos versiones de una historia de detectives:

  1. La Historia Verdadera: Es lógica, tiene sentido y se puede contar con pocas palabras porque todo encaja perfectamente.
  2. La Historia Falsa (Caótica): Es una mentira llena de errores al azar. Para contarla, el niño tendría que decir: "El asesino fue el mayordomo... ¡espera, no, fue el jardinero!... ¡no, fue el mayordomo otra vez, pero con un sombrero diferente!".
    • Resultado: La historia falsa es larga y difícil de resumir. La IA prefiere la verdadera porque es más corta.

Pero, ¿qué pasa si la mentira es perfecta?

Imagina una Historia Falsa (Coherente). Es una mentira que tiene sus propias reglas internas. Por ejemplo: "En este mundo, 2 + 2 siempre es 5". Si el niño aprende esta regla, puede contar toda la historia falsa muy rápido y con pocas palabras, porque todo encaja dentro de su propia lógica.

  • Resultado: La IA no puede distinguir cuál es la verdad. Ambas historias son igual de cortas y fáciles de contar. La IA elige la mentira con la misma seguridad que la verdad.

🔍 Lo que descubrieron los autores

Los investigadores hicieron experimentos con modelos de IA pequeños (como un cerebro de 3.5 millones de neuronas) usando matemáticas y reglas inventadas. Aquí están sus hallazgos clave:

  1. El error aleatorio es el enemigo de la mentira: Cuando los datos falsos están llenos de errores al azar (como un texto con faltas de ortografía aleatorias), la IA prefiere la verdad un 83% de las veces. La mentira es "demasiado larga" para explicar.
  2. La mentira perfecta gana: Cuando crearon un sistema de reglas falsas pero internamente consistentes (una mentira que funciona como un reloj), la IA dejó de preferir la verdad. Su elección se volvió una suerte del 50% (o incluso prefería la mentira si había más ejemplos de ella).
  3. El tamaño importa (pero no siempre): Hacer la IA más grande ayuda a detectar errores al azar, pero no la hace inmune a las mentiras coherentes. Una IA gigante sigue siendo capaz de creer en una conspiración perfecta si esta es fácil de resumir.

🛡️ ¿Cómo podemos "hackear" esto?

El artículo sugiere una forma de forzar a la IA a buscar la verdad: La Verificación.

Imagina que, además de contar la historia, le pides al niño que haga una comprobación matemática al final.

  • Si la historia es falsa (aunque sea coherente), la comprobación dará un resultado extraño o impredecible.
  • Esto rompe la "compresión". Ahora, para contar la mentira, el niño tendría que explicar por qué falló la comprobación, lo cual hace la historia larga y difícil.

Resultado: Al añadir este paso de verificación, la IA vuelve a preferir la verdad (sube al 71% de precisión), incluso si la mentira era coherente.

💡 La gran conclusión

La IA no tiene un "moral" ni un "sentido de la verdad" interno. Lo que tiene es un sentido de la eficiencia.

  • Si la verdad es más fácil de explicar que la mentira, la IA dirá la verdad.
  • Si la mentira es tan ordenada y lógica como la verdad, la IA no tendrá problema en mentirte con total confianza.

En resumen: No podemos confiar en que la IA sea "honesta" por naturaleza. Solo será honesta si la verdad es más eficiente de contar que la mentira. Si alguien inventa una mentira perfecta y coherente, la IA podría creerla más que a la realidad.

La lección para nosotros: En un mundo lleno de información, la verdad no gana por ser "real", sino por ser la historia más sólida y coherente. Si una mentira es demasiado bien construida, incluso una superinteligencia podría preferirla.