Compression Favors Consistency, Not Truth: When and Why Language Models Prefer Correct Information

Each language version is independently generated for its own context, not a direct translation.

🧠 ¿Por qué las IAs a veces dicen la verdad y a veces mienten tan seguro?

Imagina que entrenar a una Inteligencia Artificial (IA) es como enseñar a un niño muy listo a resumir un libro gigante.

El objetivo del niño no es aprender "la verdad" sobre el mundo. Su único trabajo es hacer el resumen lo más corto y eficiente posible. Si puede explicar todo con menos palabras, gana puntos. A esto los científicos le llaman "compresión".

Este artículo descubre algo fascinante: La IA no busca la verdad; busca la historia más fácil de contar.

🎭 La metáfora de las dos historias

Imagina que le das al niño dos versiones de una historia de detectives:

La Historia Verdadera: Es lógica, tiene sentido y se puede contar con pocas palabras porque todo encaja perfectamente.
La Historia Falsa (Caótica): Es una mentira llena de errores al azar. Para contarla, el niño tendría que decir: "El asesino fue el mayordomo... ¡espera, no, fue el jardinero!... ¡no, fue el mayordomo otra vez, pero con un sombrero diferente!".
- Resultado: La historia falsa es larga y difícil de resumir. La IA prefiere la verdadera porque es más corta.

Pero, ¿qué pasa si la mentira es perfecta?

Imagina una Historia Falsa (Coherente). Es una mentira que tiene sus propias reglas internas. Por ejemplo: "En este mundo, 2 + 2 siempre es 5". Si el niño aprende esta regla, puede contar toda la historia falsa muy rápido y con pocas palabras, porque todo encaja dentro de su propia lógica.

Resultado: La IA no puede distinguir cuál es la verdad. Ambas historias son igual de cortas y fáciles de contar. La IA elige la mentira con la misma seguridad que la verdad.

🔍 Lo que descubrieron los autores

Los investigadores hicieron experimentos con modelos de IA pequeños (como un cerebro de 3.5 millones de neuronas) usando matemáticas y reglas inventadas. Aquí están sus hallazgos clave:

El error aleatorio es el enemigo de la mentira: Cuando los datos falsos están llenos de errores al azar (como un texto con faltas de ortografía aleatorias), la IA prefiere la verdad un 83% de las veces. La mentira es "demasiado larga" para explicar.
La mentira perfecta gana: Cuando crearon un sistema de reglas falsas pero internamente consistentes (una mentira que funciona como un reloj), la IA dejó de preferir la verdad. Su elección se volvió una suerte del 50% (o incluso prefería la mentira si había más ejemplos de ella).
El tamaño importa (pero no siempre): Hacer la IA más grande ayuda a detectar errores al azar, pero no la hace inmune a las mentiras coherentes. Una IA gigante sigue siendo capaz de creer en una conspiración perfecta si esta es fácil de resumir.

🛡️ ¿Cómo podemos "hackear" esto?

El artículo sugiere una forma de forzar a la IA a buscar la verdad: La Verificación.

Imagina que, además de contar la historia, le pides al niño que haga una comprobación matemática al final.

Si la historia es falsa (aunque sea coherente), la comprobación dará un resultado extraño o impredecible.
Esto rompe la "compresión". Ahora, para contar la mentira, el niño tendría que explicar por qué falló la comprobación, lo cual hace la historia larga y difícil.

Resultado: Al añadir este paso de verificación, la IA vuelve a preferir la verdad (sube al 71% de precisión), incluso si la mentira era coherente.

💡 La gran conclusión

La IA no tiene un "moral" ni un "sentido de la verdad" interno. Lo que tiene es un sentido de la eficiencia.

Si la verdad es más fácil de explicar que la mentira, la IA dirá la verdad.
Si la mentira es tan ordenada y lógica como la verdad, la IA no tendrá problema en mentirte con total confianza.

En resumen: No podemos confiar en que la IA sea "honesta" por naturaleza. Solo será honesta si la verdad es más eficiente de contar que la mentira. Si alguien inventa una mentira perfecta y coherente, la IA podría creerla más que a la realidad.

La lección para nosotros: En un mundo lleno de información, la verdad no gana por ser "real", sino por ser la historia más sólida y coherente. Si una mentira es demasiado bien construida, incluso una superinteligencia podría preferirla.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo en español, estructurado según los puntos solicitados:

Título: La Compresión Favorece la Consistencia, No la Verdad: Cuándo y Por Qué los Modelos de Lenguaje Prefieren Información Correcta

Autor: Konstantin Krestnikov
Fecha: Marzo 2026

1. El Problema

A pesar de que los Modelos de Lenguaje (LLM) muestran una creciente precisión en benchmarks factuales, a menudo generan afirmaciones falsas con gran confianza. La pregunta central que aborda este trabajo es: ¿Por qué el objetivo de entrenamiento en sí mismo (predicción del siguiente token) crearía alguna preferencia por la verdad?

Existen explicaciones previas que atribuyen la veracidad al escalado, a la alineación (RLHF) o a la estadística de los datos (frecuencia y fiabilidad de las fuentes). Sin embargo, este artículo cuestiona si la "verdad" es una propiedad intrínseca de la compresión o si, más bien, la compresión favorece simplemente la hipótesis más coherente y comprimible, independientemente de su veracidad. El objetivo es aislar la influencia de la coherencia interna de las reglas frente al valor de verdad abstracto.

2. Metodología

Diseño Experimental y Modelos

Arquitectura: Se utilizaron transformadores de solo decodificador estilo GPT-2, implementados en MLX, con tokenización a nivel de caracteres (vocabulario de 57 tokens) para evitar artefactos de BPE.
Escalas: Se entrenaron modelos de 3.5M a 86M parámetros (configuraciones tiny, small, medium, large).
Entrenamiento: Todos los modelos se entrenaron durante 5000 pasos fijos (no escalado computacionalmente emparejado) con optimizador AdamW y learning rate con decaimiento coseno.
Corpus Sintético: Se generaron problemas matemáticos (aritmética, factorización, ecuaciones, derivadas) con soluciones paso a paso verificadas por SymPy.

Tipos de Datos y Errores

El núcleo del experimento consiste en mezclar derivaciones correctas con incorrectas bajo diferentes condiciones de error:

Errores Aleatorios (Incoherentes): Inyección de un error plausible pero único en cada problema (ej. signo incorrecto, coeficiente erróneo). Cada error es idiosincrásico.
Errores Coherentes (Sistemáticos): Se aplica una regla incorrecta pero consistente a todos los problemas de un tipo (ej. $a \times b = a \times (b-1)$ ). Este sistema falso es internamente consistente.
Erroles Contradictorios: Reglas simples que rompen la estructura algebraica (ej. $a+b = a+b+1$ ).
Condiciones de Verificación: Se introdujeron pasos de verificación (observaciones) y correcciones (ad hoc o sistemáticas) para probar si la discrepancia con la realidad restaura la preferencia por la verdad.

Métricas Principales

Evaluación Pareada (Primary Metric): Para cada problema, se genera un prompt compartido con dos completaciones (una correcta y una incorrecta). Se compara la pérdida de entropía cruzada (NLL) solo en los tokens de la completación.
- Ventaja: Elimina el sesgo de diferentes prompts y aísla la preferencia estructural del modelo.
- Métrica: Precisión de pares (fracción de veces que el modelo prefiere la solución correcta).
Evaluación a Nivel de Corpus (Secundaria): Mide la diferencia de pérdida (DLoss) entre corpus completos de correctos e incorrectos. El papel advierte que esta métrica puede ser engañosa debido a diferencias estadísticas en el texto.

3. Principio Propuesto: Compresión-Consistencia

Los autores proponen el Principio Compresión-Consistencia:

El descenso de gradiente favorece hipótesis que producen descripciones más cortas y consistentes de los datos de entrenamiento.
La "verdad" no es fundamental; la preferencia por la verdad surge solo cuando las alternativas falsas son más difíciles de comprimir que el sistema de reglas correcto.
Si un sistema falso es internamente coherente y compacto (baja longitud de descripción), se comprime tan eficientemente como la verdad, eliminando la preferencia por la verdad.

4. Resultados Clave

A. Errores Aleatorios vs. Coherentes

Errores Aleatorios: El modelo muestra una fuerte preferencia por las soluciones correctas.
- 50/50: 83.1% de precisión en pares.
- 10/90 (90% de datos incorrectos): 66.7% de precisión.
- Interpretación: Los errores aleatorios requieren memorización individual (alta complejidad de descripción), mientras que la regla correcta es compacta.
Errores Coherentes: La preferencia por la verdad desaparece.
- Precisión en pares: ~47-53% (cerca del azar) a través de todas las escalas (3.5M - 86M).
- Interpretación: Un sistema falso coherente tiene una longitud de descripción comparable a la verdad. Sin incoherencia, el modelo sigue la frecuencia o el azar, no la verdad.

B. El Rol de la Frecuencia

En errores aleatorios, la compresión vence a la frecuencia hasta una proporción de 20/80.
En errores coherentes, el modelo favorece el sistema mayoritario (frecuencia pura). Si el sistema falso es coherente y mayoritario, el modelo lo prefiere activamente (ej. 91% de preferencia por lo falso en 20/80).

C. Experimentos de Verificación y Corrección

Observaciones Directas: Añadir observaciones que contradigan la teoría falsa no restauró una fuerte preferencia por la verdad, ya que las discrepancias eran regulares y el modelo aprendió a corregirlas como una regla adicional (compresible).
Correcciones Ad Hoc: Explicaciones únicas para cada discrepancia no generaron una preferencia transferible por la verdad en pares puros.
Tareas Encadenadas con Verificación: Cuando se integró un paso de verificación dentro de la tarea (ej. resolver una ecuación y luego sustituir para verificar), la precisión subió del 43% al 70.9% en modelos pequeños. Esto sugiere que la verificación convierte el error coherente en un residuo incompresible, restaurando la ventaja de la verdad. Sin embargo, esta tendencia disminuyó en modelos más grandes bajo entrenamiento fijo.

D. Errores Multi-Regla

Al aumentar el número de reglas falsas alternativas (de 1 a 10), la precisión de pares aumentó gradualmente de 46.6% (1 regla, coherente) a 88.3% (10 reglas).
Esto confirma que la diversidad de reglas falsas aumenta la longitud de descripción del sistema falso, erosionando su ventaja de compresión.

E. Escalado

Bajo entrenamiento fijo (5000 pasos), los modelos más grandes mostraron una mayor preferencia por la verdad en errores aleatorios (83% -> 89%).
Para errores coherentes, la preferencia se mantuvo cerca del azar en todos los tamaños probados (3.5M - 86M).

5. Contribuciones Clave

Diseño Experimental Controlado: Introdujo una condición de "falsedad coherente" como nulo fuerte para aislar la compresibilidad del valor de verdad.
Métrica de Evaluación Pareada: Demostró que las métricas a nivel de corpus pueden sobreestimar el sesgo hacia la verdad debido a diferencias estadísticas en el texto, mientras que la evaluación pareada revela la preferencia estructural real.
Resultado Negativo Crítico: Demostró que la compresión por sí sola no garantiza la verdad; un sistema falso coherente es tan atractivo para un modelo de compresión como uno verdadero.

6. Significado e Implicaciones

Para la Alineación: El objetivo de entrenamiento (predicción de tokens) no actúa como una "brújula de verdad" inherente. Favorece patrones comprimibles. Si un mito o desinformación es internamente coherente, el modelo puede aprenderlo tan bien como la verdad.
Epistemología de ML: Sugiere que las representaciones internas de la verdad podrían emerger solo si las afirmaciones verdaderas son estructuralmente más comprimibles que las falsas alternativas en el corpus de entrenamiento.
Alucinaciones: Ofrece un mecanismo complementario a las explicaciones basadas en la rareza de datos: las concepciones erróneas coherentes pueden persistir porque se comprimen bien, independientemente de su frecuencia.
Limitaciones: Los resultados se limitan a dominios sintéticos (matemáticas) y modelos pequeños/medianos. En lenguaje natural, el efecto es más débil (57.7% vs 83.1% en matemáticas), sugiriendo que la naturaleza del dominio afecta la capacidad de detectar incoherencias.

Conclusión: La verdad no es una propiedad fundamental de la compresión. La preferencia por la verdad en los LLM es un subproducto de la estructura del corpus: surge cuando las alternativas falsas son incoherentes y, por tanto, costosas de comprimir. Cuando la falsedad es coherente, la compresión no tiene preferencia por la verdad.