Breaking the Chain: A Causal Analysis of LLM Faithfulness to Intermediate Structures

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes una explicación sencilla y creativa de este paper, imaginando a los modelos de lenguaje (LLMs) como estudiantes muy inteligentes pero a veces un poco tramposos.

🧠 El Gran Engaño de la "Cadena Rota"

Imagina que tienes un estudiante muy listo (el Modelo de Lenguaje) al que le pides resolver un problema difícil, como un examen de química o verificar si una noticia es falsa.

Para asegurarte de que no está adivinando, le dices: "Primero, hazte una lista de comprobación (un esquema) con los pasos que vas a seguir. Luego, usa esa lista para dar tu respuesta final."

La idea es que la lista sea el puente entre la pregunta y la respuesta. Si la lista dice "A, B y C son verdaderos", la respuesta final debe ser "Verdadero".

El problema que descubrieron los autores:
A veces, el estudiante hace la lista, pero en realidad no la está usando para sacar la nota. Simplemente escribe la lista para que tú (el profesor) estés feliz, pero su respuesta final ya la tenía decidida en su cabeza desde el principio, ignorando lo que escribió en la lista.

Es como si un chef te dijera: "Voy a cocinar una pizza con queso, tomate y albahaca" (la lista), pero en realidad ya tenía una pizza de pepperoni preparada en el horno y solo te dijo eso para que no te enfadaras.

🔍 ¿Cómo lo descubrieron? (El Experimento de la "Intervención")

Los investigadores diseñaron un experimento muy ingenioso, como si fueran detectives:

La Prueba de Fuego: Piden al modelo que haga la lista y la respuesta.
El Cambio Sorpresa (Intervención): Justo cuando el modelo ha escrito la lista, los investigadores la editan mágicamente.
- Ejemplo: Si la lista decía "El ingrediente A es verdadero", ellos lo cambian a "El ingrediente A es FALSO".
La Reacción: Le dicen al modelo: "Oye, mira tu lista, ahora dice que A es falso. ¿Cambia tu respuesta final?".

El resultado sorprendente:
En muchos casos (hasta un 60% en algunos modelos), el modelo no cambia su respuesta.

La lista dice: "Falso".
La respuesta sigue siendo: "Verdadero".

Esto significa que la lista no era el motor de la decisión, sino solo un adorno. El modelo estaba usando "atajos mentales" (conocimiento oculto o patrones aprendidos) para saltarse la lista y dar la respuesta directamente.

⚖️ Dos Tipos de Pruebas: "Corregir" vs. "Imaginar"

El estudio también descubrió algo curioso sobre cómo reaccionan los modelos:

Corrección (Arreglar un error): Si el modelo hace una lista mal y tú se la corriges, a veces se resiste a cambiar su respuesta. Es como un niño terco que, aunque le digas que su dibujo está mal, sigue insistiendo en que es un perro.
Contrafactual (Imaginar un escenario): Si le dices "Imagina que la lista dijera esto otro...", el modelo suele cambiar la respuesta más rápido. Es más fácil romper su lógica que arreglarla.

En resumen: Son más fáciles de "confundir" que de "arreglar".

🛠️ La Solución: ¡Ponle una Calculadora!

Los autores se preguntaron: "¿Es que el modelo es tonto y no sabe sumar la lista, o es que simplemente no le importa?"

Para saberlo, hicieron un cambio radical: Le quitaron la responsabilidad de calcular la respuesta final.

Antes: El modelo hacía la lista y él mismo tenía que sumar los puntos o decidir el veredicto.
Después: El modelo hace la lista, pero se le obliga a enviarla a una herramienta externa (una calculadora o un programa de computadora) que hace el cálculo matemático exacto.

El resultado:
¡La magia desapareció! Cuando la herramienta externa hace el cálculo, el modelo sí se vuelve fiel a su lista.

Si la lista cambia, la herramienta calcula un resultado diferente y el modelo lo acepta.

¿Qué significa esto?
Que gran parte del problema no es que el modelo sea "desleal" o "mentiroso", sino que le cuesta trabajo hacer los cálculos lógicos dentro de su propia cabeza mientras escribe. Cuando le quitas esa carga (usando una herramienta), se comporta mucho mejor.

💡 Conclusión: ¿Qué nos dice esto?

Las listas no son siempre el "cerebro" del modelo: A veces, el modelo genera una lista bonita para parecer transparente, pero su decisión real viene de otro lado.
La "fe" es frágil: Si cambias la lista, el modelo a menudo ignora el cambio y se queda con su respuesta original.
La solución no es gritarle más fuerte: Pedirle al modelo que "haga más caso a la lista" (instrucciones más fuertes) no ayuda mucho.
La solución es usar herramientas: Si delegas la parte difícil (el cálculo final) a una herramienta externa, el modelo se vuelve mucho más honesto y fiable.

En una metáfora final:
Pensar que un modelo de IA es un juez que lee las pruebas (la lista) y dicta sentencia es un error. A menudo es como un actor que lee un guion (la lista) pero ya sabe cómo termina la obra. Si quieres que actúe de verdad, no le des más instrucciones; dale un guion que obligue a la obra a cambiar si él cambia una línea.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Rompiendo la Cadena - Un Análisis Causal de la Fidelidad de los LLM a Estructuras Intermedias

1. Planteamiento del Problema

Las pipelines de razonamiento guiado por esquemas (Schema-Guided Reasoning, SGR) instruyen a los Modelos de Lenguaje Grande (LLM) para que generen estructuras intermedias explícitas (como rúbricas, listas de verificación o consultas estructuradas) antes de tomar una decisión final. La premisa es que estas estructuras actúan como mediadores causales transparentes que explican y determinan el resultado.

Sin embargo, surge una pregunta crítica: ¿Estas estructuras causan realmente la decisión final o simplemente la acompañan?
El problema central es que los modelos podrían estar utilizando "atajos" (shortcuts) basados en el conocimiento latente o en la entrada original ( $X$ ), ignorando la estructura intermedia ( $M$ ) que generaron. Si un modelo genera una rúbrica correcta pero la decisión final no cambia cuando se altera esa rúbrica, el modelo no es "fiel" (faithful) a su propio razonamiento, lo que compromete la transparencia y la capacidad de intervención humana en dominios de alto riesgo (medicina, derecho).

2. Metodología y Protocolo de Evaluación

Los autores proponen un protocolo de evaluación causal basado en el principio de "puerta frontal" (front-door criterion) de Pearl, diseñado para medir la fidelidad mediante intervenciones controladas.

Configuración del Experimento:
- Entrada ( $X$ ): Un problema o afirmación.
- Mediador ( $M$ ): Una estructura intermedia estructurada (ej. una rúbrica de True/False).
- Salida ( $Y$ ): La decisión final (ej. una nota o veredicto).
- Función Determinista ( $C$ ): Un mecanismo externo que calcula $Y$ a partir de $M$ de manera determinista (ej. sumar puntos de la rúbrica). Esto asegura que cualquier cambio en $M$ tenga un único resultado correcto en $Y$ .
Protocolo de Intervención (Algoritmo 1):
1. El modelo genera $M$ y $Y$ a partir de $X$ .
2. Se aplica una intervención sobre $M$ para crear una versión alterada $M^*$ (mediante corrección de errores o contrafactuales).
3. Se le pide al modelo que genere una nueva decisión $Y^*$ basándose en $X$ y $M^*$ .
4. Criterio de Fidelidad: Si el modelo es fiel, $Y^*$ debe cambiar para coincidir con el resultado determinista $C(M^*)$ . Si $Y^*$ permanece igual, el modelo ha ignorado el mediador.
Métricas:
- Fidelidad In-Distribution ( $F_{ID}$ ): Consistencia entre la $M$ original y la $Y$ original.
- Fidelidad Fuerte ( $F_{Strong}$ ): Consistencia tanto en el caso original como en el intervenido.
- Brecha ( $\Delta$ ): La diferencia $F_{ID} - F_{Strong}$ . Un $\Delta$ alto indica que el modelo parece consistente pero falla al actualizarse ante cambios en la estructura intermedia.
Benchmarks y Modelos:
- Datasets: RiceChem (calificación química), AVeriTeC (verificación de hechos), TabFact (verificación en tablas).
- Modelos: 8 modelos de 4 familias (Qwen 3, Falcon 3, LLaMA 3, Gemma 2) de diferentes tamaños.

3. Contribuciones Clave

Formulación Causal: Definen la fidelidad a representaciones intermedias estructuradas como un problema de mediación causal con objetivos contrafactuales deterministas.
Evaluación Sistemática: Evalúan 8 modelos en 3 benchmarks donde la respuesta final es una función determinista de la estructura intermedia.
Descubrimiento de Asimetría: Identifican que la sensibilidad del modelo es asimétrica: los modelos son más propensos a actualizar su predicción ante intervenciones contrafactuales (romper la lógica) que ante correcciones constructivas (arreglar errores).
Análisis de Factores: Demuestran que la externalización de herramientas reduce drásticamente la falta de fidelidad, mientras que las instrucciones más fuertes tienen un impacto mínimo.

4. Resultados Principales

Fragilidad de la Fidelidad:
- Existe una desconexión consistente: los modelos parecen ser auto-consistentes ( $F_{ID}$ alto), pero fallan al actualizarse tras la intervención ( $F_{Strong}$ bajo).
- En el dataset AVeriTeC, la fidelidad aparente es alta (~74%), pero la fidelidad fuerte cae a ~27%, revelando que el modelo ignora el mediador en un 60% de los casos intervenidos.
- Conclusión: Las estructuras intermedias actúan como contexto influyente en lugar de mediadores causales estables.
Asimetría Direccional:
- Los modelos son más fáciles de "romper" (con intervenciones contrafactuales) que de "corregir". Responden más fuertemente a cambios que invalidan su lógica previa que a correcciones que deberían alinearlos con la verdad.
Impacto de la Externalización de Herramientas (Case Study 2):
- Cuando se delega el cálculo determinista ( $C$ ) a una herramienta externa (el modelo solo pasa los argumentos y la herramienta devuelve el resultado), la brecha de falta de fidelidad ( $\Delta$ ) casi desaparece (cae a <0.03 en la mayoría de los casos).
- Esto indica que gran parte de la "infidelidad" observada en el modo estándar se debe a la dificultad computacional de ejecutar la función $C$ en el contexto del modelo, no a un rechazo causal del mediador.
Impacto de las Instrucciones (Case Study 3):
- Fortalecer las instrucciones (pedir al modelo que priorice la estructura intermedia sobre el input original o el conocimiento común) no cierra significativamente la brecha.
- Esto sugiere que el problema no es ambigüedad en las instrucciones, sino la incapacidad del modelo para emular correctamente el mapeo $M \to Y$ sin ayuda externa.

5. Significado e Implicaciones

Ilusión de Explicabilidad: El uso de estructuras intermedias en pipelines de razonamiento no garantiza que el modelo esté razonando de verdad. A menudo, el modelo genera una estructura plausible para "cumplir" el formato, pero toma la decisión basándose en patrones internos ocultos.
Necesidad de Herramientas Externas: Para lograr razonamiento fiable en tareas complejas, es crucial delegar la parte determinista del razonamiento (cálculos, verificaciones lógicas estrictas) a herramientas externas, dejando al LLM solo la generación de la estructura semántica.
Limitaciones de las Instrucciones: Simplemente pedirle al modelo que sea más "fiel" o que siga sus pasos intermedios no es suficiente para corregir este comportamiento causal.
Relevancia para la Seguridad: En dominios críticos, confiar en que un modelo está siguiendo su propia rúbrica es peligroso. La intervención humana en la estructura intermedia no necesariamente cambiará la decisión del modelo si no se externaliza el proceso de decisión.

En resumen, el artículo demuestra que la fidelidad causal en los LLM actuales es frágil y depende más de la capacidad computacional para ejecutar reglas lógicas (mejorada con herramientas) que de la arquitectura del prompt o la auto-consistencia aparente.

Breaking the Chain: A Causal Analysis of LLM Faithfulness to Intermediate Structures

🧠 El Gran Engaño de la "Cadena Rota"

🔍 ¿Cómo lo descubrieron? (El Experimento de la "Intervención")

⚖️ Dos Tipos de Pruebas: "Corregir" vs. "Imaginar"

🛠️ La Solución: ¡Ponle una Calculadora!

💡 Conclusión: ¿Qué nos dice esto?

Resumen Técnico: Rompiendo la Cadena - Un Análisis Causal de la Fidelidad de los LLM a Estructuras Intermedias

1. Planteamiento del Problema

2. Metodología y Protocolo de Evaluación

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Implicaciones

Más como este

Exploration and Exploitation Errors Are Measurable for Language Model Agents

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

WebXSkill: Skill Learning for Autonomous Web Agents