Directional Reasoning Trajectory Change (DRTC): Identifying Critical Trace Segments in Reasoning Models

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un amigo muy inteligente, pero un poco caótico, que intenta resolver un problema de matemáticas muy difícil. No te da la respuesta de inmediato; en su lugar, empieza a hablar en voz alta, escribiendo un largo monólogo en un cuaderno.

A veces, este amigo se equivoca, escribe 20 líneas de un camino que no funciona, se detiene, dice "¡Espera!", borra mentalmente todo, cambia de estrategia y finalmente encuentra la solución correcta.

El problema: Si solo miramos el cuaderno al final, vemos la solución correcta, pero no sabemos dónde ni por qué nuestro amigo decidió cambiar de opinión. ¿Fue una frase específica de las primeras líneas la que le dio la pista? ¿O fue un error al principio que lo llevó a pensar de otra manera? Los métodos antiguos de "interpretación" de la Inteligencia Artificial (IA) a menudo solo nos dicen qué palabras fueron importantes para la respuesta final, pero no nos dicen en qué momento exacto del proceso de pensamiento ocurrió el giro crucial.

La solución de este papel (DRTC):
Los autores presentan una nueva herramienta llamada DRTC (Cambio de Trayectoria del Razonamiento Direccional). Para explicarlo de forma sencilla, usaremos una analogía de un navegante en un barco.

1. El Mapa del Viaje (La Trayectoria)

Imagina que el pensamiento de la IA es un barco navegando por el océano. El barco no va en línea recta; hace giros, retrocede y cambia de rumbo.

Los "Pivotes": Son los momentos críticos donde el barco decide girar. Es cuando el capitán (la IA) dice: "Oye, este rumbo no funciona, vamos a probar otro". DRTC es capaz de detectar exactamente cuándo ocurren estos giros, basándose en la incertidumbre del capitán (¿está dudando? ¿está cambiando de opinión?).

2. El Experimento del "Corte de Cable" (Intervención)

Una vez que DRTC identifica un momento de giro (un pivote), hace algo muy curioso: simula un corte de cable.

Imagina que el barco está navegando y, justo en el momento del giro, DRTC le dice al capitán: "Olvida lo que dijiste en el minuto 5 de tu viaje. No puedes ver esa parte del mapa".
La magia: A diferencia de otros métodos que tendrían que reiniciar todo el viaje desde cero (lo cual cambiaría la historia), DRTC mantiene el resto del viaje intacto. Solo bloquea la información de esa parte específica en el momento exacto del giro.
Luego, mira qué pasa: ¿El barco sigue en el mismo rumbo? ¿O se desvía?

3. La Brújula de la Culpa (Atribución)

Si al bloquear esa parte del pasado, el barco cambia de rumbo en el momento del giro, DRTC sabe que esa parte del pasado fue crucial.

Puntuación Positiva: Si bloquear un texto hace que el barco se pierda, significa que ese texto era un "héroe" que empujaba al barco hacia la solución correcta.
Puntuación Negativa: Si bloquear un texto hace que el barco se enderece (porque quizás ese texto lo estaba confundiendo), significa que esa parte era un "villano" o un camino de error que la IA tuvo que superar.

¿Por qué es importante esto?

En el mundo real, las IAs de razonamiento a veces escriben párrafos enteros de "pensamiento decorativo" o divagaciones que no sirven de nada. DRTC actúa como un detective forense que puede decirte:

"No te preocupes por las primeras 50 líneas, fueron solo ruido".
"¡Atención! La línea 42 fue donde la IA entendió el problema de verdad".
"La línea 80 fue un error que la IA corrigió en la línea 85".

En resumen

DRTC no es solo un mapa que muestra dónde está el tesoro (la respuesta final). Es una cámara de seguridad que te permite ver exactamente en qué segundo del viaje el capitán tomó la decisión correcta, qué información de su memoria usó para tomarla, y qué información descartó.

Esto nos ayuda a entender mejor cómo piensan estas máquinas, a detectar cuándo están "alucinando" o divagando, y a confiar más en sus respuestas porque sabemos cómo llegaron a ellas, no solo qué dijeron.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: DRTC (Cambio Direccional de la Trayectoria de Razonamiento)

1. El Problema: La Brecha de Interpretabilidad en Razonamiento de Largo Alcance

Los modelos de lenguaje modernos (especialmente los modelos de razonamiento) resuelven problemas generando trazas largas y complejas que incluyen retroceso, verificación y cambios de estrategia. Sin embargo, los métodos de interpretabilidad existentes presentan limitaciones críticas:

Falta de Causalidad: Los métodos actuales suelen destacar tokens correlacionados con la respuesta final, pero no revelan dónde ocurren los giros decisivos en el razonamiento ni qué contexto anterior los desencadena causalmente.
Problemas de Intervención: Editar una traza y mantener el texto posterior fijo es una intervención "fuera de política" (off-policy), mientras que volver a muestrear (resampling) tras una edición genera una trayectoria cualitativamente diferente, dificultando la comparación.
Dependencia de la Ruta: Una vez que el modelo se compromete con una línea de pensamiento, las generaciones subsiguientes están restringidas por ese compromiso. Aislar una única computación decisiva en una sola pasada hacia adelante es a menudo insuficiente.

El objetivo es identificar qué segmentos de contexto anterior dirigen causalmente la trayectoria de razonamiento en una ejecución real (on-policy) sin alterar la salida generada ni requerir volver a muestrear.

2. Metodología: DRTC

DRTC es un marco de causalidad de procesos diseñado para analizar una sola ejecución de razonamiento (rollout). Se compone de cuatro contribuciones metodológicas principales:

A. Descubrimiento de Puntos de Decisión (Pivots)
El método identifica automáticamente un pequeño conjunto de posiciones críticas ("pivots") dentro de la traza donde el modelo es más propenso a cambiar de estrategia o comprometerse con una dirección.

Señales: Utiliza incertidumbre (entropía), márgenes de probabilidad (top-2) y señales de desplazamiento de distribución (divergencia Jensen-Shannon) para detectar momentos de inestabilidad computacional.
Ponderación: Se asignan pesos de importancia normalizados a estos pivots basados en la magnitud de la señal de incertidumbre.

B. Intervenciones Causales en el Receptor (Receiver-side Interventions)
En lugar de reescribir el texto o volver a muestrear, DRTC aplica una máscara de atención específica en los pivots.

Mecanismo: En un pivote dado $\tau_k$ , se bloquea el flujo de información desde un fragmento de texto anterior específico ( $c_i$ ) hacia ese pivote.
Restricción: Esto se hace sin cambiar los tokens generados ni la historia previa; solo se altera la conectividad de atención en la capa de transformación en el momento del pivote. Esto permite un contrafactual determinista local.

C. Atribución de Trayectoria Direccional
El objetivo causal no es simplemente cambiar la respuesta final, sino medir cómo la intervención redirige la trayectoria de probabilidad logarítmica del modelo.

Vector de Dirección: Se define una dirección global de la ejecución basada en los extremos de la secuencia de pivotes.
Proyección: Se mide el cambio en el vector de log-probabilidades en el pivote debido a la máscara. Si la intervención empuja la trayectoria en la misma dirección que la ejecución real, la atribución es positiva; si la aleja, es negativa.
Puntaje Final: Se agrega la importancia del pivote, la relevancia de la intervención y el efecto direccional para obtener un puntaje de atribución por fragmento (chunk).

D. Diagnósticos de Curvatura (Geometría)
Como complemento, se calculan cambios en el ángulo de giro en el espacio de logits (curvatura).

Propósito: Esto no se usa para calcular la puntuación de atribución, sino como una señal diagnóstica para entender la intensidad de la reorientación geométrica. Permite agrupar fragmentos con patrones de respuesta similares ("roles de curvatura").

3. Resultados Clave

Los autores evaluaron DRTC en cuatro modelos de razonamiento (LFM2.5, Ministral, Phi-4 Mini, R1-Distill-Qwen) y en un estudio de escalado con 500 problemas de matemáticas (MATH).

Concentración de Influencia: La influencia causal no está difusa; está altamente concentrada. El coeficiente de Gini oscila entre 0.50 y 0.58, y el 5% superior de los fragmentos representa aproximadamente el 23-28% de la influencia total.
Validación de Pivotes Aprendidos: Los pivotes descubiertos por el modelo inducen intervenciones significativamente más fuertes que los segmentos aleatorios emparejados (diferencia mediana positiva en magnitud de intervención, $p = 2.3 \times 10^{-21}$ en el estudio de MATH).
Invarianza de la Curvatura: Se demostró que el cálculo de la curvatura es puramente diagnóstico; no altera los puntajes de atribución DRTC (correlación de Spearman = 1.000 entre configuraciones con y sin curvatura).
Vinculación con el Resultado: En un subconjunto filtrado por estabilidad, los fragmentos mejor clasificados por DRTC degradaron más la probabilidad logarítmica de la respuesta correcta (cuando se editaron) que los controles aleatorios, sugiriendo una conexión causal real con la calidad del resultado.
Interpretación Cualitativa: Los fragmentos con alta puntuación positiva suelen corresponder a restricciones que establecen la estrategia o compromisos estructurales clave. Los fragmentos con signo negativo a menudo corresponden a dudas iniciales, desvíos exploratorios o reencuadres que fueron corregidos posteriormente.

4. Contribuciones y Significancia

Nuevo Paradigma de Interpretación: DRTC ofrece una visión causalmente fundamentada de cómo elementos específicos del contexto dirigen trayectorias de razonamiento on-policy, superando las limitaciones de los métodos de atribución basados en gradientes o perturbaciones estáticas.
Herramienta de Auditoría: Proporciona un "mapa de dirección" procesable que permite a los investigadores auditar qué partes del pensamiento del modelo son críticas y cuáles son ruido o desvíos.
Eficiencia y Reproducibilidad: El método no requiere volver a muestrear la generación, lo que lo hace computacionalmente eficiente y reproducible directamente desde los artefactos exportados (JSON).
Puente hacia la Mecánica: Al identificar fragmentos de contexto críticos y puntos de pivote, DRTC puede servir como semilla para análisis de circuitos más profundos (como mechanistic interpretability) que buscan entender los mecanismos internos del modelo.

En conclusión, DRTC llena una brecha crítica en la interpretabilidad de modelos de IA, permitiendo entender no solo qué respondió un modelo, sino cómo y dónde en su proceso de pensamiento se tomaron las decisiones que definieron su trayectoria final.

Directional Reasoning Trajectory Change (DRTC): Identifying Critical Trace Segments in Reasoning Models

1. El Mapa del Viaje (La Trayectoria)

2. El Experimento del "Corte de Cable" (Intervención)

3. La Brújula de la Culpa (Atribución)

¿Por qué es importante esto?

En resumen

Resumen Técnico: DRTC (Cambio Direccional de la Trayectoria de Razonamiento)

1. El Problema: La Brecha de Interpretabilidad en Razonamiento de Largo Alcance

2. Metodología: DRTC

3. Resultados Clave

4. Contribuciones y Significancia

Más como este

Entropy After for reasoning model early exiting

Alternatives to the Laplacian for Scalable Spectral Clustering with Group Fairness Constraints

A Benchmark of Classical and Deep Learning Models for Agricultural Commodity Price Forecasting on A Novel Bangladeshi Market Price Dataset

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

FLeX: Fourier-based Low-rank EXpansion for multilingual transfer