Represented Is Not Computed: A Causal Test of Candidate… — Explicación divulgativa

Autores originales: Ishita Darade, Sushrut Thorat

Publicado 2026-05-22✓ Author reviewed ⓘ

📖 5 min de lectura🧠 Análisis profundo

Autores originales: Ishita Darade, Sushrut Thorat

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Imagina que tienes un chef robot muy inteligente, pero misterioso. Le das una tarjeta de receta con tres ingredientes: un número grande ( $N$ ), un número base ( $B$ ) y un número de "ranura" específico ( $D$ ). La tarea del chef es determinar una cifra específica del número grande, pero solo después de convertirlo al "idioma" de la base.

Por ejemplo, si el número grande es 255, la base es 16 y pides la ranura 0, el chef necesita hacer algunos cálculos matemáticos para darte la respuesta.

Los investigadores de este artículo quisieron echar un vistazo dentro del cerebro del chef para ver cómo resuelve este acertijo. Tenían una teoría muy específica sobre cómo el chef debería estar pensando, y querían ver si eso era realmente lo que ocurría.

Aquí está la historia de lo que descubrieron, desglosada en pasos simples:

1. El chef es un genio en la tarea

Primero, verificaron si el robot podía realmente hacer el trabajo. Lo entrenaron con miles de ejemplos y luego lo probaron con números nuevos e inéditos.

El resultado: El robot fue casi perfecto (99,83 % de precisión). Sabía exactamente qué respuesta dar. Por lo tanto, sabemos que puede resolver el problema.

2. La teoría del "plano" (lo que pensábamos que ocurría)

El problema matemático tiene una solución clara, paso a paso (como un plano). Para obtener la respuesta, teóricamente necesitas:

Calcular un número auxiliar ( $B^D$ ).
Dividir el número grande por ese auxiliar.
Redondear hacia abajo.
Tomar el residuo.

Los investigadores pensaron que el robot probablemente seguía este plano. Utilizaron una herramienta llamada "sonda lineal" (piensa en ella como un detector de metales) para escanear el cerebro del robot.

El hallazgo: ¡El detector de metales pitó! Descubrió que el cerebro del robot sí contenía estos números exactos. El "número auxiliar" y el "número redondeado hacia abajo" eran claramente visibles en los pensamientos internos del robot.
La trampa: Como encontraron estos números, asumieron que el robot los estaba utilizando para resolver el problema. Parecía que el robot seguía el plano perfectamente.

3. La comprobación de la realidad (la prueba causal)

Aquí es donde el artículo se vuelve interesante. Solo porque el robot tenga los números en su cerebro no significa que los esté usando para tomar la decisión.

Para descubrir qué estaba usando realmente el robot, los investigadores realizaron una "cirugía" en el cerebro del robot utilizando dos métodos:

Método A: El botón de silencio (ablación)
Intentaron "silenciar" partes específicas del cerebro que se suponía debían pasar los "números auxiliares" a la respuesta final.
- El resultado: Sorprendentemente, silenciar las partes que contenían las matemáticas complejas no perjudicó mucho al robot. Pero cuando silenciaron la primera parte donde el robot miraba el "número de ranura" ( $D$ ), el robot olvidó inmediatamente cómo responder. No importaba si las matemáticas complejas estaban ahí o no; el robot las ignoraba.
Método B: El intercambio (parche)
Tomaron un robot "donante" que tenía un número de "ranura" ( $D$ ) diferente, pero el mismo número grande y la misma base. Intercambiaron las señales cerebrales del donante en el robot original.
- El resultado: El robot original dio repentinamente la respuesta del donante. Pero esto solo sucedió si el número de ranura ( $D$ ) era diferente. Si intercambiaban el número grande ( $N$ ) o la base ( $B$ ), al robot no le importaba.
- La conclusión: El robot no estaba utilizando las matemáticas complejas (el plano) para decidir la respuesta. Solo estaba escuchando directamente el "número de ranura" ( $D$ ).

4. El descubrimiento de la "ruta oculta"

Finalmente, trazaron el camino real que tomó la información.

Lo que esperaban: Una sola autopista organizada donde $N$ , $B$ y $D$ se encontraran, se mezclaran en una fórmula matemática compleja y luego produjeran la respuesta.
Lo que encontraron: El robot tiene tres caminos pequeños y separados. Un camino lleva el número grande, otro lleva la base y otro lleva el número de ranura. Estos caminos permanecen separados durante casi todo el viaje. Solo se encuentran en el último segundo, justo antes de que se escriba la respuesta. El robot no construyó los "números auxiliares" complejos ni los pasó a lo largo; simplemente mantuvo los ingredientes separados hasta el final.

La gran lección: "Representado" no es "Calculado"

El título principal del artículo lo dice todo: "Representado no es Calculado".

Representado: El cerebro del robot contenía los números de las matemáticas complejas. Si mirabas el cerebro, podías verlos claramente (como encontrar un mapa en una mochila).
Calculado: El robot no utilizó esos números para conducir el coche. Tomó un atajo.

La analogía:
Imagina que conduces a una fiesta. Tienes un mapa detallado, dibujado a mano, en la guantera que muestra cada giro, semáforo y atajo (las matemáticas "representadas").

La sonda: Miras en la guantera y dices: "¡Ajá! ¡Tienes el mapa! ¡Debes estar usando el mapa para conducir!".
La realidad: En realidad, solo memorizaste la ruta y conduces por instinto. Si te quitan el mapa, aún llegas. Si cambias el mapa por el de otra persona, no te importa, porque no lo estás mirando.

Resumen:
El robot resolvió el problema matemático perfectamente e incluso "pensó" en los pasos matemáticos de una manera que parecía seguir las reglas. Pero cuando probaron qué causó realmente que el robot diera la respuesta, descubrieron que ignoraba los pasos complejos y simplemente reaccionaba directamente a la "ranura" específica para la que se le pidió.

El artículo nos advierte: Solo porque podemos encontrar un fragmento de información dentro de una red neuronal, no significa que la red esté realmente usando esa información para tomar decisiones. Necesitamos probar la causa, no solo mirar el contenido.

Resumen Técnico: Lo Representado No es Computado

Enunciado del Problema
La interpretabilidad mecanicista busca comprender cómo las redes neuronales integran componentes relevantes para la tarea a fin de resolver prompts estructurados. En el lenguaje natural y la visión, las relaciones internas requeridas para esta integración rara vez se especifican con suficiente precisión como para definir un algoritmo interno candidato. Este artículo aborda esta brecha utilizando la aritmética, específicamente la extracción de dígitos en base, como un escenario más limpio donde la función entrada-salida es conocida y los algoritmos candidatos pueden definirse explícitamente. La tarea consiste en que un Transformer reciba un número decimal $N$ , una base $B$ y una posición de dígito $D$ , y prediga el coeficiente de $B^D$ en la expansión en base- $B$ de $N$ . La solución en forma cerrada es $y = \lfloor N/B^D \rfloor \mod B$ .

La pregunta central es si el modelo implementa una hipótesis algorítmica "por etapas" sugerida por esta solución en forma cerrada: calcular $B^D$ , luego $N/B^D$ , tomar la parte entera y, finalmente, reducir módulo $B$ . Específicamente, los autores investigan tres preguntas distintas a menudo confundidas en la interpretabilidad: (1) ¿Puede el modelo resolver la tarea? (2) ¿Están las cantidades de la solución en forma cerrada representadas dentro de la red? (3) ¿Son esas cantidades los intermediarios causales utilizados para producir la respuesta?

Metodología
Los autores entrenaron Transformers de solo decodificador de 10 capas desde cero en la tarea de extracción de dígitos en base utilizando tres semillas aleatorias diferentes. Los datos de entrenamiento incluyeron $N \in \{0, \dots, 999\}$ , $B \in \{2, \dots, 30\}$ y diversas posiciones de dígito $D$ . Los modelos se evaluaron de forma autoregresiva en intersecciones de números y bases retenidas para garantizar una generalización robusta en lugar de memorización.

Para analizar los mecanismos internos, el estudio empleó un enfoque multifase:

Sondeo Lineal: Se entrenaron lecturas lineales sobre activaciones congeladas para probar si las cantidades en forma cerrada ( $B^D$ , $N/B^D$ , $\lfloor N/B^D \rfloor$ y la respuesta final) eran linealmente decodificables desde los flujos residuales en varias capas.
Ablación de Atención: Los autores realizaron ablaciones dirigidas en las rutas de atención desde el flujo del token $D$ ( $D_{ones}$ ) hacia los flujos de salida ( $O[0]$ y $O[1]$ ). midieron las caídas de rendimiento al enmascarar la atención desde capas específicas (tanto barridos de superficial a profundo como de profundo a superficial) para identificar dependencias causales.
Parcheo de Activaciones: Para determinar qué información transportan las rutas causales, los autores realizaron parcheo de claves/valores. Sustituyeron los vectores de clave/valor de $D_{ones}$ de un ejemplo "donante" en un ejemplo "fuente". Al variar si el donante difería de la fuente en $N$ , $B$ o $D$ , probaron si la ruta transporta información específica de la posición del dígito o de los intermediarios aritméticos más amplios.
Búsqueda de Circuitos Escasos: Se realizó una búsqueda codiciosa de derecha a izquierda para identificar un conjunto mínimo de rutas de atención suficiente para el rendimiento de la tarea, revelando la estructura general de enrutamiento del modelo.

Resultados Clave

Competencia en la Tarea: Los modelos lograron un rendimiento casi perfecto en conjuntos de prueba retenidos, con una precisión media de respuesta exacta del 99.83% en tres semillas. Esto establece que los modelos aprendieron de manera confiable el mapeo de la tarea.
Representación (Sondeo): Las cantidades en forma cerrada fueron fuertemente decodificables linealmente desde los flujos residuales. Específicamente, $B^D$ y cantidades tipo cociente ( $N/B^D$ ) eran accesibles desde el flujo $D_{ones}$ , con la cantidad de la respuesta final decodificable desde los flujos de salida. Esto hizo que la hipótesis algorítmica por etapas fuera plausible a nivel representacional. Cabe destacar que parte de esta decodificabilidad existía incluso en la inicialización, lo que sugiere que es parcialmente un artefacto de la arquitectura y la geometría de los datos en lugar de un cálculo puramente aprendido.
Uso Causal (Ablación y Parcheo): A pesar de la fuerte representación de los intermediarios por etapas, las pruebas causales revelaron un mecanismo diferente.
- Sensibilidad Temprana: El comportamiento de salida fue más sensible a la comunicación $D_{ones} \to O$ temprana (específicamente las capas 0–1). Enmascarar estas capas tempranas causó una caída drástica en el rendimiento, mientras que enmascarar capas posteriores tuvo un efecto mínimo.
- Transferencia Selectiva de Información: Los experimentos de parcheo mostraron que la ruta $D_{ones} \to O$ transporta información efectiva a nivel conductual que es altamente selectiva para $D$ . Cuando el donante difería solo en $N$ o $B$ , la salida del modelo parcheado permaneció sin cambios (coincidiendo con la fuente). Cuando el donante difería solo en $D$ , la salida cambió para coincidir con el donante.
- Enrutamiento Factorizado: La búsqueda de circuitos escasos reveló que $N$ , $B$ y $D$ se enrutan a través de andamios locales mayormente separados que convergen tarde en los flujos de salida. No hay evidencia de un único intermediario unificado en forma cerrada siendo transmitido desde el lado del prompt hacia la salida.

Contribuciones y Afirmaciones Clave
La contribución principal del artículo es una observación disociativa: el modelo representa las cantidades que hacen plausible la solución algorítmica por etapas (son linealmente decodificables), sin embargo, la ruta causal identificada no transmite estas cantidades a la salida.

Los autores afirman que "lo representado no es computado". En este contexto, "computado" se refiere a los intermediarios causales realmente utilizados para formar la respuesta. El estudio demuestra que:

Los sondeos pueden divergir de la realidad causal: Los sondeos lineales identificaron con éxito la presencia de intermediarios algorítmicos, pero las intervenciones causales (ablación y parcheo) probaron que estos intermediarios no eran los impulsores principales de la salida.
Decodificabilidad $\neq$ Uso Causal: Una alta decodificabilidad de una cantidad no garantiza que sea un intermediario causal aprendido; puede reflejar accesibilidad proporcionada por la arquitectura o la tokenización que luego es esculpida por el entrenamiento pero no utilizada en la ruta causal específica hacia la salida.
Mecanismo de Extracción de Dígitos en Base: El modelo resuelve la tarea enrutando $N$ , $B$ y $D$ a través de vías separadas e integrándolos tarde, dependiendo de una comunicación selectiva temprana para $D$ en lugar de una transmisión por etapas de valores tipo cociente.

Significado
El artículo sirve como una advertencia directa y comprobable contra depender exclusivamente de sondeos lineales para la interpretación mecanicista. Incluso en un escenario con un algoritmo explícito y conocido y un rendimiento de tarea casi perfecto, el mecanismo causal interno puede diferir significativamente de la hipótesis algorítmica intuitiva. Los autores argumentan que la explicación mecanicista requiere demostrar cómo se utilizan las cantidades causalmente, no solo que están presentes. Este trabajo complementa la investigación existente sobre circuitos de Transformers y mecanismos aritméticos al mostrar que rutas heurísticas o no algorítmicas pueden resolver tareas donde los intermediarios algorítmicos limpios son claramente representables pero no causalmente utilizados.

Represented Is Not Computed: A Causal Test of Candidate Algorithmic Intermediates in a Transformer