Represented Is Not Computed: A Causal Test of Candidate Algorithmic Intermediates in a Transformer

Este artículo demuestra que, aunque las sondas lineales sugieren que un Transformer entrenado en la extracción de dígitos base calcula intermediarios aritméticos por etapas, las pruebas causales revelan que la ruta computacional real depende de flujos de entrada separados que se combinan tardíamente, lo que destaca una divergencia significativa entre la evidencia representacional y el mecanismo causal.

Autores originales: Ishita Darade, Sushrut Thorat

Publicado 2026-05-22✓ Author reviewed
📖 5 min de lectura🧠 Análisis profundo

Autores originales: Ishita Darade, Sushrut Thorat

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Imagina que tienes un chef robot muy inteligente, pero misterioso. Le das una tarjeta de receta con tres ingredientes: un número grande (NN), un número base (BB) y un número de "ranura" específico (DD). La tarea del chef es determinar una cifra específica del número grande, pero solo después de convertirlo al "idioma" de la base.

Por ejemplo, si el número grande es 255, la base es 16 y pides la ranura 0, el chef necesita hacer algunos cálculos matemáticos para darte la respuesta.

Los investigadores de este artículo quisieron echar un vistazo dentro del cerebro del chef para ver cómo resuelve este acertijo. Tenían una teoría muy específica sobre cómo el chef debería estar pensando, y querían ver si eso era realmente lo que ocurría.

Aquí está la historia de lo que descubrieron, desglosada en pasos simples:

1. El chef es un genio en la tarea

Primero, verificaron si el robot podía realmente hacer el trabajo. Lo entrenaron con miles de ejemplos y luego lo probaron con números nuevos e inéditos.

  • El resultado: El robot fue casi perfecto (99,83 % de precisión). Sabía exactamente qué respuesta dar. Por lo tanto, sabemos que puede resolver el problema.

2. La teoría del "plano" (lo que pensábamos que ocurría)

El problema matemático tiene una solución clara, paso a paso (como un plano). Para obtener la respuesta, teóricamente necesitas:

  1. Calcular un número auxiliar (BDB^D).
  2. Dividir el número grande por ese auxiliar.
  3. Redondear hacia abajo.
  4. Tomar el residuo.

Los investigadores pensaron que el robot probablemente seguía este plano. Utilizaron una herramienta llamada "sonda lineal" (piensa en ella como un detector de metales) para escanear el cerebro del robot.

  • El hallazgo: ¡El detector de metales pitó! Descubrió que el cerebro del robot contenía estos números exactos. El "número auxiliar" y el "número redondeado hacia abajo" eran claramente visibles en los pensamientos internos del robot.
  • La trampa: Como encontraron estos números, asumieron que el robot los estaba utilizando para resolver el problema. Parecía que el robot seguía el plano perfectamente.

3. La comprobación de la realidad (la prueba causal)

Aquí es donde el artículo se vuelve interesante. Solo porque el robot tenga los números en su cerebro no significa que los esté usando para tomar la decisión.

Para descubrir qué estaba usando realmente el robot, los investigadores realizaron una "cirugía" en el cerebro del robot utilizando dos métodos:

  • Método A: El botón de silencio (ablación)
    Intentaron "silenciar" partes específicas del cerebro que se suponía debían pasar los "números auxiliares" a la respuesta final.

    • El resultado: Sorprendentemente, silenciar las partes que contenían las matemáticas complejas no perjudicó mucho al robot. Pero cuando silenciaron la primera parte donde el robot miraba el "número de ranura" (DD), el robot olvidó inmediatamente cómo responder. No importaba si las matemáticas complejas estaban ahí o no; el robot las ignoraba.
  • Método B: El intercambio (parche)
    Tomaron un robot "donante" que tenía un número de "ranura" (DD) diferente, pero el mismo número grande y la misma base. Intercambiaron las señales cerebrales del donante en el robot original.

    • El resultado: El robot original dio repentinamente la respuesta del donante. Pero esto solo sucedió si el número de ranura (DD) era diferente. Si intercambiaban el número grande (NN) o la base (BB), al robot no le importaba.
    • La conclusión: El robot no estaba utilizando las matemáticas complejas (el plano) para decidir la respuesta. Solo estaba escuchando directamente el "número de ranura" (DD).

4. El descubrimiento de la "ruta oculta"

Finalmente, trazaron el camino real que tomó la información.

  • Lo que esperaban: Una sola autopista organizada donde NN, BB y DD se encontraran, se mezclaran en una fórmula matemática compleja y luego produjeran la respuesta.
  • Lo que encontraron: El robot tiene tres caminos pequeños y separados. Un camino lleva el número grande, otro lleva la base y otro lleva el número de ranura. Estos caminos permanecen separados durante casi todo el viaje. Solo se encuentran en el último segundo, justo antes de que se escriba la respuesta. El robot no construyó los "números auxiliares" complejos ni los pasó a lo largo; simplemente mantuvo los ingredientes separados hasta el final.

La gran lección: "Representado" no es "Calculado"

El título principal del artículo lo dice todo: "Representado no es Calculado".

  • Representado: El cerebro del robot contenía los números de las matemáticas complejas. Si mirabas el cerebro, podías verlos claramente (como encontrar un mapa en una mochila).
  • Calculado: El robot no utilizó esos números para conducir el coche. Tomó un atajo.

La analogía:
Imagina que conduces a una fiesta. Tienes un mapa detallado, dibujado a mano, en la guantera que muestra cada giro, semáforo y atajo (las matemáticas "representadas").

  • La sonda: Miras en la guantera y dices: "¡Ajá! ¡Tienes el mapa! ¡Debes estar usando el mapa para conducir!".
  • La realidad: En realidad, solo memorizaste la ruta y conduces por instinto. Si te quitan el mapa, aún llegas. Si cambias el mapa por el de otra persona, no te importa, porque no lo estás mirando.

Resumen:
El robot resolvió el problema matemático perfectamente e incluso "pensó" en los pasos matemáticos de una manera que parecía seguir las reglas. Pero cuando probaron qué causó realmente que el robot diera la respuesta, descubrieron que ignoraba los pasos complejos y simplemente reaccionaba directamente a la "ranura" específica para la que se le pidió.

El artículo nos advierte: Solo porque podemos encontrar un fragmento de información dentro de una red neuronal, no significa que la red esté realmente usando esa información para tomar decisiones. Necesitamos probar la causa, no solo mirar el contenido.

¿Ahogado en artículos de tu campo?

Recibe resúmenes diarios de los artículos más novedosos que coincidan con tus palabras clave de investigación — con resúmenes técnicos, en tu idioma.

Probar Digest →