Function Induction and Task Generalization: An Interpretability Study with Off-by-One Addition

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los modelos de lenguaje (como el que estás leyendo ahora) son como cocineros muy inteligentes que han aprendido a cocinar millones de recetas. Pero, ¿qué pasa si les pides que cocinen un plato que nunca han visto antes, solo mostrándoles un par de ejemplos rápidos?

Este artículo de investigación (presentado en la conferencia ICLR 2026) investiga exactamente eso: ¿Cómo aprenden estos "cocineros" a hacer cosas nuevas al instante?

Para descubrirlo, los autores usaron un truco matemático un poco loco llamado "Suma con error de uno".

1. El Truco de la Magia: La Suma "Rota"

Imagina que le das al modelo una lista de sumas normales:

1 + 1 = 2
2 + 2 = 4
3 + 3 = 6

Pero luego, de repente, le das ejemplos "rotos" o falsos:

1 + 1 = 3 (¡Espera, eso es 2!)
2 + 2 = 5 (¡Eso es 4!)
3 + 3 = ?

Si el modelo es inteligente, se da cuenta de la regla oculta: "Ah, entiendo. Primero sumas los números, y luego le añades 1 extra al resultado". Así que responde 7 (porque 3+3=6, y 6+1=7).

El modelo lo hace muy bien. Pero la pregunta es: ¿Qué pasa dentro de su "cerebro" para que entienda esta regla nueva?

2. El Cerebro del Modelo: Un Equipo de Detectives

Los investigadores abrieron el "cerebro" del modelo (usando una técnica llamada interpretabilidad mecánica) y descubrieron que no es un solo cerebro pensando, sino un equipo de detectives trabajando en tres grupos distintos, como si fuera una cadena de montaje:

Grupo 1: Los Detectives de "Lo que pasó antes" (Previous Token Heads).
Imagina que en los ejemplos falsos (1+1=3), hay un momento de confusión. Estos detectives miran la respuesta falsa y dicen: "Oye, aquí algo no cuadra. La respuesta debería ser 2, pero escribieron 3. ¡Algo está cambiando!". Detectan el patrón de error.
Grupo 2: Los Inductores de Funciones (Function Induction Heads).
Estos son los jefes del equipo. Una vez que los detectives les dicen "¡Hay un error de +1!", estos jefes toman esa información y la convierten en una regla mágica. No solo copian el número 3, sino que aprenden la fórmula: "Suma todo y luego añade 1". Son como un chef que, al ver que el cliente pide "más sal", no solo salta la sopa, sino que aprende la regla de "poner más sal en todo".
Grupo 3: Los Consolidadores (Consolidation Heads).
Estos son los que ponen la mesa. Recogen la regla de "añadir 1" y se aseguran de que la respuesta final sea correcta, ignorando la suma normal que el modelo sabía hacer antes.

3. La Gran Analogía: El "Inductor de Funciones"

Antes de este estudio, sabíamos que los modelos podían copiar patrones simples (como ver "A, B, A..." y saber que sigue "B"). A esto se le llamaba "cabezas de inducción".

Pero este estudio descubre algo más avanzado: La Inducción de Funciones.

Antes: El modelo copiaba un ladrillo (un token) de un lugar a otro.
Ahora: El modelo copia una instrucción completa (una función matemática).

Es como si antes el modelo solo pudiera decir: "El siguiente ladrillo es rojo". Ahora puede decir: "El siguiente ladrillo debe ser rojo, pero si el anterior era azul, hazlo azul oscuro". Ha aprendido a manipular reglas, no solo a copiar cosas.

4. ¿Sirve esto para otras cosas? (Generalización)

Lo más increíble es que los autores probaron si este mismo equipo de detectives servía para otras tareas, no solo para sumar. ¡Y funcionó!

Cifrado César: Si les das letras desplazadas (A -> C, B -> D), el mismo mecanismo entiende que hay que "desplazar la letra 2 espacios".
Preguntas de opción múltiple: Si les pides que cambien la respuesta de la opción A a la B, el mismo equipo lo hace.
Suma en base 8: Incluso ayuda a entender matemáticas en sistemas numéricos diferentes.

Esto significa que el modelo no está memorizando cada tarea por separado. Ha desarrollado una herramienta universal (un mecanismo reutilizable) para entender "cómo cambiar las reglas del juego" cuando ve ejemplos nuevos.

5. ¿Por qué es importante?

Imagina que un estudiante de medicina solo memoriza los síntomas de la gripe. Si le das un virus nuevo, no sabrá qué hacer. Pero si este estudiante aprende cómo funciona el sistema inmunológico (la función), podrá diagnosticar cualquier virus nuevo.

Este estudio nos dice que los modelos de lenguaje modernos están aprendiendo a entender la lógica subyacente de las tareas, no solo a repetir lo que han visto.

En resumen:
El modelo no es una máquina de copiar y pegar. Es un sistema flexible que, al ver ejemplos nuevos, activa un equipo interno de detectives para descubrir la "regla secreta" del juego y aplicarla instantáneamente, incluso si la tarea es completamente nueva para él. Esto nos acerca a entender cómo la Inteligencia Artificial puede volverse verdaderamente adaptable y creativa.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "Function Induction and Task Generalization: An Interpretability Study with Off-by-One Addition", publicado en ICLR 2026.

1. El Problema

Aunque los Modelos de Lenguaje Grandes (LLM) demuestran una capacidad notable para realizar tareas no vistas mediante el aprendizaje en contexto (In-Context Learning - ICL), los mecanismos internos que impulsan esta generalización a nivel de tarea siguen siendo un misterio. La investigación anterior se ha centrado principalmente en la coincidencia de patrones a nivel de tokens (como las "cabezas de inducción" que copian tokens) o en tareas de mapeo simple (país -> capital). Sin embargo, existe una brecha de conocimiento sobre cómo los modelos manejan tareas que requieren razonamiento multi-paso latente y la inducción de funciones abstractas (en lugar de solo copiar tokens) en un solo paso de inferencia.

El objetivo de este trabajo es desentrañar cómo un modelo aprende y aplica una regla nueva y contraintuitiva (una función) a partir de ejemplos en el contexto, específicamente en una tarea de suma "off-by-one" (donde $1+1=3 $,$ 2+2=5$, etc., implicando sumar 1 al resultado estándar).

2. Metodología

Los autores emplean técnicas de interpretabilidad mecánica, específicamente el parcheo de caminos (path patching), para rastrear las computaciones internas del modelo.

Tarea Principal: Se utiliza la tarea de "suma off-by-one" como caso de estudio. El modelo recibe ejemplos de contexto donde la suma estándar se incrementa en 1 (ej. $1+1=3 $) y debe predecir el resultado para un nuevo caso (ej.$ 3+3=?$).
Modelos Analizados: Se evaluaron seis LLMs contemporáneos (Llama-2, Mistral, Gemma-2, Qwen-2.5, Llama-3, Phi-4), utilizando Gemma-2 (9B) como modelo principal para el análisis detallado de circuitos.
Técnica de Parcheo de Caminos:
1. Se ejecutan pasadas hacia adelante con un prompt base (suma estándar) y un prompt de contraste (suma off-by-one).
2. Se reemplazan activaciones específicas (de cabezas de atención o capas MLP) del prompt de contraste con las correspondientes del prompt base.
3. Si este reemplazo hace que el modelo vuelva a dar la respuesta estándar (ej. 6 en lugar de 7), se infiere que esa parte del circuito es responsable de la inducción de la función "+1".
Validación: Se utilizan experimentos de ablación de cabezas, análisis de vectores de función (funcion vector analysis) y pruebas de generalización en otras tareas sintéticas y algorítmicas.

3. Contribuciones Clave y Hallazgos

El estudio identifica un nuevo mecanismo llamado "Inducción de Funciones" (Function Induction), que generaliza el concepto de las cabezas de inducción tradicionales. Los hallazgos se estructuran en tres puntos principales:

A. Identificación del Circuito de Inducción de Funciones

El modelo no aprende la tarea como una sola unidad, sino que la descompone en un circuito de tres grupos de cabezas de atención que cooperan:

Cabezas de Token Anterior (Previous Token - PT): Ubicadas en capas intermedias. Detectan la discrepancia entre la respuesta esperada (suma estándar) y la respuesta proporcionada en el ejemplo de contexto (el "+1"). Registran esta anomalía en la posición del token de respuesta.
Cabezas de Inducción de Función (Function Induction - FI): Ubicadas en capas tardías. Recuperan la información registrada por las cabezas PT y escriben la función +1 en el flujo residual. A diferencia de las cabezas de inducción clásicas que copian un token, estas cabezas inducen una función matemática ( $f(x) = x + 1$ ).
Cabezas de Consolidación (Consolidation Heads): Ubicadas en las últimas capas. Sintetizan la información de las cabezas FI y el cálculo estándar para generar la salida final.

B. Naturaleza Distribuida y Colaborativa

La inducción de la función "+1" no es realizada por una sola cabeza, sino que es el resultado agregado de múltiples cabezas de atención en paralelo.

Cada cabeza FI contribuye con una "fracción" distinta de la función (ej. una promueve $x+1$ , otra suprime $x-1$ , otra suprime $x$ ).
La suma de estas contribuciones parciales en el flujo residual resulta en la función completa. Esto demuestra una estructura componible y reutilizable dentro del modelo.

C. Generalización y Reutilización del Mecanismo

El mecanismo de inducción de funciones no es exclusivo de la suma off-by-one. Los autores demostraron que este mismo circuito se reutiliza en una variedad de tareas con estructuras similares (un paso base seguido de una transformación):

Suma off-by-k: Donde el desplazamiento es diferente (ej. +2 o -1).
Cifrado César: Donde se desplazan letras en el alfabeto.
Preguntas de opción múltiple desplazadas (Shifted MMLU): Donde la respuesta correcta se desplaza una letra (A->B).
Suma en base-8: Donde el modelo debe ajustar la suma estándar a una base diferente.

4. Resultados Cuantitativos

Rendimiento: Todos los modelos evaluados mostraron un rendimiento no trivial en la tarea off-by-one, mejorando consistentemente con más ejemplos en contexto (shots).
Ablación: Al eliminar (ablar) las 6 cabezas FI identificadas en Gemma-2, la precisión en la tarea de contraste cayó a 0%, mientras que la precisión en la suma estándar volvió al 100%. Esto confirma la causalidad de estas cabezas en la inducción de la función.
Análisis de Vectores de Función: Los mapas de calor mostraron que cada cabeza FI tiene un "especialidad" específica (ej. H39.7 promueve $x+1$ , H28.6 suprime $x-1$ ), y su combinación crea la función deseada.
Limitaciones en Generalización Compleja: En tareas de suma en base-8, el modelo a veces falla debido a la sobre-generalización o sub-generalización, sugiriendo que el mecanismo de inducción de funciones aún tiene dificultades para manejar condiciones complejas de activación (cuándo aplicar el ajuste y cuándo no).

5. Significado e Implicaciones

Este trabajo ofrece una visión profunda sobre cómo los LLMs logran la generalización de tareas:

De Tokens a Funciones: Extiende la comprensión de las "cabezas de inducción" desde la copia de tokens (funciones de orden cero) hasta la inducción de funciones matemáticas y lógicas (funciones de primer orden).
Estructura Modular: Revela que los modelos poseen mecanismos internos modulares y composibles que pueden reutilizarse para nuevas tareas sin necesidad de reentrenamiento, lo que explica su capacidad de ICL.
Razonamiento Latente Multi-paso: Demuestra que los modelos pueden realizar razonamiento multi-paso de forma latente (primero calcular la suma estándar, luego aplicar la función de desplazamiento) dentro de una sola inferencia.
Implicaciones para el Desarrollo de Modelos:
- Evaluación: Sugiere que la precisión en tareas algorítmicas puede ocultar procesos de razonamiento defectuosos o atajos (shortcuts) aprendidos por el modelo.
- Entrenamiento: Propone que el diseño de curricula de pre-entrenamiento (ej. exponer primero a tareas de un paso y luego a tareas multi-paso) podría fomentar la emergencia de estos mecanismos de inducción de funciones.
- Alineación: Plantea la hipótesis de que comportamientos problemáticos como la "sycophancy" (adulación) podrían ser inducidos por mecanismos similares de "funciones de modificación de creencias" aprendidas del contexto.

En resumen, el artículo proporciona una explicación mecánica de cómo los modelos de lenguaje internalizan y aplican reglas abstractas nuevas, identificando un circuito neuronal específico y reutilizable que facilita la generalización de tareas complejas.