Dynamic Weight Grafting: Localizing Finetuned Factual Knowledge in Transformers

Each language version is independently generated for its own context, not a direct translation.

Imagina que un Modelo de Lenguaje Grande (LLM) es como un chef experto que ha cocinado miles de recetas durante años (su entrenamiento inicial). De repente, llega un nuevo ingrediente secreto: "El Papa Leo XIV fue elegido recientemente". El chef necesita aprender esto y poder responder correctamente si alguien le pregunta: "¿Quién es el Papa?".

La pregunta que se hacen los autores de este paper es: ¿Dónde y cómo guarda el chef esta nueva información en su mente? ¿La escribe en una nota adhesiva en la nevera (en el primer momento que ve el nombre "Papa")? ¿O la recuerda de repente justo antes de servir el plato (en el último momento antes de escribir la respuesta)?

Hasta ahora, los científicos intentaban averiguar esto "pinchando" al chef con agujas (una técnica llamada patching de activaciones). Pero el problema de esas agujas era que, al pinchar, a veces borraban accidentalmente la información que el chef ya había procesado antes, como si le tapáramos los ojos mientras cocinaba. No podíamos saber si el chef estaba recordando algo nuevo o simplemente usando lo que ya sabía.

La Nueva Herramienta: "El Trasplante de Ingredientes Dinámico"

Para solucionar esto, los autores crearon una técnica llamada Injerto de Pesas Dinámico (Dynamic Weight Grafting).

Imagina que tienes dos chefs:

El Chef Viejo: No sabe nada del nuevo Papa.
El Chef Nuevo: Sabe todo sobre el nuevo Papa porque le enseñaron recientemente.

En lugar de pinchar al chef, los autores hacen algo más elegante: cambian partes del cerebro del Chef Viejo por partes del cerebro del Chef Nuevo, pieza por pieza, mientras cocinan.

Si cambian solo el cerebro del Chef Nuevo cuando ven la palabra "Papa", ¿sabe el Chef Viejo la respuesta?
Si cambian solo el cerebro del Chef Nuevo justo antes de escribir la respuesta, ¿sabe la respuesta?
¿Qué pasa si cambian todo lo demás, pero dejan el cerebro del Chef Viejo en esos momentos clave?

Lo que Descubrieron: Dos Caminos Mágicos

Al hacer este "trasplante" en diferentes momentos, descubrieron que los modelos usan dos caminos diferentes para recordar la nueva información, y a veces usan uno, a veces el otro, y a veces ambos:

El Camino del "Enriquecimiento" (La Nota Adhesiva):
Cuando el modelo ve la palabra clave (ej. "Papa"), en las capas inferiores de su red neuronal, "engrasa" esa palabra con la nueva información. Es como si el chef, al ver la palabra "Papa", inmediatamente escribiera en una nota mental: "¡Oye, el Papa es Leo XIV!". Esta información viaja con la palabra a través de toda la receta.
- Analogía: Es como poner una etiqueta brillante en un ingrediente para que no se olvide.
El Camino del "Recuerdo" (El Flash Final):
En otros casos, el modelo no necesita saberlo desde el principio. Puede procesar la palabra "Papa" sin saber nada nuevo, pero justo en el último segundo, antes de escribir la respuesta, sus capas finales "recuerdan" o "buscan" la información. Es como si el chef, al estar a punto de poner el plato en la mesa, mirara rápidamente su libro de recetas y dijera: "¡Ah, sí! El Papa es Leo XIV".
- Analogía: Es como tener un buscador interno que funciona justo antes de entregar el trabajo.

¿Qué partes del cerebro hacen el trabajo?

Los autores también se metieron en el "cerebro" del modelo para ver qué piezas específicas hacen esto:

Para el recuerdo final, descubrieron que son dos piezas clave las que hacen el trabajo sucio: las redes de atención (que miran hacia atrás) y las redes de alimentación (que son como los filtros que deciden qué palabra decir).
Específicamente, la parte que decide qué palabra decir (llamada matriz de proyección de salida) y los filtros finales son los que realmente "sacan" la información nueva.

¿Por qué es importante esto?

Antes, pensábamos que la información se guardaba en un solo lugar o que los modelos eran cajas negras impenetrables. Ahora sabemos que:

Los modelos son flexibles: Pueden aprender un hecho nuevo de dos maneras distintas.
No es necesario "reprogramar" todo el modelo para que aprenda un hecho nuevo; a veces solo necesitamos "reparar" una pequeña pieza del cerebro en el momento exacto.
Esta técnica es menos destructiva que las anteriores, permitiéndonos ver cómo funciona la magia sin romper el hechizo.

En resumen:
Este paper nos dice que cuando un modelo de IA aprende algo nuevo, no es como escribir en una pizarra estática. Es más como tener dos estrategias: o bien etiquetas el concepto desde el principio para que viaje contigo, o bien recuerdas la respuesta justo en el último segundo gracias a un mecanismo de búsqueda interno. Y lo mejor de todo, ahora tenemos un "kit de cirugía" para ver exactamente qué partes del cerebro del modelo están haciendo el trabajo.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "Dynamic Weight Grafting: Localizing Fine-Tuned Factual Knowledge in Transformers", presentado en ICLR 2026.

1. El Problema

Cuando un Modelo de Lenguaje Grande (LLM) se ajusta fino (fine-tuning) para aprender nuevos hechos (por ejemplo, el nombre de un nuevo actor o un evento reciente), surge una pregunta fundamental de interpretabilidad: ¿Dónde y cómo se almacena y recupera esta información dentro de los parámetros del modelo?

Existen dos hipótesis principales sobre la localización de este conocimiento:

Enriquecimiento (Enrichment): La información se inyecta en la representación del token de la entidad (ej. "Zendaya") en las capas inferiores o medias, y se propaga a través del flujo residual.
Recuerdo (Recall): La información se recupera "justo a tiempo" en la posición del token final antes de generar la respuesta, independientemente de si la entidad fue enriquecida previamente.

Las técnicas de interpretabilidad existentes, como el parcheo de activaciones (activation patching), tienen limitaciones críticas: al reemplazar activaciones en un punto específico, sobrescriben la información que fluyó desde posiciones anteriores. Esto impide distinguir si un componente está activamente extrayendo nueva información o simplemente pasando información calculada previamente. Por lo tanto, no pueden aislar qué mecanismos son necesarios y suficientes para la recuperación de conocimiento.

2. Metodología: Grafting de Pesas Dinámico

Los autores proponen una nueva técnica llamada Dynamic Weight Grafting (Injerto de Pesas Dinámico) para superar las limitaciones de los métodos destructivos anteriores.

Concepto Central: En lugar de manipular las activaciones (el flujo de datos), la técnica manipula los parámetros (las matrices de pesos) del modelo durante la generación.
Mecanismo: Se toma un modelo preentrenado ( $\theta_{pre}$ ) y un modelo ajustado fino ( $\theta_{ft}$ ). Durante el proceso de inferencia, el sistema intercambia dinámicamente subconjuntos específicos de pesos del modelo ajustado en el modelo preentrenado, token por token y componente por componente.
Configuraciones de Injerto:
- Injerto por Posición: Se reemplazan todos los pesos de un token específico (ej. solo el primer token de la entidad o solo el último token antes de la predicción).
- Injerto por Componente: Se reemplazan componentes específicos del bloque Transformer (Atención, FFN, proyección de salida) en posiciones específicas.
Ventaja: Al cambiar los pesos y no las activaciones, se preserva el flujo de información de los tokens anteriores, permitiendo aislar causalmente qué mecanismos son responsables de la recuperación del conocimiento.

3. Contribuciones Clave

Identificación de Dos Vías de Recuperación: El estudio demuestra que los modelos utilizan dos vías separadas y a menudo redundantes para recuperar conocimiento ajustado fino:
- Vía de Enriquecimiento: La información se codifica en la representación de la entidad cuando se procesa por primera vez.
- Vía de Recuerdo: La información se extrae en la posición del token final, justo antes de generar la respuesta, incluso si la entidad no fue enriquecida.
Localización de Componentes: Mediante el injerto de componentes, los autores localizan la vía de "recuerdo" a:
- Mecanismos de Atención Específicos de la Tarea: En el primer token de la entidad y en el token final.
- Extracción Específica de la Relación: En las matrices de proyección de salida ( $O$ ) y las Redes Feed-Forward (FFN) de las últimas capas, justo antes de la predicción.
Suficiencia y Necesidad: Se demuestra que injertar solo la vía de enriquecimiento o solo la vía de recuerdo es suficiente para recuperar un rendimiento significativo, y que la combinación de ambas recupera casi el rendimiento completo del ajuste fino. Inversamente, excluir ambas vías reduce la precisión a niveles cercanos a cero.

4. Resultados Experimentales

Los experimentos se realizaron en cuatro modelos (Llama3, Pythia, GPT-2 XL, Gemma) utilizando datos sintéticos (pares actor-película ficticios y reales) y datos reales (artículos de Wikipedia sobre películas recientes).

Rendimiento de Posición:
- Injertar solo los pesos del primer token de la entidad (FE) o solo del último token (LT) recupera una gran parte del rendimiento de ajuste fino.
- Injertar todo excepto FE y LT ((FE+LT)C) resulta en una precisión casi nula, confirmando que estas son las únicas vías necesarias.
Análisis de Componentes (Recuerdo):
- Al injertar la matriz de proyección de salida ( $O$ ) y las FFN de las últimas capas del modelo ajustado en un modelo preentrenado (manteniendo la atención del modelo preentrenado), se recupera la mayor parte del rendimiento.
- Esto sugiere que el modelo ajustado aprende operaciones específicas en las capas finales para "recordar" la relación, siempre que la atención tenga la estructura de la tarea correcta.
Generalización:
- Los resultados se mantienen consistentes tanto para entidades conocidas como desconocidas.
- En datos no planteados (Wikipedia), las vías de enriquecimiento y recuerdo son más débiles que en datos sintéticos, pero siguen siendo los mecanismos dominantes.
Diferencias Arquitectónicas: Modelos más recientes (Gemma, Llama3) muestran una vía de "recuerdo" más fuerte que modelos más antiguos (GPT-2 XL, Pythia), posiblemente debido a mecanismos de atención más expresivos.

5. Significado e Impacto

Avance en Interpretabilidad: El Dynamic Weight Grafting ofrece una alternativa menos destructiva y más precisa que el parcheo de activaciones, permitiendo una localización causal de los mecanismos de conocimiento sin sobrescribir el contexto histórico de la generación.
Comprensión de la Memoria en LLMs: El trabajo refuta la idea de que el conocimiento se almacena en un solo lugar. En su lugar, revela una arquitectura redundante donde la información puede ser recuperada tanto desde la representación inicial de la entidad como desde un mecanismo de recuperación tardía en las capas finales.
Implicaciones para la Edición de Conocimiento: Entender que la recuperación depende de componentes específicos (como las FFN finales y la proyección $O$ ) podría guiar el desarrollo de métodos más eficientes para editar o actualizar hechos en modelos grandes sin necesidad de reentrenamiento completo.
Limitaciones: El estudio se centra en tareas de un solo salto (single-hop) y datos sintéticos/planteados. Futuras investigaciones deberían explorar configuraciones de múltiples saltos y datos más complejos.

En resumen, el artículo establece que los LLMs no dependen de una única estrategia para recordar hechos nuevos, sino que implementan heurísticas redundantes de "enriquecimiento" y "recuerdo", localizables mediante la manipulación selectiva de sus pesos.

Dynamic Weight Grafting: Localizing Finetuned Factual Knowledge in Transformers

La Nueva Herramienta: "El Trasplante de Ingredientes Dinámico"

Lo que Descubrieron: Dos Caminos Mágicos

¿Qué partes del cerebro hacen el trabajo?

¿Por qué es importante esto?

1. El Problema

2. Metodología: Grafting de Pesas Dinámico

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

A Theory-guided Weighted L2L^2L2 Loss for solving the BGK model via Physics-informed neural networks

Territory Paint Wars: Diagnosing and Mitigating Failure Modes in Competitive Multi-Agent PPO

Enhancing sample efficiency in reinforcement-learning-based flow control: replacing the critic with an adaptive reduced-order model

Cactus: Accelerating Auto-Regressive Decoding with Constrained Acceptance Speculative Sampling

Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression

A Theory-guided Weighted $L^2$ Loss for solving the BGK model via Physics-informed neural networks