Autores originales: Keenan Pepper, Alex McKenzie, Florin Pop, Stijn Servaes, Martin Leitgab, Mike Vaiana, Judd Rosenblatt, Michael S. A. Graziano, Diogo de Lucena

Publicado 2026-06-03✓ Author reviewed ⓘ

📖 5 min de lectura🧠 Análisis profundo

CC BY 4.0

Autores originales: Keenan Pepper, Alex McKenzie, Florin Pop, Stijn Servaes, Martin Leitgab, Mike Vaiana, Judd Rosenblatt, Michael S. A. Graziano, Diogo de Lucena

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Imagina un Modelo de Lenguaje Grande (LLM) como una biblioteca gigante e increíblemente compleja. Dentro de esta biblioteca, la información no se almacena en libros que puedas leer; se almacena en una red masiva e invisible de señales eléctricas (activaciones) que se disparan cuando el modelo "piensa".

Durante mucho tiempo, los investigadores han intentado espiar detrás de la cortina para ver qué significan estas señales. Han construido herramientas para mapear estas señales con conceptos (como "matemáticas" o "cortesía"), pero las herramientas son caprichosas. Si ajustas un dial aunque sea ligeramente, el modelo podría empezar a hablar un sinsentido fluido que suena como una explicación, pero que no está realmente conectado con lo que está pensando.

Este artículo presenta una nueva forma de solucionar esto. Aquí está la idea central, desglosada con analogías sencillas:

1. El Problema: El "Traductor" está roto

Imagina que las señales internas del modelo son un código secreto. Anteriormente, los investigadores intentaban traducir este código simplemente metiéndolo directamente en la boca del modelo y preguntándole: "¿Qué significa esto?".

El problema: A veces el modelo entiende, pero a menudo se confunde. Podría decir: "Esta señal significa 'una pequeña colina de tierra'" cuando en realidad significa "una función de computadora". Es como intentar traducir un idioma extranjero adivinando las palabras; obtienes la gramática correcta, pero el significado es erróneo.

2. La Solución: Entrenar un "Adaptador Ligero"

En lugar de intentar reentrenar toda la biblioteca gigante (lo cual es costoso y cambia cómo funciona la biblioteca), los autores entrenaron un adaptador pequeño y especializado.

La analogía: Piensa en el adaptador como un traductor especializado o un par de gafas.
- La biblioteca gigante (el modelo) permanece exactamente igual; no aprende nada nuevo.
- El adaptador es un pequeño complemento (como una lente) que se sitúa frente a los ojos del modelo.
- Los autores entrenaron esta lente utilizando "artefactos de interpretabilidad". Estos son como fichas de estudio que los investigadores ya habían hecho: un lado tiene un vector de señal y el otro tiene una etiqueta (por ejemplo, "Esta señal = 'Béisbol'").
- El adaptador aprende cómo ajustar la señal para que el modelo finalmente pueda "ver" lo que está pensando y describirlo correctamente.

3. El Ingrediente Mágico: El "Sesgo" (El Ajuste Predeterminado)

El hallazgo más sorprendente es que el adaptador no necesita ser una supercomputadora. Una versión muy simple funciona mejor.

La analogía: Imagina que el adaptador tiene dos partes:
1. La Señal: La cosa específica en la que el modelo está pensando ahora mismo (por ejemplo, "Platón").
2. El Sesgo: Un "ajuste predeterminado" o un hábito mental que el adaptador aprendió sobre cómo escribir la respuesta.
El artículo encontró que este "sesgo" realiza el 85% del trabajo pesado. No se trata de la estructura de la pregunta que le hacemos al modelo (que es fija y la damos nosotros), sino del estilo y formato de lo que el modelo genera.
La prueba: Cuando los investigadores entrenaron al modelo con etiquetas en MAYÚSCULAS, las explicaciones generadas por el modelo también salieron en MAYÚSCULAS. La parte de la pregunta que nosotros escribimos ("El significado de X es...") seguía siendo normal, pero el texto generado por el modelo cambió de estilo. La única pieza capaz de aprender y aplicar ese estilo (como escribir todo en mayúsculas o usar un tono de voz específico) es el vector de sesgo del adaptador. Es como enseñar a un estudiante no solo el tema, sino el estilo de escritura (formal, en mayúsculas, poético) para que pueda escribir un gran ensayo sobre cualquier tema con ese estilo específico.

4. Lo que Descubrieron

Mejor que las Etiquetas Originales: Los adaptadores no solo copiaron las fichas de estudio de entrenamiento; de hecho, se volvieron mejores describiendo las señales que las etiquetas originales que escribieron los investigadores. Es como un estudiante que aprende de un libro de texto y luego escribe un resumen mejor que el autor del libro.
Descubriendo Pensamientos Ocultos: El modelo a veces puede resolver un acertijo sin decir sus pasos en voz alta (por ejemplo, responder "Atenas" a un acertijo sobre Platón sin mencionar a Platón). El adaptador entrenado puede "leer la mente del modelo" y revelar ese pensamiento oculto de "Platón", aunque el modelo nunca lo haya dicho.
Modelos más Grandes = Mejores Traductores: A medida que los modelos se vuelven más grandes (de 7 mil millones a 72 mil millones de parámetros), el adaptador se vuelve aún mejor traduciendo estos pensamientos. El modelo no solo se vuelve más inteligente al responder preguntas, sino que se vuelve mejor explicando cómo piensa.

5. Por qué esto es importante (Según el artículo)

El artículo sostiene que no necesitamos cambiar el modelo mismo para entenderlo. Al añadir simplemente este pequeño "traductor" entrenado con datos existentes, podemos obtener una ventana fiable hacia el estado interno del modelo.

El Beneficio de la Auto-Interpretación: A diferencia de otras técnicas donde se entrena un modelo diferente para explicar al primero, aquí el adaptador es parte del mismo sistema. Crucialmente, el añadido alimenta estos patrones de vuelta al mismo modelo, por lo que el modelo se interpreta a sí mismo. Esto abre la puerta a una futura IA que pueda examinar su propio pensamiento desde el interior. El modelo puede analizar una explicación de sus propios pensamientos, y luego analizar sus pensamientos sobre esa explicación, todo dentro de un solo modelo en lugar de una cadena creciente de modelos explicadores diferentes.

En resumen: El artículo demuestra que si le das a un modelo de lenguaje un pequeño "traductor" entrenado basado en los mapas existentes de su cerebro, este puede decirte de forma fiable lo que está pensando, incluso para pensamientos complejos u ocultos, sin necesidad de ser reentrenado o alterado.

Resumen Técnico: Aprendizaje de la Autointerpretación a partir de Artefactos de Interpretabilidad

1. Planteamiento del Problema

Los Grandes Modelos de Lenguaje (LLMs) operan a través de activaciones ocultas de alta dimensionalidad, pero comprender el contenido semántico de estos estados internos sigue siendo un desafío central para la interpretabilidad. Aunque la interpretabilidad mecánica ha producido conocimiento estructurado (por ejemplo, características de Autoencoders Dispersos (SAE) y vectores de activación contrastivos), los modelos no pueden informar de manera fiable sobre sus propios estados internos.

Los métodos de autointerpretación existentes, como aquellos que utilizan el parcheo de activaciones (por ejemplo, SelfIE, Patchscopes), intentan inyectar representaciones internas en los prompts para generar explicaciones en lenguaje natural. Sin embargo, estos métodos son frágiles:

Sensibilidad a los Hiperparámetros: Pequeños cambios en la escala de los vectores inyectados pueden producir explicaciones fluidas pero semánticamente infundadas.
Fragilidad: La mayoría de los vectores tienen rangos de escala de inyección válidos muy estrechos; fuera de estos rangos, el modelo genera descripciones seguras pero incorrectas.
Limitaciones del Ajuste Fino (Fine-Tuning): Los enfoques recientes que ajustan los modelos para responder preguntas sobre activaciones alteran los pesos del modelo, lo que puede cambiar las mismas representaciones objeto de estudio. Idealmente, el intérprete debería ser idéntico al modelo sujeto.

2. Metodología

Los autores proponen entrenar un adaptador ligero sobre artefactos de interpretabilidad existentes para mapear las activaciones internas al lenguaje, manteniendo el Modelo de Lenguaje (LM) base completamente congelado.

2.1. Marco de Entrenamiento

Entrada: El método utiliza "artefactos de interpretabilidad" como datos de supervisión, específicamente pares vector-etiqueta $(h, y)$ $(h, y)$ .
- Fuente 1: Vectores del decodificador de SAE emparejados con etiquetas de auto-interpretabilidad.
- Fuente 2: Vectores de activación contrastiva (derivados de prompts como "Háblame de [tema]") emparejados con descripciones sintéticas del tema.
Proceso:
1. Se extrae un vector de activación $h$ de un prompt de origen (por ejemplo, una capa específica del LM).
2. Una función de adaptador ligera $f(h)$ transforma este vector.
3. El vector transformado se inyecta en un "target prompt" (una plantilla de búsqueda de explicación) en la capa de incrustación de tokens (capa 0).
4. El LM congelado genera una descripción de forma autorregresiva.
5. Objetivo: Minimizar la pérdida de entropía cruzada entre los tokens generados y la etiqueta real $y$ . Solo se actualizan los parámetros del adaptador; el LM permanece congelado.

2.2. Arquitecturas de Adaptadores

El artículo evalúa adaptadores con distintas capacidades de expresión:

Identidad: $f(h) = h$ (0 parámetros)
Solo Escala: $f(h) = \alpha \cdot h$ (1 parámetro)
Afín Escalar: $f(h) = \alpha \cdot h + b$ ( $d_{model} + 1$ parámetros)
Afín Escalar + Bajo Rango: Añade un término de bajo rango $UV^T h$
Afín de Rango Completo: $f(h) = Wh + b $($ d_{model}^2 + d_{model}$ parámetros)

2.3. Inferencia

En la inferencia, el adaptador entrenado mapea un vector de activación no visto al espacio de incrustación de tokens. Para abordar la sensibilidad de la escala, el sistema evalúa múltiples escalas de inyección (desde una cuadrícula logarítmica) y selecciona la generación candidata con mejor desempeño.

3. Contribuciones Clave y Resultados

3.1. Superioridad de los Adaptadores Entrenados

El entrenamiento de adaptadores ligeros supera significativamente a las líneas base no entrenadas (SelfIE) y a las etiquetas originales de entrenamiento.

Etiquetado de Características SAE: En Llama-3.3-70B, los adaptadores entrenados lograron una tasa de acierto de puntuación de generación del 70%, superando a las etiquetas originales de entrenamiento (50%) y al SelfIE no entrenado (48%).
Identificación de Temas: En vectores de activación contrastiva, el recall@1 mejoró de ~1% (no entrenado) a >90% (entrenado).
Razonamiento Implícito: El método decodificó con éxito "entidades puente" en tareas de razonamiento de múltiples saltos (por ejemplo, identificar a "Platón" en una consulta sobre el autor de La República sin que el modelo verbalizara el paso intermedio). Los adaptadores entrenados detectaron entidades puente en el 91% de los casos frente al 56% de las líneas base no entrenadas.

3.2. El Papel Crítico del Vector de Sesgo (Bias)

Un hallazgo sorprendente es que un adaptador afín escalar con solo $d_{model} + 1$ parámetros es suficiente para la mayoría de las mejoras.

El vector de sesgo aprendido ( $b$ ) por sí solo explica aproximadamente el 85% de la mejora sobre las líneas base no entrenadas.
El sesgo actúa como un "prior de interpretación", dirigiendo al modelo hacia formatos de descripción válidos y patrones de contenido genéricos, mientras que el vector de entrada escalado proporciona la semántica específica de la instancia.
Generalización: Los adaptadores más simples (Afín Escalar) generalizan mejor a través de conjuntos de datos y capas que las alternativas más expresivas.

3.3. Arquitectura vs. Geometría de la Representación

El rendimiento de las arquitecturas de los adaptadores depende fuertemente de la dimensionalidad intrínseca de los datos de entrenamiento:

Vectores Contrastivos (Baja Dimensionalidad): Los vectores de temas de Wikipedia concentran >90% de la varianza en ~200 dimensiones. Aquí, los adaptadores de Rango Completo tienen éxito y logran el mejor desempeño sin sobreajuste.
Características SAE (Alta Dimensionalidad): Las características SAE abarcan casi todo el espacio de activación. Aquí, los adaptadores de Rango Completo sufren un sobreajuste catastrófico, aprendiendo una tabla de búsqueda de alta dimensionalidad. Se requieren adaptadores Afines Escalares o Afines Escalares + Bajo Rango para evitar el sobreajuste y asegurar la generalización.

3.4. Comportamiento de Escala

El artículo demuestra que la autointerpretación mejora con la escala del modelo, independientemente de las ganancias en capacidad general.

Utilizando un "Tabú" como línea base (donde el modelo describe un tema sin nombrarlo) para establecer el techo del conocimiento, la brecha entre el conocimiento del modelo y su capacidad para informar ese conocimiento se reduce a medida que aumenta el tamaño del modelo (de 7B a 72B parámetros).
El rendimiento de SelfIE entrenado crece más rápido que la capacidad bruta del modelo para describir temas, lo que sugiere que los modelos más grandes poseen estructuras semánticas internas más accesibles que el adaptador puede desbloquear.

3.5. Generalización entre Datasets y Modelos

Los adaptadores entrenados en un conjunto de datos (por ejemplo, temas de Wikipedia) se generalizan a otros (por ejemplo, características SAE), aunque el rendimiento es mayor cuando las distribuciones de los datos de entrenamiento e inferencia coinciden.
El enfoque funciona a través de familias de modelos (Llama, Gemma, Qwen) sin requerir SAEs específicos del modelo si se utilizan vectores contrastivos.

4. Significado y Reivindicaciones

El artículo sostiene que una autointerpretación fiable puede emerger de transformaciones ligeras sin modificar el modelo subyacente.

Reencuadre de los Artefactos: La idea central es que los artefactos de interpretabilidad (vectores etiquetados), tradicionalmente vistos como puntos finales del análisis, pueden reutilizarse como datos de entrenamiento. Esto permite que los sistemas de autointerpretación mejoren automáticamente a medida que avanza la investigación en interpretabilidad.
Preservación del Acceso Privilegiado: Al mantener el modelo base congelado, el método preserva el "acceso privilegiado" del intérprete a los estados internos del modelo sujeto, evitando los artefactos introducidos por el ajuste fino.
Verificabilidad: El enfoque permite el "Aprendizaje por Refuerzo desde recompensas internas" (RL from internal rewards), donde las afirmaciones de un modelo sobre sus estados internos pueden verificarse contra el comportamiento (por ejemplo, mediante la puntuación de generación), proporcionando un camino hacia modelos que ofrezcan evidencia verificable de sus propios internos.
Eficiencia: El entrenamiento de estos adaptadores es computacionalmente económico (por ejemplo, ~10 horas de GPU a escala de 70B), lo que lo convierte en una solución escalable para auditar modelos de frontera.

Los autores concluyen que, si bien la autointerpretación proporciona una visibilidad parcial, ofrece un mecanismo crucial para detectar cuándo los modelos codifican conceptos o intenciones que difieren de sus salidas expresadas, contribuyendo a la seguridad de la IA y a la auditoría de alineación.

Learning Self-Interpretation from Interpretability Artifacts: Training Lightweight Adapters on Vector-Label Pairs