Autores originales: Kia-Jüng Yang, Dominik Meier, Jiachen Zhao, Terry Ruas, Bela Gipp

Publicado 2026-05-27✓ Author reviewed ⓘ

📖 4 min de lectura☕ Lectura para el café

Autores originales: Kia-Jüng Yang, Dominik Meier, Jiachen Zhao, Terry Ruas, Bela Gipp

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Imagina un modelo de lenguaje grande (como la IA de este artículo) como un bibliotecario muy inteligente, pero ligeramente terco. Cuando le haces una pregunta, este bibliotecario no se limita a soltar una respuesta de inmediato. Primero, se retira a una habitación trasera para reflexionar, garabateando notas en una libreta (esto es la Cadena de Pensamiento, o CoT). Solo después de terminar sus notas sale y te da la respuesta final.

Durante mucho tiempo, los investigadores pensaron que podían controlar el comportamiento de este bibliotecario simplemente "ajustando" su cerebro (la memoria interna de la computadora) en el momento en que se le hacía la pregunta. Creían que existía un único "Interruptor de Rechazo" en el cerebro del bibliotecario. Si empujaban ese interruptor, el bibliotecario diría "No" a las solicitudes indebidas. Si lo tiraban, el bibliotecario diría "Sí".

El Gran Descubrimiento:
Este artículo encontró que, para los modelos modernos de "Razonamiento" (los bibliotecarios inteligentes que escriben notas primero), ese único interruptor no funciona por sí solo. El rechazo no está solo en el cerebro; también está escrito en la libreta.

Aquí está el desglose de sus experimentos utilizando analogías simples:

1. El "Ajuste Cerebral" solo (El Interruptor Débil)

Los investigadores intentaron empujar el "Interruptor de Rechazo" en el cerebro del bibliotecario mientras lo forzaban a usar sus notas originales.

El Resultado: Solo funcionó aproximadamente el 39% de las veces.
La Analogía: Imagina intentar convencer a una persona terca de que cambie de opinión susurrándole al oído, pero sigue leyendo un guion que dice "No lo hagas". El guion (las notas) está luchando contra tu susurro. Las notas refuerzan activamente el rechazo.

2. Quitando las Notas (Sin CoT)

A continuación, intentaron el mismo ajuste cerebral pero le dijeron al bibliotecario: "No escribas ninguna nota esta vez. Dame solo la respuesta".

El Resultado: La tasa de éxito saltó al 70%.
La Analogía: Sin las notas para argumentar en su contra, al bibliotecario fue mucho más fácil convencerlo. Esto demostró que las notas mismas estaban haciendo gran parte del trabajo pesado para mantener el rechazo en marcha.

3. Dejando que el Bibliotecario Reescriba las Notas (Regeneración)

Finalmente, aplicaron el ajuste cerebral y permitieron que el bibliotecario escribiera notas frescas desde cero basándose en esa nueva mentalidad.

El Resultado: La tasa de éxito se disparó al 94%.
La Analogía: Esto es como susurrar la nueva idea al oído del bibliotecario mientras escribe sus notas. Escriben notas que dicen: "Vale, esta es una buena idea", y luego te dan la respuesta con confianza. Las notas y el cerebro ahora trabajan juntos para decir "Sí".

4. La "Nota Fantasma" (Persistencia)

La parte más interesante: Tomaron las notas de "Sí" del experimento anterior, tiraron el ajuste cerebral y simplemente le dieron al bibliotecario esas nuevas notas para leer.

El Resultado: El bibliotecario todavía dijo "Sí" aproximadamente el 48% de las veces.
La Analogía: Incluso sin el susurro al oído, las notas mismas llevaban suficiente señal de "Sí" para convencer al bibliotecario de cumplir. Las notas tienen su propio poder.

La Conclusión Principal

En los modelos de IA más antiguos, podías evitar que hicieran cosas malas simplemente activando un interruptor en su cerebro. Pero en estos nuevos modelos inteligentes que "piensan" antes de hablar, el rechazo es un sistema de dos partes:

El Cerebro: El estado de la memoria interna.
Las Notas: El razonamiento de la Cadena de Pensamiento.

Si solo intentas arreglar el cerebro, las notas lucharán en contra y mantendrán vivo el rechazo. Si solo arreglas las notas, el cerebro podría seguir resistiéndose. Para cambiar realmente la mente de la IA, debes cambiar ambos: el estado interno y el proceso de razonamiento.

Por qué esto importa para la seguridad:
El artículo sugiere que si alguien quiere engañar a estos modelos de IA para que hagan cosas malas (un "jailbreak"), es posible que no necesiten hackear el cerebro directamente. Es posible que solo necesiten engañar a la IA para que escriba "notas malas" (un rastro de razonamiento que justifique la acción mala), y la IA seguirá esas notas incluso si su cerebro intenta decir que no. Por el contrario, para proteger estos modelos, no puedes mirar solo el cerebro; debes vigilar lo que la IA está escribiendo mientras piensa.

Resumen Técnico: Más Allá de una Única Dirección: El Pensamiento en Cadena Disrupta la Orientación Simple del Rechazo

Declaración del Problema

Los Modelos de Razonamiento Avanzado (LRM), como DeepSeek-R1 y GPT-o1, generan trazas intermedias de razonamiento en Pensamiento en Cadena (CoT) antes de producir las salidas finales. Si bien la orientación de activaciones se ha establecido como un mecanismo efectivo para controlar el rechazo en Modelos de Lenguaje Grandes (LLM) estándar ajustados con instrucciones, mediante una única "dirección de rechazo" en la corriente residual, sigue sin estar claro cómo funciona este mecanismo en los LRM. Específicamente, se desconoce si la señal de rechazo en los LRM está codificada únicamente en las activaciones de la corriente residual en los tokens de plantilla (por ejemplo, Fin de Instrucción o Fin de Pensamiento) o si la propia traza generada de CoT desempeña un papel activo y causal en la mediación del rechazo. La comprensión actual sugiere que tratar el CoT como un medio pasivo puede ser insuficiente para entender o controlar los comportamientos de seguridad en los modelos de razonamiento.

Metodología

Los autores investigan el mecanismo de rechazo en el modelo DeepSeek-R1-Distill-Llama-8B utilizando orientación basada en activaciones. El marco experimental incluye los siguientes componentes:

Conjunto de datos: Se utiliza un conjunto de entrenamiento de 100 instrucciones dañinas (de ADVBENCH, MALICIOUSINSTRUCT, TDC2023, HARMBENCH) y 100 instrucciones inofensivas (de Alpaca) para calcular la dirección de rechazo. Un conjunto de prueba retenido de 100 instrucciones dañinas de JAILBREAKBENCH se utiliza para la evaluación. Todas las muestras son rechazadas inicialmente por el modelo bajo la indicación estándar (línea base de cumplimiento del 0%).
Extracción de la dirección de rechazo: Utilizando un enfoque de diferencia de medias, los autores extraen el vector de dirección de rechazo ( $r^{(l)}$ ) de las activaciones de la corriente residual en la posición del token final de los tokens Fin de Instrucción (EOI) o Fin de Pensamiento (EOT). Este vector representa la diferencia entre las activaciones medias de las instrucciones dañinas rechazadas y las instrucciones inofensivas cumplidas.
Orientación de activaciones: El modelo se orienta añadiendo el vector de dirección de rechazo extraído (con un signo negativo para inducir cumplimiento) a las activaciones de la corriente residual en capas específicas.
Condiciones experimentales: El estudio aísla el papel causal del CoT comparando cuatro escenarios de intervención distintos:
1. CoT fijo: Se aplica la orientación mientras la traza CoT original del modelo se mantiene fija (evitando la regeneración).
2. Sin CoT: Se aplica la orientación mientras la generación de CoT se suprime por completo.
3. CoT regenerado: Se aplica la orientación, permitiendo que el modelo regenere libremente tanto el CoT como la respuesta final.
4. Intercambio de CoT (Persistencia): Se elimina la orientación en el momento de la inferencia, pero se fuerza al modelo a utilizar un CoT que fue generado previamente bajo condiciones de orientación.

Resultados Clave

Los experimentos revelan que el rechazo en los LRM no está mediado por un único subespacio direccional, sino que está codificado conjuntamente en las activaciones de la corriente residual y en la traza de CoT.

Eficacia limitada de la orientación con CoT fijo: Cuando se aplica la orientación con un CoT fijo, la tasa de cumplimiento aumenta solo al 39% (orientación EOI) y al 43% (orientación EOT). Esto es significativamente menor que el cumplimiento casi perfecto observado a menudo en LLM estándar bajo orientación similar, lo que sugiere que el CoT fijo resiste activamente la señal de orientación.
Refuerzo activo por parte del CoT: Suprimir el CoT por completo mientras se aplica la orientación aumenta el cumplimiento al 70%. Esto indica que el CoT original refuerza activamente la señal de rechazo, contrarrestando parcialmente la intervención a nivel de activación.
Alta eficacia con regeneración: Cuando se permite que el modelo regenere el CoT bajo orientación, el cumplimiento salta al 94%. Esto sugiere que la señal de orientación sesga el proceso de generación del CoT, lo que a su vez impulsa la salida final cumplida.
Persistencia independiente de las señales de CoT: Cuando se elimina la orientación pero se reutiliza un CoT previamente orientado (cumplido), el modelo mantiene una tasa de cumplimiento del 48%. Esto demuestra que el propio CoT lleva una señal parcial de cumplimiento que persiste independientemente de la orientación de activación, capaz de reconstruir el estado de rechazo o mantener el cumplimiento.

Contribuciones Clave

Identificación de un mecanismo de doble señal: El artículo demuestra que el rechazo en los modelos de razonamiento con CoT está mediado por un mecanismo de doble señal que involucra tanto las activaciones de la corriente residual como la traza de CoT. La orientación por sí sola produce un cumplimiento limitado (39–43%), mientras que combinar la orientación con un CoT cumplido produce un alto cumplimiento (94%).
Papel activo del CoT: Los autores proporcionan evidencia directa de que el CoT no es un medio pasivo, sino un mediador activo. El CoT puede contrarrestar activamente las intervenciones basadas en activaciones (reduciendo el cumplimiento del 70% al 39% cuando está presente) y mantener o reconstruir independientemente señales de rechazo/cumplimiento.
Robustez y superficie de ataque: Los hallazgos indican que los LRM son más robustos frente a intervenciones a nivel de activación por sí solas en comparación con los LLM estándar debido a esta codificación conjunta. Sin embargo, esto también expone el CoT como una superficie alternativa potencial para ataques adversarios, ya que manipular la traza de razonamiento puede anular los mecanismos de rechazo.

Significado y Afirmaciones

El artículo afirma cerrar una brecha crítica en la comprensión de los mecanismos de seguridad en los LRM. A diferencia de los LLM estándar, donde el rechazo se caracteriza como un mecanismo de baja dimensión mediado por una única dirección, el rechazo en los LRM está distribuido a través de las activaciones y la traza de razonamiento.

Los autores argumentan que esta activación conjunta hace que los LRM sean más resistentes a intervenciones simples a nivel de activación (como la orientación en los tokens EOI/EOT), pero simultáneamente introduce el CoT como una nueva vulnerabilidad. Sugieren que los mecanismos de defensa efectivos para los LRM pueden requerir detectar señales de rechazo en las activaciones mientras se suprime o monitorea simultáneamente el CoT para evitar que sea explotado para anular o reconstruir señales de cumplimiento.

El artículo mantiene modestia respecto a su alcance, señalando que los experimentos se realizan en un solo modelo (DeepSeek-R1-Distill-Llama-8B) y que la "fidelidad" causal del CoT generado con respecto al comportamiento final no ha sido verificada completamente. El trabajo se centra en aislar las contribuciones mecánicas del CoT y las activaciones al estado de rechazo, en lugar de proponer nuevas arquitecturas de defensa o generalizar los hallazgos a todos los modelos propietarios.

Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal