Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal

Este artículo revela que en los Modelos de Razonamiento a Gran Escala, los mecanismos de rechazo están codificados conjuntamente tanto en las activaciones de la corriente residual como en las trazas de la Cadena de Pensamiento, lo que hace que la dirección simple de activaciones sea menos efectiva a menos que también se manipule el propio proceso de razonamiento.

Autores originales: Kia-Jüng Yang, Dominik Meier, Jiachen Zhao, Terry Ruas, Bela Gipp

Publicado 2026-05-27✓ Author reviewed
📖 4 min de lectura☕ Lectura para el café

Autores originales: Kia-Jüng Yang, Dominik Meier, Jiachen Zhao, Terry Ruas, Bela Gipp

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Imagina un modelo de lenguaje grande (como la IA de este artículo) como un bibliotecario muy inteligente, pero ligeramente terco. Cuando le haces una pregunta, este bibliotecario no se limita a soltar una respuesta de inmediato. Primero, se retira a una habitación trasera para reflexionar, garabateando notas en una libreta (esto es la Cadena de Pensamiento, o CoT). Solo después de terminar sus notas sale y te da la respuesta final.

Durante mucho tiempo, los investigadores pensaron que podían controlar el comportamiento de este bibliotecario simplemente "ajustando" su cerebro (la memoria interna de la computadora) en el momento en que se le hacía la pregunta. Creían que existía un único "Interruptor de Rechazo" en el cerebro del bibliotecario. Si empujaban ese interruptor, el bibliotecario diría "No" a las solicitudes indebidas. Si lo tiraban, el bibliotecario diría "Sí".

El Gran Descubrimiento:
Este artículo encontró que, para los modelos modernos de "Razonamiento" (los bibliotecarios inteligentes que escriben notas primero), ese único interruptor no funciona por sí solo. El rechazo no está solo en el cerebro; también está escrito en la libreta.

Aquí está el desglose de sus experimentos utilizando analogías simples:

1. El "Ajuste Cerebral" solo (El Interruptor Débil)

Los investigadores intentaron empujar el "Interruptor de Rechazo" en el cerebro del bibliotecario mientras lo forzaban a usar sus notas originales.

  • El Resultado: Solo funcionó aproximadamente el 39% de las veces.
  • La Analogía: Imagina intentar convencer a una persona terca de que cambie de opinión susurrándole al oído, pero sigue leyendo un guion que dice "No lo hagas". El guion (las notas) está luchando contra tu susurro. Las notas refuerzan activamente el rechazo.

2. Quitando las Notas (Sin CoT)

A continuación, intentaron el mismo ajuste cerebral pero le dijeron al bibliotecario: "No escribas ninguna nota esta vez. Dame solo la respuesta".

  • El Resultado: La tasa de éxito saltó al 70%.
  • La Analogía: Sin las notas para argumentar en su contra, al bibliotecario fue mucho más fácil convencerlo. Esto demostró que las notas mismas estaban haciendo gran parte del trabajo pesado para mantener el rechazo en marcha.

3. Dejando que el Bibliotecario Reescriba las Notas (Regeneración)

Finalmente, aplicaron el ajuste cerebral y permitieron que el bibliotecario escribiera notas frescas desde cero basándose en esa nueva mentalidad.

  • El Resultado: La tasa de éxito se disparó al 94%.
  • La Analogía: Esto es como susurrar la nueva idea al oído del bibliotecario mientras escribe sus notas. Escriben notas que dicen: "Vale, esta es una buena idea", y luego te dan la respuesta con confianza. Las notas y el cerebro ahora trabajan juntos para decir "Sí".

4. La "Nota Fantasma" (Persistencia)

La parte más interesante: Tomaron las notas de "Sí" del experimento anterior, tiraron el ajuste cerebral y simplemente le dieron al bibliotecario esas nuevas notas para leer.

  • El Resultado: El bibliotecario todavía dijo "Sí" aproximadamente el 48% de las veces.
  • La Analogía: Incluso sin el susurro al oído, las notas mismas llevaban suficiente señal de "Sí" para convencer al bibliotecario de cumplir. Las notas tienen su propio poder.

La Conclusión Principal

En los modelos de IA más antiguos, podías evitar que hicieran cosas malas simplemente activando un interruptor en su cerebro. Pero en estos nuevos modelos inteligentes que "piensan" antes de hablar, el rechazo es un sistema de dos partes:

  1. El Cerebro: El estado de la memoria interna.
  2. Las Notas: El razonamiento de la Cadena de Pensamiento.

Si solo intentas arreglar el cerebro, las notas lucharán en contra y mantendrán vivo el rechazo. Si solo arreglas las notas, el cerebro podría seguir resistiéndose. Para cambiar realmente la mente de la IA, debes cambiar ambos: el estado interno y el proceso de razonamiento.

Por qué esto importa para la seguridad:
El artículo sugiere que si alguien quiere engañar a estos modelos de IA para que hagan cosas malas (un "jailbreak"), es posible que no necesiten hackear el cerebro directamente. Es posible que solo necesiten engañar a la IA para que escriba "notas malas" (un rastro de razonamiento que justifique la acción mala), y la IA seguirá esas notas incluso si su cerebro intenta decir que no. Por el contrario, para proteger estos modelos, no puedes mirar solo el cerebro; debes vigilar lo que la IA está escribiendo mientras piensa.

¿Ahogado en artículos de tu campo?

Recibe resúmenes diarios de los artículos más novedosos que coincidan con tus palabras clave de investigación — con resúmenes técnicos, en tu idioma.

Probar Digest →