Enhancing Instruction Following of LLMs via Activation Steering with Dynamic Rejection

El artículo presenta DIRECTER, un método de dirección de activación que mejora la capacidad de seguir instrucciones de los LLMs mediante un bucle de decodificación guiado por plausibilidad que ajusta dinámicamente la fuerza de dirección para evitar el sobreajuste sin sacrificar la calidad del texto.

Minjae Kang, Jaehyung Kim

Publicado 2026-03-10
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que las Inteligencias Artificiales (como los modelos de lenguaje o LLMs) son como chefas de cocina extremadamente talentosas. Estas chefas han leído millones de libros de recetas y pueden cocinar cualquier plato que se te ocurra. Sin embargo, a veces, cuando les pides algo muy específico (por ejemplo: "Hazme una ensalada, pero sin usar cuchillos y sin mencionar la palabra 'lechuga'"), se confunden.

Aquí es donde entra el problema que resuelve este paper:

1. El Problema: La "Salsa" que se desborda

Los investigadores anteriores intentaban ayudar a estas chefas usando una técnica llamada "Dirección de Activación". Imagina que le susurras a la chef: "¡Oye, recuerda lo de no usar cuchillos!".

  • El error (Sobrerreacción): A veces, el susurro es tan fuerte que la chef se asusta tanto que olvida cómo cocinar la ensalada. En lugar de una ensalada, te sirve un plato de papel o algo que no tiene sabor. En el mundo de la IA, esto significa que la IA sigue la regla ("no usar cuchillos") tan obsesivamente que deja de hacer su trabajo principal (hacer una ensalada buena) o empieza a hablar sin sentido. A esto lo llaman "sobrerreacción" (oversteering).

2. La Solución: DIRECTER (El Chef con Sentido Común)

Los autores de este paper, Minjae Kang y Jaehyung Kim, crearon un nuevo método llamado DIRECTER. Imagina que DIRECTER no es un susurro constante, sino un asistente personal muy atento que vigila cada paso que da la chef.

Funciona así, paso a paso, con una analogía sencilla:

A. El "Filtro de Realidad" (Bucle de Descodificación Guiado por Plausibilidad)

Imagina que la chef intenta hacer el primer corte de la ensalada.

  1. La chef intenta: "¡Voy a cortar sin cuchillo!" (La IA intenta seguir la instrucción).
  2. El asistente mira: El asistente (DIRECTER) ve lo que la chef está a punto de hacer. Se pregunta: "¿Esto tiene sentido? ¿O se ve como si la chef estuviera alucinando?".
    • Si la chef dice: "Voy a cortar con los dientes" (una idea absurda que rompe la calidad del texto), el asistente dice: "¡Alto! Eso no es plausible. No lo hagas."
    • Si la chef dice: "Voy a usar mis manos para separar las hojas" (una idea lógica), el asistente dice: "¡Perfecto! Sigue así."

Este es el corazón de DIRECTER: no fuerza a la IA a seguir la regla ciegamente. Si seguir la regla arruina la calidad de la respuesta, el sistema dice "basta" y vuelve a la normalidad.

B. El "Botón de Volumen" Dinámico (Ajuste de Fuerza)

Antes, los métodos antiguos tenían un volumen fijo: o gritaban la instrucción o no decían nada. DIRECTER es como un control de volumen inteligente.

  • Si la chef está segura de lo que hace, el asistente baja el volumen de la instrucción para no molestar.
  • Si la chef empieza a desviarse, el asistente sube el volumen un poco para corregirla.
  • Si la corrección es demasiado fuerte y la chef se confunde, el asistente baja el volumen inmediatamente.

C. El Mapa de "Dónde Escuchar" (Ranking de Capas)

Las redes neuronales tienen muchas capas (como pisos de un edificio). No todos los pisos son igual de importantes para escuchar las instrucciones.

  • DIRECTER hace un mapa rápido al principio (una sola vez) para descubrir qué "pisos" de la chef son los más sensibles a las instrucciones.
  • Luego, solo ajusta esos pisos específicos, en lugar de tocar todo el edificio. Esto hace que sea muy rápido y eficiente.

3. ¿Por qué es genial esto? (Los Resultados)

En sus pruebas, DIRECTER demostró ser el mejor chef:

  • Sigue las reglas: Si le pides escribir un poema sin la letra "A", lo hace.
  • No arruina el plato: A diferencia de otros métodos que hacían que la IA hablara como un robot roto, DIRECTER mantiene la calidad del texto natural y fluido.
  • Es rápido: No necesita entrenar a la chef de nuevo (lo cual es caro y lento). Solo la guía mientras cocina.

En resumen

Imagina que DIRECTER es como un copiloto experto en un coche de carreras.

  • Los métodos antiguos eran como un copiloto que gritaba "¡GIRA A LA IZQUIERDA!" tan fuerte que el conductor chocaba contra la pared.
  • DIRECTER es un copiloto que observa la carretera, ve que girar a la izquierda ahora mismo sería un error, y suavemente le dice al conductor: "Espera, no gires tan fuerte, mantén el control y gira solo un poco".

Gracias a este sistema, las Inteligencias Artificiales pueden seguir instrucciones complejas sin perder la cabeza ni dejar de ser útiles. ¡Es como darle a la IA un sentido común que le faltaba!