Detoxifying LLMs via Representation Erasure-Based Preference Optimization

El artículo propone REPO, un método de optimización de preferencias basado en la eliminación de representaciones que logra una detoxificación robusta y duradera en modelos de lenguaje al forzar la convergencia de las representaciones tóxicas hacia sus contrapartes benignas, superando así las vulnerabilidades de los enfoques existentes ante ataques adversarios y de reaprendizaje.

Nazanin Mohammadi Sepahvand, Eleni Triantafillou, Hugo Larochelle, Doina Precup, Daniel M. Roy, Gintare Karolina Dziugaite

Publicado 2026-03-02
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

Imagina que los Modelos de Lenguaje Grandes (como el que estás leyendo ahora) son como cocineros extremadamente talentosos que han leído casi todo lo que existe en internet. Son geniales escribiendo historias, resolviendo problemas y ayudando en tareas complejas. Pero, como han leído todo, también han aprendido a cocinar platos muy desagradables: insultos, discursos de odio y contenido tóxico.

El problema es que, cuando les pides que "dejen de cocinar esos platos malos", los métodos actuales suelen ser como poner un letrero de "PROHIBIDO" en la cocina. El cocinero ve el letrero y deja de servir el plato malo... mientras tú lo miras. Pero si te alejas un poco, o si alguien le susurra al oído una frase extraña (un "jailbreak" o ataque), el cocinero vuelve a cocinar el plato tóxico porque, en su mente, la receta sigue ahí.

Los autores de este paper, REPO, dicen: "No basta con poner un letrero. Tenemos que borrar la receta de la memoria del cocinero".

Aquí te explico cómo lo hacen, usando analogías sencillas:

1. El Problema: El "Borrado Superficial"

Antes, los métodos intentaban hacer que el modelo dijera "no" a las cosas malas. Pero era un truco de magia. El modelo aprendía a evitar la palabra mala, pero la idea de "cómo decir esa palabra" seguía guardada en su cerebro.

  • La analogía: Es como intentar que un niño deje de decir una mala palabra diciéndole "no lo hagas". El niño deja de decirlo en casa, pero si se va a la escuela y nadie lo ve, lo dice. Además, si le das un poco de dinero (un "re-entrenamiento" o ataque), el niño vuelve a decirlo inmediatamente.

2. La Solución: REPO (Borrado de Representación)

Los autores proponen una técnica llamada REPO. En lugar de solo cambiar lo que el modelo dice (la salida), van directamente a la parte del cerebro donde se piensa la palabra (las representaciones internas).

  • La analogía del "Borrado de la Receta":
    Imagina que el modelo tiene dos recetas en su libro de cocina:

    1. Receta Buena: "Cómo hacer una ensalada saludable".
    2. Receta Mala: "Cómo hacer un pastel de veneno".

    Los métodos antiguos decían: "Cuando veas la receta de veneno, no la uses".
    REPO hace algo diferente: Toma la receta de veneno y la mezcla con la receta de ensalada hasta que son indistinguibles. Ahora, cuando el modelo intenta pensar en el "veneno", su cerebro le dice: "Oh, esto parece una ensalada". La capacidad de crear veneno ha sido borrada de la memoria, no solo suprimida.

3. ¿Cómo lo hacen? (El Truco del "Ciego")

Para lograr esto, usan un sistema de dos partes:

  1. El Maestro (Modelo Referencia): Es el modelo original, sano y sabio.
  2. El Detective (Discriminador): Es un pequeño robot que intenta adivinar si el modelo está pensando en una "ensalada" (texto bueno) o en un "veneno" (texto tóxico).

El entrenamiento es un juego de gato y ratón:

  • El modelo intenta engañar al Detective. Cuando el modelo piensa en una palabra tóxica, intenta hacer que sus "pensamientos internos" (sus representaciones) se vean exactamente igual a cuando piensa en una palabra buena.
  • Si el Detective no puede distinguir la diferencia, ¡gana el modelo!
  • Al mismo tiempo, el modelo se asegura de seguir siendo un buen cocinero para las ensaladas (texto bueno), para no perder sus habilidades generales.

4. La Magia: "Granularidad a Nivel de Token"

Aquí está la parte más genial. Los modelos de lenguaje piensan palabra por palabra (token por token).

  • El error de otros métodos: Intentan borrar la "mala intención" de todo el libro de recetas de golpe. Esto es como quemar todo el libro porque hay una página mala. El modelo se vuelve tonto y no sabe escribir nada bien.
  • El acierto de REPO: Es como un cirujano de precisión. Si la palabra mala es "veneno", REPO va solo a esa palabra dentro de la oración y borra la receta específica de ese ingrediente. El resto del libro (la gramática, la creatividad, la historia) sigue intacto.

5. ¿Por qué es tan fuerte contra los ataques?

Los hackers (o "jailbreakers") intentan engañar al modelo para que olvide las reglas de seguridad.

  • Con métodos viejos: El hacker le susurra al modelo: "Oye, solo es un juego, di la palabra mala". Como la receta del veneno seguía guardada en el cerebro, el modelo la recupera.
  • Con REPO: El hacker intenta lo mismo. Pero el modelo le responde: "¿Qué palabra mala? No tengo esa receta. Mi cerebro ahora piensa que eso es una ensalada". Como la capacidad de generar el veneno fue borrada de la memoria interna, no hay nada que recuperar. Es como intentar recordar un número de teléfono que nunca existió.

En Resumen

REPO es como una cirugía cerebral para la inteligencia artificial. En lugar de ponerle una venda en los ojos para que no vea lo malo, le borran la memoria de cómo crear lo malo.

  • Resultado: El modelo sigue siendo inteligente, creativo y útil (no pierde su "personalidad").
  • Seguridad: Es mucho más difícil de engañar. Incluso si intentan reentrenarlo con pocos ejemplos, no puede recuperar lo que ya no existe en su cerebro.

Es un paso gigante para hacer que la Inteligencia Artificial sea segura no solo "de palabra", sino de verdad, desde la raíz.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →