Prototype-Guided Concept Erasure in Diffusion Models

Este trabajo propone un método de borrado de conceptos en modelos de difusión que utiliza prototipos derivados de la geometría de las incrustaciones latentes para eliminar de forma fiable conceptos amplios y complejos, como la violencia o la sexualidad, sin comprometer la calidad de las imágenes generadas.

Yuze Cai, Jiahao Lu, Hongxiang Shi, Yichao Zhou, Hong Lu

Publicado 2026-03-10
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un chef de cocina digital (un modelo de Inteligencia Artificial) que es increíblemente talentoso. Puede cocinar cualquier plato que le pidas: desde un pastel de cumpleaños hasta un paisaje de Montaña. Pero, como este chef aprendió a cocinar mirando millones de recetas de internet, también aprendió a hacer cosas que no deberíamos ver o que son peligrosas: violencia, contenido sexual explícito, o imitaciones de personajes protegidos por derechos de autor.

El problema es que los métodos actuales para "desaprender" estas cosas son como intentar tapar un agujero en un muro con un solo ladrillo. Funcionan bien si quieres eliminar algo muy específico (como "no dibujes a Pikachu"), pero fallan estrepitosamente con conceptos amplios y complejos (como "no dibujes violencia" o "no dibujes contenido sexual"), porque la violencia o el contenido sexual pueden parecer de mil formas diferentes.

Aquí es donde entra la propuesta de este paper: "Borrado de Conceptos Guiado por Prototipos".

La Analogía: El Equipo de Detectives vs. Un Solo Agente

El problema de los métodos antiguos:
Imagina que quieres que el chef deje de cocinar "comida picante". Los métodos antiguos le dicen: "Oye, no uses chiles". Pero el chef es listo: si no usas chiles, usa pimienta negra, o mostaza, o un pimiento rojo. El concepto "picante" es amplio y tiene muchas caras. Si solo bloqueas una cara, el chef sigue cocinando picante de otras formas.

La solución de este paper (Los Prototipos):
En lugar de enviar un solo agente a vigilar al chef, envías a un equipo de detectives (los prototipos).

  1. La Investigación (Crear los Prototipos):
    Los investigadores le piden al chef que cocine muchas versiones de "violencia" o "contenido sexual". Luego, comparan esas imágenes con otras que no tienen violencia.

    • Detective 1: Se fija en la sangre y las heridas.
    • Detective 2: Se fija en las armas y las peleas.
    • Detective 3: Se fija en las multitudes enfadadas y los disturbios.
    • Detective 4: Se fija en los gritos y la tensión.

    Cada detective aprende una "cara" diferente de la violencia. Juntos, forman un equipo completo que entiende que la violencia no es solo sangre, sino también gritos, armas o caos.

  2. La Misión (El Borrado):
    Cuando un usuario le pide al chef: "Hazme una imagen de una batalla épica", el sistema no solo bloquea la palabra "violencia".

    • Primero, mira qué detective se parece más a lo que el usuario pidió.
    • Si la petición suena a "disturbio", activa al Detective de Disturbios.
    • Si suena a "sangre", activa al Detective de Sangre.
    • Le dice al chef: "Cocina la batalla, pero evita específicamente lo que este detective está vigilando".

¿Por qué es genial esto?

  • No necesita reentrenar al chef: A diferencia de otros métodos que requieren volver a entrenar al modelo desde cero (lo cual es lento y costoso), este método es como darle un "manual de instrucciones" rápido antes de que empiece a cocinar. Es sin entrenamiento (training-free).
  • Cubre todas las caras: Como tiene varios "detectives" (prototipos), no se le escapa ninguna forma de violencia o contenido inapropiado. Si intentas disfrazar la violencia de otra manera, otro detective la atrapará.
  • Mantiene la calidad: No le dice al chef "no hagas nada". Le dice "haz tu arte, pero quita esto". Así, la imagen sigue siendo hermosa y detallada, solo que sin los elementos peligrosos.

En resumen

Este paper propone dejar de tratar a conceptos complejos como si fueran una sola cosa. En su lugar, desglosa esos conceptos en sus partes más pequeñas y representativas (los prototipos) y usa esos pedazos para guiar a la IA y que elimine lo malo sin arruinar lo bueno.

Es como si, en lugar de prohibir "el ruido", tuvieras un sistema que sabe exactamente cómo suena un grito, un golpe o un vidrio rompiéndose, y silencia solo esos sonidos específicos, dejando que la música siga sonando perfectamente.