Go Beyond Your Means: Unlearning with Per-Sample Gradient Orthogonalization

El artículo presenta OrthoGrad, un método novedoso para el olvido de datos que proyecta los gradientes de los datos a eliminar en un subespacio ortogonal a los de un conjunto de retención reducido, logrando así eliminar conceptos específicos sin comprometer el rendimiento del modelo cuando no se dispone del conjunto de entrenamiento completo.

Aviv Shamsian, Eitan Shaar, Aviv Navon, Gal Chechik, Ethan Fetaya

Publicado 2026-03-10
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes un chef de cocina (el modelo de Inteligencia Artificial) que ha cocinado miles de platos usando una receta gigante con ingredientes de todo el mundo. Este chef es increíble, pero un día te das cuenta de que usó un ingrediente secreto que no debería haber usado (quizás era ilegal, o simplemente alguien quiere que su receta personal sea borrada).

El problema es que ya no tienes la lista completa de ingredientes (el conjunto de entrenamiento original) para volver a cocinar todo desde cero. Solo tienes una pequeña muestra de otros platos que sí te gustan (el conjunto de "retención").

Aquí es donde entra el papel que acabas de leer, que presenta una nueva técnica llamada OrthoGrad. Vamos a explicarlo con una analogía sencilla:

El Problema: "El Baile de los Pasos Contrarios"

Imagina que quieres que el chef olvide cómo cocinar ese plato prohibido (el conjunto de "olvido").

  • Para hacerlo, le dices: "¡Sube la intensidad de ese sabor!" (esto es gradiente ascendente).
  • Pero al mismo tiempo, quieres que no olvide cómo hacer los otros 10.000 platos que sí le gustan (el conjunto de "retención").
  • Así que también le dices: "¡Baja la intensidad de esos sabores!" (esto es gradiente descendente).

El problema de los métodos antiguos:
Los métodos anteriores intentaban hacer ambas cosas a la vez. Era como intentar empujar un coche hacia adelante mientras alguien más lo empuja hacia atrás. Si tienes un equipo pequeño de gente (pocos datos de retención) para empujar hacia atrás, el coche se queda atascado o se mueve de forma errática. El chef empieza a olvidar los platos buenos mientras intenta borrar el malo.

La Solución: OrthoGrad (El "Baile Ortogonal")

Los autores de este papel dicen: "¡Esperen! No necesitamos empujar en direcciones opuestas. ¡Vamos a bailar en direcciones que no se tocan!"

Aquí está la magia de OrthoGrad:

  1. El Espacio de los "No-Tocar": Imagina que los sabores de los platos que quieres conservar forman un cubo invisible en el aire. Cada punto de ese cubo es un sabor que el chef debe mantener.
  2. La Proyección Mágica: Cuando el chef quiere cambiar el sabor del plato prohibido (hacer el paso de olvido), en lugar de empujar directamente hacia donde está el cubo (lo cual arruinaría los otros platos), OrthoGrad le dice: "Mira, solo puedes moverte en una dirección que sea perfectamente perpendicular (en ángulo de 90 grados) a todos los sabores que quieres conservar".
  3. El Resultado: Es como si el chef pudiera girar sobre su propio eje sin moverse ni un milímetro hacia los platos que le gustan. Puede "borrar" el sabor prohibido sin tocar ni un solo gramo de los sabores buenos.

¿Por qué es tan especial? (El truco de los "Pasos Individuales")

La mayoría de los métodos anteriores miraban el promedio de los platos que querían conservar.

  • Analogía: Es como si le dijeras al chef: "Promedio de todos mis platos favoritos es 'salado', así que no te muevas en la dirección 'salado'".
  • El problema: Si tienes pocos platos de ejemplo, el promedio no es muy preciso.

OrthoGrad es más inteligente. Mira cada plato individual de los que quieres conservar.

  • Analogía: En lugar de mirar el promedio, OrthoGrad dice: "No te muevas en la dirección del plato de pasta, ni en la del pastel, ni en la del sushi".
  • Al hacerlo, crea un "camino libre" mucho más seguro y preciso, incluso si solo tienes unos pocos ejemplos de platos para conservar.

¿Qué lograron?

Los autores probaron esto en dos escenarios muy difíciles:

  1. Reconocimiento de voz (ASR): Imagina que alguien quiere que el sistema olvide su voz para proteger su privacidad. OrthoGrad logró que el sistema dejara de reconocer a esa persona, pero siguió entendiendo perfectamente a todos los demás, incluso con muy pocos ejemplos de otras voces para comparar.
  2. Clasificación de imágenes: Lograron que el sistema "olvidara" una categoría entera de fotos (por ejemplo, todos los gatos) sin dejar de reconocer perros, coches o árboles.

En resumen

OrthoGrad es como un navegador GPS inteligente para la memoria de una IA.

  • En lugar de intentar corregir el camino empujando contra el tráfico (los datos que quieres guardar), el GPS calcula una ruta lateral perfecta que evita cualquier colisión.
  • Esto permite que la IA "olvide" lo que no debe saber, sin perder su inteligencia general, incluso cuando tenemos muy pocos datos de referencia para guiarla.

Es una solución elegante que demuestra que, a veces, para olvidar algo, no necesitas luchar contra lo que quieres recordar; solo necesitas saber en qué dirección no mirar.