Benchmarking Unlearning for Vision Transformers

Este trabajo presenta el primer benchmark integral para evaluar algoritmos de olvido machine en Vision Transformers, comparando su rendimiento frente a CNNs y estableciendo una línea base reproducible que analiza el impacto de la memorización de datos en diferentes arquitecturas y protocolos de olvido.

Kairan Zhao, Iurie Luca, Peter Triantafillou

Publicado 2026-02-24
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

Imagina que has construido una biblioteca de inteligencia artificial (IA) muy avanzada, llamada "Vision Transformer" (VT). Esta biblioteca es increíblemente buena para reconocer imágenes: sabe diferenciar un gato de un perro, un coche de una bicicleta, etc. Pero, como cualquier biblioteca, a veces guarda información que no debería tener: fotos privadas, imágenes con errores, o datos sesgados que hacen que la IA tome decisiones injustas.

Aquí es donde entra el concepto de "Desaprendizaje" (Machine Unlearning). Es como pedirle a la biblioteca que, por favor, olvide esas páginas específicas sin tener que tirar toda la biblioteca y empezar de cero.

Este artículo es el primer gran estudio que prueba cómo funcionan las herramientas de "olvido" en estas bibliotecas modernas (Vision Transformers), comparándolas con las bibliotecas más antiguas (las llamadas CNNs).

Aquí tienes los puntos clave explicados con analogías sencillas:

1. El Problema: ¿Cómo olvidar sin perder la memoria?

Antes, los científicos probaban herramientas para borrar datos en bibliotecas antiguas (CNNs). Ahora, como las bibliotecas modernas (VTs) funcionan de manera diferente (usan una red neuronal global en lugar de mirar pedacitos de imagen uno por uno), nadie sabía si las herramientas antiguas funcionarían bien en las nuevas.

La analogía: Imagina que tienes un método para borrar una mancha de café de una camisa de algodón (CNN). ¿Funciona ese mismo método si la camisa es de seda (VT)? No lo sabíamos hasta ahora.

2. La Gran Sorpresa: ¡Funcionan muy bien!

El estudio descubrió que, aunque las bibliotecas modernas funcionan de forma distinta, se comportan casi igual que las antiguas cuando se trata de "memorizar" cosas.

  • La memoria: Tanto las antiguas como las nuevas tienden a recordar los datos difíciles de la misma manera (una distribución de "cola larga": recuerdan mucho los datos fáciles y muy poco los difíciles).
  • Las herramientas: Las técnicas que funcionaban para las bibliotecas antiguas también funcionan para las modernas. De hecho, en algunos casos, las modernas son incluso mejores para olvidar.

3. Los "Detectives de Memoria" (Proxies)

Para saber qué borrar, necesitas saber qué es lo que la IA ha memorizado. Como calcular la memoria exacta es muy costoso (como contar cada grano de arena de una playa), los científicos usan "detectives" o proxies (indicadores rápidos).

  • El detective "Confianza": Mira qué tan seguro está el modelo de su respuesta. Si está muy seguro, probablemente lo ha memorizado.
  • El detective "Reentrenamiento de prueba" (Holdout Retraining): Es como hacer un pequeño examen de prueba para ver qué recuerda el modelo.
  • El hallazgo: Estos detectives funcionan igual de bien en las bibliotecas modernas que en las antiguas. El detective "Confianza" es el mejor para tareas simples, pero el de "Reentrenamiento" es el campeón para tareas complejas.

4. ¿Qué herramienta de olvido usar? (El menú de opciones)

El estudio probó tres métodos principales para borrar datos:

  1. Ajuste Fino (Fine-tune): Es como decirle a la biblioteca: "Oye, no uses esas páginas, sigue estudiando el resto". Funciona muy bien en las bibliotecas modernas simples (ViT).
  2. NegGrad+: Es como darle un empujón suave pero firme a la memoria para que suelte lo que no debe, sin soltar lo que sí debe. ¡Este fue el gran ganador! Funcionó increíblemente bien en casi todos los casos, especialmente en tareas difíciles.
  3. SalUn: Es un método muy preciso que intenta borrar solo los "nudos" específicos de la memoria. Funciona bien para borrar, pero a veces falla en proteger la privacidad (es como borrar una página pero dejar la huella digital de que estaba ahí).

5. La Arquitectura Importa: ViT vs. Swin-T

Las bibliotecas modernas tienen dos estilos principales:

  • ViT (Vision Transformer puro): Mira la imagen entera de golpe. Es como un artista que ve el cuadro completo. Le va mejor con el método de "Ajuste Fino".
  • Swin-T: Mira la imagen en ventanas pequeñas y luego las une (como un mosaico). Es más parecido a las bibliotecas antiguas. Le va mejor con el método "NegGrad+".

Conclusión: No hay una talla única. Si tienes una tarea compleja, usa Swin-T con el método NegGrad+. Si es una tarea más sencilla, ViT con Ajuste Fino es suficiente.

6. Olvidar una y otra vez (Desaprendizaje Continuo)

En la vida real, no olvidamos un solo dato, sino muchos a lo largo del tiempo. ¿Se rompe la biblioteca si le pedimos olvidar cosas una y otra vez?

  • Resultado: ¡No! El estudio mostró que puedes pedirle a la biblioteca que olvide datos en pequeños lotes (como borrar 5 páginas hoy, 5 mañana, etc.) y la biblioteca no se degrada. Sigue funcionando perfectamente.

En resumen: ¿Qué nos dice esto?

Este trabajo es como un manual de instrucciones para los ingenieros que construyen IAs seguras. Nos dice:

  1. No te asustes con las nuevas tecnologías (Vision Transformers); las herramientas de privacidad que ya conocemos funcionan aquí también.
  2. Usa el método NegGrad+ si quieres resultados sólidos y seguros.
  3. Usa el indicador de Reentrenamiento (Holdout Retraining) si trabajas con datos complejos.
  4. Puedes borrar datos de forma continua sin miedo a romper tu sistema.

Básicamente, hemos demostrado que las bibliotecas de IA modernas son tan "educables" (o en este caso, tan "olvidadizas" cuando es necesario) como las antiguas, lo cual es una noticia excelente para la privacidad y la seguridad de la inteligencia artificial.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →