Explainable LLM Unlearning Through Reasoning
Este artículo presenta la Desaprendizaje Dirigido por Razonamiento (TRU), un nuevo enfoque que utiliza objetivos basados en el razonamiento para eliminar conocimientos no deseados en modelos de lenguaje grandes de manera precisa y explicable, preservando al mismo tiempo sus capacidades generales y mejorando su robustez frente a ataques.