Explainable LLM Unlearning Through Reasoning
Il paper propone il "Targeted Reasoning Unlearning" (TRU), un nuovo metodo che utilizza obiettivi di ragionamento espliciti per rimuovere in modo preciso e spiegabile conoscenze indesiderate dai modelli linguistici, preservando al contempo le loro capacità generali e migliorando la robustezza rispetto agli attacchi.