Explainable LLM Unlearning Through Reasoning
O artigo propõe o "Targeted Reasoning Unlearning" (TRU), uma nova abordagem que utiliza alvos de raciocínio explícitos para guiar a remoção precisa de conhecimento indesejado em Grandes Modelos de Linguagem, garantindo ao mesmo tempo a preservação das capacidades gerais do modelo e a robustez contra ataques.