Distilled Circuits: A Mechanistic Study of Internal Restructuring in Knowledge Distillation
Questo studio applica l'interpretabilità meccanicistica per dimostrare che la distillazione della conoscenza, pur preservando il comportamento funzionale, induce una significativa riorganizzazione interna nei modelli studenti, che comprimono e scartano componenti del modello insegnante affidandosi a un numero ridotto di unità attivate.