Distilled Circuits: A Mechanistic Study of Internal Restructuring in Knowledge Distillation
Die Studie „Distilled Circuits" nutzt mechanistische Interpretierbarkeit, um zu zeigen, dass Wissensdistillation bei Modellen wie DistilGPT2 nicht nur die Ausgabe, sondern auch die internen Berechnungsstrukturen durch Reorganisation und Kompression von Komponenten grundlegend verändert, was weitreichende Folgen für Robustheit und Generalisierung hat.