Distilled Circuits: A Mechanistic Study of Internal Restructuring in Knowledge Distillation
Este estudio utiliza la interpretabilidad mecánica para demostrar que, aunque la destilación de conocimientos preserva el comportamiento funcional, reorganiza y comprime las circuitos internos de los modelos, lo que resulta en una mayor dependencia de componentes individuales y tiene implicaciones significativas para la robustez y la generalización.