Asymmetric Distillation and Information Retention in Capacity-Constrained Cross-Modal Transfer
Die Studie zeigt, dass die asymmetrische Wissensdistillation von einem großen Vision Transformer auf stark kapazitätsbeschränkte CNNs zu einem drastischen Zusammenbruch der effektiven Dimensionalität führt, der die inhärente Rauschrobustheit des Lehrmodells fundamental zerstört und durch eine Informationstheorie-Trade-off zwischen Kapazität und Stabilität erklärt wird.