Asymmetric Distillation and Information Retention in Capacity-Constrained Cross-Modal Transfer
Cette étude démontre que la distillation de connaissances asymétrique d'un grand modèle Vision Transformer vers des CNN contraints en capacité provoque un effondrement dimensionnel sévère qui sacrifie la robustesse au bruit, révélant un compromis fondamental entre la capacité du modèle et la préservation de l'immunité au bruit inhérente à l'enseignant.