Asymmetric Distillation and Information Retention in Capacity-Constrained Cross-Modal Transfer
Questo studio dimostra che l'asimmetria architetturale nella distillazione della conoscenza provoca un collasso dimensionale critico nelle reti CNN di piccole dimensioni, riducendo drasticamente la loro capacità di mantenere l'immunità al rumore intrinseca del modello insegnante a causa di limitazioni geometriche fondamentali nello spazio delle rappresentazioni.