Asymmetric Distillation and Information Retention in Capacity-Constrained Cross-Modal Transfer
Este trabajo demuestra que la destilación asimétrica de un modelo Vision Transformer masivo a redes CNN de capacidad restringida provoca un colapso dimensional severo que reduce la dimensión intrínseca de ~88 a ~16, lo que genera una fragilidad crítica ante el ruido que solo las arquitecturas extremadamente pequeñas pueden mitigar mediante un efecto de filtrado de paso bajo.