ViT-Linearizer: Distilling Quadratic Knowledge into Linear-Time Vision Models
El artículo presenta ViT-Linearizer, un marco de destilación que transfiere el conocimiento de los Transformers de Visión (ViT) a modelos recurrentes de complejidad lineal mediante coincidencia de activaciones y predicción enmascarada, logrando así una mayor eficiencia computacional en imágenes de alta resolución y un rendimiento competitivo en ImageNet.