ViT-Linearizer: Distilling Quadratic Knowledge into Linear-Time Vision Models
Die Arbeit stellt ViT-Linearizer vor, ein Framework zur Wissensdistillation, das die komplexen Repräsentationen von Vision-Transformern in effiziente, lineare rekurrente Modelle überträgt und dabei sowohl die Inferenzgeschwindigkeit bei hohen Auflösungen erheblich steigert als auch die Leistung von Mamba-Architekturen auf Standard-Benchmarks wie ImageNet signifikant verbessert.