ViT-Linearizer: Distilling Quadratic Knowledge into Linear-Time Vision Models

Dit paper introduceert ViT-Linearizer, een kennisdistillatieframework dat de kwadratische complexiteit van Vision Transformers overbrengt naar efficiënte, lineaire recurrente modellen, waardoor aanzienlijke snelheidswinsten worden behaald en de prestaties van Mamba-architecturen op visuele taken worden verbeterd.

Guoyizhe Wei, Rama Chellappa

Gepubliceerd 2026-02-27
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar traag werkende meesterkunstenaar hebt: de ViT (Vision Transformer). Deze kunstenaar kan elke foto in detail bekijken, alsof hij elke pixel met elke andere pixel vergelijkt. Hij is ongelooflijk goed in het begrijpen van beelden, maar er zit een groot nadeel aan: hij werkt kwadratisch.

Wat betekent dat?

  • Als je een kleine foto van 100 pixels geeft, moet hij 10.000 vergelijkingen maken.
  • Als je een hoge-resolutie foto van 10.000 pixels geeft, moet hij 100.000.000 vergelijkingen maken!
  • De computer wordt hierdoor snel moe, traag en heeft veel geheugen nodig. Het is alsof je een gigantische bibliotheek moet doorzoeken voor elk klein detail.

Aan de andere kant hebben we de RNN/Mamba-modellen. Dit zijn slimme, maar snellere "snelheidslopers". Ze kijken naar een foto alsof ze een verhaal lezen: woord voor woord, pixel voor pixel. Ze zijn lineair (ze worden niet veel trager als de foto groter wordt), maar ze missen soms de diepe, globale connecties die de meesterkunstenaar wel heeft. Ze zijn snel, maar niet altijd even slim.

De oplossing: ViT-Linearizer
De auteurs van dit paper hebben een slimme truc bedacht: kennis distilleren. Ze willen de wijsheid van de trage, super-slimme meester (ViT) overdragen op de snelle, maar minder ervaren leerling (Mamba), zodat de leerling net zo slim wordt, maar wel blijft rennen.

Hoe doen ze dit? Met twee creatieve methoden:

1. "Kijk eens hoe ik kijk" (Activatie Matching)

Stel je voor dat de meesterkunstenaar (ViT) naar een foto van een hond kijkt. Hij denkt: "Oh, die vlek hier is een oor, en die hier is een staart, en ze horen bij elkaar." Hij maakt een mentale kaart van hoe alles met elkaar samenhangt.

De leerling (Mamba) kijkt ook naar de hond, maar hij heeft die globale kaart niet. Hij ziet alleen losse stukjes.
De ViT-Linearizer dwingt de leerling om niet alleen naar het eindresultaat te kijken, maar ook naar de tussentijdse gedachten van de meester.

  • De analogie: Het is alsof de meester zijn notitieboekje openlegt en zegt: "Kijk, bij dit stukje van de foto, moet je ook denken aan dat andere stukje. Kijk hoe mijn hersenen die twee verbinden."
  • De leerling moet zijn eigen "mentale kaart" (activaties) laten lijken op die van de meester. Hierdoor leert de snelle leerling plotseling hoe hij verbanden moet leggen, zonder dat hij zelf die trage, zware berekeningen hoeft te doen.

2. "Het raadsel van de gemaskerde delen" (Masked Prediction)

Nu komt het tweede deel. Stel je voor dat je de meester vraagt: "Wat zie je op deze foto?" en hij antwoordt direct. Dat is saai voor de leerling; hij leert niet echt.

In plaats daarvan bedekken ze een groot deel van de foto met een deken (maskeren).

  • De opdracht: De meester kijkt naar de hele foto en zegt wat er onder de deken zit. De leerling kijkt alleen naar de zichtbare delen en moet raden wat er onder de deken zit, gebaseerd op wat de meester zou zeggen.
  • De analogie: Het is alsof je een puzzel oplost. Als je alleen maar het antwoord ziet, leer je niets. Maar als je moet raden wat er ontbreekt, moet je echt nadenken over de context.
  • Door deze "raadsels" op te lossen, wordt de leerling veel slimmer in het begrijpen van de context van een beeld. Hij leert niet alleen wat hij ziet, maar ook wat er misschien is.

Het resultaat

Door deze twee methoden te combineren, krijgen we een model dat:

  1. Net zo slim is als de trage meester (hij haalt bijna dezelfde hoge scores op tests).
  2. Veel sneller is (tot wel 4 keer sneller bij grote, hoge-resolutie foto's).
  3. Minder geheugen nodig heeft, waardoor het op gewone computers of zelfs telefoons kan werken.

Kortom:
De auteurs hebben een manier gevonden om de "grote brein" van een trage supercomputer over te dragen naar een "snel brein". Het is alsof je de wijsheid van een oude, wijsgeerige professor overbrengt op een jonge, energieke student. De student blijft snel en actief, maar denkt nu net zo diep na als de professor. Dit maakt het mogelijk om complexe beeldtaken (zoals het analyseren van medische scans of zelfrijdende auto's) veel efficiënter uit te voeren.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →