RAViT: Resolution-Adaptive Vision Transformer

RAViT is een nieuw, resolutie-adaptief Vision Transformer-architectuur dat door gebruik te maken van een multi-branch-netwerk met verschillende beeldresoluties en een early-exit-mechanisme de rekenkosten aanzienlijk verlaagt (tot ongeveer 70% van de FLOPs) terwijl de nauwkeurigheid behouden blijft.

Martial Guidez, Stefan Duffner, Christophe Garcia

Gepubliceerd 2026-03-02
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

🚀 RAViT: De Slimme Camera die Energie Bespaart

Stel je voor dat je een Vision Transformer (ViT) hebt. Dit is een heel slimme computerprogramma dat foto's kan herkennen (bijvoorbeeld: "Is dit een hond of een kat?"). Deze programma's zijn extreem nauwkeurig, maar ze zijn ook erg hongerig. Ze verbruiken veel stroom en rekenkracht, alsof je een Formule-1-auto gebruikt om naar de supermarkt te rijden. Dit is lastig voor apparaten met een kleine batterij, zoals een slimme camera in je huis of een drone.

De auteurs van dit paper hebben een nieuwe oplossing bedacht: RAViT.

1. De Probleemstelling: De "Grote Foto" vs. de "Schaal"

Normaal gesproken kijkt een ViT naar een foto en verdeelt hij die in duizenden kleine stukjes (puzzelstukjes). Hoe kleiner de stukjes, hoe meer er zijn, en hoe meer rekenkracht het kost om ze allemaal te analyseren.

  • De oude manier: Je neemt een foto, verkleint hem niet, en laat de computer alles in detail bekijken. Dit kost veel tijd en energie.
  • Het probleem: Als je de foto verkleint (bijvoorbeeld van 1000x1000 pixels naar 500x500), kost het rekenen veel minder energie (ongeveer 4x minder!), maar is de foto waziger. De computer kan dan makkelijker fouten maken.

2. De Oplossing: De "Trappen van een Ladder" (Multi-Branch)

RAViT lost dit op door niet één, maar meerdere versies van dezelfde foto te gebruiken, net als een ladder met verschillende treden.

Stel je voor dat je een verdachte ziet op een bewakingscamera:

  1. Trede 1 (De Ruwe Schets): Je kijkt eerst naar een heel klein, wazig plaatje van de verdachte.

    • Vraag: "Is dit duidelijk genoeg om te zeggen dat het een mens is?"
    • Actie: Als het antwoord "JA" is (bijvoorbeeld bij een heel duidelijke silhouet), stopt de computer hier. Bespaard: Geen energie meer verbruikt!
    • Actie: Als het antwoord "NEE" is (het is te wazig), ga je naar de volgende trede.
  2. Trede 2 (De Detailfoto): Je pakt nu een iets grotere, scherpere versie van de foto.

    • De Slimme Truc: De computer vergeet niet wat hij al zag op de eerste trede. Hij neemt de "gedachte" (de voorspelling) van de eerste stap en gebruikt die als startpunt voor de tweede stap. Hij hoeft niet helemaal opnieuw te beginnen!
  3. Trede 3 (De HD-Foto): Als het nog steeds niet duidelijk is, kijkt hij pas naar de originele, super-scherpe foto.

De Metafoor:
Het is alsof je een boek leest.

  • Eerst lees je alleen de titel en de samenvatting (lage resolutie). Als je daaruit al weet wat het verhaal is, stop je.
  • Als je twijfelt, lees je de eerste hoofdstukken (middelste resolutie).
  • Alleen als je echt twijfelt, lees je het hele boek (hoge resolutie).
    Dit bespaart je enorm veel tijd, terwijl je toch vaak het juiste antwoord krijgt.

3. De "Vroeg Uitstappen" Knop (Early Exit)

Een ander cool ding aan RAViT is de "Vroeg Uitstappen" (Early Exit) functie.

Stel je voor dat je een quiz doet.

  • Als je bij vraag 1 al 100% zeker weet dat het antwoord "A" is, mag je de zaal verlaten. Je hoeft vragen 2, 3 en 4 niet meer te beantwoorden.
  • Als je twijfelt bij vraag 1, ga je door naar vraag 2.

RAViT doet precies dit. Het berekent hoe zeker het is van zijn antwoord.

  • Zeker? -> Stop direct. (Bespaart batterij).
  • Twijfelachtig? -> Ga door naar de volgende, zwaardere berekening.

Dit betekent dat je op een apparaat met een kleine batterij (zoals een drone) kunt instellen: "Batterij laag? Dan accepteren we iets minder nauwkeurigheid om de drone langer te laten vliegen." Of andersom: "Batterij vol? Dan willen we de allerbeste precisie."

4. Wat hebben ze ontdekt?

De auteurs hebben hun systeem getest op drie bekende datasets (CIFAR-10, Tiny ImageNet en ImageNet).

  • Het resultaat: RAViT is net zo slim als de traditionele, zware modellen.
  • De winst: Het kost maar 70% van de rekenkracht (FLOPs) van de oude modellen.
  • Conclusie: Je krijgt bijna dezelfde nauwkeurigheid, maar je bespaart 30% energie en tijd.

Samenvatting in één zin

RAViT is een slimme camera die eerst naar een wazig plaatje kijkt; als hij het al snapt, stopt hij om energie te sparen, en alleen als hij twijfelt, kijkt hij pas naar de scherpe foto, waarbij hij slim gebruikmaakt van wat hij al heeft gezien.

Dit maakt het perfect voor slimme apparaten die langdurig op batterij moeten werken zonder dat ze hun "intelligentie" verliezen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →