The Model Knows Which Tokens Matter: Automatic Token Selection via Noise Gating

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat verwarde assistent hebt die foto's kan bekijken en erover kan praten. Deze assistent heet een Vision-Language Model (VLM).

Het probleem is dat deze assistent soms te enthousiast wordt. Als je hem een foto laat zien, splitst hij die foto op in duizenden kleine stukjes (zoals een mozaïek). Hij probeert elk klein stukje te analyseren, zelfs de saaie stukjes zoals een blauwe lucht of een houten vloer die niets belangrijks te vertellen hebben. Dit maakt hem traag en laat hem veel energie verspillen aan onzin.

De auteurs van dit paper, AutoSelect, hebben een slimme oplossing bedacht om deze assistent slimmer en sneller te maken. Hier is hoe het werkt, vertaald in alledaagse termen:

1. Het oude probleem: "Alles is even belangrijk"

Stel je voor dat je een leraar hebt die een klas van 500 leerlingen moet onderwijzen. Maar 400 van die leerlingen slapen, eten of kijken naar hun telefoon. De leraar besteedt toch evenveel tijd aan hen als aan de drie leerlingen die echt iets te zeggen hebben. Dat is inefficiënt.

Bestaande methoden proberen dit op te lossen door de slapende leerlingen gewoon de deur uit te zetten. Maar dat is lastig: hoe weet je op dat moment wie er echt wakker is? En als je iemand per ongeluk de deur uit zet die plotseling iets belangrijks wil zeggen, is dat jammer.

2. De nieuwe oplossing: "De slimme poortwachter"

AutoSelect doet iets anders. In plaats van leerlingen de deur uit te gooien, zet ze een slimme poortwachter voor de klas.

De Scorer (De Inspecteur): Deze kijkt naar elke leerling (elk stukje van de foto) en geeft een cijfer: "Hoe belangrijk ben je?"
De Denoiser (De Schoonmaker): Dit is het magische deel.

3. Hoe werkt het trainen? (Het "Ruis"-experiment)

Tijdens het leren (training) doet de computer iets heel slims. Hij gooit de leerlingen die een laag cijfer hebben niet de deur uit. In plaats daarvan gooit hij er wat "ruis" op.

Stel je voor: Een leerling die niets te zeggen heeft, krijgt een luie, wazige bril opgezet. Hij kan nog wel praten, maar zijn stem klinkt als een radio die slecht ontvangst heeft (ruis).
Een leerling die iets belangrijks te zeggen heeft, krijgt een heldere bril. Zijn stem klinkt kristalhelder.

De computer (de assistent) moet nu proberen de les te volgen met deze gemengde groep. Omdat de "ruis" de informatie van de onbelangrijke leerlingen verpest, leert de assistent snel: "Ah, ik moet luisteren naar de heldere stemmen en de wazige stemmen negeren."

Dit is de kern van hun methode: ze maken het niet moeilijk door mensen weg te sturen, maar door de kwaliteit van de informatie die binnenkomt, te regelen.

4. Het eindresultaat: De "Hard Top-K" selectie

Zodra de assistent dit goed heeft geleerd (tijdens de training), haalt hij de wazige brillen en de poortwachter weer weg voor de echte test.

Nu doet hij precies wat hij heeft geleerd: hij kijkt naar alle stukjes van de foto, kiest de top 10% met de helderste stemmen en gooit de rest daadwerkelijk weg. Omdat hij dit al zo vaak geoefend heeft met de "ruis", weet hij precies welke stukjes hij moet houden.

Waarom is dit zo cool?

Het is super snel: De extra tijd die nodig is om te beslissen welke stukjes belangrijk zijn, is zo klein dat je het nauwelijks merkt (minder dan 1 milliseconde!).
Het is slim: De assistent verliest bijna geen kennis. Hij behoudt 96,5% van zijn oorspronkelijke slimheid, terwijl hij 89% van de "ruis" weggooit.
Het werkt overal: Of je nu een kleine foto van een kat of een enorme, complexe foto van een stad laat zien, deze methode werkt altijd. Het is niet afhankelijk van specifieke regels, maar leert vanzelf wat belangrijk is.

Kortom:
AutoSelect is als een slimme redacteur die een lang, saai verhaal leest. In plaats van zomaar zinnen te schrappen, leest hij eerst het hele verhaal, markeert de belangrijkste zinnen, en laat de rest weg. Het resultaat is een kort, krachtig verhaal dat nog steeds precies hetzelfde verhaal vertelt, maar veel sneller te lezen is.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Vision-Language Models (VLM's) zoals LLaVA en InstructBLIP combineren een visuele encoder met een Large Language Model (LLM). In de standaard pipeline worden afbeeldingspatches omgezet in visuele tokens die aan de tekst worden toegevoegd voor autoregressieve decoding.

Bottleneck: Met de toename van hoge resolutie beelden en video's explodeert het aantal visuele tokens. Omdat de zelf-attention-mechanismen in LLM's kwadratisch schalen met de sequentielengte, domineren deze visuele tokens de inferentiekosten (rekenkracht en geheugen).
Redundantie: Empirisch onderzoek toont aan dat veel visuele tokens redundant zijn; de aandacht (attention) is vaak geconcentreerd op een klein subsetje tokens, terwijl de rest bijdraagt aan de uiteindelijke voorspelling maar toch volledige rekencapaciteit verbruikt.
Beperkingen van bestaande methoden: Bestaande pruning-methoden (het verwijderen van tokens) vertrouwen vaak op lokaal proxy-signaal (zoals de grootte van de attention-magnitude) of handgemaakte heuristieken. Ze behandelen pruning als een binair "houden of verwerpen"-probleem, wat de fundamentele vraag negeert: hoe kan representatiecapaciteit globaal worden toegewezen binnen een vast rekenbudget om downstream prestaties te maximaliseren?

Methodologie: AutoSelect

De auteurs herformuleren visuele token-pruning als capaciteitsbeperkt representatieleren. In plaats van tokens fysiek te verwijderen tijdens het trainen, modelleren ze de interface tussen de visuele encoder en de LLM als een kanaal met een beperkte bandbreedte.

Het framework introduceert twee lichtgewicht modules die worden toegevoegd aan een bevroren (frozen) VLM:

Scorer (S): Een module die per-token belangrijkheidsscores toekent.
Denoiser (D): Een module die verstoord token-representaties herstelt.

Het Trainingsproces:

Geen token-verwijdering: Tijdens het trainen blijven alle $N$ tokens behouden om de sequentielengte constant te houden en gradiënten te laten stromen.
Variance-Preserving (VP) Noise Gate: De belangrijkheidsscores van de Scorer worden gebruikt om een "ruispoort" te moduleren. Voor een token $x_i$ $x_{i}$ met score $\alpha_i$ $α_{i}$ wordt de representatie als volgt aangepast:
$\tilde{x}_i = \sqrt{\alpha_i} x_i + \sqrt{1 - \alpha_i} \epsilon_i$
Waarbij $\epsilon_i$ $ϵ_{i}$ Gaussische ruis is.
- Hoge score ( $\alpha_i \approx 1$ ): Het originele signaal wordt behouden.
- Lage score ( $\alpha_i \approx 0$ ): Het signaal wordt vervangen door isotrope ruis.
- Dit creëert een differentieerbare proxy voor het verwijderen van tokens, waarbij de effectieve informatie-inhoud van minder belangrijke tokens wordt beperkt tot een vast budget.
Diagonale Attention Denoiser: Omdat de ruis de verdeling van de tokens verandert, wordt een Denoiser gebruikt om ze terug te brengen naar de verwachte invoerverdeling van de LLM. Cruciaal is dat deze Denoiser diagonale attention gebruikt (elk token kijkt alleen naar zichzelf). Dit voorkomt dat informatie van belangrijke tokens "lekt" naar de met ruis verstoorde tokens, waardoor de capaciteitsbeperking tijdens het trainen intact blijft.
Verliesfunctie: Het model wordt uitsluitend getraind met de standaard next-token prediction loss (NLL). Er zijn geen extra auxiliary losses, externe annotaties of aanpassingen aan de basis-VLM nodig.

Het Inferentieproces:

Tijdens inferentie worden de Denoiser en de ruisinjectie volledig verwijderd.
De Scorer genereert scores en een Hard Top-K selectie houdt alleen de $K$ hoogst-scorende tokens vast.
De oorspronkelijke positie-indexen worden behouden, zodat de Rotary Position Embeddings (RoPE) in de LLM correct blijven werken.
De Scorer is tekst-agnostisch (onafhankelijk van de prompt), waardoor scores voor een afbeelding kunnen worden hergebruikt in meerdere dialoogbeurten.

Belangrijkste Bijdragen

Herformulering van Pruning: Pruning wordt gezien als een capaciteitsbeperkt leerprobleem in plaats van een filteringsprobleem. Dit wordt geoptimaliseerd met alleen de standaard taalmodel-loss.
VP Noise Gating: Vervanging van binaire pruning door continue, differentieerbare capaciteitsmodulatie via ruisinjectie. Dit zorgt voor volledige gradiëntstroom tijdens training en convergeert naar harde Top-K selectie bij inferentie.
Efficiëntie en Generalisatie: Het framework voegt verwaarloosbare latentie toe, werkt op bevroren modellen en generaliseert naar verschillende VLM-architecturen zonder specifieke aanpassingen.

Resultaten

De methode is getest op tien VLM-benchmarks (zoals GQA, MMBench, ScienceQA) met drie verschillende backbone-architecturen: LLaVA-1.5-7B, LLaVA-NeXT-7B en Qwen2.5-VL-7B.

Prestatiebehoud: Op LLaVA-1.5-7B behoudt AutoSelect 96,5% van de volledige modelnauwkeurigheid bij een pruning van 88,9% (alleen 64 van de 576 tokens behouden). Dit is beter dan state-of-the-art methoden zoals PRUNESID en HoloV, vooral bij extreme compressie.
Schaalbaarheid: Bij LLaVA-NeXT (2880 tokens) behoudt het 96,1% prestatie bij 88,9% pruning. Het werkt ook goed op Qwen2.5-VL, wat aantoont dat het werkt met variabele tokenlengtes en zonder [CLS]-token.
Efficiëntie:
- De overhead van de pruning-module is slechts 0,69 ms.
- De "Time-to-First-Token" (TTFT) wordt versneld met 2,85x ten opzichte van het volledige model.
- In vergelijking met andere Pre-LLM methoden (zoals PruneSID die 43ms overhead heeft) is AutoSelect aanzienlijk sneller.
LLM-vrije validatie: Zelfs zonder de LLM (alleen een ViT-classificator) presteert de geselecteerde subset van tokens beter dan methoden die op heuristieken vertrouwen, wat bewijst dat de Scorer echt de meest informatieve patches vindt.

Significantie

AutoSelect biedt een fundamentele verschuiving in hoe we efficiëntie in VLM's benaderen. In plaats van te vertrouwen op handgemaakte heuristieken of complexe aanpassingen van het basismodel, leert het model zelf welke tokens essentieel zijn door een differentieerbare "ruis-poort" te gebruiken.

Non-invasief: Het vereist geen fine-tuning van de zware LLM of visuele encoder, wat het zeer kosteneffectief maakt voor het optimaliseren van bestaande modellen.
Theoretische onderbouwing: De benadering van "capaciteitsbeperkte communicatie" biedt een robuuster kader dan het simpelweg "weggooien" van tokens, wat leidt tot betere prestaties onder strikte rekenbudgetten.
Praktische toepasbaarheid: De extreem lage inferentie-overhead maakt het direct inzetbaar voor real-time toepassingen met hoge resolutie beelden of video's.

Kortom, AutoSelect bewijst dat een model kan leren om zijn eigen bandbreedte optimaal te verdelen over visuele informatie, wat resulteert in snellere en efficiëntere multimodale systemen zonder kwaliteitsverlies.

The Model Knows Which Tokens Matter: Automatic Token Selection via Noise Gating

1. Het oude probleem: "Alles is even belangrijk"

2. De nieuwe oplossing: "De slimme poortwachter"

3. Hoe werkt het trainen? (Het "Ruis"-experiment)

4. Het eindresultaat: De "Hard Top-K" selectie

Waarom is dit zo cool?

Probleemstelling

Methodologie: AutoSelect

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes