Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

Dit paper introduceert MoB, een methode voor visuele token-pruning die het inherente compromis tussen prompt-uitlijning en visuele behoud oplost door het probleem te herformuleren als een bi-objectief overdekkingsprobleem, wat leidt tot aanzienlijke versnelling van multimodale modellen met minimaal prestatieverlies.

Yangfu Li, Hongjian Zhan, Tianyi Chen, Qi Liu, Yue Lu

Gepubliceerd 2026-03-05
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een Multimodaal Groot Taalmodel (MLLM) als een zeer intelligente, maar soms wat vergetelijke detective is. Deze detective moet een foto bekijken en een vraag beantwoorden. Het probleem? De foto bestaat uit duizenden kleine stukjes (tokens), en de detective moet elk stukje lezen om het antwoord te vinden. Dit kost enorm veel tijd en rekenkracht, alsof je elke steen op de grond van een stad moet tellen om te weten of er een auto in staat.

Om dit sneller te maken, proberen onderzoekers "visuele token pruning" toe te passen. Dat is een fancy manier van zeggen: "Laat de detective alleen de belangrijkste stukjes van de foto bekijken en gooi de rest weg."

Eerdere methoden deden dit op twee manieren:

  1. Bewaar de details: Houd de stukjes vast die het mooist of het meest informatief zijn (bijvoorbeeld een heldere auto of een gezicht).
  2. Blijf bij de vraag: Houd alleen de stukjes vast die direct te maken hebben met de vraag (bijvoorbeeld als de vraag is "Wat is de kleur van de auto?", dan houd je alleen de auto vast).

Het probleem is dat eerdere methoden deze twee strategieën vaak simpelweg bij elkaar optelden. Ze dachten: "Als we beide doen, is het dubbel zo goed." Maar in de praktijk bleek dat niet altijd te werken. Soms werkte het prima, soms viel het tegen. Het was alsof je probeert een auto te bouwen door willekeurig de beste wielen en de beste motor te kiezen, zonder te kijken of ze wel bij elkaar passen.

De doorbraak: De "MoB" methode

De auteurs van dit papier hebben bedacht dat er een diepere, wiskundige relatie is tussen de vraag en de foto. Ze noemen dit de "koppeling" (coupling).

Stel je voor dat je een puzzel maakt:

  • Situatie A (Sterke koppeling): Je hebt een foto van een hond en de vraag is "Wat is dit?". De hond staat precies in het midden. De vraag en de foto zijn heel sterk met elkaar verbonden. In dit geval hoef je niet heel precies te kijken naar de vraag; als je gewoon de belangrijkste delen van de foto (de hond) bewaart, is het antwoord vaak al duidelijk.
  • Situatie B (Zwakke koppeling): Je hebt een foto van een drukke markt en de vraag is "Hoeveel appels staan er in de winkel rechts?". De vraag is heel specifiek en de foto is heel breed. De vraag en de foto zijn ver uit elkaar. Hier moet je heel precies kijken naar de vraag om te weten welke stukjes van de foto je moet bewaren. Anders mis je de appels.

De oplossing: MoB (Multi-Objective Balanced Covering)

De nieuwe methode, MoB, werkt als een slimme manager die voor elke situatie een ander plan maakt. In plaats van een vast recept te gebruiken, kijkt MoB eerst naar de "afstand" tussen de vraag en de foto.

  • De Analogie van de Tent:
    Stel je voor dat je een tent moet opzetten over een groep mensen (de foto) en een spreker (de vraag). Je hebt een beperkt aantal palen (rekenkracht) om de tent te steunen.
    • Als de spreker dicht bij de mensen staat (sterke koppeling), hoef je de tent niet heel strak rond de spreker te spannen. Je kunt de palen gebruiken om de hele tent stevig te maken over de mensen heen.
    • Als de spreker ver weg staat (zwakke koppeling), moet je eerst een heel stevig touw trekken van de spreker naar de mensen, zodat je weet waar je de tent moet bouwen. Je moet meer palen gebruiken om die verbinding te maken.

MoB verdeelt zijn "palen" (rekenkracht) slim:

  1. Het kijkt eerst hoeveel "palen" nodig zijn om de vraag te koppelen aan de foto.
  2. De rest van de palen gebruikt het om de foto zelf zo goed mogelijk af te dekken.

Waarom is dit geweldig?

  • Het werkt altijd: Of je nu een simpele vraag hebt over een hond of een complexe vraag over een drukke markt, MoB past zich aan.
  • Het is snel: Omdat het slim verdeelt, kan het de detective (het model) 1,3 tot 1,5 keer sneller laten werken, zonder dat hij veel fouten maakt.
  • Het is bewezen: De auteurs hebben wiskundige formules bedacht die bewijzen dat deze verdeling de beste is die je kunt krijgen met de beschikbare middelen.

Kortom:
Vroeger probeerden we een foto te versnellen door willekeurig stukjes weg te gooien of door twee vaste regels te volgen. Met MoB kijken we eerst naar de relatie tussen de vraag en de foto, en verdelen we onze middelen precies daar waar ze het hardst nodig zijn. Het is alsof we van een statische camera zijn gegaan naar een slimme cameraman die weet waar hij moet focussen, afhankelijk van wat er op het scherm gebeurt.

Dit betekent dat we in de toekomst snellere en slimmere AI-apps kunnen hebben op onze telefoons, die zelfs complexe vragen over video's en foto's kunnen beantwoorden zonder te bevriezen.