Enhancing Multi-Image Understanding through Delimiter Token Scaling

Each language version is independently generated for its own context, not a direct translation.

🖼️ Het Probleem: De "Zuurstofloze" Kamer

Stel je voor dat je een slimme robot hebt die heel goed is in het bekijken van één foto. Hij kan je vertellen wat er op de foto staat, wie erop staat en wat ze doen. Maar als je hem twee of meer foto's tegelijk geeft, raakt hij in de war.

Het is alsof je twee mensen in één kleine kamer zet en ze allebei laat praten. Ze beginnen elkaars woorden door elkaar te halen. De robot ziet een man op een fiets op foto A, en een hond op foto B, en denkt dan: "Oh, er is een man die een hond op een fiets rijdt!" Terwijl dat helemaal niet zo is.

In de wereld van kunstmatige intelligentie noemen ze dit lekken van informatie. De robot kan de grenzen tussen de foto's niet goed zien, dus de informatie "lekt" over elkaar heen.

🚧 De Oude Oplossing: De Verkeersborden

De makers van deze robots hadden al een oplossing bedacht. Ze plakten speciale verkeersborden (in de computerwereld "delimiet-tokens" genoemd) tussen de foto's.

Foto A ... bordje ... Foto B ... bordje ... Foto C.

Het idee was: "Als je dit bordje ziet, weet je dat de vorige foto voorbij is en de nieuwe begint."

Maar het onderzoekers van dit paper ontdekten iets verrassends: Deze borden werken niet goed genoeg. De robot kijkt wel naar de borden, maar hij luistert er niet echt naar. Hij negeert ze een beetje en blijft de informatie van de foto's door elkaar halen. Het is alsof je een "Stop"-bord neerzet, maar de auto's rijden er gewoon overheen.

💡 De Nieuwe Oplossing: De "Super-Borden"

De onderzoekers (van de universiteiten Sogang, KAIST en Tübingen) bedachten een slimme truc. Ze zeiden: "Als de borden niet sterk genoeg zijn om de robot te stoppen, dan maken we ze gewoon sterker!"

Ze noemen hun methode "Delimiter Token Scaling". Dat klinkt ingewikkeld, maar het werkt als volgt:

Stel je voor dat de verkeersborden in de computer een stem hebben. Normaal gesproken fluisteren ze: "Hé, hier begint een nieuwe foto." De robot hoort ze nauwelijks.

De onderzoekers zetten een versterker op die stem. Ze versterken het signaal van die borden enorm.

Vóór de versterking: De robot fluistert: "Misschien is dit een nieuwe foto?" (En hij raakt in de war).
Na de versterking: De robot schreeuwt: "STOP! HIER IS EEN NIEUWE FOTO!"

Door deze borden zo hard te laten "schreeuwen", gebeurt er magie:

De robot stopt de informatie van Foto A en Foto B echt van elkaar.
Hij blijft wel goed kijken naar wat er binnen één foto gebeurt (de man op de fiets blijft een man op de fiets).

🎁 Waarom is dit zo speciaal?

Meestal, als je een robot slimmer wilt maken, moet je hem trainen. Dat betekent dat je duizenden uren rekentijd en enorme hoeveelheden stroom nodig hebt om hem nieuwe dingen te leren.

Maar deze methode is gratis en direct.

Geen nieuwe training: Je hoeft de robot niet opnieuw te leren.
Geen extra tijd: Het kost geen seconde langer om een antwoord te geven.
Geen extra geheugen: Het werkt precies even snel als voorheen.

Het is alsof je een oude auto hebt die slecht schakelt. In plaats van een nieuwe motor te bouwen (duur en langzaam), doe je gewoon een stukje tape op de versnellingspook zodat hij precies op de goede plek klikt. De auto rijdt nu perfect, zonder dat je de motor hebt vervangen.

🏆 Het Resultaat

De onderzoekers hebben dit getest op verschillende taken:

Meerdere foto's: De robot kon nu veel beter vertellen welk dier op welke foto zat.
Meerdere documenten: Het werkte zelfs voor tekst! Als je de robot twee lange krantenartikelen gaf, kon hij nu beter het verschil zien tussen de twee, zonder de feiten door elkaar te halen.

Kortom: Ze hebben een simpele knop gevonden die de "verkeersborden" in de robot harder laat schreeuwen. Hierdoor raakt de robot niet meer in de war als hij naar meerdere plaatjes kijkt, en dat allemaal zonder dat het iets kost.

Each language version is independently generated for its own context, not a direct translation.

Titel: Enhancing Multi-Image Understanding Through Delimiter Token Scaling

Publicatie: ICLR 2026

1. Het Probleem: Cross-Image Informatielek

Grote Visueel-Taalmodellen (LVLMs) presteren uitstekend bij taken met één afbeelding, maar hun prestaties dalen aanzienlijk wanneer meerdere afbeeldingen als input worden gegeven. De auteurs identificeren de oorzaak hiervan als cross-image information leakage (informatielek tussen afbeeldingen).

Oorzaak: Het model kan de informatie van verschillende afbeeldingen niet scherp van elkaar onderscheiden. Hierdoor "lekt" informatie van de ene afbeelding naar de andere, wat leidt tot verward redeneren en onnauwkeurige antwoorden.
Bestaande oplossing en beperking: Bestaande modellen gebruiken speciale delimiter tokens (zoals <|vision start|> en <|vision end|>) om afbeeldingen te scheiden. Echter, de analyse van de auteurs toont aan dat deze tokens onvoldoende effectief zijn. Hoewel ze enige scheiding creëren, blokkeren ze de interactie tussen afbeeldingen niet volledig, wat resulteert in een gebrekkige isolatie van visuele contexten.

2. Methodologie: Delimiter Token Scaling

De auteurs analyseren de werking van delimiter tokens en ontdekken twee cruciale eigenschappen:

Correspondentie: De delimiter-token van de $i$ -de afbeelding ontvangt sterke aandacht van de tokens binnen diezelfde afbeelding.
Image Tagging: Deze sterke aandacht fungeert als een "tag" die de interactie binnen de afbeelding (intra-image) versterkt, terwijl het cross-image interactie zou moeten onderdrukken.

Om deze eigenschappen te versterken, stellen ze een eenvoudige, trainingsvrije methode voor: Hidden State Scaling.

Het Mechanisme: De verborgen staten ( $h$ ) van de delimiter tokens worden vermenigvuldigd met een scalingsfactor $\lambda$ (waarbij $\lambda > 1$ ).
$h^{(l)*}_t = \begin{cases} \lambda \cdot h^{(l)}_t & \text{als } t \in D \text{ (delimiter tokens)} \\ h^{(l)}_t & \text{anders} \end{cases}$
Werking: Door de hidden states te schalen, worden de delimiter tokens effectiever als "aantrekkingskracht" (vergelijkbaar met sink tokens in taalmodellen). Dit heeft twee gevolgen:
1. Verminderde lek: De normalisatie van de softmax-functie zorgt ervoor dat tokens van andere afbeeldingen minder aandacht krijgen voor de versterkte delimiter, waardoor cross-image interactie wordt onderdrukt.
2. Behoud van intra-image interactie: De versterkte "tagging" zorgt ervoor dat tokens binnen dezelfde afbeelding hun onderlinge connectie behouden, omdat de bijdrage van de delimiter aan de attention output (via de value vectors) toeneemt.

3. Belangrijkste Bijdragen

Analyse van Delimiter Tokens: Het paper biedt een diepgaande analyse van hoe delimiter tokens werken in LVLMs en identificeert dat ze fungeren als lokale bias-termen die intra-image interactie versterken, in tegenstelling tot globale sink tokens.
Efficiënte Oplossing: De voorgestelde methode vereist geen extra training, geen wijzigingen in de modelarchitectuur en geen extra inferentiekosten. Het is een post-hoc aanpassing die compatibel is met geoptimaliseerde attention-kernen zoals FlashAttention.
Generalisatie: De methode werkt niet alleen voor multi-image taken, maar ook voor tekst-only taken met meerdere documenten of tabellen, waar duidelijke scheiding essentieel is.

4. Resultaten

De methode is getest op diverse benchmarks en modelarchitecturen (Qwen2.5-VL, InternVL3, LLaVA-OneVision):

Multi-Image Benchmarks: Er zijn consistente prestatieverbeteringen geobserveerd op Mantis, MuirBench, MIRB en QBench2. Bijvoorbeeld, op de MuirBench benchmark steeg de score van Qwen2.5-VL-3B van 37,31 naar 42,42.
Multi-Document & Multi-Table: De methode verbeterde ook de prestaties op tekstuele benchmarks zoals MultiNews, WCEP-10 en TQABench, wat aantoont dat het principe van "instance scheiding" breed toepasbaar is.
Kwalitatieve Analyse: In visuele voorbeelden (zoals het onderscheiden van welke afbeelding een fietsende man bevat) slaagt het aangepaste model erin om informatie correct toe te wijzen aan de juiste afbeelding, terwijl het basismodel informatie verward.
Efficiëntie: De methode introduceert geen extra geheugengebruik (VRAM) of inferentietijd. In tegenstelling tot andere methoden (zoals FOCUS, die meerdere forward passes vereist), blijft de rekentijd gelijk aan de baseline.

5. Significantie

Dit paper is significant omdat het een fundamenteel probleem in multi-image LVLMs oplost zonder de hoge kosten van training of complexe architecturale wijzigingen.

Praktische toepasbaarheid: Omdat de methode trainingsvrij is en geen extra rekenkracht kost, is deze direct inzetbaar voor bestaande modellen.
Inzicht in Attention: Het biedt nieuw inzicht in hoe LVLMs visuele contexten scheiden en hoe de manipulatie van specifieke tokens (delimiters) de aandachtspatronen kan sturen om "informatielek" te voorkomen.
Schaalbaarheid: De resultaten zijn consistent over modellen van verschillende groottes (van 0.5B tot 78B parameters), wat aantoont dat de methode robuust is en schaalbaar blijft bij grotere modellen.

Kortom, door de hidden states van delimiter tokens te versterken, kunnen LVLMs meerdere afbeeldingen veel effectiever van elkaar onderscheiden, wat leidt tot nauwkeurigere redeneerprestaties zonder extra kosten.

Enhancing Multi-Image Understanding through Delimiter Token Scaling

🖼️ Het Probleem: De "Zuurstofloze" Kamer

🚧 De Oude Oplossing: De Verkeersborden

💡 De Nieuwe Oplossing: De "Super-Borden"

🎁 Waarom is dit zo speciaal?

🏆 Het Resultaat

Titel: Enhancing Multi-Image Understanding Through Delimiter Token Scaling

1. Het Probleem: Cross-Image Informatielek

2. Methodologie: Delimiter Token Scaling

3. Belangrijkste Bijdragen

4. Resultaten

5. Significantie

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation