Enhancing Multi-Image Understanding through Delimiter Token Scaling

Dit paper introduceert een kostenefficiënte methode die de verborgen staten van scheidingstokens schaalt om informatielekken tussen afbeeldingen in Vision-Language-modellen te voorkomen, waardoor de prestaties op taken met meerdere afbeeldingen en documenten aanzienlijk worden verbeterd zonder extra trainings- of inferentiekosten.

Minyoung Lee, Yeji Park, Dongjun Hwang, Yejin Kim, Seong Joon Oh, Junsuk Choe

Gepubliceerd 2026-02-26
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

🖼️ Het Probleem: De "Zuurstofloze" Kamer

Stel je voor dat je een slimme robot hebt die heel goed is in het bekijken van één foto. Hij kan je vertellen wat er op de foto staat, wie erop staat en wat ze doen. Maar als je hem twee of meer foto's tegelijk geeft, raakt hij in de war.

Het is alsof je twee mensen in één kleine kamer zet en ze allebei laat praten. Ze beginnen elkaars woorden door elkaar te halen. De robot ziet een man op een fiets op foto A, en een hond op foto B, en denkt dan: "Oh, er is een man die een hond op een fiets rijdt!" Terwijl dat helemaal niet zo is.

In de wereld van kunstmatige intelligentie noemen ze dit lekken van informatie. De robot kan de grenzen tussen de foto's niet goed zien, dus de informatie "lekt" over elkaar heen.

🚧 De Oude Oplossing: De Verkeersborden

De makers van deze robots hadden al een oplossing bedacht. Ze plakten speciale verkeersborden (in de computerwereld "delimiet-tokens" genoemd) tussen de foto's.

  • Foto A ... bordje ... Foto B ... bordje ... Foto C.

Het idee was: "Als je dit bordje ziet, weet je dat de vorige foto voorbij is en de nieuwe begint."

Maar het onderzoekers van dit paper ontdekten iets verrassends: Deze borden werken niet goed genoeg. De robot kijkt wel naar de borden, maar hij luistert er niet echt naar. Hij negeert ze een beetje en blijft de informatie van de foto's door elkaar halen. Het is alsof je een "Stop"-bord neerzet, maar de auto's rijden er gewoon overheen.

💡 De Nieuwe Oplossing: De "Super-Borden"

De onderzoekers (van de universiteiten Sogang, KAIST en Tübingen) bedachten een slimme truc. Ze zeiden: "Als de borden niet sterk genoeg zijn om de robot te stoppen, dan maken we ze gewoon sterker!"

Ze noemen hun methode "Delimiter Token Scaling". Dat klinkt ingewikkeld, maar het werkt als volgt:

Stel je voor dat de verkeersborden in de computer een stem hebben. Normaal gesproken fluisteren ze: "Hé, hier begint een nieuwe foto." De robot hoort ze nauwelijks.

De onderzoekers zetten een versterker op die stem. Ze versterken het signaal van die borden enorm.

  • Vóór de versterking: De robot fluistert: "Misschien is dit een nieuwe foto?" (En hij raakt in de war).
  • Na de versterking: De robot schreeuwt: "STOP! HIER IS EEN NIEUWE FOTO!"

Door deze borden zo hard te laten "schreeuwen", gebeurt er magie:

  1. De robot stopt de informatie van Foto A en Foto B echt van elkaar.
  2. Hij blijft wel goed kijken naar wat er binnen één foto gebeurt (de man op de fiets blijft een man op de fiets).

🎁 Waarom is dit zo speciaal?

Meestal, als je een robot slimmer wilt maken, moet je hem trainen. Dat betekent dat je duizenden uren rekentijd en enorme hoeveelheden stroom nodig hebt om hem nieuwe dingen te leren.

Maar deze methode is gratis en direct.

  • Geen nieuwe training: Je hoeft de robot niet opnieuw te leren.
  • Geen extra tijd: Het kost geen seconde langer om een antwoord te geven.
  • Geen extra geheugen: Het werkt precies even snel als voorheen.

Het is alsof je een oude auto hebt die slecht schakelt. In plaats van een nieuwe motor te bouwen (duur en langzaam), doe je gewoon een stukje tape op de versnellingspook zodat hij precies op de goede plek klikt. De auto rijdt nu perfect, zonder dat je de motor hebt vervangen.

🏆 Het Resultaat

De onderzoekers hebben dit getest op verschillende taken:

  • Meerdere foto's: De robot kon nu veel beter vertellen welk dier op welke foto zat.
  • Meerdere documenten: Het werkte zelfs voor tekst! Als je de robot twee lange krantenartikelen gaf, kon hij nu beter het verschil zien tussen de twee, zonder de feiten door elkaar te halen.

Kortom: Ze hebben een simpele knop gevonden die de "verkeersborden" in de robot harder laat schreeuwen. Hierdoor raakt de robot niet meer in de war als hij naar meerdere plaatjes kijkt, en dat allemaal zonder dat het iets kost.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →