Communication-Inspired Tokenization for Structured Image Representations

Each language version is independently generated for its own context, not a direct translation.

COMiT: De Kunst van het Beeldvertalen voor Computers

Stel je voor dat je een computer wilt uitleggen hoe een foto eruitziet. Normaal gesproken geven we de computer een enorme lijst met pixels (kleine puntjes), maar dat is voor een slimme AI als een Transformer (een soort super-intelligente hersenstructuur) vaak te rommelig en inefficiënt.

De meeste bestaande methoden proberen een foto te "samenvatten" door hem in een reeks van kleine, losse blokjes (tokens) te veranderen. Het probleem? Deze blokjes lijken meer op een verzameling van textuur en patronen (zoals "blauwe lucht" of "groen gras") dan op echte objecten. Het is alsof je een verhaal vertelt door alleen woorden als "zacht", "ruw" en "blauw" te gebruiken, zonder ooit te zeggen wat het eigenlijk is: een "hond" of een "auto".

COMiT (Communication-inspired Tokenization) is een nieuwe manier om beelden voor computers te vertalen, gebaseerd op hoe mensen met elkaar praten.

De Analogie: Het "Blind Gokken" Spel

Stel je voor dat je een foto van een hond in een bos moet beschrijven aan een vriend die de foto niet kan zien. Je hebt echter een beperkt aantal woorden om je boodschap te maken.

De Oude Methode (De "Alles-in-één" Benadering):
Je probeert de hele foto in één keer te beschrijven. Je zegt: "Er is veel groen, wat bruin, een beetje blauw en een vage vorm." De luisteraar (de computer) krijgt een rommelig beeld. De details van de hond en de bomen zijn door elkaar gehusseld.
De COMiT-Methode (Het "Stap-voor-stap" Gesprek):
COMiT werkt anders. Het doet alsof het een gesprek voert met zichzelf.
- Stap 1: De computer kijkt eerst naar één klein stukje van de foto (bijvoorbeeld de kop van de hond). Het zegt: "Oké, ik zie hier een bruine vacht en een neus."
- Stap 2: Dan kijkt het naar een ander stukje (de poten). Het voegt toe: "En hier zie ik poten."
- Stap 3: Dan kijkt het naar de achtergrond. "En hier is een bos."
Het interessante is: elke keer als de computer naar een nieuw stukje kijkt, herorganiseert het zijn geheugen. Het past zijn eerdere woorden aan zodat ze beter passen bij de nieuwe informatie. Het bouwt het verhaal op, net zoals een mens dat doet.

De Drie Belangrijkste Innovaties

Hier is hoe COMiT dit technisch doet, vertaald naar alledaagse taal:

1. De "Spreker" is ook de "Luisteraar"
Bij oude systemen was er een aparte "verteller" (encoder) die de foto in code zette, en een aparte "luisteraar" (decoder) die die code weer in een foto omzette.
Bij COMiT is het één en dezelfde persoon. Dezelfde AI-structuur doet zowel het kijken als het herinneren. Dit is net als wanneer jij een foto probeert te onthouden om hem later aan iemand anders te beschrijven. Jij bent zowel de spreker als de luisteraar in je eigen hoofd. Dit zorgt voor een veel efficiëntere en slimmere manier van denken.

2. Gierig Gebruik van Woorden (Tokens)
Stel je voor dat je een brief mag schrijven, maar je mag maar 10 woorden gebruiken. Als je weet dat je precies 10 woorden mag gebruiken, zou je misschien wachten met het schrijven van de belangrijkste dingen tot het einde.
COMiT weet echter niet hoeveel "woorden" (of kijkjes) er nog komen. Daarom is het gierig: het gebruikt elke beschikbare "woord" direct om de belangrijkste informatie vast te leggen. Het wacht niet. Hierdoor ontstaan er duidelijke, logische groepjes in de code die echt overeenkomen met objecten (bijvoorbeeld: "dit token is de hond", "dat token is de boom").

3. Het "Duidelijk Maken" van de Code
De auteurs gebruiken een slim trucje: ze laten de computer eerst kijken naar een foto die een andere, zeer slimme AI (DINOv2) al heeft begrepen. Ze dwingen COMiT om te leren wat die slimme AI ziet. Dit zorgt ervoor dat de "woorden" die COMiT leert, echt betekenis hebben (semantisch) en niet zomaar willekeurige patronen zijn.

Waarom is dit zo cool?

Betere Begrip: Omdat de tokens (woorden) echt objecten vertegenwoordigen, kan de computer veel beter redeneren. Als je vraagt: "Is de hond links of rechts van de boom?", kan COMiT dit makkelijker beantwoorden dan oude systemen.
Creatief Herstellen: Als je de computer een onvolledige beschrijving geeft (bijvoorbeeld alleen de kop van de hond), kan COMiT de rest van de foto "dromen" (reconstrueren). Het weet dat als er een kop is, er waarschijnlijk ook een lichaam is, zelfs als het die niet heeft gezien.
Flexibiliteit: Je kunt COMiT vragen om een foto te bekijken met 1 grote blik, of met 10 kleine blikjes. Het past zich aan zonder opnieuw getraind te hoeven worden.

Conclusie

Kortom, COMiT is een nieuwe manier om beelden te vertalen naar de taal van computers. In plaats van een foto te zien als een rommelige stapel pixels, leert het de computer om naar een foto te kijken zoals een mens: stap voor stap, object voor object, en een verhaal te bouwen dat logisch en begrijpelijk is. Het is alsof we computers niet langer alleen laten "kijken", maar hen leren om te "denken" over wat ze zien.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Discrete beeldtokenizers zijn een fundamenteel onderdeel geworden van moderne visuele en multimodale systemen, omdat ze beelden omzetten in sequenties die door transformer-architecturen kunnen worden verwerkt. Echter, de bestaande benaderingen zijn overwegend geoptimaliseerd voor reconstructie en compressie. Hierdoor leren deze modellen tokens die voornamelijk lokale texturen en statistieken van patches vastleggen, in plaats van object-gerelateerde semantische structuren.

Dit gebrek aan semantische organisatie leidt tot tokens die moeilijk interpreteerbaar zijn en beperkte prestaties leveren bij downstream-taken die compositie en relationeel redeneren vereisen (bijvoorbeeld het begrijpen van relaties tussen objecten). Bestaande methoden die wel een één-dimensionale (1D) token-sequentie gebruiken, blijven vaak vastzitten in compressie-reconstructie trade-offs, waardoor semantische informatie verspreid en slecht gelokaliseerd blijft over de tokens.

Methodologie: COMiT

Het paper introduceert COMmunication inspired Tokenization (COMiT), een nieuw raamwerk dat de tokenisatie van beelden benadert als een iteratief communicatie- en reconstructieproces, geïnspireerd door hoe mensen visuele scènes beschrijven.

Kernprincipes:

Aandacht en sequentiële tokenisatie: De encoder behandelt het beeld als een reeks gelokaliseerde observaties (crops). In plaats van het hele beeld in één keer te verwerken, observeert het model sequentieel verschillende regio's en integreert deze informatie stap voor stap in een discrete latente boodschap.
Homogene communicatie: In tegenstelling tot traditionele auto-encoders met gescheiden netwerken voor encoder en decoder, gebruikt COMiT één enkel transformer-model dat zowel fungeert als "spreker" (encoder) als "luisteraar" (decoder). Dit spiegelt de symmetrie in menselijke communicatie.

Technische Architectuur:

Encodering (Iteratief): Het model start met een initieel latente bericht ( $m_0$ ). In elke stap $k$ observeert het model een nieuwe lokale crop ( $c_k$ ) en de relatieve positie ( $a_k$ ) ten opzichte van de vorige crop. Het model updatet het latente bericht recursief: $m_k = f_\theta^m(c_k, t_k, a_k, m_{k-1})$ .
Discretisatie: De geüpdatete boodschap wordt gekwantiseerd via Finite Scalar Quantization (FSQ) om een discrete token-sequentie te vormen die teruggevoerd wordt naar het model voor de volgende stap.
Decodering (Flow Matching): Na $K$ stappen dient het finale bericht ( $m_K$ ) als voorwaarde (conditioning) voor een Flow-Matching decoder. Hetzelfde netwerk reconstructeert het volledige beeld vanuit een ruisverdeling, geleid door het latente bericht.
Semantische Uitlijning (SREPA): Om te voorkomen dat de tokens alleen texturen leren, wordt een Semantic Representation Alignment doelstelling gebruikt. Hierbij worden features van een vooraf getraind zelftoezichtend visueel model (DINOv2) gedistilleerd naar de intermediate representaties van COMiT. Dit zorgt voor semantische gronding zonder de sequentiële structuur op te leggen.
Trainingstrategie:
- Het aantal crops tijdens training is gerandomiseerd om te voorkomen dat het model specifieke delen van de boodschap toewijst aan specifieke crops. Dit dwingt het model om tokens "gierig" te gebruiken voor de meest essentiële informatie.
- Er wordt gebruik gemaakt van Classifier-Free Guidance (CFG) en soms wordt het eerste crop vervangen door het volledige beeld (global crop) om de reconstructie te verbeteren.

Belangrijkste Bijdragen

Nieuw Paradigma: Verschuiving van compressie-georiënteerde tokenisatie naar semantisch georganiseerde tokenisatie door inspiratie te putten uit menselijke communicatie.
Unified Architecture: Een enkel transformer-model dat zowel encodeert als decodeert, wat redundantie elimineert en de symmetrie van communicatie nabootst.
Interpreteerbare Tokens: De methode induceert een token-structuur die object-gericht is, waarbij individuele tokens corresponderen met specifieke objecten of objectdelen in het beeld.
Nieuwe Benchmark: Introductie van een testset die niet alleen semantische inhoud meet, maar ook compositie-generatie (generalisatie naar ongeziene objectcombinaties) en relationeel redeneren (relaties tussen objecten).

Resultaten

COMiT werd geëvalueerd op drie benchmarks: ImageNet100 (visuele herkenning), MSCOCO (compositie-generatie) en Visual Genome (relationeel redeneren).

Semantische Prestaties: COMiT presteert aanzienlijk beter dan bestaande 1D-discrete tokenizers (zoals TiTok, FlexTok, SelfTok) op semantische taken. Bijvoorbeeld, op ImageNet100 bereikt COMiT-B een top-1 nauwkeurigheid van 82,91%, vergeleken met ~19-29% voor de concurrentie.
Compositie en Relaties: Het model toont superieure prestaties bij het generaliseren naar nieuwe objectcombinaties en het herkennen van relaties tussen objecten, wat aantoont dat informatie beter gedesintegreerd en gelokaliseerd is over de tokens.
Ablatiestudies:
- Zonder de sequentiële "attentive" tokenisatie (alleen globale crops) daalt de prestatie en worden de attention maps diffuus.
- Zonder semantische uitlijning (SREPA) daalt de semantische kwaliteit drastisch.
- De combinatie van beide is essentieel: SREPA zorgt voor de betekenis, de sequentiële tokenisatie zorgt voor de structuur.
Reconstructie: Hoewel de focus ligt op semantiek, behoudt COMiT een redelijke reconstructiekwaliteit (PSNR), hoewel dit iets lager is dan methoden die puur op compressie zijn geoptimaliseerd.

Betekenis en Impact

COMiT biedt een veelbelovende interface voor multimodale architecturen, vooral in scenario's waar object-gericht redeneren en compositief begrip cruciaal zijn. Door tokens te structureren die corresponderen met betekenisvolle entiteiten in plaats van willekeurige patches, opent dit onderzoek nieuwe wegen voor:

Betere integratie van visuele en tekstuele informatie in grote taalmodellen (LLMs).
Efficiënter redeneren over visuele scènes.
Toekomstige uitbreiding naar video, waar de sequentiële aard van COMiT goed aansluit bij temporele dynamiek.

Het paper benadrukt dat de manier waarop informatie wordt verdeeld over tokens (via de communicatie-inspiratie) minstens zo belangrijk is als de semantische inhoud zelf voor het bereiken van interpreteerbare en robuuste visuele representaties.

Communication-Inspired Tokenization for Structured Image Representations

De Analogie: Het "Blind Gokken" Spel

De Drie Belangrijkste Innovaties

Waarom is dit zo cool?

Conclusie

Probleemstelling

Methodologie: COMiT

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems