Communication-Inspired Tokenization for Structured Image Representations

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie möchten einem Freund beschreiben, was auf einem Foto zu sehen ist, aber Sie haben nur eine sehr kurze Zeit und ein begrenztes Gedächtnis. Wie gehen Sie vor?

Wahrscheinlich würden Sie nicht versuchen, jedes einzelne Pixel oder jeden kleinen Farbverlauf im Detail zu erzählen. Stattdessen würden Sie sich auf die wichtigsten Dinge konzentrieren: „Da ist ein roter Ball", „Daneben ein kleiner Hund", „Im Hintergrund ein Baum". Sie bauen die Beschreibung Schritt für Schritt auf, indem Sie Ihren Blick von einem Objekt zum anderen wandern lassen.

Genau das ist die Idee hinter dem neuen KI-Modell COMiT, das in diesem Papier vorgestellt wird.

Hier ist die Erklärung in einfachen Worten:

1. Das Problem: Die alten „Fotos" waren zu chaotisch

Bisherige KI-Modelle, die Bilder in eine Sprache für Computer (sogenannte „Tokens") umwandeln, funktionieren oft wie ein Fotograf, der ein riesiges Raster aus Millionen winziger Punkte macht.

Das Problem: Diese Punkte speichern oft nur Texturen (wie „das ist ein bisschen blau und rau"), aber nicht die Bedeutung (das ist eine „Katze").
Die Folge: Wenn die KI später versuchen soll, zu verstehen, was auf dem Bild ist (z. B. „wo ist die Katze und wo ist der Ball?"), stolpert sie über diese chaotische Ansammlung von Details. Es ist wie ein Haufen Lego-Steine, bei dem man nicht sieht, welche Teile zusammengehören.

2. Die Lösung: COMiT – Der „Erzähler" statt der „Fotokamera"

Die Forscher von COMiT haben sich überlegt: „Wie erzählen Menschen eigentlich?"
Sie haben ein Modell entwickelt, das sich wie ein Geschichtenerzähler verhält, nicht wie eine Kamera.

Der Prozess: Das Modell schaut sich das Bild nicht auf einmal an. Stattdessen „wandert" es mit seinem Blick über das Bild.
Schritt für Schritt:
1. Es schaut sich zuerst einen kleinen Ausschnitt an (z. B. den Kopf eines Hundes).
2. Es merkt sich das als eine Art „Nachricht" (Token).
3. Dann schaut es sich den nächsten Ausschnitt an (z. B. den Schwanz).
4. Es aktualisiert seine Nachricht: „Okay, wir haben einen Hund, und jetzt wissen wir, dass er einen Schwanz hat."
Das Ergebnis: Am Ende hat das Modell eine kurze, strukturierte Liste von Ideen (Tokens), die genau die Objekte und ihre Beziehungen zueinander beschreiben. Es ist wie ein gut sortierter Einkaufszettel, bei dem „Milch" und „Brot" klar getrennt sind, und nicht alles in einem großen Haufen liegt.

3. Der Trick: Ein und derselbe „Kopf"

In den meisten alten Systemen gab es zwei getrennte Gehirne:

Ein Gehirn zum Sehen (Encoder), das das Bild in die Nachricht verwandelt.
Ein Gehirn zum Zeichnen (Decoder), das die Nachricht wieder in ein Bild verwandelt.

Bei COMiT ist es anders: Es ist wie ein einzelnes Gehirn, das sowohl zuhört als auch spricht.

Es schaut sich das Bild an und schreibt die Nachricht.
Dann nimmt es dieselbe Nachricht und versucht, das Bild daraus wiederherzustellen.
Dieser Kreislauf zwingt das Gehirn, die Nachricht so zu schreiben, dass sie wirklich Sinn ergibt und leicht wieder zu verstehen ist.

4. Warum ist das so cool? (Die Vorteile)

Besseres Verständnis: Da die KI die Objekte einzeln und nacheinander „erzählt", versteht sie besser, wie Dinge zusammenhängen. Sie weiß, dass der Ball neben dem Hund ist, nicht nur, dass es blaue und braune Flecken gibt.
Kreativität: Weil die Nachricht so klar strukturiert ist, kann die KI Bilder besser neu kombinieren. Wenn Sie ihr sagen: „Zeig mir einen Hund, der auf einem Ball sitzt", kann sie das viel besser umsetzen als alte Modelle, weil sie die Konzepte „Hund" und „Ball" sauber getrennt gespeichert hat.
Flexibilität: Das Modell kann entscheiden, wie viel Zeit es sich nimmt. Es kann schnell nur einen groben Überblick geben (wenn es eilig ist) oder langsam jeden einzelnen Stein betrachten (wenn es Details braucht).

Zusammenfassung in einer Metapher

Stellen Sie sich vor, Sie wollen ein Puzzle lösen.

Die alten Methoden werfen Ihnen alle 10.000 Puzzleteile auf den Tisch und sagen: „Mach mal." Sie sehen nur einen bunten Haufen.
COMiT gibt Ihnen die Teile nacheinander und sagt: „Hier ist der Himmel. Hier ist das Haus. Hier ist der Hund." Am Ende haben Sie nicht nur das Bild, sondern Sie haben auch verstanden, wie die Teile zusammenpassen.

Fazit: COMiT ist ein KI-Modell, das Bilder nicht einfach nur komprimiert, sondern sie wie eine logische Geschichte erzählt. Dadurch versteht die Maschine Bilder besser, kann sie kreativer neu erschaffen und ist viel intelligenter im Umgang mit Objekten und deren Beziehungen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Moderne multimodale Systeme basieren zunehmend auf Transformer-Architekturen, die diskrete Token-Sequenzen als Schnittstelle für Bilddaten benötigen. Herkömmliche diskrete Bild-Tokenizer (z. B. VQ-VAE, VQ-GAN) sind primär auf Rekonstruktion und Kompression optimiert. Dies führt dazu, dass die gelernten Token oft lokale Texturen und Patch-Statistiken erfassen, anstatt eine objektzentrierte, semantische Struktur aufzuweisen.

Obwohl neuere Ansätze zu eindimensionalen Token-Sequenzen übergegangen sind, um die Kompatibilität mit Transformern zu erhöhen, bleiben die Token oft semantisch vermischt (entangled) und schlecht lokalisiert. Dies schränkt die Interpretierbarkeit und die Leistungsfähigkeit bei nachgelagerten Aufgaben ein, die ein kompositionelles Verständnis (z. B. Beziehungen zwischen Objekten) erfordern.

2. Methodik: COMiT (Communication-inspired Tokenization)

Die Autoren schlagen COMiT vor, ein Framework, das die diskrete Bild-Tokenisierung als einen iterativen Kommunikations- und Rekonstruktionsprozess modelliert. Die Idee ist inspiriert davon, wie Menschen visuelle Szenen beschreiben: schrittweise, aufmerksamkeitsgesteuert und kompositionell.

Kernprinzipien

Aufmerksamkeitsgesteuerte sequenzielle Tokenisierung: Der Encoder verarbeitet das Bild nicht als Ganzes, sondern als Folge von lokalen Ausschnitten (Crops). In jedem Schritt beobachtet das Modell einen neuen Crop und aktualisiert eine diskrete latente Nachricht (Message).
Homogene Kommunikation: Im Gegensatz zu traditionellen Autoencodern mit getrennten Encoder- und Decoder-Netzwerken verwendet COMiT ein einziges Transformer-Modell, das sowohl als „Sprecher" (Encoder) als auch als „Hörer" (Decoder) fungiert. Dies spiegelt die Symmetrie menschlicher Kommunikation wider.

Architektur und Trainingspipeline

Encoding (Iterativer Prozess):
- Das Modell erhält eine Folge von zufälligen Bild-Crops $\{c_k\}$ und deren relative Positionen (Offsets).
- Eine latente Nachricht $m$ (eine Sequenz von $L$ Token-Vektoren) wird initialisiert.
- In jedem Schritt $k$ aktualisiert das Modell $m$ basierend auf dem aktuellen Crop und der vorherigen Nachricht: $m_k = f_\theta(c_k, t_k, a_k, m_{k-1})$ .
- Die Nachricht wird nach jedem Schritt mittels Finite Scalar Quantization (FSQ) diskretisiert, um sie in ein festes Vokabular zu projizieren.
- Um eine „gierige" Nutzung der Token zu erzwingen (d. h., dass das Modell relevante Informationen sofort speichert, anstatt Platz für zukünftige Crops vorzuhalten), wird die Anzahl der verarbeiteten Crops während des Trainings randomisiert und der Gradientenfluss nur für den letzten Update-Schritt zurückgeführt (Stop-Gradient).
Decoding (Flow Matching):
- Die finale diskrete Nachricht $m_K$ konditioniert einen Flow-Matching-Decoder.
- Das gleiche Transformer-Modell wird verwendet, um aus der Nachricht und einem Rauschsignal das vollständige Bild zu rekonstruieren.
- Der Verlust basiert auf dem Flow-Matching-Objektiv, das die Geschwindigkeit des marginalen Flusses vorhersagt.
Semantische Ausrichtung (SREPA):
- Um sicherzustellen, dass die Token semantisch sinnvoll sind, wird eine Semantic Representation Alignment-Loss (SREPA) eingeführt.
- Dabei werden die latenten Repräsentationen des Modells mit den Features eines vortrainierten, selbstüberwachten Modells (DINOv2) abgeglichen. Dies zwingt das Modell, hochlevelige semantische Konzepte zu lernen.

3. Wichtige Beiträge

Paradigmenwechsel: Statt nur Kompressionsraten zu optimieren, fokussiert COMiT auf die semantische Organisation von Token-Sequenzen.
Einheitliches Modell: Die Integration von Encoding und Decoding in ein einziges, differentielles Flow-Objektiv innerhalb eines Transformers.
Strukturierte Tokenisierung: Durch den iterativen, aufmerksamen Prozess entstehen Token, die natürliche Objekte und deren Beziehungen abbilden, anstatt nur Textur-Blöcke.
Flexibilität: Das System erlaubt verschiedene „Cropping Policies" zur Inferenzzeit (z. B. nur globaler Crop, adaptive Auswahl basierend auf Rekonstruktionsfehler), ohne das Modell neu trainieren zu müssen.

4. Ergebnisse

Die Evaluation erfolgte auf drei Benchmarks, die semantisches Verständnis, kompositionelle Generalisierung und relationales Reasoning testen:

Visuelle Erkennung (ImageNet100): COMiT erreicht eine Top-1-Genauigkeit von 82,91 % (B-Modell), was deutlich über früheren 1D-Tokenizer-Ansätzen liegt (z. B. TiTok-B: ~19 %).
Kompositionelle Generalisierung (MSCOCO): Das Modell zeigt überlegene Fähigkeiten, unbekannte Kombinationen von Objekten zu generalisieren, was auf eine bessere Entflechtung (Disentanglement) der Objektdaten in den Token hindeutet.
Inter-Objekt-Relationen (Visual Genome): COMiT übertreibt bestehende Methoden bei der Vorhersage von Beziehungen zwischen Objekten (Subject-Predicate-Object).

Ablationsstudien zeigen:

Die SREPA-Komponente ist entscheidend für die semantische Bedeutung der Token.
Die aufmerksamkeitsgesteuerte sequenzielle Tokenisierung (Training mit lokalen Crops) ist entscheidend für die Entstehung einer interpretierbaren, objektzentrierten Struktur. Ohne diese Komponente verteilen sich die Aufmerksamkeit auf das gesamte Bild diffus (mIoU sinkt von 0,53 auf 0,34).
Die Rekonstruktionsqualität (gemessen in rFID und PSNR) ist konkurrenzfähig, wobei der Fokus klar auf der semantischen Struktur liegt.

5. Bedeutung und Ausblick

COMiT demonstriert, dass die Nachahmung menschlicher Kommunikationsprozesse (schrittweise, aufmerksamkeitsgesteuerte Informationsintegration) zu diskreten Bildrepräsentationen führt, die für multimodale Reasoning-Aufgaben viel besser geeignet sind als rein komprimierende Tokenizer.

Interpretierbarkeit: Die Token korrelieren stark mit physischen Objekten und deren Teilen, was die Black-Box-Natur von Transformer-Einbettungen reduziert.
Zukunftsperspektiven: Die Flexibilität des Ansatzes (z. B. adaptive Crops) eröffnet neue Wege für adaptive Tokenisierung und könnte auf Video-Daten erweitert werden, um zeitliche Strukturen und Bewegungen zu erfassen.

Zusammenfassend bietet COMiT eine vielversprechende Schnittstelle für zukünftige multimodale Architekturen, bei denen das Verständnis von Objekten und deren Beziehungen im Vordergrund steht.

Communication-Inspired Tokenization for Structured Image Representations

1. Das Problem: Die alten „Fotos" waren zu chaotisch

2. Die Lösung: COMiT – Der „Erzähler" statt der „Fotokamera"

3. Der Trick: Ein und derselbe „Kopf"

4. Warum ist das so cool? (Die Vorteile)

Zusammenfassung in einer Metapher

1. Problemstellung

2. Methodik: COMiT (Communication-inspired Tokenization)

Kernprinzipien

Architektur und Trainingspipeline

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems