Enhancing Multi-Image Understanding through Delimiter Token Scaling

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der „verwirrte Koch"

Stellen Sie sich vor, Sie sind ein genialer Koch (das ist die künstliche Intelligenz), der fantastische Gerichte aus einem einzigen Bild zubereiten kann. Wenn Sie ein Foto von einem Apfel sehen, wissen Sie genau, was ein Apfel ist.

Aber was passiert, wenn Sie plötzlich drei verschiedene Fotos gleichzeitig auf den Tisch bekommen? Vielleicht ein Foto von einem Apfel, eines von einem Hund und eines von einem Auto?

Das Problem ist: Die KI wird verwirrt. Sie fängt an, die Informationen zu vermischen. Sie könnte denken, der Hund sitzt auf dem Apfel oder das Auto hat Räder wie ein Hund. In der Fachsprache nennen die Forscher das „Cross-Image Information Leakage" (Informationen laufen über die Bildgrenzen hinweg aus). Die KI kann die Bilder nicht sauber trennen.

Die alte Lösung: Der unscharfe Trenner

Bisher haben die KI-Modelle versucht, das Problem zu lösen, indem sie zwischen den Bildern kleine unsichtbare „Trennzeichen" (Delimiters) einfügen. Das ist so, als würde der Koch zwischen den Fotos ein kleines Schildchen mit „HIER ENDET DAS APFEL-BILD" hinstellen.

Die Forscher haben aber herausgefunden: Diese Schildchen funktionieren nicht richtig. Sie sind zu schwach. Der Koch ignoriert sie fast und schaut trotzdem auf das falsche Bild, wenn er eine Frage zum ersten Bild beantworten soll.

Die neue Lösung: Der „Super-Trenner"

Die Forscher von diesem Papier haben eine clevere, aber einfache Idee gefunden, um diese Schildchen zu stärken, ohne den Koch neu ausbilden zu müssen.

Stellen Sie sich vor, diese Trennzeichen sind wie Wächter an den Grenzen der Bilder. Normalerweise stehen sie nur da und schauen zu. Die neue Methode ist, diesen Wächtern eine riesige Megafon-Stimme zu geben.

Die Verstärkung: Die Forscher nehmen die „Stimme" (die versteckten Daten) dieser Trennzeichen und machen sie lauter (sie skalieren sie).
Der Effekt: Durch diese Lautstärke werden die Wächter zu unschlagbaren Anziehungspunkten.
- Alle Informationen innerhalb eines Bildes hören sofort auf den Wächter dieses Bildes und bleiben dort.
- Die Informationen aus dem anderen Bild werden vom lauten Wächter des ersten Bildes so stark abgestoßen, dass sie nicht mehr „hineinlecken" können.

Warum ist das genial?

Kein neues Training: Man muss den Koch nicht neu lernen lassen. Man gibt ihm nur eine neue Anweisung, wie er die Schildchen behandelt. Das kostet keine Zeit und kein Geld.
Kein langsamerer Prozess: Es dauert nicht länger, ein Bild zu betrachten.
Es funktioniert überall: Es hilft nicht nur bei Bildern, sondern auch bei Texten. Wenn Sie drei verschiedene Dokumente haben, hilft diese Methode der KI, zu verstehen, welcher Satz zu welchem Dokument gehört, ohne die Informationen zu verwechseln.

Zusammenfassend:
Die Forscher haben entdeckt, dass die KI bei mehreren Bildern vergesslich wird. Statt die KI komplett neu zu programmieren, haben sie einfach die „Trennwände" zwischen den Bildern verstärkt. Dadurch merkt sich die KI endlich: „Aha, das hier gehört zum Bild 1, und das da gehört zum Bild 2!" – und liefert viel genauere Antworten.

Each language version is independently generated for its own context, not a direct translation.

Titel: Enhancing Multi-Image Understanding Through Delimiter Token Scaling

Veröffentlicht bei: ICLR 2026
Autoren: Minyoung Lee, Yeji Park, Dongjun Hwang, Yejin Kim, Seong Joon Oh, Junsuk Choe (Sogang University, KAIST, University of Tübingen)

1. Problemstellung: Cross-Image Information Leakage

Große Vision-Language-Modelle (LVLMs) zeigen zwar starke Leistungen bei der Verarbeitung einzelner Bilder, ihre Leistungsfähigkeit bricht jedoch signifikant ein, wenn mehrere Bilder gleichzeitig als Eingabe bereitgestellt werden.

Ursache: Das Hauptproblem ist das sogenannte „Cross-Image Information Leakage" (Überlappung von Informationen zwischen Bildern). Das Modell kann die Informationen verschiedener Bilder nicht klar voneinander trennen, was zu einer Vermischung von Kontexten in der Ausgabe führt.
Bisheriger Ansatz: LVLMs verwenden bereits spezielle Delimiter-Token (z. B. <|vision start|> und <|vision end|>), um Bilder voneinander zu trennen.
Analyse der Autoren: Die Autoren zeigen, dass diese Delimiter-Token zwar eine gewisse Trennung bewirken (erkennbar an dreieckigen Mustern in den Attention-Maps), aber nicht ausreichen, um unerwünschte Interaktionen zwischen den Bildern vollständig zu unterbinden. Es bleibt eine signifikante „Leckage" von Informationen bestehen.

2. Methodik: Delimiter Token Scaling

Die Autoren schlagen eine einfache, aber effektive Methode vor, die keine zusätzlichen Trainingsdaten oder Rechenkosten erfordert.

Analyse der Delimiter-Token: Durch die Untersuchung der Attention-Scores identifizierten die Autoren zwei Schlüsseleigenschaften der Delimiter-Token:
1. Korrespondenz: Der $i$ -te Delimiter-Token erhält starke Aufmerksamkeit von den Tokens des $i$ -ten Bildes (eine 1-zu-1-Zuordnung).
2. Intra-Bild-Interaktion: Die starken Attention-Werte des Delimiters wirken wie ein „Tag" oder Bias, der die Interaktion innerhalb desselben Bildes verstärkt (Intra-Image-Interaction).
Der Algorithmus:
Die Methode besteht darin, die versteckten Zustände (Hidden States) der Delimiter-Token zu skalieren.
Sei $h^{(l)}_t$ der versteckte Zustand eines Tokens $t$ in Schicht $l$ . Für alle Delimiter-Token $t \in D$ wird der Zustand wie folgt modifiziert:
$h^{(l)*}_t = \lambda \cdot h^{(l)}_t$
wobei $\lambda > 1$ ein Skalierungsfaktor ist. Alle anderen Tokens bleiben unverändert.
Wirkungsweise:
- Durch die Skalierung werden die Delimiter-Token zu stärkeren „Anziehungspunkten" (ähnlich wie Sink-Token am Anfang einer Sequenz).
- Dies reduziert die Aufmerksamkeit, die Tokens aus einem Bild auf Tokens eines anderen Bildes richten (Reduktion der Cross-Image-Leakage).
- Gleichzeitig wird die gemeinsame additive Komponente $p_{d,i}v_{d,i}$ im Attention-Output für das jeweilige Bild verstärkt, was die Interaktion innerhalb des Bildes erhält und sogar stärkt.
- Kompatibilität: Da nur die Hidden States vor der Attention-Berechnung modifiziert werden, ist die Methode kompatibel mit optimierten Attention-Kernen wie FlashAttention. Es entstehen keine zusätzlichen Speicher- oder Latenzkosten.

3. Hauptbeiträge

Analyse: Erste detaillierte Untersuchung des Verhaltens von Bild-Delimiter-Token in LVLMs und Aufdeckung ihrer unzureichenden Wirksamkeit bei der Trennung mehrerer Bilder.
Methode: Entwicklung einer training-freien, inference-freien Methode (Hidden State Scaling), die die Trennschärfe zwischen Bildern drastisch verbessert.
Generalisierung: Nachweis, dass die Methode nicht nur für Bilder, sondern auch für andere Multi-Instance-Szenarien (Multi-Document, Multi-Table) funktioniert.
Effizienz: Die Methode erfordert keine zusätzlichen Trainingskosten und fügt keinen Overhead bei der Inferenz hinzu.

4. Ergebnisse

Die Methode wurde auf einer Vielzahl von Benchmarks und Modellarchitekturen getestet (Qwen2.5-VL, InternVL3, LLaVA-OneVision).

Multi-Image Benchmarks:
- Signifikante Leistungssteigerungen auf Mantis, MuirBench, MIRB und QBench2.
- Beispiel: Auf dem MuirBench-Test verbesserte sich Qwen2.5-VL-3B von 37,31 auf 42,42 Punkte.
- Die Verbesserungen waren über alle Modellgrößen hinweg konsistent (von 0,5B bis 78B Parametern).
Text-only Benchmarks (Multi-Document & Multi-Table):
- Die Methode wurde auch auf Aufgaben angewendet, bei denen klare Trennung zwischen Textblöcken nötig ist (z. B. MultiNews, WCEP-10, TQABench).
- Auch hier wurden konsistente Verbesserungen bei ROUGE-Scores und Genauigkeit erzielt.
Qualitative Analyse:
- Visualisierungen der Attention-Maps zeigen, dass nach der Skalierung die dreieckigen Blockmuster (die Bildgrenzen markieren) klarer werden und die „Leckage" (rote Bereiche in den Maps) zwischen den Bildern fast vollständig verschwindet.
- Beispiel: Ein Baseline-Modell verwechselt Inhalte aus Bild 1 und Bild 2; das skalierte Modell trennt sie korrekt.
Vergleich mit anderen Methoden:
- Im Vergleich zu FOCUS (einer anderen training-freien Methode) ist die vorgeschlagene Methode deutlich effizienter (halber VRAM-Verbrauch, schnellere Inferenz) und erzielt bessere Ergebnisse.
- Im Vergleich zur Anwendung von M-RoPE (temporale Embeddings) ist die Scaling-Methode effektiver und einfacher.

5. Bedeutung und Fazit

Das Paper adressiert ein kritisches Hindernis für den Einsatz von LVLMs in realen Szenarien, in denen oft mehrere Bilder gleichzeitig analysiert werden müssen.

Praktische Relevanz: Da die Methode keine Neukalibrierung des Modells erfordert und keine Inferenzkosten verursacht, kann sie sofort in bestehenden Systemen integriert werden.
Einfluss: Sie bietet einen neuen Einblick in die Funktionsweise von Attention-Mechanismen in multimodalen Modellen und zeigt, dass das gezielte Verstärken spezifischer Token (Delimiter) ausreicht, um komplexe Trennungsprobleme zu lösen.
Zukunft: Die Autoren planen, die Methode auf Video-Daten zu erweitern, wo die Trennung von Frames durch temporale Übergänge noch komplexer ist.

Zusammenfassend stellt „Delimiter Token Scaling" einen effizienten, universell anwendbaren und hochwirksamen Ansatz dar, um die Leistung von Vision-Language-Modellen bei Multi-Image-Aufgaben ohne zusätzliche Ressourcen zu steigern.

Enhancing Multi-Image Understanding through Delimiter Token Scaling

Titel: Enhancing Multi-Image Understanding Through Delimiter Token Scaling

1. Problemstellung: Cross-Image Information Leakage

2. Methodik: Delimiter Token Scaling

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation