Global-Local Dual Perception for MLLMs in High-Resolution Text-Rich Image Translation

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie müssen einen sehr komplexen, überfüllten Flyer aus dem Englischen ins Deutsche übersetzen. Dieser Flyer ist riesig, hat viele verschiedene Schriftarten, ist voller kleiner Texte, Bilder und Verzierungen.

Das Problem:
Bisherige KI-Modelle (die sogenannten "Multimodalen Large Language Models" oder MLLMs) haben dabei zwei große Schwierigkeiten:

Sie werden blind: Wenn man ihnen das ganze riesige Bild auf einmal zeigt, "ertrinken" sie in Details. Sie sehen den Wald vor lauter Bäumen nicht. Sie übersehen kleine Wörter oder verwechseln Texte, weil der Hintergrund zu chaotisch ist.
Sie verlieren den Faden: Wenn sie versuchen, den Text Zeile für Zeile zu übersetzen, vergessen sie oft den großen Zusammenhang. Ein Satz am Ende des Flyers passt dann nicht mehr zum Thema am Anfang.

Die Lösung: GLoTran (Der "Doppel-Blick"-Ansatz)
Die Forscher haben eine neue Methode namens GLoTran entwickelt. Man kann sich das wie einen sehr erfahrenen Übersetzer vorstellen, der zwei verschiedene Brillen gleichzeitig trägt:

Brille 1: Die Weitwinkel-Brille (Global)
Diese Brille zeigt dem KI-Modell das ganze Bild, aber etwas unscharf und klein (wie eine Landkarte). Damit sieht die KI sofort: "Ah, das ist ein Speisekarte, das ist ein Plakat für eine Band, das ist ein Zeitungsartikel." Sie versteht den Kontext und die Szene.
Brille 2: Die Lupe (Local)
Diese Brille zoomt ganz nah heran auf die einzelnen Textblöcke. Sie schneidet kleine Ausschnitte aus dem Bild aus, damit die KI jeden einzelnen Buchstaben und jedes Wort scharf erkennen kann, ohne von den bunten Bildern daneben abgelenkt zu werden.

Wie funktioniert das zusammen?
Stellen Sie sich vor, Sie lesen eine lange Geschichte in einem Buch:

Zuerst schauen Sie auf das Inhaltsverzeichnis (die Weitwinkel-Brille), um zu wissen, worum es im Buch geht.
Dann lesen Sie ein Kapitel nach dem anderen (die Lupe).
Aber das Geniale an GLoTran ist: Während Sie ein Kapitel lesen, erinnern Sie sich immer noch daran, was in den vorherigen Kapiteln stand. Das System merkt sich also, was es schon übersetzt hat, damit der Stil und die Bedeutung im ganzen Dokument konsistent bleiben.

Der riesige Trainings-Atlas (GLoD-Datensatz)
Damit diese KI diese Fähigkeit wirklich lernt, haben die Forscher eine riesige Bibliothek namens GLoD erstellt.

Das ist wie ein riesiges Übungsbuch: Es enthält über 510.000 Beispiele von Bildern, die sowohl das ganze Bild (die Landkarte) als auch die einzelnen Textausschnitte (die Lupe) enthalten, zusammen mit der perfekten Übersetzung.
Die KI hat an diesen Beispielen gelernt, wie man den großen Zusammenhang mit den kleinen Details verbindet.

Warum ist das besser?
Bisherige Modelle mussten entweder das ganze Bild in extrem hoher Auflösung sehen (was sehr rechenintensiv und langsam ist) oder sie übersetzten nur kleine Teile und vergaßen den Rest.
GLoTran ist wie ein kluger Übersetzer, der schnell und präzise ist:

Er braucht keine riesige Rechenleistung, um das ganze Bild zu scannen.
Er übersetzt nicht nur Wörter, sondern versteht den Sinn des Ganzen.
Er macht weniger Fehler, wie das Weglassen von Text oder das Erfinden von Inhalten, die gar nicht da sind (Halluzinationen).

Zusammenfassung in einem Satz:
GLoTran ist wie ein Übersetzer, der gleichzeitig einen weiten Blick auf das ganze Bild hat und eine Lupe für die feinen Details benutzt, damit keine Information verloren geht und der Sinn des Ganzen perfekt erhalten bleibt – selbst bei den chaotischsten Bildern.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Text-Bild-Maschinelle Übersetzung (TIMT) zielt darauf ab, in Bildern eingebetteten Text aus einer Quell- in eine Zielsprache zu übersetzen. Dies erfordert eine synergistische Integration von visueller Wahrnehmung und linguistischem Verständnis.
Bestehende Ansätze, sei es als kaskadierte Pipelines (OCR gefolgt von MT) oder als End-to-End-Modelle (einschließlich Multimodaler Large Language Models, MLLMs), stoßen bei hochauflösenden, textreichen Bildern an ihre Grenzen. Die Hauptprobleme sind:

Unübersichtliche Layouts: Dichte Textblöcke, diverse Schriftarten und nicht-textuelle Ablenkungen (Icons, Hintergründe).
Fehleranfälligkeit: Kaskadierte Methoden leiden unter Fehlerfortpflanzung, während herkömmliche End-to-End-Modelle und aktuelle MLLMs oft Schwierigkeiten haben, den globalen Kontext mit feinkörnigen Textdetails zu vereinen.
Folgen: Dies führt zu Textauslassungen, semantischem Drift, Halluzinationen und inkonsistenten Übersetzungen, insbesondere wenn die visuelle Aufmerksamkeit durch zu viele visuelle Tokens (bei hoher Auflösung) überlastet wird.

2. Methodik: GLoTran Framework

Die Autoren stellen GLoTran vor, ein Framework für MLLMs, das auf einer global-local dualen visuellen Wahrnehmungsstrategie basiert.

Dualer Eingabeansatz:
- Globaler Blick: Das ursprüngliche hochauflösende Bild wird auf eine niedrige Auflösung (z. B. 224x224 Pixel) heruntergerechnet, um den gesamten Szenenkontext, das Layout und semantische Priors effizient zu erfassen.
- Lokale Slices: Ein Textregion-Detektor (z. B. PaddleOCR) identifiziert Textbereiche. Diese werden als separate, hochauflösende Bildausschnitte („Slices") extrahiert, um feinkörnige Textdetails zu bewahren.
Architektur und Verarbeitung:
- Beide Eingaben (globales Bild und lokale Slices) werden gemeinsam in den MLLM eingespeist.
- Ein strukturierter Prompt leitet das Modell an, das globale Bild als Kontextreferenz zu nutzen und die lokalen Slices für die detaillierte Übersetzung zu verarbeiten.
- Hierarchische Cross-Attention: Eine spezielle Attention-Mechanik in den frühen Transformer-Schichten ermöglicht es lokalen Tokens, selektiv auf semantisch relevante globale Tokens zu achten. Dies verbessert die Kontextverankerung, ohne die lokale Texttreue zu verlieren.
Regressiver Übersetzungsprozess mit Replay-Mechanismus:
- Die Übersetzung erfolgt schrittweise für jede Region.
- Ein Replay-Fenster (Größe $\eta$ ) integriert die Übersetzungen der vorherigen Regionen ( $\hat{Y}_{i-\eta} \dots \hat{Y}_{i-1}$ ) in den Prompt des aktuellen Schritts. Dies gewährleistet terminologische Konsistenz und Kohärenz über den gesamten Text hinweg.

3. Schlüsselbeiträge

GLoTran Framework: Ein neuartiges Paradigma, das MLLMs befähigt, gleichzeitig Szenenkontext (global) und feinkörnige Textdetails (lokal) zu modellieren. Dies löst das Problem des semantischen Drifts und der Auslassungen in komplexen visuellen Szenarien.
GLoD-Datensatz (GLoTran Dataset): Die Erstellung eines groß angelegten, maßgeschneiderten Datensatzes mit über 510.000 global-lokalen Bild-Text-Paaren.
- Abdeckung von 517.354 Paaren in 5 Sprachen.
- Umfasst über 40 reale Szenarien (Menüs, Dokumente, Plakate, Straßenschilder, etc.).
- Besonderheit: Jedes Paar besteht aus dem globalen Bild, den lokal gruppierten Textausschnitten und den korrespondierenden Übersetzungen, was das Training für das duale Wahrnehmungsparadigma erst ermöglicht.
Strukturierte Prompt-Engineering: Entwicklung eines vierkomponentigen Prompts (Globales Verständnis, Lokaler Fokus, Konsistenzregeln, Übersetzungsanweisung), der das Modell zwingt, globale und lokale Informationen konsistent zu verknüpfen.

4. Ergebnisse

Leistungsvergleich: GLoTran (basierend auf Qwen3-VL 8B) wurde auf dem MCiTon-Benchmark (Englisch zu Chinesisch) und dem MTIT6-Datensatz (mehrsprachig) getestet.
Überlegenheit: Das Modell übertrifft sowohl state-of-the-art Open-Source-MLLMs (wie Qwen2.5-VL, InternVL3) als auch geschlossene kommerzielle Modelle (GPT-4o, Qwen-VL-Max) in allen getesteten Szenarien (Dokumente, Poster, Menüs, etc.).
- Auf dem MCiTon-Benchmark erzielte GLoTran im Durchschnitt 50,2 BLEU und 82,2 COMET, was signifikante Verbesserungen gegenüber dem Basis-Modell Qwen3-VL 8B (46,7 BLEU / 80,2 COMET) darstellt.
- Besonders starke Verbesserungen wurden bei Szenarien mit kleinem, verstreutem Text (z. B. Einführungen, Flugblätter) beobachtet.
Skalierungseffizienz: Die Ergebnisse zeigen, dass eine reine Erhöhung der Parametergröße (Scaling) bei MLLMs für TIMT nur begrenzte Gewinne bringt. GLoTran erreicht mit einem 8B-Modell bessere Ergebnisse als 32B-Modelle ohne diese spezielle Architektur.
Qualitative Analyse: Visuelle Vergleiche zeigen, dass GLoTran Auslassungen und Halluzinationen, die bei anderen Modellen häufig auftreten, drastisch reduziert und die Layout-Kohärenz der übersetzten Texte bewahrt.
Effizienz: Trotz der Verarbeitung mehrerer Bilder (Global + Slices) ist GLoTran effizienter als Modelle, die versuchen, die volle Originalauflösung direkt zu verarbeiten, da es den visuellen Token-Bedarf kontrolliert hält und dennoch hohe Genauigkeit liefert.

5. Bedeutung und Fazit

Das Paper adressiert eine kritische Lücke in der aktuellen Forschung: Die Fähigkeit von MLLMs, hochauflösende, textreiche Bilder zuverlässig zu übersetzen.

Paradigmenwechsel: GLoTran beweist, dass eine intelligente Aufteilung der visuellen Wahrnehmung (globaler Kontext + lokale Detailfokussierung) effektiver ist als der naive Versuch, das gesamte hochauflösende Bild auf einmal zu verarbeiten.
Datenbasis: Der vorgestellte GLoD-Datensatz ist ein wesentlicher Beitrag, da er die notwendige Infrastruktur für das Training solcher dualer Wahrnehmungsmodelle bereitstellt, die bisher fehlte.
Praktische Relevanz: Die Methode ermöglicht robustere Übersetzungslösungen für reale Anwendungen wie Dokumentenverarbeitung, Tourismus (Menüs/Schilder) und Dokumentenanalyse, wo Genauigkeit und Kontexttreue entscheidend sind.

Zusammenfassend stellt GLoTran einen neuen Standard für die Text-Bild-Übersetzung dar, der durch die Kombination von skalierbaren MLLMs, einem spezialisierten Datensatz und einer innovativen Architektur die Grenzen der aktuellen State-of-the-Art-Modelle überwindet.

Global-Local Dual Perception for MLLMs in High-Resolution Text-Rich Image Translation

1. Problemstellung

2. Methodik: GLoTran Framework

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation