Global-Local Dual Perception for MLLMs in High-Resolution Text-Rich Image Translation

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de traduire un vieux journal rempli de publicités, de titres en gros caractères, de petites annonces et de dessins colorés. C'est une tâche difficile, même pour un humain. Maintenant, imaginez que vous demandez à un robot (une intelligence artificielle) de le faire.

C'est exactement le problème que cette recherche, appelée GLoTran, cherche à résoudre. Voici une explication simple, avec des images pour mieux comprendre.

Le Problème : Le Robot qui a la "vision d'un aigle" mais pas de "loup"

Les robots traducteurs actuels (les grands modèles d'IA) sont très forts, mais ils ont un défaut majeur quand il s'agit d'images complexes :

Ils sont trop pressés : Quand on leur montre une image haute résolution (très détaillée), ils essaient de tout voir d'un coup. C'est comme si vous essayiez de lire un livre entier en un seul regard rapide. Résultat ? Ils oublient des mots, inventent des phrases qui n'existent pas (des "hallucinations") ou mélangent les idées.
Ils se perdent dans les détails : Si on leur demande de zoomer sur un petit texte, ils oublient le contexte global. C'est comme si vous lisiez une phrase isolée d'un roman sans savoir de quel chapitre il s'agit : vous ne comprenez pas le sens réel.

La Solution : GLoTran, le "Duo Parfait"

Les auteurs proposent une nouvelle méthode appelée GLoTran. Pour faire simple, c'est comme donner au robot deux paires de lunettes en même temps :

Lunette 1 (La Vue Globale) : C'est une photo de l'image entière, mais un peu floue et petite (comme une carte de visite). Elle permet au robot de comprendre le contexte.
- Analogie : C'est comme regarder la carte d'un voyage. Vous voyez où sont les villes, les montagnes et les routes. Vous savez que vous êtes en France, pas au Japon.
Lunette 2 (La Vue Locale) : Ce sont des gros plans très nets sur les petits morceaux de texte (les étiquettes, les titres).
- Analogie : C'est comme utiliser une loupe pour lire le menu d'un restaurant. Vous voyez chaque lettre, chaque ingrédient, mais vous ne voyez pas le reste du restaurant.

La magie opère quand le robot utilise les deux en même temps :
Le robot regarde la "carte" (vue globale) pour savoir où il se trouve, puis il utilise la "loupe" (vue locale) pour lire les mots précis, tout en se souvenant de ce qu'il a lu juste avant. Il ne perd plus le fil !

L'Entraînement : Le "Super-Entraînement" (GLoD)

Pour apprendre à ce robot à utiliser ces deux lunettes, les chercheurs ont dû créer un manuel d'entraînement géant. Ils ont créé une base de données appelée GLoD.

Imaginez que vous voulez apprendre à un enfant à lire dans un magasin. Vous ne lui donnez pas un seul livre. Vous lui donnez 510 000 exemples différents : des menus de restaurants, des affiches de cinéma, des factures, des panneaux de rue, etc.
Pour chaque exemple, ils ont préparé deux choses : la vue d'ensemble et les gros plans des textes.
C'est comme un entraînement militaire intensif où le robot apprend à ne jamais se perdre, peu importe le désordre de l'image.

Les Résultats : Pourquoi c'est génial ?

Les tests montrent que cette méthode est bien meilleure que les robots précédents :

Moins d'erreurs : Le robot oublie moins de mots et n'invente plus de phrases bizarres.
Plus de précision : Il traduit même les petits textes difficiles (comme les écritures manuscrites ou les polices de caractères étranges).
Économie d'énergie : Au lieu de devoir "manger" une image géante et complexe (ce qui demande beaucoup d'énergie et de temps), le robot utilise une petite image globale et quelques gros plans. C'est comme conduire une voiture avec un GPS : vous n'avez pas besoin de regarder chaque pierre de la route, juste la carte et la route devant vous.

En résumé

Cette recherche, c'est comme donner à un traducteur automatique un cerveau de détective. Au lieu de regarder une image comme un simple tableau de pixels, il apprend à :

Observer la scène entière pour comprendre l'histoire.
Zoomer sur les détails pour lire les preuves.
Relier le tout pour raconter l'histoire correctement dans une autre langue.

C'est une avancée majeure pour traduire des images réelles, complexes et pleines de texte, comme celles que nous voyons tous les jours sur internet ou dans la rue.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La Traduction Automatique d'Images Textuelles (TIMT) vise à traduire le texte intégré dans une image d'une langue source vers une langue cible. Bien que les modèles existants aient progressé, ils échouent souvent face aux images haute résolution riches en texte (affiches, menus, documents complexes). Les défis majeurs identifiés sont :

Dispersions de l'attention : Les images haute résolution génèrent un nombre excessif de tokens visuels, diluant l'attention du modèle sur les régions textuelles pertinentes.
Bruit visuel : Les arrière-plans encombrés, les icônes et les éléments décoratifs perturbent la reconnaissance du texte.
Incohérences sémantiques : Les modèles souffrent d'omissions de texte, de fausses traductions (hallucinations) et d'une perte de cohérence contextuelle globale (décalage sémantique).
Limites des approches actuelles :
- Les méthodes en cascade (OCR + Traduction) accumulent les erreurs.
- Les modèles end-to-end traditionnels peinent à généraliser.
- Les Modèles de Langage Multimodaux (MLLM) actuels, bien que puissants, ont du mal à maintenir une précision fine-granulaire tout en conservant une compréhension globale du contexte, surtout sur des images non redimensionnées.

2. Méthodologie : GLoTran

Pour surmonter ces limitations, les auteurs proposent GLoTran, un cadre de perception visuelle dual (Global-Local) conçu spécifiquement pour les MLLM.

A. Stratégie de Perception Dual

Au lieu de traiter l'image entière en haute résolution en une seule passe, GLoTran adopte une approche hybride :

Vue Globale (Low-Resolution) : L'image originale est redimensionnée en une vue globale de faible résolution (ex: 224x224). Cela permet au modèle de capturer la disposition globale, la structure de la scène et les indices contextuels sans surcharger le calcul.
Slices Locaux (Multi-échelle) : Un détecteur de régions textuelles (ex: PaddleOCR) identifie les zones de texte. Ces régions sont découpées, triées et regroupées en « tranches » (slices) locales. Chaque tranche conserve les détails textuels fins nécessaires à une reconnaissance précise.

B. Architecture et Flux de Données

Encodage : La vue globale ( $I_g$ ) et les tranches locales ( $I_i$ ) sont encodées séparément par un encodeur visuel partagé (ex: ViT) puis projetées dans l'espace des caractéristiques textuelles.
Mécanisme d'Attention Hiérarchique : Une attention croisée hiérarchique est introduite entre les tokens globaux et locaux. Cela permet à chaque token local de s'attacher sélectivement aux tokens globaux sémantiquement pertinents, assurant une ancrage contextuel tout en préservant la cohérence intra-ligne.
Traduction Régressive avec Replay : La traduction s'effectue tranche par tranche. Pour chaque tranche $i$ $i$ , le modèle reçoit :
- L'image globale.
- La tranche locale courante.
- Un prompt structuré.
- Les traductions des tranches précédentes (fenêtre de replay $\eta$ ), servant de contexte pour assurer la continuité du discours et la cohérence terminologique.

C. Construction du Prompt

Le prompt d'instruction est structuré en quatre composants interdépendants :

Instruction de Compréhension Globale : Fournit le contexte de la scène.
Instruction de Focus Local : Dirige l'attention vers le texte spécifique de la tranche.
Règle de Cohérence Global-Local : Force le modèle à vérifier que la traduction locale est cohérente avec le contexte global.
Instruction de Traduction : Définit la tâche explicite et inclut les traductions précédentes (fenêtre de replay).

3. Contributions Clés

Le Framework GLoTran : Une nouvelle architecture pour les MLLM qui intègre la compréhension contextuelle de niveau scène avec une perception textuelle fine-granulaire, réduisant ainsi les omissions et les hallucinations.
Le Dataset GLoD : Les auteurs ont construit un dataset massif et spécifique à cette tâche, contenant 510 000 paires image-texte (Global-Local).
- Couvre 40+ scénarios réels (menus, documents, panneaux, etc.).
- Inclut 5 langues.
- Généré via un pipeline rigoureux incluant détection OCR, fusion de traduction bidirectionnelle et validation humaine.
Performance et Efficacité : Démonstration que cette approche surpasse les modèles de base (SOTA) sans nécessiter une augmentation massive des paramètres ou une résolution d'entrée extrême.

4. Résultats Expérimentaux

Les expériences ont été menées sur plusieurs benchmarks (MCiTon, MTIT6) en comparant GLoTran (basé sur Qwen3-VL 8B et InternVL2.5) avec des modèles open-source et propriétaires (GPT-4o, Qwen-VL-Max).

Précision de Traduction : GLoTran obtient les meilleurs scores BLEU et COMET sur tous les scénarios testés (documents, affiches, menus).
- Sur le benchmark MCiTon, GLoTran (Qwen3-VL 8B) améliore le score BLEU de 7,49 % et COMET de 2,49 % par rapport au modèle de base Qwen3-VL 8B.
- Les gains sont particulièrement marqués sur les textes denses et dispersés (ex: +5,3 points BLEU sur les introductions et tracts).
Multilinguisme : GLoTran surpasse systématiquement les modèles de base sur les tâches de traduction multilingue (ex: Japonais/Coréen vers Chinois), prouvant sa robustesse au-delà de l'anglais-chinois.
Analyse d'Ablation :
- La stratégie dual fonctionne bien sur différents backbones (de 4B à 8B paramètres).
- L'analyse de sensibilité montre qu'une résolution globale de 224x224 est optimale (au-delà, le bruit visuel dégrade les performances).
- Une fenêtre de replay ( $\eta$ ) de 4 tranches maximise la cohérence.
Efficacité Computationnelle :
- Contrairement aux approches qui augmentent la résolution d'entrée (entraînant une explosion du nombre de tokens visuels et de la latence), GLoTran maintient une faible latence et un coût calcul réduit tout en offrant une précision supérieure.
- Par exemple, pour atteindre une précision similaire à GLoTran, un modèle standard devrait traiter des images en pleine résolution, augmentant le nombre de tokens visuels de 6,1K à 164K et la latence de manière drastique.

5. Signification et Impact

Ce travail marque un tournant dans la traduction d'images textuelles en démontrant que l'augmentation de la résolution brute n'est pas la solution optimale pour les MLLM.

Paradigme Nouveau : Il établit que la combinaison d'une vue globale (pour le contexte) et de vues locales (pour le détail) est supérieure à l'analyse monolithique d'images haute résolution.
Ressource Critique : Le dataset GLoD comble un vide majeur en fournissant des données d'entraînement adaptées à l'apprentissage de la perception dual, ce qui manquait jusqu'alors.
Application Pratique : La méthode permet des traductions plus fiables et complètes pour des applications réelles complexes (numérisation de documents, traduction de panneaux de signalisation, localisation d'interfaces), là où les modèles actuels échouent souvent par omission ou hallucination.

En résumé, GLoTran résout le compromis entre la compréhension contextuelle globale et la précision textuelle locale, offrant un cadre robuste et efficace pour la traduction d'images riches en texte.