Global-Local Dual Perception for MLLMs in High-Resolution Text-Rich Image Translation

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover tradurre un intero libro illustrato, pieno di scritte piccole, cartelloni affollati e disegni colorati, ma invece di leggere le parole una per una, devi guardarle tutte insieme in un solo istante. È un compito impossibile per un umano, e lo è anche per le intelligenze artificiali attuali quando si tratta di immagini ad alta risoluzione.

Ecco la storia di GLoTran, la nuova soluzione proposta da questo studio, spiegata come se fosse una ricetta culinaria o un metodo di lavoro intelligente.

Il Problema: L'Ingorgo Visivo

Fino a oggi, i modelli di intelligenza artificiale (chiamati MLLM) che traducono le immagini si trovavano in una situazione di "cecità selettiva".

Se guardavano l'immagine intera (come un panorama), vedevano il contesto generale (es. "è un menu di un ristorante"), ma le scritte piccole diventavano un'indistinta macchia di pixel. Risultato: dimenticavano le parole o inventavano cose che non c'erano (allucinazioni).
Se si concentravano solo sui dettagli (zoomando sulle parole), perdevano il senso della scena. Risultato: traducevano bene le parole singole, ma il senso della frase era sbagliato perché mancava il contesto (es. tradurre "Banca" come "Banca" invece di "Banca del tempo" in un contesto specifico).

È come se avessi due persone: una che vede la foresta ma non gli alberi, e una che vede gli alberi ma non sa che sono in una foresta. Nessuna delle due riesce a descrivere il paesaggio correttamente.

La Soluzione: GLoTran (Il "Duo Perfetto")

Gli autori propongono GLoTran, un sistema che dà all'intelligenza artificiale due occhi che lavorano insieme: un occhio per il panorama e uno per il dettaglio.

Immagina un detective che deve risolvere un caso in una stanza piena di oggetti:

L'occhio globale (Il Panorama): Il detective fa un passo indietro e guarda tutta la stanza. Capisce che è una cucina, vede dove sono i mobili e qual è l'atmosfera. Questo gli dà il "senso generale".
L'occhio locale (Il Microscopio): Poi il detective prende una lente d'ingrandimento e si concentra su un singolo foglio di carta appeso al frigo. Legge le scritte piccole con precisione.

GLoTran fa esattamente questo:

Prende l'immagine originale e la riduce a una versione piccola e sfocata (l'occhio globale) per capire il contesto.
Taglia l'immagine in pezzi piccoli e nitidi (i "fette" locali) dove ci sono le scritte, per leggere i dettagli.
Costringe l'IA a guardare entrambi contemporaneamente: "Leggi questo pezzo di testo (locale), ma ricordati che sei in una cucina (globale) per capire se quella parola significa 'forno' o 'fornace'".

La Ricetta Segreta: Il "Replay"

C'è un altro trucco geniale. Quando traduce un pezzo di testo, il sistema non lo fa da solo. Si guarda indietro e dice: "Ehi, ho appena tradotto la frase precedente, assicurati che questa nuova frase si intoni bene con quella!".
È come se un traduttore umano leggesse un libro pagina per pagina, ricordandosi sempre cosa ha scritto nella riga prima per non perdere il filo del discorso. Questo evita che la traduzione salti da un argomento all'altro senza logica.

Il Laboratorio di Addestramento: GLoD

Per insegnare a questa IA a fare il "detective", gli autori non hanno usato vecchi libri di testo. Hanno creato un enorme nuovo manuale chiamato GLoD.
Hanno raccolto 510.000 immagini reali (menu, cartelli stradali, volantini, documenti) e hanno creato per ognuna di esse una "coppia perfetta": una versione piccola dell'intera immagine e i pezzi zoomati delle scritte. È come se avessero addestrato l'IA su milioni di casi reali, insegnandole a non farsi distrarre dai disegni colorati e a concentrarsi solo sulle parole importanti.

Il Risultato: Più Veloce e Più Preciso

Il risultato è sorprendente.

Migliore precisione: Traduce le immagini complesse molto meglio dei modelli attuali, senza dimenticare parole e senza inventare cose.
Più efficiente: Paradossalmente, è anche più veloce ed economico. Invece di costringere il computer a elaborare un'immagine gigantesca (che richiede molta energia e tempo), GLoTran usa la versione piccola per il contesto e solo i pezzi necessari per i dettagli. È come leggere un libro: non devi stampare l'intero libro in grandezza naturale per capire una singola frase; ti basta il contesto della pagina e la lente d'ingrandimento sul testo.

In Sintesi

GLoTran è come dare all'intelligenza artificiale un binocolo intelligente: un occhio vede l'intero scenario per non perdersi, l'altro legge le scritte piccole per non sbagliare i dettagli. Grazie a questo metodo e a un enorme nuovo database di addestramento, le traduzioni di immagini complesse diventano finalmente complete, accurate e naturali, proprio come se a tradurle fosse un essere umano esperto.

Each language version is independently generated for its own context, not a direct translation.

Titolo

GLoTran: Percezione Visiva Duale Globale-Locale per MLLM nella Traduzione di Immagini Ricche di Testo ad Alta Risoluzione

1. Il Problema

La Traduzione di Immagini Ricche di Testo (TIMT - Text Image Machine Translation) mira a tradurre il testo incorporato nelle immagini dalla lingua sorgente a quella target. Sebbene i modelli esistenti (pipeline a cascata o modelli end-to-end) abbiano fatto progressi, affrontano sfide significative quando si tratta di immagini ad alta risoluzione e ricche di testo (es. poster, menu, documenti complessi):

Layout disordinati e distrazioni: Sfondi complessi, icone e elementi decorativi distraggono l'attenzione del modello.
Omissione e allucinazione: I modelli tendono a ignorare parti di testo (omissione), a generare testo non presente (allucinazione) o a commettere errori di riconoscimento.
Incoerenza contestuale: La mancanza di una comprensione globale porta a derive semantiche, dove la traduzione locale non è coerente con il contesto generale della scena.
Limitazioni dei MLLM attuali: I Modelli Linguistici Multimodali (MLLM) esistenti spesso soffrono di un eccesso di token visivi quando elaborano immagini ad alta risoluzione, disperdendo l'attenzione e fallendo nel mantenere sia il dettaglio fine-granulare che la coerenza globale.

2. Metodologia: GLoTran

Gli autori propongono GLoTran, un framework innovativo basato su una strategia di percezione visiva duale globale-locale. L'obiettivo è bilanciare la comprensione del contesto della scena con l'attenzione ai dettagli testuali.

Architettura e Flusso di Lavoro

Rilevamento e Suddivisione:
- Un rilevatore di regioni testuali (es. PaddleOCR) identifica le aree contenenti testo nell'immagine ad alta risoluzione.
- L'immagine originale viene ridimensionata in una vista globale a bassa risoluzione ( $I_g$ ) per catturare il layout generale e i segnali semantici della scena.
- Le regioni testuali vengono ritagliate e organizzate in fette locali multi-scala ( $I_i$ ) per preservare i dettagli fini del testo.
Codifica Visiva Duale:
- Sia l'immagine globale che le fette locali vengono codificate separatamente da un encoder visivo condiviso (es. ViT).
- Vengono utilizzati token identificatori specifici per distinguere le caratteristiche globali da quelle locali.
Meccanismo di Attenzione Incrociata Gerarchica:
- Viene introdotta un'attenzione incrociata tra i token globali e locali negli strati iniziali del Transformer. Questo permette a ogni token locale di focalizzarsi selettivamente sui token globali semanticamente rilevanti, migliorando l'ancoraggio contestuale senza perdere i dettagli locali.
Traduzione Regressiva con Replay:
- La traduzione non avviene in un unico passaggio, ma in modo regressivo (regione per regione).
- Per ogni fetta locale, il modello riceve un prompt strutturato che include: l'immagine globale (come riferimento contestuale), la fetta locale corrente e le traduzioni delle regioni precedenti (finestra di replay $\eta$ ).
- Questo meccanismo garantisce coerenza terminologica e narrativa attraverso l'intero documento.
Prompting Strutturato:
- Il prompt istruisce il modello su quattro aspetti: comprensione globale, focus locale, regole di coerenza globale-locale e istruzione di traduzione esplicita.

3. Dataset: GLoD

Per addestrare efficacemente questo paradigma, gli autori hanno costruito GLoD, un dataset su larga scala specifico per la percezione duale:

Dimensione: Oltre 510.000 coppie immagine-testo globali-locali.
Copertura: 517.354 coppie che coprono oltre 40 scenari reali (menu, documenti, poster, segnali stradali, ricevute) in 5 lingue.
Pipeline di Curatela: Include conceptualization, raccolta dati, filtraggio, rilevamento e raggruppamento delle regioni testuali, traduzione bidirezionale (con modelli LLM avanzati come GPT-4o e DeepSeek-R1) e controllo di qualità rigoroso (verifica umana e automatica della coerenza semantica).

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su benchmark come MCiTon (traduzione Inglese-Cinese) e MTIT6 (traduzione multilingue).

Prestazioni Superiori: GLoTran, basato su MLLM come Qwen3-VL 8B, supera significativamente sia i modelli MLLM open-source che quelli commerciali (es. GPT-4o, Qwen-VL-Max) in termini di BLEU e COMET.
- Su scenari densi e eterogenei (documenti, poster), GLoTran ha mostrato un miglioramento medio del 4,6% - 5,4% in BLEU rispetto ad altri MLLM open-source.
- In scenari con testo piccolo e disperso, i guadagni sono ancora maggiori, superando i modelli base di circa 5,3 punti BLEU.
Indipendenza dalla Scala dei Parametri: I risultati indicano che aumentare semplicemente la dimensione del modello (es. da 7B a 32B) non risolve i problemi di TIMT. GLoTran ottiene risultati migliori con modelli più piccoli (8B) rispetto a modelli più grandi senza la strategia duale, suggerendo che la strategia di percezione è più efficace della semplice scalabilità.
Efficienza Computazionale:
- GLoTran raggiunge prestazioni elevate mantenendo un numero di token visivi basso (es. 4.9K token a 224x224) rispetto ai modelli che elaborano immagini ad alta risoluzione completa (che richiedono >160K token).
- Questo si traduce in una latenza inferiore e un costo computazionale drasticamente ridotto (fino a 215 volte meno FLOPs per scenari complessi) mantenendo o migliorando l'accuratezza.

5. Significatività e Contributi Chiave

Nuovo Paradigma per TIMT: GLoTran introduce un approccio che risolve il compromesso tra comprensione globale e dettaglio locale, affrontando direttamente le sfide delle immagini ad alta risoluzione e ricche di testo.
Dataset GLoD: La creazione di un dataset su larga scala specifico per l'addestramento duale (globale-locale) colma un vuoto nella ricerca, fornendo un benchmark essenziale per futuri sviluppi.
Efficienza e Qualità: Dimostra che è possibile ottenere traduzioni complete e accurate senza il costo proibitivo dell'elaborazione di immagini ad altissima risoluzione, rendendo la tecnologia TIMT più praticabile per applicazioni reali.
Robustezza: Il framework riduce significativamente omissioini, allucinazioni e errori di traduzione, garantendo una coerenza semantica superiore in scenari visivamente complessi.

In conclusione, il lavoro dimostra che integrare una percezione visiva duale guidata da istruzioni e supportata da un dataset dedicato è la chiave per sbloccare le vere potenzialità dei MLLM nella traduzione di immagini complesse.