N-gram Injection into Transformers for Dynamic Language Model Adaptation in Handwritten Text Recognition

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un segretario molto intelligente (il nostro modello di intelligenza artificiale) che ha passato anni a leggere e copiare migliaia di lettere scritte a mano da persone che vivono in un piccolo villaggio di campagna. Questo segretario è diventato bravissimo a capire quella specifica calligrafia e quel modo di parlare: sa che lì tutti usano parole semplici, nomi di contadini e frasi fatte in dialetto.

Ora, immagina che questo segretario venga assunto per leggere le buste di un'azienda internazionale. Qui le persone scrivono nomi complessi, indirizzi strani e usano un linguaggio molto diverso.

Il problema:
Quando il segretario prova a leggere queste nuove buste, va in tilt. Non perché non sa leggere la calligrafia (che è simile), ma perché il suo "cervello linguistico" è troppo abituato al villaggio. Si aspetta di vedere parole che non ci sono e si blocca su quelle che non si aspetta. In termini tecnici, c'è uno spostamento linguistico: il linguaggio di addestramento (villaggio) è diverso da quello di destinazione (azienda).

La soluzione proposta nel paper:
Gli autori (Meyer e colleghi) hanno inventato un trucco geniale chiamato NGI (Iniezione di N-grammi). Ecco come funziona, spiegato con un'analogia:

Immagina che il segretario, mentre legge una parola, abbia accanto un vecchio saggio (il modello statistico n-gram) che gli sussurra all'orecchio: "Ehi, dopo la parola 'Mario', è molto probabile che venga 'Rossi', e non 'Pinguino'!".

Il Segretario (Transformer): È il modello principale che guarda l'immagine della scrittura. È bravo a vedere i tratti, ma tende a fare errori se il linguaggio cambia.
Il Saggio (N-gram): È una semplice lista di probabilità calcolata su un testo di esempio (ad esempio, un elenco di nomi e cognomi reali). Non è un'intelligenza artificiale complessa, è solo statistica pura: "Se vedo X, è probabile che venga Y".
L'Iniezione (NGI): Invece di far correggere al saggio il lavoro dopo che è stato finito (come fanno i vecchi metodi di post-processing), gli autori fanno in modo che il saggio sussuri all'orecchio del segretario mentre sta ancora scrivendo.
- Il segretario ascolta il saggio mentre sta decidendo la lettera successiva.
- Se la scrittura è ambigua (es. una "l" che sembra una "i"), il saggio dice: "In questo contesto, è più probabile che sia una 'i'".
- Il segretario impara a fidarsi di questo sussurro quando serve.

Perché è speciale?

Nessuna ri-palestra: Di solito, per adattare un'intelligenza artificiale a un nuovo compito, devi fargli fare nuovi esercizi (addestramento) con nuovi dati. Qui, invece, puoi cambiare il "saggio" all'ultimo minuto! Se domani devi leggere buste di un altro paese, cambi solo il sussurro del saggio (il modello n-gram) senza toccare il cervello del segretario.
Flessibilità: Il sistema impara a bilanciare ciò che vede (l'immagine) e ciò che gli viene suggerito (il linguaggio). Se la scrittura è chiara, ignora il sussurro; se è confusa, ascolta il saggio.
Leggerezza: Il "saggio" è un modello statistico molto piccolo e veloce da calcolare, a differenza di altre intelligenze artificiali pesanti che richiederebbero computer enormi.

Il risultato:
Hanno provato questo metodo su tre diversi tipi di documenti scritti a mano. Risultato? Il segretario, che prima sbagliava il 30% delle volte quando cambiava il tipo di documento, ora sbaglia molto meno (a volte dimezzando gli errori), semplicemente ascoltando il sussurro giusto al momento giusto.

In sintesi:
Hanno creato un sistema che permette a un'IA di adattarsi istantaneamente a nuovi modi di parlare o scrivere, senza doverla riaddestrare da zero, semplicemente dandole un "promemoria statistico" aggiornato in tempo reale. È come dare a un traduttore un dizionario specifico per il settore che sta traducendo in quel preciso momento, invece di costringerlo a imparare tutto a memoria.

Each language version is independently generated for its own context, not a direct translation.

Titolo: Iniezione di n-grammi nei Transformer per l'adattamento dinamico del modello linguistico nel riconoscimento di testo scritto a mano (HTR)

Autori: Florent Meyer, Laurent Guichard, Yann Soullard, Denis Coquenet, Guillaume Gravier, Bertrand Coüasnon.

1. Il Problema: Lo Spostamento della Distribuzione Linguistica (Language Shift)

Il riconoscimento del testo scritto a mano (HTR) ha fatto passi da gigante grazie alle architetture Encoder-Decoder basate su Transformer, che utilizzano un decoder auto-regressivo per modellare implicitamente il linguaggio. Tuttavia, questi modelli soffrono di un grave problema di bias linguistico:

Ipotesi non realistica: La maggior parte dei sistemi assume che i dati di addestramento (sorgente) e di test (target) seguano la stessa distribuzione linguistica (i.i.d.).
Realtà industriale: In scenari reali (es. moduli amministrativi, documenti storici), la distribuzione linguistica del testo target può differire significativamente da quella di addestramento (es. cambio di vocabolario, sintassi diversa), anche se lo stile grafico della scrittura rimane simile.
Conseguenze: Quando la distribuzione linguistica cambia, si verifica un crollo delle prestazioni (aumento del Character Error Rate - CER). I modelli imparano le regole della lingua sorgente e falliscono nel generalizzare su testi target con distribuzioni diverse, portando a un aumento della perplessità ( $PPL$ ) e a errori di riconoscimento inaccettabili.

2. Metodologia: N-gram Injection (NGI)

Gli autori propongono un metodo leggero e dinamico chiamato N-gram Injection (NGI) per adattare il modello linguistico del decoder durante l'inferenza, senza bisogno di ri-addestrare il modello su coppie immagine-testo target.

Architettura di Base: Word Attention Network (WAN)

Per validare il metodo, gli autori introducono il WAN, un modello Encoder-Decoder leggero:

Encoder: Una Fully Convolutional Network (FCN) per l'estrazione di caratteristiche visive.
Decoder: Un piccolo Transformer auto-regressivo.
Obiettivo: Essere sufficientemente leggero da essere addestrato su dataset limitati, ma abbastanza potente da beneficiare dell'iniezione di conoscenza esterna.

Meccanismo di Iniezione (NGI)

L'idea centrale è iniettare le probabilità di un modello linguistico esterno (n-grammi) direttamente nell'input del decoder Transformer, invece di usarlo solo per il post-processing.

Preparazione degli N-grammi: Si calcolano le distribuzioni di probabilità degli n-grammi (a livello di carattere) basati su un corpus di testo target (non immagini).
Iniezione Precoce: Al passo di decodifica $t$ $t$ , il vettore di distribuzione degli n-grammi ( $s^{NGI}_t$ $s_{t}^{N G I}$ ) viene:
- Rumoreggiato: Aggiunta di rumore bianco per evitare l'overfitting sui vettori sorgente e migliorare l'adattabilità a nuovi n-grammi target.
- Proiettato: Trasformato tramite un layer feed-forward ( $f$ ).
- Somma: Aggiunto agli embedding dei caratteri precedentemente previsti e alla codifica posizionale.
- Formula: $X = f(\phi(S^{NGI})) + \xi(c) + P$
Adattamento Dinamico: Il network impara a bilanciare autonomamente l'importanza delle informazioni visive (encoder) e delle informazioni linguistiche esterne (n-grammi) durante l'addestramento.
Vantaggio Chiave: Al momento del test, è possibile scambiare dinamicamente l'n-gramma utilizzato (ad esempio, passando da un n-gramma basato su "francese amministrativo" a uno basato su "nomi e cognomi") semplicemente cambiando il vettore di input, senza toccare i pesi del modello.

3. Contributi Chiave

Metodo di Adattamento Dinamico: NGI permette di mitigare il bias linguistico senza richiedere dati target etichettati (image-text pairs), sfruttando solo dati testuali non accoppiati.
Iniezione Precoce vs Post-Processing: A differenza dei metodi tradizionali di re-scoring (che esplorano grandi grafi di ricerca con alto costo computazionale), NGI integra le informazioni linguistiche direttamente nel processo di decodifica, permettendo al modello di "imparare" a usare il LM in modo contestuale.
Architettura WAN: Introduzione di un modello leggero specifico per la parola, ottimizzato per l'iniezione di NGI.
Dataset Personalizzati: Creazione di split personalizzati sui dataset IAM (inglese) e RIMES (francese) e un dataset industriale privato (N2S) per esacerbare lo spostamento linguistico e testare la robustezza.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su tre dataset (IAM, RIMES, N2S) confrontando WAN, WAN+NGI e modelli SOTA (TrOCR, DAN, SaLT).

Gap di Prestazioni: Senza NGI, tutti i modelli mostrano un drastico peggioramento del CER quando si passa dal test set sorgente a quello target (es. su RIMES k-means, il CER sale da ~4% a ~30% per i modelli SOTA).
Efficacia di NGI:
- L'iniezione NGI riduce significativamente il gap di prestazioni. Su RIMES (split k-means), il CER target scende da 29.9% (WAN base) a 19.2% (WAN+NGI).
- Su IAM (split k-means), il CER scende da 23.4% a 10.1%.
- Le prestazioni sul set sorgente vengono mantenute o migliorate leggermente.
Confronto con Post-Processing: L'uso combinato di NGI e un LM di post-processing (WAN+NGI+LM) ottiene i risultati migliori, ma NGI da solo è già molto efficace e molto più efficiente computazionalmente rispetto al re-scoring su reticoli.
Ablation Study:
- La rimozione del rumore durante l'addestramento peggiora leggermente le prestazioni (overfitting).
- La rimozione della strategia Teacher Forcing Error (TFE) riduce la capacità di generalizzazione.
- L'uso di n-grammi di ordine inferiore (2 o 3) peggiora le prestazioni, confermando che un ordine $n=5$ offre il miglior compromesso.

5. Significato e Implicazioni

Robustezza Industriale: Il metodo è particolarmente rilevante per applicazioni reali (es. riconoscimento di nomi e cognomi su moduli) dove il vocabolario target può cambiare rapidamente e non è possibile raccogliere nuovi dati etichettati.
Efficienza: NGI offre un adattamento dinamico a costi computazionali minimi (inferenza degli n-grammi molto veloce) rispetto ai modelli linguistici neurali esterni pesanti o al re-scoring su reticoli.
Futuro: Il framework è progettato per essere compatibile con modelli linguistici neurali esterni in futuro, aprendo la strada a trasferimenti cross-lingua più complessi.

In sintesi, il paper dimostra che l'iniezione esplicita e dinamica di modelli linguistici statistici (n-grammi) all'interno dell'architettura del decoder Transformer è una soluzione efficace ed efficiente per superare il problema dello spostamento della distribuzione linguistica nel riconoscimento di testo scritto a mano.

N-gram Injection into Transformers for Dynamic Language Model Adaptation in Handwritten Text Recognition

Titolo: Iniezione di n-grammi nei Transformer per l'adattamento dinamico del modello linguistico nel riconoscimento di testo scritto a mano (HTR)

1. Il Problema: Lo Spostamento della Distribuzione Linguistica (Language Shift)

2. Metodologia: N-gram Injection (NGI)

Architettura di Base: Word Attention Network (WAN)

Meccanismo di Iniezione (NGI)

3. Contributi Chiave

4. Risultati Sperimentali

5. Significato e Implicazioni

Articoli simili

M-RAG: Making RAG Faster, Stronger, and More Efficient

Bridge-RAG: An Abstract Bridge Tree Based Retrieval Augmented Generation Algorithm With Cuckoo Filter

ReCQR: Incorporating conversational query rewriting to improve Multimodal Image Retrieval

SRAG: RAG with Structured Data Improves Vector Retrieval

Sommelier: Scalable Open Multi-turn Audio Pre-processing for Full-duplex Speech Language Models