N-gram Injection into Transformers for Dynamic Language Model Adaptation in Handwritten Text Recognition

Il paper propone un metodo di iniezione esterna di n-grammi (NGI) nei decoder dei transformer per adattare dinamicamente il modello linguistico durante l'inferenza, migliorando significativamente il riconoscimento del testo scritto a mano su domini linguistici diversi senza richiedere un addestramento aggiuntivo su dati target.

Florent Meyer, Laurent Guichard, Denis Coquenet, Guillaume Gravier, Yann Soullard, Bertrand Coüasnon

Pubblicato 2026-03-05
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un segretario molto intelligente (il nostro modello di intelligenza artificiale) che ha passato anni a leggere e copiare migliaia di lettere scritte a mano da persone che vivono in un piccolo villaggio di campagna. Questo segretario è diventato bravissimo a capire quella specifica calligrafia e quel modo di parlare: sa che lì tutti usano parole semplici, nomi di contadini e frasi fatte in dialetto.

Ora, immagina che questo segretario venga assunto per leggere le buste di un'azienda internazionale. Qui le persone scrivono nomi complessi, indirizzi strani e usano un linguaggio molto diverso.

Il problema:
Quando il segretario prova a leggere queste nuove buste, va in tilt. Non perché non sa leggere la calligrafia (che è simile), ma perché il suo "cervello linguistico" è troppo abituato al villaggio. Si aspetta di vedere parole che non ci sono e si blocca su quelle che non si aspetta. In termini tecnici, c'è uno spostamento linguistico: il linguaggio di addestramento (villaggio) è diverso da quello di destinazione (azienda).

La soluzione proposta nel paper:
Gli autori (Meyer e colleghi) hanno inventato un trucco geniale chiamato NGI (Iniezione di N-grammi). Ecco come funziona, spiegato con un'analogia:

Immagina che il segretario, mentre legge una parola, abbia accanto un vecchio saggio (il modello statistico n-gram) che gli sussurra all'orecchio: "Ehi, dopo la parola 'Mario', è molto probabile che venga 'Rossi', e non 'Pinguino'!".

  1. Il Segretario (Transformer): È il modello principale che guarda l'immagine della scrittura. È bravo a vedere i tratti, ma tende a fare errori se il linguaggio cambia.
  2. Il Saggio (N-gram): È una semplice lista di probabilità calcolata su un testo di esempio (ad esempio, un elenco di nomi e cognomi reali). Non è un'intelligenza artificiale complessa, è solo statistica pura: "Se vedo X, è probabile che venga Y".
  3. L'Iniezione (NGI): Invece di far correggere al saggio il lavoro dopo che è stato finito (come fanno i vecchi metodi di post-processing), gli autori fanno in modo che il saggio sussuri all'orecchio del segretario mentre sta ancora scrivendo.
    • Il segretario ascolta il saggio mentre sta decidendo la lettera successiva.
    • Se la scrittura è ambigua (es. una "l" che sembra una "i"), il saggio dice: "In questo contesto, è più probabile che sia una 'i'".
    • Il segretario impara a fidarsi di questo sussurro quando serve.

Perché è speciale?

  • Nessuna ri-palestra: Di solito, per adattare un'intelligenza artificiale a un nuovo compito, devi fargli fare nuovi esercizi (addestramento) con nuovi dati. Qui, invece, puoi cambiare il "saggio" all'ultimo minuto! Se domani devi leggere buste di un altro paese, cambi solo il sussurro del saggio (il modello n-gram) senza toccare il cervello del segretario.
  • Flessibilità: Il sistema impara a bilanciare ciò che vede (l'immagine) e ciò che gli viene suggerito (il linguaggio). Se la scrittura è chiara, ignora il sussurro; se è confusa, ascolta il saggio.
  • Leggerezza: Il "saggio" è un modello statistico molto piccolo e veloce da calcolare, a differenza di altre intelligenze artificiali pesanti che richiederebbero computer enormi.

Il risultato:
Hanno provato questo metodo su tre diversi tipi di documenti scritti a mano. Risultato? Il segretario, che prima sbagliava il 30% delle volte quando cambiava il tipo di documento, ora sbaglia molto meno (a volte dimezzando gli errori), semplicemente ascoltando il sussurro giusto al momento giusto.

In sintesi:
Hanno creato un sistema che permette a un'IA di adattarsi istantaneamente a nuovi modi di parlare o scrivere, senza doverla riaddestrare da zero, semplicemente dandole un "promemoria statistico" aggiornato in tempo reale. È come dare a un traduttore un dizionario specifico per il settore che sta traducendo in quel preciso momento, invece di costringerlo a imparare tutto a memoria.