ScribeTokens: Fixed-Vocabulary Tokenization of Digital Ink

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover insegnare a un robot a scrivere come fa un umano. Il robot non vede la carta, ma riceve un flusso continuo di coordinate (punti X e Y) che descrivono il movimento della penna. Il problema è: come si insegna a questo robot a capire e generare questi movimenti?

Il paper propone una soluzione rivoluzionaria chiamata ScribeTokens. Ecco come funziona, spiegato con metafore quotidiane.

1. Il Problema: La "Fiumana" di Coordinate

Fino a oggi, per insegnare a un computer a scrivere, si usavano due metodi principali, entrambi con grossi difetti:

Il metodo "Coordinate Continue" (Vector): È come dare al robot un elenco infinito di numeri decimali precisi (es. "muoviti di 0.0034 cm a destra, poi 0.0012 cm in giù").
- Il difetto: È come cercare di guidare un'auto guardando ogni singolo millimetro della strada. La sequenza è lunghissima, il computer si confonde, e quando prova a scrivere da solo (generazione), spesso finisce per fare un "disastro" matematico, producendo scarabocchi illeggibili.
Il metodo "Parole Chiave" (Token esistenti): Si prova a trasformare i movimenti in "parole" (token). Ma i metodi precedenti avevano due problemi: o usavano un vocabolario così grande da non riuscire a imparare tutto (come se dovessi imparare a memoria ogni possibile parola di un dizionario infinito), oppure, se il robot incontrava un movimento mai visto prima, si bloccava (errore "Out-of-Vocabulary").

2. La Soluzione: ScribeTokens (I "Mattoncini Lego" della Scrittura)

Gli autori hanno creato ScribeTokens, che è come smontare la scrittura in mattoncini Lego fondamentali.

Invece di dire al robot "scrivi una 'a' complessa", gli dicono: "muovi la penna un passo a destra, poi un passo in diagonale, poi alza la penna".

Ecco i tre segreti di ScribeTokens:

A. Il Vocabolario di 10 Parole (Il Kit Base)

Immagina di avere un set di 10 soli mattoncini:

8 direzioni: Su, giù, destra, sinistra e le 4 diagonali (come le frecce su una tastiera).
2 stati: "Penna giù" (sto scrivendo) e "Penna su" (sto alzando la mano per spostarmi).

Con solo questi 10 "mattoncini", puoi costruire qualsiasi lettera, numero o disegno al mondo. Non importa quanto sia complessa la scrittura: è sempre fatta di piccoli passi in queste direzioni.

Vantaggio: Non esiste il problema del "mattoncino mancante". Se il robot deve scrivere una forma strana, basta combinare i mattoncini che ha già.

B. La Compressione Magica (BPE)

Anche se i mattoncini sono pochi, scrivere una frase intera richiederebbe migliaia di passi (es. "destra, destra, destra..."). Sarebbe ancora troppo lungo.
Qui entra in gioco la compressione intelligente (chiamata BPE). È come se il robot imparasse a dire "tre passi a destra" invece di scrivere "destra, destra, destra".

Risultato: Il computer legge la frase molto più velocemente, ma mantiene la precisione dei singoli passi.

C. L'Indipendenza dal Campionamento

Se due persone scrivono la stessa "a" ma una lo fa molto veloce (molti punti) e l'altra lenta (pochi punti), i vecchi metodi vedevano due cose diverse.
ScribeTokens è come un traduttore universale: trasforma entrambi i movimenti nella stessa identica sequenza di mattoncini. Per il computer, è la stessa "a", indipendentemente da quanto velocemente è stata scritta.

3. I Risultati: Chi vince la gara?

Gli autori hanno fatto una gara tra i vecchi metodi e ScribeTokens su due compiti: Riconoscimento (leggere la scrittura) e Generazione (scrivere da soli).

Generazione (Scrivere): Qui ScribeTokens ha vinto a mani basse.
- L'analogia: I vecchi metodi (coordinate continue) erano come un bambino che cerca di disegnare guardando un foglio di numeri: finisce per fare un pasticcio (70% di errori). ScribeTokens è come un bambino che usa i mattoncini: sa esattamente come assemblarli per formare una lettera (solo 17% di errori).
- Conclusione: Per creare scrittura, i "mattoncini" (token) sono molto meglio dei "numeri continui".
Riconoscimento (Leggere):
- Senza allenamento extra, ScribeTokens è l'unico metodo a token che batte i vecchi metodi a coordinate.
- Il trucco finale (Pre-training): Gli autori hanno insegnato al robot un gioco prima della vera prova: "Indovina qual è il prossimo passo della penna".
  - È come se insegnessimo a un bambino a guardare un percorso e dire "dove andrà il prossimo passo?".
  - Questo ha reso il robot 83 volte più veloce a imparare a leggere e ha migliorato drasticamente i risultati, rendendo ScribeTokens il migliore in assoluto.

In Sintesi

ScribeTokens è come aver scoperto che, invece di descrivere un'opera d'arte con milioni di coordinate precise (che confondono il computer), è meglio descriverla come una sequenza di piccoli passi direzionali (su, giù, destra, sinistra).

È semplice (solo 10 regole base).
È robusto (non si blocca mai per forme strane).
È veloce (si comprime bene).
Funziona meglio di tutto il resto, specialmente quando si insegna al computer a "pensare" prima di scrivere o leggere.

È un po' come passare dal cercare di memorizzare ogni singola goccia d'acqua di un fiume (coordinate) all'imparare a riconoscere il flusso della corrente (i token direzionali).

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

Il "digital ink" (inchiostro digitale), ovvero il flusso di coordinate catturato da input di penna o touch, manca di una rappresentazione unificata ed efficace per i modelli di linguaggio moderni. Le attuali soluzioni presentano limiti significativi:

Rappresentazioni Vettoriali: Codificano l'inchiostro come sequenze di coordinate continue (es. $\Delta x, \Delta y$ ) con flag di stato della penna. Sebbene intuitive, generano sequenze molto lunghe, richiedono normalizzazioni complesse e, per la generazione, dipendono da Mixture Density Networks (MDN) che soffrono di instabilità durante l'addestramento e valori di verosimiglianza difficili da interpretare.
Rappresentazioni Token (esistenti): Approcci come AbsTokens o RelTokens discretizzano le coordinate. Tuttavia, soffrono di problemi di Out-of-Vocabulary (OOV) (coordinate non viste in fase di test), richiedono vocabolari di base enormi che scalano con la risoluzione del canvas, o possiedono una sintassi fragile dove sequenze malformate non decodificano in inchiostro valido. Inoltre, spesso performano peggio delle rappresentazioni vettoriali nei task di riconoscimento senza pre-addestramento.

2. Metodologia: ScribeTokens

Gli autori propongono ScribeTokens, un metodo di tokenizzazione che trasforma l'inchiostro digitale in una sequenza di token discreti con un vocabolario fisso e robusto.

Decomposizione in Passi Unitari: L'idea centrale è decomporre il movimento della penna in passi unitari tra pixel adiacenti su una griglia discreta.
- Si utilizza l'algoritmo di Bresenham per rasterizzare i segmenti di retta tra punti consecutivi dell'inchiostro.
- Ogni passo risultante viene codificato come uno di 8 token direzionali (basati sui codici a catena di Freeman: 4 cardinali e 4 diagonali).
- Si aggiungono 2 token di stato della penna: [DOWN] (penna giù) e [UP] (penna sollevata).
Vocabolario Fisso: Il vocabolario di base è composto da soli 10 token. Questo garantisce che non esistano problemi OOV per costruzione: qualsiasi percorso può essere scomposto in questi passi base.
Compressione BPE: Per gestire la lunghezza delle sequenze (dovuta alla granularità a livello di pixel), viene applicato il Byte-Pair Encoding (BPE) sui token direzionali. I token di stato ([UP], [DOWN]) non vengono mai fusi, preservando i confini delle tratti.
Invarianza al Campionamento: Poiché ScribeTokens codifica i percorsi piuttosto che i punti specifici, la rappresentazione è invariante rispetto al tasso di campionamento o alla densità dei punti, a differenza delle rappresentazioni vettoriali.
Pre-addestramento Self-Supervised: Viene introdotta la strategia di Next-Ink-Token Prediction (predizione del prossimo token di inchiostro) come obiettivo di pre-addestramento. Questo forza il modello a imparare le relazioni spaziali e la composizione dei tratti prima del fine-tuning sui task specifici.

3. Contributi Chiave

ScribeTokens: Una tokenizzazione canonica, priva di OOV, con un vocabolario fisso di 10 token e una sintassi robusta (ogni sequenza di token decodifica in inchiostro valido). È l'unica rappresentazione tokenizzata che supera le vettoriali nel riconoscimento senza pre-addestramento.
Efficacia del Pre-addestramento: Dimostrano che la predizione del prossimo token di inchiostro è una strategia di pre-addestramento estremamente efficace, migliorando costantemente il riconoscimento e accelerando la convergenza fino a 83 volte.
Risultati Sperimentali: Con il pre-addestramento, ScribeTokens ottiene i migliori risultati di riconoscimento su entrambi i dataset testati e i migliori risultati di generazione in scenari con dati limitati.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su due dataset: IAM (frasi complete, sequenze lunghe, dati limitati) e DeepWriting (parole singole, più dati).

Riconoscimento di Testo Scritto a Mano (HTR):
- Senza pre-addestramento: ScribeTokens supera i vettori (Point-5) su DeepWriting, ma Point-5 è leggermente migliore su IAM.
- Con pre-addestramento: ScribeTokens + PT raggiunge il 8.27% CER su IAM e 9.83% CER su DeepWriting, superando tutte le altre rappresentazioni (vettoriali e token).
- Nota interessante: Il pre-addestramento degrada le prestazioni di Point-5 (vettori), suggerendo che l'obiettivo di predizione del prossimo token è troppo "superficiale" per le coordinate continue, mentre è ideale per i token discreti che richiedono comprensione composizionale.
Generazione di Testo Scritto a Mano (HTG):
- Le rappresentazioni tokenizzate sono molto più efficaci dei vettori per la generazione.
- Senza pre-addestramento, Point-5 fallisce quasi completamente su IAM (70.29% CER), mentre ScribeTokens ottiene il 17.33%.
- Con pre-addestramento, ScribeTokens + PT ottiene il 10.45% CER su IAM, il miglior risultato assoluto.
Velocità di Convergenza:
- Il pre-addestramento riduce drasticamente gli epoch necessari per convergere. Su IAM, ScribeTokens richiede solo 1 epoch di fine-tuning per raggiungere la loss di base (un'accelerazione di 83x rispetto all'addestramento da zero).
Analisi dell'Attenzione:
- L'analisi mostra che i modelli pre-addestrati spostano la loro attenzione quasi interamente (fino al 91.2%) sul segnale dell'inchiostro, imparando a "leggere" la penna invece di affidarsi a pattern di testo memorizzati. I modelli senza pre-addestramento (specialmente TextTokens) tendono a collassare in modelli linguistici, ignorando l'input grafico.

5. Significato e Conclusioni

Il lavoro di ScribeTokens risolve il problema fondamentale della rappresentazione dell'inchiostro digitale per i Transformer moderni.

Unificazione: Fornisce un linguaggio comune che permette di applicare le tecniche di successo dell'NLP (come BPE e pre-addestramento self-supervised) alla scrittura a mano.
Efficienza: Elimina la necessità di vocabolari enormi e gestisce l'OOV in modo nativo.
Superiorità nella Generazione: Dimostra che per la generazione, la discretizzazione in token è superiore alla modellazione continua vettoriale, evitando l'instabilità delle MDN.
Impatto sul Pre-addestramento: Stabilisce che il pre-addestramento su task di predizione del prossimo token è cruciale per i modelli basati su token, trasformando un problema di "cold-start" (embedding casuali senza significato spaziale) in una rappresentazione geometrica solida.

In sintesi, ScribeTokens offre un nuovo standard per la modellazione dell'inchiostro digitale, combinando robustezza sintattica, compressione efficiente e prestazioni state-of-the-art sia nel riconoscimento che nella generazione.

ScribeTokens: Fixed-Vocabulary Tokenization of Digital Ink

1. Il Problema: La "Fiumana" di Coordinate

2. La Soluzione: ScribeTokens (I "Mattoncini Lego" della Scrittura)

A. Il Vocabolario di 10 Parole (Il Kit Base)

B. La Compressione Magica (BPE)

C. L'Indipendenza dal Campionamento

3. I Risultati: Chi vince la gara?

In Sintesi

1. Il Problema

2. Metodologia: ScribeTokens

3. Contributi Chiave

4. Risultati Sperimentali

5. Significato e Conclusioni

Articoli simili

Unified Multimodal Models as Auto-Encoders

CL4SE: A Context Learning Benchmark For Software Engineering Tasks

CRAFT: Cost-aware Expert Replica Allocation with Fine-Grained Layerwise Estimations

Spark-LLM-Eval: A Distributed Framework for Statistically Rigorous Large Language Model Evaluation

ZEUS: An Efficient GPU Optimization Method Integrating PSO, BFGS, and Automatic Differentiation