Formally Verified Linear-Time Invertible Lexing

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un traduttore magico che legge un testo scritto in una lingua complessa (come il codice di un computer) e lo trasforma in una serie di "mattoncini" ordinati, chiamati token. Questo è ciò che fa un "lexer" (analizzatore lessicale) nei programmi che scrivono software.

Il problema è che, finora, questi traduttori erano spesso "scatole nere": funzionavano bene, ma non potevamo essere certi al 100% che non commettessero errori, e soprattutto, non potevamo essere sicuri che se avessimo ricostruito il testo dai mattoncini, sarebbe tornato esattamente come prima.

Gli autori di questo articolo, Samuel Chassot e Viktor Kunčak, hanno creato ZipLex, un nuovo traduttore che risolve questi problemi in modo rivoluzionario. Ecco come funziona, spiegato con delle metafore semplici:

1. Il Problema del "Gioco del Telefono Senza Fili"

Immagina di giocare al telefono senza fili: dici una frase, la passi al vicino, e così via. Spesso la frase finale è diversa dall'originale.
Nel mondo dei computer, succede qualcosa di simile quando un programma modifica il codice (ad esempio, un IDE che riorganizza il codice o un compilatore).

Il vecchio problema: Se il traduttore (lexer) leggeva val x = 1 e lo trasformava in mattoncini, poi un altro programma riordinava i mattoncini e li rimetteva insieme, il risultato poteva diventare val x=1 (senza spazi). Quando il traduttore rileggeva val x=1, poteva interpretarlo diversamente (ad esempio, pensando che x= fosse un unico nome strano), rompendo il gioco.
La soluzione ZipLex: ZipLex garantisce che il processo sia invertibile. È come avere un traduttore che, quando rimette insieme i mattoncini, produce esattamente la stessa stringa di partenza, senza perdere nemmeno un singolo spazio o carattere. È come se avessi una macchina del tempo: trasformi il testo in mattoncini e poi li rimetti insieme, e il testo è identico all'originale.

2. La Regola del "Boccone più Grande" (Longest Match)

I traduttori devono seguire una regola d'oro: "Mangia il boccone più grande possibile".

Esempio: Se vedi 123, il traduttore non deve dire "ecco un 1, ecco un 2, ecco un 3". Deve dire "ecco un numero intero: 123".
La sfida: Fare questo in modo veloce e sicuro è difficile. Se il traduttore è troppo lento, il computer si blocca. Se è troppo veloce ma sbaglia, il software si rompe.
ZipLex: Usa una tecnica matematica avanzata (chiamata "derivate di Brzozowski") combinata con un trucco intelligente chiamato memoizzazione.
- Metafora della Memoizzazione: Immagina di dover calcolare la somma di una lista di numeri ogni volta che qualcuno te lo chiede. Sarebbe lento. ZipLex, invece, ha un quaderno magico. Se qualcuno gli chiede di calcolare la somma di 1+2+3, lui lo fa, lo scrive sul quaderno e la volta successiva, se gli chiedono la stessa cosa, guarda solo il quaderno invece di rifare il calcolo. Questo lo rende velocissimo (tempo lineare), anche con testi lunghissimi.

3. I "Mattoncini Separabili" (Separability)

Come fa ZipLex a sapere che i mattoncini non si fonderanno insieme quando li rimetti insieme?

L'analogia: Immagina di avere una fila di persone (i token). Se due persone si toccano, potrebbero fondersi in una sola entità strana. ZipLex introduce una regola: "Due persone possono stare vicine solo se c'è una barriera invisibile tra loro che impedisce loro di fondersi".
In termini tecnici, ZipLex controlla che tra un token e l'altro ci sia una "separabilità" garantita. Se provi a unire due pezzi che non rispettano questa regola, il sistema ti avvisa o li separa automaticamente. Questo garantisce che quando rimetti insieme il testo, ogni parola rimanga una parola distinta.

4. Perché è speciale? (Verifica Formale)

La cosa più incredibile di ZipLex non è solo che funziona, ma che è stato provato matematicamente che funziona.

Gli autori non hanno solo scritto il codice e sperato che funzionasse. Hanno usato un assistente matematico chiamato Stainless (un "super-matematico" al computer) per leggere ogni singola riga di codice e dimostrare che non ci sono errori.
È come se avessi costruito un ponte e, invece di provarlo con un camion, avessi fatto calcolare a un supercomputer che la fisica garantisce che non crollerà mai, sotto qualsiasi peso.

5. Risultati Pratici

Velocità: ZipLex è incredibilmente veloce. È 100 volte più veloce di un altro traduttore verificato chiamato Verbatim++ e gestisce testi enormi senza impallarsi, cosa che altri traduttori verificati non riescono a fare.
Utilità: Funziona bene con linguaggi reali come JSON (il formato usato per scambiare dati sul web) e può essere usato per costruire compilatori sicuri o strumenti di sviluppo che non perdono mai informazioni.

In sintesi

ZipLex è come un architetto di mattoncini perfetto. Prende un muro di mattoni (il testo), lo smonta in pezzi ordinati (i token) e, se qualcuno lo rimonta, garantisce al 100% che il muro finale sia identico a quello originale, senza mattoni persi o fusi. Inoltre, lo fa così velocemente che non noti nemmeno la differenza rispetto ai traduttori non verificati, ma con la sicurezza assoluta che nessun errore matematico possa mai nascere.

È un passo avanti enorme per rendere il software più sicuro, affidabile e "trasparente" per tutti noi.

Each language version is independently generated for its own context, not a direct translation.

Ecco un riassunto tecnico dettagliato del paper "Formally Verified Linear-Time Invertible Lexing" in italiano.

Titolo: Analisi Lessicale Invertibile a Tempo Lineare Formalmente Verificata (ZipLex)

Autori: Samuel Chassot e Viktor Kunčak (EPFL, Svizzera)
Strumento di Verifica: Stainless (verificatore deduttivo per Scala)

1. Il Problema

L'analisi lessicale (lexing) è il primo passo fondamentale nei compilatori e negli strumenti di analisi dati. Sebbene esistano generatori di lexer verificati formalmente (come Coqlex e Verbatim++), questi presentano due limitazioni principali:

Mancanza di Invertibilità: In molti scenari (refactoring in IDE, sintesi di programmi, pretty-printing), è necessario stampare una sequenza di token per ottenere una stringa che, se analizzata nuovamente, restituisca esattamente la stessa sequenza di token. I lexer esistenti non garantiscono formalmente questa proprietà (invertibilità), rischiando la perdita silenziosa di informazioni (es. a causa della fusione di token adiacenti o della gestione dello spazio bianco).
Complessità Temporale: Alcuni approcci verificati soffrono di complessità quadratica nel caso peggiore o richiedono overhead di pre-elaborazione significativi, rendendoli meno pratici per applicazioni reali su larga scala.

Il problema centrale affrontato è: come supportare la stampa e l'analisi lessicale garantendo formalmente che nessuna informazione vada persa, mantenendo al contempo una complessità temporale lineare?

2. Metodologia e Design

Gli autori hanno sviluppato ZipLex, un framework che combina diverse innovazioni teoriche e pratiche:

A. Invertibilità e Token Separabili

Per garantire che lex(print(ts)) = ts, il sistema introduce il concetto di token separabili.

Condizione di Separabilità (sep): Viene definita una relazione locale tra due token adiacenti $t_1$ e $t_2$ . Due token sono separabili se il primo carattere di $t_2$ è sufficiente a garantire che $t_1$ rimanga il token più lungo possibile (longest match) nella stringa stampata, indipendentemente dai token successivi.
Predicati R-Path: La separabilità è modellata come un predicato su percorsi (R-Path), dove la relazione deve valere per ogni coppia di elementi consecutivi. Questo permette di verificare la separabilità in modo efficiente:
- Lo slicing (taglio) di una sequenza separabile preserva la proprietà.
- La concatenazione richiede solo un controllo costante al confine tra le due sequenze.
Astrazione PrintableTokens: Un tipo di dato che mantiene l'invariante di separabilità, permettendo manipolazioni efficienti (ordinamento, slicing) senza dover riscontrollare l'intera sequenza ogni volta.

B. Motore di Espressioni Regolari e Ottimizzazioni

Derivate di Brzozowski: Il motore di matching si basa sulle derivate di Brzozowski per la semantica di "longest match".
Zippers di Huet: Per evitare l'esplosione delle espressioni e i calcoli ridondanti tipici delle derivate naive, ZipLex utilizza una rappresentazione basata sugli Zippers (insiemi di contesti). Questa struttura rende l'insieme dei derivati raggiungibili finito, facilitando la memoizzazione.
Gestione dell'Alfabeto: Il sistema è generico rispetto al tipo di alfabeto (ASCII, UTF-8, binario), operando su sequenze di tipi arbitrari.

C. Memoizzazione Verificata per Tempo Lineare

Per raggiungere la complessità $O(n)$ , ZipLex implementa una memoizzazione verificata:

Utilizza una tabella hash mutabile verificata (LongMap di Scala, estesa a chiavi generiche) per memorizzare i risultati delle derivate e dei calcoli di matching.
Viene implementato un algoritmo ricorsivo in coda (tail-recursive) per trovare il prefisso più lungo, evitando lo stack overflow sulla JVM.
La memoizzazione è applicata sia alle funzioni di derivata degli zippers sia al calcolo del prefisso più lungo, garantendo che ogni carattere dell'input venga processato in tempo costante ammortizzato.

D. Strategia di Verifica

Il codice è scritto in Scala e verificato con Stainless. La metodologia segue un approccio di raffinamento:

Implementazione iniziale semplice e inefficiente (ma facilmente verificabile) basata su liste.
Sostituzione progressiva con strutture dati efficienti (BalanceConc, Zippers) e ottimizzazioni (memoizzazione), dimostrando l'equivalenza osservazionale con la versione di riferimento ad ogni passo.
Uso di funzioni "ghost" e quantificatori espliciti per gestire le proprietà di iniettività nelle trasformazioni token-stringa.

3. Contributi Chiave

Definizione Formale di Invertibilità: Una definizione rigorosa di invertibilità per l'analisi lessicale, con condizioni di separabilità (sep) verificabili e preservabili efficientemente.
Framework ZipLex: Un lexer completamente verificato che supporta:
- Semantica di longest match.
- Definizione di token tramite espressioni regolari.
- Stampa invertibile (invertible printing).
- Complessità temporale lineare grazie alla memoizzazione verificata.
Implementazione Efficiente: Uso di Zippers e memoizzazione su tabelle hash mutabili per ottenere prestazioni pratiche senza sacrificare la correttezza formale.
Valutazione delle Prestazioni: Dimostrazione che l'invertibilità e la verifica formale non comportano costi proibitivi rispetto alle soluzioni non verificate o meno complete.

4. Risultati Sperimentali

Gli autori hanno valutato ZipLex su scenari reali (JSON) e casi patologici (grammatiche avversarie).

Complessità Temporale:
- Su grammatiche avversarie (es. regole $r_1=a$ e $r_2=a^*b$ ), i lexer naive e Coqlex mostrano comportamento quadratico. Verbatim++ va in stack overflow. ZipLex mantiene un comportamento lineare ( $O(n)$ ) grazie alla memoizzazione.
- Su input di 30 milioni di caratteri, ZipLex scala linearmente.
Confronto Prestazionale:
- ZipLex è circa 8 volte più lento di Coqlex (che non verifica l'invertibilità e usa strutture diverse), ma è due ordini di grandezza (100x) più veloce di Verbatim++.
- Rispetto a OCamllex (non verificato), ZipLex offre garanzie di invertibilità e linearità con un overhead accettabile per applicazioni critiche.
Overhead di Invertibilità: Il costo di calcolo del predicato di separabilità (sep) è minimo, specialmente quando la cache delle derivate è già popolata durante il lexing. L'uso di PrintableTokens rende la ricombinazione di sequenze di token un'operazione lineare rispetto al numero di slice, non di token.

5. Significato e Impatto

Questo lavoro rappresenta un passo avanti significativo nell'ingegneria del software verificata:

Primo Lexer Invertibile Verificato: È il primo lexer che fornisce prove formali di invertibilità per la stampa di sequenze di token, abilitando scenari come il refactoring sicuro e la sintesi di programmi.
Efficienza Pratica: Dimostra che algoritmi complessi e formalmente verificati (come la memoizzazione su strutture mutabili) possono essere implementati in linguaggi moderni (Scala) con prestazioni competitive per l'uso reale.
Fiducia nei Compilatori: Offre un componente critico (il lexer) che può essere integrato in pipeline di compilazione completamente verificate (es. compilatori verificati), eliminando la necessità di considerare il lexer come "trusted computing base" non verificato.

In sintesi, ZipLex colma il divario tra la teoria della verifica formale e le esigenze pratiche delle applicazioni di elaborazione del linguaggio, garantendo che l'analisi e la generazione del codice siano operazioni perfettamente reversibili e sicure.