Formally Verified Linear-Time Invertible Lexing

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een heel lange, rommelige tekst hebt, zoals een recept of een computerprogramma. De eerste stap om dit te begrijpen, is het opsplitsen in kleine, betekenisvolle stukjes: woorden, cijfers en leestekens. In de programmeertaal noemen we dit lexing (of het "lexen" van tekst).

Dit klinkt simpel, maar voor computers is het lastig. Stel je voor dat je een tekst hebt met de zin val x = 1. Als je de spaties verwijdert en schrijft valx=1, denkt de computer misschien dat valx één groot woord is, terwijl het eigenlijk drie aparte dingen zijn: val, x en =.

De onderzoekers van deze paper (Samuel Chassot en Viktor Kunčak van de EPFL in Zwitserland) hebben een nieuw systeem gebouwd genaamd ZipLex. Ze hebben dit systeem zo ontworpen dat het niet alleen foutloos werkt, maar ook een heel speciale eigenschap heeft: het is omkeerbaar.

Hier is hoe het werkt, uitgelegd met een paar simpele analogieën:

1. De "Magische Lego-doos" (Omkeerbaarheid)

Stel je voor dat je een set Lego-blokjes hebt.

Standaard systeem: Je bouwt een kasteel (de tekst) en haalt het dan uit elkaar in losse blokjes (de tokens). Als je later probeert het kasteel weer te bouwen, kan het zijn dat je een blokje mist of dat je een ander blokje gebruikt. Het resultaat is misschien niet 100% hetzelfde als het origineel.
ZipLex: Dit systeem is als een magische Lego-doos. Als je een kasteel uit elkaar haalt in blokjes, en je bouwt het daarna weer in elkaar, krijg je exact hetzelfde kasteel terug, tot op het kleinste detail.

In de programmeerwereld betekent dit: als je een tekst omzet in tokens (blokjes) en die tokens weer terugzet in tekst, krijg je precies dezelfde tekst als je die opnieuw in tokens omzet. Er gaat geen informatie verloren. Dit is cruciaal voor tools die code herschrijven of formatteren, zodat ze nooit per ongeluk een fout inbrengen.

2. De "Snelheids-Express" (Lineaire tijd)

Veel oude systemen om tekst te lezen zijn traag als de tekst heel lang wordt. Het is alsof je een trein hebt die bij elke nieuwe stationstop (elk nieuw teken) alle vorige stations opnieuw moet controleren om te zien of hij ergens vastloopt. Bij een heel lange tekst duurt dit eeuwen (kwadratische tijd).

ZipLex gebruikt een slimme truc genaamd memoization (onthouden).

Analogie: Stel je voor dat je een lange wandeling maakt. In plaats van elke keer opnieuw te rekenen hoe ver je bent, schrijf je op een kaartje: "Bij boom #50 ben ik 10 minuten verder". Als je terugkomt bij boom #50, hoef je niet opnieuw te rekenen; je kijkt gewoon op je kaartje.
Dankzij deze "kaartjes" (en een zeer snelle, bewezen geheugenbank) kan ZipLex een tekst van elke lengte lezen in een tijd die recht evenredig is met de lengte. Het is een rechtlijnige express, geen omzwervende wandeling.

3. De "Wachtrij met Checkpoint" (Scheiding van tokens)

Een groot probleem is: hoe weet je waar één woord eindigt en het volgende begint als je ze weer samenvoegt?

Analogie: Stel je hebt twee woorden: cat en dog. Als je ze samenvoegt tot catdog, is dat duidelijk. Maar wat als je cat en at hebt? Dan wordt het catat, en dat kan verwarrend zijn.
ZipLex gebruikt een slimme "checklist" (een wiskundige regel die ze een R-Path noemen). Voordat het systeem twee stukjes tekst samenvoegt, kijkt het even: "Zorgen deze twee stukjes ervoor dat de volgende lezer precies weet waar het eerste woord stopt?" Als het antwoord ja is, mag het samenvoegen. Als het antwoord nee is, voegt het een klein veiligheidsje (zoals een spatie) toe, of zorgt het ervoor dat de volgorde veilig is. Dit gebeurt zo snel dat je het niet merkt.

Waarom is dit belangrijk?

Vroeger moesten programmeurs kiezen tussen snelheid en veiligheid.

Als je het heel snel wilde, was het soms onzeker of het 100% correct was.
Als je het 100% veilig wilde (zoals in een vliegtuigcomputer), was het vaak erg traag.

ZipLex bewijst dat je beide kunt hebben. Het is:

Bewezen veilig: Wiskundig bewezen dat het nooit fouten maakt (gebruikmakend van een tool genaamd "Stainless").
Snel: Het is zelfs twee keer zo snel als andere bewezen systemen en werkt net zo snel als de snelste onbewezen systemen.
Omkeerbaar: Je kunt tekst omzetten in tokens en terug, zonder dat er iets verloren gaat.

Samenvatting

ZipLex is als een super-slome, onfeilbare tolk die een boek in losse woorden omzet en die woorden weer in een boek terugzet, zonder ooit een letter te vergeten of een woord verkeerd te interpreteren. En het doet dit zo snel dat het zelfs de snelste menselijke vertalers voorbijstreeft. Dit maakt het perfect voor het bouwen van betrouwbare software, compilers en tools die code automatisch herschrijven.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Formally Verified Linear-Time Invertible Lexing" in het Nederlands.

Titel: Formeel Geverifieerde Lineaire-Tijd Inverteerbare Lexing

Auteurs: Samuel Chassot en Viktor Kunčak (EPFL, Zwitserland)
Framework: ZipLex (geïmplementeerd in Scala, geverifieerd met Stainless)

1. Het Probleem

Lexing (lexicale analyse) is de eerste stap in de meeste parsing-pipelines, zoals compilers en data-analyse tools. Hoewel er reeds geverifieerde lexers bestaan (zoals Coqlex en Verbatim++), missen deze cruciale eigenschappen voor moderne toepassingen:

Gebrek aan Inverteerbaarheid: In veel scenario's (zoals IDE-refactoring, programmasynthese en pretty-printing) moet een reeks tokens weer omgezet kunnen worden naar een string, die vervolgens opnieuw gelexed moet worden tot exact dezelfde tokens. Bestaande geverifieerde lexers garanderen dit niet. Zonder deze garantie kan informatie stilzwijgend verloren gaan (bijvoorbeeld door het verwijderen van whitespace die nodig is om tokens te scheiden).
Prestatieproblemen: Bestaande geverifieerde lexers hebben vaak een kwadratische tijdscomplexiteit ( $O(n^2)$ ) in bepaalde gevallen of missen geoptimaliseerde memoization.
Vertrouwen: Zelfs in geverifieerde compilers (zoals CompCert) blijft de lexer vaak een "trusted component" die niet zelf geverifieerd is.

Het centrale vraagstuk is: Hoe kunnen we lexing en printing ondersteunen met een formele garantie dat er geen informatie verloren gaat (invertibiliteit), terwijl we lineaire tijdscomplexiteit behouden?

2. Methodologie

De auteurs presenteren ZipLex, een framework dat drie kernideeën combineert om dit probleem op te lossen:

A. Inverteerbaarheid en Scheidbaarheid (Separability)

Om invertibiliteit te garanderen ( $\text{lex}(\text{print}(ts)) = ts$ ), introduceren de auteurs het concept van scheidbare tokens.

Definitie: Een tokenreeks is scheidbaar als het printen ervan en het opnieuw lexen van die string resulteert in dezelfde tokenreeks.
R-Path Predicaten: Om dit efficiënt te controleren zonder elke keer de volledige string opnieuw te lexen, definiëren ze een "separability" relatie ( $sep$ ) tussen twee opeenvolgende tokens. Twee tokens $t_1$ en $t_2$ zijn scheidbaar als het eerste karakter van $t_2$ voldoende is om te garanderen dat $t_1$ de langst mogelijke match blijft, ongeacht wat er na $t_2$ komt.
PrintableTokens: Ze implementeren een abstractie PrintableTokens die deze scheidbaarheid als invariant bijhoudt. Bij het samenvoegen (concatenatie) van tokenreeksen wordt alleen een constante tijd check uitgevoerd op de grens tussen de reeksen.

B. Lineaire Tijd via Geverifieerde Memoization

Om lineaire tijd ( $O(n)$ ) te bereiken in plaats van kwadratisch:

Brzozowski's Derivatives: Ze gebruiken dit principe voor regex-matching.
Huet's Zippers: In plaats van naieve derivaten (die leiden tot exponentiële groei van expressies), gebruiken ze zippers (sets van contexten) voor een efficiëntere representatie.
Memoization: Ze implementeren een volledig geverifieerd memoization-framework gebaseerd op een mutable hash-tabel (LongMap). Dit zorgt ervoor dat berekeningen van derivaten en de langste match niet herhaald worden.
Tail-recursie: Om stack-overflows op de JVM te voorkomen, zijn alle recursieve functies omgezet naar tail-recursive versies, waarbij de correctheid bewezen blijft ten opzichte van de oorspronkelijke specificatie.

C. Data Structuren

Voor de uitvoering gebruiken ze een geoptimaliseerde datastructuur genaamd BalanceConc (een gebalanceerde binaire boom met onmutabele arrays), terwijl de specificatie en bewijzen werken met standaard lijsten (List). Dit combineert de snelheid van de uitvoering met de bewijsbaarheid van lijsten.

3. Belangrijkste Bijdragen

Definitie van Separability: Een nieuwe definitie van scheidbaarheid voor tokenreeksen, samen met efficiënte mechanismen om dit te controleren en te handhaven.
ZipLex Framework: Een volledig geverifieerd lexer-framework dat:
- Inverteerbare printing ondersteunt.
- Regex-gebaseerde tokendefinities gebruikt.
- De "longest match" (maximal munch) semantiek respecteert.
- Lineaire tijdscomplexiteit garandeert dankzij geverifieerde memoization.
Implementatie en Evaluatie: Een concrete implementatie in Scala, geverifieerd met Stainless. Ze tonen aan dat ZipLex realistische toepassingen (zoals JSON-verwerking) aankan en lineair schaalt, zelfs in gevallen waar andere benaderingen kwadratisch worden.

4. Resultaten

De evaluatie van ZipLex toont de volgende resultaten:

Complexiteit: ZipLex demonstreert lineaire tijdscomplexiteit ( $O(n)$ ) op adverterende grammatica's (zoals $a^*b$ ), terwijl Flex en Coqlex kwadratisch gedrag vertonen en Verbatim++ stack-overflows ondervindt bij grote inputs.
Prestatievergelijking:
- ZipLex is ongeveer 100x (twee ordes van grootte) sneller dan Verbatim++.
- ZipLex is ongeveer 8x trager dan Coqlex, maar biedt wel invertibiliteit en lineaire tijd (Coqlex is kwadratisch in slechte gevallen).
- ZipLex is aanzienlijk sneller dan Flex op specifieke adversarial grammatica's.
Overhead: De overhead van het controleren van de scheidbaarheid (sep) via PrintableTokens is minimaal, vooral omdat de derivative-cache al gevuld is tijdens het lexen.
Verificatiekosten: Het project bevat ongeveer 1.766 regels implementatiecode en 12.844 regels specificatie en bewijscode (totaal ~14.600 LOC). De verificatie duurt ongeveer 120 minuten op een server en genereert duizenden verificatievoorwaarden.

5. Betekenis en Impact

Dit paper is baanbrekend omdat het voor het eerst een lineaire-tijd, volledig geverifieerde lexer biedt die ook invertibiliteit garandeert.

Betrouwbaarheid: Het sluit de kloof tussen formele correctheid en praktische bruikbaarheid voor toepassingen die vereisen dat code en data perfect rondom lexing/printing kunnen worden gemanipuleerd zonder informatieverlies.
Efficiëntie: Het weerlegt de mythe dat geverifieerde software per definitie te traag is voor productiegebruik; ZipLex presteert aanzienlijk beter dan bestaande geverifieerde alternatieven.
Toepassingsgebied: Het maakt volledig geverifieerde compilers en communicatieprotocollen haalbaar, waarbij niet alleen de parsing, maar ook de gehele keten van lexing, pretty-printing en terug-conversie formeel gegarandeerd correct is.

Kortom, ZipLex bewijst dat het mogelijk is om hoogwaardige, formele garanties te combineren met lineaire prestaties en ondersteuning voor complexe workflows zoals refactoring en serialisatie.