A Grammar of Machine Learning Workflows

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat machine learning (het leren van computers) een beetje lijkt op het koken van een gerecht voor een grote, strenge jury.

Deze paper, geschreven door Simon Roth, stelt een nieuwe "grammatica" voor. Dat klinkt saai, maar het is eigenlijk een strenge keukenregeling die ervoor zorgt dat koks (data-wetenschappers) niet kunnen valsspelen, zelfs niet per ongeluk.

Hier is de uitleg in simpele taal, met behulp van een paar creatieve vergelijkingen.

1. Het Probleem: De "Cheater" in de Keuken

In de wereld van data-onderzoek maken veel mensen een enorme fout: Data-lekkage.
Stel je voor dat een kok een recept moet maken en de jury moet overtuigen dat het lekker is.

De juiste manier: De kok kookt het gerecht, proeft het zelf (trainingsdata), en presenteert het pas aan de jury (testdata).
De fout (Data-lekkage): De kok steelt een stukje van het gerecht dat de jury nog niet heeft geproefd, proeft dat zelf, past het recept daarop aan, en presenteert het daarna.

Dit klinkt stom, maar het gebeurt constant in de wetenschap. Computers "kijken" per ongeluk in de antwoorden van de toets voordat ze de toets maken. Hierdoor lijken modellen veel slimmer dan ze echt zijn. De paper zegt: "We stoppen met het geven van checklists (zoals 'kijk niet in de antwoorden!'). Mensen houden zich daar niet aan. We moeten de keuken zo inrichten dat valsspelen onmogelijk wordt."

2. De Oplossing: Een Grammatica met 7 Basisbewegingen

Roth bedacht een systeem met slechts 7 basisbewegingen (primitieven). Net zoals een taal een beperkt aantal letters heeft, maar oneindig veel zinnen kan vormen, heeft dit systeem 7 stappen die je in een specifieke volgorde moet doen.

Deze stappen zijn:

Split (Splitsen): Je neemt je ingrediënten en verdeelt ze in drie bakken: Oefenbak, Controlebak en Jurybak.
Prepare (Voorbereiden): Je snijdt en wast je groenten.
Fit (Trainen): Je kookt het gerecht in de Oefenbak.
Evaluate (Evalueren): Je proeft het in de Controlebak om te zien of het lekker is. Dit mag je vaak doen om te verbeteren.
Explain (Uitleggen): Je legt uit waarom het zo smaakt (bijv. "meer peper").
Predict (Voorspellen): Je zegt wat er gebeurt als je het op een andere manier serveert.
Assess (Beoordelen): Dit is de belangrijkste stap. Je presenteert het gerecht aan de Jurybak.

3. De Magische Regel: "De Jurybak is Gesloten"

Het slimme aan deze grammatica is de regel rondom stap 7 (Assess).

In de oude wereld kon je de Jurybak openen, proeven, het recept aanpassen, en weer proeven. Dat is valsspelen.
In deze nieuwe grammatica is er een onbreekbare glazen wand rond de Jurybak.

Je mag de Jurybak maar één keer openen.
Zodra je de deur opent (de knop "Assess" drukt), gaat de deur voor altijd dicht.
Als je probeert de deur nog een keer te openen, zegt het systeem: "Nee, dat mag niet. De deur is dicht."

Dit is de "Assess-once" regel. Het voorkomt dat je de antwoorden van de toets gebruikt om je studiemethode aan te passen.

4. Waarom is dit beter dan een lijstje?

Vroeger zeiden we: "Hé, vergeet niet om je data te splitsen voordat je normaliseert!" (Dit is een technisch detail, maar het betekent: pas je schaal niet toe op alle data, want dan zie je de testdata al).
Mensen vergeten dit.

Met deze grammatica is het systeem zo ontworpen dat je fysiek niet kunt beginnen met koken (trainen) als je niet eerst de bakken hebt gescheiden.

Probeer je de Jurybak te gebruiken om te oefenen? Het systeem blokkeert je.
Probeer je de Jurybak twee keer te gebruiken? Het systeem blokkeert je.

Het is alsof je een auto rijdt met een rem die automatisch werkt als je te snel gaat. Je hoeft niet te onthouden om te remmen; de auto doet het voor je.

5. Wat zegt de paper over de resultaten?

De auteur heeft dit systeem getest in drie programmeertalen (Python, R en Julia) en met duizenden experimenten.

Het werkt: Het systeem blokkeert de fouten die de meeste valse resultaten veroorzaken.
Het is nodig: Zonder dit systeem zijn de resultaten vaak 4 tot 9 punten "te mooi" (alsof je een 10 haalt terwijl je een 6 had). Dat klinkt klein, maar in de medische wereld of financiën kan dat het verschil zijn tussen leven en dood, of winst en faillissement.
Het is bewezen: De auteur voorspelde drie dingen die zouden gebeuren als je dit systeem niet gebruikt. Twee voorspellingen klopten, één bleek verkeerd (wat betekent dat het systeem eerlijk is en niet alleen maar dingen bedenkt die hij zelf wil horen).

Samenvatting in één zin

Deze paper introduceert een onvermijdelijk regelsysteem voor het trainen van AI, waarbij de "testfase" zo streng wordt afgeschermd dat het onmogelijk is om te valsspelen, waardoor de resultaten eindelijk betrouwbaar zijn.

Het is de overstap van: "Probeer je best om eerlijk te zijn" naar "Het is onmogelijk om oneerlijk te zijn."

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "A Grammar of Machine Learning Workflows" van Simon Roth (2026), vertaald en samengevat in het Nederlands.

1. Het Probleem: Data Leakage en de Falende Documentatie

Het artikel begint met de vaststelling dat datalekken (data leakage) een hardnekkig probleem zijn in het machine learning-onderzoek. Een audit van Kapoor en Narayanan (2023) toonde aan dat 294 gepubliceerde papers over 17 wetenschappelijke gebieden last hadden van lekken.

Huidige aanpak: De dominante reactie is geweest op documentatie (checklists, best-practice gidsen, linters).
Beperking: Documentatie voorkomt fouten niet; het detecteert ze pas achteraf.
Gevolg: Dit leidt tot significante inflatie van prestatieschatten. De auteur citeert effectgroottes ( $d_z$ ) van 0,93 voor selectielekken en 0,53–1,11 voor memorisatielekken, wat gepubliceerde resultaten ongeldig maakt.

2. Methodologie: Een Grammatica voor ML-workflows

Roth stelt voor om de oplossing niet te zoeken in detectie, maar in structurele preventie via een formele grammatica. Deze grammatica deconstrueert de levenscyclus van supervised learning tot een strikt gedefinieerd systeem.

Kerncomponenten van de Grammatica

De grammatica bestaat uit 7 kernprimitieven (operaties) die verbonden zijn via een getypeerde gerichte acyclische graaf (DAG):

split: Deelt data op in train, validatie en test sets. Dit is het startpunt dat de "assessment boundary" vastlegt.
prepare: Normaliseert, encodeert en imputeert features (binnen de context van een fold).
fit: Train een model op de train-data.
predict: Pas het model toe op nieuwe data.
evaluate: Meet prestaties op validatie-data (herhaalbaar, voor iteratie).
explain: Genereert uitleg (feature importance), terminal en niet-beperkt.
assess: Meet prestaties op de test-data. Dit is terminaal: het mag slechts één keer per model worden uitgevoerd.

De Vier Harde Constraints (Beperkingen)

De grammatica implementeert vier harde regels die worden afgedwongen door typechecks en runtime-guards (waarschuwingen bij de aanroep):

Assess-once: Een model mag slechts één keer op de testset worden geëvalueerd. Herhaald gebruik wordt geweigerd door een guard op het Evidence-type.
Prepare na split: Voorbereiding (preprocessing) moet per fold plaatsvinden na de splitsing. Globale voorbereiding op de volledige dataset wordt geweigerd.
Type-safe overgangen: Het is onmogelijk om een model te trainen op test-data of te evalueren zonder een getraind model.
Geen label-toegang voor split: Feature-selectie die labels gebruikt, moet plaatsvinden binnen de prepare-fase per fold, niet op de ruwe data vóór splitsing.

Type DAG en State Machine

De workflow wordt gemodelleerd als een automaat met toestanden: {CREATED, FITTED, EVALUATED, ASSESSED}.

De test-partitie is vergrendeld (locked) totdat assess één keer wordt aangeroepen.
De evaluate-fase is herhaalbaar (iteratief), maar assess is een "commit" die de staat naar een terminale sink verandert.
Evidence vs. Metrics: evaluate retourneert Metrics (herhaalbaar), terwijl assess retourneert Evidence (een uniek type dat geen input accepteert voor andere primitieven). Dit zorgt ervoor dat test-resultaten niet kunnen worden gebruikt als input voor verdere training of tuning.

3. Belangrijkste Bijdragen

Structurele Preventie: In plaats van lekken te detecteren na het feit, maakt de grammatica het uitvoeren van lek-gevoelige workflows onmogelijk binnen de API. Fouten worden afgewezen bij de aanroep (call-time), niet achteraf.
De "Terminal Assess" Constraint: Dit is de centrale innovatie. Het dwingt de scheiding tussen validatie (iteratief) en test (terminaal) af via het type-systeem, wat de meest schadelijke vorm van lekken (Class II en III) structureel blokkeert.
Multi-taal Implementatie: De grammatica is geïmplementeerd in drie talen (Python, R, Julia) met identieke type-sigaturen en gedragsregels, wat de onafhankelijkheid en robuustheid van de specificatie bewijst.
Empirische Validatie: De auteur voerde een companion study uit met 2.047 experimentele instanties en 3.759 extra tests om de effectgroottes van lekken te kwantificeren en de noodzaak van de grammatica te onderbouwen.

4. Resultaten en Experimentele Bevindingen

De companion studie (Roth 2026) leverde de volgende resultaten op:

Effectgroottes:
- Class I (Estimation bias, bijv. normalisatie voor split): Verwaarloosbaar effect ( $|d| < 0.1$ ).
- Class II (Selection bias, bijv. "peeking" op testlabels): Groot effect ( $d_z = 0.93$ , wat overeenkomt met +0,046 AUC inflatie). Dit effect blijft bestaan bij toenemende steekproefgrootte met een asymptotische vloer van $d_\infty = 0.047$ .
- Class III (Memorization, bijv. trainen op eval-data): Groot effect ( $d_z = 0.53–1.11$ ), afhankelijk van modelcapaciteit.
Voorspellingen: De grammatica genereerde drie voorspelbare hypothesen:
1. Screening inflatie: Bevestigd ( $d = +0.27$ ).
2. Stacking lekken: Gefalsificeerd ( $d = -0.22$ ). De grammatica bleek veilig voor stacking, wat aantoont dat de grammatica specifieke, falsifieerbare hypothesen genereert en niet slechts post-hoc rationalisaties biedt.
3. Seed cherry-picking: Bevestigd ( $d = +0.88$ ).
Implementatie: Alle drie de implementaties (Python, R, Julia) slaagden voor de "Codd-test" (7 conformatievoorwaarden), waaronder het onderscheiden van Evidence en Metrics types en het afwijzen van tweede assess-oproepen.

5. Significantie en Implicaties

Verschuiving van "Weten" naar "Doen": De grammatica verplaatst de verantwoordelijkheid van het onthouden van regels (door de onderzoeker) naar het afdwingen van regels (door het systeem).
Methodologische Correctheid: Het biedt een formeel raamwerk dat "methodologische correctheid" definieert als een binair criterium (geldt de workflow de regels?), in plaats van een subjectief oordeel.
Beperkingen: De grammatica voorkomt structurele fouten (lekken), maar niet semantische fouten (zoals het kiezen van een slecht algoritme of een ongeschikte metriek). Het is ook beperkt tot batch-supervised learning op tabulaire data; het dekt geen online learning, deep learning of tijdsreeksen zonder specifieke extensies.
Toekomst: De auteur pleit voor een gerandomiseerde studie om te testen of het gebruik van deze grammatica daadwerkelijk leidt tot minder lekken in onderwijs- en onderzoeksomgevingen.

Conclusie:
"A Grammar of Machine Learning Workflows" biedt een fundamentele verschuiving in hoe we ML-workflows ontwerpen. Door een strikte type-DAG en runtime-guards te gebruiken, maakt het de meest schadelijke vormen van datalekken structureel onuitvoerbaar. De empirische bewijzen tonen aan dat deze lekken aanzienlijke prestatie-inflatie veroorzaken die niet verdwijnt bij grotere datasets, waardoor een dergelijke structurele oplossing niet alleen wenselijk, maar noodzakelijk is voor reproduceerbaar wetenschappelijk onderzoek.