Beyond Reproducible Research: Building a Formal Representation of a Data Analysis

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een recept voor een taart deelt met een vriend. In de huidige wereld van data-analyse (het bestuderen van cijfers en informatie) doen we vaak alsof we alleen de lijst met instructies geven: "Neem bloem, voeg suiker toe, bak 30 minuten." Als je vriend de taart maakt en hij lukt, zeggen we: "Zie je wel, het recept werkt! Het is reproduceerbaar."

Maar wat als de taart eruitziet als een steen? Of wat als de bakteken een foutje in het recept had dat niemand zag? De instructies waren correct uitgevoerd, maar de reden waarom we die instructies gaven, ontbreekt. Misschien dachten we dat de suiker al in de bloem zat, of misschien hadden we een heel ander type bloem in gedachten.

Dit is precies het probleem dat Roger D. Peng in zijn artikel aanpakt. Hij zegt: "Reproduceerbaarheid is goed, maar het is niet genoeg." We moeten niet alleen laten zien hoe we het deden, maar ook waarom we dachten dat het zou werken.

Hier is de kern van zijn idee, vertaald in een simpel verhaal:

1. Van "Bewegingen" naar "Beweringen"

Normaal gesproken schrijven data-analisten code als een reeks bewegingen (imperatief): "Doe dit, doe dat." Het is alsof je een dansstap beschrijft zonder te vertellen wat de muziek is of wat je probeert te voelen.

Peng stelt voor om data-analyse te zien als een logisch bouwwerk van beweringen.

Huidige manier: "Ik heb de gemiddelde temperatuur berekend en het is 20 graden." (Hier is de code, geloof me maar).
Nieuwe manier: "Ik beweerd dat de temperatuur 20 graden is. Om dit te bewijzen, moet ik eerst bewijzen dat:
1. Er geen fouten in de metingen zaten.
2. De thermometer niet kapot was.
3. De metingen niet extreem scheef waren."

2. De "Magische Doosjes" (Klassen)

In de programmeertaal die Peng gebruikt (R), maakt hij gebruik van iets dat hij "klassen" noemt. Stel je dit voor als magische doosjes.

Je hebt een doosje genaamd "Geen Ontbrekende Waarden".
Als je data in dit doosje stopt, kijkt het doosje er streng naar: "Zie ik hier een gat? Dan doe ik je er niet in. Je past niet."
Als je data erin past, betekent dit: "Oké, deze data is schoon."

Vervolgens heb je een groter doosje: "De Gemiddelde Temperatuur is 20".
Dit grote doosje heeft een slot. Om het slot te openen, moet je eerst het kleine doosje ("Geen Ontbrekende Waarden") in het slot steken. Als het kleine doosje niet past, kan het grote doosje niet gesloten worden.

Het mooie hieraan: Je hoeft de taart niet eens te bakken om te weten of het recept logisch klopt. Je kunt gewoon naar de doosjes kijken en zeggen: "Ah, dit doosje vereist dat de data schoon is. Als de data vies is, kan deze bewering niet waar zijn." Je kunt de logica controleren zonder de data zelf te zien.

3. Waarom is dit zo'n groot voordeel?

Stel je voor dat je een detective bent die een moordzaak onderzoekt.

De oude manier (Reproduceerbaar): De verdere geeft je de moordwapen en de foto's van het lichaam. "Kijk, ik heb dit gebruikt." Als jij het wapen vastpakt, zie je dat het werkt. Maar je weet niet waarom de detective dacht dat dit wapen de dader was. Misschien was het toeval.
De nieuwe manier (Formele Representatie): De detective geeft je een dossier met bewijs.
- Bewering: "De dader is X."
- Premisse 1: "X had een motief." (Bewezen met een getuige).
- Premisse 2: "X was op de plaats delict." (Bewezen met een camera).
- Premisse 3: "Er is geen ander motief." (Bewezen door uitsluiting).

Als je naar dit dossier kijkt, zie je direct de logische keten. Je kunt zien: "Ah, als Premisse 2 niet klopt, stort het hele verhaal in." Je kunt de logica testen zonder de dader (de data) ooit te hoeven zien.

4. Wat levert dit op?

Geen verborgen fouten: Vaak maken mensen fouten in hun code die geen "crash" veroorzaken, maar wel een verkeerd resultaat geven. Met deze doosjes-methode moet je vooraf zeggen: "Ik verwacht dat de uitkomst tussen 10 en 20 ligt." Als de code iets anders doet, springt het doosje open en krijg je een waarschuwing, voordat je het resultaat accepteert.
Sensitiviteit: Je kunt vragen: "Wat als er één extreme waarde in de data zit?" In de oude methode moet je de hele analyse opnieuw draaien. In de nieuwe methode kun je in het dossier kijken: "Ah, dit doosje is gevoelig voor extreme waarden. We moeten een extra bewijs toevoegen dat die extreme waarde niet bestaat."
Transparantie: Het dwingt de analist om na te denken over wat hij of zij eigenlijk beweert. Je kunt niet meer "zomaar" een gemiddelde berekenen; je moet eerst bewijzen dat het berekenen van dat gemiddelde zinvol is.

Conclusie: Van "Kijk hoe ik het deed" naar "Kijk waarom het klopt"

Roger Peng zegt eigenlijk: "Laten we stoppen met alleen het recept te delen. Laten we het recept, de ingrediëntenkwaliteit en de reden waarom we die ingrediënten kozen allemaal in één logisch pakketje stoppen."

Het is alsof we van een simpele foto van een gebouwd huis (de code) overstappen naar een 3D-blaadje met de blauwdruk, waar je precies kunt zien welke balken de muur dragen en wat er gebeurt als je één balk verwijdert. Je kunt het huis beoordelen op sterkte, zelfs als je nog nooit de bouwplaats hebt bezocht.

Dit maakt data-analyse niet alleen reproduceerbaar (iemand anders kan het nabouwen), maar ook verifieerbaar (iemand anders kan zien of het logisch is, zelfs zonder de bouwmaterialen te zien).

Beyond Reproducible Research: Building a Formal Representation of a Data Analysis

1. Van "Bewegingen" naar "Beweringen"

2. De "Magische Doosjes" (Klassen)

3. Waarom is dit zo'n groot voordeel?

4. Wat levert dit op?

Conclusie: Van "Kijk hoe ik het deed" naar "Kijk waarom het klopt"

Titel: Beyond Reproducible Research: Building a Formal Representation of a Data Analysis

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen en Implementatie

A. Formele Definitie van Stellingen

B. Detectie van Stille Fouten (Silent Errors)

C. Visualisatie en Sensitiviteitsanalyse

D. Toepassing op Lineaire Regressie

4. Resultaten en Uitkomsten

5. Betekenis en Conclusie

Beyond Reproducible Research: Building a Formal Representation of a Data Analysis

1. Van "Bewegingen" naar "Beweringen"

2. De "Magische Doosjes" (Klassen)

3. Waarom is dit zo'n groot voordeel?

4. Wat levert dit op?

Conclusie: Van "Kijk hoe ik het deed" naar "Kijk waarom het klopt"

Titel: Beyond Reproducible Research: Building a Formal Representation of a Data Analysis

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen en Implementatie

A. Formele Definitie van Stellingen

B. Detectie van Stille Fouten (Silent Errors)

C. Visualisatie en Sensitiviteitsanalyse

D. Toepassing op Lineaire Regressie

4. Resultaten en Uitkomsten

5. Betekenis en Conclusie

Meer zoals dit

Sketching stochastic valuation functions

Calibrated Generalized Bayesian Inference

Constructing Genetic Risk Scores: Robust Bayesian Approach through Projected Summary Statistics and Flexible Shrinkage

Spectral Graph Filtering for Modality-Specific Representation Learning

Euclidean mirrors and first-order changepoints in network time series