Bayes, E-values and Testing

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een machine hebt die elke dag nieuwe voorspellingen doet: een app die aangeeft of een patiënt ziek is, een algoritme dat bepaalt welke advertentie je ziet, of een systeem dat auto's bestuurt.

De grote vraag is: Hoe weten we op elk willekeurig moment of deze machine nog steeds goed werkt, zonder dat we de regels moeten veranderen of het aantal metingen moeten vastleggen?

In de oude wereld van statistiek was het alsof je een examen moest maken met een vast aantal vragen. Als je halverwege stopte om te kijken hoe het ging, waren je cijfers ongeldig. Maar in de moderne wereld van AI werken we continu. We hebben een nieuw soort "statistiek" nodig die werkt terwijl de data binnenstroomt.

Deze paper introduceert een slimme manier om dit aan te pakken, door het probleem op te delen in drie lagen, net zoals het bouwen van een huis.

De Drie Lagen van het Huis

De auteurs zeggen: "Laten we niet alles door elkaar halen." Ze splitsen het bewijsmateriaal op in drie aparte verdiepingen:

1. De Fundering: De Representatie (Het "Wat")

Stel je voor dat je een weegschaal hebt. De eerste laag gaat over hoe we het gewicht meten.

De oude manier: Soms gebruiken we codes of lengtes van beschrijvingen (zoals in compressie-algoritmen) om te zeggen: "Dit is een vreemd patroon."
De nieuwe ontdekking: De auteurs tonen aan dat de enige manier om dit perfect en eerlijk te doen, is door te kijken naar de Kansverhouding (Likelihood Ratio).
De analogie: Stel je voor dat je twee detectives hebt. Detective A (de "Null") denkt dat alles normaal is. Detective B (de "Alternatief") denkt dat er iets mis is. De "Kansverhouding" is gewoon de score die aangeeft hoeveel meer Detective B gelijk heeft dan Detective A. De paper zegt: "Gebruik deze score. Alles anders is als proberen een auto te bouwen met een hamer in plaats van een sleutel; het werkt misschien, maar het is niet optimaal."

2. De Muren: De Geldigheid (Het "Waarom het veilig is")

Nu we een score hebben, moeten we zeker weten dat we niet per ongeluk een vals alarm slaan. Dit is de Geldigheids-laag.

Het probleem: Als je blijft kijken naar je data en stopt zodra je een piek ziet, kun je per ongeluk een fout maken (het "optional stopping" probleem).
De oplossing: De paper gebruikt een wiskundig trucje genaamd een Supermartingaal.
De analogie: Denk aan een gokker in een casino. Als de casino-eigenaar (de "Null-hypothese") eerlijk is, kan de gokker zijn geld niet oneindig laten groeien. De "Ville's ongelijkheid" (een wiskundige wet) zegt: "Zelfs als de gokker stopt op het moment dat hij het leukst vindt, is de kans dat hij zijn geld verdubbelt, maximaal 50%."
Kortom: Deze laag garandeert dat je systeem altijd veilig blijft, of je nu stopt na 1 minuut of na 10 jaar.

3. Het Dak: De Beslissing (Het "Wanneer stoppen")

Nu we een veilige score hebben, moeten we beslissen: Wanneer roepen we de brandweer?

De oude manier: "Stop zodra de score 10 is." Dit is veilig, maar traag.
De nieuwe manier: De auteurs laten zien dat als je de "Kansverhouding" (laag 1) gebruikt, je veel sneller een fout kunt opsporen.
De analogie: Stel je voor dat je een lek in een boot zoekt.
- De "veilige maar trage" methode is om elke seconde te kijken of er water in komt, maar je wacht tot er een hele emmer water is voordat je roept.
- De "slimme" methode (deze paper) kijkt naar de snelheid waarmee het water stijgt. Als het water sneller stijgt dan normaal, roep je veel eerder om hulp, zonder dat je de kans op een vals alarm vergroot.

De Grote Valstrikken (Wat niet werkt)

De paper waarschuwt voor twee valkuilen waar veel mensen in trappen:

De "Compressie"-valstrik:
Veel AI-systemen gebruiken compressie-algoritmen (zoals ZIP-bestanden) om te zien of data "vreemd" is. De paper zegt: "Dit werkt niet voor continue monitoring."
- Analogie: Een ZIP-bestand kijkt naar het hele bestand om te bepalen hoe groot het moet zijn. Maar als je data stroomt (een live video), kun je niet wachten tot het einde van de video om te weten hoe groot het bestand is. Als je dit toch doet, breekt je veiligheidsgarantie. Je moet een algoritme gebruiken dat "live" werkt (zoals een voorspeller die elke seconde een gok doet).
De "Verkeerde Alternatief"-valstrik:
Als je het verkeerde alternatief kiest (bijvoorbeeld: je denkt dat de machine kapot is omdat hij te snel werkt, terwijl hij eigenlijk te langzaam werkt), dan zal je systeem nooit een alarm slaan, zelfs niet als er echt iets mis is.
- Analogie: Het is alsof je een brandmelder hebt die alleen afgaat als het vuur blauw is. Als het vuur oranje is (wat normaal is), doet de meldertje niets, zelfs niet als het huis uitbrandt. Je moet je "alternatief" (wat je verwacht) goed afstemmen op de werkelijkheid.

Waarom is dit belangrijk voor ons?

Deze paper geeft ons een bouwplan voor veilige AI-systemen:

Gebruik de juiste score: Gebruik de "Kansverhouding" (Likelihood Ratio) als je wilt weten of een model foutloos is.
Bouw de muren goed: Zorg dat je systeem voldoet aan de wiskundige regels (Supermartingalen) zodat je nooit per ongeluk een vals alarm krijgt, ongeacht wanneer je stopt.
Maak slimme beslissingen: Gebruik de snelheid van de verandering om sneller te reageren, in plaats van te wachten op een vast getal.

Conclusie:
Vroeger dachten we dat "veiligheid" en "snelheid" tegen elkaar op liepen. Je moest kiezen: of je was veilig maar traag, of snel maar riskant. Deze paper laat zien dat als je de drie lagen (Representatie, Geldigheid, Beslissing) goed scheidt en de juiste wiskunde gebruikt, je beide kunt krijgen: een systeem dat continu leert, veilig is, en direct reageert als er iets misgaat. Het is alsof je een auto bouwt die niet alleen veilig rijdt, maar ook automatisch remt op het exacte moment dat het nodig is, zonder dat de bestuurder hoeft na te denken.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Bayes, E-values, and Testing" van Nicholas G. Polson, Vadim Sokolov en Daniel Zantedeschi, in het Nederlands.

Titel: Bayes, E-waarden en Toetsing: Een Getypeerd Kader voor Sequentiële Bewijsvoering

1. Het Probleem

In moderne machine learning-systemen worden modellen continu bijgewerkt en getest op basis van stromende data (bijv. A/B-tests, patiëntenmonitoring, conformale voorspelling). Klassieke statistische methoden, zoals p-waarden en betrouwbaarheidsintervallen, zijn gebaseerd op vaste steekproefgroottes en verliezen hun geldigheid onder optionele stopregels (waarbij het stoppen van een experiment afhankelijk is van de data die tot dan toe is verzameld).

Hoewel E-waarden en E-processen (niet-negatieve supermartingalen) een oplossing bieden voor "altijd-geldige" (anytime-valid) inferentie via Ville's ongelijkheid, bestaat er in de literatuur verwarring over drie fundamentele aspecten:

Representatie: Wat is de aard van het bewijs? (Is het een likelihood-ratio, een betting score, of een coderingslengte?)
Validiteit: Waarom is het geldig? (Supermartingaal-eigenschap, Kraft-ongelijkheid, uitwisselbaarheid?)
Besluitvorming: Hoe wordt het gebruikt? (Vaste drempels, sequentiële grenzen, Bayes-risico-optimalisatie?)

De auteurs stellen dat het vermengen van deze rollen leidt tot praktische fouten: een coderingsfunctie kan eruitzien als een E-waarde zonder het te zijn, en een geldig E-proces kan statistisch machteloos zijn als de stopgrens niet goed is gekozen.

2. Methodologie: Een Getypeerd Kader (Typed Framework)

De kern van het artikel is de introductie van een getypeerd kader dat sequentiële bewijsvoering splitst in drie logisch distincte lagen. Dit zorgt voor een modulaire benadering waarbij optimaliteit in de ene laag niet automatisch optimaliteit in een andere impliceert.

Laag 1: Representatie (Representation)
- Objecten: Kansmaten, likelihood-ratio's ( $dQ/dP$ ), en log-verlies-geometrie.
- Doel: Het vaststellen van de structuur van het bewijs. De auteurs tonen aan dat onder coherent voorspellen en log-verlies, de likelihood-ratio de unieke canonieke representatie is.
Laag 2: Validiteit (Validity)
- Objecten: E-variabelen, E-processen, supermartingalen.
- Doel: Het garanderen van Type I-foutcontrole ongeacht de stopregel. Dit wordt bereikt via Ville's ongelijkheid ( $P(\sup E_t \ge c) \le 1/c$ ).
Laag 3: Besluitvorming (Decision)
- Objecten: Stoptijden ( $\tau$ ), drempels ( $b$ ), en verliesparameters.
- Doel: Het optimaliseren van de efficiëntie (detectietijd) van het toetsingsproces.

Het kader analyseert ook de interfaces tussen deze lagen, zoals de "computational obstruction" tussen codering en validiteit.

3. Belangrijkste Bijdragen en Resultaten

A. Canoniekheid onder Log-Verlies (Theorema 3.1)
Onder de aanname van coherent voorspellen en minimalisatie van Bayes-risico met log-verlies, is de likelihood-ratio de enige canonieke representatie van bewijs.

Het Bayes-risico-optimale toetsingsproces is een drempelregel op het likelihood-ratio-proces.
Algemene E-processen kunnen geldig zijn, maar hoeven niet deze optimale structuur te hebben.

B. Efficiëntie en Moderatie-Deviatie (Theorema 5.4, Proposition 5.9)
De auteurs bewijzen een scherp resultaat over de verwachte detectietijd ( $E[\tau_b]$ ) voor likelihood-ratio processen onder Cramér-voorwaarden:
$E_1[\tau_b] = \frac{\log b}{\mu} + O(\sqrt{\log b})$
waarbij $\mu = D_{KL}(P_1 \| P_0)$ de Kullback-Leibler-divergentie is.

Cruciaal inzicht: Alleen E-processen met een likelihood-ratio-structuur bereiken deze exponentiële detectiesnelheid. "Geldige" E-processen zonder deze structuur (die alleen voldoen aan de Ville-Markov-grens) hebben geen gegarandeerde groeisnelheid en zijn beperkt tot een schaal van $O(1/b)$ . Dit creëert een groot efficiëntieverschil tussen "geldigheid alleen" en "representatie-bewust" toetsen.

C. Computatiele Obstructie: Code naar E (Propositie 6.1)
Er bestaat een fundamenteel conflict tussen coderingstheoretische optimaliteit en sequentiële validiteit:

NML/MDL codes: Regret-optimale codes (zoals NML) zijn geen geldige E-processen. Hun normalisatieconstante hangt af van de totale steekproefgrootte $n$ , wat de vereiste sequentiële factorisatie (supermartingaal-eigenschap) schendt.
Prequentiële codes: Alleen prequentiële codes (die op elk moment een geldige voorspelling maken zonder kennis van de toekomstige steekproefgrootte) kunnen worden omgezet in geldige E-processen.

D. Uniekheid van Log-Verlies (Propositie 7.2)
Onder strikt juiste scorende regels (proper scoring rules) is log-verlies de enige regel waarbij de geïnduceerde bewijsverhoudingen supermartingalen vormen. Andere regels (zoals de Brier-score) leiden tot processen die onder de nulhypothese exponentieel naar nul vervallen, waardoor ze als toetsingsstatistiek onbruikbaar zijn.

E. Algebra van Bewijsklassen (Theorema 4.2)
De klasse van E-processen vormt een convexe verzameling die gesloten is onder:

Lineaire combinaties (mixtures).
Bayesiaanse marginalisatie.
Optionele stopregels (stitching).
Dit maakt het mogelijk om bewijsmodulair op te bouwen in complexe online pipelines.

4. Experimentele Validatie

De auteurs voeren Monte Carlo-simulaties uit met Bernoulli-data om de theorie te verifiëren:

Growth Rate: Likelihood-ratio processen groeien lineair met de KL-divergentie, zoals voorspeld.
Type I Error: Onder agressieve optionele stopregels behouden LR-E-processen de nominale foutenrate (bijv. 4.2% vs. de theoretische 5%), terwijl ML-gebaseerde verhoudingen (zonder NML-normalisatie) de foutenrate exploderen tot 22.5%.
Misspecificatie: Als het alternatief verkeerd is gespecificeerd, drift het bewijs terug naar de nulhypothese, wat het risico van slechte modelkeuze in online monitoring illustreert.

5. Betekenis en Toepassingen

Dit artikel biedt een fundamentele heroriëntatie op hoe sequentiële inferentie moet worden ontworpen in machine learning:

Ontkoppeling van lagen: Het stelt onderzoekers en ingenieurs in staat om representatie, validiteit en besluitvorming onafhankelijk te optimaliseren zonder de garanties te schenden.
Praktische richtlijnen:
- Gebruik likelihood-ratio's voor online modelvalidatie onder log-verlies.
- Gebruik geen statische NML/MDL codes als directe E-waarden in sequentiële pipelines; gebruik in plaats daarvan prequentiële voorspellers.
- Besef dat geldigheid (Ville) niet gelijkstaat aan efficiëntie; zonder de juiste representatie (LR) is de detectietijd suboptimaal.
Toepassingsgebieden: Het kader is direct toepasbaar op online A/B-testing, conformale voorspelling (waar E-waarden helpen bij het behouden van dekking onder optionele stopregels), en adaptieve experimenten.

Samenvattend biedt dit werk een rigoureuze wiskundige basis die Bayesiaanse redenering, supermartingalen en coderingstheorie verenigt, en een duidelijk pad schetst voor het bouwen van veilige, efficiënte en altijd-geldige inferentiële systemen.

Bayes, E-values and Testing

De Drie Lagen van het Huis

1. De Fundering: De Representatie (Het "Wat")

2. De Muren: De Geldigheid (Het "Waarom het veilig is")

3. Het Dak: De Beslissing (Het "Wanneer stoppen")

De Grote Valstrikken (Wat niet werkt)

Waarom is dit belangrijk voor ons?

Titel: Bayes, E-waarden en Toetsing: Een Getypeerd Kader voor Sequentiële Bewijsvoering

1. Het Probleem

2. Methodologie: Een Getypeerd Kader (Typed Framework)

3. Belangrijkste Bijdragen en Resultaten

4. Experimentele Validatie

5. Betekenis en Toepassingen

Meer zoals dit

Quasi-average predictions and regression to the trend: an application the M6 financial forecasting competition

A Bayesian Dirichlet Auto-Regressive Conditional Heteroskedasticity Model for Forecasting Currency Shares

Photon-Efficient Computational 3D and Reflectivity Imaging with Single-Photon Detectors

Bayesian analysis of 210Pb dating

Logarithmic Regret for Online KL-Regularized Reinforcement Learning