Bayes, E-values and Testing

Dit artikel presenteert een getypeerd raamwerk dat E-waarden en Bayesiaans redeneren scheidt in representatie, validiteit en besluitvorming, waarbij wordt aangetoond dat de likelihood-ratio de unieke coherente bewijsrepresentatie is en dat er fundamentele verschillen bestaan tussen geldigheid en efficiëntie bij sequentiële toetsing.

Nicholas G. Polson, Vadim Sokolov, Daniel Zantedeschi

Gepubliceerd 2026-03-11
📖 6 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een machine hebt die elke dag nieuwe voorspellingen doet: een app die aangeeft of een patiënt ziek is, een algoritme dat bepaalt welke advertentie je ziet, of een systeem dat auto's bestuurt.

De grote vraag is: Hoe weten we op elk willekeurig moment of deze machine nog steeds goed werkt, zonder dat we de regels moeten veranderen of het aantal metingen moeten vastleggen?

In de oude wereld van statistiek was het alsof je een examen moest maken met een vast aantal vragen. Als je halverwege stopte om te kijken hoe het ging, waren je cijfers ongeldig. Maar in de moderne wereld van AI werken we continu. We hebben een nieuw soort "statistiek" nodig die werkt terwijl de data binnenstroomt.

Deze paper introduceert een slimme manier om dit aan te pakken, door het probleem op te delen in drie lagen, net zoals het bouwen van een huis.

De Drie Lagen van het Huis

De auteurs zeggen: "Laten we niet alles door elkaar halen." Ze splitsen het bewijsmateriaal op in drie aparte verdiepingen:

1. De Fundering: De Representatie (Het "Wat")

Stel je voor dat je een weegschaal hebt. De eerste laag gaat over hoe we het gewicht meten.

  • De oude manier: Soms gebruiken we codes of lengtes van beschrijvingen (zoals in compressie-algoritmen) om te zeggen: "Dit is een vreemd patroon."
  • De nieuwe ontdekking: De auteurs tonen aan dat de enige manier om dit perfect en eerlijk te doen, is door te kijken naar de Kansverhouding (Likelihood Ratio).
  • De analogie: Stel je voor dat je twee detectives hebt. Detective A (de "Null") denkt dat alles normaal is. Detective B (de "Alternatief") denkt dat er iets mis is. De "Kansverhouding" is gewoon de score die aangeeft hoeveel meer Detective B gelijk heeft dan Detective A. De paper zegt: "Gebruik deze score. Alles anders is als proberen een auto te bouwen met een hamer in plaats van een sleutel; het werkt misschien, maar het is niet optimaal."

2. De Muren: De Geldigheid (Het "Waarom het veilig is")

Nu we een score hebben, moeten we zeker weten dat we niet per ongeluk een vals alarm slaan. Dit is de Geldigheids-laag.

  • Het probleem: Als je blijft kijken naar je data en stopt zodra je een piek ziet, kun je per ongeluk een fout maken (het "optional stopping" probleem).
  • De oplossing: De paper gebruikt een wiskundig trucje genaamd een Supermartingaal.
  • De analogie: Denk aan een gokker in een casino. Als de casino-eigenaar (de "Null-hypothese") eerlijk is, kan de gokker zijn geld niet oneindig laten groeien. De "Ville's ongelijkheid" (een wiskundige wet) zegt: "Zelfs als de gokker stopt op het moment dat hij het leukst vindt, is de kans dat hij zijn geld verdubbelt, maximaal 50%."
  • Kortom: Deze laag garandeert dat je systeem altijd veilig blijft, of je nu stopt na 1 minuut of na 10 jaar.

3. Het Dak: De Beslissing (Het "Wanneer stoppen")

Nu we een veilige score hebben, moeten we beslissen: Wanneer roepen we de brandweer?

  • De oude manier: "Stop zodra de score 10 is." Dit is veilig, maar traag.
  • De nieuwe manier: De auteurs laten zien dat als je de "Kansverhouding" (laag 1) gebruikt, je veel sneller een fout kunt opsporen.
  • De analogie: Stel je voor dat je een lek in een boot zoekt.
    • De "veilige maar trage" methode is om elke seconde te kijken of er water in komt, maar je wacht tot er een hele emmer water is voordat je roept.
    • De "slimme" methode (deze paper) kijkt naar de snelheid waarmee het water stijgt. Als het water sneller stijgt dan normaal, roep je veel eerder om hulp, zonder dat je de kans op een vals alarm vergroot.

De Grote Valstrikken (Wat niet werkt)

De paper waarschuwt voor twee valkuilen waar veel mensen in trappen:

  1. De "Compressie"-valstrik:
    Veel AI-systemen gebruiken compressie-algoritmen (zoals ZIP-bestanden) om te zien of data "vreemd" is. De paper zegt: "Dit werkt niet voor continue monitoring."

    • Analogie: Een ZIP-bestand kijkt naar het hele bestand om te bepalen hoe groot het moet zijn. Maar als je data stroomt (een live video), kun je niet wachten tot het einde van de video om te weten hoe groot het bestand is. Als je dit toch doet, breekt je veiligheidsgarantie. Je moet een algoritme gebruiken dat "live" werkt (zoals een voorspeller die elke seconde een gok doet).
  2. De "Verkeerde Alternatief"-valstrik:
    Als je het verkeerde alternatief kiest (bijvoorbeeld: je denkt dat de machine kapot is omdat hij te snel werkt, terwijl hij eigenlijk te langzaam werkt), dan zal je systeem nooit een alarm slaan, zelfs niet als er echt iets mis is.

    • Analogie: Het is alsof je een brandmelder hebt die alleen afgaat als het vuur blauw is. Als het vuur oranje is (wat normaal is), doet de meldertje niets, zelfs niet als het huis uitbrandt. Je moet je "alternatief" (wat je verwacht) goed afstemmen op de werkelijkheid.

Waarom is dit belangrijk voor ons?

Deze paper geeft ons een bouwplan voor veilige AI-systemen:

  • Gebruik de juiste score: Gebruik de "Kansverhouding" (Likelihood Ratio) als je wilt weten of een model foutloos is.
  • Bouw de muren goed: Zorg dat je systeem voldoet aan de wiskundige regels (Supermartingalen) zodat je nooit per ongeluk een vals alarm krijgt, ongeacht wanneer je stopt.
  • Maak slimme beslissingen: Gebruik de snelheid van de verandering om sneller te reageren, in plaats van te wachten op een vast getal.

Conclusie:
Vroeger dachten we dat "veiligheid" en "snelheid" tegen elkaar op liepen. Je moest kiezen: of je was veilig maar traag, of snel maar riskant. Deze paper laat zien dat als je de drie lagen (Representatie, Geldigheid, Beslissing) goed scheidt en de juiste wiskunde gebruikt, je beide kunt krijgen: een systeem dat continu leert, veilig is, en direct reageert als er iets misgaat. Het is alsof je een auto bouwt die niet alleen veilig rijdt, maar ook automatisch remt op het exacte moment dat het nodig is, zonder dat de bestuurder hoeft na te denken.