Unifying On- and Off-Policy Variance Reduction Methods

Dit artikel overbrugt de kloof tussen online en off-policy experimenten door wiskundig te bewijzen dat hun veelgebruikte variantiereductiemethoden, zoals Difference-in-Means en regressie-aanpassing, structureel equivalent zijn aan respectievelijk optimale inverse propensity scoring en doubly robust schatting.

Olivier Jeunen

Gepubliceerd Tue, 10 Ma
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je de eigenaar bent van een enorme, drukke supermarkt. Je wilt weten of het veranderen van de kleur van een product (bijvoorbeeld van blauw naar rood) ervoor zorgt dat mensen het vaker kopen.

In de wereld van data en technologie zijn er twee manieren om dit te testen, en tot nu toe hebben de mensen die deze twee methoden gebruiken alsof ze in totaal verschillende landen wonen, met verschillende talen en verschillende gereedschappen.

Dit paper, geschreven door Olivier Jeunen, is als een tolk die zegt: "Stop met die twee landen te scheiden! Het zijn eigenlijk precies dezelfde dingen, alleen anders verpakt."

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. De Twee Werelden: De "Live Test" vs. De "Retro-Actie"

De Live Test (Online A/B-test):
Stel je voor dat je halve klanten in de supermarkt een blauw product geeft en de andere helft een rood product. Je telt direct hoeveel mensen wat kopen. Dit is de standaardmethode. Je kijkt naar het verschil in gemiddelde verkoop tussen de twee groepen.

  • Het probleem: Soms is het verschil in verkoop niet door de kleur, maar omdat de ene groep toevallig meer rijke mensen bevatte of meer haast had. Dit maakt je meting "ruisig" (onnauwkeurig).

De Retro-Actie (Off-Policy Evaluation):
Stel je voor dat je geen nieuwe test kunt doen (te duur of te riskant), maar je hebt wel een oude logboek van de afgelopen maand. Je wilt weten: "Als we nu allemaal rood hadden verkocht, wat was er dan gebeurd?" Je gebruikt wiskunde om die oude data te "herwegen" alsof de mensen toen al rood hadden gekregen.

  • Het probleem: Omdat je probeert een toekomst te voorspellen op basis van een verleden dat er anders uitzag, is deze berekening vaak erg onnauwkeurig en vol met ruis.

2. De Grote Ontdekking: Het zijn dezelfde gereedschappen!

De auteur toont aan dat de wiskundige formules die deze twee groepen gebruiken, eigenlijk identiek zijn. Hij pakt twee bekende concepten en laat zien dat ze elkaars spiegelbeeld zijn:

Vergelijking A: De "Gemiddelde Verschil" vs. De "Slimme Weegschaal"

  • Online: Je gebruikt een simpele "Difference-in-Means" (verschil in gemiddelde). Je telt gewoon op en deelt door het aantal mensen.
  • Offline: Je gebruikt "Inverse Propensity Scoring" (IPS). Dit is als een weegschaal die je oude data zwaarder of lichter maakt om het eerlijk te maken.
  • De Magie: De auteur bewijst dat als je die offline weegschaal een heel slimme "hulp" geeft (een zogenaamde control variate, ofwel een correctiefactor die de ruis wegneemt), je precies uitkomt op dezelfde formule als de simpele online teller.
  • De Analogie: Het is alsof je zegt: "Als ik mijn oude notities (offline) zorgvuldig corrigeer met een slimme formule, kom ik uit op exact hetzelfde antwoord als wanneer ik nu gewoon een nieuwe test zou doen (online)."

Vergelijking B: De "Voorspeller" vs. De "Dubbelzekere Methode"

  • Online: Mensen gebruiken hier vaak "CUPED" of "ML-RATE". Dit is alsof je, voordat je de test doet, al weet dat mensen met een iPhone meer kopen dan mensen met een Android. Je trekt dit "iPhone-effect" al af van je resultaten om de ruis te verkleinen. Je kijkt alleen naar het verschil dat overblijft.
  • Offline: In de offline wereld noemen ze dit "Doubly Robust" (Dubbel Robuust). Het klinkt ingewikkeld, maar het is simpel: je combineert de weegschaal (IPS) met een voorspeller (een model dat zegt wat er zou gebeuren).
  • De Magie: De auteur laat zien dat als je die offline "Dubbel Robuuste" methode gebruikt zonder te kijken naar specifieke acties (alleen naar de context, zoals "is het een iPhone?"), je precies dezelfde wiskunde gebruikt als de online "CUPED"-methode.
  • De Analogie: Het is alsof je twee verschillende recepten voor een taart hebt. Het ene recept heet "CUPED" en het andere "Doubly Robust". Maar als je de ingrediënten (de wiskunde) naast elkaar legt, zie je dat het exact hetzelfde recept is, alleen geschreven in een ander taal.

3. Waarom is dit belangrijk? (De "Aha!"-momenten)

  1. Geen meer "Toren van Babel": De mensen die online testen doen en de mensen die offline data analyseren, praten vaak langs elkaar heen. Ze denken dat ze verschillende problemen oplossen. Dit paper zegt: "Jullie zijn broers en zussen! Gebruik elkaars ideeën!"
  2. Slimmer rekenen: Omdat we nu weten dat het hetzelfde is, kunnen we de slimme trucjes van de ene wereld toepassen in de andere.
    • Voorbeeld: De offline wereld heeft een slimme manier gevonden om de "rekenfouten" (degrees of freedom) in je berekening te corrigeren. De auteur zegt: "Jullie online testers doen dit ook, maar jullie doen het per ongeluk op een andere manier. Als jullie onze correctie gebruiken, wordt jullie berekening nog nauwkeuriger."
  3. Toekomst: Nu we weten dat deze methoden verbonden zijn, kunnen we nog slimmere methoden bouwen. Misschien kunnen we in de toekomst online tests doen die nog slimmer zijn door te leren van de complexe modellen die offline experts al gebruiken.

Samenvattend

Stel je voor dat twee teams een brug bouwen. Team A bouwt aan de linkeroever en Team B aan de rechteroever. Ze denken dat ze twee verschillende bruggen bouwen.
Dit paper is de ingenieur die over het water roept: "Kijk eens! Jullie gebruiken precies dezelfde stenen, dezelfde cement en dezelfde blauwdrukken. Jullie bouwen één brug!"

Door dit in te zien, kunnen ze nu samenwerken, elkaars fouten oplossen en een nog stevigere brug bouwen voor de toekomst.