On the Learnability of Offline Model-Based Optimization: A Ranking Perspective

Deze paper daagt de aanname uit dat nauwkeurige regressie essentieel is voor offline modelgebaseerde optimalisatie, en introduceert in plaats daarvan een theoretisch kader en een nieuwe methode die zich focust op het rangschikken van ontwerpen om de prestaties aanzienlijk te verbeteren en de inherente beperkingen van extrapolatie bloot te leggen.

Shen-Huan Lyu, Rong-Xi Tan, Ke Xue, Yi-Xiao He, Yu Huang, Qingfu Zhang, Chao Qian

Gepubliceerd 2026-03-05
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een meesterchef bent die de perfecte pizza moet maken. Je hebt echter een groot probleem: je mag de oven niet meer aanraken en je mag geen nieuwe ingrediënten testen. Je hebt alleen een oud logboek van 100 pizza's die in het verleden zijn gemaakt, met de smaakbeoordelingen van de klanten.

Dit is precies het probleem waar Offline Model-Based Optimization (MBO) mee te maken heeft: hoe vind je de beste oplossing (de perfecte pizza) zonder nieuwe experimenten te doen, maar alleen door te kijken naar oude data?

De meeste bestaande methoden proberen een "voorspeller" te bouwen die precies kan zeggen: "Als je deze hoeveelheid kaas gebruikt, wordt de score 8,4." Ze proberen dus de exacte waarde te voorspellen.

De auteurs van dit paper zeggen echter: "Nee, dat is niet het juiste doel!"

Hier is de kern van hun idee, vertaald in een simpel verhaal:

1. Het probleem: De "Exacte Voorspeller" vs. De "Goede Jury"

Stel je voor dat je een jury hebt die pizza's beoordeelt.

  • De oude aanpak (Regressie): De jury probeert elke pizza een exact cijfer te geven. "Deze is een 7,2, die is een 7,3." Als de jury per ongeluk de 7,3 verwarpt met een 7,4, denken ze dat ze een fout hebben gemaakt. Maar voor de chef maakt dat niet uit, zolang ze maar weten welke pizza de beste is.
  • De nieuwe aanpak (Ranking): De jury hoeft niet te weten of een pizza een 7,2 of een 7,3 is. Ze hoeven alleen maar te kunnen zeggen: "Pizza A is duidelijk lekkerder dan Pizza B."

De auteurs bewijzen wiskundig dat het rangschikken (wie is beter dan wie) veel belangrijker en veiliger is dan het exact voorspellen van de score. Als je probeert de exacte score te voorspellen, ga je vaak de mist in bij pizza's die er heel anders uitzien dan de oude pizza's in het logboek (dit noemen ze Out-of-Distribution of OOD). Maar als je alleen kijkt naar de volgorde, ben je veel robuuster.

2. De grote valkuil: De "Verre Berg"

Stel je voor dat je logboek alleen pizza's bevat die op de begane grond zijn gemaakt. De perfecte pizza zit echter op de top van een hoge berg, ver weg van de begane grond.

  • Als je probeert de exacte smaak te voorspellen voor de bergtop, moet je raden. Je zegt misschien: "Op de bergtop is het een 9,5!" (terwijl het misschien een 2 is). Dit is overoptimisme.
  • De paper laat zien dat de grootste fout die je maakt, niet komt door een slechte voorspeller, maar omdat de perfecte pizza's te ver weg liggen van de pizza's in je logboek.

3. De oplossing: "DAR" (De Slimme Chef)

De auteurs bedachten een nieuwe methode genaamd DAR (Distribution-Aware Ranking). In plaats van alle pizza's in het logboek even zwaar te laten tellen, doet DAR het volgende:

  1. Selectie: Ze kijken alleen naar de top-pizza's in het logboek (de "near-optimal" ones) en vergelijken die met de slechte pizza's.
  2. Focus: Ze trainen hun model niet om alles te voorspellen, maar specifiek om de top-pizza's boven de rest te rangschikken.
  3. Aanpassing: Ze zorgen dat het model "leert" dat de wereld er anders uitziet dan alleen de begane grond, door de training te focussen op de gebieden waar de beste pizza's waarschijnlijk zitten.

Het is alsof je een chef niet laat oefenen met het maken van elke pizza, maar alleen met het vergelijken van de beste pizza's uit het verleden om te leren hoe je de beste nieuwe pizza maakt.

4. Wat hebben ze bewezen?

  • Ranking wint: Het is beter om te weten wie "beter" is dan om te weten hoeveel "punten" iets precies waard is.
  • De grens: Er is een grens. Als de perfecte oplossing (de bergtop) te ver weg ligt van wat je in je logboek hebt, kan geen enkele computer het vinden zonder te gokken. Je kunt niet uit een lege doos een perfecte pizza toveren als je nooit hebt gezien hoe de ingrediënten eruitzien.
  • Resultaat: Hun methode (DAR) werkt beter dan 20 andere methoden op verschillende taken, van het ontwerpen van robotpoten tot het vinden van nieuwe medicijnen.

Samenvattend in één zin:

In plaats van te proberen de exacte temperatuur van de oven te voorspellen (wat lastig en foutgevoelig is), leren we de computer simpelweg welke pizza er het lekkerst uitziet vergeleken met de rest, en focussen we daarbij op de gebieden waar de winnaars waarschijnlijk zitten.

Dit paper is dus een waarschuwing aan de wetenschap: Stop met het jagen op perfecte cijfers, en begin met het jagen op de juiste volgorde.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →