[Re] FairDICE: A Gap Between Theory And Practice

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren een taak uitvoeren, zoals het verzorgen van een patiënt of het besturen van een vrachtwagen. In de echte wereld is het vaak te gevaarlijk of te duur om die robot te laten 'leren door te proberen' (online leren). Je kunt een robot niet laten oefenen met het besturen van een auto in het drukke verkeer als hij misschien een ongeluk veroorzaakt.

Daarom gebruiken onderzoekers Offline Reinforcement Learning. In plaats van te oefenen in de echte wereld, leren ze de robot puur op basis van een oude logboek van gedane acties (een dataset).

Maar hier zit een addertje onder het gras: vaak moet de robot meerdere dingen tegelijk goed doen, en die dingen staan soms haaks op elkaar.

Voorbeeld: Een robotarts moet de patiënt genezen (doel 1), maar ook de kosten laag houden (doel 2) en de pijn zo min mogelijk maken (doel 3). Als je de robot alleen leert om de kosten laag te houden, geneest hij de patiënt misschien niet goed. Als je hem alleen leert om te genezen, wordt het een dure ramp.

De oorspronkelijke studie (FairDICE) claimde een slimme oplossing te hebben gevonden: een robot die automatisch leert hoe hij deze doelen eerlijk kan balanceren, zonder dat een mens handmatig moet zeggen "geef 50% prioriteit aan kosten en 50% aan genezing".

Deze nieuwe paper is een replicatiestudie. Dat betekent: een groep andere onderzoekers heeft geprobeerd de code van de oorspronkelijke auteurs te kopiëren en te testen om te zien of het echt werkt zoals beloofd.

Hier is wat ze hebben ontdekt, vertaald in simpele taal:

1. De Grote Blunder: De "Televisie-afstandsbediening"

De onderzoekers vonden een enorme fout in de code van de oorspronkelijke studie.

De analogie: Stel je voor dat je een robot leert met een afstandsbediening. De robot moet leren welke knop hij moet indrukken op basis van een instructie (de "gewichten" die de eerlijkheid bepalen). Maar door een programmeerfout (een 'broadcasting error') gaf de robot de instructie door aan alle knoppen tegelijk, in plaats van alleen aan de juiste.
Het gevolg: De robot luisterde helemaal niet naar de slimme instructies over eerlijkheid. Hij deed gewoon wat hij in het logboek zag: imitatie. Hij werd een perfecte kopie van de oude robot, zonder enige aanpassing voor eerlijkheid.
De ironie: Omdat de robot gewoon kopieerde, leek hij heel stabiel en goed te presteren in de oorspronkelijke test. De onderzoekers dachten: "Wow, dit werkt perfect!" Maar in werkelijkheid deed hij niets van de slimme magie die beloofd was. Het was alsof je een auto test die geen motor heeft, maar wel perfect rijdt omdat hij op een rolband ligt.

2. Wat gebeurt er als we de fout herstellen?

Toen de onderzoekers de code hebben gerepareerd en de robot echt de "eerlijkheids-instructies" liet lezen, veranderde het plaatje drastisch:

Het werkt wel, maar is kieskeurig: De robot kan nu wel eerlijke beslissingen nemen, maar hij is extreem gevoelig voor de instellingen (de "hyperparameters"). Je moet de robot heel precies vertellen hoe streng hij moet zijn.
De "Regelkracht" (Beta): Stel je voor dat je een strengheid-instelling hebt. Als je deze te laag zet, doet de robot zijn eigen ding (en faalt hij vaak). Als je hem te hoog zet, doet hij precies wat in het logboek staat (en is hij niet eerlijker dan de oude robot). Er is geen "standaard" instelling die voor elke situatie werkt.
Conclusie: De theorie is mooi, maar in de praktijk moet je de robot in een live omgeving blijven testen om de juiste instelling te vinden. Dat is net wat je in "offline" leren juist wilt vermijden (omdat je geen live test kunt doen).

3. De Goede Nieuws: Het kan wel groeien!

Ondanks de fouten en de kieskeurigheid, vonden de onderzoekers ook positieve dingen:

Hoge complexiteit: De robot kon prima werken in omgevingen met heel veel doelen tegelijk (bijvoorbeeld 100 verschillende beloningen) en zelfs als hij moest kijken naar beelden (zoals een camera) in plaats van alleen cijfers.
Negatieve beloningen: Hij kon ook werken met situaties waar "punten" eigenlijk negatief zijn (zoals kosten of pijn), zolang de totale uitkomst maar positief blijft.

Samenvatting in één zin

De oorspronkelijke studie had een briljant idee voor een eerlijke robot, maar door een programmeerfout leek het alsof het al perfect werkte. Toen de fout werd opgelost, bleek de robot wel te kunnen leren, maar is hij veel minder betrouwbaar en makkelijker te gebruiken dan eerst werd beweerd; je moet hem nog steeds heel nauwkeurig afstellen.

De les voor de wetenschap:
Het is een herinnering dat je niet alleen naar de mooie resultaten in een paper moet kijken, maar ook naar de code erachter. Soms is de "magie" in de resultaten gewoon een toevalstreffer door een foutje. De theorie van FairDICE is interessant, maar de praktijk heeft nog veel werk nodig om echt betrouwbaar te worden.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Offline Reinforcement Learning (RL) is een veld waarin beleidsstrategieën (policies) worden geleerd uitsluitend op basis van bestaande datasets, zonder interactie met de omgeving. In veel real-world toepassingen (zoals geneeskunde of robotica) zijn er vaak meerdere, soms conflicterende doelen die tegelijkertijd moeten worden geoptimaliseerd. Het is echter moeilijk om een "eerlijk" compromis te vinden tussen deze doelen zonder online evaluatie, wat vaak te riskant of onhaalbaar is.

Bestaande methoden voor multi-objective RL vereisen vaak dat de verschillende beloningen worden samengevoegd tot één scalar (bijvoorbeeld via een gewogen som). Het bepalen van de juiste gewichten zodat het resultaat eerlijk is (bijvoorbeeld volgens de Nash Social Welfare), is echter niet triviaal. De auteurs van het originele paper (Kim et al., 2025a) introduceerden FairDICE, een algoritme dat gebaseerd is op OptiDICE en beweert automatisch de gewichten voor meerdere doelen te kunnen leren om eerlijkheid te bevorderen, zonder online evaluatie.

Methodologie en Replicatie

De auteurs van dit replicatiestudie onderzochten de claims van FairDICE door experimenten te herhalen in zowel discrete als continue omgevingen. Ze gebruikten de publieke code van Kim et al. en vergeleken deze met de theoretische beschrijving in het originele paper.

Tijdens de analyse ontdekten ze twee kritieke discrepanties tussen de theorie en de implementatie:

Broadcasting-fout in de Policy Loss (Continue omgevingen): In de publieke code was er een fout in de berekening van de policy loss. Door een shape-mismatch in de tensor-operaties (vermenigvuldigen van een tensor van vorm (batch, 1) met (batch,)) werd er per ongeluk een buitenproduct (outer product) gebruikt in plaats van een elementsgewijze vermenigvuldiging. Hierdoor werden de geleerde belangsgewichten ( $w^*$ $w^{*}$ ) genegeerd en kregen alle acties dezelfde weging.
- Gevolg: In continue omgevingen gedroeg FairDICE zich in feite als standaard Behaviour Cloning (BC), wat verklaarde waarom het algoritme in het originele paper zo robuust leek te zijn voor verschillende hyperparameters.
Extra Gradient Penalty: De code bevatte een extra regularisatieterm voor de critic die de gladheid van de waarde-functie moest bevorderen. Deze term werd niet vermeld in het paper. De auteurs concludeerden dat deze term geen invloed had omdat de critic door de bovenstaande fout geen invloed had op het getrainde beleid.

Na het corrigeren van de code (zodat het weighted behaviour cloning correct uitvoert) en het toevoegen van ontbrekende details (zoals hyperparameters voor discrete omgevingen), voerden ze uitgebreide experimenten uit.

Belangrijkste Resultaten

1. Discrete Omgevingen (Toy Tasks):

De theoretische claims bleken grotendeels te kloppen. FairDICE slaagde erin om een gebalanceerd beleid te leren dat alle doelen ongeveer even vaak bereikte, terwijl het de totale utiliteit (welfare) verbeterde ten opzichte van de data-collectie policy.
De hyperparameters $\alpha$ (voor fairnesstype) en $\beta$ (voor regularisatiesterkte) hadden het verwachte effect: hogere $\alpha$ leidde tot eerlijkere verdelingen ten koste van totale utiliteit, en hogere $\beta$ dreef het beleid dichter naar de originele data-policy.

2. Continue Omgevingen (D4MORL Benchmark):

De originele resultaten waren misleidend: De prestaties die in het originele paper werden getoond, waren het gevolg van de BC-fout.
Gevoeligheid voor hyperparameters: Zodra FairDICE correct werd geïmplementeerd, bleek het extreem gevoelig voor de keuze van de regularisatieparameter $\beta$ . Er was geen duidelijke patroon om $\beta$ te kiezen over verschillende omgevingen heen.
Prestaties: In sommige omgevingen (zoals HalfCheetah) presteerde het gecorrigeerde FairDICE beter dan de baselines, maar in andere (zoals Hopper) presteerde het slechter dan standaard Behaviour Cloning, zelfs met tuning.
Conclusie: Claim 2.1 (dat FairDICE robuust is over een breed scala aan $\beta$ -waarden) is onjuist.

3. Uitbreidingen en Schaalbaarheid:

Negatieve Beloningen: FairDICE kan werken met negatieve beloningen, zelfs zonder normalisatie, mits de verwachte totale return positief is.
Vooroordeel in Data: Het algoritme kan de onrechtvaardigheid in een dataset gedeeltelijk corrigeren, maar faalt als de dataset extreem vooroordeelsbehept is (bijv. 80/10/10% verdeling).
Hoge Dimensies: FairDICE schaalt goed naar omgevingen met 100 doelen (GroupFair) en complexe beeldgebaseerde observaties (Minecart-RGB). In deze complexe omgevingen was het minder gevoelig voor $\beta$ dan in de D4MORL-taken.

Kernbijdragen van de Replicatie

Identificatie van een kritieke bug: Het blootleggen van de broadcasting-fout die FairDICE in continue omgevingen reduceerde tot standaard Behaviour Cloning.
Correctie van claims: Het weerleggen van de claim dat FairDICE robuust is tegenover hyperparameterkeuzes zonder tuning.
Validatie van theorie: Bevestiging dat de theoretische basis van FairDICE (het leren van gewichten voor eerlijkheid) werkt in discrete omgevingen en complexe scenario's, mits correct geïmplementeerd.
Uitgebreide evaluatie: Het testen van het algoritme in nieuwe scenario's (hoge dimensie, beeldinput, negatieve beloningen) die niet in het originele paper werden behandeld.

Significantie en Conclusie

Dit replicatiestudie benadrukt het belang van open source code en reproduceerbaarheid in het RL-veld. Hoewel FairDICE een theoretisch interessant en waardevol concept is voor het automatisch balanceren van meerdere doelen in offline RL, is de experimentele onderbouwing in het originele paper aanzienlijk gewijzigd.

De belangrijkste conclusie is dat FairDICE niet "plug-and-play" is in continue omgevingen; het vereist aanzienlijke online hyperparameter-tuning (specifiek voor $\beta$ ) om goed te presteren, wat de toepasbaarheid in strikt offline settings beperkt. De methode toont echter veelbelovende schaalbaarheid naar complexe en hoog-dimensionele problemen, wat een waardevolle basis vormt voor toekomstig onderzoek, mits de implementatieproblemen worden opgelost en de afhankelijkheid van tuning wordt gemitigeerd.

[Re] FairDICE: A Gap Between Theory And Practice

1. De Grote Blunder: De "Televisie-afstandsbediening"

2. Wat gebeurt er als we de fout herstellen?

3. De Goede Nieuws: Het kan wel groeien!

Samenvatting in één zin

Probleemstelling

Methodologie en Replicatie

Belangrijkste Resultaten

Kernbijdragen van de Replicatie

Significantie en Conclusie

Meer zoals dit

Integrating Artificial Intelligence, Physics, and Internet of Things: A Framework for Cultural Heritage Conservation

Scaling DPPs for RAG: Density Meets Diversity

DRAFT: Task Decoupled Latent Reasoning for Agent Safety

General Explicit Network (GEN): A novel deep learning architecture for solving partial differential equations

Apparent Age Estimation: Challenges and Outcomes