Beyond RLHF and NLHF: Population-Proportional Alignment under an Axiomatic Framework

Dit artikel introduceert een nieuw raamwerk voor voorkeursleren dat, gebaseerd op sociale keuzetheorie, beleidsvorming in verhouding brengt met de ware populatieverdeling van evaluatoren om manipulatie en bias te voorkomen, terwijl het fundamentele axioma's respecteert en een compromis biedt met de Condorcet-winnaar.

Kihyun Kim, Jiawei Zhang, Asuman Ozdaglar, Pablo A. Parrilo

Gepubliceerd 2026-03-03
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groep vrienden hebt die samen een film moeten kiezen voor een filmavond. Iedereen heeft zijn eigen smaak: de één houdt van horror, de ander van romantische komedie, en weer een ander van documentaires.

In de wereld van kunstmatige intelligentie (AI) gebeurt iets vergelijkbaars. AI-modellen moeten leren wat mensen leuk of nuttig vinden. Tot nu toe hebben twee populaire methoden (RLHF en NLHF) dit op een simpele manier opgelost: ze kijken naar wat de meeste mensen zeggen en kiezen daarvoor.

Het probleem:
Stel, 51% van de groep wil horror en 49% wil romantiek. De oude methoden kiezen 100% voor horror. De 49% die romantiek wil, krijgt helemaal niets. Dit is niet eerlijk, en het kan zelfs gevaarlijk zijn als een kleine groep mensen probeert het systeem te manipuleren door te liegen over wat ze willen.

De nieuwe oplossing: "Proportionele Alignering"
De auteurs van dit paper (van MIT en de Universiteit van Wisconsin) hebben een nieuwe manier bedacht om AI te trainen. Ze noemen het Population-Proportional Alignment.

Hier is hoe het werkt, vertaald naar alledaagse termen:

1. De "Onzichtbare Groepen"

Het slimme aan deze nieuwe methode is dat je niet hoeft te weten wie tot welke groep hoort. Je hoeft niet te vragen: "Wie is fan van horror?" en "Wie is fan van romantiek?".
De AI kijkt alleen naar de strijd tussen de opties. Als iemand zegt "Ik vind horror beter dan romantiek", en een ander zegt "Ik vind romantiek beter dan horror", probeert de AI te raden hoeveel mensen er eigenlijk in elke groep zitten, puur op basis van deze kleine gevechten. Het is alsof je een detective bent die uit kleine aanwijzingen (wie wint er van wie?) de totale samenstelling van de menigte reconstrueert.

2. De "Rechtvaardige Verdeling"

In plaats van dat de winnaar alles krijgt (zoals bij de oude methoden), zorgt deze nieuwe methode voor een eerlijke verdeling.

  • Als 51% horror wil en 49% romantiek, dan kiest de AI 51% van de tijd voor horror en 49% van de tijd voor romantiek.
  • Dit is als een pizza delen: als 51% van de mensen pepperoni willen en 49% kaas, dan krijgt de pizza 51% pepperoni en 49% kaas. Niemand wordt genegeerd.

3. De "Valkuil voor Sjoemelaars"

Een groot probleem bij oude systemen is dat een kleine, slimme groep mensen het systeem kan "hijacken". Als ze maar hard genoeg roepen dat ze iets willen, kan de oude AI denken dat ze de meerderheid zijn.
De nieuwe methode heeft een veiligheidsmechanisme ingebouwd. Het zegt: "Je kunt je favoriete optie wel een beetje meer kansen geven, maar je kunt hem nooit 100% laten winnen tenzij je écht de hele groep bent."

  • Analogie: Stel je een stemverkiezing voor. Bij de oude methode kon een kleine groep, door slim te stemmen, de hele verkiezing winnen. Bij deze nieuwe methode is er een "glazen plafond": je kunt niet hoger komen dan het percentage mensen dat je echt vertegenwoordigt. Je kunt niet 10% van de stemmen krijgen en dan 50% van de macht claimen.

4. De "Zachte Balans"

De auteurs hebben ook een knop bedacht (een parameter genaamd β\beta).

  • Draai je de knop helemaal naar links, dan is de AI super eerlijk en verdeelt hij alles precies naar verhouding van de groepen (Proportioneel).
  • Draai je de knop naar rechts, dan gaat de AI meer kijken naar wat de "meeste" mensen willen (zoals de oude methoden), maar dan nog steeds met een beetje eerlijkheid erbij.
    Je kunt dus zelf kiezen hoeveel eerlijkheid je wilt versus hoeveel je wilt dat de meerderheid wint.

Waarom is dit belangrijk?

Vroeger was het alsof AI alleen luisterde naar de luidste stem of de grootste groep. Dit nieuwe systeem luistert naar iedereen, in verhouding tot hoe groot die groep is. Het zorgt ervoor dat minderheden niet verdwijnen en dat niemand het systeem kan bedriegen om meer macht te krijgen dan ze verdienen.

Kort samengevat:
Het is een nieuwe manier om AI te leren luisteren, waarbij de AI niet kiest voor de "winnaar", maar voor een eerlijk compromis dat precies weerspiegelt wie er in de kamer zit. Het is alsof je van een "winnaar-takt" (wie het hardst roept, wint) overstapt op een "proportionele verdeling" (iedereen krijgt zijn deel van de taart).

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →