Beyond RLHF and NLHF: Population-Proportional Alignment under an Axiomatic Framework

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groep vrienden hebt die samen een film moeten kiezen voor een filmavond. Iedereen heeft zijn eigen smaak: de één houdt van horror, de ander van romantische komedie, en weer een ander van documentaires.

In de wereld van kunstmatige intelligentie (AI) gebeurt iets vergelijkbaars. AI-modellen moeten leren wat mensen leuk of nuttig vinden. Tot nu toe hebben twee populaire methoden (RLHF en NLHF) dit op een simpele manier opgelost: ze kijken naar wat de meeste mensen zeggen en kiezen daarvoor.

Het probleem:
Stel, 51% van de groep wil horror en 49% wil romantiek. De oude methoden kiezen 100% voor horror. De 49% die romantiek wil, krijgt helemaal niets. Dit is niet eerlijk, en het kan zelfs gevaarlijk zijn als een kleine groep mensen probeert het systeem te manipuleren door te liegen over wat ze willen.

De nieuwe oplossing: "Proportionele Alignering"
De auteurs van dit paper (van MIT en de Universiteit van Wisconsin) hebben een nieuwe manier bedacht om AI te trainen. Ze noemen het Population-Proportional Alignment.

Hier is hoe het werkt, vertaald naar alledaagse termen:

1. De "Onzichtbare Groepen"

Het slimme aan deze nieuwe methode is dat je niet hoeft te weten wie tot welke groep hoort. Je hoeft niet te vragen: "Wie is fan van horror?" en "Wie is fan van romantiek?".
De AI kijkt alleen naar de strijd tussen de opties. Als iemand zegt "Ik vind horror beter dan romantiek", en een ander zegt "Ik vind romantiek beter dan horror", probeert de AI te raden hoeveel mensen er eigenlijk in elke groep zitten, puur op basis van deze kleine gevechten. Het is alsof je een detective bent die uit kleine aanwijzingen (wie wint er van wie?) de totale samenstelling van de menigte reconstrueert.

2. De "Rechtvaardige Verdeling"

In plaats van dat de winnaar alles krijgt (zoals bij de oude methoden), zorgt deze nieuwe methode voor een eerlijke verdeling.

Als 51% horror wil en 49% romantiek, dan kiest de AI 51% van de tijd voor horror en 49% van de tijd voor romantiek.
Dit is als een pizza delen: als 51% van de mensen pepperoni willen en 49% kaas, dan krijgt de pizza 51% pepperoni en 49% kaas. Niemand wordt genegeerd.

3. De "Valkuil voor Sjoemelaars"

Een groot probleem bij oude systemen is dat een kleine, slimme groep mensen het systeem kan "hijacken". Als ze maar hard genoeg roepen dat ze iets willen, kan de oude AI denken dat ze de meerderheid zijn.
De nieuwe methode heeft een veiligheidsmechanisme ingebouwd. Het zegt: "Je kunt je favoriete optie wel een beetje meer kansen geven, maar je kunt hem nooit 100% laten winnen tenzij je écht de hele groep bent."

Analogie: Stel je een stemverkiezing voor. Bij de oude methode kon een kleine groep, door slim te stemmen, de hele verkiezing winnen. Bij deze nieuwe methode is er een "glazen plafond": je kunt niet hoger komen dan het percentage mensen dat je echt vertegenwoordigt. Je kunt niet 10% van de stemmen krijgen en dan 50% van de macht claimen.

4. De "Zachte Balans"

De auteurs hebben ook een knop bedacht (een parameter genaamd $\beta$ ).

Draai je de knop helemaal naar links, dan is de AI super eerlijk en verdeelt hij alles precies naar verhouding van de groepen (Proportioneel).
Draai je de knop naar rechts, dan gaat de AI meer kijken naar wat de "meeste" mensen willen (zoals de oude methoden), maar dan nog steeds met een beetje eerlijkheid erbij.
Je kunt dus zelf kiezen hoeveel eerlijkheid je wilt versus hoeveel je wilt dat de meerderheid wint.

Waarom is dit belangrijk?

Vroeger was het alsof AI alleen luisterde naar de luidste stem of de grootste groep. Dit nieuwe systeem luistert naar iedereen, in verhouding tot hoe groot die groep is. Het zorgt ervoor dat minderheden niet verdwijnen en dat niemand het systeem kan bedriegen om meer macht te krijgen dan ze verdienen.

Kort samengevat:
Het is een nieuwe manier om AI te leren luisteren, waarbij de AI niet kiest voor de "winnaar", maar voor een eerlijk compromis dat precies weerspiegelt wie er in de kamer zit. Het is alsof je van een "winnaar-takt" (wie het hardst roept, wint) overstapt op een "proportionele verdeling" (iedereen krijgt zijn deel van de taart).

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Bestaande methoden voor het uitlijnen van kunstmatige intelligentie (AI) met menselijke voorkeuren, zoals Reinforcement Learning from Human Feedback (RLHF) en Nash Learning from Human Feedback (NLHF), hebben een fundamenteel tekortkoming: ze negeerden vaak de ware verdeling van de bevolking van beoordelaars.

Bias en Manipulatie: Conventionele methoden prioriteren vaak de meest wijdverspreide meningen. Dit kan leiden tot beleidsregels die bevooroordeeld zijn ten gunste van bepaalde groepen en vatbaar zijn voor strategische manipulatie.
Onvolledige Representatie: Zowel RLHF (gebaseerd op het Bradley-Terry model) als NLHF (gebaseerd op Nash-evenwichten) produceren vaak deterministische beleidsregels die een enkel alternatief kiezen. Dit faalt in scenario's met cyclische of niet-transitieve voorkeuren (Condorcet-paradox) en weerspiegelt niet de nuance van een heterogene bevolking.
Aannames over Groepsidentiteit: Bestaande benaderingen voor "pluralistische uitlijning" vereisen vaak expliciete kennis van groepsidentiteiten (bijv. "groep A" vs. "groep B"), wat in de praktijk zelden beschikbaar is.

Het centrale probleem is dus: Hoe kunnen we een beleidsregel afleiden uit paarsgewijze vergelijkingen die evenredig overeenkomt met de ware populatieverdeling van voorkeuren, zonder dat we vooraf weten wie tot welke groep behoort?

Methodologie

De auteurs introduceren een nieuw raamwerk gebaseerd op sociale keuzetheorie (social choice theory) dat beleidsregels afstemt op de populatieverdeling via een axioma-gebaseerde aanpak.

1. Axiomatisch Kader

Het paper definieert vier cruciale axioma's die een probabilistische sociale keuzefunctie (PSCF) moet voldoen:

Monotonie: Het verbeteren van de rangschikking van een alternatief mag de kans op selectie niet verlagen.
Pareto-efficiëntie: Als een alternatief door iedereen wordt verkiezen, moet het de voorkeur krijgen.
Populatie-Evenredige Uitlijning (PPA): Het beleid moet minstens zwak evenredig zijn met het aandeel van de bevolking. Als een groep $k$ een aandeel $w_k$ heeft, moet de kans op het kiezen van hun favoriete alternatief $\pi(y_k) \geq \alpha \cdot w_k$ zijn.
Populatie-Gebonden Manipuleerbaarheid (PBM): De incentive voor een groep om strategisch te liegen is begrensd door een lineaire functie van hun ware populatieaandeel. Dit garandeert robuustheid tegen manipulatie.

2. Herwinning van Populatieverdeling

Een kerninzicht is dat de ware populatieverdeling ( $w$ ) niet direct uit paarsgewijze data ( $P$ ) kan worden afgeleid, maar dat een haalbare verzameling van populatieverdelingen ( $\mathcal{W}(P)$ ) wel kan worden geschat.

De auteurs definiëren een bovengrens $u_i$ voor het populatieaandeel van alternatief $i$ : $u_i = \min_{y \neq y_i} P(y_i \succ y)$ .
Ze bewijzen dat het ware aandeel $w_i$ nooit groter kan zijn dan $u_i$ .
Dit leidt tot een polyhedrale buitenbenadering van de mogelijke populatieverdelingen.

**3. Het Voorgestelde Algoritme ( $F^*$ )**

Het algoritme kiest een beleid $\pi$ dat evenredig is met deze conservatieve bovengrenzen $u_i$ :
$\pi(y_i) = \frac{u_i}{\sum_{j} u_j}$
Dit minimaliseert de ergste-case misalignement veroorzaakt door informatieverlies bij paarsgewijze vergelijkingen.

4. Softmax-Relaxatie ( $F_\beta$ )

Om een compromis te sluiten tussen PPA (evenredigheid) en Condorcet-consistentie (het kiezen van de meerderheidswinnaar), introduceren de auteurs een parameter $\beta$ :
$\pi(y_i) = \frac{u_i \exp(\beta u_i)}{\sum_{j} u_j \exp(\beta u_j)}$

Bij $\beta = 0$ is het beleid volledig evenredig (PPA).
Bij $\beta \to \infty$ convergeert het naar een deterministische keuze voor de Condorcet-winnaar (minimax Condorcet methode).

4. Schaalbaarheid (Function Approximation)

Voor Large Language Models (LLMs) wordt een tweefasen offline algoritme voorgesteld:

Fase 1: Schatting van de functie $u(y|x)$ (de minimale winstkans) via een "selector model" $\mu$ getraind op paarsgewijze data.
Fase 2: Training van het beleidsmodel $\pi$ om de geschatte softmax-verdeling te benaderen, met regularisatie ten opzichte van een referentie-model.

Belangrijkste Bijdragen

Theoretische Onmogelijkheid en Oplossing: Het paper toont aan dat de "Random Dictatorship" (perfecte evenredigheid) niet implementeerbaar is via paarsgewijze data, en biedt een nieuw, implementeerbaar alternatief dat de beste mogelijke evenredigheid garandeert binnen de gegeven beperkingen.
Nieuwe Axioma's: Introductie van PPA en PBM als nieuwe standaarden voor eerlijke en robuuste AI-uitlijning.
Axioma-Verificatie: Bewijs dat het voorgestelde raamwerk voldoet aan monotonie, Pareto-efficiëntie, PPA en PBM, terwijl standaardmethodes (RLHF/NLHF) deze axioma's schenden.
Schaalbaar Framework: Een praktische implementatie voor hoge-dimensionale ruimtes (zoals LLMs) die werkt zonder expliciete groepslabels.

Resultaten

De methode is getest op zowel tabulaire data (filmrecombinatie) als grote taalmodellen (Qwen2.5-3B).

Tabulaire Experimenten (MovieLens):
- Win-rate: RLHF en NLHF behalen hoge win-rates (~0.78), maar hebben een PPA-niveau van 0 (ze negeren minderheidsgroepen volledig).
- PPA: Het voorgestelde algoritme ( $F_\beta$ met $\beta=0$ ) bereikt een hoog PPA-niveau (~0.49), wat betekent dat minderheidsgroepen significant beter worden vertegenwoordigd.
- Trade-off: Door $\beta$ te verhogen, neemt de win-rate toe (richting Condorcet) en daalt de PPA, wat de theorie bevestigt.
- Robuustheid: Het voorgestelde algoritme is veel minder vatbaar voor manipulatie (lage PBM-waarden) dan RLHF.
LLM Experimenten (Alpaca-GPT4 & Synthetisch):
- Op synthetische data (kleurvoorkeuren) werd een duidelijke trade-off waargenomen tussen win-rate en PPA, wat aantoont dat $\beta$ effectief de balans regelt.
- Op de Alpaca-dataset (met expertise- en stijlgroepen) was het effect minder scherp door ruis in de annotatie, maar het algoritme slaagde er wel in om de populatieverdeling te benaderen zonder vooraf bekende labels.
- De computational cost is vergelijkbaar met RLHF en hoger dan DPO, maar schaalbaar via LoRA.

Betekenis en Impact

Dit paper vormt een belangrijke verschuiving in het onderzoek naar AI-uitlijning:

Van "Win-rate" naar "Representativiteit": Het daagt de huidige focus op het maximaliseren van de win-rate uit en pleit voor systemen die de diversiteit van de menselijke bevolking eerlijk representeren.
Onafhankelijkheid van Labels: Het lost het probleem op van het ontbreken van expliciete groepslabels, wat cruciaal is voor toepassing in de echte wereld waar demografische data vaak niet beschikbaar is.
Robuustheid: Door manipulatie te begrenzen via axioma's, biedt het een veiligere basis voor het uitlijnen van AI-systemen in politiek of sociaal gevoelige contexten.
Brug tussen Disciplines: Het verbindt effectief Reinforcement Learning met de wiskundige strengheid van de sociale keuzetheorie, wat leidt tot nieuwe inzichten in de fundamentele beperkingen van huidige methoden.

Kortom, het paper biedt een theoretisch onderbouwde en praktisch toepasbare methode om AI-systemen te bouwen die niet alleen "winnen" volgens de meerderheid, maar die de volledige diversiteit van de menselijke voorkeuren respecteren en beschermen tegen manipulatie.

Beyond RLHF and NLHF: Population-Proportional Alignment under an Axiomatic Framework

1. De "Onzichtbare Groepen"

2. De "Rechtvaardige Verdeling"

3. De "Valkuil voor Sjoemelaars"

4. De "Zachte Balans"

Waarom is dit belangrijk?

Probleemstelling

Methodologie

1. Axiomatisch Kader

2. Herwinning van Populatieverdeling

3. Het Voorgestelde Algoritme (F∗F^*F∗)

4. Softmax-Relaxatie (FβF_\betaFβ​)

4. Schaalbaarheid (Function Approximation)

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

IC3-Evolve: Proof-/Witness-Gated Offline LLM-Driven Heuristic Evolution for IC3 Hardware Model Checking

Structural Segmentation of the Minimum Set Cover Problem: Exploiting Universe Decomposability for Metaheuristic Optimization

To Throw a Stone with Six Birds: On Agents and Agenthood

Position: Science of AI Evaluation Requires Item-level Benchmark Data

Toward Full Autonomous Laboratory Instrumentation Control with Large Language Models

**3. Het Voorgestelde Algoritme ( $F^*$ )**

4. Softmax-Relaxatie ( $F_\beta$ )