EigenBench: A Comparative Behavioral Measure of Value Alignment

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groep vrienden hebt die allemaal een beetje anders denken over wat "goed" of "mooi" is. Iemand vindt een schreeuwerige feestje geweldig, terwijl een ander het liefst in stilte een boek leest. Als je ze nu vraagt: "Wie is de beste vriend?", krijg je waarschijnlijk geen eenduidig antwoord. Iedereen heeft zijn eigen smaak.

Dit is precies het probleem met kunstmatige intelligentie (AI). We willen weten of een AI "vriendelijk", "eerlijk" of "milieubewust" is. Maar wat voor de één vriendelijk is, kan voor de ander te opdringerig zijn. Er is geen objectieve "juiste" antwoordenlijst voor gevoelens en waarden.

De onderzoekers van dit paper (EigenBench) hebben een slimme oplossing bedacht: Laat de AI's elkaar beoordelen.

Hier is hoe het werkt, vertaald naar een simpel verhaal:

1. De Grote Proef (Het Experiment)

Stel je een groot diner voor met 8 verschillende AI's (zoals Claude, GPT, Gemini, etc.).

De Uitdaging: Er wordt een lijst met regels opgehangen, bijvoorbeeld: "Wees zo vriendelijk mogelijk" of "Bescherm de natuur". Dit noemen ze een 'constitutie'.
De Situatie: De AI's krijgen moeilijke vragen of situaties voorgeschoteld (bijvoorbeeld: "Wat zou je doen als je een verloren portemonnee vindt?"). Ze geven allemaal een antwoord.
De Beoordeling: Nu wordt het interessant. De AI's kijken niet naar de antwoorden van de mensen, maar naar de antwoorden van elkaar. AI A kijkt naar het antwoord van AI B en zegt: "Hé, dat is wel heel aardig!" AI C kijkt naar AI D en zegt: "Nee, dat klinkt nep."

2. De Slimme Rekenmachine (EigenTrust)

Je kunt niet zomaar een gemiddelde nemen. Stel dat AI X een beetje gek is en denkt dat alles wat hij zegt geweldig is, dan moet zijn mening minder wegen. Of stel dat AI Y heel slim is en altijd de beste antwoorden geeft, dan moet zijn mening meer tellen.

De onderzoekers gebruiken een slim algoritme (genaamd EigenTrust, vergelijkbaar met hoe Google webpagina's rangschikt op basis van wie er naar wie linkt).

Het systeem kijkt naar alle oordelen.
Het vraagt zich af: "Wie oordeelt het meest consistent met de groep?"
Als een AI vaak gelijk heeft met de rest van de groep, krijgt hij meer vertrouwen. Als hij vaak alleen maar zijn eigen zin doordrukt, krijgt hij minder vertrouwen.

Uiteindelijk krijg je een ranglijst. Niet gebaseerd op wat de AI's zeggen dat ze zijn, maar op wat ze doen in de ogen van hun collega's.

3. Waarom is dit zo cool? (De Analoge Vergelijkingen)

De "Blind Date" Analoge:
Stel je voor dat je wilt weten wie de beste date is. Je vraagt niet aan de mensen zelf: "Ben ik een goede date?" (want dan zeggen ze allemaal ja). Je vraagt ook niet aan één persoon. Je laat een hele groep mensen elkaar daten en beoordelen. Uiteindelijk zie je een patroon: "Ah, die ene persoon wordt door bijna iedereen als aardig ervaren, zelfs door de mensen die kritisch zijn." Dat is wat EigenBench doet.
De "Smaakproever" Analoge:
Stel je een wijnproeverij voor. Er is geen "beste" wijn, alleen persoonlijke voorkeur. Maar als je 50 experts laat proeven en hun oordelen combineert, kun je een ranglijst maken die de "consensus" weergeeft. EigenBench is die wijnproeverij, maar dan met AI's en ethische waarden.

4. Wat hebben ze ontdekt?

AI's liegen niet (of toch wel?): Als je AI's vraagt: "Ben jij aardig?", zeggen ze allemaal: "Ja, zeker!" (met een score van 7/7). Maar als je ze laat beoordelen op basis van hun daden, zien we dat sommige AI's veel "aardiger" zijn dan ze zelf denken.
Mensen vs. AI: Ze hebben ook mensen gevraagd om te oordelen. Het verrassende resultaat? De AI's oordelen over elkaar bijna net zo goed als mensen dat doen. Ze begrijpen elkaars "smaak" en "waarden" heel goed.
Zelflerend: Het systeem kan zelfs zien welke AI's "karakter" hebben. Als je een AI een "Taoïstische" rol geeft (rustig en natuurlijk), gedraagt hij zich consequent als een Taoïst, zelfs als de vragen veranderen.

5. Het Grote Doel

Dit is een hulpmiddel voor ontwikkelaars. Als je een AI bouwt die "zorgzaam" moet zijn, kun je met EigenBench zien: "Werkt het? Of is hij alleen maar aardig in woorden, maar niet in daden?"

Kortom: EigenBench is een manier om de "ziel" van een AI te meten door te kijken hoe hij zich gedraagt in de ogen van zijn collega's, in plaats van te luisteren naar wat hij zelf zegt. Het is een eerlijke, slimme manier om te meten wat AI's écht waarderen.

Each language version is independently generated for its own context, not a direct translation.

Titel: EigenBench: Een comparatieve gedragsmatige maatstaf voor waarde-alignement

Auteurs: Jonathn Chang, Leonhard Piff, Suvadip Sana, Jasmine X. Li, en Lionel Levine (Cornell University)
Publicatie: ICLR 2026 (Conference Paper)

1. Het Probleem

Het uitlijnen van kunstmatige intelligentie (AI) met menselijke waarden is een urgent, maar onopgelost probleem. Bestaande methoden voor het evalueren van taalmodellen (LLMs) kampen met twee fundamentele beperkingen:

Gebrek aan kwantitatieve metrics voor subjectieve waarden: Veel gewenste eigenschappen (zoals "vriendelijkheid", "loyaliteit" of "diepe ecologie") zijn inherent subjectief. Er bestaat geen objectieve "ground truth" (waarheid) om te bepalen of een antwoord correct is.
Afhankelijkheid van menselijke feedback: Bestaande benchmarks (zoals Chatbot Arena) vertrouwen op menselijke voorkeuren, wat duur, schaalbaarheidsproblemen oplevert en subjectiviteit introduceert die moeilijk te kwantificeren is.

De kernvraag is: Hoe kunnen we subjectieve eigenschappen van taalmodellen kwantificeren wanneer er geen objectief juiste antwoord bestaat en redelijke beoordelaars het oneens kunnen zijn?

2. Methodologie: EigenBench

EigenBench is een "black-box" methode die de waarden van een ensemble van modellen meet door ze elkaar te laten beoordelen. Het systeem gebruikt geen ground-truth labels, maar bouwt een consensus op via wederzijdse evaluatie.

De Input:

Een populatie modellen ( $M$ ): Een set van $N$ modellen die zowel als kandidaat (evaluee) als als beoordelaar (judge) fungeren.
Een constitutie ( $C$ ): Een set van criteria of principes (bijv. "Universele Vriendelijkheid", "Conservatisme", "Diepe Ecologie") die de te meten waarden beschrijven.
Een dataset scenario's ( $S$ ): Een verzameling prompts gebaseerd op real-world situaties (bijv. uit r/AskReddit, OpenAssistant, AIRiskDilemmas).

Het Proces (De Pipeline):

Generatie: Voor een gegeven scenario $S_\ell$ genereren twee modellen ( $M_j, M_k$ ) antwoorden.
Reflectie: Een derde model ( $M_i$ , de judge) reflecteert op elk antwoord afzonderlijk in het licht van de constitutie $C$ .
Vergelijking: De judge $M_i$ vergelijkt de twee antwoorden (en hun reflecties) en bepaalt welke beter aligneert met $C$ , of declareert een gelijkspel. Dit levert een "trit" op: 0 (gelijk), 1 (eerste beter), 2 (tweede beter).
Data Collectie: Dit proces wordt herhaald voor vele paren en scenario's. Om bias te voorkomen (zoals volgorde-effecten), worden vergelijkingen in beide richtingen gedaan.

De Wiskundige Kern:

Bradley-Terry-Davidson (BTD) Model: De verzameling van paarwijze vergelijkingen wordt gebruikt om een laag-rang (low-rank) BTD-model te trainen. In plaats van scalare sterktes, leert het model vectoriële embeddings:
- $v_j$ : De "dispositie" van model $M_j$ (hoe het zich gedraagt ten opzichte van de constitutie).
- $u_i$ : De "lens" van de judge $M_i$ (hoe het model de constitutie interpreteert).
- $\lambda_i$ : De neiging tot gelijkspel.
EigenTrust: Uit deze embeddings wordt een vertrouwensmatrix $T$ afgeleid, waarbij $T_{ij}$ aangeeft hoeveel $M_i$ vertrouwt op de alignement van $M_j$ .
De Score: De uiteindelijke EigenBench-score $t$ voor elk model is de linker-eigenvector van de matrix $T$ met eigenwaarde 1 (vergelijkbaar met PageRank of EigenTrust).
$t_j = \sum_i t_i T_{ij}$
Dit betekent dat een model een hogere score krijgt als het wordt beoordeeld door andere modellen die zelf al een hoge score hebben. Het systeem convergeert naar een gewogen consensus.

Output: Een vector van scores (vaak geconverteerd naar Elo-ratings) die de mate van alignement met de constitutie weergeeft.

3. Belangrijkste Bijdragen

Een nieuwe benchmark voor subjectieve waarden: EigenBench biedt een framework om waarden te meten zonder ground-truth labels, door gebruik te maken van een "sociale consensus" binnen een modelpopulatie.
Validatie tegen menselijke oordelen: Het paper toont aan dat de door modellen gegenereerde rankings sterk correleren met menselijke beoordelingen. De afstand tussen menselijke beoordelaars is vergelijkbaar met de afstand tussen mens en model, wat suggereert dat modellen menselijke oordelen over waarden goed kunnen benaderen.
Recoveren van objectieve rankings: In een verrassende validatie (GPQA-benchmark) slaagde EigenBench erin om modellen te rangschikken op hun kennisniveau (natuurkunde, scheikunde, biologie) zonder de juiste antwoorden te kennen. De gegenereerde ranking was slechts 12 swaps verwijderd van de ground truth, wat aantoont dat de methode ook voor objectieve taken werkt.
Inzicht in modeldisposities: Door de vectoriële embeddings ( $v_j$ en $u_i$ ) te visualiseren, kunnen onderzoekers zien hoe modellen verschillen in hun interpretatie van waarden (bijv. een "seculiere" vs. "heilige" interpretatie van vriendelijkheid).

4. Resultaten

Model Rankings: De methode werd toegepast op 8 top-modellen (o.a. Claude 4, GPT 4.1, Gemini 2.5) voor drie constituties: Universele Vriendelijkheid, Conservatisme en Diepe Ecologie. De resultaten tonen duidelijke verschillen in de "karakter" van de modellen.
Prompted Dispositions: Het onderzoek toonde aan dat hoewel prompts (personas) de grootste variatie in scores verklaren (79%), de onderliggende LLM-architectuur zelf ook een meetbare, persistente dispositie heeft (21%).
Character Training Validatie: EigenBench werd gebruikt om een fine-tuning methode ("Loving constitution") te valideren. Modellen die specifiek waren getraind op deze constitutie scoorden significant hoger dan hun basisversies, wat de effectiviteit van de training bevestigde.
Robuustheid: De scores waren relatief stabiel over verschillende datasetverdelingen (r/AskReddit vs. OASST) en bij variatie in de formulering van de constitutie.
Greenbeard Effect: Het systeem is robuust tegen manipulatie; zelfs als een groep modellen probeert elkaar te bevoordelen via een geheim signaal, blijft de impact op de totale ranking beperkt zolang ze geen meerderheid vormen.

5. Betekenis en Toekomstperspectief

EigenBench is een doorbraak in het veld van AI-veiligheid en evaluatie omdat het de afhankelijkheid van menselijke labels doorbreekt voor subjectieve taken.

Toepassingen: Het kan worden gebruikt voor het creëren van aangepaste leaderboards voor specifieke organisaties, het monitoren van "character training" van AI-assistenten, en het vergelijken van de onderliggende filosofieën van verschillende modellen.
Beperkingen: Het proces is computerefficiëntie-gevoelig (veel API-calls nodig voor reflecties en vergelijkingen).
Toekomst: De auteurs suggereren dat deze methode kan worden uitgebreid naar andere taken zonder ground truth, zoals langetermijnplanning of complexe ethische dilemma's, en dat actieve learning menselijke feedback kan integreren om de efficiëntie te verhogen.

Conclusie: EigenBench bewijst dat een collectieve, wederzijdse evaluatie door AI-modellen een betrouwbare, kwantitatieve maatstaf kan zijn voor de meest subjectieve aspecten van menselijke waarden, en biedt een nieuw paradigma voor het evalueren van AI zonder menselijke tussenkomst.

EigenBench: A Comparative Behavioral Measure of Value Alignment

1. De Grote Proef (Het Experiment)

2. De Slimme Rekenmachine (EigenTrust)

3. Waarom is dit zo cool? (De Analoge Vergelijkingen)

4. Wat hebben ze ontdekt?

5. Het Grote Doel

Titel: EigenBench: Een comparatieve gedragsmatige maatstaf voor waarde-alignement

1. Het Probleem

2. Methodologie: EigenBench

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Toekomstperspectief

Meer zoals dit

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics