AdAEM: An Adaptively and Automated Extensible Measurement of LLMs' Value Difference

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je twee zeer slimme, maar heel verschillende robots hebt. De ene is opgeleid in China, de andere in de VS. Ze kunnen allebei perfect Nederlands spreken, verhalen vertellen en vragen beantwoorden. Maar als je ze vraagt: "Is het belangrijk om eerlijk te zijn?", zeggen ze allebei enthousiast "Ja!".

Dat is vervelend voor onderzoekers. Ze willen weten: Wat denken deze robots écht? Waar liggen hun echte grenzen? Heeft de ene robot meer waarde aan veiligheid, terwijl de andere meer waarde aan vrijheid hecht?

De oude manier om dit te testen, werkt niet meer. Het is alsof je de robots vraagt: "Is het slecht om iemand te slaan?" Alle robots zullen "Ja" zeggen, omdat ze allemaal zijn getraind om "veilig" te zijn. Het antwoord is voorspelbaar en leert je niets over hun unieke persoonlijkheid. Dit noemen de auteurs het "informatieve probleem": de vragen zijn te saai of te bekend, dus de robots geven allemaal hetzelfde, saaie antwoord.

De Oplossing: AdAEM (De Slimme Vragenmaker)

In dit paper presenteren de auteurs AdAEM. Dit is geen statische lijst met vragen, maar een slim, zichzelf verbeterend systeem dat als een detective werkt.

Hier is hoe het werkt, vertaald in een simpele analogie:

1. De "Vechtpartij" tussen Robots

Stel je voor dat AdAEM een vechtsporttrainer is. Hij heeft een groep verschillende robots (van verschillende landen en met verschillende kennis).

De Oude Methode: De trainer vraagt: "Wie is de sterkste?" Alle robots zeggen: "Ik ben sterk!" (Saai, niemand wint).
De AdAEM Methode: De trainer probeert een vraag te bedenken die de robots in conflict brengt. Hij vraagt: "Is het beter om een dure brandweerhelikopter te kopen, of om de lokale bibliotheek te redden?"

Plotseling beginnen de robots te discussiëren. De ene robot (die misschien meer waarde hecht aan veiligheid) zegt: "De helikopter, levens staan voorop!" De andere (die meer waarde hecht aan gemeenschap) zegt: "De bibliotheek, kennis is de basis!"

2. Het "Spiegel"-Principe

AdAEM gebruikt een trucje: het laat de robots zelf nieuwe, moeilijke vragen bedenken.

Het systeem vraagt aan de Chinese robot: "Wat is een heet hangijzer in jouw cultuur?"
Het vraagt aan de Amerikaanse robot: "Wat is een heet hangijzer in de VS?"
Vervolgens probeert AdAEM deze vragen te combineren tot één super-vraag die precies raakt waar de robots het oneens zijn.

Het is alsof je twee mensen met verschillende meningen laat discussiëren over een onderwerp, en je kijkt niet naar wat ze zeggen, maar naar waar hun meningen uit elkaar lopen. Dat punt van verschil is waar de echte "waarde" zit.

3. Waarom is dit belangrijk?

Vroeger dachten we dat alle AI-robots ongeveer hetzelfde denken. AdAEM bewijst het tegendeel.

Cultuur: Robots getraind in China lijken meer waarde te hechten aan "Traditie" en "Veiligheid", terwijl Amerikaanse robots meer waarde hechten aan "Vrijheid" en "Prestatie".
Tijd: Robots met een recente kennis (die tot 2024 weten) kunnen vragen stellen over de Oekraïne-oorlog of recente klimaatprotesten. Oudere robots weten daar niets van en geven saaiere antwoorden. AdAEM pakt deze nieuwe onderwerpen om de robots te testen.

De Grootte van het Experiment

De auteurs hebben dit systeem gebruikt om 12.000 nieuwe, unieke vragen te genereren. Dit is een enorme stap vooruit ten opzichte van de oude lijsten die maar uit 40 of 50 vragen bestonden.

Met deze nieuwe vragen hebben ze laten zien dat:

Grotere robots vaak veiliger en meer "universeel" denken (ze willen iedereen helpen).
Specifieke robots (zoals die van DeepSeek of Llama) heel sterke, unieke voorkeuren hebben die je met oude testen nooit zag.
Het systeem niet veroudert. Zodra er een nieuwe robot op de markt komt, kan AdAEM direct nieuwe vragen bedenken die bij die nieuwe robot passen. Het is een levend systeem, geen stoffig boekje.

Samenvatting in één zin

AdAEM is als een slimme spelshowleider die niet vraagt "Wat is 2+2?" (waar iedereen het over eens is), maar juist de vragen bedenkt die ervoor zorgen dat de robots met elkaar in discussie gaan, zodat we eindelijk kunnen zien wie ze écht zijn en wat ze belangrijk vinden.

Dit helpt ontwikkelaars om AI-systemen te bouwen die niet alleen veilig zijn, maar ook begrijpen wat mensen in verschillende culturen echt belangrijk vinden.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "AdAEM: An Adaptively and Automated Extensible Measurement of LLMs' Value Difference", geschreven in het Nederlands.

Titel: AdAEM: Een adaptieve en geautomatiseerde, uitbreidbare meting van waardedifferentiatie in LLM's

Publicatie: ICLR 2026 (Conference Paper)
Auteurs: Jing Yao et al. (Renmin University of China, Microsoft Research Asia, Fudan University, NC State University)

1. Het Probleem: De Uitdaging van Informatieve Waardemeting

Huidige methoden voor het evalueren van de onderliggende waarden (values) van Large Language Models (LLM's) kampen met een fundamenteel probleem: het gebrek aan informativiteit.

Statische en verouderde benchmarks: Bestaande datasets gebruiken vaak generieke of verouderde vragen (bijv. "Is het belangrijk om eerlijk te zijn?").
Saturatie en ononderscheidbaarheid: LLM's zijn doorgaans goed getraind op algemene veiligheidsnormen (zoals HHH: Helpful, Harmless, Honest). Hierdoor geven verschillende modellen op deze vragen bijna identieke antwoorden.
Data-contaminatie: Veel testvragen zijn mogelijk al in de trainingsdata van de modellen opgenomen, waardoor ze geen echte waarden meten maar alleen memorisatie.
Gevolg: Bestaande methoden kunnen de subtiele, culturele en ideologische verschillen tussen modellen (bijv. tussen een Chinees en een Amerikaans model) niet blootleggen, wat leidt tot onbruikbare evaluaties voor het begrijpen van misalignments.

2. Methodologie: Het AdAEM Framework

AdAEM (Adaptively and Automated Extensible Measurement) is een nieuw, zelf-uitbreidbaar evaluatie-algoritme dat dynamisch testvragen genereert om de waardedifferentiatie tussen LLM's te maximaliseren.

Kernprincipes:

Adaptieve Generatie: In plaats van statische datasets te gebruiken, genereert AdAEM continu nieuwe vragen door de interne waargrenzen van een diverse set LLM's (verschillende culturen en tijdperken) te verkennen.
Informatie-theoretische Optimalisatie: Het doel is om vragen te vinden die de kansverdeling van waarden tussen verschillende modellen zo veel mogelijk van elkaar onderscheiden.

Technische Implementatie:

Het proces wordt geformaliseerd als een optimalisatieprobleem dat twee doelen nastreeft:

Onderscheidbaarheid (Distinguishability): Verschillende modellen moeten bij dezelfde vraag verschillende waarden tonen.
Ontkoppeling (Disentanglement): De waarden in het antwoord moeten voortkomen uit het model zelf, en niet uit de vooroordelen van de vraag zelf.

De objectieve functie (Eq. 1) maximaliseert de Generalized Jensen-Shannon Divergence (GJS) tussen de waardeverdelingen van $K$ modellen, gecombineerd met een regularisatieterm voor ontkoppeling:
$x^* = \arg\max_x \sum_{i=1}^K \alpha_i KL[p_{\theta_i}(v|x) || p_M(v|x)] + \beta \sum_{i=1}^K JS[\hat{p}(v|x) || p_{\theta_i}(v|x)]$

Het Iteratieve Proces (EM-achtig):
AdAEM gebruikt een Expectation-Maximization (EM)-achtige cyclus zonder menselijke annotatie:

Response Generation (E-stap): Gegeven een vraag $x$ , worden antwoorden $y$ gegenereerd door de modellen. De modellen selecteren antwoorden die de waarde-onderscheidbaarheid maximaliseren (d.w.z. antwoorden die sterk afwijken van andere modellen maar coherent zijn met de vraag).
Question Refinement (M-stap): De vraag $x$ wordt geoptimaliseerd (herformuleerd) om de score te verhogen. Dit gebeurt door contextuele coherentie te behouden terwijl men zorgt dat andere modellen niet dezelfde antwoorden of waarden genereren.
Exploratie (Multi-Armed Bandit): Om de ruimte van mogelijke onderwerpen te verkennen, gebruikt AdAEM een Upper Confidence Bound (UCB)-strategie. Het kiest onderwerpen die veelbelovend zijn (hoge potentiële diversiteit) om nieuwe, controversiële vragen te genereren, in plaats van vast te zitten aan bekende topics.

Data-Contaminatie Mitigatie:

Het systeem gebruikt recente LLM's (met recente kenniscutoffs) om vragen te genereren over actuele gebeurtenissen die nog niet in de trainingsdata van oudere modellen zitten.
Het gebruikt modellen uit verschillende culturen om cultureel specifieke en controversiële onderwerpen te vinden die in standaard benchmarks ontbreken.

3. Belangrijkste Bijdragen

Eerste Zelf-uitbreidbare Methode: AdAEM is de eerste methode die dynamisch en automatisch testvragen genereert en uitbreidt om waardedifferentiatie te meten, in plaats van afhankelijk te zijn van statische datasets.
Validatie van Kwaliteit: Het paper toont aan dat AdAEM vragen genereert die semantisch diverser en specifieker zijn dan bestaande benchmarks (zoals SVS, ValueBench, ValueDCG).
Empirische Validatie: De auteurs hebben een dataset van 12.310 vragen gebouwd (AdAEM Bench) gebaseerd op de Schwartz Theory of Basic Values (10 dimensies zoals Macht, Veiligheid, Universalisme, etc.).
Open Source: De code en de gegenereerde dataset zijn vrijgegeven om reproduceerbaarheid te waarborgen.

4. Resultaten

De evaluatie van AdAEM toont significante verbeteringen ten opzichte van bestaande benchmarks:

Hogere Informativiteit: AdAEM levert resultaten die veel beter onderscheidend zijn. Waar andere benchmarks (zoals SVS) vaak laten zien dat alle modellen op alle 10 waardedimensies bijna identiek scoren (saturatie), onthult AdAEM duidelijke verschillen.
- Voorbeeld: Terwijl SVS aangeeft dat zowel GLM-4 (China) als GPT-4 (VS) evenveel waarde hechten aan "Hedonisme", toont AdAEM culturele verschillen aan.
Validiteit (Construct Validity): Via "value priming" (het expliciet instrueren van een model om een bepaalde waarde te tonen) werd bewezen dat AdAEM deze veranderingen correct detecteert. De scores op de doelwaarde stegen significant (+31%), terwijl conflicterende waarden daalden (-58%).
Betrouwbaarheid: De methode toont een hoge interne consistentie (Cronbach's $\alpha$ = 0.90) en is robuust tegen variaties in hyperparameters en de keuze van de gebruikte LLM's voor generatie.
Regionale en Temporele Diversiteit: De gegenereerde vragen dekken een breed scala aan regio's (VS, China, Europa) en actuele gebeurtenissen (bijv. Oekraïne-oorlog, Gaza-conflict), wat data-contaminatie voorkomt.

5. Betekenis en Toekomstperspectief

AdAEM is een doorbraak in het veld van AI-ethiek en alignment:

Dynamische Evaluatie: Het biedt een oplossing voor het probleem dat statische benchmarks snel verouderd raken. AdAEM "co-evolueert" met de ontwikkeling van LLM's.
Interdisciplinair Onderzoek: Het biedt een robuust fundament voor onderzoek naar culturele bias, ethische misalignments en de verschillen in waarden tussen modellen uit verschillende landen.
Veiligheid en Ethiek: Hoewel het systeem controversiële onderwerpen gebruikt om waarden te testen, hebben de auteurs strikte veiligheidsmaatregelen (zoals het gebruik van Llama-Guard) geïmplementeerd om schadelijke output te filteren en te voorkomen dat de dataset zelf wordt misbruikt.

Conclusie:
AdAEM lost het probleem van "oninformatieve" evaluaties op door een adaptief, geautomatiseerd systeem te creëren dat continu nieuwe, uitdagende vragen genereert. Dit stelt onderzoekers in staat om de echte, onderliggende waarden en culturele voorkeuren van LLM's nauwkeurig te meten en te vergelijken, wat essentieel is voor het ontwikkelen van veiliger en beter afgestemde AI-systemen.