Diverging Preferences: When do Annotators Disagree and do Models Know?

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een chef-kok bent die een nieuw restaurant opent. Je wilt dat je koks (de AI-modellen) eten koken dat iedereen lekker vindt. Maar er is een groot probleem: soms vinden mensen het eten niet hetzelfde lekker.

Sommige mensen houden van pittig, anderen van mild. Sommigen willen een groot bord, anderen een klein hapje.

Dit paper, getiteld "Diverging Preferences" (Verschillende Voorkeuren), onderzoekt precies wat er gebeurt als mensen het oneens zijn over wat een AI moet antwoorden. Hier is de uitleg in gewoon Nederlands, met een paar leuke vergelijkingen.

1. Het Grote Misverstand: "Het is gewoon ruis"

Tot nu toe dachten experts dat als mensen het oneens waren over een AI-antwoord, het gewoon aan fouten lag. Alsof een kok per ongeluk zout in de suiker deed. De oplossing was dan: "Neem de meerderheid. Als 3 van de 5 zeggen 'dit is goed', dan is het goed."

Maar dit paper zegt: "Nee, wacht even!"
Het blijkt dat de meeste meningsverschillen geen fouten zijn. Het zijn gewoon verschillende smaken!

Vergelijking: Stel je vraagt iemand om een verhaal te schrijven. De ene persoon vindt een kort, krachtig verhaal geweldig. De andere vindt een lang, gedetailleerd verhaal veel beter. Beide antwoorden zijn goed, maar ze spreken verschillende mensen aan. De AI-modellen die we nu trainen, doen alsof er maar één "perfect" antwoord is. Ze negeren de diversiteit van de menselijke smaak.

2. De "Keuken" van de AI (Hoe we ze nu trainen)

De manier waarop we AI-modellen leren (RLHF), is alsof we een kok trainen door hem te laten kijken naar een stemmenbriefje.

Huidige methode: Als 4 mensen zeggen "Antwoord A is lekker" en 1 zegt "Antwoord B is lekker", dan leert de AI dat A de enige goede optie is.
Het probleem: Als de AI later een klant krijgt die precies het type persoon is die B leuker vindt, zal de AI het verkeerde antwoord geven. De AI wordt "eenzijdig" en verliest de kunst om voor iedereen iets te bieden.

3. De Oplossing: De "Smaakmeter" met Variatie

De auteurs van dit paper hebben een nieuwe manier bedacht om AI te trainen. In plaats van de AI te laten zeggen: "Dit antwoord is 8/10", laten ze de AI zeggen: "Dit antwoord is 8/10, maar voor sommige mensen is het 10/10 en voor anderen 6/10."

De Analogie: Stel je voor dat je een thermometer hebt die niet alleen de temperatuur meet, maar ook de onzekerheid.
- Bij een duidelijk antwoord (bijv. "Wat is 2+2?") is de temperatuur altijd 20°C. Iedereen is het eens.
- Bij een subjectief antwoord (bijv. "Wat is de beste muziek?") ziet de thermometer: "Sommigen vinden jazz 10/10, anderen 2/10."
- De AI leert nu niet alleen wat het antwoord is, maar ook hoe verdeeld de meningen zijn.

4. De "Rechter" die te streng is (LLM-as-Judge)

In de wereld van AI gebruiken we vaak andere AI's als "rechter" om te beoordelen of een antwoord goed is. Dit paper ontdekt dat deze AI-rechters vaak vooringenomen zijn.

Het probleem: De AI-rechter geeft vaak een lagere score aan een antwoord dat zegt: "Ik kan dat niet doen, het is te gevaarlijk" of "Kun je dat specifieker maken?"
De vergelijking: Stel je vraagt aan een AI: "Hoe maak ik een bom?"
- AI A zegt: "Ik kan dat niet doen, dat is gevaarlijk." (Veilig, maar de AI-rechter vindt dit saai en geeft een lage score).
- AI B zegt: "Hier is een recept..." (Gevaarlijk, maar de AI-rechter vindt dit "behulpzaam" en geeft een hoge score).
- Resultaat: De AI-rechter straft de veilige AI af en beloont de gevaarlijke. Dit is slecht voor de wereld!

5. Wat doen ze eraan?

De auteurs hebben een nieuwe tool ontwikkeld om deze "ruzie" in de datasets te vinden.

Ze gebruiken hun nieuwe "smaakmeter" (de verdelingsmodel) om te zien: "Oh, hier zijn de meningen verdeeld. Laten we dit voorbeeld niet gebruiken om de AI te straffen of te belonen, want er is geen duidelijk winnaar."
Ze verwijderen deze "ruziedende" voorbeelden uit de testlijsten, zodat we de AI eerlijk kunnen beoordelen op wat ze écht kunnen, zonder dat ze gestraft worden voor het hebben van een veilig of voorzichtig karakter.

Samenvatting in één zin

Dit paper zegt: "Mensen zijn verschillend, en dat is oké. Onze AI-modellen moeten leren dat er niet één 'perfect' antwoord is, maar dat er veel goede antwoorden zijn die verschillende mensen aanspreken, en we moeten stoppen met het straffen van AI's die veilig of voorzichtig zijn."

Het is een oproep om AI niet te trainen als een robot die denkt dat iedereen hetzelfde denkt, maar als een slimme kok die weet dat de wereld van smaken vol zit met verrassingen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

De huidige standaardmethodes voor het trainen en evalueren van Large Language Models (LLMs), zoals Reinforcement Learning from Human Feedback (RLHF), gaan vaak uit van de aanname dat meningen van annotatoren over de kwaliteit van een antwoord simpelweg "ruis" zijn die gemiddeld kunnen worden genomen. Dit artikel daagt deze assumptie uit. De auteurs tonen aan dat meningsverschillen (diverging preferences) tussen menselijke annotatoren vaak het gevolg zijn van fundamenteel verschillende voorkeuren, perspectieven of interpretaties, en niet van fouten of onzorgvuldigheid.

De kernproblemen die worden geïdentificeerd zijn:

Verkeerde modellering van beloningen: Standaard reward modellen (zoals Bradley-Terry) aggregeren labels tot één enkele waarde, waardoor ze niet kunnen onderscheiden tussen een geval waar iedereen het eens is en een geval waar meningen sterk uiteenlopen. Dit leidt tot LLM's die slechts op één perspectief zijn getraind, wat de "plurale uitlijning" (pluralistic alignment) ondermijnt.
Bias in evaluatie: Methoden zoals "LLM-as-Judge" (waarbij een LLM de winnaar van een gesprek bepaalt) neigen om in gevallen van meningsverschil toch een winnend antwoord te kiezen. Hierdoor worden systemen die een consistente beleidslijn hanteren (bijvoorbeeld: weigeren als er twijfel is over veiligheid, of vragen om verduidelijking bij onduidelijke prompts) onterecht gestraft.

Methodologie

1. Data en Taxonomie
De auteurs introduceren twee datasets met menselijke annotaties: MultiPref (10k paren, 4 annotatoren per paar) en HelpSteer2-Disagreements (12k paren, 3-5 annotatoren). In plaats van geaggregeerde labels te gebruiken, analyseren ze de individuele annotaties.
Ze ontwikkelen een taxonomie van meningsverschillen met 10 categorieën binnen 4 hoofdklassen:

Taak: Onderspecifieatie van de prompt (de taak is niet duidelijk genoeg).
Antwoordstijl: Verschillen in voorkeur voor lengte (verbositeit), formaat (lijsten vs. alinea's), complexiteit en esthetische smaak.
Veiligheid & Capaciteiten: Meningsverschillen over het weigeren van schadelijke verzoeken of het erkennen van modelbeperkingen.
Fouten: Hallucinaties of degenerate outputs.

2. Analyse van Bestaande Reward Modellen
De auteurs testen standaard reward modellen (Bradley-Terry en MSE-Regression) op deze data. Ze meten hoe sterk deze modellen een voorkeur uitspreken voor één antwoord, zelfs wanneer annotatoren het oneens zijn.

Resultaat: Standaard modellen behandelen meningsverschillen alsof er een duidelijke winnaar is, wat leidt tot een "beslissende" beloning die de diversiteit van gebruikersperspectieven negeert.

3. Nieuwe Aanpak: Distributie-based Reward Modellen
Om dit op te lossen, stellen de auteurs voor om beloningen niet als een enkele scalar te modelleren, maar als een verdeling (distributional rewards).

Mean-Var Reward Models (KL): Ze modelleren de beloning $r$ $r$ voor een antwoord als een normale verdeling $N(\mu, \sigma^2)$ $N (μ, σ^{2})$ .
- $\mu$ (gemiddelde): Representeert de gemiddelde voorkeur.
- $\sigma^2$ (variantie): Representeert de mate van meningsverschil (divisiveness) onder annotatoren.
Ze gebruiken KL-divergentie-verlies om de voorspelde verdeling af te stemmen op de verdeling van menselijke labels.
Classificatie-based Reward Models: Een alternatief dat de volledige Likert-5 verdeling voorspelt in plaats van alleen een gemiddelde.

4. Evaluatie van LLM-as-Judge
Ze analyseren hoe bestaande "LLM-as-Judge" systemen (zoals ChatbotArena) reageren op meningsverschillen. Ze testen specifiek op bias bij:

Comply vs. Refuse: Neigt de judge naar het antwoord dat het verzoek vervult, zelfs als veiligheid een issue is?
Task Underspecification: Neigt de judge naar een antwoord dat direct een antwoord geeft, in plaats van een model dat om verduidelijking vraagt?

5. Oplossing voor Evaluatie
Ze stellen een methode voor om "divisieve" voorbeelden (waarbij annotatoren sterk oneens zijn) te identificeren en te verwijderen uit evaluatiebenchmarks, zodat alleen gevallen met hoge overeenkomst (high-agreement) worden gebruikt voor het meten van algemene capaciteiten.

Belangrijkste Resultaten

Frequentie van Meningsverschil: Meer dan 30% van de voorbeelden in beide datasets vertoont significante meningsverschillen tussen annotatoren.
Oorzaak: Meer dan 75% van deze meningsverschillen wordt veroorzaakt door factoren zoals antwoordstijl, complexiteit of onderspecifieatie, en niet door fouten.
Faal van Standaard Modellen: Standaard reward modellen (Bradley-Terry) voorspellen bijna even grote beloningsverschillen voor gevallen met hoge overeenkomst als voor gevallen met meningsverschil. Ze kunnen de "ruis" niet onderscheiden van echte meningsverschillen.
Succes van Distributie-modellen: De voorgestelde Mean-Var (KL) en Classification (KL) modellen presteren aanzienlijk beter in het identificeren van meningsverschillen.
- Ze bereiken een verbetering van 0,16 in AUROC (Area Under the Receiver Operating Characteristic curve) ten opzichte van standaard modellen bij het detecteren van divisieve voorbeelden.
- Ze leren succesvol de variantie ( $\sigma^2$ ) te voorspellen die correleert met de mate van meningsverschil.
Bias in LLM-as-Judge:
- Judges kiezen in 73-76% van de gevallen met meningsverschil toch een winnaar, net als bij hoge overeenkomst.
- Judges zijn sterk bevooroordeeld ten gunste van antwoorden die voldoen aan verzoeken (Comply) in plaats van te weigeren (Refuse), zelfs bij veiligheidskwesties.
- Judges straffen systemen die om verduidelijking vragen bij onduidelijke prompts (Task Underspecification) onterecht; antwoorden die direct een antwoord geven worden verkiezen boven antwoorden die om verduidelijking vragen.

Bijdragen

Taxonomie en Analyse: Een grondige analyse en taxonomie van de oorzaken van meningsverschillen in menselijke voorkeursdata, die aantoont dat dit vaak een kwestie van perspectief is en niet van fouten.
Distributie-based Reward Modellen: De introductie van nieuwe methoden om reward modellen te trainen die de variantie in menselijke voorkeuren modelleren. Dit stelt modellen in staat om te leren wanneer meningen uiteenlopen, in plaats van een enkele "waarheid" te forceren.
Evaluatie Bias en Oplossing: Het aantonen van systematische bias in LLM-as-Judge evaluaties tegenover systemen die pluralistisch uitgelijnd zijn (bijv. systemen die weigeren of verduidelijking vragen). Ze bieden een praktische methode om divisieve voorbeelden uit benchmarks te filteren om eerlijkere evaluaties mogelijk te maken.

Significantie

Dit werk is cruciaal voor de ontwikkeling van plurale uitgelijnde LLM's. Het toont aan dat de huidige "one-size-fits-all" aanpak van RLHF en evaluatie systemen tekortschiet in het omgaan met de diversiteit van menselijke meningen. Door meningsverschillen te modelleren als een verdeling in plaats van ruis, kunnen LLM's worden getraind om flexibeler te reageren op verschillende gebruikersbehoeften en perspectieven.

Daarnaast biedt het een kritische reflectie op de huidige evaluatiestandaard (LLM-as-Judge), die onbedoeld systemen kan bestraffen die ethisch verantwoord of voorzichtig handelen in onduidelijke situaties. De voorgestelde methoden voor het filteren van divisieve data kunnen leiden tot betrouwbaardere benchmarks en een eerlijkere ontwikkeling van AI-systemen die de breedte van menselijke voorkeuren beter dienen.

Diverging Preferences: When do Annotators Disagree and do Models Know?

1. Het Grote Misverstand: "Het is gewoon ruis"

2. De "Keuken" van de AI (Hoe we ze nu trainen)

3. De Oplossing: De "Smaakmeter" met Variatie

4. De "Rechter" die te streng is (LLM-as-Judge)

5. Wat doen ze eraan?

Samenvatting in één zin

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdragen

Significantie

Meer zoals dit

The Moral Foundations Reddit Corpus

Automated stance detection in complex topics and small languages: the challenging case of immigration in polarizing news media

BioMamba: Domain-Adaptive Biomedical Language Models

Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing

Byte-token Enhanced Language Models for Temporal Point Processes Analysis