Diversity-Enhanced Reasoning for Subjective Questions

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom een enkele mening niet genoeg is: De "MultiRole-R1" revolutie

Stel je voor dat je een groot, slim kunstmatige intelligentie (AI) hebt die heel goed is in wiskundige puzzels en het schrijven van computercode. Deze AI, die we een "Redeneringsmodel" noemen, is getraind om altijd het enige juiste antwoord te vinden. Het is als een supersterke detective die alleen werkt als er één dader is en één waarheid.

Maar wat gebeurt er als je deze AI vraagt over dingen waar geen enkel "juist" antwoord bestaat? Denk aan vragen als: "Is het beter om online te studeren of in een klaslokaal?" of "Wat vinden mensen van een nieuw politiek beleid?"

Hier zit het probleem:

Het "Enige Antwoord" Probleem: Als je de AI vraagt naar een mening, begint hij te zoeken naar één "winstende" oplossing. Hij wordt als het ware een eenhoorn: hij probeert één ding perfect te doen, maar verliest daardoor zijn creativiteit en vermogen om verschillende perspectieven te zien. Hij wordt saai en herhaalt steeds hetzelfde.
De Menselijke Realiteit: In het echte leven hebben verschillende mensen (een leraar, een ouder, een leerling, een politicus) allemaal een heel ander, maar even geldig, antwoord op dezelfde vraag.

De Oplossing: MultiRole-R1

De auteurs van dit paper (van de HKUST en Johns Hopkins) hebben een slimme oplossing bedacht, genaamd MultiRole-R1. Ze noemen het een "diversiteits-versterkend" systeem. Laten we het uitleggen met een paar creatieve metaforen:

1. De "Raad van Wijzen" (Perspectief Diversiteit)

In plaats van de AI te laten denken als één persoon, zeggen ze tegen de AI: "Denk niet als jij, maar als een hele raad van wijzen!"

De Metafoor: Stel je voor dat je een moeilijk probleem hebt. In plaats van alleen naar je eigen hoofd te kijken, roep je een vergadering bijeen met een leraar, een arts, een kunstenaar en een econoom. Iedereen geeft zijn eigen mening.
Hoe het werkt: De AI leert om zichzelf te verplaatsen in verschillende rollen (stakeholders). Hij simuleert een dialoog tussen deze verschillende personages. Hierdoor ontstaat er een rijkere, diepere redenering die rekening houdt met de wereld zoals die echt is: vol met verschillende meningen.

2. De "Bonte Stoet" (Token-niveau Diversiteit)

Vaak denken AI's dat ze lang moeten nadenken om slim te zijn. Maar soms worden ze gewoon langdradig en herhalen ze zich (als een gebroken plaat).

De Metafoor: Stel je voor dat je een verhaal schrijft. Als je alleen maar dezelfde zinnen gebruikt ("En toen... en toen..."), wordt het saai. MultiRole-R1 beloont de AI als hij verschillende woorden, zinsstructuren en manieren van denken gebruikt.
De Beloning: De AI krijgt een "punten" (beloning) niet alleen voor het juiste antwoord, maar ook voor het verschillend zijn. Het is alsof je een muzikant beloont die niet alleen de juiste noot speelt, maar ook een unieke melodie bedenkt.

Wat levert dit op?

De onderzoekers hebben hun nieuwe AI getest op vragen over ethiek, meningen en zelfs moeilijke wiskunde. De resultaten waren verrassend:

Slimmer op meningen: De AI werd veel beter in het beantwoorden van subjectieve vragen (zoals "Wat vinden mensen van...?"). Hij gaf niet meer één saai antwoord, maar een nuanceerbaar antwoord dat rekening hield met verschillende groepen mensen.
Beter in wiskunde (als bonus): Zelfs op pure wiskundetoetsen (waar er maar één antwoord is) werd de AI beter! Waarom? Omdat het leren om naar verschillende hoeken te kijken, hem helpt om meer oplossingsrichtingen te verkennen voordat hij de juiste vindt. Het is alsof je een puzzel sneller oplost als je eerst alle mogelijke hoekjes bekijkt in plaats van blindelings één kant op te rennen.
Kwaliteit boven kwantiteit: Een belangrijke ontdekking was dat langer denken niet altijd beter is. Een AI die heel lang nadenkt maar steeds hetzelfde zegt, is niet slim. Een AI die korter maar diverser denkt, is vaak slimmer. Diversiteit is een betere voorspeller van een goed antwoord dan de lengte van het antwoord.

Samenvattend:
Dit paper leert ons dat om echt slim te zijn in een complexe wereld, een AI niet moet proberen het "enige juiste antwoord" te vinden, maar moet leren om een diner met verschillende gasten te zijn. Door verschillende rollen aan te nemen en te variëren in hoe hij denkt, wordt de AI niet alleen menselijker in zijn antwoorden, maar ook effectiever in het oplossen van de moeilijkste problemen.

Het is de overgang van een AI die zegt: "Het antwoord is A" naar een AI die zegt: "Voor een leraar is het antwoord A, voor een ouder is het B, en als we alles samenvoegen, is C de beste balans."

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Grote Redeneringsmodellen (LRMs) die zijn geoptimaliseerd via Reinforcement Learning met verifieerbare beloningen (RLVR), zoals DeepSeek-R1 en OpenAI o1, presteren uitstekend op objectieve taken (bijv. wiskunde, code). Deze modellen gebruiken echter vaak lange Chain-of-Thought (CoT) redeneerpaden die leiden tot een diversiteitsdegradatie. Ze convergeren naar één "correct" antwoord en genereren weinig variatie.

Dit is een groot probleem voor subjectieve vragen (bijv. ethische dilemma's, opinievragen, culturele interpretaties), waar er geen enkel "juist" antwoord is. Het antwoord hangt af van het perspectief van de stakeholder (bijv. een politicus vs. een burger, of een deontoloog vs. een utilitarist). Bestaande methoden voor diversiteitsverhoging in RL zijn gericht op objectieve taken met één ground truth en falen hier omdat ze de model generatie niet leren om meerdere, even valide perspectieven te hanteren.

Methodologie: MultiRole-R1

Het paper introduceert MultiRole-R1, een trainingsframework dat diversiteit op twee niveaus verbetert: semantische diversiteit (perspectief) en token-niveau diversiteit (zoekruimte). Het framework bestaat uit twee fasen:

Fase 1: Synthese van Multi-Role Redeneerpaden & Finetuning (SFT)

In deze fase wordt het model getraind om vanuit verschillende rollen te redeneren.

Rol-Exploratie: Het model genereert $n$ contextgerelateerde rollen (bijv. experts, stakeholders) met tegenstrijdige meningen. De selectie van rollen wordt geoptimaliseerd om relevantie én contrast te maximaliseren.
Zelfconsistentie Filtering: Voor elke rol worden meerdere redeneerpaden gegenereerd. Alleen de meest consistente antwoorden per rol worden behouden via meerderheidsstemming.
Structuurgeneratie: Deze gefilterde paden worden samengevoegd tot één lang redeneerpad. Er worden twee strategieën gebruikt:
- Divergent Merging: Voor taken waar rollen verschillende antwoorden geven (gewogen aggregatie).
- Convergent Merging: Voor taken waar rollen tot een consensus moeten komen (meerderheidsstemming binnen het pad).
Supervised Finetuning: Het model wordt gefinetuned op deze gegenereerde data om het patroon van "multifaceted reasoning" te leren.

Fase 2: Diversiteitsversterkte Versterkingsleer (GRPO)

Na de SFT-fase wordt Reinforcement Learning toegepast met Group Relative Policy Optimization (GRPO).

Beloningsstructuur: De totale beloning $R$ is een combinatie van een verifieerbare beloning ( $R_{acc}$ ) en een diversiteitsbeloning ( $R_{div}$ ):
$R = \delta R_{acc} + (1 - \delta) R_{div}$
Diversiteitsbeloning: $R_{div}$ is een samengestelde metric die acht aspecten van linguïstische diversiteit meet (lexicale diversiteit, token-entropie, zinslengte, zinspatroon, etc.).
Doel: Deze beloning fungeert als "reward shaping". Het zorgt ervoor dat het model niet vastloopt in homogene antwoorden, zelfs als de verifieerbare beloning gelijk is. Dit creëert intra-groep variantie in de GRPO-berekening, wat zorgt voor informatieve gradiënten en verdere optimalisatie.

Belangrijkste Bijdragen

Eerste toepassing op subjectieve taken: Dit is het eerste werk dat diversiteitsversterkte training specifiek toepast op subjectieve redeneertaken, waarbij het model leert om meerdere, even valide perspectieven te integreren in plaats van één oplossing te zoeken.
Ongecontroleerde dataconstructie: Het paper toont aan dat een ongesuperviseerde aanpak (zelfconsistentie filtering) effectiever is dan traditionele ground-truth filtering voor het genereren van diverse trainingsdata, omdat het de rolvariabiliteit niet beperkt.
Diversiteit als indicator voor nauwkeurigheid: De auteurs tonen aan dat diversiteit een betrouwbaardere indicator is voor prestaties dan de lengte van het redeneerpad.

Resultaten

Het framework is getest op vier modellen (DeepSeek-R1-Distill-Qwen-7B/14B, Llama-8B, en Qwen3-8B) en getraind uitsluitend op subjectieve vragen.

In-Domain (ID) Prestaties: MultiRole-R1 verbeterde de nauwkeurigheid op drie subjectieve taken (BBQ, GlobalOpinionQA, ETHICS) met gemiddeld 14,1%.
Out-of-Domain (OOD) Generalisatie: Het model verbeterde ook op objectieve taken, inclusief geavanceerde wiskunde (AIME 2024), met een stijging van 5,78%. Dit bewijst dat het leren van diversiteit op subjectieve taken generaliseert naar complexe objectieve taken.
Efficiëntie: In tegenstelling tot eerdere bevindingen dat "langer denken" beter is, bleek MultiRole-R1 korter te redeneren (gemiddeld 657 woorden vs. 1572 bij SFT-baselines) terwijl het toch nauwkeuriger was.
Correlatie: Er werd een sterke correlatie gevonden tussen diversiteit en nauwkeurigheid ( $r = 0,74$ ), wat aanzienlijk hoger is dan de correlatie tussen lengte en nauwkeurigheid ( $r = 0,55$ ).

Betekenis en Conclusie

MultiRole-R1 demonstreert dat voor subjectieve vragen het simpele verlengen van de "Chain-of-Thought" niet voldoende is; het is cruciaal om de perspectiefdiversiteit te vergroten. Door rollen te introduceren die als coherent raamwerk dienen, en token-niveau diversiteit te belonen, kan het model een bredere oplossingsruimte verkennen.

De studie ondermijnt het idee dat "meer denken" automatisch leidt tot betere resultaten en stelt in plaats daarvan dat diversiteit de sleutel is tot robuust redeneren. Dit biedt een nieuwe richting voor het verbeteren van LLM's in domeinen waar context, cultuur en perspectief bepalend zijn voor het antwoord.

Diversity-Enhanced Reasoning for Subjective Questions

1. De "Raad van Wijzen" (Perspectief Diversiteit)

2. De "Bonte Stoet" (Token-niveau Diversiteit)

Wat levert dit op?

Probleemstelling

Methodologie: MultiRole-R1

Fase 1: Synthese van Multi-Role Redeneerpaden & Finetuning (SFT)

Fase 2: Diversiteitsversterkte Versterkingsleer (GRPO)

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics