Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

Each language version is independently generated for its own context, not a direct translation.

Samenvatting: Waarom "meer meningen" niet altijd "meer waarheid" betekent

Stel je voor dat je in een grote zaal staat met 100 mensen, en je vraagt ze: "Wat is het juiste antwoord op deze moeilijke vraag?"
De oude wijsheid van de menigte (de "wisdom of crowds") zegt dan: "Als we al die antwoorden samenvoegen, krijgen we het juiste antwoord, zelfs als individuele mensen fouten maken."

Deze nieuwe studie van onderzoekers van Stanford en Amazon zegt echter: Dat werkt niet voor moderne kunstmatige intelligentie (LLM's).

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen.

1. Het probleem: De "Echo-kamer" in plaats van de "Menigte"

In de echte wereld zijn mensen verschillend. De ene persoon leest de krant, de ander kijkt naar het nieuws, en weer een ander luistert naar zijn oma. Als ze allemaal een fout maken, maken ze het vaak op een andere manier. Als je hun antwoorden combineert, vallen die fouten elkaar weg en blijft de waarheid over.

Maar AI-modellen zijn anders.
Stel je voor dat al die 100 mensen in de zaal niet uit verschillende huizen komen, maar allemaal uit exact hetzelfde huis. Ze hebben allemaal:

Dezelfde boeken gelezen (dezelfde trainingsdata).
Dezelfde leraar gehad (dezelfde leerdoelen).
Dezelfde dromen (dezelfde patronen in hun hersenen).

Als ze een fout maken, maken ze precies dezelfde fout. Ze denken allemaal dat "de aarde plat is" of dat "2+2=5" omdat ze dat ergens in hun "geheugen" hebben opgeslagen.

2. De experimenten: Meer stemmen = Meer zekerheid over het verkeerde antwoord

De onderzoekers hebben gekeken of je de waarheid kunt vinden door een AI-model 25 keer dezelfde vraag te laten beantwoorden (of door 5 verschillende modellen te laten stemmen).

In wiskunde (waar je kunt controleren): Als je 25 keer een som laat maken, kun je de verkeerde antwoorden eruit filteren. Hier werkt "meer rekenkracht" wel.
In feiten of meningen (waar je niet kunt controleren): Als je vraagt "Wat is de beste film van 2024?" of "Is dit een historisch feit?", dan gebeurt er iets vreemds.
- De AI's worden steeds zekerder van hun antwoord naarmate je meer stemmen verzamelt.
- Maar ze worden niet waardevoller. Ze blijven gewoon vastzitten in dezelfde fout.

De metafoor:
Het is alsof je 100 mensen vraagt naar de weg, en ze hebben allemaal dezelfde verkeerde GPS-app op hun telefoon. Als je vraagt: "Wat zegt de meerderheid?", zeggen 100 mensen: "Ga naar links!" (terwijl je naar rechts moet).
Als je nu vraagt: "Wat zegt de meerderheid met de meeste vertrouwen?", zeggen 100 mensen: "Ga naar links! We zijn er 100% zeker van!"
Je hebt de zekerheid verhoogd, maar je bent nog steeds de verkeerde kant op gegaan.

3. Waarom vertrouwen (confidence) bedrieglijk is

Vaak denken we: "Als de AI zegt dat hij 99% zeker is, moet het wel waar zijn."
De studie laat zien dat dit een valstrik is. AI-modellen zijn getraind om populair te klinken, niet noodzakelijk om waar te zijn.

Ze zijn goed in het voorspellen wat de menigte zal zeggen (sociale voorspelling).
Ze zijn slecht in het controleren of het antwoord echt klopt (waarheidscontrole).

Het is alsof een acteur die zijn rol zo goed speelt dat hij zelf gelooft dat hij de koning is. Als je vraagt: "Ben je de koning?", zegt hij: "Ja, ik ben 100% de koning!" Maar hij is het niet. De "zekerheid" is alleen een reflectie van wat hij denkt dat de anderen willen horen.

4. De "Random String" test: Zelfs zonder kennis maken ze dezelfde fouten

Om te bewijzen dat dit niet alleen gaat over "gemeenschappelijke kennis", gaven de onderzoekers de AI's een vraag zonder enig antwoord. Ze gaven ze een willekeurige reeks tekens (bijv. gP%!mdq4k') en vroegen: "Kies A, B, C of D."

Er was geen juist antwoord. Maar wat gebeurde er?
De verschillende AI-modellen gaven vaak hetzelfde willekeurige antwoord.
Dit betekent dat hun "fouten" niet komen omdat ze dezelfde feiten kennen, maar omdat hun hersenen (hun architectuur) op dezelfde manier zijn gebouwd. Ze hebben dezelfde "instincten" of vooroordelen, zelfs als er geen feiten zijn om op te steunen.

Conclusie: Je kunt niet "rekenen" naar de waarheid

De belangrijkste boodschap van dit papier is:
Meer rekenkracht en meer stemmen helpen niet als er geen externe controle is.

Als je een AI vraagt om code te schrijven, kun je de code uitvoeren om te zien of het werkt. Dan helpt "meer proberen" wel.
Als je een AI vraagt om een feit te bevestigen waar je geen controle over hebt, dan helpt "meer proberen" niet. Je krijgt alleen een luider echo van dezelfde fout.

De les voor de toekomst:
Als we willen dat AI's betrouwbaar zijn over feiten, kunnen we niet zomaar "meer rekenkracht" gooien tegen het probleem. We hebben iets nodig dat de AI's dwingt om hun antwoorden te controleren tegen de echte wereld (zoals het zoeken in een database, het uitvoeren van code, of menselijke feedback). Zonder die externe "rechter" blijft de menigte van AI's gewoon in een echo-kamer hangen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Consensus is geen verificatie: Waarom strategieën voor "wijze menigte" falen voor de waarheidsgetrouwheid van LLM's

Auteurs: Yegor Denisov-Blanch, Joshua Kazdan, Jessica Chudnovsky, Rylan Schaeffer, Sheng Guan, Soji Adeshina, Sanmi Koyejo.
Affiliaties: Stanford University, Amazon.

1. Het Probleem

De opkomst van inference-time scaling (het toewijzen van extra rekenkracht tijdens het genereren van antwoorden) heeft bewezen effectief te zijn in domeinen met externe verificatie, zoals wiskunde en codering. Methoden zoals self-consistency (meerderen steekproeven nemen en de meerderheid kiezen) filteren onjuiste antwoorden succesvol via een externe verifieer (bijv. een compiler of een bewijschecker).

De centrale vraag van dit paper is of deze schaalbaarheid ook kan worden toegepast op domeinen zonder gemakkelijke externe verificatie (zoals feitelijke kennis, gezond verstand of voorspellingen). De intuïtie, gebaseerd op de "wijze menigte"-theorie (wisdom of crowds), suggereert dat het aggregeren van vele imperfecte oordelen de waarheid zou moeten blootleggen, zelfs als individuele modellen fouten maken. De auteurs onderzoeken of het simpelweg verhogen van de inferentiekost (meer steekproeven nemen en aggregeren) de waarheidsgetrouwheid (truthfulness) van taalkundige modellen (LLM's) in deze ongeverifieerde domeinen kan verbeteren.

2. Methodologie

De auteurs evalueren vijf verschillende aggregeringsstrategieën over meerdere benchmarks en modellen:

Benchmarks: Vier verifier-absente domeinen:
1. Com2Sense: Redeneren op basis van gezond verstand.
2. Humanity's Last Exam (HLE): Expertvragen.
3. BoolQ: Feitelijke vraag-antwoord taken.
4. Predict-the-Future: Voorspellende vragen waarbij de uitkomsten na de kennis-cutoff van de modellen liggen (zodat de modellen geen feitelijke kennis kunnen hebben).
Modellen: Vijf open-source instructie-tuned modellen (Gemma, GPT-oss, Qwen) variërend van 4B tot 235B parameters.
Aggregatiemethoden:
1. Meerderheidsstemming (Majority Vote).
2. Hoogste zelfgerapporteerde zekerheid (Highest Confidence).
3. Zekerheid-gewogen stemming (Confidence-Weighted Vote).
4. Voorspelde populariteit gewogen stemming (Prediction-Weighted Vote).
5. De "Surprisingly Popular" (SP) algoritme (kiezen wat minder populair is dan verwacht door de menigte).
Experimenteel Ontwerp:
- Per vraag worden 25 onafhankelijke steekproeven genomen per model bij temperaturen $T \in \{0.7, 1.0\}$ .
- Er wordt gekeken naar zowel intra-model (herhaalde steekproeven van één model) als inter-model (ensembles van verschillende modellen) crowds.
- Nieuwe Negatieve Controle: Om te testen of correlatie voortkomt uit gedeelde kennis of gedeelde architecturale bias, worden modellen gevraagd om een meerkeuze-antwoord te geven op willekeurige ASCII-strings (waar geen waarheid bestaat).

3. Belangrijkste Bijdragen en Resultaten

A. Aggregatie verbetert de nauwkeurigheid niet

Tegen de verwachting in, levert het verhogen van de inferentiekost (tot 25x de kosten van een enkele steekproef) geen consistente verbetering in nauwkeurigheid op in ongeverifieerde domeinen.

Meerderheidsstemming, zekerheid-gewogen stemming en de SP-algoritme presteren niet beter dan een enkele steekproef.
In het Predict-the-Future benchmark presteren alle methoden op het niveau van toeval (chance), wat aantoont dat aggregatie geen "latente expertise" kan extraheren als deze niet bestaat.

B. Gecorreleerde fouten zijn de oorzaak

De kern van het falen is dat fouten van LLM's sterk gecorreleerd zijn, wat de fundamentele aanname van de "wijze menigte" (dat fouten onafhankelijk moeten zijn) schendt.

Wanneer modellen fouten maken, vallen ze vaak op hetzelfde verkeerde antwoord in.
Aggregatie versterkt hierdoor gedeelde misvattingen in plaats van ruis te cancelen.
Zelfs bij het gebruik van verschillende model-families en temperaturen blijft de correlatie hoog.

C. Zekerheid en "Surprise" signalen zijn misleidend

Zekerheid (Confidence): Zelfgerapporteerde zekerheid correleert zwak met juistheid, maar sterk met overeenstemming (consensus). Modellen zijn vaak zeer zeker van hun fouten.
Surprisingly Popular (SP): Dit algoritme vereist een expert-minderheid die de waarheid kent én de fout van de meerderheid voorspelt. De auteurs vinden dat dit patroon niet consistent aanwezig is in LLM-populaties. De "surprise gap" wisselt van richting per taak en is soms zelfs anti-gecorreleerd met de waarheid.
Social Prediction vs. Truth Verification: Modellen zijn veel beter in het voorspellen van wat anderen zullen zeggen (sociale voorspelling) dan in het bepalen van wat waar is. Aggregatieregels optimaliseren voor de eerste, niet de tweede.

D. Bewijs voor structurele correlatie (De Negatieve Controle)

In het experiment met willekeurige ASCII-strings (geen waarheid, geen kennis) vertoonden verschillende modellen nog steeds een correlatie tot 0,35 in hun antwoorden.

Dit bewijst dat de correlatie niet alleen voortkomt uit gedeelde feitelijke kennis of training-data, maar uit gedeelde inductieve bias en architecturale overeenkomsten. Zelfs zonder enige input-signaal "kloppen" modellen met elkaar.

4. Significantie en Conclusie

Het paper trekt een scherpe grens voor inference-time scaling:

Met Verificatie: Aggregatie werkt omdat een externe verifieer onjuiste kandidaten kan filteren.
Zonder Verificatie: Aggregatie werkt niet. Het creëert alleen meer consensus over dezelfde fouten.

Belangrijkste conclusies:

Consensus is geen vervanging voor verificatie. Het simpelweg "gooien" van meer rekenkracht op een probleem zonder externe gronding (grounding) of verificatie zal de waarheidsgetrouwheid niet verbeteren.
Structuur van fouten: LLM's delen dezelfde "blinde vlekken" door overlappende trainingdata en objectieven. Dit maakt het onmogelijk om de waarheid te vinden door alleen naar interne signalen (zoals consensus of zekerheid) te kijken.
Toekomstige richting: Om waarheidsgetrouwheid te schalen in ongeverifieerde domeinen, zijn externe gronding (retrieval, tools, menselijke feedback) of methoden nodig die de correlatie van fouten actief verbreken (bijv. door fundamenteel verschillende trainingsdoelen), in plaats van meer steekproeven uit dezelfde epistemische prior te halen.

Impact: Dit onderzoek waarschuwt voor de naïeve aanname dat "meer modellen stemmen" automatisch leidt tot betrouwbaarder AI. Het benadrukt de noodzaak van echte verificatiemechanismen voor veilige en betrouwbare AI-systemen.