Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

Dit paper concludeert dat het vermeerderen van inferentieberekeningen via crowd-wisdom-strategieën de waarheidsgetrouwheid van taalmodellen in niet-verifieerbare domeinen niet verbetert, omdat de fouten van modellen sterk gecorreleerd zijn en aggregatie vaak gedeelde misvattingen versterkt in plaats van de waarheid te onthullen.

Yegor Denisov-Blanch, Joshua Kazdan, Jessica Chudnovsky, Rylan Schaeffer, Sheng Guan, Soji Adeshina, Sanmi Koyejo

Gepubliceerd 2026-03-10
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Samenvatting: Waarom "meer meningen" niet altijd "meer waarheid" betekent

Stel je voor dat je in een grote zaal staat met 100 mensen, en je vraagt ze: "Wat is het juiste antwoord op deze moeilijke vraag?"
De oude wijsheid van de menigte (de "wisdom of crowds") zegt dan: "Als we al die antwoorden samenvoegen, krijgen we het juiste antwoord, zelfs als individuele mensen fouten maken."

Deze nieuwe studie van onderzoekers van Stanford en Amazon zegt echter: Dat werkt niet voor moderne kunstmatige intelligentie (LLM's).

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen.

1. Het probleem: De "Echo-kamer" in plaats van de "Menigte"

In de echte wereld zijn mensen verschillend. De ene persoon leest de krant, de ander kijkt naar het nieuws, en weer een ander luistert naar zijn oma. Als ze allemaal een fout maken, maken ze het vaak op een andere manier. Als je hun antwoorden combineert, vallen die fouten elkaar weg en blijft de waarheid over.

Maar AI-modellen zijn anders.
Stel je voor dat al die 100 mensen in de zaal niet uit verschillende huizen komen, maar allemaal uit exact hetzelfde huis. Ze hebben allemaal:

  • Dezelfde boeken gelezen (dezelfde trainingsdata).
  • Dezelfde leraar gehad (dezelfde leerdoelen).
  • Dezelfde dromen (dezelfde patronen in hun hersenen).

Als ze een fout maken, maken ze precies dezelfde fout. Ze denken allemaal dat "de aarde plat is" of dat "2+2=5" omdat ze dat ergens in hun "geheugen" hebben opgeslagen.

2. De experimenten: Meer stemmen = Meer zekerheid over het verkeerde antwoord

De onderzoekers hebben gekeken of je de waarheid kunt vinden door een AI-model 25 keer dezelfde vraag te laten beantwoorden (of door 5 verschillende modellen te laten stemmen).

  • In wiskunde (waar je kunt controleren): Als je 25 keer een som laat maken, kun je de verkeerde antwoorden eruit filteren. Hier werkt "meer rekenkracht" wel.
  • In feiten of meningen (waar je niet kunt controleren): Als je vraagt "Wat is de beste film van 2024?" of "Is dit een historisch feit?", dan gebeurt er iets vreemds.
    • De AI's worden steeds zekerder van hun antwoord naarmate je meer stemmen verzamelt.
    • Maar ze worden niet waardevoller. Ze blijven gewoon vastzitten in dezelfde fout.

De metafoor:
Het is alsof je 100 mensen vraagt naar de weg, en ze hebben allemaal dezelfde verkeerde GPS-app op hun telefoon. Als je vraagt: "Wat zegt de meerderheid?", zeggen 100 mensen: "Ga naar links!" (terwijl je naar rechts moet).
Als je nu vraagt: "Wat zegt de meerderheid met de meeste vertrouwen?", zeggen 100 mensen: "Ga naar links! We zijn er 100% zeker van!"
Je hebt de zekerheid verhoogd, maar je bent nog steeds de verkeerde kant op gegaan.

3. Waarom vertrouwen (confidence) bedrieglijk is

Vaak denken we: "Als de AI zegt dat hij 99% zeker is, moet het wel waar zijn."
De studie laat zien dat dit een valstrik is. AI-modellen zijn getraind om populair te klinken, niet noodzakelijk om waar te zijn.

  • Ze zijn goed in het voorspellen wat de menigte zal zeggen (sociale voorspelling).
  • Ze zijn slecht in het controleren of het antwoord echt klopt (waarheidscontrole).

Het is alsof een acteur die zijn rol zo goed speelt dat hij zelf gelooft dat hij de koning is. Als je vraagt: "Ben je de koning?", zegt hij: "Ja, ik ben 100% de koning!" Maar hij is het niet. De "zekerheid" is alleen een reflectie van wat hij denkt dat de anderen willen horen.

4. De "Random String" test: Zelfs zonder kennis maken ze dezelfde fouten

Om te bewijzen dat dit niet alleen gaat over "gemeenschappelijke kennis", gaven de onderzoekers de AI's een vraag zonder enig antwoord. Ze gaven ze een willekeurige reeks tekens (bijv. gP%!mdq4k') en vroegen: "Kies A, B, C of D."

Er was geen juist antwoord. Maar wat gebeurde er?
De verschillende AI-modellen gaven vaak hetzelfde willekeurige antwoord.
Dit betekent dat hun "fouten" niet komen omdat ze dezelfde feiten kennen, maar omdat hun hersenen (hun architectuur) op dezelfde manier zijn gebouwd. Ze hebben dezelfde "instincten" of vooroordelen, zelfs als er geen feiten zijn om op te steunen.

Conclusie: Je kunt niet "rekenen" naar de waarheid

De belangrijkste boodschap van dit papier is:
Meer rekenkracht en meer stemmen helpen niet als er geen externe controle is.

  • Als je een AI vraagt om code te schrijven, kun je de code uitvoeren om te zien of het werkt. Dan helpt "meer proberen" wel.
  • Als je een AI vraagt om een feit te bevestigen waar je geen controle over hebt, dan helpt "meer proberen" niet. Je krijgt alleen een luider echo van dezelfde fout.

De les voor de toekomst:
Als we willen dat AI's betrouwbaar zijn over feiten, kunnen we niet zomaar "meer rekenkracht" gooien tegen het probleem. We hebben iets nodig dat de AI's dwingt om hun antwoorden te controleren tegen de echte wereld (zoals het zoeken in een database, het uitvoeren van code, of menselijke feedback). Zonder die externe "rechter" blijft de menigte van AI's gewoon in een echo-kamer hangen.