Wisdom of the AI Crowd (AI-CROWD) for Ground Truth Approximation in Content Analysis: A Research Protocol & Validation Using Eleven Large Language Models

Dit artikel introduceert het AI-CROWD-protocol, dat de afwezigheid van menselijke grondwaarheid in grote contentanalyses oplost door een consensusbenadering te gebruiken die is gebaseerd op de geaggregeerde output van elf grote taalmodellen om betrouwbare labels te genereren.

Luis de-Marcos, Manuel Goyanes, Adrián Domínguez-Díaz

Gepubliceerd 2026-03-09
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme berg brieven moet sorteren. Je hebt duizenden, misschien wel miljoenen brieven van nieuws, filmrecensies of wetenschappelijke artikelen. Je wilt weten waar ze over gaan: is het over sport, politiek, of een film?

In het verleden moest je daarvoor een heel team mensen inhuren om elke brief te lezen en in te delen. Dat kostte jaren, veel geld en was vaak niet eens consistent (één persoon dacht dat een tekst over "politiek" ging, een ander dacht "economie").

De auteurs van dit paper, Luis, Manuel en Adrián, zeggen: "Waarom doen we dit niet met een team van slimme computers?" Maar er is een probleem: geen enkele computer is perfect. Soms maakt de ene AI een fout, de andere een andere. Hoe weet je dan wat het juiste antwoord is als er geen 'antwoordenboekje' bestaat?

Hier komt hun oplossing: De "Wijsheid van de AI-Meute" (AI-CROWD).

Het Grote Idee: Een Team van 11 Slimme Hoofden

Stel je voor dat je een lastige vraag stelt aan 11 verschillende experts.

  • Expert 1 is een oude, ervaren professor.
  • Expert 2 is een snelle, jonge techneut.
  • Expert 3 is een creatieve dichter.
  • ...en zo verder.

Elke expert geeft zijn eigen antwoord. Soms zijn ze het allemaal oneens. Maar als je kijkt naar wat de meeste experts zeggen, heb je vaak een heel betrouwbaar antwoord. Dit noemen ze in de wetenschap "Majority Voting" (meerderheidsstemming).

De auteurs hebben dit getest met 11 verschillende grote AI-modellen (zoals GPT, Claude, Gemini, etc.). Ze hebben ze allemaal dezelfde 1.000 teksten laten lezen en vragen laten beantwoorden.

De Vier Stappen van hun Methode

  1. De Voorbereiding (De Regels):
    Eerst maken ze een duidelijke handleiding. Net als bij een spelletje waar je de regels moet kennen, geven ze de AI's een duidelijke lijst met categorieën. Bijvoorbeeld: "Is dit een positieve of negatieve filmrecensie?" Geen twijfel over de regels.

  2. De Test (Elke AI werkt apart):
    Ze laten de 11 AI's onafhankelijk van elkaar werken. Ze kijken niet naar wat de ander zegt. Daarna kijken ze: "Hoe vaak zijn ze het met elkaar eens?"

    • Resultaat: Bij simpele taken (zoals "Is dit nieuws over sport of politiek?") waren ze het bijna altijd eens. Bij moeilijke taken (zoals "Waarom citeert deze wetenschapper die andere?") hadden ze meer moeite en waren ze vaker het oneens.
  3. De Stemming (Het Consensus):
    Nu tellen ze de stemmen. Als 7 van de 11 AI's zeggen "Dit is een filmrecensie", en 4 zeggen "Dit is een nieuwsartikel", dan is het antwoord van de groep: Filmrecensie. Dit gezamenlijke antwoord noemen ze de "benadering van de waarheid". Het is niet 100% zeker, maar het is de beste schatting die je kunt maken zonder menselijke hulp.

  4. De Controle (De Diagnose):
    Dit is het slimste deel. Ze kijken niet alleen naar het eindantwoord, maar ook naar hoe de groep tot dat antwoord kwam.

    • Vertrouwen: Als alle 11 AI's hetzelfde zeggen, is het antwoord heel betrouwbaar.
    • Twijfel: Als de AI's wild heen en weer springen (sommigen zeggen A, anderen B), dan weten de onderzoekers: "Oeps, hier is de tekst misschien vaag of moeilijk. We moeten hier extra voorzichtig mee zijn."
      Ze gebruiken wiskundige maten om te zien welke AI's het beste presteren en welke soms "raar" doen.

Wat Leerden ze?

  • Het werkt geweldig: Op simpele taken (zoals het indelen van nieuws of het voelen van emoties in films) deed de "AI-meute" het vaak net zo goed, en soms zelfs beter, dan de allerbeste enkele AI.
  • Het is transparant: In plaats van blindelings te vertrouwen op één computer, weten de onderzoekers nu precies waar ze op kunnen vertrouwen en waar ze twijfel moeten hebben.
  • Het bespaart tijd: Je hoeft geen duizenden mensen meer in te huren om miljoenen teksten te lezen.

De Grootte van de Berg (Beperkingen)

De auteurs zijn eerlijk over de beperkingen:

  • Het kost nog steeds geld om deze 11 AI's te laten werken (API-kosten).
  • Het werkt het beste met Engelse teksten die al bestaande benchmarks hebben.
  • Als de AI's zelf veranderen (bijvoorbeeld als ze een update krijgen), moet je de test misschien opnieuw doen.
  • Soms is de "menselijke waarheid" (het antwoordboekje) ook niet perfect, dus vergelijken ze hun AI-antwoorden met iets dat ook fouten kan bevatten.

Conclusie in Eén Zin

Dit paper introduceert een slimme manier om grote hoeveelheden tekst te analyseren door een team van diverse AI's te laten samenwerken. In plaats van te hopen dat één computer het goed doet, laten ze een hele menigte stemmen, kijken ze naar de consensus, en gebruiken ze slimme controles om te weten wanneer ze die resultaten kunnen vertrouwen. Het is alsof je niet één orakel raadpleegt, maar een heel panel van experts, en dan kijkt of ze het met elkaar eens zijn voordat je een beslissing neemt.