Beyond the Illusion of Consensus: From Surface Heuristics to Knowledge-Grounded Evaluation in LLM-as-a-Judge

Dit paper weerlegt de aanname dat hoge onderlinge overeenstemming tussen LLM-beoordelaars betrouwbaarheid garandeert door aan te tonen dat deze vaak een illusie is gebaseerd op oppervlakkige heuristieken, en introduceert MERG, een kennisgestuurd raamwerk voor het dynamisch genereren van beoordelingsrubrieken dat in codificerende domeinen de consistentie verhoogt door gebruik te maken van expertkennis in plaats van generieke criteria.

Mingyang Song, Mao Zheng, Chenning Xu

Gepubliceerd 2026-03-12
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

De Illusie van de Unanimiteit: Waarom AI-oordelen soms net zo vals zijn als een glimlachende leugenaar

Stel je voor dat je een grote wedstrijd organiseert om de beste verhalen te vinden. Je vraagt drie zeer slimme, maar verschillende, computers (de "rechters") om elk verhaal te beoordelen. Als deze drie rechters allemaal zeggen: "Dit verhaal is een 9,5!", denk je dan: "Wauw, dit moet echt een meesterwerk zijn!"

Volgens een nieuw onderzoek van Tencent is dat antwoord vaak verkeerd.

Deze paper, getiteld "Beyond the Illusion of Consensus", onthult een verrassend geheim over hoe Large Language Models (LLMs) elkaar beoordelen. Het is alsof we ontdekten dat de rechters niet echt naar de inhoud kijken, maar alleen naar de verpakking.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen.

1. De "Gemeenschappelijke Illusie" (De Schijn van Eendracht)

Stel je voor dat je drie experts vraagt om een nieuw restaurant te beoordelen.

  • De situatie: Ze komen allemaal terug en zeggen: "Het eten was fantastisch, 10/10!"
  • De waarheid: Ze hebben eigenlijk niet geproefd. Ze keken alleen naar de schoonheid van het bord, de gladde serveerders en de mooie menukaart. Ze hebben allemaal dezelfde oppervlakkige regel gebruikt: "Als het er chique uitziet, is het goed."

Dit noemen de auteurs de Evaluation Illusion (Beoordelingsillusie).
De computers zijn het oneens over de diepte van een tekst, maar ze zijn het oneens over de verpakking. Omdat ze allemaal dezelfde oppervlakkige regels gebruiken (zoals "geen grammaticafouten" of "dappere toon"), geven ze dezelfde hoge cijfers. Ze lijken het eens te zijn, maar ze begrijpen de inhoud niet. Het is een schijnconsensus.

Het grappige voorbeeld uit het papier:
Een computer schreef een presentatie voor een bedrijf dat kinderen na schooltijd les gaf in China. De tekst zag er perfect uit: mooie grafieken, zelfverzekerde taal. De drie AI-rechters gaven allemaal een 9,0 of hoger.

  • Het probleem: Ze keken niet naar de inhoud. In China is zo'n bedrijf namelijk verboden sinds 2021 (het "Double Reduction" beleid).
  • De conclusie: De AI's prezen de "mooie presentatie", maar misten dat het hele bedrijf illegaal was. Ze waren het eens, maar ze hadden het mis.

2. Het "Resolutie-Paradox" (De Telefoon vs. de Microfoon)

Stel je voor dat je een foto van een berg maakt.

  • Op afstand (Model-niveau): Je ziet duidelijk dat er een berg is. Alle cameras zeggen: "Ja, dat is een berg." Dit werkt perfect.
  • Van dichtbij (Per-voorbeeld niveau): Als je inzoomt op een steen op die berg, zien de cameras het niet eens. De ene zegt "dat is een rots", de ander "dat is een steen", en de derde "dat is een kiezeltje".

De paper laat zien dat AI-rechters heel goed zijn in het zeggen: "Model A is beter dan Model B" (de berg zien). Maar als ze moeten oordelen over één specifiek antwoord (de steen), zijn ze onbetrouwbaar.

  • Ze zijn het 99% eens over welke modellen het beste zijn.
  • Maar ze zijn het maar 72% eens over of een specifiek zinnetje goed is.

Dit is gevaarlijk, omdat AI-systemen tegenwoordig worden getraind op die specifieke, kleine oordelen. Als die oordelen gebaseerd zijn op "schijn", dan leert de AI verkeerde dingen.

3. De Oplossing: MERG (De "Metacognitieve Chef")

Hoe breken we deze illusie? De auteurs bedachten een nieuwe methode genaamd MERG.

Stel je voor dat je een kok vraagt een gerecht te beoordelen.

  • De oude manier: De kok kijkt snel en zegt: "Het ruikt lekker, het ziet er netjes uit. 8 punten."
  • De MERG-methode: Voordat de kok eet, moet hij eerst:
    1. Kennis activeren: "Wat zijn de regels voor dit gerecht? Moet er zeezout in? Is het gerecht legaal?"
    2. Zijn eigen vooroordelen checken: "Ben ik te onder de indruk van de presentatie? Moet ik kritischer zijn?"
    3. Een nieuw beoordelingsformulier maken: Specifiek voor dit gerecht.
    4. Eten en oordelen: Nu pas proeven.

Wat gebeurde er?
Toen de AI-rechters deze "MERG-methode" gebruikten, werden ze minder eens met elkaar.

  • In vakgebieden waar regels vaststaan (zoals wiskunde of wetenschap), werden ze meer eens, omdat ze nu echt naar de feiten keken.
  • In creatieve vakken (zoals literatuur) werden ze minder eens, en dat is goed! Want in kunst is het normaal dat mensen het oneens zijn.

De "oneensheid" die ontstond, was geen fout. Het was een teken dat ze eindelijk naar de inhoud keken in plaats van alleen naar de verpakking.

Waarom is dit belangrijk?

Vandaag de dag worden AI-modellen getraind door ze te laten "leren" van de oordelen van andere AI's. Als die oordelen gebaseerd zijn op een illusie (mooie verpakking in plaats van goede inhoud), dan wordt de AI getraind om mooie leugens te vertellen in plaats van goede antwoorden.

De boodschap in één zin:
We moeten stoppen met te vertrouwen op het feit dat AI-rechters het met elkaar eens zijn. Als ze het te snel eens zijn, kijken ze waarschijnlijk alleen naar de verpakking. We moeten ze dwingen om eerst te denken, kennis te gebruiken en dan pas te oordelen.

Kortom:

  • De Illusie: AI's zijn het eens omdat ze allemaal naar dezelfde oppervlakkige dingen kijken.
  • De Realiteit: Ze missen vaak de diepere, belangrijke fouten.
  • De Oplossing: Laat ze eerst nadenken over de regels en kennis van het onderwerp voordat ze een cijfer geven. Dan wordt het oordeel echt, ook al zijn ze het dan minder vaak eens.