Knowledge without Wisdom: Measuring Misalignment between LLMs and Intended Impact

Deze studie toont aan dat grote taalmodellen, ondanks hun hoge prestaties op benchmarks, vaak slecht of zelfs negatief zijn afgestemd op onderwijsresultaten, waarbij gedeelde vooroordelen uit het pre-trainingproces leiden tot een misalignement dat zelfs door ensemble-methoden wordt verergerd.

Michael Hardy, Yunsung Kim

Gepubliceerd 2026-03-03
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Titel: Slimme Robots, Dwaalende Leraren: Waarom AI nog niet klaar is voor de klas

Stel je voor dat je een groep van 16 superslimme robots hebt. Deze robots hebben de hele internet geschiedenis, boeken en kranten gelezen. Ze kunnen alles opzoeken, prachtige zinnen schrijven en lijken enorm slim. Ze zijn de "kennis" in het uiterste.

Maar wat als je ze vraagt om te oordelen over iets heel menselijks: hoe goed een leraar een klas van 8-jarigen les geeft?

Dat is precies wat deze studie van onderzoekers van Stanford heeft gedaan. En het resultaat is een beetje als een waarschuwing: Deze robots hebben veel kennis, maar ze missen de wijsheid.

Hier is het verhaal, vertaald in simpele taal en met een paar creatieve vergelijkingen.

1. De "Kennis" vs. "Wijsheid" Kwestie

De onderzoekers gebruiken een mooie metafoor uit de filosofie:

  • Kennis is het kunnen opnoemen van feiten (zoals een robot die alle regels van wiskunde kent).
  • Wijsheid is het begrijpen van waarom iets werkt en wat het effect is op een mens (zoals een ervaren leraar die voelt dat een kind verward is en anders moet uitleggen).

De robots zijn experts in kennis. Ze kunnen een lesoverdracht lezen en zeggen: "Ah, hier gebruikt de leraar de juiste wiskundetermen!" Maar ze falen volledig in wijsheid. Ze weten niet of die les daadwerkelijk helpt de kinderen iets te leren.

2. De Grote "Kloof" (De Mismatch)

De onderzoekers gaven de robots transcripties van echte wiskundeklassen (4e en 5e klas in de VS). Ze vroegen de robots om de kwaliteit van de les te beoordelen, net als menselijke experts.

Het verrassende resultaat:

  • De robots waren het onderling het meest eens. Ze dachten allemaal precies hetzelfde.
  • Maar hun oordeel had weinig tot niets te maken met wat de echte menselijke experts zeiden.
  • En het ergste: hun oordeel had zelfs een negatief verband met het echte resultaat: de leeropbrengst van de kinderen.

De Metafoor:
Stel je voor dat je een groep foodcritici hebt die nog nooit een maaltijd hebben gegeten, maar wel alle kookboeken hebben gelezen. Als ze een gerecht beoordelen, zeggen ze allemaal: "Dit ziet er perfect uit, de kruiden zijn correct!"
Maar als je de gasten vraagt of ze het lekker vonden, blijken de gerechten die de critici een 10 gaven, juist vies te smaken. De critici (de AI) oordelen op basis van hoe het eruit ziet (de tekst), niet op basis van de smaak (het leren van de kinderen).

3. Waarom doen ze dit? (De "Gemeenschappelijke Bijscholing")

Waarom denken alle robots hetzelfde, terwijl ze zo fout zitten?
Omdat ze allemaal op dezelfde manier zijn getraind: met dezelfde enorme hoeveelheden internetdata. Ze hebben een gemeenschappelijke "vooroordeel" ontwikkeld. Ze hebben geleerd hoe een "goede les" er moet uitzien in een boek, maar niet hoe het eruit ziet in de chaotische, echte wereld van een klaslokaal.

Het is alsof je 16 mensen die alleen maar films hebben gezien, vraagt om een echte voetbalwedstrijd te beoordelen. Ze zullen allemaal zeggen dat de spelers "eruit zien alsof ze winnen", maar ze snappen niet dat de bal in het net is gegaan.

4. Het "Groepsdenk" (Ensembling) werkt niet

Je zou denken: "Oké, laten we de antwoorden van alle robots samenvoegen. Als ze het allemaal eens zijn, moet het wel waar zijn!"
De onderzoekers probeerden dit ook. Ze maakten een "super-robot" door de stemmen van alle andere robots te combineren.

Het resultaat: Dit werd erger.
De "super-robot" was nog zekerder van zijn fouten. Het was alsof je een groep mensen die allemaal in de verkeerde richting lopen, samenbindt; ze lopen dan nog sneller in de verkeerde richting. Het consensus-gevoel gaf hen een vals gevoel van zekerheid.

5. Wat betekent dit voor de toekomst?

De studie concludeert dat we AI niet zomaar kunnen gebruiken om te beoordelen of leraren goed lesgeven, of om lesmateriaal te maken dat echt werkt.

  • Het probleem is diep: Het zit niet in de "prompt" (de vraag die je stelt) of in het kiezen van een ander model. Het zit in de manier waarop deze AI's zijn opgeleid. Ze zijn getraind op data die niet bestaat voor echte klaslokalen (want dat is privé en beschermd).
  • Het gevaar: Als scholen AI gaan gebruiken om leraren te beoordelen of om lesplannen te maken, kunnen ze per ongeluk slechte praktijken belonen en goede praktijken straffen. Het zou kunnen leiden tot een situatie waarin leraren "klinken" als goede leraren (voor de robot), maar de kinderen niets leren.

De Les voor ons allemaal

De titel van het paper is "Knowledge without Wisdom" (Kennis zonder Wijsheid).
De robots hebben de kennis van de hele wereld, maar ze missen de wijsheid om te begrijpen wat echt belangrijk is voor een kind dat leert.

Conclusie:
We moeten oppassen met het vertrouwen op AI in het onderwijs. Het is een geweldig hulpmiddel om feiten te vinden of teksten te schrijven, maar het is nog geen vervanging voor de menselijke wijsheid die nodig is om te begrijpen hoe kinderen leren. We moeten niet kijken naar hoe "slim" de robot klinkt, maar naar of het daadwerkelijk helpt de kinderen te groeien. En tot nu toe? Dat doet het niet.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →