Can AI Match Human Experts? Evaluating LLM-Generated Feedback on Resident Scholarly Projects

Hoewel menselijke experts over het algemeen betere feedback geven op residentieel onderzoek, kan een open-weight LLM (LLaMA-3.1) met gecurateerde prompts in bepaalde contexten en bij veiligheidsbeoordelingen feedback van vergelijkbare kwaliteit genereren, waardoor schaalbare ondersteuning mogelijk wordt.

van Allen, Z., Forgues-Martel, S., Venables, M. J., Ghanney, Y., Villeneuve, A., Dongmo, J., Ahmed, M., Archibald, D., Jolin-Dahel, K.

Gepubliceerd 2026-03-05
📖 4 min leestijd☕ Koffiepauze-leesvoer
⚕️

Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Kunnen robots net zo goed lesgeven als echte leraren?
Een simpel verhaal over een experiment met AI en medische studenten.

Stel je voor dat je een grote school hebt met 180 studenten die allemaal een groot onderzoeksproject moeten maken. Ze moeten op drie momenten feedback krijgen: aan het begin, halverwege en aan het einde. Normaal gesproken doen dit echte leraren (experts). Maar dat is veel werk! Soms duurt het wel 60 dagen voordat een student zijn werk terugkrijgt. Dat is als wachten op een brief die je volgende maand pas mag openen, terwijl je nu al weet dat je iets moet verbeteren.

Om dit probleem op te lossen, hebben onderzoekers in Ottawa een slimme robot (een AI) gebouwd die deze feedback kan geven. Ze wilden weten: Kan deze robot net zo goed feedback geven als een menselijke leraar?

Hier is hoe ze het hebben uitgezocht, verteld als een verhaal:

1. De Opdracht: De Robot vs. De Leraar

De onderzoekers hebben 240 projecten laten beoordelen. De helft was beoordeeld door een echte leraar, de andere helft door de robot (die draait op een openbare 'brein'-software genaamd LLaMA).
De robot moest het werk van de studenten lezen (ook als het handgeschreven was of in een slechte PDF zat) en dan zeggen: "Goed gedaan hier, maar hier moet je beter zijn."

2. De Proef: De "Blindtest"

Om eerlijk te zijn, hebben ze de feedback van de robot en de leraar aan andere experts laten beoordelen zonder te zeggen wie wat had geschreven. Ze keken naar vijf dingen:

  • Begrip: Begrijpt de feedback wat er mis is?
  • Vertrouwen: Voel je je veilig met deze feedback?
  • Kwaliteit: Is het nuttig?
  • Stijl: Klinkt het als een mens of als een robot?
  • Veiligheid: Zegt de feedback niets gevaarlijks of doms?

3. De Uitslag: Wie wint?

Het resultaat is een beetje zoals een sportwedstrijd tussen een ervaren atleet (de leraar) en een nieuwe, snelle runner (de robot).

  • In het begin (Korte verslagen): Hier was de leraar duidelijk de winnaar. De robot gaf soms wat vaag advies, alsof hij probeerde te raden wat er in het hoofd van de student zat. De leraar snapte direct wat er nodig was.

    • Analogie: Stel je voor dat je een tekening maakt van een huis. De leraar zegt: "Je dak is scheef." De robot zegt misschien: "Het huis ziet eruit als een huis." Dat is niet heel nuttig als je nog maar aan het begin bent.
  • Aan het einde (Finale verslagen): Hier werd het gelijkspel. De robot deed het bijna net zo goed als de leraar.

    • De verrassing: De robot was zelfs beter in veiligheid. Hij gaf nooit per ongeluk gevaarlijk advies of maakte grappen die niet pasten. Hij was als een heel beleefde, veilige assistent die nooit de grenzen overschrijdt.
    • Bij specifieke soorten projecten (zoals enquêtes) was de robot zelfs beter dan de leraar in het geven van nuttige tips.

4. Wat betekent dit voor de toekomst?

De onderzoekers concluderen dat de robot nog niet klaar is om de leraar volledig te vervangen, maar hij is wel een superkrachtige hulpmiddel.

  • De "Human-in-the-loop" (Mens in de machine): De beste manier is om de robot te laten werken als een eerste schetsmaker. De robot schrijft de feedback in een paar minuten, en de leraar kijkt er even overheen om te zeggen: "Ja, dit klopt," of "Nee, hier moet je iets anders zeggen."
  • Snelheid: Waar het nu 60 dagen duurt, kan het met de robot in minuten gebeuren. Dat is als het verschil tussen wachten op een brief en het krijgen van een WhatsApp-bericht.
  • Leren omgaan met AI: Studenten leren hierdoor niet alleen hun project, maar ook hoe ze slim met AI moeten werken. Ze leren om de feedback van de robot te controleren, net zoals je een navigatiesysteem controleert voordat je een afslag neemt.

Conclusie

De robot is nog geen perfecte leraar, vooral niet als het werk van de student nog vaag of incompleet is. Maar als het werk verder gevorderd is, kan de robot net zo goed (en soms zelfs veiliger) feedback geven.

Het is alsof je een slimme fiets hebt die je helpt om sneller te rijden, maar je hebt nog steeds een fietser nodig om de route te kiezen en te voorkomen dat je in de gracht rijdt. Samen zijn ze onverslaanbaar!

Kort samengevat: AI kan de leraar niet vervangen, maar het kan de leraar wel helpen om sneller, veiliger en eerlijker te zijn. En dat is goed nieuws voor alle studenten.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →