Who Judges the Judge? Evaluating LLM-as-a-Judge for French Medical open-ended QA

Each language version is independently generated for its own context, not a direct translation.

Wie oordeelt er over de rechter? Een simpel verhaal over AI, medische vragen en de "domme" rechter

Stel je voor dat je een grote groep medische studenten hebt die een examen doen. Ze krijgen een moeilijke vraag over gezondheid en moeten een antwoord schrijven. Nu moet iemand die antwoorden nakijken. Maar hier zit het probleem: er zijn maar heel weinig echte artsen beschikbaar om dit te doen. Het is duur, tijdrovend en ze hebben andere dingen te doen.

Dus, wat als we een computer (een Large Language Model of LLM) vragen om die antwoorden te nakijken? Kunnen die computers net zo goed oordelen als een menselijke arts?

Dit is precies wat de auteurs van dit onderzoek hebben onderzocht. Ze hebben gekeken of AI kan fungeren als een "rechter" voor medische vragen in het Frans. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het probleem: De "Kleurrijke" Antwoorden

In de medische wereld is het antwoord niet altijd zwart-wit. Soms zegt een student: "Geef de patiënt aspirine," en een ander zegt: "Het is raadzaam om acetylsalicylzuur te nemen." Beide zeggen hetzelfde, maar de woorden zijn anders.

Een simpele computer die telt hoeveel woorden overeenkomen (zoals een spellingscontrole), ziet dit verschil en denkt: "Oh, dit is fout!" Maar een echte arts ziet: "Nee, dit is juist, het is gewoon anders verwoord."

De onderzoekers wilden weten: Kan een slimme AI dit subtiele verschil zien?

2. De Experimenten: De Rechtertest

Ze hebben een proef opgezet met drie groepen:

De Studenten: Verschillende AI-modellen kregen medische vragen gesteld en schreven antwoorden.
De Echte Rechter: Een ervaren neuroloog (een hersenspecialist) keek naar de antwoorden en zei: "Dit is hetzelfde als het juiste antwoord" of "Dit is fout."
De AI-Rechters: Verschillende AI-modellen kregen dezelfde taak: ze moesten beoordelen of het studenten-antwoord klopte met het echte antwoord.

3. De Verassende Resultaten

A. De "Grote" AI's zijn niet altijd de beste
Je zou denken dat de grootste, duurste AI's (zoals die van Google of OpenAI) de beste rechters zijn. Maar dat bleek niet helemaal waar.

Sommige grote AI's waren te streng. Ze dachten: "Oh, de woorden zijn anders, dus het is fout!" Ze waren bang om fouten te maken en keurden veel goede antwoorden af.
Andere AI's waren te makkelijk. Ze dachten: "Klinkt goed, dan is het goed!" en keurden zelfs slechte antwoorden goed.

B. De "Eigenbaas"-effect (De Bias)
Dit was het meest interessante stukje. De AI-rechter bleek beïnvloed door wie het antwoord had geschreven.

Als een AI-rechter zelf van het merk "Qwen" was, keek hij veel vriendelijker naar antwoorden die ook door een "Qwen" waren geschreven. Alsof een leraar zijn eigen favoriete leerlingen iets beter vindt.
Dit betekent dat je niet zomaar elke AI kunt gebruiken om een andere AI te beoordelen. Je moet weten wie de "rechter" is en wie de "student".

C. De kleine, slimme oplossing
De onderzoekers probeerden iets heel slims. Ze namen een klein, compact AI-model (een beetje zoals een slimme smartphone-app in plaats van een supercomputer).

Eerst was deze kleine AI heel slordig: hij zei bijna alles "goed".
Maar toen ze hem een beetje trainden met een paar honderd voorbeelden van een echte arts (een soort "cursus"), werd hij veel beter.
Ze gebruikten zelfs een speciale techniek (GRPO) die werkt als een video-game coach: de AI krijgt een puntje als hij het goed doet en een straf als hij het fout heeft. Na een paar rondes "trainen" werd deze kleine AI bijna net zo goed als de grote, dure AI's.

4. Wat betekent dit voor de toekomst?

Stel je voor dat je een fabriek hebt waar duizenden medische vragen worden beantwoord. Je kunt niet duizenden artsen inhuren om alles te nakijken.

Dit onderzoek zegt:

Pas op met de "rechter": Niet elke AI is een goede rechter. Sommigen zijn te streng, anderen te zacht, en sommigen hebben "favorieten" (bias).
Kleine modellen kunnen het: Je hoeft geen supercomputer te gebruiken. Als je een klein model goed traint met een beetje hulp van experts, kun je een betrouwbare "rechter" maken die goedkoop en snel is.
Geen vervanging voor artsen: Hoewel deze AI's helpen bij het nakijken van duizenden antwoorden, kunnen ze de echte arts niet vervangen. In het echte leven, als het om een patiënt gaat, moet er altijd een menselijke arts de laatste handtekening zetten. De AI is slechts een assistent die het werk lichter maakt.

Kort samengevat:
Het is alsof je een groep leerlingen laat nakijken door andere leerlingen. Als je dat doet, moet je zorgen dat de nakijkers niet te streng zijn, niet te makkelijk, en niet hun eigen vrienden bevoordelen. En het beste nieuws? Je kunt een slimme, kleine leerling trainen om een heel eerlijke nakijker te worden, zonder dat je een dure professor nodig hebt.

Who Judges the Judge? Evaluating LLM-as-a-Judge for French Medical open-ended QA

1. Het probleem: De "Kleurrijke" Antwoorden

2. De Experimenten: De Rechtertest

3. De Verassende Resultaten

4. Wat betekent dit voor de toekomst?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Who Judges the Judge? Evaluating LLM-as-a-Judge for French Medical open-ended QA

1. Het probleem: De "Kleurrijke" Antwoorden

2. De Experimenten: De Rechtertest

3. De Verassende Resultaten

4. Wat betekent dit voor de toekomst?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

The Moral Foundations Reddit Corpus

Automated stance detection in complex topics and small languages: the challenging case of immigration in polarizing news media

BioMamba: Domain-Adaptive Biomedical Language Models

Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing

Byte-token Enhanced Language Models for Temporal Point Processes Analysis