A Systematic Performance Evaluation of Three Large Language Models in Answering Questions on moderate Hyperthermia

Een systematische evaluatie van drie grote taalmodellen (DeepSeek-V3, Llama-3.3-70B-Instruct en GPT-4o) op hun vermogen om vragen over matige hyperthermie te beantwoorden, toont aan dat hoewel de gemiddelde kwaliteit als 'aanvaardbaar' wordt beoordeeld, een aanzienlijk deel van de antwoorden van lage kwaliteit is en potentieel schadelijk kan zijn voor de klinische besluitvorming zonder deskundige begeleiding.

Dennstaedt, F., Cihoric, N., Bachmann, N., Filchenko, I., Berclaz, L., Crezee, H., Curto, S., Ghadjar, P., Huebenthal, B., Hurwitz, M. D., Kok, P., Lindner, L. H., Marder, D., Molitoris, J., Notter, M., Rahman, S., Riesterer, O., Spalek, M., Trefna, H., Zilli, T., Rodrigues, D., Fuerstner, M., Stutz, E.

Gepubliceerd 2026-03-26
📖 4 min leestijd☕ Koffiepauze-leesvoer
⚕️

Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Titel: Kunnen slimme computers de warme kunst van kankerbehandeling begrijpen? Een proef in het Nederlands

Stel je voor dat je drie zeer slimme, maar nog jonge receptie-assistenten hebt. Ze hebben de hele wereldwijde bibliotheek in hun hoofd gelezen en kunnen over van alles praten. Ze heten DeepSeek, Llama en GPT-4o.

De artsen wilden weten: "Als we deze assistenten vragen over een heel speciaal, moeilijk onderwerp te vertellen – namelijk moderate hyperthermie (het verwarmen van tumoren om kanker te bestrijden) – kunnen ze dan goed advies geven? Of gaan ze in de war?"

Hier is wat ze hebben ontdekt, vertaald in een simpel verhaal:

1. Het Experiment: De "Kookproef"

De onderzoekers stelden 40 moeilijke vragen aan de drie assistenten. Sommige vragen waren over patiënten (bijvoorbeeld: "Mag ik deze patiënt verwarmen?"), en andere waren over de techniek (bijvoorbeeld: "Welke apparaten zijn er?").

Vervolgens lieten ze 19 echte experts (kankerafweerspecialisten en technici) de antwoorden beoordelen. Ze gaven een cijfer van 1 (slecht) tot 5 (uitstekend) en keken of het antwoord gevaarlijk zou zijn als een dokter het echt zou gebruiken.

2. Het Resultaat: "Goed genoeg om te praten, niet goed genoeg om te opereren"

De assistenten scoorden gemiddeld een 3 (een "voldoende" of "aanvaardbaar"). Dat klinkt prima, maar er zit een addertje onder het gras:

  • De "Grote Verrassing": In ongeveer 25% van de gevallen gaven ze antwoorden die de experts vonden "slecht" of "zeer slecht".
  • Het Gevaar: In ongeveer 1 op de 5 gevallen gaven ze een antwoord dat de experts als gevaarlijk beschouwden. Als een dokter dit zou gebruiken zonder zelf te weten wat hij doet, zou het verkeerd kunnen uitpakken.

De analogie:
Het is alsof je een robot vraagt om een auto te repareren. Soms zegt hij: "Oké, draai die bout los, dat werkt." Maar in 1 op de 5 gevallen zegt hij: "Draai die bout los, en gooi de motor eruit." Dat klinkt logisch voor de robot, maar voor de auto is het rampzalig.

3. Waarom gaan ze in de war?

De onderzoekers ontdekten twee hoofdredenen waarom deze slimme computers hier moeite mee hebben:

  • De "Niche" Probleem: Hyperthermie is een heel speciaal vakgebied. Er zijn minder boeken en artikelen over dit onderwerp dan over bijvoorbeeld diabetes of hartoperaties. De computers hebben dus minder "voedsel" om van te leren.
  • De "Hallucinaties": Omdat ze niet genoeg echte feiten hebben, beginnen ze soms te dromen. Ze verzinnen een studie die nooit heeft bestaan, of ze noemen een medicijn dat er niet is.
    • Voorbeeld: Een assistent zei: "Er is een beroemde studie genaamd 'HYPO' die dit bewijst." Die studie bestaat niet! Het was een fantasie van de computer.

4. Een leuk voorbeeld uit de test

  • De Goede: Op de vraag of verwarming helpt bij een specifieke botkanker, gaven twee assistenten het juiste antwoord: "Nee, dat is niet bewezen, geef gewoon meer straling." Dat was slim en veilig.
  • De Slechte: Op de vraag "Welke apparaten zijn er?", gaven ze allemaal een lijstje met apparaten die ofwel niet bestaan, ofwel niet voor dit doel worden gebruikt. Een echte expert had dit in 5 minuten op een lijstje gezet; de computers zaten in de war.

5. De Conclusie: Gebruik ze niet als je dokter

De boodschap van dit onderzoek is duidelijk:

Gebruik deze slimme computers nog niet als je medische raadgever voor dit specifieke onderwerp.

Ze zijn geweldig om een algemeen idee te krijgen (zoals een reisgids die zegt: "Er is een heuvel hier"), maar ze zijn niet betrouwbaar genoeg om de route te plannen (zoals een GPS die zegt: "Rij hierlangs, want de weg is goed").

Als je geen expert bent in dit vakgebied, kun je de fouten van de computer niet zien. Je denkt dat het waar is, maar het is een gevaarlijke droom.

Kortom: De computers zijn slim, maar voor dit specifieke, warme vakgebied zijn ze nog te onervaren. We moeten eerst meer echte kennis verzamelen en beter ordenen, voordat we deze robots de leiding kunnen geven.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →