Show Your Work: Verbatim Evidence Requirements and Automated Assessment for Large Language Models in Biomedical Text Processing

⚕️

Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

De Kernvraag: "Toon je werk!"

Stel je voor dat je een groep zeer slimme, maar soms wat flauwe kunstenaars (de AI-modellen) vraagt om een schilderij te maken op basis van een beschrijving. Vroeger vroegen we ze alleen: "Wat zie je hier?" en ze gaven een antwoord. Soms hadden ze gelijk, maar soms gaven ze een antwoord dat perfect klonk, terwijl ze eigenlijk helemaal niet keken naar het schilderij. Ze "hallucineerden" een antwoord.

In dit onderzoek wilden de auteurs weten: Wat gebeurt er als we de kunstenaars dwingen om niet alleen het antwoord te geven, maar ook het stukje schilderij te laten zien waarop ze hun antwoord baseerden?

In de wetenschappelijke taal noemen ze dit "Show Your Work" (Toon je werk). In de praktijk betekent dit: de AI moet een label geven (bijvoorbeeld: "Deze patiënt mag deelnemen aan de studie") én een exacte zin uit de tekst kopiëren die dat bewijst.

Het Experiment: De Medische Keuring

De onderzoekers (artsen en data-experts uit Zwitserland) namen 200 medische onderzoeken over kanker. Ze gaven deze aan drie van 's werelds slimste AI-modellen (van OpenAI, Google en Anthropic).

De taak was simpel: Kijk naar de samenvatting van het onderzoek en zeg of het onderzoek alleen patiënten met een lokale kanker toeliet, alleen patiënten met uitzaaiingen (metastasen), of beide.

Ze deden dit op twee manieren:

De oude manier: De AI gaf alleen het antwoord.
De nieuwe manier: De AI gaf het antwoord én een exacte zin uit de tekst die het bewees.

Wat vonden ze? (De Resultaten)

Hier zijn de belangrijkste ontdekkingen, vertaald in alledaagse termen:

1. De "Toon je werk"-regel maakt de AI iets voorzichtiger
Toen de AI's moesten laten zien waar ze hun antwoord vandaan hadden, gaven ze vaker toe: "Ik weet het niet zeker, want ik kan geen bewijs vinden in deze tekst."

Analogie: Het is alsof een student die een proefwerk schrijft, eerder "Ik weet het niet" schrijft in plaats van een gok te wagen, omdat hij bang is dat hij zijn werkboekje niet kan tonen.
Gevolg: De AI gaf iets minder vaak een antwoord (de "dekking" daalde), maar de antwoorden die ze wel gaven, waren vaak betrouwbaarder.

2. Niet alle AI's reageren hetzelfde
Net zoals mensen verschillend zijn, reageerden de AI-modellen anders op deze regel:

Model A (GPT-5.2) en Model B (Gemini): Deze werden iets slimmer en maakten minder fouten toen ze hun werk moesten tonen. Het was alsof de regel hen dwong om beter na te denken.
Model C (Claude): Deze werd juist een beetje slordiger. Het was alsof deze kunstenaar, als hij gedwongen werd om zijn penseelstreken te tonen, in de war raakte en meer fouten maakte.

3. De "Exacte Zin" is niet altijd een goed bewijs
Dit is misschien wel het belangrijkste punt. De AI kon een zin kopiëren die letterlijk in de tekst stond (mechanisch correct), maar die zin had niets te maken met het antwoord dat ze gaven.

Analogie: Stel je voor dat je vraagt: "Waarom is de hemel blauw?" en de AI antwoordt: "De hemel is blauw" en kopieert de zin "De zon schijnt" uit de tekst. De zin is wel letterlijk uit de tekst gehaald (mechanisch correct), maar het is geen bewijs voor het antwoord.
Conclusie: De AI's konden "valse bewijzen" leveren. Ze kopieerden een zin, maar die zin ondersteunde hun antwoord niet echt.

4. De "Jury" (Een tweede AI)
De onderzoekers gebruikten een tweede AI als "jury" om te kijken of het bewijs wel klopte.

Ze ontdekten dat zelfs als de eerste AI een zin kopieerde, de jury vaak zei: "Nee, deze zin bewijst niet wat je zegt."
De oplossing: Als je alleen de antwoorden accepteert waarbij de jury zegt: "Ja, dit klopt echt", dan zijn de antwoorden extreem betrouwbaar. Het nadeel? Dan heb je veel minder antwoorden over, omdat de AI's vaak worden afgewezen.

Wat betekent dit voor de toekomst?

Dit onderzoek leert ons een belangrijke les over het vertrouwen in AI in de geneeskunde:

Vertrouwen kost tijd: Als we AI dwingen om hun "werk" te tonen, krijgen we minder antwoorden, maar zijn die antwoorden veiliger.
Kopieerwerk is niet genoeg: Alleen omdat een AI een zin uit de tekst plukt, betekent niet dat ze het begrijpt.
De beste aanpak: Gebruik AI om een eerste selectie te maken, maar laat de AI ook het bewijs tonen. Als het bewijs niet klopt, laat je een mens (een arts) het controleren. Dit noemen ze een "selectieve voorspelling": de AI doet het snelle werk voor de makkelijke gevallen, en stuurt de twijfelgevallen door naar een mens.

Kortom: Door AI te dwingen om "Show Your Work" te doen, maken we ze niet per se slimmer, maar wel eerlijker. Ze worden minder snel een "betrouwbare leugenaar" die een goed antwoord geeft zonder bewijs, en meer een "voorzichtige assistent" die zegt: "Ik denk dit, en hier is de zin die het bewijst. Als je het niet gelooft, vraag het aan een mens."

Show Your Work: Verbatim Evidence Requirements and Automated Assessment for Large Language Models in Biomedical Text Processing

De Kernvraag: "Toon je werk!"

Het Experiment: De Medische Keuring

Wat vonden ze? (De Resultaten)

Wat betekent dit voor de toekomst?

Probleemstelling

Methodologie

Belangrijkste Resultaten

Belangrijkste Bijdragen

Betekenis en Conclusie

Show Your Work: Verbatim Evidence Requirements and Automated Assessment for Large Language Models in Biomedical Text Processing

De Kernvraag: "Toon je werk!"

Het Experiment: De Medische Keuring

Wat vonden ze? (De Resultaten)

Wat betekent dit voor de toekomst?

Probleemstelling

Methodologie

Belangrijkste Resultaten

Belangrijkste Bijdragen

Betekenis en Conclusie

Meer zoals dit

A case report on gendered biases in a Finnish healthcare AI assistant

An End-to-End Synthetic Oncology Clinical Trial Framework Integrating Radiographic Response, Circulating Tumor DNA, Safety, and Survival for Decision-Oriented Clinical Data Science

Who is leading medical AI? A systematic review and scientometric analysis of chest x-ray research

High-Throughput Observational Evidence Generation Using Linked Electronic Health Record and Claims Data

Perception of Safety in Behavioral Health Crisis Units among Patients and Care Partners versus Artificial Intelligence (AI): A Multimethod Study