Argumentation for Explainable and Globally Contestable Decision Support with LLMs

Dit paper introduceert ArgEval, een raamwerk dat Large Language Models in hoog-risico domeinen zoals de geneeskunde transparanter en eerlijker maakt door te verschuiven van lokaal, geval-specifiek redeneren naar het opzetten van gestructureerde, wereldwijd betwistbare argumentatiekaders voor algemene beslissingsopties.

Adam Dejl, Matthew Williams, Francesca Toni

Gepubliceerd 2026-03-17
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat verwarde assistent hebt die alles over de wereld weet. Deze assistent is een LLM (een groot taalmodel). Hij kan prachtige teksten schrijven en complexe vragen beantwoorden. Maar als je hem vraagt om een levensbelangrijke beslissing te nemen – bijvoorbeeld welke behandeling een patiënt met een hersentumor moet krijgen – dan is hij een beetje als een tovenaar die zijn trucjes niet uitlegt. Je ziet wat hij doet, maar niet waarom. En als hij een fout maakt, is het lastig om te zeggen: "Hé, dat klopt niet, want je hebt dit over het hoofd gezien."

De auteurs van dit paper, Adam, Matthew en Francesca, hebben een oplossing bedacht die ze ArgEval noemen. Laten we uitleggen hoe dit werkt met een paar creatieve vergelijkingen.

1. Het probleem: De "Black Box"

Stel je voor dat de LLM een zwarte doos is. Je stopt een patiëntinformatie erin, en er komt een advies uit. Maar als je vraagt: "Waarom?", geeft hij een antwoord dat klinkt als een gedachtegang, maar dat vaak niet klopt met hoe hij eigenlijk denkt. In de medische wereld is dit gevaarlijk. Als de assistent een fout maakt, kun je die niet makkelijk corrigeren voor de volgende patiënt, omdat je niet weet waar de fout precies zit.

2. De oplossing: ArgEval als een Bouwpakket

In plaats van de LLM te laten "gokken" voor elke nieuwe patiënt, bouwen de auteurs eerst een groot, gestructureerd bouwpakket (een "ontologie" en "argumentatiekaders").

  • De Ontologie (Het Menu): Eerst laten ze de LLM alle medische richtlijnen lezen en een soort "menu" maken van alle mogelijke behandelingen (zoals chirurgie, straling, medicijnen).
  • De Argumentatiekaders (De Regels): Voor elk item op dat menu bouwen ze een argumenten-vechtarena. Stel je voor dat voor elke behandeling een tribunal wordt opgezet.
    • Er zijn pleitbezorgers (argumenten voor de behandeling).
    • Er zijn tegenstanders (argumenten tegen, zoals "te oud" of "te gevaarlijk").
    • Elk argument heeft een sterkte (een score).
    • Deze arena is vastgelegd in een algemene regel die voor alle patiënten geldt.

3. Hoe het werkt: Van Algemeen naar Specifiek

Wanneer een nieuwe patiënt binnenkomt (bijvoorbeeld een 85-jarige man met een tumor op een lastige plek), gebeurt het volgende:

  1. Het Invullen: De LLM haalt de specifieke feiten uit het patiëntendossier (leeftijd, tumorlocatie, etc.).
  2. Het Aanklikken: Het systeem kijkt naar het algemene bouwpakket. Welke regels zijn van toepassing op deze patiënt?
    • Voorbeeld: De regel "Chirurgie is goed" heeft een voorwaarde: "Tumor mag niet te diep zitten". Omdat de tumor van deze patiënt wel diep zit, wordt die regel uitgeschakeld (alsof je een schakelaar omzet).
    • De regel "Straling is goed" blijft aan.
  3. De Berekening: Het systeem rekent uit welke overgebleven argumenten het sterkst zijn. De uitkomst is een advies met een duidelijke uitleg: "Chirurgie wordt niet aanbevolen omdat de tumor te diep zit."

4. De Magie: "Wereldwijde" Betwisting (Global Contestability)

Dit is het belangrijkste en coolste deel van het paper.

In oude systemen kon je alleen zeggen: "Deze specifieke patiënt krijgt een verkeerd advies." Maar je kon de basisregels niet makkelijk aanpassen.

Met ArgEval kun je zeggen: "Hé, de regel voor chirurgie is verkeerd opgesteld."

  • Je past de algemene regel aan in het bouwpakket (bijvoorbeeld: "Chirurgie is alleen goed als de patiënt jonger is dan 70").
  • Het mooie effect: Zodra je die ene regel aanpast, werkt het advies voor alle toekomstige patiënten direct beter. Je hoeft niet duizenden gevallen opnieuw te berekenen; je past gewoon de "moeder-regel" aan.

De Analogie:
Stel je voor dat je een recept hebt voor een taart.

  • Oude manier: Als de taart voor de ene klant te zoet is, maak je die taart opnieuw. Als de volgende klant ook een minder zoete taart wil, moet je het recept opnieuw uitleggen.
  • ArgEval manier: Je past het recept zelf aan (minder suiker). Nu wordt elke taart die je vanaf nu bakt, automatisch minder zoet. En als iemand vraagt "Waarom is deze taart minder zoet?", kun je precies laten zien welk ingrediënt je hebt aangepast in het recept.

5. Wat hebben ze bewezen?

Ze hebben ArgEval getest op een moeilijke medische taak: het kiezen van de beste behandeling voor een agressieve hersentumor (glioblastoma).

  • Resultaat: Het systeem deed het net zo goed als de slimste andere methoden, maar gebruikte veel minder rekenkracht (en dus minder tijd en geld).
  • Betwisting: In een proefje hebben ze één foutje in de regels gevonden en aangepast. Hierdoor verbeterde het advies voor alle patiënten in hun testgroep direct.

Conclusie

ArgEval is als het geven van een open boek aan een slimme assistent. In plaats van dat hij raadt, volgt hij een duidelijk, controleerbaar stappenplan. Als hij een fout maakt, kun je niet alleen de fout voor die ene keer herstellen, maar kun je de basisregels aanpassen zodat hij in de toekomst nooit meer diezelfde fout maakt. Dit maakt het veel veiliger en betrouwbaarder om AI in de zorg (en andere belangrijke gebieden) te gebruiken.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →