Enhancing Pancreatic Cancer Staging with Large Language Models: The Role of Retrieval-Augmented Generation

Dit onderzoek toont aan dat het gebruik van Retrieval-Augmented Generation (RAG) in NotebookLM de nauwkeurigheid van het stadiumbepalen van pancreaskanker significant verbetert ten opzichte van de onderliggende LLM, terwijl het bovendien transparantie biedt door relevante richtlijnexcerpts te presenteren.

Hisashi Johno, Yuki Johno, Akitomo Amakawa, Junichi Sato, Ryota Tozuka, Atsushi Komaba, Hiroaki Watanabe, Hiroki Watanabe, Chihiro Goto, Hiroyuki Morisaka, Hiroshi Onishi, Kazunori Nakamoto

Gepubliceerd 2026-03-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

De Slimme Assistent met een Boek in de Hand: Hoe AI Pancreaskanker beter kan indelen

Stel je voor dat je een zeer slimme, maar soms wat verwarde robot hebt die alles over de wereld weet. Deze robot is een Grote Taalmodel (LLM). Hij kan prachtige verhalen vertellen en vragen beantwoorden, maar als het gaat over medische diagnoses, kan hij soms "hallucineren". Hij verzint feiten of gebruikt verouderde regels, wat in de geneeskunde gevaarlijk kan zijn.

De onderzoekers van dit paper wilden weten: Kunnen we deze robot slimmer maken door hem een "handboek" te geven? En vooral: maakt het uit hoe hij dat handboek gebruikt?

Hier is wat ze hebben ontdekt, vertaald in alledaags taalgebruik:

1. Het Experiment: De Robot tegen zichzelf

De onderzoekers wilden testen of een techniek genaamd RAG (Retrieval-Augmented Generation) werkt.

  • De situatie: Ze hadden 100 fictieve patiënten met alvleesklierkanker. Voor elke patiënt hadden ze een CT-scan-beschrijving.
  • De taak: De robot moest de kanker "stageren". Dat betekent dat hij moet bepalen hoe groot de tumor is, of hij is uitgezaaid en of de tumor nog operabel is. Dit is een complexe puzzel die strikte regels (de Japanse richtlijnen) vereist.

Ze testten drie scenario's:

  1. De "Blinde" Robot: Een standaard AI (Gemini 2.0 Flash) zonder boekje. Hij moet het uit zijn hoofd weten.
  2. De "Gelezen" Robot: Dezelfde AI, maar nu met het volledige handboek in zijn hoofd (het handboek werd in de chat getypt).
  3. De "Slimme Zoeker" (NotebookLM): Een geavanceerde versie van dezelfde AI die het handboek op een computer heeft staan. Als hij een vraag krijgt, zoekt hij eerst het juiste stukje tekst op in het handboek en leest dat specifiek stukje voor hij antwoordt.

2. De Resultaten: De Zoeker wint ruimschoots

Het resultaat was opvallend, net als bij een student die voor een examen leert:

  • De Blinde Robot: Haalde slechts 35% goed. Hij probeerde het uit zijn hoofd, maar vergat de fijne regels.
  • De Gelezen Robot: Haalde 38% goed. Het handboek in zijn hoofd hielp een beetje, maar hij kon de informatie niet goed vinden of toepassen. Het was alsof hij een dik boek op zijn schoot had, maar niet wist welk hoofdstuk hij moest lezen.
  • De Slimme Zoeker (RAG): Haalde 70% goed! Dit is een enorme sprong.

De analogie:
Stel je voor dat je een moeilijke wiskundetoets moet maken.

  • De blinde robot is een student die alles uit zijn hoofd probeert te herinneren.
  • De gelezen robot is een student die het hele leerboek op zijn bureau heeft liggen, maar door de paniek niet weet waar hij moet zoeken.
  • De slimme zoeker is een student die een slimme index heeft. Hij kijkt direct naar de juiste pagina, leest de formule, en past die toe. Hij maakt minder fouten omdat hij zich baseert op de feitelijke tekst.

3. Het Grootste Voordeel: Transparantie

Wat de "Slimme Zoeker" nog specialer maakt, is dat hij niet alleen het antwoord geeft, maar ook laat zien waar hij het vandaan heeft.

  • Als de robot zegt: "Deze tumor is niet meer operabel", dan plakt hij er direct een stukje tekst bij uit het handboek: "Zie pagina 12, paragraaf 3: als de slagader wordt aangetast, is het niet operabel."

Dit is als een detective die niet alleen zegt "De dader is X", maar ook de bewijsstukken op tafel legt. Voor artsen is dit cruciaal. Ze hoeven niet blindelings te vertrouwen op de AI; ze kunnen direct controleren of de AI de regels correct heeft gelezen.

4. De Grootte van de Gaten (Beperkingen)

De onderzoekers zijn eerlijk: de robot is nog niet perfect.

  • Soms vond hij het juiste stukje tekst (het "zoekresultaat" was goed), maar interpreteerde hij het verkeerd.
  • Voorbeeld: In één geval las hij dat een bloedvat was aangetast, maar hij dacht dat het het verkeerde vat was. Hij had de juiste tekst, maar trok de verkeerde conclusie. Dit heet een "hallucinatie".
  • Veiligheid: Omdat deze specifieke AI (NotebookLM) online draait bij Google, is het voor echte patiëntgegevens niet veilig (privacy). In de toekomst moeten we dit soort systemen lokaal op een ziekenhuisserver draaien, zodat de data niet het gebouw verlaat.

Conclusie in één zin

Deze studie laat zien dat een AI veel betrouwbaarder wordt in het indelen van kanker als je hem niet alleen "slim" maakt, maar hem ook een slimme zoekmachine geeft die direct naar de juiste medische regels verwijst. Het is een stap in de richting van een AI-assistent die artsen helpt, in plaats van hen te vervangen, omdat hij zijn antwoorden altijd kan onderbouwen met feiten.