Generating High Quality Synthetic Data for Dutch Medical Conversations

Dit artikel presenteert een pipeline voor het genereren van synthetische Nederlandse medische dialogen met een fine-tuned LLM, waarbij kwantitatieve en kwalitatieve evaluaties aantonen dat hoewel de methode haalbaar is, specifieke domeinkennis en zorgvuldige prompting nodig zijn om de balans tussen natuurlijkheid en structuur te verbeteren.

Cecilia Kuan, Aditya Kamlesh Parikh, Henk van den Heuvel

Gepubliceerd 2026-04-14
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Samenvatting: Het Koken van Medische Gesprekken met een Robot

Stel je voor dat je een zeer slimme kok wilt trainen om perfecte recepten te maken. In de wereld van computers en medische zorg is die "kok" een kunstmatige intelligentie (een AI) die medische gesprekken moet begrijpen en analyseren. Maar er is een groot probleem: echte medische gesprekken tussen artsen en patiënten zijn als geheime familierecipes. Ze zijn waardevol, maar je mag ze niet zomaar delen vanwege privacywetten (zoals de AVG). Je kunt ze niet op een open markt neerleggen om te laten zien hoe ze eruitzien.

Dit onderzoek van de Radboud Universiteit probeert een oplossing: het koken van "synthetische" (kunstmatige) recepten. Ze willen een AI leren om zelf nieuwe, nep-medische gesprekken te schrijven die er net zo echt uitzien als de echte, maar dan zonder dat er echte patiënten bij betrokken zijn.

Hier is hoe het werkt, stap voor stap, in simpele taal:

1. De Ingrediënten (De Data)

De onderzoekers hadden een kleine doos met echte, anonieme transcripties van gesprekken tussen nefrologen (nierartsen) en patiënten. Omdat er maar heel weinig waren, konden ze de AI niet goed trainen.

  • De Analogie: Het is alsof je een kok wilt leren koken, maar je hebt maar drie oude foto's van gerechten. Je kunt er geen groot diner van maken.

2. De Chef-kok (De AI)

Ze gebruikten een speciale AI die al goed is in het Nederlands (een "ChocoLlama" model). Ze gaven de AI de drie echte foto's als voorbeeld en zeiden: "Kijk hoe deze mensen praten, en schrijf dan zelf tien nieuwe gesprekken over nieren, medicijnen en leefstijl."

Ze gaven de AI heel specifieke instructies (prompt engineering), zoals: "Zorg dat de arts medische termen gebruikt en de patiënt over zijn klachten praat, en doe dit alsof het een normaal gesprek is."

3. De Proef (De Evaluatie)

Nu hadden ze een stapel nieuwe, door de AI geschreven gesprekken. Maar zijn ze goed? Om dit te testen, deden ze twee dingen:

  • De Rekenmachine (Kwantitatief): Ze keken naar cijfers.

    • Resultaat: De AI was heel goed in het tellen. De gesprekken hadden precies de juiste lengte, de juiste hoeveelheid woorden en de sprekers wisselden elkaar perfect af (A zegt iets, B zegt iets, A zegt iets...).
    • Het probleem: Het was te perfect. In het echt praten mensen vaak over elkaar heen, zeggen ze "hmm" of "ja" in het midden van een zin, en beginnen ze niet bij elke nieuwe onderwerp met een nieuwe begroeting. De AI gedroeg zich alsof ze een script volgden, niet alsof ze een mens waren. Het was alsof een robot die dansstappen oefent: elke stap is exact, maar het voelt niet als een spontane dans.
  • De Menselijke Jury (Kwalitatief): Ze gaven de gesprekken aan echte artsen en Nederlandstaligen om te beoordelen.

    • Resultaat: De mensen vonden het niet zo goed. Ze zeiden: "Dit klinkt niet als een echte arts." De woorden die de AI gebruikte waren soms raar, de zinnen waren te lang en het gesprek voelde stijf en onnatuurlijk. Soms leek het alsof de AI een Engels gesprek had vertaald naar het Nederlands, in plaats van dat het van nature Nederlands was.

4. De Les (De Conclusie)

De belangrijkste ontdekking is dit: Cijfers liegen soms.
De rekenmachine zei: "Dit gesprek is perfect!" (want de cijfers klopten), maar de mensen zeiden: "Dit voelt verkeerd."

Het onderzoek laat zien dat je een AI wel kunt leren om medische gesprekken te schrijven, maar dat het nog niet zover is dat je die gesprekken kunt gebruiken als perfecte vervanging voor de echte waarheid. De AI mist de "ziel" van een gesprek: de onvoorspelbaarheid, de kleine foutjes en de natuurlijke flow.

Wat betekent dit voor de toekomst?

Het is een goede eerste stap. Het bewijst dat we privacy-waardige data kunnen maken om AI te trainen zonder echte patiënten in gevaar te brengen. Maar om het echt goed te krijgen, moeten de onderzoekers de "chef-kok" nog veel meer oefenen. Ze moeten de instructies (de prompt) verfijnen en misschien de AI trainen op meer natuurlijke, gesproken taal in plaats van alleen geschreven teksten.

Kortom: Ze hebben een robot leren koken. De robot maakt nu eten dat er op de foto perfect uitziet (de cijfers kloppen), maar als je het proeft, smaakt het nog een beetje naar plastic (het klinkt niet natuurlijk). De volgende stap is de robot leren proeven, zodat hij de smaak van een echt menselijk gesprek kan nabootsen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →