The Value Sensitivity Gap: How Clinical Large Language Models Respond to Patient Preference Statements in Shared Decision-Making

Each language version is independently generated for its own context, not a direct translation.

De "Waarde-Kloof": Kunnen AI-artsen echt luisteren naar wat jij wilt?

Stel je voor dat je naar een dokter gaat voor een moeilijke beslissing, bijvoorbeeld over een zware behandeling of een operatie. In de ideale wereld bespreek je samen: "Ik wil liever minder pijn en meer tijd met mijn familie, zelfs als dat betekent dat ik minder lang leef." Dit noemen we gezamenlijke besluitvorming.

Nu komen er slimme computerprogramma's (AI) bij de dokter om te helpen. Maar er is een groot probleem: Weet die computer wel wat jij belangrijk vindt? Of denkt hij gewoon: "Ik ben een robot, dus ik geef altijd de meest agressieve, alles-voor-100%-oplossing"?

Dit onderzoek, gedaan door Sanjay Basu en collega's, probeerde precies dat te testen. Ze keken of deze AI's echt luisteren naar de wensen van de patiënt, of dat ze gewoon doorgaan met hun eigen voorkeuren.

De Proef: Een AI-Speelgoedwinkel

De onderzoekers deden een experiment alsof ze een gigantische speelgoedwinkel hadden, maar dan met medische scenario's.

De Patiënten: Ze namen duizenden echte (maar anonieme) medische dossiers van mensen met een uitkering (Medicaid). Ze maakten hier korte verhalen van: "Een patiënt met hartproblemen" of "Een patiënt met kanker".
De AI's: Ze testten vier verschillende "super-intelligente" AI's (zoals GPT-5.2, Claude, Gemini en DeepSeek).
De Wensen: Ze gaven aan elke AI een ander verhaal, maar voegden telkens een specifieke zin toe van de patiënt. Bijvoorbeeld:
- "Ik wil alles proberen, ook al is het riskant."
- "Ik wil vooral rustig leven, geen zware behandelingen."
- "Kost het veel geld? Dan wil ik het niet."

Wat ontdekten ze?

1. De AI's hebben een "standaard-geaardheid" (De Eigen Voorkeur)
Net als mensen hebben AI's hun eigen "instelling".

Sommige AI's (zoals GPT-5.2) waren van nature heel agressief. Alsof ze zeggen: "Laat ons alles proberen, we gaan voor de winst!" Zelfs zonder dat de patiënt iets zei, wilden ze zware behandelingen.
Andere AI's (zoals Claude) waren van nature heel voorzichtig. "Laten we eerst rustig kijken, we willen niemand schaden."
Vergelijking: Het is alsof je een auto huurt. De ene auto heeft standaard de remmen vastgezet (voorzichtig), de andere heeft de handrem los en staat op 'race-modus' (agressief). De AI's vertrokken al met een voorkeur voordat de patiënt zelfs maar een woord had gezegd.

2. Ze luisteren, maar veranderen niet veel (De "Knik" vs. De "Bocht")
Toen de patiënt zei: "Ik wil liever kwaliteit van leven dan een lang leven," veranderden de AI's hun advies. Maar... ze veranderden niet genoeg.

Ze knikten wel: "Ah, ik heb dat gehoord!" (100% van de tijd zeiden ze dat ze het hadden begrepen).
Maar in de praktijk bleven ze bijna hetzelfde advies geven.
Vergelijking: Stel je voor dat je tegen een vriend zegt: "Ik heb geen zin in een stevige wandeling, ik wil liever een korte wandeling." De vriend zegt: "Natuurlijk, ik luister!", maar loopt daarna toch 10 kilometer. Hij heeft geluisterd, maar zijn actie is niet veranderd. De AI's zeggen vaak dat ze luisteren, maar hun daadwerkelijke advies blijft te veel op hun eigen voorkeur.

3. Verschil per AI en per ziekte
Interessant was dat elke AI anders reageerde.

De AI genaamd DeepSeek-R1 was de beste luisteraar. Als de patiënt zei "minder risico", deed die AI echt minder risicovolle suggesties.
Andere AI's waren wat stijver.
Ook maakte het uit welke ziekte het was. Een AI kon heel voorzichtig zijn bij kanker, maar plotseling heel agressief bij hartklachten. Alsof ze twee verschillende persoonlijkheden hebben, afhankelijk van het onderwerp.

4. Kunnen we ze "opfrissen"? (De Proef met Prompten)
De onderzoekers probeerden de AI's te helpen door ze slimme instructies te geven, zoals: "Maak eerst een lijstje met wat de patiënt wil, en vergelijk dat met de opties."

Dit hielp een beetje, maar niet heel veel. Het was alsof je een luie student een checklist geeft; hij doet het net iets beter, maar hij blijft toch niet perfect.
De beste truc was om de AI te dwingen een "beslissingsmatrix" te maken (een soort scorebord), maar dit kostte wel meer tijd.

Waarom is dit belangrijk?

Stel je voor dat je een AI gebruikt in een ziekenhuis voor mensen die al veel problemen hebben (zoals mensen met een uitkering).

Als de AI van nature denkt: "We moeten alles proberen, hoe duur en zwaar ook," en de patiënt denkt: "Ik wil rustig sterven," dan ontstaat er een kloof.
De AI kan dan onnodig dure behandelingen voorstellen of de patiënt naar een specialist sturen die hij niet wil.
Het gevaar is dat de AI onbewust de beslissingen van de patiënt overneemt, omdat de AI "denkt" dat hij het beste weet.

De Conclusie: We hebben een "Voedingslabel" nodig

De auteurs zeggen: "We moeten AI's een Voedingslabel geven, net als op een pakje koekjes."
Op dat label moet staan:

"Dit model is van nature conservatief/agressief."
"Dit model luistert goed naar wensen over kwaliteit van leven."
"Dit model luistert slecht naar wensen over kosten."

Zonder zo'n label weten artsen en patiënten niet welke "smaken" ze in huis halen. Soms wil je een AI die heel voorzichtig is, soms een die alles probeert. Maar nu weten we niet wat we krijgen.

Kort samengevat:
AI's in de zorg zijn slim, maar ze hebben hun eigen "stijfheid". Ze zeggen wel dat ze luisteren naar wat jij wilt, maar ze veranderen hun advies vaak niet genoeg. We moeten ze beter leren kennen en transparant maken over wat ze "graag" en "niet graag" doen, zodat ze echt helpen bij jouw persoonlijke keuze, in plaats van jouw keuze voor hen te maken.

The Value Sensitivity Gap: How Clinical Large Language Models Respond to Patient Preference Statements in Shared Decision-Making

De "Waarde-Kloof": Kunnen AI-artsen echt luisteren naar wat jij wilt?

De Proef: Een AI-Speelgoedwinkel

Wat ontdekten ze?

Waarom is dit belangrijk?

De Conclusie: We hebben een "Voedingslabel" nodig

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdragen en Significatie

The Value Sensitivity Gap: How Clinical Large Language Models Respond to Patient Preference Statements in Shared Decision-Making

De "Waarde-Kloof": Kunnen AI-artsen echt luisteren naar wat jij wilt?

De Proef: Een AI-Speelgoedwinkel

Wat ontdekten ze?

Waarom is dit belangrijk?

De Conclusie: We hebben een "Voedingslabel" nodig

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdragen en Significatie

Meer zoals dit

A Survey on 3D Gaussian Splatting

Less is More: Data-Efficient Adaptation for Controllable Text-to-Video Generation

Better Understandings and Configurations in MaxSAT Local Search Solvers via Anytime Performance Analysis

Hybrid Agentic AI and Multi-Agent Systems in Smart Manufacturing

ReaMIL: Reasoning- and Evidence-Aware Multiple Instance Learning for Whole-Slide Histopathology