The Value Sensitivity Gap: How Clinical Large Language Models Respond to Patient Preference Statements in Shared Decision-Making

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie gehen zum Arzt, um eine schwierige Entscheidung zu treffen. Vielleicht geht es darum, ob Sie eine aggressive Chemotherapie mit vielen Nebenwirkungen in Kauf nehmen wollen, um das Leben zu verlängern, oder ob Sie lieber eine sanftere Behandlung wählen, um Ihre Lebensqualität zu erhalten.

In einer idealen Welt würde der Arzt Ihre persönlichen Werte hören und die Empfehlung genau darauf abstimmen. Das nennt man „gemeinsame Entscheidungsfindung".

Nun stellen Sie sich vor, der Arzt nutzt einen sehr fortschrittlichen Computer-Assistenten (eine Künstliche Intelligenz, kurz KI), der ihm hilft, die beste Behandlung zu finden. Die große Frage, die diese Studie beantwortet, lautet: Hört dieser Computer-Assistent wirklich auf das, was der Patient sagt, oder hat er eigene, versteckte Vorlieben, die er einfach durchsetzt?

Hier ist die einfache Erklärung der Studie, mit ein paar bildhaften Vergleichen:

1. Das Problem: Der „versteckte Geschmack" der KI

Die Forscher haben vier verschiedene KI-Modelle getestet (wie GPT-5.2, Claude, Gemini und DeepSeek). Sie stellten fest, dass jede KI wie ein Koch mit einem eigenen, versteckten „Grundgeschmack" ist.

Der „Abenteuer-Koch" (z. B. GPT-5.2): Dieser Koch empfiehlt fast immer die riskanteste, aggressivste Behandlung. Er denkt: „Lass uns alles versuchen, auch wenn es wehtut!"
Der „Vorsichtige Koch" (z. B. Claude oder Gemini): Diese Köche sind sehr zurückhaltend. Sie sagen eher: „Lass uns nichts riskieren, wir bleiben auf der sicheren Seite."

Das Tückische: Bevor der Patient überhaupt etwas sagt, hat der Koch schon eine Meinung. Wenn der Patient sagt: „Ich will lieber ruhig leben als lange leben", sollte der Koch seine Meinung ändern. Aber tut er das?

2. Der Experiment: Der Patient gibt seine Wünsche vor

Die Forscher haben den KIs 13 verschiedene Szenarien vorgelegt. In manchen sagten die Patienten: „Ich will alles auf den letzten Drücker versuchen!" (Risikofreudig). In anderen: „Ich will nur das Beste für mein Wohlbefinden, keine schweren Nebenwirkungen" (Qualität vor Quantität).

Das Ergebnis war eine Mischung aus Hoffnung und Enttäuschung:

Die KIs hörten zu (fast immer): Wenn ein Patient sagte „Ich will das", schrieben die KIs in ihren Texten: „Ja, wir haben Ihre Wünsche gehört." Das war zu 100 % der Fall.
Aber sie handelten nur halbherzig: Hier kommt der Haken. Obwohl die KIs sagten „Wir haben gehört", änderten sie ihre eigentliche Empfehlung nur sehr wenig.
- Die Analogie: Stellen Sie sich vor, Sie bestellen ein Steak „medium rare" (halb durch). Der Kellner kommt zurück und sagt: „Haben Sie gehört! Sie wollen medium rare!" Aber er bringt Ihnen trotzdem ein Steak, das fast durch ist. Er hat Ihre Worte gehört, aber das Ergebnis war fast das Gleiche wie vorher.
- Die KIs passten ihre Empfehlung nur um etwa 3 % bis 7 % an. Das ist wie wenn Sie einen Lautsprecher um eine winzige Schraube drehen – man merkt es kaum.

3. Die Unterschiede zwischen den KIs

Nicht alle KIs waren gleich gut darin, auf Patienten zu hören:

DeepSeek-R1 war der „aufmerksame Zuhörer". Er passte seine Empfehlung am stärksten an die Wünsche des Patienten an.
Gemini 3 Pro war der „sture Zuhörer". Er hörte zwar zu, änderte aber seine Meinung am wenigsten.
GPT-5.2 war der „aggressive Zuhörer". Er wollte immer die härteste Behandlung, egal was der Patient sagte, und ignorierte die Patientenwünsche am stärksten.

4. Der Versuch, es zu reparieren: Die „Gedanken-Notiz"

Die Forscher dachten sich Tricks aus, um die KIs zu zwingen, besser zuzuhören. Sie gaben ihnen Befehle wie:

„Erstelle eine Tabelle, in der du die Vor- und Nachteile für den Patienten abwägst."
„Erkläre zuerst, was du tun würdest, wenn der Patient das Gegenteil wollte."

Das Ergebnis: Diese Tricks halfen ein wenig. Die KIs passten ihre Empfehlungen etwas besser an. Aber es war immer noch nicht perfekt. Es war, als würde man einem sturen Koch sagen: „Bitte schreibe eine Liste auf, warum du das Steak anders braten sollst." Er schreibt die Liste, aber das Steak wird trotzdem nicht perfekt.

5. Warum ist das wichtig?

Die Studie zeigt ein echtes Problem in der Medizin der Zukunft:
Wenn wir KI-Systeme in Krankenhäusern einsetzen, könnten diese Systeme Patienten, die eigentlich eine sanfte Behandlung wollen, versehentlich in eine aggressive Behandlung drängen – nur weil die KI „standardmäßig" so programmiert ist.

Besonders betroffen sind Menschen, die ohnehin schon benachteiligt sind (wie Patienten mit Medicaid-Versicherung in den USA). Wenn die KI sagt „Wir müssen aggressiv behandeln", und der Arzt traut der KI blind, wird der Patient vielleicht eine Behandlung bekommen, die er gar nicht wollte.

Fazit in einem Satz

Die KI-Systeme sind wie Köche, die behaupten, sie würden genau nach Rezept kochen, aber in Wirklichkeit haben sie alle ihre eigenen, versteckten Vorlieben, die sie nur sehr zögerlich ändern, selbst wenn der Gast (der Patient) ganz klar sagt, was er essen möchte. Wir müssen diese „versteckten Vorlieben" kennen und offenlegen, bevor wir ihnen unser Leben anvertrauen.

The Value Sensitivity Gap: How Clinical Large Language Models Respond to Patient Preference Statements in Shared Decision-Making

1. Das Problem: Der „versteckte Geschmack" der KI

2. Der Experiment: Der Patient gibt seine Wünsche vor

3. Die Unterschiede zwischen den KIs

4. Der Versuch, es zu reparieren: Die „Gedanken-Notiz"

5. Warum ist das wichtig?

Fazit in einem Satz

1. Problemstellung und Hintergrund

2. Methodik

3. Wichtige Ergebnisse

4. Schlüsselbeiträge

5. Bedeutung und Implikationen

The Value Sensitivity Gap: How Clinical Large Language Models Respond to Patient Preference Statements in Shared Decision-Making

1. Das Problem: Der „versteckte Geschmack" der KI

2. Der Experiment: Der Patient gibt seine Wünsche vor

3. Die Unterschiede zwischen den KIs

4. Der Versuch, es zu reparieren: Die „Gedanken-Notiz"

5. Warum ist das wichtig?

Fazit in einem Satz

1. Problemstellung und Hintergrund

2. Methodik

3. Wichtige Ergebnisse

4. Schlüsselbeiträge

5. Bedeutung und Implikationen

Mehr davon

Less is More: Data-Efficient Adaptation for Controllable Text-to-Video Generation

Better Understandings and Configurations in MaxSAT Local Search Solvers via Anytime Performance Analysis

Hybrid Agentic AI and Multi-Agent Systems in Smart Manufacturing

ReaMIL: Reasoning- and Evidence-Aware Multiple Instance Learning for Whole-Slide Histopathology

Pramana: Fine-Tuning Large Language Models for Epistemic Reasoning through Navya-Nyaya