COACH meets QUORUM: A Framework and Pipeline for Aligning User, Expert and Developer Perspectives in LLM-generated Health Counselling

Die Studie stellt das Evaluierungsframework QUORUM und die LLM-basierte Pipeline COACH vor, um durch die Vereinigung von Entwickler-, Experten- und Nutzerperspektiven vertrauenswürdige und patientenzentrierte Gesundheitsberatungen für Krebspatienten zu entwickeln und dabei sowohl Übereinstimmungen als auch kritische Divergenzen in der Bewertung zu identifizieren.

Yee Man Ng, Bram van Dijk, Pieter Beynen, Otto Boekesteijn, Joris Jansen, Gerard van Oortmerssen, Max van Duijn, Marco Spruit

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast ein digitales Tagebuch, in dem du jeden Tag einträgst, wie du dich fühlst, wie gut du geschlafen hast und was du getan hast. Jetzt möchtest du wissen: „Warum bin ich so müde?" oder „Wie kann ich besser schlafen?".

Früher hättest du das Internet durchsucht und vielleicht 100 verschiedene, widersprüchliche Ratschläge gefunden. Aber in diesem Papier stellen die Autoren COACH vor – einen digitalen Lebensberater, der von einer künstlichen Intelligenz (KI) angetrieben wird und speziell für Krebspatienten entwickelt wurde.

Hier ist die einfache Erklärung, wie das funktioniert und warum die Forscher einen neuen Weg gegangen sind, um zu prüfen, ob der Berater wirklich gut ist.

1. Der Berater (COACH): Ein Detektiv mit Bibliothek

Stell dir COACH wie einen sehr klugen Detektiv vor, der zwei Dinge gleichzeitig macht:

  1. Er liest dein Tagebuch: Er schaut sich deine persönlichen Daten an (z. B. „Du hast letzte Woche nur 5 Stunden geschlafen").
  2. Er konsultiert die große Bibliothek: Er schlägt in einer vertrauenswürdigen Datenbank nach (in diesem Fall die Website kanker.nl, eine seriöse Krebsinformationsseite), um medizinisch korrekte Fakten zu finden.

Dann setzt er diese beiden Teile zusammen. Er sagt nicht nur: „Schlaf mehr", sondern: „Da du in deinem Tagebuch geschrieben hast, dass du nachts oft wach liegst, und da die Experten sagen, dass Schlafmangel die Müdigkeit bei Krebspatienten verschlimmert, hier ist ein konkreter Tipp, wie du deine Schlafumgebung verbessern kannst."

2. Das Problem: Wer hat recht?

Das Schwierige an KI ist: Manchmal sagt sie Dinge, die klingen, als wären sie wahr, sind aber erfunden (das nennt man „Halluzinationen"). Oder sie gibt Ratschläge, die medizinisch korrekt sind, aber sich für den Patienten falsch anfühlen.

Bisher haben Forscher oft nur eine Gruppe gefragt, ob die KI gut ist. Das ist wie ein Restaurant, das nur vom Koch bewertet wird. Der Koch sagt: „Das Essen ist technisch perfekt!" Aber was sagt der Gast? Und was sagt der Gesundheitsamt?

3. Die Lösung: QUORUM – Der große Dreiklang

Die Autoren haben QUORUM erfunden. Das ist wie ein Richter-Gremium, das aus drei verschiedenen Richtern besteht, die alle unterschiedliche Dinge prüfen. Nur wenn alle drei zufrieden sind, ist das Gericht „gut".

Stell dir QUORUM wie eine Dreikammer-Prüfung vor:

  • Kammer 1: Der Nutzer (Der Gast)

    • Frage: „Schmeckt das Essen?"
    • Was sie prüfen: Passt der Rat zu meinem Leben? Fühlt er sich gut an? Würde ich ihn befolgen?
    • Ergebnis: Die Nutzer waren sehr zufrieden! Sie fühlten sich verstanden und fanden den Ton freundlich.
  • Kammer 2: Der Experte (Der Gesundheitsamt/Chefkoch)

    • Frage: „Ist das Essen sicher und gesund?"
    • Was sie prüfen: Sind die medizinischen Fakten korrekt? Ist der Ton nicht zu herablassend?
    • Ergebnis: Die Experten sagten: „Ja, die Fakten stimmen." Aber sie waren kritischer beim Tonfall. Sie fanden, die KI war manchmal etwas zu direkt oder zu motivierend (wie ein strenger Trainer), statt einfühlsam genug.
  • Kammer 3: Der Entwickler (Der Küchenchef/Techniker)

    • Frage: „Haben wir die Zutaten richtig verwendet?"
    • Was sie prüfen: Hat die KI wirklich auf deine Daten geschaut? Oder hat sie etwas erfunden, das nicht in der Datenbank stand?
    • Ergebnis: Technisch gesehen war die KI sehr zuverlässig (79 % der Aussagen passten zu den Daten). Aber in 22 % der Fälle hat sie kleine Details „erfunden" (z. B. ein Beispiel für ein gesundes Essen gegeben, das nicht exakt in der Datenbank stand), was sie als „Halluzination" werteten, auch wenn es harmlos war.

4. Was haben sie herausgefunden?

Das Spannende an dieser Studie ist, dass die drei Gruppen nicht immer gleich dachten.

  • Übereinstimmung: Alle waren sich einig, dass die KI hilfreiche, relevante und qualitativ gute Ratschläge gibt. Das ist ein großer Erfolg!
  • Unterschiede:
    • Die Nutzer dachten, der Ton war perfekt.
    • Die Experten dachten, der Ton könnte noch etwas sanfter sein.
    • Die Entwickler sahen kleine technische Fehler, die weder Nutzer noch Experten bemerkt hatten.

Das zeigt: Wenn man nur eine Gruppe fragt, verpasst man wichtige Details. Man braucht alle drei Perspektiven, um ein wirklich sicheres und nützliches System zu bauen.

Fazit: Warum ist das wichtig?

Dieses Papier zeigt uns, wie man KI im Gesundheitswesen verantwortungsvoll baut. Es reicht nicht, eine KI zu programmieren, die „klug" klingt. Man muss sie wie ein Team aus Patient, Arzt und Techniker testen lassen.

COACH ist der digitale Assistent, der versucht, das Beste aus allen Welten zu vereinen: persönliche Aufmerksamkeit, medizinische Sicherheit und technische Zuverlässigkeit. Und QUORUM ist der Werkzeugkasten, der sicherstellt, dass wir nicht nur auf die Technik schauen, sondern auch auf das menschliche Gefühl und die medizinische Wahrheit.

Kurz gesagt: Es ist wie ein Team, das gemeinsam ein Auto baut. Der Fahrer sagt, ob es sich gut anfühlt, der Ingenieur prüft den Motor, und der Sicherheitsbeauftragte schaut auf die Bremsen. Nur wenn alle drei „Okay" sagen, darf das Auto auf die Straße.