COACH meets QUORUM: A Framework and Pipeline for Aligning User, Expert and Developer Perspectives in LLM-generated Health Counselling

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een slimme, digitale levenscoach hebt die je helpt om je beter te voelen, vooral als je te maken hebt met de gevolgen van kankerbehandeling. Deze coach kijkt naar je dagboek (slaap, stemming, energie) en geeft je persoonlijk advies.

Dit artikel vertelt het verhaal van hoe een team van onderzoekers, artsen en ontwikkelaars zo'n coach hebben gebouwd en, nog belangrijker, hoe ze hebben getest of hij wel goed werkt. Ze noemen hun project COACH en hun testmethode QUORUM.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Alles-weter" die soms verdwaalt

Mensen met kanker hebben vaak last van vermoeidheid of mentale klachten. Ze willen weten: "Hoe slaap ik beter?" of "Waarom ben ik zo moe?".
Op internet vind je duizenden antwoorden, maar die zijn vaak te algemeen, te vaag of soms zelfs fout. Een echte arts heeft geen tijd om elke dag naar jouw dagboek te kijken.

Daar komt COACH (de AI-coach) om de hoek kijken. Deze is slim: hij leest je dagboek én hij kijkt in een enorme, betrouwbare medische bibliotheek (van kanker.nl) om het juiste antwoord te vinden.

2. De Uitdaging: Drie verschillende brillen

Het probleem bij het bouwen van zo'n robot is dat iedereen anders kijkt naar wat "goed" is. Het artikel vergelijkt dit met drie mensen die naar dezelfde auto kijken:

De Gebruiker (Jij): Kijkt of de auto comfortabel rijdt. "Voelt het advies alsof het voor mij is? Is de toon vriendelijk? Ga ik dit advies ook echt opvolgen?"
De Expert (De Arts): Kijkt onder de motorkap. "Is de techniek veilig? Is de medische informatie 100% correct? Is de toon niet te kinderachtig?"
De Ontwikkelaar (De Mechanicus): Kijkt of de motor niet vastloopt. "Kloppen de cijfers? Haalt de computer de juiste gegevens op? Droomt de robot (hallucineert) hij dingen die niet bestaan?"

Vaak kijken deze drie groepen alleen door hun eigen bril. De ontwikkelaar zegt: "De motor loopt perfect!" terwijl de gebruiker zegt: "Maar ik vind de stoel te hard."

3. De Oplossing: QUORUM (De Grote Vergaderzaal)

Om dit op te lossen, hebben de onderzoekers QUORUM bedacht.
Stel je QUORUM voor als een vergaderzaal waar de gebruiker, de arts en de ontwikkelaar samen aan tafel zitten. Ze kijken niet alleen naar hun eigen bril, maar naar één gezamenlijk rapport.

Wat doen ze? Ze testen de COACH-robot op honderden vragen.
Wat vinden ze?
- Gebruikers: "Super! Het advies past precies bij mijn situatie en ik ga het proberen." (De stoel zit comfortabel).
- Experts: "De medische feiten kloppen, maar soms klinkt de robot een beetje te direct of saai." (De motor is veilig, maar de lak is niet perfect).
- Ontwikkelaars: "De robot haalt 97% van de juiste gegevens op, maar soms verzint hij een klein detail dat niet in de database staat." (De motor loopt goed, maar er is een klein piepje).

4. Het Resultaat: Een goede start, maar nog ruimte voor groei

De conclusie is positief: de robot werkt! De drie groepen zijn het erover eens dat het advies nuttig en betrouwbaar is.

Maar er zijn ook verschillen:

De Toon: De arts vindt de robot soms wat te sturend ("Doe dit!"), terwijl de gebruiker dat juist motiverend vindt.
De "Hallucinaties": Soms zegt de robot iets als "Eet noten en yoghurt" terwijl in de medische database alleen "Eet eiwitten" staat. De ontwikkelaar ziet dit als een foutje (de robot droomt een beetje), maar de arts vindt het misschien wel een slimme, logische stap.

De Gouden Leerling

Het belangrijkste wat dit artikel ons leert, is dat je een slimme gezondheids-app niet alleen door ingenieurs mag laten testen. Je moet de gebruiker (die het voelt) en de expert (die de regels kent) erbij halen.

QUORUM is dus als een kwaliteitskeurmerk dat niet alleen zegt "dit werkt technisch", maar ook "dit voelt goed voor de mens en is veilig voor de patiënt".

Kortom: Ze hebben een slimme robot gebouwd die helpt bij kanker. Hij is nog niet perfect (soms klinkt hij een beetje stijf of verzint hij een detail), maar met deze nieuwe testmethode weten ze precies waar ze hem moeten verbeteren om hem tot een echte, betrouwbare levenscoach te maken.

COACH meets QUORUM: A Framework and Pipeline for Aligning User, Expert and Developer Perspectives in LLM-generated Health Counselling

1. Het Probleem: De "Alles-weter" die soms verdwaalt

2. De Uitdaging: Drie verschillende brillen

3. De Oplossing: QUORUM (De Grote Vergaderzaal)

4. Het Resultaat: Een goede start, maar nog ruimte voor groei

De Gouden Leerling

1. Probleemstelling

2. Methodologie

A. Het QUORUM-evaluatiekader

B. De COACH-pijplijn (Contextualised Outcome-Adaptive Counselling for Health)

3. Experimenteel Opzet

4. Belangrijkste Resultaten

Convergentie (Overeenstemming)

Divergentie (Verschil in perspectief)

5. Bijdragen en Significatie

COACH meets QUORUM: A Framework and Pipeline for Aligning User, Expert and Developer Perspectives in LLM-generated Health Counselling

1. Het Probleem: De "Alles-weter" die soms verdwaalt

2. De Uitdaging: Drie verschillende brillen

3. De Oplossing: QUORUM (De Grote Vergaderzaal)

4. Het Resultaat: Een goede start, maar nog ruimte voor groei

De Gouden Leerling

1. Probleemstelling

2. Methodologie

A. Het QUORUM-evaluatiekader

B. De COACH-pijplijn (Contextualised Outcome-Adaptive Counselling for Health)

3. Experimenteel Opzet

4. Belangrijkste Resultaten

Convergentie (Overeenstemming)

Divergentie (Verschil in perspectief)

5. Bijdragen en Significatie

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models