Consistency of AI-Generated Exercise Prescriptions: A… — Begrijpelijke uitleg

⚕️

Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, digitale personal trainer hebt die je een oefenprogramma schrijft. Je vraagt hem: "Geef me een plan om mijn kniepijn te verminderen." Hij geeft een antwoord. Vervolgens vraag je exact hetzelfde, op precies hetzelfde moment, aan dezelfde digitale trainer. Geeft hij dan exact hetzelfde antwoord? Of verandert het programma een beetje?

Dit is precies wat Kihyuk Lee in dit onderzoek onderzocht. Hij keek of een kunstmatige intelligentie (een zogenaamd 'Groot Taalmodel' of LLM, zoals Gemini) consistent is. Oftewel: is de AI betrouwbaar als je hem herhaaldelijk dezelfde opdracht geeft?

Hier is de uitleg in simpele taal, met een paar verhelderende vergelijkingen:

1. Het Experiment: De "Koffiebestelling" Test

De onderzoeker deed iets heel slims. Hij nam zes verschillende situaties (zoals een oudere vrouw met knieproblemen, een man die herstelt van kanker, of een jonge, gezonde man die spierkracht wil opbouwen).

Voor elke situatie gaf hij de AI 20 keer precies dezelfde opdracht. Het was alsof je 20 keer dezelfde koffie bestelt bij dezelfde barista.

De vraag: Krijg je 20 keer exact dezelfde koffie (zelfde hoeveelheid suiker, zelfde temperatuur), of krijg je soms een beetje te zoet en soms te bitter?

2. De Drie Manieren om te Kijken

De onderzoeker keek naar drie dingen om de "kwaliteit" van de herhaling te meten:

A. De "Smaak" (Semantische consistentie):
Kijken de 20 antwoorden eruit alsof ze van dezelfde persoon komen? De AI gebruikte bijna altijd dezelfde woorden en zinsopbouw.
- Vergelijking: Het was alsof 20 keer dezelfde tekst werd geschreven, maar dan met kleine variaties in de lettertypes. De boodschap was bijna altijd hetzelfde. Dit was zeer goed.
B. De "Recept" (Structuur volgens FITT):
Een goed trainingsplan heeft vier onderdelen: Hoe vaak (Frequency), Hoe hard (Intensity), Hoe lang (Time) en Wat voor soort (Type).
- Het probleem: Hier werd het lastig. Hoewel de AI wist dat je moest trainen, was het soms wisselvallig over de cijfers.
- Vergelijking: Stel je voor dat de AI zegt: "Loop 30 minuten." Maar in de volgende versie zegt hij: "Loop 45 minuten." Of hij zegt: "Hef gewichten op," maar vergeten te zeggen hoe zwaar. Bij het tillen van gewichten (krachttraining) gaf de AI in 1 op de 4 gevallen geen duidelijk antwoord over hoe zwaar het gewicht moest zijn. Alsof een kok zegt: "Voeg wat zout toe," maar nooit zegt hoeveel theelepels.
C. De "Veiligheidswaarschuwingen" (Safety):
Zegt de AI altijd waar je op moet letten?
- Het resultaat: Ja! In 100% van de gevallen gaf de AI waarschuwingen. Maar... het aantal waarschuwingen verschilde enorm.
- Vergelijking: Voor een gezonde jonge man gaf de AI een kort lijstje met tips (zoals "drink water"). Voor een oudere patiënt met veel gezondheidsproblemen gaf de AI een dikke, lange handleiding vol met waarschuwingen. De AI "voelde" aan dat er meer risico was en werd daar extra voorzichtig in.

3. De Belangrijkste Bevindingen

Klinische situaties zijn makkelijker: Als de situatie heel specifiek en streng is (bijvoorbeeld: "Ik heb een gebroken been, geen lopen"), gaf de AI heel consistente antwoorden. De regels waren zo duidelijk dat de AI weinig ruimte had om te variëren.
Gezonde mensen zijn lastiger: Voor gezonde mensen die gewoon "sterker willen worden" of "vet willen verliezen", gaf de AI veel verschillende antwoorden. Omdat er geen strikte medische regels zijn, had de AI meer keuzevrijheid, en daardoor werden de antwoorden minder voorspelbaar.
Cijfers zijn de zwakke schakel: De AI is goed in het schrijven van tekst, maar minder goed in het geven van stabiele, precieze cijfers (zoals exacte percentages of minuten).

4. Wat betekent dit voor jou? (De Conclusie)

Stel je voor dat deze AI een receptboek is.

Het receptboek is geweldig in het beschrijven van de smaak en de sfeer van het gerecht (de tekst is consistent).
Het waarschuwt je altijd als er gevaarlijke ingrediënten zijn (veiligheid is gewaarborgd).
MAAR: Als je het boek twee keer opent om te kijken hoeveel gram suiker je nodig hebt, staat er soms 50 gram en soms 70 gram.

De boodschap:
We kunnen deze AI niet zomaar als een "automatische dokter" gebruiken die direct een trainingsplan uitprint. De AI is een fantastische assistent die een eerste opzet kan maken, maar een menselijke expert (een echte trainer of arts) moet de "cijfers" controleren en vastleggen voordat iemand begint met trainen.

De AI is betrouwbaar in de boodschap, maar nog niet helemaal betrouwbaar in de exacte maten. Net zoals je een auto niet laat rijden zonder dat iemand de remmen heeft gecontroleerd, moet je ook bij AI-oefenplannen een menselijke hand eroverheen houden.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Grote Taalmodellen (LLM's) worden steeds vaker onderzocht als hulpmiddelen voor het genereren van gepersonaliseerde bewegingsvoorschriften. Hoewel eerdere studies de haalbaarheid en veiligheid hebben aangetoond, blijft de consistentie van de output onder identieke omstandigheden onvoldoende onderzocht. In de klinische praktijk is reproduceerbaarheid essentieel: dezelfde patiëntprofiel mag niet leiden tot structureel verschillende voorschriften bij herhaalde generaties, aangezien dit directe klinische implicaties heeft voor de veiligheid en de behandeluitkomsten. LLM's zijn probabilistisch van aard en kunnen variabele output genereren, wat een risico vormt voor de betrouwbaarheid in real-world toepassingen.

Methodologie

De studie gebruikte een herhaalde generatie-ontwerp om de intra-model consistentie te evalueren.

Model en Instellingen: Het onderzoek gebruikte Gemini 2.5 Flash via de Vertex AI API. De temperatuur werd ingesteld op 1.0 om de stochastische variabiliteit van het model te observeren, terwijl andere parameters standaard bleven. Er werden geen "chain-of-thought" technieken toegepast.
Scenario's: Er werden zes klinische scenario's gebruikt:
- Drie bestaande scenario's met hoge risico's (Type 2-diabetes + obesitas, knie-osteoartritis + valrisico, post-coloncancergenezing).
- Drie nieuwe scenario's (multimorbiditeit: hypertensie + diabetes + obesitas, en twee gezonde volwassenen gericht op vetverlies en spiergroei).
Data-Generatie: Voor elk scenario werden 20 outputs gegenereerd onder identieke prompt-omstandigheden, wat resulteerde in een totaal van 120 outputs.
Evaluatie-Dimensies: De consistentie werd gemeten op drie niveaus:
1. Semantische consistentie: Geanalyseerd met een vooraf getraind SBERT-model (all-MiniLM-L6-v2) via cosine-similariteit tussen paren van outputs binnen een scenario.
2. Structurele consistentie (FITT-principe): Geëvalueerd door een onafhankelijk LLM (Claude Sonnet 4.6) als "AI-judge". Dit omvatte classificatie van Frequentie, Intensiteit, Tijd en Type (FITT). Intensiteit werd geclassificeerd voor aerobe en weerstandsoefeningen (bijv. %1RM, RPE).
3. Veiligheidsconsistentie: Geanalyseerd op de aanwezigheid (binair) en de kwantiteit (aantal zinnen) van vier categorieën: contra-indicaties, voorzorgsmaatregelen, symptoommonitoring en risicowaarschuwingen.
Statistiek: Niet-parametrische tests (Kruskal-Wallis en Dunn's post-hoc test) werden gebruikt om verschillen tussen scenario's te analyseren.

Belangrijkste Bijdragen

Methodologische Uitbreiding: De studie introduceert een evaluatiepijplijn die semantische similariteit combineert met een "AI-as-a-Judge" benadering voor structurele classificatie (FITT), wat verder gaat dan eerdere studies die zich alleen richtten op nauwkeurigheid en veiligheid.
Kwantificering van Variabiliteit: Het biedt kwantitatieve data over de mate van variabiliteit in numerieke componenten (zoals intensiteit) die vaak onzichtbaar blijven bij puur semantische analyse.
Rol van Prompt-Structuur: Het onderstreept hoe de complexiteit van het klinische scenario en de prompt-beperkingen de consistentie van de output beïnvloeden.

Resultaten

Semantische Consistentie: De outputs vertoonden over het algemeen een hoge semantische consistentie (gemiddelde cosine-similariteit: 0,879 – 0,939). Scenario's met striktere klinische beperkingen (zoals post-cancergenezing) toonden de hoogste consistentie, terwijl gezonde volwassenen (meer keuzevrijheid) de grootste variabiliteit vertoonden.
Structurele Consistentie (FITT):
- Frequentie: Toonde relatief consistente patronen (bijv. 3-4x per week aerobe oefening voor klinische gevallen).
- Intensiteit: Hier werd de grootste variabiliteit waargenomen. Vooral bij weerstands training waren 10–25% van de outputs "niet classificeerbaar" (bijv. geen specifieke %1RM vermeld ondanks expliciete instructie).
- Klinische vs. Gezonde: Klinische gevallen kregen consequent lage intensiteit voorgeschreven, terwijl gezonde volwassenen moderate tot hoge intensiteit kregen, wat overeenkomt met richtlijnen. Echter, de specifieke numerieke waarden varieerden binnen dezelfde scenario's.
Veiligheid:
- Alle 120 outputs bevatten 100% de vereiste veiligheidsinformatie (contra-indicaties, waarschuwingen, etc.).
- Het aantal zinnen met veiligheidsinformatie varieerde echter significant tussen scenario's ( $p < 0.001$ ). Klinische gevallen (vooral de multimorbiditeit-geval) genereerden aanzienlijk meer veiligheidszinnen dan gezonde volwassenen.

Betekenis en Conclusie

De studie concludeert dat LLM's weliswaar semantisch stabiele en richtlijn-gebaseerde bewegingsvoorschriften kunnen genereren, maar dat er significante variabiliteit bestaat in cruciale kwantitatieve componenten, met name de oefenintensiteit.

Klinische Implicatie: Een hoge semantische similariteit garandeert geen klinische equivalentie. Een verschuiving in intensiteit van 50% naar 70% HRmax kan klinisch betekenisvol zijn, zelfs als de tekst semantisch vergelijkbaar lijkt.
Aanbeveling: Voordat LLM's klinisch kunnen worden ingezet, zijn structurele beperkingen in prompts en experte validatie noodzakelijk om de stabiliteit van numerieke voorschriften te waarborgen.
Toekomstperspectief: De betrouwbaarheid van LLM-outputs is sterk afhankelijk van de prompt-structuur en de complexiteit van het klinische geval. Verdere onderzoek is nodig om multi-model vergelijkingen uit te voeren en de validiteit van AI-judges te verifiëren tegenover menselijke experts.

Consistency of AI-Generated Exercise Prescriptions: A Repeated Generation Study Using a Large Language Model