Consistency of AI-Generated Exercise Prescriptions: A Repeated Generation Study Using a Large Language Model

Die Studie zeigt, dass zwar die semantische Konsistenz von KI-generierten Trainingsplänen hoch ist, jedoch erhebliche Schwankungen bei quantitativen Komponenten wie der Intensität bestehen, was eine zusätzliche strukturelle Einschränkung und Expertenvalidierung vor dem klinischen Einsatz erforderlich macht.

Ursprüngliche Autoren: Kihyuk Lee

Veröffentlicht 2026-04-14
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre
⚕️

Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

🤖 Der KI-Trainer, der manchmal vergisst, was er gesagt hat

Eine einfache Erklärung der Studie über KI-gestützte Trainingspläne

Stellen Sie sich vor, Sie gehen zu einem neuen Personal Trainer. Sie beschreiben ihm genau Ihre Situation: „Ich bin 55, habe Diabetes und meine Knie tun weh." Der Trainer nickt, schreibt einen Plan auf und gibt ihn Ihnen.

Am nächsten Tag kommen Sie wieder, sagen exakt dieselben Worte und erwarten den exakt gleichen Plan. Aber der Trainer gibt Ihnen diesmal einen Plan, bei dem Sie 30 Minuten laufen sollen statt 20, und die Gewichte sind anders.

Das ist das Problem, das Kihyuk Lee in seiner Studie untersucht hat. Er wollte wissen: Wenn wir einer Künstlichen Intelligenz (KI) denselben Auftrag geben, liefert sie dann jedes Mal denselben Trainingsplan?

🎲 Das Experiment: Der KI-Trainer im Test

Der Forscher hat eine sehr fortschrittliche KI (ein sogenanntes „Large Language Model", ähnlich wie ChatGPT oder Gemini) gebeten, Trainingspläne für sechs verschiedene Menschen zu erstellen.

  • Die Szenarien: Von gesunden Sportlern, die Muskeln aufbauen wollen, bis hin zu Patienten mit Diabetes, Krebs oder Gelenkschmerzen.
  • Der Test: Für jeden dieser sechs Menschen hat er die KI 20 Mal hintereinander denselben Auftrag gegeben.
  • Das Ziel: Zu sehen, ob die KI wie ein verlässlicher Uhrmacher arbeitet oder wie ein Künstler, der bei jedem Pinselstrich etwas Neues malt.

📊 Was hat die KI geliefert? (Die Ergebnisse)

1. Der „Wort-Salat" war fast immer gleich (Semantische Konsistenz)
Wenn man die Texte der KI vergleicht, klingen sie sich fast immer sehr ähnlich. Die KI verwendet fast dieselben Sätze und denselben Tonfall.

  • Die Analogie: Stellen Sie sich vor, Sie bestellen 20 Mal denselben Kaffee. Die Barista (die KI) sagt jedes Mal fast denselben Satz: „Hier ist Ihr Kaffee, bitte vorsichtig, er ist heiß." Das Wort „Kaffee" und „heiß" kommen immer vor. Das ist gut!

2. Aber die Zahlen waren chaotisch (Strukturelle Konsistenz)
Hier wurde es kritisch. Obwohl die Sätze ähnlich klangen, waren die Zahlen oft unterschiedlich.

  • Bei gesunden jungen Leuten war die KI recht kreativ: Manchmal sagte sie „trainiere 3 Mal pro Woche", dann wieder „4 Mal".
  • Bei Patienten mit schweren Krankheiten war die KI vorsichtiger und konsistenter.
  • Das Problem: Bei der Intensität (wie schwer soll ich trainieren?) war die KI oft unsicher. Bei Krafttraining gaben 10–25 % der Pläne gar keine genaue Zahl an, sondern nur vage Begriffe wie „etwas schwer".
  • Die Analogie: Es ist, als würde der Trainer sagen: „Heben Sie ein Gewicht." Aber mal ist es 5 kg, mal 10 kg, und manchmal sagt er nur „ein schweres Ding". Für einen gesunden Menschen ist das vielleicht egal, aber für einen Diabetiker oder jemanden mit Knieproblemen kann der Unterschied zwischen 5 kg und 10 kg gefährlich sein.

3. Die Sicherheitshinweise waren immer da, aber unterschiedlich lang (Sicherheits-Konsistenz)
Gute Nachricht: Die KI hat niemals vergessen, Sicherheitshinweise zu geben. Sie hat immer gewarnt: „Achten Sie auf Schwindel" oder „Hören Sie auf, wenn es wehtut."

  • Schlechte Nachricht: Die Menge der Warnungen schwankte stark. Bei einem komplexen Patienten mit mehreren Krankheiten (Bluthochdruck + Diabetes + Übergewicht) war die KI extrem vorsichtig und schrieb einen ganzen Roman an Warnhinweisen. Bei einem gesunden jungen Mann waren es nur ein paar kurze Sätze.
  • Die Analogie: Die KI ist wie ein überbesorgter Elternteil. Wenn das Kind (der Patient) krank ist, gibt es 50 Warnungen. Wenn das Kind gesund ist, reicht ein „Pass auf!". Das ist logisch, aber die Menge der Warnungen war nicht vorhersehbar.

💡 Was bedeutet das für uns?

Die Studie sagt uns zwei wichtige Dinge:

  1. Die KI ist ein guter Texter, aber ein schlechter Mathematiker. Sie kann sehr gut erklären, was man tun soll, aber sie ist nicht immer zuverlässig, wenn es um die genauen Zahlen (wie viel, wie oft, wie schwer) geht.
  2. Je komplexer der Fall, desto vorsichtiger die KI. Bei kranken Menschen ist die KI konsistenter, weil die medizinischen Regeln strenger sind. Bei gesunden Menschen, wo es mehr Spielraum gibt, erfindet die KI mehr Variationen.

🚨 Das Fazit: KI ist noch kein Ersatz für den Arzt

Die Studie kommt zu dem Schluss: Wir können der KI nicht blind vertrauen, wenn es um medizinische Trainingspläne geht.

  • Die KI ist wie ein sehr talentierter Assistent, der Entwürfe macht.
  • Aber bevor dieser Plan an einen echten Patienten geht, muss ein menschlicher Experte (ein Arzt oder Physiotherapeut) drübergehen, die Zahlen prüfen und sicherstellen, dass der Plan nicht nur gut klingt, sondern auch genau und sicher ist.

Kurz gesagt: Die KI ist ein großartiger Werkzeugkasten, aber wir müssen noch lernen, wie man die Schraubenschlüssel (die Zahlen) richtig festzieht, bevor wir sie in die Hände von Patienten geben.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →