Tailored Behavior-Change Messaging for Physical Activity: Integrating Contextual Bandits and Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie versuchen, ein neues Hobby zu lernen – sagen wir, täglich mehr zu laufen. Sie haben einen digitalen Coach an Ihrer Seite, der Sie jeden Tag ermutigt. Aber wie sollte dieser Coach vorgehen? Sollte er immer denselben Satz sagen? Oder sollte er genau wissen, wie Sie sich gerade fühlen, und seine Worte darauf abstimmen?

Dieser Forschungsbericht beschreibt genau das: Ein neues, intelligentes System, das versucht, die perfekte Motivation für jeden einzelnen Menschen zu finden. Es kombiniert zwei sehr unterschiedliche Technologien, wie ein kluger Dirigent und ein kreativer Dichter.

Hier ist die einfache Erklärung, wie das funktioniert:

1. Das Problem: Der „Einheits-Schuh" passt nicht allen

Früher haben digitale Gesundheits-Apps oft wie ein Stempel funktioniert. Egal, ob Sie müde, gestresst oder voller Energie waren, die App schickte immer die gleiche Nachricht: „Geh heute 30 Minuten spazieren!"
Das Problem: Manchmal passt das nicht. Wenn Sie gestresst sind, brauchen Sie vielleicht eine sanfte Ermutigung, keine harte Anweisung. Wenn Sie sich gut fühlen, wollen Sie vielleicht einen Wettbewerb.

2. Die zwei Helden des Systems

Das neue System nutzt zwei Helden, die zusammenarbeiten:

Held 1: Der kluge Dirigent (Der „Contextual Bandit")
Stellen Sie sich einen Dirigenten vor, der ein Orchester leitet. Er sieht das Publikum (Sie) und weiß: „Heute ist das Publikum müde, also spielen wir ein ruhiges Stück." Oder: „Heute ist das Publikum energisch, also spielen wir etwas Aufregendes!"
In der Technik heißt das „Contextual Multi-Armed Bandit". Er ist ein Algorithmus, der lernt, welche Art von Nachricht (z. B. „Vergleiche dich mit anderen" oder „Denke an die Vorteile") am besten funktioniert, basierend auf Ihrem aktuellen Zustand (Ihrer Stimmung, Ihrem Stresslevel). Er trifft die strategische Entscheidung: „Welche Taktik wählen wir heute?"
Held 2: Der kreative Dichter (Der „Large Language Model" oder LLM)
Der Dirigent sagt dem Dichter: „Heute spielen wir ein ruhiges Stück." Aber der Dichter (eine fortschrittliche KI wie ChatGPT) schreibt den Text. Er passt die Worte, den Tonfall und die Metaphern genau auf Ihre Situation an.
Statt nur einen starren Satz zu senden, schreibt der Dichter: „Ich weiß, der Tag war lang. Ein kurzer Spaziergang könnte dir helfen, den Kopf freizubekommen, wie ein frischer Wind nach einem Sturm."

3. Die große Idee: Die perfekte Kombination

Bisher haben Forscher oft nur den Dirigenten oder nur den Dichter benutzt.

Nur der Dirigent (starre Vorlagen): Zu starr, nicht persönlich genug.
Nur der Dichter (KI): Sehr kreativ, aber manchmal unvorhersehbar und teuer in der Anwendung.

Die Forscher haben einen Hybrid-Ansatz entwickelt: Der Dirigent wählt die Strategie, der Dichter schreibt den Text.

Der Dirigent (cMAB) schaut auf Ihre Daten (Stress, Selbstvertrauen, soziale Umgebung) und entscheidet: „Heute brauchen wir eine Nachricht, die die Vorteile des Laufens betont (Gain-Framing)."
Der Dichter (LLM) nimmt diese Anweisung und schreibt eine Nachricht, die genau zu Ihrem heutigen Tag passt, basierend auf dem, was Sie ihm über Ihren Tag erzählt haben.

4. Was hat das Experiment ergeben?

Die Forscher haben das 30 Tage lang mit echten Menschen getestet. Die Ergebnisse waren sehr spannend:

Die persönliche Note zählt: Die Nachrichten, die von der KI (dem Dichter) persönlich geschrieben wurden, kamen viel besser an als die starren Standard-Nachrichten. Die Leute fühlten sich verstanden.
Die Strategie ist trotzdem wichtig: Es reichte nicht, nur nette Worte zu finden. Es war entscheidend, welche Art von Nachricht gewählt wurde. Nachrichten, die die Vorteile betonten („Du wirst energischer!"), funktionierten besser als solche, die die Nachteile betonten („Wenn du nicht läufst, wirst du krank!").
Die beste Lösung: Die Kombination aus Dirigent und Dichter war der Gewinner. Sie war genauso gut wie ein reiner KI-Dichter, aber sie war effizienter (weniger Rechenleistung nötig) und durchschaubarer. Man wusste genau, warum eine bestimmte Strategie gewählt wurde, weil der Dirigent eine klare Regel hatte.

5. Warum ist das wichtig?

Stellen Sie sich vor, Sie hätten einen persönlichen Trainer, der nicht nur weiß, was Sie tun sollen, sondern auch genau weiß, wie er es Ihnen sagen muss, damit Sie es wirklich tun.

Dieses System ist wie ein Schneider, der Maß nimmt. Der Dirigent misst Ihre Figur (Ihre Situation), und der Dichter schneidet den Anzug (die Nachricht) perfekt zu. Das Ergebnis ist, dass Menschen eher motiviert bleiben und ihre Ziele erreichen, ohne sich von einer starren Maschine bevormundet zu fühlen.

Zusammenfassend:
Die Forscher haben gezeigt, dass man die kluge Strategie eines Computers (der weiß, was funktioniert) mit der kreativen Sprache einer KI (die weiß, wie man es sagt) verbinden kann. Das führt zu besseren Ergebnissen als jede der beiden Methoden allein – und das alles, ohne dass der Computer „verrückt" wird oder zu viel Geld kostet.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Förderung körperlicher Aktivität (Physical Activity, PA) ist entscheidend für die öffentliche Gesundheit, doch digitale Interventionen scheitern oft daran, dass sie nicht dynamisch auf den sich ändernden Kontext und den psychologischen Zustand der Nutzer reagieren.

Herausforderung bei Contextual Bandits (cMAB): Herkömmliche kontextuelle Multi-Armed-Bandit-Algorithmen bieten einen strukturierten Rahmen, um basierend auf Kontextdaten (z. B. Stimmung, Selbstwirksamkeit) die Art der Intervention aus einer vordefinierten, endlichen Menge von Templates auszuwählen. Allerdings benötigen sie oft große Stichprobengrößen für effektives Lernen und leiden unter der Starrheit fester Nachrichtenvorlagen, die sich nicht an den täglichen Kontext oder den Tonfall anpassen lassen.
Herausforderung bei Large Language Models (LLMs): LLMs können Nachrichten flexibel personalisieren und den Tonfall sowie die Formulierung anpassen. Allerdings fehlt ihnen oft die Konsistenz, ihre Entscheidungsfindung ist intransparent („Black Box"), und sie sind rechenintensiv. Zudem fehlt ihnen oft ein expliziter, interpretierbarer Mechanismus zur Auswahl der Interventionsstrategie.

Das Paper adressiert die Lücke, wie man die Interpretierbarkeit und adaptive Entscheidungsfindung von Bandits mit der flexiblen Sprachgenerierung von LLMs kombiniert, um skalierbare Just-in-Time Adaptive Interventions (JITAIs) zu schaffen.

2. Methodik

Die Studie vergleicht fünf verschiedene Modelle zur Zuweisung und Generierung von täglichen motivierenden Nachrichten über einen Zeitraum von 30 Tagen bei 93 Teilnehmern (54 aktive Teilnehmer).

A. Die fünf experimentellen Modelle

RCT (Randomized Controlled Trial): Zufällige Zuweisung einer der vier Interventionsarten (ohne Kontext).
cMAB-only: Ein kontextueller Bandit (Thompson Sampling) wählt die Interventionsart basierend auf Kontextdaten aus. Die Nachricht ist ein festes Template.
LLM-only: Das LLM wählt die Interventionsart und generiert den Nachrichtentext basierend auf Kontext und freiem Text des Nutzers.
LLM-tracing: Wie LLM-only, aber unter Einbeziehung der Interaktionshistorie der letzten 10 Tage, um Konsistenz zu gewährleisten.
Hybrid cMABxLLM (Der Kernvorschlag):
- Schritt 1 (Entscheidung): Ein cMAB (Thompson Sampling) wählt transparent die Interventionsart (z. B. „Gewinn-Rahmung") basierend auf Kontextdaten (Selbstwirksamkeit, sozialer Einfluss, regulatorischer Fokus).
- Schritt 2 (Generierung): Das LLM generiert den Nachrichtentext, ist aber strikt auf die vom Bandit gewählte Art beschränkt. Es personalisiert den Inhalt basierend auf Kontext und freiem Text des Nutzers, darf aber die Strategie nicht ändern.

B. Interventionsarten

Vier verhaltensändernde Strategien wurden verwendet:

Behavioral Self-Monitoring: Reflexion über eigene Aktivitäten.
Gain-Framing: Betonung der Vorteile von Bewegung.
Loss-Framing: Betonung der Kosten von Inaktivität.
Social Comparison: Vergleich mit anderen.

C. Daten und Feedback

Kontextdaten ( $X_t$ ): Täglich erfasst via EMA (Ecological Momentary Assessment): Stimmung, Stress, Selbstwirksamkeit, sozialer Einfluss, regulatorischer Fokus und ein freier Textbericht.
Reward ( $R_t$ ): Die „Nachrichtenakzeptanz" (1–5 Skala: Wie nützlich/passend war die Nachricht?) diente als Belohnungssignal für das Bandit-Training.
Statistik: Es wurden lineare Mixed-Effects-Modelle verwendet, um die Akzeptanz über die Zeit und zwischen den Modellen zu analysieren, unter Berücksichtigung von wiederholten Messungen und individuellen Effekten.

3. Wichtige Beiträge

Hybride Architektur (cMABxLLM): Das Paper stellt einen neuartigen Ansatz vor, der die Auswahl der Interventionsstrategie (interpretierbar, datengesteuert durch Bandits) von der Sprachgenerierung (flexibel durch LLMs) entkoppelt. Dies ermöglicht personalisierte Inhalte bei Beibehaltung einer klaren, nachvollziehbaren Entscheidungslogik.
Effizienz und Kosten: Der Hybridansatz reduziert den Token-Verbrauch im Vergleich zu reinen LLM-Ansätzen erheblich, da das LLM nicht alle Interventionsarten bewerten muss, sondern nur den Text für die bereits gewählte Art generiert.
Verbesserte Verteilung: Der Ansatz verhindert Verzerrungen (Skew) in der Interventionsverteilung, indem er sicherstellt, dass auch unterversorgte Interventionsarten (durch den Bandit) weiterhin ausgeliefert werden, während der LLM die Qualität der Nachricht sicherstellt.
Praktische Validierung: Die Studie demonstriert die Durchführbarkeit eines solchen Systems in einer realen, longitudinalen Studie (30 Tage) mit täglichen Interaktionen.

4. Ergebnisse

Akzeptanz der Nachrichten:
- LLM-basierte Modelle (LLM-only, LLM-tracing, cMABxLLM) erzielten signifikant höhere Akzeptanzbewertungen (Durchschnitt 3,79–3,89 auf einer 5-Punkte-Skala) als die nicht-personalisierten Baselines (RCT und cMAB-only mit ~2,6–2,8).
- Vergleich der LLM-Modelle: Es gab keinen statistisch signifikanten Unterschied in der Akzeptanz zwischen dem reinen LLM-Modell und dem hybriden cMABxLLM-Modell. Das Hybridmodell erreichte also das gleiche Personalisierungsniveau wie das reine LLM, aber mit den Vorteilen des Bandits.
Einfluss der Interventionsart:
- Gain-Framing (positiv) wurde am besten bewertet.
- Loss-Framing (negativ) wurde am schlechtesten bewertet, was zeigt, dass die Wahl der Strategie auch bei personalisierten Inhalten wichtig bleibt.
- Sozialer Vergleich profitierte besonders vom Hybridansatz, der hier häufiger hohe Bewertungen erzielte als andere Modelle.
Motivationsänderung:
- Es gab nur begrenzte Evidenz für langfristige Änderungen in der Motivation (gemessen via BREQ-3 Fragebogen vor/nach der Studie). Die Effekte waren klein und laut Autoren teilweise durch die kurze Studiendauer (30 Tage) und externe Stressfaktoren (Prüfungszeitraum) verfälscht. Dies unterstreicht die Notwendigkeit von Studien mit häufigeren Verhaltensmessungen.
Token-Effizienz: Der cMABxLLM-Ansatz nutzte weniger Tokens als LLM-only, da der Prompt weniger komplex war (keine Auswahl der Strategie nötig).

5. Bedeutung und Fazit

Die Studie zeigt, dass die Kombination von kontextuellen Banditen und Large Language Models einen vielversprechenden Weg für die digitale Gesundheitsförderung darstellt.

Interpretierbarkeit vs. Personalisierung: Der Hybridansatz löst das Dilemma zwischen der Notwendigkeit interpretierbarer Entscheidungsregeln (wichtig für klinische/ethische Anwendungen) und der Notwendigkeit hochgradig personalisierter Kommunikation.
Skalierbarkeit: Durch die Entkopplung der Strategieauswahl von der Sprachgenerierung wird das System effizienter und kostengünstiger als reine LLM-Lösungen, ohne an Qualität zu verlieren.
Zukunftsperspektive: Die Autoren empfehlen, zukünftige Studien auf häufigere Messungen von Verhaltensänderungen (z. B. tägliche Schrittzahlen oder momentane Motivation) zu fokussieren, da 30-Tage-Pre-Post-Vergleiche zu wenig sensitiv für kurzfristige Interventionseffekte sind.

Zusammenfassend bietet das cMABxLLM-Framework eine deploybare Vorlage, um Bayesianische adaptive Experimente mit generativen Modellen zu verbinden, um sowohl die Wirksamkeit als auch die Nachvollziehbarkeit von personalisierten Gesundheitsinterventionen zu maximieren.