PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest jemandem den Puls messen, ohne ihn zu berühren. Früher musste man dafür ein Gummiband um den Finger legen oder ein Gerät an die Brust kleben. Heute gibt es eine Technik namens rPPG (remote Photoplethysmography). Die Idee ist genial: Eine normale Kamera filmt dein Gesicht, und ein Computer schaut sich die winzigen Farbveränderungen in deiner Haut an, die entstehen, wenn dein Blut durch die Adern pumpt. Das ist wie ein unsichtbarer Herzschlag, den die Kamera "sehen" kann.

Aber hier liegt das Problem: Diese Methode ist extrem empfindlich. Wenn das Licht sich ändert, wenn du dich bewegst oder wenn du eine Brille trägst, wird das Signal oft verrauscht und ungenau. Es ist, als würde man versuchen, ein leises Flüstern in einem lauten Sturm zu hören.

Hier kommt PhysLLM ins Spiel, eine neue Erfindung, die in diesem Papier vorgestellt wird.

Die Idee: Ein Herzschlag-Detektiv mit einem Gehirn aus Sprache

Stell dir vor, du hast einen sehr guten Detektiv (das ist die Kamera-Software), der aber manchmal verwirrt ist, wenn das Licht flackert. Normalerweise würde man ihm einfach mehr Training geben. PhysLLM macht etwas Clevereres: Es holt sich einen Super-Assistenten, der eigentlich ein riesiges Sprachmodell (ein "Large Language Model" oder LLM) ist.

Diese Sprachmodelle sind normalerweise dafür bekannt, Texte zu schreiben, Geschichten zu erzählen oder Fragen zu beantworten. Sie sind Meister darin, Zusammenhänge über lange Zeit zu verstehen (z. B. "Wenn es heute regnet, wird es morgen wahrscheinlich auch nass").

PhysLLM fragt sich nun: "Was wäre, wenn wir diesem Sprach-Assistenten beibringen, nicht nur Wörter, sondern auch Herzschläge zu verstehen?"

Wie funktioniert das? Drei magische Werkzeuge

Das Team hat drei spezielle Werkzeuge entwickelt, um den Sprach-Assistenten zum Herzschlag-Experten zu machen:

Der "Text-Prototyp-Leitfaden" (Text Prototype Guidance):
- Die Analogie: Stell dir vor, der Sprach-Assistent spricht nur "Wörter" und die Kamera sieht nur "Farben". Sie verstehen sich nicht.
- Die Lösung: PhysLLM baut eine Brücke. Es übersetzt die rohen Herzschlag-Daten in eine Art "Wörterbuch", das der Sprach-Assistent versteht. Es sagt quasi: "Hey, dieser Farbverlauf hier bedeutet 'Herzschlag' und dieser hier bedeutet 'Bewegung'." So kann der Assistent die visuellen Daten mit seinem riesigen Wissen über Sprache und Kontext verknüpfen.
Der "Zwei-Welten-Stabilisator" (Dual-Domain Stationary Algorithm):
- Die Analogie: Ein Herzschlag ist wie ein Taktgeber. Aber wenn du dich bewegst, ist es, als würde jemand den Taktstock wild hin und her schwingen. Das Signal wird chaotisch.
- Die Lösung: Dieser Algorithmus schaut sich das Signal gleichzeitig von zwei Seiten an: einmal wie eine Welle im Zeitverlauf und einmal wie ein Musikstück mit verschiedenen Frequenzen (Tönen). Er filtert das "Rauschen" (das Chaos) heraus und sorgt dafür, dass der Takt wieder stabil ist, bevor er ihn dem Assistenten gibt.
Die "Hinweis-Karten" (Task-Specific Cues):
- Die Analogie: Wenn du einem Detektiv einen Fall gibst, sagst du ihm nicht nur "Suche den Täter", sondern gibst ihm Hinweise: "Der Täter trug einen roten Hut" oder "Es war dunkel".
- Die Lösung: PhysLLM gibt dem Sprach-Assistenten extra Hinweise, bevor er anfängt zu rechnen. Es sagt ihm: "Achtung, das Licht ist heute sehr hell" oder "Die Person hat einen Bart, der die Haut verdeckt". Der Assistent nutzt diese Informationen, um seine Vorhersage anzupassen, genau wie ein erfahrener Arzt, der weiß, dass er bei hellem Licht anders messen muss als bei Dämmerung.

Warum ist das so toll?

Bisherige Methoden waren wie ein Auto mit einem sehr guten Motor, aber ohne Navigationssystem. Sie funktionierten gut unter perfekten Bedingungen, aber sobald es regnete oder die Straße holprig wurde, kamen sie nicht mehr weiter.

PhysLLM ist wie ein Autonomes Fahrzeug mit einem erfahrenen Co-Piloten.

Die Kamera (der Motor) macht die Arbeit.
Der Sprach-Assistent (der Co-Pilot) nutzt sein riesiges Wissen, um zu verstehen, warum das Signal verrauscht ist, und korrigiert es sofort.

Das Ergebnis: PhysLLM ist extrem robust. Es funktioniert auch dann gut, wenn die Person sich bewegt, wenn das Licht sich ändert oder wenn die Hautfarbe sehr dunkel oder sehr hell ist. In Tests hat es alle bisherigen Rekorde gebrochen und war genauer als jede andere Methode, die es gibt.

Fazit

PhysLLM ist ein genialer Mix aus zwei Welten: Der visuellen Welt der Kameras und der logischen Welt der Sprach-KI. Indem sie zusammenarbeiten, können wir Herzschläge und andere Vitalwerte aus Videos messen, die so genau sind, als würde man die Person direkt berühren – aber ganz ohne Kontakt. Das ist ein großer Schritt für die Gesundheitsüberwachung, bei der wir nicht mehr an Geräte gekettet sind, sondern einfach nur in die Kamera schauen müssen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Remote Photoplethysmographie (rPPG) ermöglicht die berührungslose Messung physiologischer Signale (wie Herzfrequenz und Blutdruck) durch die Analyse subtiler Hautfarbänderungen in Videos. Trotz ihrer Vorteile (nicht-invasiv, bequem) leiden bestehende Methoden unter erheblichen Herausforderungen:

Störanfälligkeit: Traditionelle CNN-basierte oder Transformer-Modelle sind extrem empfindlich gegenüber Lichtwechseln, Bewegungsartefakten (Motion Blur) und Okklusionen.
Begrenzte zeitliche Modellierung: Viele Ansätze können langfristige zeitliche Abhängigkeiten in den Signalen nur unzureichend erfassen.
Domänenlücken: Modelle generalisieren schlecht über verschiedene Datensätze, Hautfarben und Umgebungsbedingungen hinweg.
Herausforderung bei LLMs: Große Sprachmodelle (LLMs) sind zwar hervorragend im Erfassen langer zeitlicher Abhängigkeiten, aber aufgrund ihrer textzentrischen Architektur nicht direkt auf kontinuierliche, rauschempfindliche physiologische Signale anwendbar. Es besteht eine fundamentale Diskrepanz zwischen diskreten Text-Tokens und kontinuierlichen physiologischen Daten.

2. Methodik: Das PhysLLM-Framework

PhysLLM ist ein kollaboratives Optimierungsframework, das die Stärken von LLMs (langfristige zeitliche Reasoning-Fähigkeiten) mit domänenspezifischen rPPG-Komponenten verbindet. Die Architektur besteht aus drei Hauptströmen, die in einem einheitlichen Framework zusammenlaufen:

A. Dual-Domain Stationary (DDS) Algorithmus

Um die Instabilität des rPPG-Signals zu adressieren, wird ein neuer Algorithmus eingeführt, der das Signal sowohl im Zeit- als auch im Frequenzbereich stabilisiert:

Vorverarbeitung: Das Rohsignal wird normalisiert (Subtraktion des Mittels, Division durch Standardabweichung).
Zeitbereich: Anwendung einer adaptiven Glättung (exponentieller gleitender Durchschnitt) zur Erhaltung der Periodizität.
Frequenzbereich: Zerlegung des Signals mittels diskreter Wavelet-Transformation (DWT) in Approximations- und Detailkoeffizienten, gefolgt von einer inversen Wavelet-Transformation (IDWT) nach der Glättung.
Fusion: Die Ergebnisse beider Domänen werden durch einen lernbaren Gewichtungsparameter ( $\beta$ ) adaptiv fusioniert, um ein stationäres, rauscharmes Signal zu erzeugen.

B. Vision Aggregator (VA) & Multi-Scale Interaction

Ein Modul, das Merkmale aus verschiedenen Ebenen des CNN-Backbones (z. B. PhysNet) integriert:

Es nutzt Cross-Attention, um tiefe semantische Merkmale als Abfragen zu verwenden, um fehlende Details aus flacheren Merkmalen zu extrahieren.
Self-Attention erfasst interne Abhängigkeiten innerhalb der fusionierten Merkmale.
Dies ermöglicht eine kontextbewusste, adaptive Fusion von multi-skalierten hämodynamischen Merkmalen.

C. Text Prototype Guidance (TPG)

Dies ist der Kernmechanismus zur Überbrückung der Lücke zwischen visuellen/physiologischen Daten und dem LLM:

Statt das gesamte Vokabular zu nutzen, werden kleine Mengen an Text-Prototypen (Text-Embeddings) gelernt, die als semantische Anker dienen.
Diese Prototypen werden durch Cross-Attention mit den visuellen und Signal-Merkmalen interagieren lassen.
Das Ziel ist es, hämodynamische Merkmale in einen für das LLM interpretierbaren semantischen Raum zu projizieren, ohne das LLM vollständig neu zu trainieren (Reprogramming-Ansatz).

D. Physiological Cue-Aware Prompt Learning (APL)

Um das LLM kontextuell zu steuern, werden drei Arten von „Cues" (Hinweisen) generiert und adaptiv fusioniert:

Task Cue: Standardisierte Aufgabenbeschreibungen aus der Literatur.
Vision Cue: Automatisch generierte visuelle Beschreibungen (z. B. Beleuchtung, Bart, Hautfarbe) mittels eines Vision-Language-Modells (LLaVA).
Stats Cue: Statistische Kennzahlen des Signals (Min/Max, Median, Trend), die als symbolische Repräsentation eingegeben werden.
Diese Cues werden durch einen Adaptive Prompt Learning-Mechanismus gewichtet und in das LLM injiziert, um es an spezifische Szenarien anzupassen.

3. Schlüsselbeiträge

Erstes LLM-basiertes rPPM-Framework: PhysLLM ist das erste System, das LLMs erfolgreich in die rPPG-Messung integriert, um interpretierbare Verbindungen zwischen physiologischer Dynamik und kontextueller Semantik herzustellen.
Dual-Domain Stationary (DDS) Algorithmus: Ein neuartiger Ansatz zur Stabilisierung von Zeitreihen durch adaptive Gewichtung im Zeit- und Frequenzbereich, der Rauschen reduziert und die Periodizität bewahrt.
Text Prototype Guidance (TPG): Eine Strategie zur Überbrückung der Modalitätslücke, die hämodynamische Merkmale in den semantischen Raum des LLM projiziert.
Adaptive Cue-Injektion: Ein System zur dynamischen Anpassung an schwierige Szenarien (Licht, Bewegung) durch die Kombination von statistischen, visuellen und aufgabenbezogenen Hinweisen.

4. Ergebnisse

Die Leistung von PhysLLM wurde auf vier Benchmark-Datensätzen (UBFC-rPPG, PURE, BUAA, MMPD) evaluiert:

Intra-Dataset-Performance: PhysLLM erreicht State-of-the-Art (SOTA) Ergebnisse. Auf dem UBFC-rPPG-Datensatz wurde eine mittlere absolute Fehler (MAE) von 0,21 bpm und eine Korrelation (R) von 0,99 erreicht, was deutlich besser ist als bei vorherigen Top-Modellen wie PhysFormer oder RhythmFormer.
Cross-Dataset-Generalisierung: In Tests, bei denen auf zwei Datensätzen trainiert und auf einem dritten getestet wurde (z. B. PURE+BUAA $\to$ MMPD), zeigte PhysLLM überlegene Robustheit gegenüber Domänenverschiebungen (z. B. MAE von 9,95 bpm auf MMPD im Vergleich zu >10 bpm bei anderen Methoden).
Robustheit: Das Modell behält seine Genauigkeit unter extremen Bedingungen bei, wie z. B. unterschiedlichen Hauttönen (Fitzpatrick-Skala 3–6) und variierenden Lichtverhältnissen (LED, Glühlampe, Tageslicht).
Ablationsstudien: Die Experimente bestätigten, dass jeder Komponente (DDS, VA, TPG, Cues) entscheidend für die Gesamtleistung ist. Der Einsatz eines vortrainierten LLM (DeepSeek-1.5B) erwies sich als essenziell für die Generalisierungsfähigkeit, im Gegensatz zu reinen Transformer-Architekturen ohne LLM-Vorwissen.

5. Bedeutung und Ausblick

PhysLLM markiert einen Paradigmenwechsel in der berührungslosen physiologischen Messung. Durch die Integration von LLMs wird nicht nur die Genauigkeit unter schwierigen Bedingungen verbessert, sondern auch die Interpretierbarkeit und Anpassungsfähigkeit des Systems erhöht.

Signifikanz: Die Arbeit zeigt, dass Large Language Models über ihre textuellen Anwendungen hinaus für komplexe Zeitreihenanalysen in der Biomedizin nutzbar sind, wenn sie durch spezialisierte Vorverarbeitungs- und Alignmentschichten (wie TPG und DDS) ergänzt werden.
Zukunft: Die Autoren planen, die Rechenkomplexität durch Knowledge Distillation und Parameter-Efficiency-Techniken zu reduzieren, um eine Bereitstellung auf Edge-Geräten (z. B. Smartphones) zu ermöglichen.

Zusammenfassend demonstriert PhysLLM, dass die Synergie aus visueller Wahrnehmung, Signalverarbeitung und semantischem Reasoning durch LLMs die Grenzen der aktuellen rPPG-Technologie überwinden kann.