PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing

Each language version is independently generated for its own context, not a direct translation.

🩺 De Digitale Arts die naar je gezicht kijkt

Stel je voor dat je je hartslag kunt meten zonder een horloge, een riem of een sensor op je vinger. Je hoeft alleen maar in de camera van je telefoon of laptop te kijken. Dit heet rPPG (remote photoplethysmography). Het werkt door de heel subtiele kleurveranderingen in je huid te zien die ontstaan door je bloed dat door je aderen stroomt.

Maar hier zit een addertje onder het gras: deze technologie is erg kwetsbaar. Als het licht verandert, als je beweegt, of als je een baard hebt, raken de metingen vaak in de war. Het is alsof je probeert een zacht gefluister te horen in een drukke fabriekshal.

🧠 De oplossing: Een slimme vertaler (PhysLLM)

De onderzoekers van deze paper hebben PhysLLM bedacht. Dit is een slimme combinatie van twee werelds:

De camera-arts: Een systeem dat goed kijkt naar beelden (zoals een CNN).
De taal-expert: Een Groot Taalmodel (LLM), zoals de technologie achter ChatGPT, dat gewend is om lange verhalen en complexe patronen te begrijpen.

Het probleem is dat taalmodellen zijn getraind op woorden, niet op bloedstroom. Het is alsof je probeert een pianist te laten spelen met een hamer. De paper lost dit op met drie slimme trucjes:

1. De "Vertaler" (Text Prototype Guidance)

Stel je voor dat de camera-arts een taal spreekt die de taal-expert niet begrijpt (bijvoorbeeld: "bloedstroom-pulsatie"). De taal-expert spreekt alleen "woorden".
PhysLLM gebruikt een Vertaler die de signalen van de camera omzet in concepten die de taal-expert begrijpt. Het vertaalt de "bloedstroom" naar een beschrijving die de AI kan verwerken, zodat ze samen kunnen werken. Het is alsof je een tolk hebt die de signalen van je hart vertaalt naar een verhaal dat de computer kan lezen.

2. De "Stabilisator" (Dual-Domain Stationary Algorithm)

Bloedstroomsignalen zijn vaak onrustig, net als een bootje op ruwe zee. Soms is het water te kalm, soms te stormachtig.
De onderzoekers hebben een Stabilisator bedacht. Deze kijkt naar het signaal in twee domeinen tegelijk:

De tijd: Hoe ziet het eruit seconde voor seconde?
De frequentie: Wat is het ritme?
Deze stabilisator veegt het "ruis" (de storm) weg en zorgt dat het signaal weer een rustig, regelmatig ritme heeft, net als een kalme meer. Hierdoor kan de AI het echte ritme van je hart veel beter horen.

3. De "Contextuele Hulp" (Cues)

Soms is het niet genoeg om alleen naar het beeld te kijken. De AI heeft extra hints nodig. PhysLLM geeft de AI drie soorten "flitskaarten" (cues) mee:

Visuele hints: "De persoon heeft een baard en het licht is groen." (Dit helpt de AI om te weten waar hij moet kijken).
Statistische hints: "Het signaal gaat omhoog of omlaag."
Taak-hints: "We meten de hartslag, niet de ademhaling."

Door deze hints te combineren met wat de AI ziet, wordt de meting veel nauwkeuriger, zelfs als de persoon beweegt of in slecht licht zit.

🏆 Wat levert dit op?

De onderzoekers hebben hun nieuwe systeem getest op vier verschillende datasets (zoals testrondes met verschillende mensen en omstandigheden).

Resultaat: PhysLLM is beter dan alle bestaande methoden.
Waarom? Omdat het niet alleen naar pixels kijkt, maar ook "denkt" over de context. Het begrijpt dat als iemand beweegt, het signaal anders moet worden geïnterpreteerd.

🚀 Conclusie in één zin

PhysLLM is als het geven van een bril en een woordenboek aan een slimme computer, zodat hij niet alleen naar je gezicht kijkt, maar ook begrijpt wat hij ziet, waardoor hij je hartslag kan meten alsof hij een ervaren arts is, zelfs in de meest chaotische situaties.

De broncode is openbaar beschikbaar, zodat andere onderzoekers dit slimme systeem kunnen gebruiken om nog betere gezondheidsapps te bouwen!

Each language version is independently generated for its own context, not a direct translation.

Titel: PhysLLM: Het benutten van Large Language Models voor Cross-Modale Remote Fysiologische Sensing

1. Het Probleem

Remote Photoplethysmography (rPPG) is een niet-contacttechniek die fysiologische signalen (zoals hartslag en bloeddruk) meet door subtiele kleurveranderingen in de huid te analyseren die worden veroorzaakt door bloedstroom. Hoewel veelbelovend, kampen bestaande rPPG-methoden met ernstige beperkingen:

Gevoeligheid voor omgevingsfactoren: Ze zijn zeer vatbaar voor veranderingen in verlichting, bewegingsartefacten (motion blur) en occlusies.
Beperkte temporele modellering: Traditionele methoden (zoals CNN's) en zelfs Transformers hebben moeite met het modelleren van lange-termijn afhankelijkheden in complexe videosequenties.
De kloof tussen signalen en taal: Large Language Models (LLM's) zijn uitstekend in het vangen van lange-termijn afhankelijkheden en semantisch redeneren, maar zijn ontworpen voor discrete tekstuele data. De directe toepassing van LLM's op continue, ruisgevoelige rPPG-signalen leidt tot slechte representaties en hoge ruisgevoeligheid vanwege de fundamentele mismatch tussen de aard van de signalen en de architectuur van de LLM.

2. Methodologie: Het PhysLLM Framework

PhysLLM is een collaboratief optimalisatieframework dat LLM's integreert met domeinspecifieke rPPG-componenten om deze kloof te overbruggen. De architectuur bestaat uit drie hoofdstromen die samenwerken:

A. Dual-Domain Stationary (DDS) Algorithm
Om de instabiliteit van het signaal aan te pakken, wordt een nieuw algoritme voorgesteld dat zowel het tijdsdomein als het frequentiedomein benut:

Tijdsdomein: Toepassing van een adaptieve tijdsmoothing met exponentiële afname om ruis te reduceren en periodieke consistentie te behouden.
Frequentiedomein: Decompositie via Discrete Wavelet Transform (DWT) in benaderings- en detailcoëfficiënten, gevolgd door normalisatie en inverse transformatie.
Adaptieve Weging: Een leerbaar parameter ( $\beta$ ) combineert de uitkomsten van beide domeinen om een gestabiliseerd, stationair signaal te produceren dat minder gevoelig is voor ruis.

B. Vision Aggregator (VA)
Dit module integreert multi-schaal hemodynamische kenmerken uit de video:

Het gebruikt een hiërarchische architectuur met Cross-Attention en Self-Attention.
Diepe visuele kenmerken worden gebruikt als queries om ontbrekende details uit ondiepere kenmerken te extraheren, wat resulteert in een rijkere, fijnkorrelige visuele representatie.

C. Text Prototype Guidance (TPG)
Dit is de kerninnovatie om de vertaalslag tussen visuele/signaal-data en de LLM te maken:

In plaats van de volledige rPPG-data direct in te voeren, worden "tekstprototypen" (een kleine verzameling leerbare woordembeddings) gebruikt.
Deze prototypen projecteren hemodynamische kenmerken en visuele signalen naar een voor de LLM interpreteerbare semantische ruimte.
Dit creëert een semantische ankerpunt voor cross-modale uitlijning, waardoor de LLM de fysiologische dynamiek kan "begrijpen" zonder zware fine-tuning van de hele architectuur.

D. Fysiologische Cue-Aware Prompt Learning
Om de context van de LLM te verrijken, worden drie soorten cues dynamisch gegenereerd en ingebracht:

Visuele Cue: Genereerd via een Vision-Language Model (LLaVA) dat automatisch beschrijvingen maakt van gezichtseigenschappen, verlichting en obstakels.
Statistische Cue: Berekening van statistieken (min, max, mediaan, trend) van het ruwe rPPG-signaal om numerieke priors te bieden.
Taak-Cue: Standaardiseerde beschrijvingen van rPPG-taken en domeinkennis.
Deze cues worden via een Adaptive Prompt Learning mechanisme samengevoegd, waarbij de LLM leert welke cues het belangrijkst zijn voor de specifieke situatie.

3. Belangrijkste Bijdragen

Eerste Integratie van LLM's in rPPG: PhysLLM is het eerste framework dat LLM's succesvol integreert in rPPG-metingen, waardoor interpreteerbare verbindingen ontstaan tussen fysiologische dynamiek en contextuele semantiek.
DDS Algoritme: Een innovatief tijds-frequentiedomein-algoritme dat signaalinstabiliteit oplost door adaptieve herschaling, wat zorgt voor robuustheid tegen ruis.
Text Prototype Guidance (TPG): Een strategie om de representatiekloof tussen continue signalen en discrete taal te overbruggen door fysiologische kenmerken te projecteren in de semantische ruimte van de LLM.
Cross-Modale Cues: Het gebruik van dynamisch gegenereerde visuele, statistische en taak-specifieke prompts om de LLM te laten adaptief reageren op uitdagende scenario's (zoals beweging en veranderende verlichting).

4. Resultaten

PhysLLM is geëvalueerd op vier benchmark datasets: UBFC-rPPG, PURE, BUAA en MMPD.

Intra-dataset Prestaties: PhysLLM bereikte state-of-the-art (SOTA) resultaten op alle datasets.
- Op UBFC-rPPG: MAE van 0.21 bpm, RMSE van 0.57 bpm en correlatie (R) van 0.99.
- Op PURE: MAE van 0.17 bpm en RMSE van 0.35 bpm, wat een significante verbetering is ten opzichte van eerdere SOTA-methoden zoals PhysFormer.
Cross-Dataset Generalisatie: Het model toonde superieure generalisatievermogen bij training op eenvoudige datasets en testen op complexe datasets (zoals MMPD). Het presteerde consistent beter dan CNN-LLM hybriden en pure Transformer-baselines.
Robuustheid: Visualisaties van salientiekaarten tonen aan dat het model zich richt op relevante gebieden (wang en voorhoofd) en effectief obstakels (zoals baarden of brillen) en beweging negeert. Het presteert stabiel onder extreme verlichtingsomstandigheden en bij verschillende huidtinten.
Ablatie Studies: Experimenten bevestigden dat elk component (DDS, VA, TPG en de verschillende cues) essentieel is voor de uiteindelijke prestaties. Het gebruik van een vooraf getrainde LLM (DeepSeek) bleek cruciaal voor cross-dataset generalisatie in vergelijking met niet-getrainde Transformer-architecturen.

5. Betekenis en Impact

PhysLLM markeert een paradigmaverschuiving in de remote fysiologische sensing:

Overbrugging van Disciplines: Het bewijst dat LLM's, traditioneel beperkt tot tekst, kunnen worden getransformeerd tot krachtige tools voor continue tijdreeksanalyse in de biomedische domain, mits de juiste cross-modale vertaalslagen worden toegepast.
Robuustheid in de Wereld: Door contextuele informatie (verlichting, beweging, huidtype) expliciet in het model te integreren via prompts, wordt de robuustheid in real-world scenario's aanzienlijk verbeterd, wat essentieel is voor de toepassing van rPPG in de dagelijkse gezondheidszorg.
Toekomstige Richting: Hoewel het model momenteel een hogere rekenkracht vereist door de LLM-backbone, opent het de weg voor lichtere, op kennis gedistilleerde versies die geschikt zijn voor randapparatuur (edge devices), terwijl het de prestaties behoudt.

Kortom, PhysLLM biedt een nieuw, interpreteerbaar en uiterst robuust framework voor niet-contact fysiologische monitoring door de kracht van Large Language Models te combineren met gespecialiseerde signaalverwerking.