PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing

Each language version is independently generated for its own context, not a direct translation.

🩺 Le Problème : Mesurer le cœur à distance, c'est comme chercher une aiguille dans une botte de foin... lumineuse !

Imaginez que vous voulez connaître le rythme cardiaque d'une personne sans la toucher, simplement en filmant son visage avec une caméra. C'est ce qu'on appelle la rPPG (photopléthysmographie à distance).

Le principe est simple : quand le cœur bat, il envoie du sang dans le visage, ce qui change très légèrement la couleur de la peau (trop rapide pour l'œil humain, mais visible par une caméra).

Le souci ? C'est très fragile.

Si la personne bouge la tête, le signal se perd.
Si la lumière change (soleil, ombre, néon), la caméra se trompe.
Si la personne a une barbe ou des lunettes, c'est encore plus dur.

Les anciennes méthodes (comme des caméras intelligentes classiques) sont un peu comme des chefs cuisiniers qui ne savent cuisiner que des pâtes. Elles sont rapides, mais dès qu'il y a un ingrédient nouveau (une lumière bizarre, un mouvement brusque), elles paniquent et donnent un mauvais résultat.

🧠 La Solution : PhysLLM, le "Super-Chef" qui parle plusieurs langues

Les chercheurs ont créé PhysLLM. Pour faire simple, c'est un système qui combine deux mondes :

L'œil expert (une caméra intelligente qui voit les changements de couleur).
Le cerveau sage (un "Grand Modèle de Langage" ou LLM, comme une intelligence artificielle très cultivée qui a lu des millions de livres).

Imaginez que vous essayez de deviner le rythme cardiaque d'un ami.

L'ancienne méthode regarde juste le visage et dit : "Je vois du rouge, donc le cœur bat à 80."
PhysLLM, lui, fait beaucoup plus. Il regarde le visage, mais il parle aussi à l'intelligence artificielle pour lui demander : "Attends, je vois qu'il y a une ombre sur la joue à cause de la fenêtre, et qu'il porte une barbe. Est-ce que ça change la couleur ?"

L'IA répond : "Oui, c'est normal, ne t'inquiète pas, ajuste ton calcul."

C'est comme si vous aviez un médecin expert (la caméra) qui travaille avec un traducteur et un conseiller (l'IA textuelle). Ensemble, ils comprennent non seulement ce qu'ils voient, mais aussi le contexte (la lumière, le mouvement, la peau).

🛠️ Les 3 Super-Pouvoirs de PhysLLM

Pour que ce duo fonctionne, les chercheurs ont inventé trois astuces magiques :

1. Le "Guide de Prototypes Textuels" (TPG) : Le Dictionnaire Commun

Les caméras parlent "chiffres et pixels", et les IA parlent "mots et phrases". C'est comme essayer de faire parler un poisson avec un oiseau.

L'astuce : PhysLLM crée un dictionnaire spécial. Il transforme les données brutes du visage (le flux sanguin) en "mots" que l'IA peut comprendre.
L'analogie : C'est comme si vous traduisiez une partition de musique complexe en une histoire simple que l'IA peut lire. Cela permet à l'IA de "comprendre" ce qui se passe dans le sang sans avoir besoin de devenir un expert en mathématiques.

2. L'Algorithme "Stationnaire" (DDS) : Le Stabilisateur de Caméra

Les signaux cardiaques sont parfois bruyants, comme une radio avec beaucoup de parasites.

L'astuce : PhysLLM utilise un filtre intelligent qui regarde le signal à la fois dans le temps (ce qui se passe seconde par seconde) et dans les fréquences (les vibrations du signal).
L'analogie : Imaginez que vous essayez d'écouter une conversation dans un stade bruyant. Au lieu de fermer les yeux, vous utilisez un casque qui annule les bruits de fond (les pas, les cris) pour ne garder que la voix claire. C'est ce que fait cet algorithme : il nettoie le signal cardiaque des "parasites" causés par le mouvement ou la lumière.

3. Les "Indices Contextuels" (Cues) : Le Contexte de l'Histoire

Souvent, on ne sait pas pourquoi un signal est bizarre.

L'astuce : Le système génère automatiquement des descriptions du visage. "C'est un homme avec une barbe, sous une lumière verte, qui bouge la tête."
L'analogie : C'est comme si, avant de faire un calcul, vous lisiez la météo et l'heure de la journée. Si vous savez qu'il pleut, vous ne serez pas surpris si le sol est mouillé. De même, si l'IA sait qu'il y a une barbe, elle ne pensera pas que le signal est faux à cause de ça.

🏆 Les Résultats : Pourquoi c'est génial ?

Les chercheurs ont testé PhysLLM sur plusieurs bases de données (des milliers de vidéos de gens avec des peaux différentes, dans des lumières différentes, en bougeant).

Résultat : PhysLLM bat tous les records précédents. Il est plus précis et beaucoup plus robuste.
L'image : Si les anciennes méthodes sont comme des voitures de ville qui bloquent dans les embouteillages (les changements de lumière), PhysLLM est comme un hélicoptère qui survole les problèmes et voit toujours la route clairement.

En résumé

PhysLLM, c'est l'union de la vision (la caméra) et de la compréhension (l'IA textuelle).
Au lieu de juste regarder un visage, le système lit l'histoire du visage (lumière, mouvement, peau) pour calculer le rythme cardiaque avec une précision incroyable, même dans les pires conditions. C'est un pas de géant vers des caméras de santé qui fonctionnent vraiment partout, dans la vraie vie, et pas seulement en laboratoire.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La photopléthysmographie à distance (rPPG) permet de mesurer des signaux physiologiques (comme la fréquence cardiaque) sans contact, en analysant les changements de couleur de la peau dus au flux sanguin dans les vidéos. Cependant, cette technologie souffre de limitations majeures :

Sensibilité aux perturbations : Les signaux sont très vulnérables aux changements d'éclairage, aux artefacts de mouvement et au bruit visuel.
Modélisation temporelle limitée : Les méthodes traditionnelles (basées sur CNN ou Transformers) peinent à capturer les dépendances à long terme dans les séquences vidéo complexes.
Écart modalitaire : Bien que les Grands Modèles de Langage (LLM) excellent dans la modélisation des dépendances temporelles et le raisonnement sémantique, leur conception centrée sur le texte les rend inadaptés aux signaux physiologiques continus et sensibles au bruit. Il existe un fossé entre les caractéristiques visuelles/signalétiques et l'espace sémantique des LLM.

2. Méthodologie : PhysLLM

Les auteurs proposent PhysLLM, un cadre d'optimisation collaborative qui intègre les LLM avec des composants spécifiques au domaine de la rPPG. L'architecture repose sur trois piliers principaux :

A. Algorithme Stationnaire en Double Domaine (DDS - Dual-Domain Stationary)

Pour stabiliser le signal de base (extrait par un backbone comme PhysNet) avant son entrée dans le LLM :

Traitement temporel : Normalisation globale suivie d'un lissage temporel adaptatif pour assurer la stationnarité du signal.
Traitement fréquentiel : Décomposition par ondelettes discrètes (DWT) pour séparer les coefficients d'approximation et de détail, suivie d'une reconstruction par transformée inverse (IDWT).
Fusion adaptative : Combinaison pondérée des sorties temporelles et fréquentielles via un paramètre apprenable ( $\beta$ ), réduisant ainsi le bruit tout en préservant la périodicité du signal.

B. Agrégateur Visuel (Vision Aggregator - VA)

Ce module fusionne les caractéristiques multi-échelles extraites par le réseau de vision :

Il utilise une architecture hiérarchique combinant attention croisée (Cross-Attention) et auto-attention (Self-Attention).
Les caractéristiques profondes servent de requêtes pour extraire des détails manquants des caractéristiques de surface, créant une représentation visuelle enrichie et contextuelle.

C. Guidance par Prototypes Textuels (TPG - Text Prototype Guidance)

C'est le cœur de l'alignement intermodal :

Reprogrammation : Les caractéristiques visuelles et les signaux physiologiques (continus) sont projetés dans l'espace sémantique du LLM (discret) via des prototypes textuels appris.
Mécanisme : Au lieu d'utiliser tout le vocabulaire du LLM, le système maintient un petit ensemble de prototypes textuels ( $E'$ ) qui agissent comme des ancres sémantiques. Un mécanisme d'attention fusionne ces prototypes avec les entrées visuelles et temporelles pour guider le LLM.

D. Apprentissage de Prompts Sensibles aux Indices Physiologiques (Physiological Cue-Aware Prompt Learning)

Pour enrichir le contexte du LLM, trois types d'indices (cues) sont injectés dynamiquement :

Indices Visuels (Vision Cue) : Générés automatiquement par un modèle VLM (LLaVA) décrivant les conditions de l'image (éclairage, expressions faciales, occlusions).
Indices de Tâche (Task Cue) : Connaissances de domaine standardisées sur la rPPG (ex: variations liées à l'ethnie, la peau).
Indices Statistiques (Stats Cue) : Statistiques calculées sur le signal brut (min, max, médiane, tendance) pour fournir des informations quantitatives au LLM.
Ces indices sont fusionnés de manière adaptative via des mécanismes d'attention pour former le prompt final.

3. Contributions Clés

Premier cadre d'intégration LLM-rPPG : PhysLLM est le premier à établir des connexions interprétables entre la dynamique physiologique et la sémantique contextuelle via un LLM.
Algorithme DDS : Une nouvelle méthode temps-fréquence pour stabiliser les signaux physiologiques et réduire le bruit sans perdre la cohérence périodique.
Stratégie TPG : Un mécanisme innovant pour aligner les caractéristiques hémodynamiques avec l'espace sémantique des LLM, comblant le fossé modalitaire.
Injection de priors physiologiques : Utilisation de statistiques et de descriptions contextuelles pour adapter dynamiquement le modèle aux scénarios difficiles (lumière variable, mouvement).

4. Résultats Expérimentaux

Le modèle a été évalué sur quatre jeux de données de référence : UBFC-rPPG, PURE, BUAA et MMPD.

Performance Intra-jeu de données : PhysLLM atteint des performances State-of-the-Art (SOTA) sur tous les jeux de données.
- Sur UBFC-rPPG : MAE de 0.21 bpm, RMSE de 0.57 bpm, et corrélation (R) de 0.99.
- Sur PURE : MAE de 0.17 bpm, surpassant les méthodes précédentes (PhysFormer) de manière significative.
- Sur MMPD (conditions réelles complexes) : MAE de 4.36 bpm, démontrant une robustesse supérieure aux variations d'éclairage et de mouvement.
Généralisation Cross-Domaine : Dans les protocoles d'entraînement multi-sources et test sur une seule cible (ex: entraînement sur PURE+BUAA, test sur MMPD), PhysLLM surpasse systématiquement les modèles CNN et Transformers hybrides, prouvant sa capacité à apprendre des connaissances invariantes au domaine.
Robustesse : Les tests sur différentes teintes de peau (Types 3-6) et conditions d'éclairage (LED, incandescent, naturel) montrent que PhysLLM maintient une stabilité supérieure, notamment dans des conditions de faible luminosité ou sur des peaux plus foncées.
Analyse d'ablation : La suppression de tout composant (DDS, VA, TPG, ou les indices de prompt) entraîne une dégradation notable des performances, confirmant la nécessité de chaque module.

5. Signification et Impact

Paradigme Intermodal : Ce travail démontre que les LLM, lorsqu'ils sont correctement adaptés via des mécanismes de guidage et de stabilisation, peuvent surpasser les architectures spécialisées traditionnelles pour la tâche de rPPG, en particulier pour la modélisation des dépendances à long terme et l'adaptation contextuelle.
Robustesse Réelle : La capacité à intégrer des indices contextuels (visuels et statistiques) permet au modèle de s'adapter dynamiquement aux environnements non contrôlés, un défi majeur pour le déploiement de la rPPG dans la vie réelle.
Compromis Complexité/Performance : Bien que PhysLLM ait une complexité computationnelle plus élevée (due au backbone LLM), les gains en précision et en robustesse justifient cette approche, ouvrant la voie à des modèles plus légers par distillation future.

En résumé, PhysLLM représente une avancée significative en combinant la puissance de raisonnement des LLM avec la rigueur du traitement du signal physiologique, offrant une solution robuste et généralisable pour la mesure de santé à distance.