Vision-Language System using Open-Source LLMs for Gestures in Medical Interpreter Robots

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de ce papier de recherche, comme si nous en parlions autour d'un café.

🤖 Le Robot Traducteur qui "Parle" avec ses Mains

Imaginez un hôpital où un médecin parle anglais et un patient ne parle que le vietnamien. Habituellement, on utilise un traducteur humain ou une application sur téléphone. Mais ces outils ont un gros défaut : ils traduisent les mots, mais ils oublient le langage du corps. Or, dans le monde médical, un hochement de tête rassurant ou un geste pour montrer "ici" est aussi important que les mots.

C'est là que cette équipe de chercheurs (de Dublin) a eu une idée géniale : créer un robot interprète qui ne se contente pas de traduire, mais qui imite les gestes humains pour rassurer et expliquer.

Voici comment leur système fonctionne, expliqué avec des métaphores :

1. Le "Filtre de Sécurité" (La Détection)

Le robot écoute la conversation. Mais il ne peut pas faire un geste à chaque fois que quelqu'un parle (ce serait très bizarre !). Il doit savoir quand faire un geste.

L'analogie : Imaginez un chef d'orchestre très attentif qui écoute la musique. Il ne lève pas sa baguette tout le temps. Il attend les moments clés : quand le médecin demande un consentement ("Acceptez-vous l'opération ?") ou donne une instruction ("Respirez profondément").
La technologie : Le robot utilise un "cerveau" artificiel (un modèle de langage open-source) qui tourne directement sur l'ordinateur du robot (pas sur internet). C'est comme si le robot avait un cerveau privé : il ne renvoie aucune donnée à l'extérieur, ce qui est crucial pour la confidentialité des patients. Ce cerveau est entraîné pour repérer ces moments précis avec une précision de 90 %.

2. Le "Miroir Magique" (L'Imitation Humaine)

Une fois que le robot a repéré un moment important (comme un consentement), il ne crée pas un geste au hasard. Il regarde la vidéo de la personne qui parle et copie son mouvement.

L'analogie : C'est comme un miroir magique qui ne reflète pas votre image, mais qui la transforme en mouvement de robot. Si le patient lève la main pour dire "oui", le robot lève doucement son bras pour dire "oui" aussi.
Pourquoi c'est bien ? Les études montrent que les gens trouvent ces robots beaucoup plus "humains" et naturels que les robots qui génèrent des gestes mathématiques froids. C'est la différence entre un acteur qui improvise avec vous et un robot qui lit un script.

3. Le "Traducteur de Mouvement" (Pour les Robots)

Le robot ne peut pas simplement copier un humain, car il a des bras mécaniques différents.

L'analogie : Imaginez que vous essayez de danser la même danse qu'un ami, mais que vous avez des jambes de 2 mètres de long et lui des jambes de 1 mètre. Vous devez adapter vos pas.
La technologie : Le système prend les coordonnées du corps humain (épaules, coudes) et les "traduit" en angles précis pour les moteurs du robot (ici, un robot Pepper). Ils ont même ajusté la vitesse pour que le robot ne bouge pas trop vite et ne se casse pas les articulations !

🏆 Les Résultats : Pourquoi c'est une révolution ?

Les chercheurs ont testé leur système et voici ce qu'ils ont découvert :

Confidentialité Totale : Tout se passe sur place. C'est comme si le robot avait un journal intime qu'il ne montre à personne. Pas de données envoyées au cloud, donc pas de risque de fuite de données médicales.
Plus Humain : Dans un test avec des humains, les participants ont trouvé que les gestes du robot étaient plus naturels et ressemblants à l'homme que ceux des systèmes existants.
Efficacité : Le système est léger. Il ne nécessite pas une super-ordinateur de la NASA, mais peut tourner sur un ordinateur portable standard.

En résumé

Ce papier décrit la création d'un robot médecin interprète qui comprend non seulement les mots, mais aussi l'intention derrière les mots (consentement, instruction). Grâce à une intelligence artificielle locale et privée, il imite les gestes humains pour créer un lien de confiance plus fort entre le soignant et le patient, rendant la communication médicale plus sûre et plus humaine, même à travers les barrières de la langue.

C'est un peu comme donner une âme mécanique à un traducteur, pour qu'il puisse dire "Je vous comprends" non seulement avec sa voix, mais aussi avec ses mains.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article « Vision-Language System using Open-Source LLMs for Consent and Instruction Gestures in Medical Interpreter Robots », structuré selon les points demandés.

1. Problématique

La communication en milieu de santé est souvent entravée par des barrières linguistiques. Bien que les outils de traduction existent, ils négligent la communication non verbale (gestes), qui est cruciale pour valider le consentement et transmettre des instructions médicales. Les études montrent que jusqu'à 70 % des gestes corporels des médecins et des patients apportent des informations non contenues dans la parole.

Les défis techniques actuels pour déployer des robots interprètes médicaux capables de gestes sont triples :

Manque de données : Absence de jeux de données spécifiques au domaine médical annotés pour les actes de parole (consentement, instruction) et les gestes associés.
Génération générique : Les techniques existantes de génération de gestes sont conçues pour des conversations générales et ne capturent pas la précision requise pour les instructions médicales ni la variabilité culturelle.
Contraintes de calcul : Les plateformes robotiques ont des ressources limitées, ce qui empêche l'exécution en temps réel de modèles complexes, tout en exigeant une confidentialité stricte des données de santé (ne pas envoyer de données vers le cloud).

2. Méthodologie

Les auteurs proposent un cadre vision-langage respectueux de la vie privée, entièrement exécuté localement (on-device) sur un robot Pepper, utilisant des modèles de langage (LLM) open-source.

A. Création d'un jeu de données clinique

Source : 58 vidéos de formation clinique extraites de la chaîne YouTube "Dr James Gill".
Traitement : Transcription via Whisper, reconstruction de phrases complètes et alignement temporel.
Annotation : 3 736 phrases ont été classées en trois catégories : Consentement, Instruction, ou Ni l'un ni l'autre.
Validation : Une approche hybride utilisant plusieurs LLM (gpt-oss, qwen, deepseek) pour une pré-annotation, suivie d'une validation humaine pour résoudre les conflits (taux d'accord de 92 %).

B. Détection de phrases gestuelles (Gesture Sentence Detection - GSD)

Architecture : Utilisation d'un LLM léger déployé localement pour classifier chaque énoncé.
Stratégie de Prompting : Utilisation du few-shot prompting (11 exemples : 4 instructions, 4 consentements, 3 autres) combinant des données du jeu de données et des échantillons manuels.
Configuration : Paramètres déterministes (température 0.1) pour assurer la fiabilité. Le modèle qwen3:8b a été sélectionné comme le meilleur compromis entre précision et consommation mémoire.

C. Génération de gestes robotiques

Le système fonctionne selon deux modes selon la détection :

Mode Mimétisme Humain (Human-Mimic) : Si la phrase est un "Consentement" ou une "Instruction", le robot imite le geste de l'utilisateur.
- Pipeline : Estimation de pose (MediaPipe) $\rightarrow$ Mappage des points clés vers les angles des articulations du robot Pepper $\rightarrow$ Commande des actionneurs via NAOqi SDK.
- Optimisation : Utilisation de MediaPipe pour sa stabilité temporelle et son optimisation CPU. Un facteur d'échelle de 12 est appliqué pour compenser les limitations de vitesse du robot.
Mode Génération de Parole (Speech-Gesture Generation) : Si la phrase ne correspond pas aux catégories cibles, le système utilise le modèle Semantic Gesticulator (SG) pour générer un geste sémantiquement approprié à partir de l'audio, adapté ensuite à la cinématique du robot Pepper (avec réduction de fréquence pour respecter les limites de vitesse).

3. Contributions Clés

Jeu de données clinique : Introduction d'un nouveau jeu de données contenant des vidéos, des transcriptions et des annotations de gestes au niveau de la phrase pour des interactions médicales.
Détection légère et privée : Proposition d'un détecteur de phrases basé sur un LLM open-source optimisé pour le calcul local, garantissant la sécurité des données de santé.
Pipeline de rétro-ingénierie gestuelle : Une méthode efficace pour mapper la cinématique humaine (vidéo) vers les commandes moteur d'un robot humanoïde (Pepper).
Évaluation complète : Intégration et évaluation du système complet sur un robot physique, comparant l'approche "Mimétisme" vs "Génération sémantique".

4. Résultats

Performance de la Détection (GSD)

Le modèle qwen3:8b a obtenu les meilleurs résultats avec une précision de 0,93, un rappel implicite (via la précision globale) et un F1-Score pondéré de 0,91.
Les modèles plus petits (ex: 3B, 1.5B) ont montré une baisse significative de la précision et du F1-Score, indiquant des difficultés de généralisation, bien que certains (comme qwen3:0.6b) aient offert un compromis intéressant pour des contraintes mémoire très strictes.

Évaluation Utilisateur (Étude avec 26 participants)

Une étude comparative a été menée entre l'approche proposée (déclenchée par la détection de consentement/instruction) et la génération de gestes standard (Semantic Gesticulator - SG) :

Ressemblance humaine (Human-likeness) : L'approche proposée a obtenu un score significativement plus élevé (5,78/10 vs 5,24/10 pour SG, p=0,019). Le mimétisme des gestes réels des utilisateurs est perçu comme plus naturel.
Adéquation (Appropriateness) : Les deux approches ont obtenu des scores comparables (5,20 vs 4,76), la différence n'étant pas statistiquement significative (p=0,277). Cela indique que le mimétisme ne sacrifie pas la pertinence du geste par rapport au discours.
Efficacité computationnelle : L'approche proposée est extrêmement légère, ne nécessitant que 3 Mo de RAM GPU (contre 2260 Mo pour SG), ce qui la rend viable pour une exécution locale sur robot.

5. Signification et Impact

Ce travail démontre la faisabilité de créer des robots interprètes médicaux autonomes, sécurisés et réalistes sans dépendre du cloud.

Confidentialité : L'exécution locale des modèles open-source élimine les risques de fuite de données sensibles, un critère non négociable en santé.
Efficacité : La capacité à atteindre une haute précision de détection et une génération de gestes convaincante avec des ressources matérielles limitées ouvre la voie à un déploiement à grande échelle.
Interaction Naturelle : En intégrant la détection contextuelle (consentement/instruction) avec le mimétisme gestuel, le système améliore l'adhésion au traitement et réduit les risques d'erreurs de communication, comblant ainsi le fossé entre la technologie actuelle et les besoins réels des environnements cliniques diversifiés.