Vision-Language System using Open-Source LLMs for Gestures in Medical Interpreter Robots
Cet article présente un cadre de vision-langage respectueux de la vie privée, basé sur des modèles open-source déployés localement, qui permet aux robots interprètes médicaux de détecter les actes de parole et de générer des gestes robotiques adaptés, surpassant les méthodes existantes en termes d'efficacité computationnelle et de naturalisme humain.