SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

Le papier propose SurgFed, un cadre d'apprentissage fédéré multi-tâches guidé par le langage qui améliore la segmentation et l'estimation de profondeur dans les vidéos chirurgicales en surmontant les défis de la diversité tissulaire et des tâches grâce à la sélection de canaux et à une agrégation hyper-personnalisée.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming Jin2026-03-11💻 cs

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

Cet article examine la fiabilité des modèles vision-langage pour la conduite autonome en identifiant leurs limites en matière de cohérence et de raisonnement temporel, puis propose le benchmark FutureVQA et une méthode d'ajustement auto-supervisé pour améliorer ces capacités sans nécessiter d'étiquettes temporelles.

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain Pagani2026-03-11💻 cs

Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks

Ce papier présente RuleSafe, un nouveau benchmark de manipulation articulée générant des tâches non markoviennes à long terme, ainsi que VQ-Memory, une méthode de représentation temporelle basée sur des auto-encodeurs variationnels quantifiés vectoriellement qui améliore significativement la planification et la généralisation des modèles d'action vision-langage dans des environnements simulés complexes.

Wang Honghui, Jing Zhi, Ao Jicong, Song Shiji, Li Xuelong, Huang Gao, Bai Chenjia2026-03-11💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

Le papier présente DCAU-Net, un cadre de segmentation d'images médicales innovant qui améliore la précision et l'efficacité grâce à une nouvelle attention croisée différentielle pour capturer les structures discriminantes et une fusion de caractéristiques canal-spatial pour intégrer adaptativement les informations sémantiques et spatiales.

Yanxin Li, Hui Wan, Libin Lan2026-03-11💻 cs

Dynamic Multimodal Expression Generation for LLM-Driven Pedagogical Agents: From User Experience Perspective

Cette étude propose une méthode de génération d'expressions multimodales pilotée par un modèle de langage pour des agents pédagogiques en réalité virtuelle, démontrant que l'alignement dynamique entre le contenu sémantique et les gestes ou la parole améliore significativement l'engagement, l'efficacité perçue et le sentiment de présence sociale des apprenants.

Ninghao Wan, Jiarun Song, Fuzheng Yang2026-03-11💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Cet article présente DynHiL-EQA, un nouveau jeu de données pour l'analyse de questions-réponses incarnées dans des environnements dynamiques, ainsi que DIVRR, un cadre d'inférence sans entraînement qui améliore la robustesse et l'efficacité en affinant les vues et en sélectionnant sélectivement la mémoire pour gérer les occlusions et les changements temporels.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong Wang2026-03-11💻 cs

GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision

Le papier présente GeoSolver, un cadre innovant qui améliore le raisonnement étape par étape dans l'interprétation de l'imagerie satellitaire en utilisant une supervision de processus granulaire et un apprentissage par renforcement pour garantir la fidélité visuelle et permettre une mise à l'échelle efficace du temps de test.

Lang Sun, Ronghao Fu, Zhuoran Duan, Haoran Liu, Xueyan Liu, Bo Yang2026-03-11💻 cs

On the Cost of Evolving Task Specialization in Multi-Robot Systems

Cette étude démontre que, dans le cadre d'un scénario de fourragement avec un budget d'évaluation limité, l'évolution de comportements spécialisés pour des sous-tâches dans des essaims de robots peut échouer à assurer une coopération efficace et se révéler moins performante que des comportements généralistes, remettant ainsi en cause l'avantage systématique de la spécialisation sans analyse coût-bénéfice approfondie.

Paolo Leopardi, Heiko Hamann, Jonas Kuckling, Tanja Katharina Kaiser2026-03-11💻 cs