SurgFormer: Scalable Learning of Organ Deformation with Resection Support and Real-Time Inference

Le papier présente SurgFormer, un transformateur multirésolution à portes conçu pour simuler en temps réel la déformation des tissus mous et les résections chirurgicales sur des maillages volumétriques grâce à un apprentissage supervisé par XFEM.

Ashkan Shahbazi, Elaheh Akbari, Kyvia Pereira, Jon S. Heiselman, Annie C. Benson, Garrison L. H. Johnston, Jie Ying Wu, Nabil Simaan, Michael I. Miga, Soheil Kolouri2026-03-09💻 cs

EgoReasoner: Learning Egocentric 4D Reasoning via Task-Adaptive Structured Thinking

Le papier présente EgoReasoner, un cadre en deux étapes qui aligne les structures de raisonnement et les signaux de récompense sur les spécificités cognitives de différentes tâches de raisonnement 4D en vidéo egocentrique, permettant à un modèle de 3 milliards de paramètres d'atteindre des performances supérieures à celles de modèles plus grands sur le benchmark HD-EPIC.

Fangrui Zhu, Yunfeng Xi, Jianmo Ni, Mu Cai, Boqing Gong, Long Zhao, Chen Qu, Ian Miao, Yi Li, Cheng Zhong, Huaizu Jiang, Shwetak Patel2026-03-09💻 cs

Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

Le papier présente Penguin-VL, une architecture de modèle vision-langage compacte qui remplace les encodeurs visuels pré-entraînés par contraste traditionnels par un encodeur initialisé à partir d'un grand modèle de langage textuel, démontrant ainsi qu'une meilleure représentation visuelle permet d'atteindre des performances supérieures à celles des modèles plus volumineux sur des tâches complexes tout en étant adaptée aux dispositifs à ressources limitées.

Boqiang Zhang, Lei Ke, Ruihan Yang, Qi Gao, Tianyuan Qu, Rossell Chen, Dong Yu, Leoweiliang2026-03-09💻 cs

SUREON: A Benchmark and Vision-Language-Model for Surgical Reasoning

Le papier présente SUREON, un vaste ensemble de données et deux modèles de vision-langage qui exploitent les narrations pédagogiques issues de vidéos chirurgicales pour doter l'IA d'une capacité de raisonnement chirurgical, surpassant ainsi les modèles généraux existants sur des tâches de sécurité, de justification de décision et de prévision.

Alejandra Perez, Anita Rau, Lee White, Busisiwe Mlambo, Chinedu Nwoye, Muhammad Abdullah Jamal, Omid Mohareri2026-03-09🤖 cs.AI

SCOPE: Scene-Contextualized Incremental Few-Shot 3D Segmentation

Le papier présente SCOPE, un cadre plug-and-play qui améliore la segmentation 3D few-shot incrémentale en enrichissant les prototypes de nouvelles classes avec des informations contextuelles issues des régions d'arrière-plan non étiquetées, atteignant ainsi des performances de pointe sur les jeux de données ScanNet et S3DIS tout en minimisant l'oubli catastrophique.

Vishal Thengane, Zhaochong An, Tianjin Huang, Son Lam Phung, Abdesselam Bouzerdoum, Lu Yin, Na Zhao, Xiatian Zhu2026-03-09🤖 cs.LG

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Le papier présente Omni-Diffusion, le premier modèle de langage multimodal universel entièrement basé sur un processus de diffusion discrète masquée, qui unifie la compréhension et la génération de texte, de parole et d'images en capturant directement la distribution conjointe de leurs tokens discrets.

Lijiang Li, Zuwei Long, Yunhang Shen, Heting Gao, Haoyu Cao, Xing Sun, Caifeng Shan, Ran He, Chaoyou Fu2026-03-09💻 cs

Multimodal Large Language Models as Image Classifiers

Cette étude démontre que les performances apparentes inférieures des modèles de langage multimodaux en classification d'images sont principalement dues à des protocoles d'évaluation défectueux et à un bruit dans les données de référence, et non à une véritable déficience des modèles, dont la qualité s'améliore considérablement avec des annotations corrigées.

Nikita Kisel, Illia Volkov, Klara Janouskova, Jiri Matas2026-03-09💻 cs

Seeing Through Uncertainty: A Free-Energy Approach for Real-Time Perceptual Adaptation in Robust Visual Navigation

Cet article présente FEP-Nav, un cadre d'inspiration biologique qui utilise le principe de l'énergie libre pour permettre une adaptation perceptive en temps réel et assurer une navigation visuelle robuste face à des perturbations sensorielles, en minimisant l'énergie variationnelle libre sans recourir à des mises à jour par gradient.

Maytus Piriyajitakonkij, Rishabh Dev Yadav, Mingfei Sun + 2 more2026-03-06💻 cs

InstructHumans: Editing Animated 3D Human Textures with Instructions

Le papier présente InstructHumans, un cadre innovant pour l'édition de textures 3D d'humains animables via des instructions, qui améliore les méthodes existantes en introduisant une version modifiée de l'échantillonnage de distillation de score (SDS-E) pour garantir la cohérence avec l'avatar source tout en permettant des modifications textuelles fidèles et détaillées.

Jiayin Zhu, Linlin Yang, Angela Yao2026-03-06💻 cs