Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

Le papier présente Penguin-VL, une architecture de modèle vision-langage compacte qui remplace les encodeurs visuels pré-entraînés par contraste traditionnels par un encodeur initialisé à partir d'un grand modèle de langage textuel, démontrant ainsi qu'une meilleure représentation visuelle permet d'atteindre des performances supérieures à celles des modèles plus volumineux sur des tâches complexes tout en étant adaptée aux dispositifs à ressources limitées.

Boqiang Zhang, Lei Ke, Ruihan Yang, Qi Gao, Tianyuan Qu, Rossell Chen, Dong Yu, Leoweiliang2026-03-09💻 cs

SUREON: A Benchmark and Vision-Language-Model for Surgical Reasoning

Le papier présente SUREON, un vaste ensemble de données et deux modèles de vision-langage qui exploitent les narrations pédagogiques issues de vidéos chirurgicales pour doter l'IA d'une capacité de raisonnement chirurgical, surpassant ainsi les modèles généraux existants sur des tâches de sécurité, de justification de décision et de prévision.

Alejandra Perez, Anita Rau, Lee White, Busisiwe Mlambo, Chinedu Nwoye, Muhammad Abdullah Jamal, Omid Mohareri2026-03-09🤖 cs.AI

SCOPE: Scene-Contextualized Incremental Few-Shot 3D Segmentation

Le papier présente SCOPE, un cadre plug-and-play qui améliore la segmentation 3D few-shot incrémentale en enrichissant les prototypes de nouvelles classes avec des informations contextuelles issues des régions d'arrière-plan non étiquetées, atteignant ainsi des performances de pointe sur les jeux de données ScanNet et S3DIS tout en minimisant l'oubli catastrophique.

Vishal Thengane, Zhaochong An, Tianjin Huang, Son Lam Phung, Abdesselam Bouzerdoum, Lu Yin, Na Zhao, Xiatian Zhu2026-03-09🤖 cs.LG

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Le papier présente Omni-Diffusion, le premier modèle de langage multimodal universel entièrement basé sur un processus de diffusion discrète masquée, qui unifie la compréhension et la génération de texte, de parole et d'images en capturant directement la distribution conjointe de leurs tokens discrets.

Lijiang Li, Zuwei Long, Yunhang Shen, Heting Gao, Haoyu Cao, Xing Sun, Caifeng Shan, Ran He, Chaoyou Fu2026-03-09💻 cs

Multimodal Large Language Models as Image Classifiers

Cette étude démontre que les performances apparentes inférieures des modèles de langage multimodaux en classification d'images sont principalement dues à des protocoles d'évaluation défectueux et à un bruit dans les données de référence, et non à une véritable déficience des modèles, dont la qualité s'améliore considérablement avec des annotations corrigées.

Nikita Kisel, Illia Volkov, Klara Janouskova, Jiri Matas2026-03-09💻 cs

Seeing Through Uncertainty: A Free-Energy Approach for Real-Time Perceptual Adaptation in Robust Visual Navigation

Cet article présente FEP-Nav, un cadre d'inspiration biologique qui utilise le principe de l'énergie libre pour permettre une adaptation perceptive en temps réel et assurer une navigation visuelle robuste face à des perturbations sensorielles, en minimisant l'énergie variationnelle libre sans recourir à des mises à jour par gradient.

Maytus Piriyajitakonkij, Rishabh Dev Yadav, Mingfei Sun + 2 more2026-03-06💻 cs

InstructHumans: Editing Animated 3D Human Textures with Instructions

Le papier présente InstructHumans, un cadre innovant pour l'édition de textures 3D d'humains animables via des instructions, qui améliore les méthodes existantes en introduisant une version modifiée de l'échantillonnage de distillation de score (SDS-E) pour garantir la cohérence avec l'avatar source tout en permettant des modifications textuelles fidèles et détaillées.

Jiayin Zhu, Linlin Yang, Angela Yao2026-03-06💻 cs

3D Dynamics-Aware Manipulation: Endowing Manipulation Policies with 3D Foresight

Cet article propose un cadre de manipulation 3D dynamique qui intègre la modélisation du monde en 3D et des tâches d'apprentissage auto-supervisé pour doter les politiques de manipulation d'une « prévoyance 3D », améliorant ainsi considérablement leurs performances dans des tâches impliquant des mouvements en profondeur sans compromettre la vitesse d'inférence.

Yuxin He, Ruihao Zhang, Xianzu Wu + 3 more2026-03-06💻 cs

MedFuncta: A Unified Framework for Learning Efficient Medical Neural Fields

Le papier présente MedFuncta, un cadre unifié permettant l'entraînement à grande échelle de champs neuronaux sur des données médicales via une représentation latente partagée, des améliorations théoriques des activations SIREN et une stratégie d'apprentissage méta efficace, tout en libérant le code et le premier jeu de données à grande échelle dédié, MedNF.

Paul Friedrich, Florentin Bieder, Julian McGinnis + 3 more2026-03-06💻 cs

Noise2Ghost: Self-supervised deep convolutional reconstruction for ghost imaging

Ce papier présente Noise2Ghost, une nouvelle méthode d'imagerie fantôme auto-supervisée basée sur l'apprentissage profond qui permet une reconstruction de haute qualité avec réduction du bruit sans nécessiter de données de référence propres, rendant ainsi possible l'imagerie à faible luminosité pour des applications sensibles comme l'imagerie par fluorescence X in vivo.

Mathieu Manni, Dmitry Karpov, K. Joost Batenburg + 2 more2026-03-06🔬 physics

PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing

Le papier présente PhysLLM, un cadre d'optimisation collaborative qui intègre des modèles de langage à grande échelle avec des composants spécifiques à la photopléthysmographie à distance pour surmonter les défis de l'éclairage et du mouvement grâce à des stratégies d'alignement sémantique et de rééquilibrage adaptatif, atteignant ainsi des performances de pointe sur plusieurs jeux de données.

Yiping Xie, Bo Zhao, Mingtong Dai + 6 more2026-03-06💻 cs