Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models

Ce papier propose un cadre d'inférence adaptatif pour les modèles Vision-Language-Action qui, en analysant la complexité de l'état perçu via des embeddings visuels, permet de décider dynamiquement d'agir immédiatement, de raisonner sur des scénarios ambigus ou de s'abstenir d'agir pour éviter les échecs catastrophiques, optimisant ainsi l'allocation des ressources computationnelles.

Riccardo Andrea Izzo, Gianluca Bardaro, Matteo Matteucci2026-03-06💻 cs

Semantic Class Distribution Learning for Debiasing Semi-Supervised Medical Image Segmentation

Cet article propose le cadre SCDL, une méthode plug-and-play qui atténue les biais de supervision et de représentation dans la segmentation d'images médicales semi-supervisée en apprenant des distributions de caractéristiques conditionnelles aux classes, améliorant ainsi significativement la détection des structures minoritaires sur les jeux de données Synapse et AMOS.

Yingxue Su, Yiheng Zhong, Keying Zhu + 5 more2026-03-06💻 cs

ICHOR: A Robust Representation Learning Approach for ASL CBF Maps with Self-Supervised Masked Autoencoders

Ce papier présente ICHOR, une approche d'apprentissage auto-supervisé basée sur des auto-encodeurs masqués 3D et entraînée sur un vaste ensemble de données multi-sites, qui permet d'obtenir des représentations robustes pour les cartes de débit sanguin cérébral en IRM de perfusion par marquage de spin artériel (ASL) et surpasse les méthodes existantes dans diverses tâches diagnostiques et de prédiction de qualité.

Xavier Beltran-Urbano, Yiran Li, Xinglin Zeng + 10 more2026-03-06🔬 physics

Layer by layer, module by module: Choose both for optimal OOD probing of ViT

Cette étude démontre que pour optimiser la détection hors distribution dans les Vision Transformers, il est préférable de combiner l'analyse des couches intermédiaires et des modules spécifiques, en privilégiant les activations du réseau feed-forward lors de forts décalages de distribution et les sorties normalisées de l'attention multi-têtes lorsque le décalage est faible.

Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel + 2 more2026-03-06🤖 cs.LG

WebChain: A Large-Scale Human-Annotated Dataset of Real-World Web Interaction Traces

Le papier présente WebChain, le plus grand ensemble de données open-source de traces d'interaction web annotées par des humains, qui permet d'entraîner des agents web performants grâce à une alignement triple des données visuelles, structurelles et d'action, ainsi qu'à une méthode d'entraînement dual décorrélant l'ancrage spatial de la planification.

Sicheng Fan, Rui Wan, Yifei Leng + 4 more2026-03-06🤖 cs.AI

Fusion4CA: Boosting 3D Object Detection via Comprehensive Image Exploitation

Le papier présente Fusion4CA, une méthode de détection d'objets 3D qui améliore le cadre BEVFusion en exploitant pleinement les données RGB via des modules d'alignement contrastif, une branche auxiliaire et des adaptateurs cognitifs, permettant d'atteindre une performance supérieure avec moins d'époques d'entraînement et une augmentation minimale des paramètres.

Kang Luo, Xin Chen, Yangyi Xiao + 1 more2026-03-06💻 cs