Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation

Le papier présente Pri4R, une méthode simple et efficace qui améliore les modèles Vision-Language-Action en leur apprenant implicitement la dynamique du monde via l'entraînement sur des trajectoires de points 3D privilégiées, sans ajouter de surcoût computationnel ni modifier l'architecture lors de l'inférence.

Jisoo Kim, Jungbin Cho, Sanghyeok Chu, Ananya Bal, Jinhyung Kim, Gunhee Lee, Sihaeng Lee, Seung Hwan Kim, Bohyung Han, Hyunmin Lee, Laszlo A. Jeni, Seungryong Kim2026-03-11🤖 cs.AI

Granulon: Awakening Pixel-Level Visual Encoders with Adaptive Multi-Granularity Semantics for MLLM

Le papier présente Granulon, un nouveau modèle multimodal fondé sur DINOv3 qui surpasse les approches existantes en améliorant la précision et en réduisant les hallucinations grâce à un contrôle adaptatif de la granularité visuelle permettant un raisonnement unifié allant du pixel aux concepts globaux.

Junyuan Mao, Qiankun Li, Linghao Meng, Zhicheng He, Xinliang Zhou, Kun Wang, Yang Liu, Yueming Jin2026-03-11💻 cs

VisionCreator-R1: A Reflection-Enhanced Native Visual-Generation Agentic Model

Le papier présente VisionCreator-R1, un agent natif de génération visuelle doté d'un mécanisme de réflexion explicite et entraîné via une méthode d'optimisation conjointe plan-réflexion (RPCO) qui surpasse Gemini2.5Pro sur des tâches de génération d'images uniques et multiples.

Jinxiang Lai, Wenzhe Zhao, Zexin Lu, Hualei Zhang, Qinyu Yang, Rongwei Quan, Zhimin Li, Shuai Shao, Song Guo, Qinglin Lu2026-03-11💻 cs

Comparative Analysis of Patch Attack on VLM-Based Autonomous Driving Architectures

Cet article présente une évaluation comparative systématique des vulnérabilités aux attaques par patch physique de trois architectures de modèles vision-langage pour la conduite autonome, révélant que ces systèmes actuels sont gravement fragiles face à des menaces adverses dans des environnements réalistes.

David Fernandez, Pedram MohajerAnsari, Amir Salarpour, Long Cheng, Abolfazl Razi, Mert D. Pesé2026-03-11💻 cs

Multi-Kernel Gated Decoder Adapters for Robust Multi-Task Thyroid Ultrasound under Cross-Center Shift

Cet article propose une famille d'adaptateurs légers côté décodeur, les MKGA, qui améliorent la robustesse des modèles d'automatisation des ultrasons thyroïdiens face aux décalages entre centres en exploitant des champs récepteurs complémentaires et un mécanisme de filtrage sémantique pour atténuer les interférences négatives entre la segmentation et l'évaluation du risque de malignité.

Maziar Sabouri, Nourhan Bayasi, Arman Rahmim2026-03-11🔬 physics

Vision-Language Models Encode Clinical Guidelines for Concept-Based Medical Reasoning

Le papier présente MedCBR, un cadre de raisonnement basé sur des concepts qui intègre les directives cliniques aux modèles vision-langage pour améliorer l'interprétabilité et la fiabilité des diagnostics médicaux en générant des narratifs cliniques structurés.

Mohamed Harmanani, Bining Long, Zhuoxin Guo, Paul F. R. Wilson, Amirhossein Sabour, Minh Nguyen Nhat To, Gabor Fichtinger, Purang Abolmaesumi, Parvin Mousavi2026-03-11🤖 cs.LG

TIDE: Text-Informed Dynamic Extrapolation with Step-Aware Temperature Control for Diffusion Transformers

Le papier présente TIDE, une méthode d'extrapolation sans entraînement pour les Transformers de diffusion qui permet de générer des images à des résolutions et des ratios d'aspect arbitraires en corrigeant le déséquilibre entre les jetons de texte et d'image via un mécanisme d'ancrage textuel et en éliminant les artefacts grâce à un contrôle dynamique de la température.

Yihua Liu, Fanjiang Ye, Bowen Lin, Rongyu Fang, Chengming Zhang2026-03-11💻 cs

Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

Cette étude présente un nouveau cadre utilisant des modèles de vision-langage fondationnels pour générer automatiquement des configurations de simulation de plantes à partir d'images de drones, offrant ainsi une solution évolutive pour la création de jumeaux numériques agricoles.

Heesup Yun, Isaac Kazuo Uyehara, Earl Ranario, Lars Lundqvist, Christine H. Diepenbrock, Brian N. Bailey, J. Mason Earles2026-03-11🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

Le papier présente PathoScribe, un cadre unifié piloté par un grand modèle de langage (LLM) qui transforme les archives de pathologie statiques en une bibliothèque vivante et intelligente, permettant la recherche sémantique, la construction automatisée de cohortes et l'aide au diagnostic clinique avec une précision et une efficacité supérieures aux méthodes traditionnelles.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan Niazi2026-03-11🤖 cs.AI

Can You Hear, Localize, and Segment Continually? An Exemplar-Free Continual Learning Benchmark for Audio-Visual Segmentation

Cet article présente le premier benchmark d'apprentissage continu sans exemples pour la segmentation audio-visuelle, accompagné de la méthode ATLAS qui intègre un conditionnement pré-fusion guidé par l'audio et une ancrage de faible rang pour atténuer l'oubli catastrophique dans des environnements dynamiques.

Siddeshwar Raghavan, Gautham Vinod, Bruce Coburn, Fengqing Zhu2026-03-11⚡ eess

SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing

Le papier présente SVG-EAR, une méthode sans paramètres qui améliore l'efficacité de la génération vidéo par diffusion via un routage conscient de l'erreur et une compensation linéaire basée sur des centroïdes, permettant d'accélérer considérablement l'inférence tout en préservant la qualité visuelle.

Xuanyi Zhou, Qiuyang Mang, Shuo Yang, Haocheng Xi, Jintao Zhang, Huanzhi Mao, Joseph E. Gonzalez, Kurt Keutzer, Ion Stoica, Alvin Cheung2026-03-11💻 cs

SurgCalib: Gaussian Splatting-Based Hand-Eye Calibration for Robot-Assisted Minimally Invasive Surgery

Le papier présente SurgCalib, un cadre de calibration main-œil sans marqueur basé sur le Gaussian Splatting pour les robots chirurgicaux da Vinci, qui surmonte les imprécisions des encodeurs et les contraintes de stérilité en affinant la pose de l'instrument via une optimisation différentiable sous contrainte RCM.

Zijian Wu, Shuojue Yang, Yu Chung Lee, Eitan Prisman, Yueming Jin, Septimiu E. Salcudean2026-03-11💻 cs