Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

Le papier présente Vision-DeepResearch, un nouveau paradigme de recherche profonde multimodale qui intègre des capacités de recherche itérative multi-tours, multi-entités et multi-échelles dans les grands modèles de langage multimodaux via un entraînement par supervision et renforcement, surpassant ainsi les modèles existants et les flux de travail basés sur des modèles propriétaires avancés dans des scénarios réels bruyants.

Wenxuan Huang, Yu Zeng, Qiuchen Wang + 13 more2026-03-03🤖 cs.AI

Contribution-aware Token Compression for Efficient Video Understanding via Reinforcement Learning

Ce papier présente CaCoVID, une nouvelle méthode de compression de tokens pour la compréhension vidéo qui utilise l'apprentissage par renforcement et une optimisation combinatoire pour sélectionner dynamiquement les tokens les plus contributifs aux réponses correctes, réduisant ainsi la surcharge computationnelle sans sacrifier la performance.

Yinchao Ma, Qiang Zhou, Zhibin Wang + 4 more2026-03-03🤖 cs.AI

Single-Slice-to-3D Reconstruction in Medical Imaging and Natural Objects: A Comparative Benchmark with SAM 3D

Cette étude comparative démontre que, bien que les modèles de reconstruction 3D à partir d'une seule tranche échouent à produire des volumes précis en raison de l'ambiguïté de profondeur, SAM3D se distingue par une meilleure fidélité topologique sur des données médicales, soulignant ainsi la nécessité cruciale d'adaptations spécifiques au domaine pour des reconstructions fiables.

Yan Luo, Advaith Ravishankar, Serena Liu + 2 more2026-03-03💻 cs

Deformation-Free Cross-Domain Image Registration via Position-Encoded Temporal Attention

Ce papier présente GPEReg-Net, une méthode innovante d'enregistrement d'images inter-domaines qui élimine l'estimation explicite des champs de déformation en factorisant les images via une attention temporelle positionnée et la normalisation d'instance adaptative, surpassant ainsi les méthodes existantes en précision et en vitesse sur des benchmarks réels et synthétiques.

Yiwen Wang, Jiahao Qin2026-03-03🤖 cs.AI

Prefer-DAS: Learning from Local Preferences and Sparse Prompts for Domain Adaptive Segmentation of Electron Microscopy

Le papier présente Prefer-DAS, une méthode innovante de segmentation adaptative pour la microscopie électronique qui intègre des prompts épars et des préférences humaines locales via des mécanismes d'optimisation de préférence pour surpasser les approches existantes tout en réduisant considérablement le besoin d'annotations.

Jiabao Chen, Shan Xiong, Jialin Peng2026-03-03💻 cs

Hepato-LLaVA: An Expert MLLM with Sparse Topo-Pack Attention for Hepatocellular Pathology Analysis on Whole Slide Images

Les auteurs proposent Hepato-LLaVA, un modèle multimodal spécialisé pour l'analyse des images de lésions hépatocellulaires à l'échelle de la lame entière, qui intègre un mécanisme d'attention topologique parcimonieux et un nouveau jeu de données clinique pour surmonter les limitations des approches actuelles en diagnostic du carcinome hépatocellulaire.

Yuxuan Yang, Zhonghao Yan, Yi Zhang + 6 more2026-03-03💻 cs

Leveraging Causal Reasoning Method for Explaining Medical Image Segmentation Models

Ce papier propose une méthode d'explication pour les modèles de segmentation d'images médicales basée sur le raisonnement causal, qui quantifie l'influence des régions d'entrée et des composants du réseau via l'effet moyen de traitement, démontrant ainsi une plus grande fidélité que les techniques existantes et révélant des hétérogénéités dans les stratégies perceptives des modèles.

Limai Jiang, Ruitao Xie, Bokai Yang + 6 more2026-03-03💻 cs