AlignVAR: Towards Globally Consistent Visual Autoregression for Image Super-Resolution

Le papier présente AlignVAR, un cadre d'autorégression visuelle globalement cohérent pour la super-résolution d'images qui surmonte les limites de cohérence globale des modèles existants grâce à une autorégression de cohérence spatiale et une contrainte de cohérence hiérarchique, offrant ainsi une reconstruction structurelle supérieure avec une inférence nettement plus rapide et moins de paramètres que les approches basées sur la diffusion.

Cencen Liu, Dongyang Zhang, Wen Yin + 6 more2026-03-06💻 cs

Gated Differential Linear Attention: A Linear-Time Decoder for High-Fidelity Medical Segmentation

Le papier présente PVT-GDLA, un décodeur Transformer innovant intégrant une attention linéaire différentielle à porte pour réaliser une segmentation médicale haute fidélité avec une complexité linéaire, surmontant ainsi les compromis entre précision des contours, efficacité computationnelle et stabilité de l'entraînement.

Hongbo Zheng, Afshin Bozorgpour, Dorit Merhof + 1 more2026-03-06💻 cs

IoUCert: Robustness Verification for Anchor-based Object Detectors

Ce papier présente IoUCert, un cadre de vérification formelle innovant qui permet pour la première fois de garantir la robustesse de détecteurs d'objets ancrés réalistes, tels que SSD et YOLO, en contournant les limitations des relaxations non linéaires grâce à une transformation de coordonnées et une propagation de bornes par intervalles optimisée pour les métriques d'IoU.

Benedikt Brückner, Alejandro J. Mercado, Yanghao Zhang, Panagiotis Kouvaros, Alessio Lomuscio2026-03-06🔒 cs.CR

DMD-augmented Unpaired Neural Schrödinger Bridge for Ultra-Low Field MRI Enhancement

Les auteurs proposent un cadre de traduction non apparié basé sur le pont de Schrödinger neuronal, enrichi par une correspondance de distribution guidée par diffusion et une régularisation de préservation anatomique, pour améliorer la qualité et le réalisme des images IRM cérébrales à très bas champ (64 mT) en les rapprochant de celles à 3 T.

Youngmin Kim, Jaeyun Shin, Jeongchan Kim + 5 more2026-03-06💻 cs

TumorFlow: Physics-Guided Longitudinal MRI Synthesis of Glioblastoma Growth

Ce papier présente TumorFlow, un cadre génératif guidé par la physique capable de synthétiser des séquences d'IRM cérébrale 3D longitudinales réalistes pour le glioblastome, en combinant des modèles de croissance biophysique et des réseaux génératifs pour visualiser la progression tumorale et générer des données synthétiques contrôlées.

Valentin Biller, Niklas Bubeck, Lucas Zimmer + 6 more2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

Cet article propose le cadre « Dual Tuning » pour quantifier les gains du raisonnement dans les tâches multimodales et définir une « frontière de pensée » qui détermine quand l'entraînement au raisonnement est bénéfique, remettant ainsi en question le paradigme du raisonnement universel et guidant le développement de systèmes adaptatifs plus efficaces.

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

Recognition of Daily Activities through Multi-Modal Deep Learning: A Video, Pose, and Object-Aware Approach for Ambient Assisted Living

Cet article propose une approche d'apprentissage profond multi-modal intégrant des réseaux de neurones 3D pour la vidéo et la pose, ainsi qu'un mécanisme d'attention croisée pour les objets, afin d'améliorer la reconnaissance des activités quotidiennes des personnes âgées dans le cadre de la vie assistée ambiante.

Kooshan Hashemifard, Pau Climent-Pérez, Francisco Florez-Revuelta2026-03-06💻 cs

InverseNet: Benchmarking Operator Mismatch and Calibration Across Compressive Imaging Modalities

Ce papier présente InverseNet, le premier benchmark intermodalité évaluant l'impact du décalage entre les opérateurs théoriques et réels en imagerie compressive, révélant que les méthodes d'apprentissage profond perdent leur avantage face aux bases classiques en cas de désaccord et démontrant que l'adaptation aux opérateurs est cruciale pour la robustesse et la calibration aveugle.

Chengshuai Yang, Xin Yuan2026-03-06💻 cs