IoUCert: Robustness Verification for Anchor-based Object Detectors

Ce papier présente IoUCert, un cadre de vérification formelle innovant qui permet pour la première fois de garantir la robustesse de détecteurs d'objets ancrés réalistes, tels que SSD et YOLO, en contournant les limitations des relaxations non linéaires grâce à une transformation de coordonnées et une propagation de bornes par intervalles optimisée pour les métriques d'IoU.

Benedikt Brückner, Alejandro J. Mercado, Yanghao Zhang, Panagiotis Kouvaros, Alessio Lomuscio2026-03-06🔒 cs.CR

DMD-augmented Unpaired Neural Schrödinger Bridge for Ultra-Low Field MRI Enhancement

Les auteurs proposent un cadre de traduction non apparié basé sur le pont de Schrödinger neuronal, enrichi par une correspondance de distribution guidée par diffusion et une régularisation de préservation anatomique, pour améliorer la qualité et le réalisme des images IRM cérébrales à très bas champ (64 mT) en les rapprochant de celles à 3 T.

Youngmin Kim, Jaeyun Shin, Jeongchan Kim + 5 more2026-03-06💻 cs

TumorFlow: Physics-Guided Longitudinal MRI Synthesis of Glioblastoma Growth

Ce papier présente TumorFlow, un cadre génératif guidé par la physique capable de synthétiser des séquences d'IRM cérébrale 3D longitudinales réalistes pour le glioblastome, en combinant des modèles de croissance biophysique et des réseaux génératifs pour visualiser la progression tumorale et générer des données synthétiques contrôlées.

Valentin Biller, Niklas Bubeck, Lucas Zimmer + 6 more2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

Cet article propose le cadre « Dual Tuning » pour quantifier les gains du raisonnement dans les tâches multimodales et définir une « frontière de pensée » qui détermine quand l'entraînement au raisonnement est bénéfique, remettant ainsi en question le paradigme du raisonnement universel et guidant le développement de systèmes adaptatifs plus efficaces.

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

Recognition of Daily Activities through Multi-Modal Deep Learning: A Video, Pose, and Object-Aware Approach for Ambient Assisted Living

Cet article propose une approche d'apprentissage profond multi-modal intégrant des réseaux de neurones 3D pour la vidéo et la pose, ainsi qu'un mécanisme d'attention croisée pour les objets, afin d'améliorer la reconnaissance des activités quotidiennes des personnes âgées dans le cadre de la vie assistée ambiante.

Kooshan Hashemifard, Pau Climent-Pérez, Francisco Florez-Revuelta2026-03-06💻 cs

InverseNet: Benchmarking Operator Mismatch and Calibration Across Compressive Imaging Modalities

Ce papier présente InverseNet, le premier benchmark intermodalité évaluant l'impact du décalage entre les opérateurs théoriques et réels en imagerie compressive, révélant que les méthodes d'apprentissage profond perdent leur avantage face aux bases classiques en cas de désaccord et démontrant que l'adaptation aux opérateurs est cruciale pour la robustesse et la calibration aveugle.

Chengshuai Yang, Xin Yuan2026-03-06💻 cs

Fusion and Grouping Strategies in Deep Learning for Local Climate Zone Classification of Multimodal Remote Sensing Data

Cette étude analyse diverses stratégies de fusion et de regroupement dans des modèles d'apprentissage profond pour la classification des zones climatiques locales à partir de données de télédétection multimodales, démontrant que l'approche hybride de base combinée au regroupement des bandes et à la fusion des étiquettes atteint la meilleure précision globale de 76,6 % sur le jeu de données So2Sat LCZ42.

Ancymol Thomas, Jaya Sreevalsan-Nair2026-03-06💻 cs

Structure-Guided Histopathology Synthesis via Dual-LoRA Diffusion

Cet article propose un cadre de diffusion unifié nommé Dual-LoRA Controllable Diffusion, qui utilise des priorités spatiales légères sous forme de centroïdes de noyaux et des adaptateurs LoRA spécialisés pour réaliser simultanément la complétion de structures locales et la synthèse globale d'images d'histopathologie, surpassant ainsi les méthodes existantes en termes de fidélité structurelle et de réalisme morphologique.

Xuan Xu, Prateek Prasanna2026-03-06💻 cs

Mask-aware inference with State-Space Models

Ce papier présente le Partial Vision Mamba (PVM), une nouvelle composante architecturale qui adapte les principes des convolutions partielles aux modèles à espace d'état comme Mamba, permettant ainsi de traiter efficacement des données d'entrée comportant des régions invalides arbitraires pour des tâches telles que la complétion de profondeur, l'inpainting d'images et la classification.

Ignasi Mas, Ramon Morros, Javier-Ruiz Hidalgo + 1 more2026-03-06💻 cs

PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing

Le papier présente PinPoint, un benchmark complet pour l'analyse d'images composé (CIR) intégrant des réponses multiples, des négatifs explicites et des paraphrases, qui révèle des lacunes significatives dans les méthodes actuelles et propose une méthode de réordonnancement basée sur un MLLM pour les améliorer.

Rohan Mahadev, Joyce Yuan, Patrick Poirson + 3 more2026-03-06💻 cs

Spinverse: Differentiable Physics for Permeability-Aware Microstructure Reconstruction from Diffusion MRI

Spinverse est une méthode de reconstruction microstructurale pour l'IRM de diffusion qui utilise un simulateur de Bloch-Torrey entièrement différentiable pour inverser les mesures en optimisant les perméabilités des faces d'un maillage tétraédrique, permettant ainsi de découvrir des interfaces tissulaires explicites et perméables sans fixer leur topologie à l'avance.

Prathamesh Pradeep Khole, Mario M. Brenes, Zahra Kais Petiwala + 5 more2026-03-06💻 cs