cs.CV articles | Gist.Science

IoUCert: Robustness Verification for Anchor-based Object Detectors

Ce papier présente IoUCert, un cadre de vérification formelle innovant qui permet pour la première fois de garantir la robustesse de détecteurs d'objets ancrés réalistes, tels que SSD et YOLO, en contournant les limitations des relaxations non linéaires grâce à une transformation de coordonnées et une propagation de bornes par intervalles optimisée pour les métriques d'IoU.

Benedikt Brückner, Alejandro J. Mercado, Yanghao Zhang, Panagiotis Kouvaros, Alessio Lomuscio2026-03-06🔒 cs.CR

DMD-augmented Unpaired Neural Schrödinger Bridge for Ultra-Low Field MRI Enhancement

Les auteurs proposent un cadre de traduction non apparié basé sur le pont de Schrödinger neuronal, enrichi par une correspondance de distribution guidée par diffusion et une régularisation de préservation anatomique, pour améliorer la qualité et le réalisme des images IRM cérébrales à très bas champ (64 mT) en les rapprochant de celles à 3 T.

Youngmin Kim, Jaeyun Shin, Jeongchan Kim + 5 more2026-03-06💻 cs

TumorFlow: Physics-Guided Longitudinal MRI Synthesis of Glioblastoma Growth

Ce papier présente TumorFlow, un cadre génératif guidé par la physique capable de synthétiser des séquences d'IRM cérébrale 3D longitudinales réalistes pour le glioblastome, en combinant des modèles de croissance biophysique et des réseaux génératifs pour visualiser la progression tumorale et générer des données synthétiques contrôlées.

Valentin Biller, Niklas Bubeck, Lucas Zimmer + 6 more2026-03-06💻 cs

NOVA3R: Non-pixel-aligned Visual Transformer for Amodal 3D Reconstruction

NOVA3R est une approche feed-forward innovante qui réalise une reconstruction 3D amodale complète et physiquement plausible à partir d'images non positionnées en apprenant une représentation de scène globale et découplée de l'alignement pixel, surpassant ainsi les méthodes d'état de l'art en précision et en complétude.

Weirong Chen, Chuanxia Zheng, Ganlin Zhang + 2 more2026-03-06💻 cs

A Unified Framework for Joint Detection of Lacunes and Enlarged Perivascular Spaces

Cet article propose un cadre unifié à base d'attention croisée initialisée à zéro et de contraintes topologiques pour améliorer la détection conjointe des lacunes et des espaces périvasculaires dilatés, surpassant les performances actuelles sur les jeux de données VALDO et EPAD grâce à une calibration anatomique réduisant les faux positifs.

Lucas He, Krinos Li, Hanyuan Zhang + 7 more2026-03-06💻 cs

Gaussian Wardrobe: Compositional 3D Gaussian Avatars for Free-Form Virtual Try-On

Le papier présente « Gaussian Wardrobe », un cadre novateur qui utilise une représentation 3D compositionnelle pour séparer le corps des vêtements dans des avatars neuronaux, permettant ainsi une synthèse de poses réalistes et un essayage virtuel libre où les vêtements peuvent être transférés sur de nouveaux sujets.

Zhiyi Chen, Hsuan-I Ho, Tianjian Jiang + 3 more2026-03-06💻 cs

Lost in Translation: How Language Re-Aligns Vision for Cross-Species Pathology

Cette étude démontre que l'alignement linguistique, via une méthode novatrice appelée « Semantic Anchoring », permet de surmonter l'effondrement sémantique et d'améliorer la généralisation des modèles de fondation en pathologie computationnelle entre les espèces et les types de cancer, en réorientant les caractéristiques visuelles sans nécessiter de réentraînement complet.

Ekansh Arora2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

Cet article propose le cadre « Dual Tuning » pour quantifier les gains du raisonnement dans les tâches multimodales et définir une « frontière de pensée » qui détermine quand l'entraînement au raisonnement est bénéfique, remettant ainsi en question le paradigme du raisonnement universel et guidant le développement de systèmes adaptatifs plus efficaces.

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

SkillNet: Create, Evaluate, and Connect AI Skills

Le papier présente SkillNet, une infrastructure open-source qui permet de créer, évaluer et connecter des compétences d'IA à grande échelle via une ontologie unifiée, améliorant ainsi significativement les performances des agents en évitant la redécouverte constante de solutions.

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed ⓘ💻 cs

Recognition of Daily Activities through Multi-Modal Deep Learning: A Video, Pose, and Object-Aware Approach for Ambient Assisted Living

Cet article propose une approche d'apprentissage profond multi-modal intégrant des réseaux de neurones 3D pour la vidéo et la pose, ainsi qu'un mécanisme d'attention croisée pour les objets, afin d'améliorer la reconnaissance des activités quotidiennes des personnes âgées dans le cadre de la vie assistée ambiante.

Kooshan Hashemifard, Pau Climent-Pérez, Francisco Florez-Revuelta2026-03-06💻 cs

InverseNet: Benchmarking Operator Mismatch and Calibration Across Compressive Imaging Modalities

Ce papier présente InverseNet, le premier benchmark intermodalité évaluant l'impact du décalage entre les opérateurs théoriques et réels en imagerie compressive, révélant que les méthodes d'apprentissage profond perdent leur avantage face aux bases classiques en cas de désaccord et démontrant que l'adaptation aux opérateurs est cruciale pour la robustesse et la calibration aveugle.

Chengshuai Yang, Xin Yuan2026-03-06💻 cs

Fusion and Grouping Strategies in Deep Learning for Local Climate Zone Classification of Multimodal Remote Sensing Data

Cette étude analyse diverses stratégies de fusion et de regroupement dans des modèles d'apprentissage profond pour la classification des zones climatiques locales à partir de données de télédétection multimodales, démontrant que l'approche hybride de base combinée au regroupement des bandes et à la fusion des étiquettes atteint la meilleure précision globale de 76,6 % sur le jeu de données So2Sat LCZ42.

Ancymol Thomas, Jaya Sreevalsan-Nair2026-03-06💻 cs

Structure-Guided Histopathology Synthesis via Dual-LoRA Diffusion

Cet article propose un cadre de diffusion unifié nommé Dual-LoRA Controllable Diffusion, qui utilise des priorités spatiales légères sous forme de centroïdes de noyaux et des adaptateurs LoRA spécialisés pour réaliser simultanément la complétion de structures locales et la synthèse globale d'images d'histopathologie, surpassant ainsi les méthodes existantes en termes de fidélité structurelle et de réalisme morphologique.

Xuan Xu, Prateek Prasanna2026-03-06💻 cs

Mask-aware inference with State-Space Models

Ce papier présente le Partial Vision Mamba (PVM), une nouvelle composante architecturale qui adapte les principes des convolutions partielles aux modèles à espace d'état comme Mamba, permettant ainsi de traiter efficacement des données d'entrée comportant des régions invalides arbitraires pour des tâches telles que la complétion de profondeur, l'inpainting d'images et la classification.

Ignasi Mas, Ramon Morros, Javier-Ruiz Hidalgo + 1 more2026-03-06💻 cs

PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing

Le papier présente PinPoint, un benchmark complet pour l'analyse d'images composé (CIR) intégrant des réponses multiples, des négatifs explicites et des paraphrases, qui révèle des lacunes significatives dans les méthodes actuelles et propose une méthode de réordonnancement basée sur un MLLM pour les améliorer.

Rohan Mahadev, Joyce Yuan, Patrick Poirson + 3 more2026-03-06💻 cs

SGR3 Model: Scene Graph Retrieval-Reasoning Model in 3D

Le modèle SGR3 propose un cadre sans entraînement pour la génération de graphes de scènes 3D en combinant des modèles de langage multimodaux avec une génération augmentée par la récupération (RAG) et une sélection de similarité au niveau des patches, permettant ainsi un raisonnement relationnel robuste sans reconstruction 3D explicite.

Zirui Wang, Ruiping Liu, Yufan Chen + 7 more2026-03-06💻 cs

Spinverse: Differentiable Physics for Permeability-Aware Microstructure Reconstruction from Diffusion MRI

Spinverse est une méthode de reconstruction microstructurale pour l'IRM de diffusion qui utilise un simulateur de Bloch-Torrey entièrement différentiable pour inverser les mesures en optimisant les perméabilités des faces d'un maillage tétraédrique, permettant ainsi de découvrir des interfaces tissulaires explicites et perméables sans fixer leur topologie à l'avance.

Prathamesh Pradeep Khole, Mario M. Brenes, Zahra Kais Petiwala + 5 more2026-03-06💻 cs

Using Vision + Language Models to Predict Item Difficulty

Cette étude démontre que l'approche multimodale combinant des modèles de vision et de langage (GPT-4.1-nano) permet de prédire avec une plus grande précision la difficulté des items de test de littératie en visualisation de données pour les adultes américains, surpassant ainsi les méthodes unimodales basées uniquement sur le texte ou l'image.

Samin Khan2026-03-06💻 cs

sFRC for assessing hallucinations in medical image restoration

Cet article propose une méthode appelée sFRC, basée sur l'analyse de corrélation de Fourier sur de petits patches, pour détecter et quantifier les hallucinations dans les images médicales restaurées par apprentissage profond, démontrant ainsi son efficacité sur divers problèmes de sous-échantillonnage en CT et IRM.

Prabhat Kc, Rongping Zeng, Nirmal Soni + 1 more2026-03-06🔬 physics

Decoding the Pulse of Reasoning VLMs in Multi-Image Understanding Tasks

Cet article présente PulseFocus, une méthode d'inférence sans entraînement qui améliore la compréhension d'images multiples par les modèles vision-langage en structurant le raisonnement pour corriger les pulsions d'attention diffuses et les biais positionnels observés lors de la génération de chaînes de pensée.

Chenjun Li2026-03-06💻 cs

← Précédent Suivant →