cs.CV articles | Gist.Science

Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design

En démontrant que les paradigmes de raisonnement ne se transfèrent pas directement à la perception visuelle, ce papier propose Dr. Seg, un cadre GRPO plug-and-play intégrant un mécanisme de confirmation et une récompense hiérarchisée pour améliorer les modèles de langage visuel dans des tâches complexes de segmentation.

Haoxiang Sun, Tao Wang, Chenwei Tang + 2 more2026-03-06💻 cs

AlignVAR: Towards Globally Consistent Visual Autoregression for Image Super-Resolution

Le papier présente AlignVAR, un cadre d'autorégression visuelle globalement cohérent pour la super-résolution d'images qui surmonte les limites de cohérence globale des modèles existants grâce à une autorégression de cohérence spatiale et une contrainte de cohérence hiérarchique, offrant ainsi une reconstruction structurelle supérieure avec une inférence nettement plus rapide et moins de paramètres que les approches basées sur la diffusion.

Cencen Liu, Dongyang Zhang, Wen Yin + 6 more2026-03-06💻 cs

Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards

Le papier présente SOLACE, un cadre d'entraînement postérieur qui améliore la génération d'images à partir de texte en utilisant un signal de récompense intrinsèque basé sur la confiance du modèle lui-même, permettant ainsi une optimisation non supervisée qui renforce la cohérence, le rendu textuel et l'alignement sans nécessiter de données externes ou d'annotateurs.

Seungwook Kim, Minsu Cho2026-03-06💻 cs

Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving

Le papier présente Dr. Occ, un cadre de prédiction d'occupation 3D guidé par la profondeur et les régions qui améliore la perception autonome en résolvant les problèmes d'alignement géométrique et de déséquilibre des classes spatiales grâce à un transformateur de vue 2D-3D assisté par MoGe-2 et un transformateur d'experts adaptatif.

Xubo Zhu, Haoyang Zhang, Fei He + 4 more2026-03-06💻 cs

FreeAct: Freeing Activations for LLM Quantization

Le papier présente FreeAct, un cadre de quantisation innovant qui améliore les performances des modèles de langage en libérant les activations de contraintes statiques pour leur permettre d'adapter dynamiquement des transformations spécifiques à chaque type de token, surpassant ainsi les méthodes existantes sur les modèles de diffusion et multimodaux.

Xiaohao Liu, Xiaobo Xia, Manyi Zhang + 6 more2026-03-06💻 cs

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

Le papier présente Kiwi-Edit, une architecture unifiée et un pipeline de génération de données évolutif qui surmontent les limitations des méthodes d'édition vidéo actuelles en combinant des instructions textuelles et des références visuelles pour atteindre un état de l'art en matière de contrôle précis.

Yiqi Lin, Guoqiang Liang, Ziyun Zeng + 3 more2026-03-06💻 cs

Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels

Ce papier présente Track4World, un modèle feedforward efficace capable d'estimer le flux dense 2D/3D et de suivre chaque pixel d'une vidéo monoculaire dans un système de coordonnées centré sur le monde, surpassant les méthodes existantes en précision et en rapidité pour la reconstruction 4D.

Jiahao Lu, Jiayi Xu, Wenbo Hu + 5 more2026-03-06💻 cs

Gated Differential Linear Attention: A Linear-Time Decoder for High-Fidelity Medical Segmentation

Le papier présente PVT-GDLA, un décodeur Transformer innovant intégrant une attention linéaire différentielle à porte pour réaliser une segmentation médicale haute fidélité avec une complexité linéaire, surmontant ainsi les compromis entre précision des contours, efficacité computationnelle et stabilité de l'entraînement.

Hongbo Zheng, Afshin Bozorgpour, Dorit Merhof + 1 more2026-03-06💻 cs

MultiShadow: Multi-Object Shadow Generation for Image Compositing via Diffusion Model

Ce papier présente MultiShadow, une méthode exploitant un modèle de diffusion pré-entraîné pour générer des ombres physiquement plausibles et géométriquement cohérentes pour plusieurs objets insérés simultanément dans une scène, comblant ainsi une lacune des approches existantes limitées aux objets uniques.

Waqas Ahmed, Dean Diepeveen, Ferdous Sohel2026-03-06💻 cs

IoUCert: Robustness Verification for Anchor-based Object Detectors

Ce papier présente IoUCert, un cadre de vérification formelle innovant qui permet pour la première fois de garantir la robustesse de détecteurs d'objets ancrés réalistes, tels que SSD et YOLO, en contournant les limitations des relaxations non linéaires grâce à une transformation de coordonnées et une propagation de bornes par intervalles optimisée pour les métriques d'IoU.

Benedikt Brückner, Alejandro J. Mercado, Yanghao Zhang, Panagiotis Kouvaros, Alessio Lomuscio2026-03-06🔒 cs.CR

DMD-augmented Unpaired Neural Schrödinger Bridge for Ultra-Low Field MRI Enhancement

Les auteurs proposent un cadre de traduction non apparié basé sur le pont de Schrödinger neuronal, enrichi par une correspondance de distribution guidée par diffusion et une régularisation de préservation anatomique, pour améliorer la qualité et le réalisme des images IRM cérébrales à très bas champ (64 mT) en les rapprochant de celles à 3 T.

Youngmin Kim, Jaeyun Shin, Jeongchan Kim + 5 more2026-03-06💻 cs

TumorFlow: Physics-Guided Longitudinal MRI Synthesis of Glioblastoma Growth

Ce papier présente TumorFlow, un cadre génératif guidé par la physique capable de synthétiser des séquences d'IRM cérébrale 3D longitudinales réalistes pour le glioblastome, en combinant des modèles de croissance biophysique et des réseaux génératifs pour visualiser la progression tumorale et générer des données synthétiques contrôlées.

Valentin Biller, Niklas Bubeck, Lucas Zimmer + 6 more2026-03-06💻 cs

NOVA3R: Non-pixel-aligned Visual Transformer for Amodal 3D Reconstruction

NOVA3R est une approche feed-forward innovante qui réalise une reconstruction 3D amodale complète et physiquement plausible à partir d'images non positionnées en apprenant une représentation de scène globale et découplée de l'alignement pixel, surpassant ainsi les méthodes d'état de l'art en précision et en complétude.

Weirong Chen, Chuanxia Zheng, Ganlin Zhang + 2 more2026-03-06💻 cs

A Unified Framework for Joint Detection of Lacunes and Enlarged Perivascular Spaces

Cet article propose un cadre unifié à base d'attention croisée initialisée à zéro et de contraintes topologiques pour améliorer la détection conjointe des lacunes et des espaces périvasculaires dilatés, surpassant les performances actuelles sur les jeux de données VALDO et EPAD grâce à une calibration anatomique réduisant les faux positifs.

Lucas He, Krinos Li, Hanyuan Zhang + 7 more2026-03-06💻 cs

Gaussian Wardrobe: Compositional 3D Gaussian Avatars for Free-Form Virtual Try-On

Le papier présente « Gaussian Wardrobe », un cadre novateur qui utilise une représentation 3D compositionnelle pour séparer le corps des vêtements dans des avatars neuronaux, permettant ainsi une synthèse de poses réalistes et un essayage virtuel libre où les vêtements peuvent être transférés sur de nouveaux sujets.

Zhiyi Chen, Hsuan-I Ho, Tianjian Jiang + 3 more2026-03-06💻 cs

Lost in Translation: How Language Re-Aligns Vision for Cross-Species Pathology

Cette étude démontre que l'alignement linguistique, via une méthode novatrice appelée « Semantic Anchoring », permet de surmonter l'effondrement sémantique et d'améliorer la généralisation des modèles de fondation en pathologie computationnelle entre les espèces et les types de cancer, en réorientant les caractéristiques visuelles sans nécessiter de réentraînement complet.

Ekansh Arora2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

Cet article propose le cadre « Dual Tuning » pour quantifier les gains du raisonnement dans les tâches multimodales et définir une « frontière de pensée » qui détermine quand l'entraînement au raisonnement est bénéfique, remettant ainsi en question le paradigme du raisonnement universel et guidant le développement de systèmes adaptatifs plus efficaces.

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

SkillNet: Create, Evaluate, and Connect AI Skills

Le papier présente SkillNet, une infrastructure open-source qui permet de créer, évaluer et connecter des compétences d'IA à grande échelle via une ontologie unifiée, améliorant ainsi significativement les performances des agents en évitant la redécouverte constante de solutions.

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed ⓘ💻 cs

Recognition of Daily Activities through Multi-Modal Deep Learning: A Video, Pose, and Object-Aware Approach for Ambient Assisted Living

Cet article propose une approche d'apprentissage profond multi-modal intégrant des réseaux de neurones 3D pour la vidéo et la pose, ainsi qu'un mécanisme d'attention croisée pour les objets, afin d'améliorer la reconnaissance des activités quotidiennes des personnes âgées dans le cadre de la vie assistée ambiante.

Kooshan Hashemifard, Pau Climent-Pérez, Francisco Florez-Revuelta2026-03-06💻 cs

InverseNet: Benchmarking Operator Mismatch and Calibration Across Compressive Imaging Modalities

Ce papier présente InverseNet, le premier benchmark intermodalité évaluant l'impact du décalage entre les opérateurs théoriques et réels en imagerie compressive, révélant que les méthodes d'apprentissage profond perdent leur avantage face aux bases classiques en cas de désaccord et démontrant que l'adaptation aux opérateurs est cruciale pour la robustesse et la calibration aveugle.

Chengshuai Yang, Xin Yuan2026-03-06💻 cs

← Précédent Suivant →