cs.CV articles | Gist.Science

ReactDance: Hierarchical Representation for High-Fidelity and Coherent Long-Form Reactive Dance Generation

Le papier présente ReactDance, un cadre de diffusion innovant utilisant une quantification scalaire hiérarchique et une stratégie d'échantillonnage par blocs pour générer des danses réactives haute fidélité et cohérentes sur de longues séquences.

Jingzhong Lin, Xinru Li, Yuanyuan Qi + 8 more2026-03-06💻 cs

RESAR-BEV: An Explainable Progressive Residual Autoregressive Approach for Camera-Radar Fusion in BEV Segmentation

Le papier présente RESAR-BEV, une approche d'apprentissage autoregressif résiduel progressif et explicable pour la fusion caméra-radar en segmentation BEV, qui atteint des performances de pointe (54,0 % mIoU) tout en maintenant une capacité temps réel sur le jeu de données nuScenes.

Zhiwen Zeng, Yunfei Yin, Zheng Yuan + 2 more2026-03-06💻 cs

DHECA-SuperGaze: Dual Head-Eye Cross-Attention and Super-Resolution for Unconstrained Gaze Estimation

Ce papier présente DHECA-SuperGaze, une méthode d'estimation du regard en conditions réelles qui améliore la précision grâce à la super-résolution, à un mécanisme d'attention croisée bidirectionnelle entre la tête et les yeux, et à la correction d'erreurs d'annotation dans le jeu de données Gaze360.

Franko Šikić, Donik Vršnak, Sven Lončarić2026-03-06💻 cs

OSPO: Object-Centric Self-Improving Preference Optimization for Text-to-Image Generation

Le papier propose OSPO, une méthode d'optimisation des préférences auto-améliorante centrée sur les objets qui, sans dépendre de données ou de modèles externes, améliore significativement l'alignement texte-image et réduit les hallucinations d'objets dans la génération d'images.

Yoonjin Oh, Yongjin Kim, Hyomin Kim + 2 more2026-03-06💻 cs

EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models

Ce papier propose EDITOR, une méthode efficace et interprétable d'inversion de prompts pour les modèles de diffusion texte-à-image qui, en combinant l'initialisation par un modèle de légendage, l'affinement dans l'espace latent et la conversion en texte, surpasse les approches existantes en termes de similarité d'image, d'alignement textuel et de généralisabilité pour diverses applications créatives.

Mingzhe Li, Kejing Xia, Gehao Zhang + 5 more2026-03-06💻 cs

HypeVPR: Exploring Hyperbolic Space for Perspective to Equirectangular Visual Place Recognition

HypeVPR est un cadre d'encodage hiérarchique en espace hyperbolique conçu pour la reconnaissance visuelle de lieux entre images perspectives et équirectangulaires, exploitant la structure hiérarchique de l'espace hyperbolique pour améliorer la précision tout en réduisant les coûts de stockage et d'accélération de la recherche.

Suhan Woo, Seongwon Lee, Jinwoo Jang + 1 more2026-03-06💻 cs

FLAIR-HUB: Large-scale Multimodal Dataset for Land Cover and Crop Mapping

Le document présente FLAIR-HUB, le plus vaste jeu de données multimodales annotées à très haute résolution (20 cm) développé par l'IGN pour la cartographie des sols et des cultures en France, qui combine six sources de données hétérogènes et démontre l'efficacité de la fusion multimodale pour améliorer la précision des modèles d'apprentissage profond.

Anatol Garioud, Sébastien Giordano, Nicolas David + 1 more2026-03-06💻 cs

HSG-12M: A Large-Scale Benchmark of Spatial Multigraphs from the Energy Spectra of Non-Hermitian Crystals

Ce papier présente HSG-12M, un vaste ensemble de données de 12 millions de multigraphes spatiaux dérivés des spectres énergétiques de cristaux non hermitiens, généré par le pipeline automatisé Poly2Graph pour combler le manque de benchmarks à grande échelle en physique de la matière condensée et en apprentissage géométrique.

Xianquan Yan, Hakan Akgün, Kenji Kawaguchi + 2 more2026-03-06🔬 cond-mat.mes-hall

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

L'article présente InterActHuman, un cadre novateur permettant l'animation humaine multi-concepts avec des interactions riches en générant des vidéos alignées spatialement grâce à une liaison conditionnelle spécifique aux régions et à l'injection de conditions audio locales.

Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang + 7 more2026-03-06💻 cs

AutoV: Loss-Oriented Ranking for Visual Prompt Retrieval in LVLMs

Le papier présente AutoV, un cadre léger qui améliore les modèles vision-langage en remplaçant l'ingénierie manuelle des prompts visuels par une récupération adaptative guidée par un classement basé sur la perte d'un modèle pré-entraîné, éliminant ainsi le besoin d'annotations manuelles tout en augmentant significativement les performances sur diverses tâches.

Yuan Zhang, Chun-Kai Fan, Sicheng Yu + 6 more2026-03-06💻 cs

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

Cet article présente TreeBench, un benchmark diagnostique évaluant le raisonnement visuel ancré par des preuves traçables, et propose TreeVGR, une méthode d'apprentissage par renforcement qui améliore significativement les performances des modèles en localisation et en raisonnement explicite.

Haochen Wang, Xiangtai Li, Zilong Huang + 9 more2026-03-06💻 cs

Graph-Based Multi-Modal Light-weight Network for Adaptive Brain Tumor Segmentation

Cet article présente GMLN-BTS, un réseau neuronal léger basé sur des graphes pour la segmentation adaptative des tumeurs cérébrales qui, grâce à ses modules innovants d'encodage, d'interaction multimodale et de raffinement, atteint des performances de pointe avec une réduction massive de 98 % des paramètres par rapport aux modèles 3D Transformer dominants.

Guohao Huo, Ruiting Dai, Zitong Wang + 2 more2026-03-06💻 cs

Elucidating the Design Space of Arbitrary-Noise-Based Diffusion Models

Cet article propose EDA, un cadre théorique unifié qui étend les modèles de diffusion EDM aux bruits arbitraires pour améliorer la restauration d'images médicales et naturelles sans surcharge computationnelle, tout en démontrant une forte capacité de généralisation avec seulement cinq étapes d'échantillonnage.

Xingyu Qiu, Mengying Yang, Xinghua Ma + 6 more2026-03-06💻 cs

SAMPO-Path: Segmentation Intent-Aligned Preference Optimization for Pathology Foundation Model Segmentation

Le papier présente SAMPO, un cadre d'optimisation des préférences qui aligne les modèles de fondation en pathologie sur l'intention clinique de segmentation en adaptant l'optimisation directe des préférences (DPO) aux modèles de vision pure pour améliorer la précision et la robustesse face aux prompts imparfaits.

Yonghuang Wu, Wenwen Zeng, Xuan Xie + 3 more2026-03-06💻 cs

Optimizing Multi-Modality Trackers via Significance-Regularized Tuning

Cet article propose un cadre de réglage fin régularisé par la signification des paramètres pour optimiser les trackers multi-modaux, en équilibrant efficacement plasticité et stabilité afin de surpasser les méthodes actuelles sur divers benchmarks.

Zhiwen Chen, Jinjian Wu, Zhiyu Zhu + 3 more2026-03-06💻 cs

Quadrotor Navigation using Reinforcement Learning with Privileged Information

Cet article présente une méthode de navigation pour quadrotor basée sur l'apprentissage par renforcement qui, en exploitant des cartes de temps d'arrivée et une fonction de perte d'alignement de lacet, surpasse les méthodes existantes pour éviter de grands obstacles et a été validée avec succès lors de 20 vols réels en extérieur, jour et nuit, sans aucune collision.

Jonathan Lee, Abhishek Rathod, Kshitij Goel + 2 more2026-03-06💻 cs

Distant Object Localisation from Noisy Image Segmentation Sequences

Cet article propose une méthode fiable pour la localisation 3D d'objets distants à partir de séquences d'images bruitées, utilisant la triangulation multi-vues ou des filtres à particules, ce qui permet une surveillance efficace des incendies de forêt par drone avec des ressources computationnelles limitées.

Julius Pesonen, Arno Solin, Eija Honkavaara2026-03-06💻 cs

BridgeDrive: Diffusion Bridge Policy for Closed-Loop Trajectory Planning in Autonomous Driving

Le papier présente BridgeDrive, une nouvelle politique de planification de trajectoire en boucle fermée pour la conduite autonome qui utilise un pont de diffusion guidé par des ancêtres pour transformer de manière théoriquement cohérente des trajectoires grossières en plans précis, atteignant ainsi des performances de pointe sur le benchmark Bench2Drive.

Shu Liu, Wenlin Chen, Weihao Li + 7 more2026-03-06💻 cs

Hyperspherical Latents Improve Continuous-Token Autoregressive Generation

Le papier présente SphereAR, une méthode qui améliore la génération d'images par modèles autoregressifs à tokens continus en contraignant les latents sur une hypersphère pour stabiliser la variance et atteindre des performances record surpassant les modèles de diffusion et de génération masquée.

Guolin Ke, Hui Xue2026-03-06💻 cs

Continuous Space-Time Video Super-Resolution with 3D Fourier Fields

Cet article présente une nouvelle méthode de super-résolution vidéo spatio-temporelle continue basée sur des champs de Fourier 3D (VFF) qui, en évitant le décalage explicite des trames, permet un échantillonnage flexible à n'importe quelle résolution tout en garantissant une reconstruction sans repliement spectral et en surpassant l'état de l'art en termes de netteté, de cohérence temporelle et d'efficacité computationnelle.

Alexander Becker, Julius Erbach, Dominik Narnhofer + 1 more2026-03-06💻 cs

← Précédent Suivant →