cs.CV articles | Gist.Science

3D Dynamics-Aware Manipulation: Endowing Manipulation Policies with 3D Foresight

Cet article propose un cadre de manipulation 3D dynamique qui intègre la modélisation du monde en 3D et des tâches d'apprentissage auto-supervisé pour doter les politiques de manipulation d'une « prévoyance 3D », améliorant ainsi considérablement leurs performances dans des tâches impliquant des mouvements en profondeur sans compromettre la vitesse d'inférence.

Yuxin He, Ruihao Zhang, Xianzu Wu + 3 more2026-03-06💻 cs

MedFuncta: A Unified Framework for Learning Efficient Medical Neural Fields

Le papier présente MedFuncta, un cadre unifié permettant l'entraînement à grande échelle de champs neuronaux sur des données médicales via une représentation latente partagée, des améliorations théoriques des activations SIREN et une stratégie d'apprentissage méta efficace, tout en libérant le code et le premier jeu de données à grande échelle dédié, MedNF.

Paul Friedrich, Florentin Bieder, Julian McGinnis + 3 more2026-03-06💻 cs

RapidPoseTriangulation: Multi-view Multi-person Whole-body Human Pose Triangulation in a Millisecond

L'article présente RapidPoseTriangulation, un algorithme innovant capable d'estimer en une milliseconde la pose corporelle complète de multiples personnes à partir de plusieurs vues, tout en assurant une forte généralisation et en rendant le code source publiquement accessible.

Daniel Bermuth, Alexander Poeppel, Wolfgang Reif2026-03-06💻 cs

Noise2Ghost: Self-supervised deep convolutional reconstruction for ghost imaging

Ce papier présente Noise2Ghost, une nouvelle méthode d'imagerie fantôme auto-supervisée basée sur l'apprentissage profond qui permet une reconstruction de haute qualité avec réduction du bruit sans nécessiter de données de référence propres, rendant ainsi possible l'imagerie à faible luminosité pour des applications sensibles comme l'imagerie par fluorescence X in vivo.

Mathieu Manni, Dmitry Karpov, K. Joost Batenburg + 2 more2026-03-06🔬 physics

Collaborative Learning of Local 3D Occupancy Prediction and Versatile Global Occupancy Mapping

Ce papier présente LMPOcc, un cadre plug-and-play qui améliore la prédiction d'occupation 3D locale en intégrant des priors d'occupation globaux à long terme tout en mettant à jour continuellement des cartes mondiales évolutives pour une compréhension plus robuste et complète des environnements extérieurs.

Shanshuai Yuan, Julong Wei, Muer Tie + 3 more2026-03-06💻 cs

PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing

Le papier présente PhysLLM, un cadre d'optimisation collaborative qui intègre des modèles de langage à grande échelle avec des composants spécifiques à la photopléthysmographie à distance pour surmonter les défis de l'éclairage et du mouvement grâce à des stratégies d'alignement sémantique et de rééquilibrage adaptatif, atteignant ainsi des performances de pointe sur plusieurs jeux de données.

Yiping Xie, Bo Zhao, Mingtong Dai + 6 more2026-03-06💻 cs

ReactDance: Hierarchical Representation for High-Fidelity and Coherent Long-Form Reactive Dance Generation

Le papier présente ReactDance, un cadre de diffusion innovant utilisant une quantification scalaire hiérarchique et une stratégie d'échantillonnage par blocs pour générer des danses réactives haute fidélité et cohérentes sur de longues séquences.

Jingzhong Lin, Xinru Li, Yuanyuan Qi + 8 more2026-03-06💻 cs

RESAR-BEV: An Explainable Progressive Residual Autoregressive Approach for Camera-Radar Fusion in BEV Segmentation

Le papier présente RESAR-BEV, une approche d'apprentissage autoregressif résiduel progressif et explicable pour la fusion caméra-radar en segmentation BEV, qui atteint des performances de pointe (54,0 % mIoU) tout en maintenant une capacité temps réel sur le jeu de données nuScenes.

Zhiwen Zeng, Yunfei Yin, Zheng Yuan + 2 more2026-03-06💻 cs

DHECA-SuperGaze: Dual Head-Eye Cross-Attention and Super-Resolution for Unconstrained Gaze Estimation

Ce papier présente DHECA-SuperGaze, une méthode d'estimation du regard en conditions réelles qui améliore la précision grâce à la super-résolution, à un mécanisme d'attention croisée bidirectionnelle entre la tête et les yeux, et à la correction d'erreurs d'annotation dans le jeu de données Gaze360.

Franko Šikić, Donik Vršnak, Sven Lončarić2026-03-06💻 cs

OSPO: Object-Centric Self-Improving Preference Optimization for Text-to-Image Generation

Le papier propose OSPO, une méthode d'optimisation des préférences auto-améliorante centrée sur les objets qui, sans dépendre de données ou de modèles externes, améliore significativement l'alignement texte-image et réduit les hallucinations d'objets dans la génération d'images.

Yoonjin Oh, Yongjin Kim, Hyomin Kim + 2 more2026-03-06💻 cs

EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models

Ce papier propose EDITOR, une méthode efficace et interprétable d'inversion de prompts pour les modèles de diffusion texte-à-image qui, en combinant l'initialisation par un modèle de légendage, l'affinement dans l'espace latent et la conversion en texte, surpasse les approches existantes en termes de similarité d'image, d'alignement textuel et de généralisabilité pour diverses applications créatives.

Mingzhe Li, Kejing Xia, Gehao Zhang + 5 more2026-03-06💻 cs

HypeVPR: Exploring Hyperbolic Space for Perspective to Equirectangular Visual Place Recognition

HypeVPR est un cadre d'encodage hiérarchique en espace hyperbolique conçu pour la reconnaissance visuelle de lieux entre images perspectives et équirectangulaires, exploitant la structure hiérarchique de l'espace hyperbolique pour améliorer la précision tout en réduisant les coûts de stockage et d'accélération de la recherche.

Suhan Woo, Seongwon Lee, Jinwoo Jang + 1 more2026-03-06💻 cs

FLAIR-HUB: Large-scale Multimodal Dataset for Land Cover and Crop Mapping

Le document présente FLAIR-HUB, le plus vaste jeu de données multimodales annotées à très haute résolution (20 cm) développé par l'IGN pour la cartographie des sols et des cultures en France, qui combine six sources de données hétérogènes et démontre l'efficacité de la fusion multimodale pour améliorer la précision des modèles d'apprentissage profond.

Anatol Garioud, Sébastien Giordano, Nicolas David + 1 more2026-03-06💻 cs

HSG-12M: A Large-Scale Benchmark of Spatial Multigraphs from the Energy Spectra of Non-Hermitian Crystals

Ce papier présente HSG-12M, un vaste ensemble de données de 12 millions de multigraphes spatiaux dérivés des spectres énergétiques de cristaux non hermitiens, généré par le pipeline automatisé Poly2Graph pour combler le manque de benchmarks à grande échelle en physique de la matière condensée et en apprentissage géométrique.

Xianquan Yan, Hakan Akgün, Kenji Kawaguchi + 2 more2026-03-06🔬 cond-mat.mes-hall

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

L'article présente InterActHuman, un cadre novateur permettant l'animation humaine multi-concepts avec des interactions riches en générant des vidéos alignées spatialement grâce à une liaison conditionnelle spécifique aux régions et à l'injection de conditions audio locales.

Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang + 7 more2026-03-06💻 cs

AutoV: Loss-Oriented Ranking for Visual Prompt Retrieval in LVLMs

Le papier présente AutoV, un cadre léger qui améliore les modèles vision-langage en remplaçant l'ingénierie manuelle des prompts visuels par une récupération adaptative guidée par un classement basé sur la perte d'un modèle pré-entraîné, éliminant ainsi le besoin d'annotations manuelles tout en augmentant significativement les performances sur diverses tâches.

Yuan Zhang, Chun-Kai Fan, Sicheng Yu + 6 more2026-03-06💻 cs

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

Cet article présente TreeBench, un benchmark diagnostique évaluant le raisonnement visuel ancré par des preuves traçables, et propose TreeVGR, une méthode d'apprentissage par renforcement qui améliore significativement les performances des modèles en localisation et en raisonnement explicite.

Haochen Wang, Xiangtai Li, Zilong Huang + 9 more2026-03-06💻 cs

Graph-Based Multi-Modal Light-weight Network for Adaptive Brain Tumor Segmentation

Cet article présente GMLN-BTS, un réseau neuronal léger basé sur des graphes pour la segmentation adaptative des tumeurs cérébrales qui, grâce à ses modules innovants d'encodage, d'interaction multimodale et de raffinement, atteint des performances de pointe avec une réduction massive de 98 % des paramètres par rapport aux modèles 3D Transformer dominants.

Guohao Huo, Ruiting Dai, Zitong Wang + 2 more2026-03-06💻 cs

Elucidating the Design Space of Arbitrary-Noise-Based Diffusion Models

Cet article propose EDA, un cadre théorique unifié qui étend les modèles de diffusion EDM aux bruits arbitraires pour améliorer la restauration d'images médicales et naturelles sans surcharge computationnelle, tout en démontrant une forte capacité de généralisation avec seulement cinq étapes d'échantillonnage.

Xingyu Qiu, Mengying Yang, Xinghua Ma + 6 more2026-03-06💻 cs

SAMPO-Path: Segmentation Intent-Aligned Preference Optimization for Pathology Foundation Model Segmentation

Le papier présente SAMPO, un cadre d'optimisation des préférences qui aligne les modèles de fondation en pathologie sur l'intention clinique de segmentation en adaptant l'optimisation directe des préférences (DPO) aux modèles de vision pure pour améliorer la précision et la robustesse face aux prompts imparfaits.

Yonghuang Wu, Wenwen Zeng, Xuan Xie + 3 more2026-03-06💻 cs

← Précédent Suivant →