cs.CV articles | Gist.Science

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

Le papier présente DISPLAY, un cadre de génération vidéo d'interactions humain-objet qui utilise une guidance de mouvement épars (coordonnées du poignet et boîte englobante) et une attention focalisée sur l'objet pour produire des vidéos réalistes et contrôlables sans dépendre de signaux de contrôle denses ou de vidéos modèles.

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Cet article présente CourtSI, le premier jeu de données à grande échelle et le benchmark CourtSI-Bench dédiés à l'évaluation et à l'amélioration de l'intelligence spatiale des modèles vision-langage dans les sports de raquette, démontrant ainsi leur potentiel pour combler l'écart de performance entre l'IA et l'humain dans des scénarios dynamiques complexes.

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition

Le papier présente WikiCLIP, un cadre efficace et performant pour la reconnaissance d'entités visuelles en domaine ouvert qui, en exploitant des embeddings de modèles de langage et un adaptateur guidé par la vision, surpasse les méthodes génératives existantes tout en réduisant considérablement la latence d'inférence.

Shan Ning, Longtian Qiu, Jiaxuan Sun, Xuming He2026-03-11💻 cs

On the Structural Failure of Chamfer Distance in 3D Shape Optimization

Cet article démontre que l'optimisation directe de la distance de Chamfer conduit inévitablement à un effondrement structurel dû à l'absence de couplage non local, et propose que l'introduction de contraintes de couplage global, telles qu'un prior MPM différentiable, est la condition nécessaire pour supprimer ce phénomène et améliorer la reconstruction de formes 3D.

Chang-Yong Song, David Hyde2026-03-11💻 cs

Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

Cet article propose une méthode de récupération de mouvement textuel interprétable qui utilise une représentation d'images de mouvements basée sur les angles articulaires et une interaction tardive token-patch pour surpasser les approches existantes en préservant les correspondances locales fines.

Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao2026-03-11💻 cs

Adaptive Clinical-Aware Latent Diffusion for Multimodal Brain Image Generation and Missing Modality Imputation

Ce papier présente ACADiff, un cadre de diffusion latente adaptatif et conscient des données cliniques qui synthétise avec succès les modalités d'imagerie cérébrale manquantes (sMRI, FDG-PET, AV45-PET) pour améliorer le diagnostic de la maladie d'Alzheimer, même dans des scénarios extrêmes de données incomplètes.

Rong Zhou, Houliang Zhou, Yao Su, Brian Y. Chen, Yu Zhang, Lifang He, Alzheimer's Disease Neuroimaging Initiative2026-03-11🤖 cs.AI

Unsupervised Domain Adaptation with Target-Only Margin Disparity Discrepancy

Cet article propose un cadre d'adaptation de domaine non supervisé innovant basé sur une reformulation de la divergence de disparité des marges (MDD) pour améliorer la segmentation du foie en imagerie CBCT interventionnelle en exploitant des données CT annotées, comblant ainsi le manque de données étiquetées spécifiques à cette modalité.

Gauthier Miralles, Loïc Le Folgoc, Vincent Jugnon, Pietro Gori2026-03-11💻 cs

No Image, No Problem: End-to-End Multi-Task Cardiac Analysis from Undersampled k-Space

Le papier propose k-MTR, un cadre d'apprentissage de représentations en espace k qui aligne les données sous-échantillonnées directement avec des étiquettes physiologiques pour permettre une analyse cardiaque multi-tâches précise sans passer par une reconstruction d'image intermédiaire.

Yundi Zhang, Sevgi Gokce Kafali, Niklas Bubeck, Daniel Rueckert, Jiazhen Pan2026-03-11🤖 cs.AI

Leveraging whole slide difficulty in Multiple Instance Learning to improve prostate cancer grading

Cet article propose d'améliorer le grading du cancer de la prostate par apprentissage multi-instance en exploitant la notion de difficulté des lames entières, déduite des désaccords entre pathologistes experts et non-experts, ce qui permet d'augmenter les performances de classification, en particulier pour les grades élevés.

Marie Arrivat, Rémy Peyret, Elsa Angelini, Pietro Gori2026-03-11💻 cs

From Semantics to Pixels: Coarse-to-Fine Masked Autoencoders for Hierarchical Visual Understanding

Le papier propose C2FMAE, un autoencodeur masqué à apprentissage hiérarchique de grossier à fin qui résout la tension entre l'apprentissage sémantique global et le détail local en reconstruisant séquentiellement des masques sémantiques, d'instances et d'images RGB via un curriculum d'apprentissage progressif, démontrant ainsi des performances supérieures sur diverses tâches de vision par ordinateur.

Wenzhao Xiang, Yue Wu, Hongyang Yu, Feng Gao, Fan Yang, Xilin Chen2026-03-11🤖 cs.LG

BEACON: Language-Conditioned Navigation Affordance Prediction under Occlusion

Le papier propose BEACON, une méthode qui améliore la navigation robotique conditionnée par le langage en présence d'obstacles en prédisant une carte de chaleur d'affordance en vue aérienne (BEV) à partir d'observations RGB-D et d'instructions textuelles, surpassant ainsi les approches basées sur l'espace image pour localiser des cibles occluses.

Xinyu Gao, Gang Chen, Javier Alonso-Mora2026-03-11🤖 cs.AI

ReCoSplat: Autoregressive Feed-Forward Gaussian Splatting Using Render-and-Compare

Le papier présente ReCoSplat, un modèle de Splatting de Gaussienne feed-forward et autoregressif qui surmonte les défis de la synthèse de vues nouvelles en ligne grâce à un module « Render-and-Compare » pour corriger les erreurs de pose et une stratégie de compression de cache KV pour traiter efficacement de longues séquences.

Freeman Cheng, Botao Ye, Xueting Li, Junqi You, Fangneng Zhan, Ming-Hsuan Yang2026-03-11💻 cs

From Data Statistics to Feature Geometry: How Correlations Shape Superposition

En introduisant le cadre contrôlé de la superposition de type « sac de mots » (BOWS), cette étude démontre que les corrélations entre caractéristiques permettent d'organiser géométriquement les interférences de manière constructive dans les réseaux de neurones, expliquant ainsi la formation de clusters sémantiques et de structures cycliques observées dans les modèles de langage réels, ce que la vision traditionnelle de la superposition basée sur des caractéristiques non corrélées ne parvenait pas à prédire.

Lucas Prieto, Edward Stevinson, Melih Barsbey, Tolga Birdal, Pedro A. M. Mediano2026-03-11🤖 cs.AI

Differentiable Microscopy Designs an All Optical Phase Retrieval Microscope

Cet article présente une approche de conception ascendante appelée « microscopie différentiable » ( $\partial\mu$ ) qui, en s'appuyant sur des données, permet de concevoir automatiquement des systèmes de microscopie optique pour la récupération de phase, surpassant les méthodes existantes et validée expérimentalement.

Kithmini Herath, Hasindu Kariyawasam, Ramith Hettiarachchi, Udith Haputhanthri, Dineth Jayakody, Raja N. Ahmad, Azeem Ahmad, Balpreet S. Ahluwalia, Chamira U. S. Edussooriya, Dushan N. Wadduwage2026-03-10🔬 physics.optics

Class Overwhelms: Mutual Conditional Blended-Target Domain Adaptation

Cet article propose une méthode d'adaptation de domaine pour des cibles mélangées qui, en alignant mutuellement les distributions conditionnelles des catégories et des classes via un discriminateur guidé par l'incertitude et l'augmentation de caractéristiques, surpasse les méthodes actuelles même en l'absence d'étiquettes de domaine et face à des décalages de distribution.

Pengcheng Xu, Boyu Wang, Charles Ling2026-03-10💻 cs

altiro3D: Scene representation from single image and novel view synthesis

L'article présente altiro3D, une bibliothèque libre qui génère des expériences 3D réalistes et des images à champ lumineux à partir d'une seule image ou vidéo, en combinant l'estimation de profondeur monocular, l'inpainting et des algorithmes de projection 3D pour créer des collages multi-vues affichables sur des écrans LCD à vue libre.

E. Canessa, L. Tenze2026-03-10💻 cs

Multi-Scale Distillation for RGB-D Anomaly Detection on the PD-REAL Dataset

Cet article présente PD-REAL, un nouveau jeu de données à grande échelle pour la détection d'anomalies en 3D basé sur des modèles Play-Doh, ainsi qu'une méthode de distillation multi-échelle par apprentissage enseignant-élève qui améliore la précision de détection en exploitant efficacement les informations RGB-D.

Jianjian Qin, Chao Zhang, Chunzhi Gu, Zi Wang, Jun Yu, Yijin Wei, Hui Xiao, Xin Yua2026-03-10💻 cs

CA-Jaccard: Camera-aware Jaccard Distance for Person Re-identification

Cet article propose CA-Jaccard, une nouvelle métrique de distance pour la ré-identification de personnes qui atténue l'impact négatif des variations de caméra sur la fiabilité de la distance de Jaccard en intégrant des informations spécifiques à la caméra via des k-plus proches voisins réciproques et une expansion de requête locale.

Yiyu Chen, Zheyi Fan, Zhaoru Chen, Yixuan Zhu2026-03-10💻 cs

DivCon: Divide and Conquer for Complex Numerical and Spatial Reasoning in Text-to-Image Generation

Le papier présente DivCon, une approche « diviser pour régner » qui améliore la génération d'images à partir de texte en décomposant la prédiction de mise en page et la synthèse d'images en sous-tâches gérables, permettant ainsi aux modèles légers de surpasser les méthodes précédentes dans la gestion de relations spatiales et numériques complexes.

Yuhao Jia, Wenhan Tan2026-03-10💻 cs

Deepfake Generation and Detection: A Benchmark and Survey

Ce document de recherche propose une revue complète et un benchmark des dernières avancées en matière de génération et de détection de deepfakes, en couvrant les définitions des tâches, les ensembles de données, les méthodes de pointe dans quatre domaines clés (échange de visages, réanimation, génération de visage parlant et édition d'attributs faciaux) ainsi que les défis futurs.

Gan Pei, Jiangning Zhang, Menghan Hu, Zhenyu Zhang, Chengjie Wang, Yunsheng Wu, Guangtao Zhai, Jian Yang, Dacheng Tao2026-03-10💻 cs

← Précédent Suivant →