cs.CV articles | Gist.Science

FusionRegister: Every Infrared and Visible Image Fusion Deserves Registration

Le papier présente FusionRegister, une méthode générale et efficace guidée par des priors visuels qui intègre directement l'enregistrement croisé dans la fusion d'images infrarouges et visibles pour améliorer l'alignement des détails et la robustesse sans nécessiter de pré-enregistrement extensif.

Congcong Bian, Haolong Ma, Hui Li, Zhongwei Shen, Xiaoqing Luo, Xiaoning Song, Xiao-Jun Wu2026-03-10💻 cs

UniUncer: Unified Dynamic Static Uncertainty for End to End Driving

Le papier présente UniUncer, un cadre léger et unifié qui améliore la fiabilité de la conduite autonome de bout en bout en estimant et en exploitant conjointement les incertitudes statiques et dynamiques pour optimiser la planification.

Yu Gao, Jijun Wang, Zongzheng Zhang, Anqing Jiang, Yiru Wang, Yuwen Heng, Shuo Wang, Hao Sun, Zhangfeng Hu, Hao Zhao2026-03-10💻 cs

FrameVGGT: Frame Evidence Rolling Memory for streaming VGGT

Le papier présente FrameVGGT, un cadre de mémoire explicite piloté par les images qui remplace l'accumulation illimitée de tokens par des blocs de preuves cohérents résumés en prototypes, permettant ainsi aux transformateurs de géométrie visuelle en flux continu de maintenir une perception 3D précise et stable sous des contraintes de mémoire strictes.

Zhisong Xu, Takeshi Oishi2026-03-10💻 cs

RoboPCA: Pose-centered Affordance Learning from Human Demonstrations for Robot Manipulation

Ce papier présente RoboPCA, un cadre d'apprentissage centré sur la pose qui prédit conjointement les régions de contact et les poses d'interaction à partir de démonstrations humaines, en utilisant une pipeline de curation de données nommée Human2Afford pour surmonter les incohérences des méthodes existantes et améliorer la manipulation robotique.

Zhanqi Xiao, Ruiping Wang, Xilin Chen2026-03-10💻 cs

Compressed-Domain-Aware Online Video Super-Resolution

Ce papier propose CDA-VSR, une méthode de super-résolution vidéo en ligne qui exploite les informations du domaine compressé (vecteurs de mouvement, cartes de résidus et types de trames) pour améliorer l'efficacité computationnelle et la qualité de reconstruction, surpassant ainsi l'état de l'art en termes de vitesse et de précision sur le jeu de données REDS4.

Yuhang Wang, Hai Li, Shujuan Hou, Zhetao Dong, Xiaoyao Yang2026-03-10💻 cs

Learning Context-Adaptive Motion Priors for Masked Motion Diffusion Models with Efficient Kinematic Attention Aggregation

Cet article présente le MMDM, un modèle de diffusion génératif doté d'un mécanisme d'agrégation d'attention cinématique qui apprend des priors de mouvement adaptatifs au contexte pour reconstruire efficacement des données de mouvement 3D incomplètes ou bruitées via des tâches de raffinement, de complétion et d'interpolation.

Junkun Jiang, Jie Chen, Ho Yin Au, Jingyu Xiang2026-03-10💻 cs

TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward

Le papier présente TDM-R1, une nouvelle méthode d'apprentissage par renforcement qui permet d'améliorer les modèles de diffusion en quelques étapes en intégrant efficacement des récompenses non différentiables, telles que les préférences humaines, grâce à une approche découplée d'apprentissage de récompense et de génération.

Yihong Luo, Tianyang Hu, Weijian Luo, Jing Tang2026-03-10💻 cs

PARSE: Part-Aware Relational Spatial Modeling

Le papier présente PARSE, un cadre de modélisation spatiale relationnelle au niveau des parties qui introduit le graphe d'assemblage centré sur les parties (PAG) et le jeu de données PARSE-10K pour améliorer le raisonnement spatial géométrique et la génération de scènes 3D physiquement cohérentes.

Yinuo Bai, Peijun Xu, Kuixiang Shao, Yuyang Jiao, Jingxuan Zhang, Kaixin Yao, Jiayuan Gu, Jingyi Yu2026-03-10💻 cs

3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models

Le papier présente 3ViewSense, un cadre qui comble le déficit d'intelligence spatiale des modèles vision-langage en ancrant le raisonnement dans des vues orthographiques via un mécanisme « simuler-et-raisonner » pour reconstruire des représentations 3D cohérentes.

Shaoxiong Zhan, Yanlin Lai, Zheng Liu, Hai Lin, Shen Li, Xiaodong Cai, Zijian Lin, Wen Huang, Hai-Tao Zheng2026-03-10💬 cs.CL

AR2-4FV: Anchored Referring and Re-identification for Long-Term Grounding in Fixed-View Videos

Le papier présente AR2-4FV, une méthode innovante pour le suivi de référence à long terme dans des vidéos à vue fixe qui utilise une banque d'ancres de fond statique et un mécanisme de ré-identification pour maintenir la cohérence de l'identité même lorsque la cible est occluse ou hors champ, améliorant ainsi considérablement les taux de reprise et réduisant la latence.

Teng Yan, Yihan Liu, Jiongxu Chen, Teng Wang, Jiaqi Li, Bingzhuo Zhong2026-03-10💻 cs

DECADE: A Temporally-Consistent Unsupervised Diffusion Model for Enhanced Rb-82 Dynamic Cardiac PET Image Denoising

Le papier présente DECADE, un cadre de diffusion non supervisé et temporellement cohérent conçu pour réduire le bruit dans les images TEP cardiaques dynamiques au Rb-82 sans données d'entraînement appariées, tout en préservant la précision quantitative et la qualité des images paramétriques.

Yinchi Zhou, Liang Guo, Huidong Xie, Yuexi Du, Ashley Wang, Menghua Xia, Tian Yu, Ramesh Fazzone-Chettiar, Christopher Weyman, Bruce Spottiswoode, Vladimir Panin, Kuangyu Shi, Edward J. Miller, Attila Feher, Albert J. Sinusas, Nicha C. Dvornek, Chi Liu2026-03-10💻 cs

MedQ-Deg: A Multidimensional Benchmark for Evaluating MLLMs Across Medical Image Quality Degradations

Ce papier présente MedQ-Deg, un benchmark multidimensionnel évaluant la robustesse et la calibration de la confiance de 40 modèles multimodaux de langage face à 18 types de dégradations d'images médicales, révélant que leur performance se dégrade systématiquement avec la sévérité des altérations tout en maintenant une confiance inappropriée.

Jiyao Liu, Junzhi Ning, Chenglong Ma, Wanying Qu, Jianghan Shen, Siqi Luo, Jinjie Wei, Jin Ye, Pengze Li, Tianbin Li, Jiashi Lin, Hongming Shan, Xinzhe Luo, Xiaohong Liu, Lihao Liu, Junjun He, Ningsheng Xu2026-03-10💻 cs

Geometric Knowledge-Assisted Federated Dual Knowledge Distillation Approach Towards Remote Sensing Satellite Imagery

Cet article propose le cadre GK-FedDKD, une approche d'apprentissage fédéré assistée par des connaissances géométriques et une distillation de connaissance duale, qui surpasse les méthodes de l'état de l'art pour l'analyse d'images satellites en surmontant l'hétérogénéité des données grâce à l'agrégation de connaissances géométriques globales et à l'augmentation des embeddings locaux.

Luyao Zou, Fei Pan, Jueying Li, Yan Kyaw Tun, Apurba Adhikary, Zhu Han, Hayoung Oh2026-03-10💻 cs

Parameterized Brushstroke Style Transfer

Ce papier propose une méthode de transfert de style qui représente les images dans le domaine des coups de pinceau plutôt que dans le domaine des pixels, offrant ainsi une amélioration visuelle supérieure pour une représentation plus naturelle des œuvres d'art.

Uma Meleti, Siyu Huang2026-03-10💻 cs

OrdinalBench: A Benchmark Dataset for Diagnosing Generalization Limits in Ordinal Number Understanding of Vision-Language Models

L'article présente OrdinalBench, un nouveau benchmark de 39 000 paires question-réponse conçu pour évaluer et diagnostiquer les limites de généralisation des modèles vision-langage dans la compréhension des nombres ordinaux, en révélant leurs difficultés à identifier des objets selon des règles de parcours complexes et des indices élevés.

Yusuke Tozaki, Hisashi Miyamori2026-03-10💻 cs

SGI: Structured 2D Gaussians for Efficient and Compact Large Image Representation

Ce papier propose SGI, un cadre compact et efficace qui représente les images haute résolution en structurant des gaussiennes 2D autour de graines optimisées via une stratégie multi-échelle, permettant ainsi une compression et une convergence supérieures aux méthodes existantes sans altérer la fidélité de l'image.

Zixuan Pan, Kaiyuan Tang, Jun Xia, Yifan Qin, Lin Gu, Chaoli Wang, Jianxu Chen, Yiyu Shi2026-03-10💻 cs

4DRC-OCC: Robust Semantic Occupancy Prediction Through Fusion of 4D Radar and Camera

Cet article présente 4DRC-OCC, une méthode pionnière fusionnant les données de radar 4D et de caméra pour améliorer la robustesse de la prédiction d'occupation sémantique 3D dans des conditions difficiles, tout en introduisant un jeu de données entièrement annoté automatiquement pour réduire la dépendance à l'annotation manuelle.

David Ninfa, Andras Palffy, Holger Caesar2026-03-10💻 cs

MWM: Mobile World Models for Action-Conditioned Consistent Prediction

Ce papier présente MWM, un modèle du monde mobile qui améliore la navigation vers un objectif visuel grâce à un entraînement en deux étapes et une distillation d'état cohérente avec l'inférence, garantissant ainsi des prédictions visuelles stables et efficaces pour la planification.

Han Yan, Zishang Xiang, Zeyu Zhang, Hao Tang2026-03-10💻 cs

HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration

Le papier présente HybridStitch, une nouvelle méthode d'accélération pour la génération d'images par diffusion qui combine un grand et un petit modèle en traitant la création comme une édition, en utilisant le petit modèle pour les zones simples et le grand pour les zones complexes, permettant ainsi un gain de vitesse de 1,83 fois sur Stable Diffusion 3.

Desen Sun, Jason Hon, Jintao Zhang, Sihang Liu2026-03-10💻 cs

Tracking Phenological Status and Ecological Interactions in a Hawaiian Cloud Forest Understory using Low-Cost Camera Traps and Visual Foundation Models

Cette étude démontre comment l'utilisation de pièges photographiques peu coûteux couplés à des modèles de vision fondationnels permet de suivre avec précision la phénologie végétale et les interactions écologiques dans la sous-couche d'une forêt nuageuse hawaïenne, révélant des tendances invisibles aux méthodes d'échantillonnage traditionnelles.

Luke Meyers, Anirudh Potlapally, Yuyan Chen, Mike Long, Tanya Berger-Wolf, Hari Subramoni, Remi Megret, Daniel Rubenstein2026-03-10💻 cs

← Précédent Suivant →