cs.CV articles | Gist.Science

Learning Latent Transmission and Glare Maps for Lens Veiling Glare Removal

Ce papier présente VeilGen, un modèle génératif non supervisé qui apprend à simuler le voile lumineux en estimant des cartes de transmission et de glare latentes pour entraîner DeVeiler, un réseau de restauration capable de supprimer efficacement ce phénomène dans les systèmes optiques simplifiés.

Xiaolong Qian, Qi Jiang, Lei Sun, Zongxi Yu, Kailun Yang, Peixuan Wu, Jiacheng Zhou, Yao Gao, Yaoguang Ma, Ming-Hsuan Yang, Kaiwei Wang2026-03-09🔬 physics.optics

UAM: A Unified Attention-Mamba Backbone of Multimodal Framework for Tumor Cell Classification

Cet article présente UAM, une nouvelle architecture unifiée combinant les mécanismes d'attention et Mamba pour améliorer la classification des cellules tumorales et la segmentation d'images, surpassant les modèles fondationnels existants avec des performances de pointe sur des benchmarks publics.

Taixi Chen, Jingyun Chen, Nancy Guo2026-03-09💻 cs

EgoCogNav: Cognition-aware Human Egocentric Navigation

Ce papier présente EgoCogNav, un cadre de navigation égocentrique multimodal qui intègre l'incertitude perçue comme état latent pour prédire les trajectoires et les mouvements de tête, accompagné d'un nouveau jeu de données CEN pour capturer les comportements de navigation humains réalistes.

Zhiwen Qiu, Ziang Liu, Wenqian Niu, Tapomayukh Bhattacharjee, Saleh Kalantari2026-03-09🤖 cs.LG

SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis

Le papier présente SyncMV4D, un modèle pionnier qui génère simultanément des vidéos multi-vues et des mouvements 4D synchronisés pour les interactions main-objet, en unifiant les priors visuels, la dynamique du mouvement et la géométrie multi-vues via une diffusion conjointe et un alignement de points pour surmonter les limites des méthodes actuelles en termes de réalisme et de cohérence spatiale.

Lingwei Dang, Zonghan Li, Juntong Li, Hongwen Zhang, Liang An, Yebin Liu, Qingyao Wu2026-03-09💻 cs

Reversible Inversion for Training-Free Exemplar-guided Image Editing

Ce papier propose ReInversion, une méthode d'édition d'image guidée par exemple sans entraînement qui utilise un processus de débruitage réversible à deux étapes et une stratégie de débruitage sélectif guidé par un masque pour obtenir des performances de pointe avec un faible coût computationnel.

Yuke Li, Lianli Gao, Ji Zhang, Pengpeng Zeng, Lichuan Xiang, Hongkai Wen, Heng Tao Shen, Jingkuan Song2026-03-09💻 cs

A method for tissue-mask supported whole-body image registration in the UK Biobank

Cette étude propose une méthode d'enregistrement d'images IRM corporelles complètes pour la UK Biobank, qui utilise des masques de tissus mous pour améliorer la précision spatiale et l'analyse des corrélations cliniques par rapport aux approches existantes.

Yasemin Utkueri, Elin Lundström, Håkan Ahlström, Johan Öfverstedt, Joel Kullberg2026-03-09💻 cs

UniTS: Unified Spatio-Temporal Generative Model for Remote Sensing

Ce papier présente UniTS, un modèle génératif spatio-temporel unifié basé sur le flow matching qui intègre la reconstruction, le débrouillage, la détection de changements et la prévision d'images satellitaires en surpassant les modèles spécialisés existants grâce à des mécanismes d'injection de conditions et de modulation adaptatifs.

Yuxiang Zhang, Shunlin Liang, Wenyuan Li, Han Ma, Jianglei Xu, Yichuan Ma, Jiangwei Xie, Wei Li, Mengmeng Zhang, Ran Tao, Xiang-Gen Xia2026-03-09💻 cs

Exploiting Spatiotemporal Properties for Efficient Event-Driven Human Pose Estimation

Cet article propose une méthode de pose humaine basée sur des nuages de points exploitant les propriétés spatio-temporelles des flux d'événements via des modules de convolution temporelle et de séquençage, améliorant ainsi la précision et l'efficacité par rapport aux approches existantes sur le jeu de données DHP19.

Haoxian Zhou, Chuanzhi Xu, Langyi Chen, Pengfei Ye, Haodong Chen, Yuk Ying Chung, Qiang Qu2026-03-09🤖 cs.AI

DFIR-DETR: Frequency-Domain Iterative Refinement and Dynamic Feature Aggregation for Small Object Detection

Le papier présente DFIR-DETR, un détecteur transformer innovant qui améliore la détection d'objets de petite taille dans des scènes complexes grâce à une agrégation dynamique de caractéristiques, une pyramide de fonctionnalités préservant la norme et un raffinement itératif dans le domaine fréquentiel, permettant d'atteindre des performances de pointe avec une efficacité computationnelle optimisée.

Bo Gao, Jingcheng Tong, Xingsheng Chen, Han Yu, Zichen Li2026-03-09🤖 cs.LG

Fast-BEV++: Fast by Algorithm, Deployable by Design

Fast-BEV++ est un nouveau cadre de perception BEV qui résout le compromis entre précision et efficacité de déploiement en éliminant les noyaux personnalisés grâce à une architecture décomposée, permettant ainsi d'atteindre un état de l'art de 0,488 NDS sur nuScenes avec une inférence temps réel dépassant 134 FPS.

Yuanpeng Chen, Hui Song, Sheng Yang, Wei Tao, Shanhui Mo, Shuang Zhang, Xiao Hua, Tiankun Zhao2026-03-09💻 cs

Uncertainty-Aware Subset Selection for Robust Visual Explainability under Distribution Shifts

Cet article propose un cadre novateur combinant la sélection de sous-ensembles submodulaire et l'estimation d'incertitude pour améliorer la robustesse et la fidélité des explications visuelles face aux décalages de distribution, sans nécessiter de réentraînement des modèles.

Madhav Gupta, Vishak Prasad C, Ganesh Ramakrishnan2026-03-09🤖 cs.LG

Photo3D: Advancing Photorealistic 3D Generation through Structure-Aligned Detail Enhancement

Photo3D est un cadre innovant qui améliore la génération 3D photoréaliste en exploitant des images générées par GPT-4o-Image au sein d'un pipeline de synthèse multi-vues aligné sur la structure, permettant ainsi d'enrichir les détails texturaux tout en préservant la cohérence géométrique.

Xinyue Liang, Zhinyuan Ma, Lingchen Sun, Yanjun Guo, Lei Zhang2026-03-09💻 cs

Modular Neural Image Signal Processing

Ce papier présente un cadre de traitement du signal d'image (ISP) neuronal modulaire qui offre un contrôle précis sur les étapes intermédiaires du rendu, permettant une édition photo interactive, une grande généralisation et des performances compétitives avec des modèles de taille modérée.

Mahmoud Afifi, Zhongling Wang, Ran Zhang, Michael S. Brown2026-03-09💻 cs

A Novel Patch-Based TDA Approach for Computed Tomography Imaging

Cette étude propose une nouvelle approche d'analyse topologique des données (TDA) basée sur des patches pour l'imagerie tomodensitométrique (CT) volumétrique, qui surpasse les méthodes traditionnelles en termes de précision de classification et de temps de calcul tout en étant accompagnée d'une bibliothèque Python dédiée.

Dashti A. Ali, Aras T. Asaad, Jacob J. Peoples, Mohammad Hamghalam, Natalie Gangai, Richard K. G. Do, Alice C. Wei, Amber L. Simpson2026-03-09🤖 cs.LG

Towards Scalable Pre-training of Visual Tokenizers for Generation

Ce papier présente VTP, un cadre d'entraînement préliminaire unifié pour les tokenizers visuels qui, en optimisant conjointement des pertes de contraste, auto-supervisées et de reconstruction, résout le problème de mise à l'échelle du pré-entraînement en alignant l'espace latent sur les sémantiques de haut niveau pour améliorer significativement la génération d'images.

Jingfeng Yao, Yuda Song, Yucong Zhou, Xinggang Wang2026-03-09💻 cs

CASA: Cross-Attention over Self-Attention for Efficient Vision-Language Fusion

Ce papier réévalue l'efficacité de l'attention croisée pour les modèles vision-langage en démontrant qu'elle offre une alternative performante et économe en ressources par rapport à l'insertion de tokens, permettant notamment une captioning vidéo en temps réel avec une latence faible et un coût mémoire constant.

Moritz Böhle, Amélie Royer, Juliette Marrie, Edouard Grave, Patrick Pérez2026-03-09🤖 cs.AI

Pretraining Frame Preservation for Lightweight Autoregressive Video History Embedding

Cet article présente un encodeur d'historique vidéo léger et pré-entraîné qui transforme de longues séquences en embeddings courts tout en préservant la cohérence du contenu pour la génération vidéo autoregressive, offrant ainsi une alternative efficace aux solutions plus lourdes pour les environnements aux ressources limitées.

Lvmin Zhang, Shengqu Cai, Muyang Li, Chong Zeng, Beijia Lu, Anyi Rao, Song Han, Gordon Wetzstein, Maneesh Agrawala2026-03-09💻 cs

Spatial4D-Bench: A Versatile 4D Spatial Intelligence Benchmark

Ce papier présente Spatial4D-Bench, un nouveau benchmark à grande échelle et polyvalent composé de 40 000 paires question-réponse répartis sur 18 tâches, conçu pour évaluer de manière approfondie les capacités de raisonnement spatial 4D des modèles de langage multimodaux et révéler leurs limitations actuelles par rapport à l'intelligence humaine.

Pan Wang, Yang Liu, Guile Wu, Eduardo R. Corral-Soto, Chengjie Huang, Binbin Xu, Dongfeng Bai, Xu Yan, Yuan Ren, Xingxin Chen, Yizhe Wu, Tao Huang, Wenjun Wan, Xin Wu, Pei Zhou, Xuyang Dai, Kangbo Lv, Hongbo Zhang, Yosef Fried, Aixue Ye, Bailan Feng, Zhenyu Chen, Zhen Li, Yingcong Chen, Yiyi Liao, Bingbing Liu2026-03-09💻 cs

Bayesian Monocular Depth Refinement via Neural Radiance Fields

Le papier présente MDENeRF, un cadre itératif bayésien qui affine les estimations de profondeur monoculaire en fusionnant une structure globale avec des détails géométriques fins dérivés de l'incertitude des Champs de Radiance Neuronaux (NeRF).

Arun Muthukkumar2026-03-09🤖 cs.LG

FlyPose: Towards Robust Human Pose Estimation From Aerial Views

Le papier présente FlyPose, un pipeline léger d'estimation de pose humaine en vue aérienne qui améliore significativement la détection et l'estimation de pose grâce à un entraînement multi-ensembles, tout en permettant une inférence en temps réel à bord d'un drone, et accompagne cette avancée de la publication du nouveau jeu de données FlyPose-104.

Hassaan Farooq, Marvin Brenner, Peter Stütz2026-03-09💻 cs

← Précédent Suivant →