Learning Latent Transmission and Glare Maps for Lens Veiling Glare Removal

Ce papier présente VeilGen, un modèle génératif non supervisé qui apprend à simuler le voile lumineux en estimant des cartes de transmission et de glare latentes pour entraîner DeVeiler, un réseau de restauration capable de supprimer efficacement ce phénomène dans les systèmes optiques simplifiés.

Xiaolong Qian, Qi Jiang, Lei Sun, Zongxi Yu, Kailun Yang, Peixuan Wu, Jiacheng Zhou, Yao Gao, Yaoguang Ma, Ming-Hsuan Yang, Kaiwei Wang2026-03-09🔬 physics.optics

SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis

Le papier présente SyncMV4D, un modèle pionnier qui génère simultanément des vidéos multi-vues et des mouvements 4D synchronisés pour les interactions main-objet, en unifiant les priors visuels, la dynamique du mouvement et la géométrie multi-vues via une diffusion conjointe et un alignement de points pour surmonter les limites des méthodes actuelles en termes de réalisme et de cohérence spatiale.

Lingwei Dang, Zonghan Li, Juntong Li, Hongwen Zhang, Liang An, Yebin Liu, Qingyao Wu2026-03-09💻 cs

UniTS: Unified Spatio-Temporal Generative Model for Remote Sensing

Ce papier présente UniTS, un modèle génératif spatio-temporel unifié basé sur le flow matching qui intègre la reconstruction, le débrouillage, la détection de changements et la prévision d'images satellitaires en surpassant les modèles spécialisés existants grâce à des mécanismes d'injection de conditions et de modulation adaptatifs.

Yuxiang Zhang, Shunlin Liang, Wenyuan Li, Han Ma, Jianglei Xu, Yichuan Ma, Jiangwei Xie, Wei Li, Mengmeng Zhang, Ran Tao, Xiang-Gen Xia2026-03-09💻 cs

Exploiting Spatiotemporal Properties for Efficient Event-Driven Human Pose Estimation

Cet article propose une méthode de pose humaine basée sur des nuages de points exploitant les propriétés spatio-temporelles des flux d'événements via des modules de convolution temporelle et de séquençage, améliorant ainsi la précision et l'efficacité par rapport aux approches existantes sur le jeu de données DHP19.

Haoxian Zhou, Chuanzhi Xu, Langyi Chen, Pengfei Ye, Haodong Chen, Yuk Ying Chung, Qiang Qu2026-03-09🤖 cs.AI

DFIR-DETR: Frequency-Domain Iterative Refinement and Dynamic Feature Aggregation for Small Object Detection

Le papier présente DFIR-DETR, un détecteur transformer innovant qui améliore la détection d'objets de petite taille dans des scènes complexes grâce à une agrégation dynamique de caractéristiques, une pyramide de fonctionnalités préservant la norme et un raffinement itératif dans le domaine fréquentiel, permettant d'atteindre des performances de pointe avec une efficacité computationnelle optimisée.

Bo Gao, Jingcheng Tong, Xingsheng Chen, Han Yu, Zichen Li2026-03-09🤖 cs.LG

A Novel Patch-Based TDA Approach for Computed Tomography Imaging

Cette étude propose une nouvelle approche d'analyse topologique des données (TDA) basée sur des patches pour l'imagerie tomodensitométrique (CT) volumétrique, qui surpasse les méthodes traditionnelles en termes de précision de classification et de temps de calcul tout en étant accompagnée d'une bibliothèque Python dédiée.

Dashti A. Ali, Aras T. Asaad, Jacob J. Peoples, Mohammad Hamghalam, Natalie Gangai, Richard K. G. Do, Alice C. Wei, Amber L. Simpson2026-03-09🤖 cs.LG

Towards Scalable Pre-training of Visual Tokenizers for Generation

Ce papier présente VTP, un cadre d'entraînement préliminaire unifié pour les tokenizers visuels qui, en optimisant conjointement des pertes de contraste, auto-supervisées et de reconstruction, résout le problème de mise à l'échelle du pré-entraînement en alignant l'espace latent sur les sémantiques de haut niveau pour améliorer significativement la génération d'images.

Jingfeng Yao, Yuda Song, Yucong Zhou, Xinggang Wang2026-03-09💻 cs

Pretraining Frame Preservation for Lightweight Autoregressive Video History Embedding

Cet article présente un encodeur d'historique vidéo léger et pré-entraîné qui transforme de longues séquences en embeddings courts tout en préservant la cohérence du contenu pour la génération vidéo autoregressive, offrant ainsi une alternative efficace aux solutions plus lourdes pour les environnements aux ressources limitées.

Lvmin Zhang, Shengqu Cai, Muyang Li, Chong Zeng, Beijia Lu, Anyi Rao, Song Han, Gordon Wetzstein, Maneesh Agrawala2026-03-09💻 cs

Spatial4D-Bench: A Versatile 4D Spatial Intelligence Benchmark

Ce papier présente Spatial4D-Bench, un nouveau benchmark à grande échelle et polyvalent composé de 40 000 paires question-réponse répartis sur 18 tâches, conçu pour évaluer de manière approfondie les capacités de raisonnement spatial 4D des modèles de langage multimodaux et révéler leurs limitations actuelles par rapport à l'intelligence humaine.

Pan Wang, Yang Liu, Guile Wu, Eduardo R. Corral-Soto, Chengjie Huang, Binbin Xu, Dongfeng Bai, Xu Yan, Yuan Ren, Xingxin Chen, Yizhe Wu, Tao Huang, Wenjun Wan, Xin Wu, Pei Zhou, Xuyang Dai, Kangbo Lv, Hongbo Zhang, Yosef Fried, Aixue Ye, Bailan Feng, Zhenyu Chen, Zhen Li, Yingcong Chen, Yiyi Liao, Bingbing Liu2026-03-09💻 cs