FedEU: Evidential Uncertainty-Driven Federated Fine-Tuning of Vision Foundation Models for Remote Sensing Image Segmentation

Le papier présente FedEU, un cadre d'optimisation fédérée qui utilise la modélisation de l'incertitude evidence et des embeddings de caractéristiques spécifiques aux clients pour affiner efficacement des modèles de fondation visuels pour la segmentation d'images de télédétection, garantissant ainsi une agrégation globale adaptative et robuste face à l'hétérogénéité des données.

Xiaokang Zhang, Xuran Xiong, Jianzhong Huang, Lefei Zhang2026-03-10💻 cs

RobustSCI: Beyond Reconstruction to Restoration for Snapshot Compressive Imaging under Real-World Degradations

Le papier présente RobustSCI, une méthode pionnière qui transforme l'imagerie compressive par échantillonnage (SCI) vidéo d'une simple reconstruction en une véritable restauration capable de récupérer des scènes originales à partir de mesures dégradées par le flou de mouvement et la faible luminosité, grâce à un nouveau bloc de traitement et un benchmark réaliste.

Hao Wang, Yuanfan Li, Qi Zhou, Zhankuo Xu, Jiong Ni, Xin Yuan2026-03-10💻 cs

DocCogito: Aligning Layout Cognition and Step-Level Grounded Reasoning for Document Understanding

Le papier présente DocCogito, un cadre unifié qui aligne la perception globale de la mise en page et un raisonnement structuré ancré dans des régions spécifiques pour améliorer la compréhension de documents par les modèles de langage multimodaux, atteignant ainsi des performances de pointe sur plusieurs benchmarks.

Yuchuan Wu, Minghan Zhuo, Teng Fu, Mengyang Zhao, Bin Li, Xiangyang Xue2026-03-10💻 cs

A Unified View of Drifting and Score-Based Models

Ce papier établit un lien théorique précis entre les modèles de dérive et les modèles basés sur le score en démontrant que le champ de dérive moyen induit par un noyau gaussien correspond exactement à la différence de score entre les distributions de données et de modèle lissées, tout en fournissant des bornes d'erreur pour d'autres noyaux radiaux.

Chieh-Hsin Lai, Bac Nguyen, Naoki Murata, Yuhta Takida, Toshimitsu Uesaka, Yuki Mitsufuji, Stefano Ermon, Molei Tao2026-03-10🤖 cs.LG

EvolveReason: Self-Evolving Reasoning Paradigm for Explainable Deepfake Facial Image Identification

Le papier présente EvolveReason, un paradigme d'identification de deepfakes faciaux auto-évoluant qui combine un raisonnement de type humain via un jeu de données CoT-Face, une capture des distributions latentes de falsification et une stratégie d'exploration par apprentissage par renforcement pour surmonter les limites des méthodes existantes en termes d'explicabilité et de précision.

Binjia Zhou, Dawei Luo, Shuai Chen, Feng Xu, Seow, Haoyuan Li, Jiachi Wang, Jiawen Wang, Zunlei Feng, Yijun Bei2026-03-10💻 cs

SketchGraphNet: A Memory-Efficient Hybrid Graph Transformer for Large-Scale Sketch Corpora Recognition

Ce travail présente SketchGraphNet, une architecture hybride de graphes transformateurs économe en mémoire qui reconnaît des esquisses à grande échelle en les modélisant directement comme des graphes structurés, tout en établissant le nouveau benchmark SketchGraph de 3,44 millions d'échantillons pour l'évaluation systématique.

Shilong Chen, Mingyuan Li, Zhaoyang Wang, Zhonglin Ye, Haixing Zhao2026-03-10💻 cs

ACCURATE: Arbitrary-shaped Continuum Reconstruction Under Robust Adaptive Two-view Estimation

Le papier présente ACCURATE, un cadre de reconstruction 3D robuste et précis pour les corps continus de forme arbitraire, tels que les cathéters, qui combine un réseau de segmentation d'images et un algorithme de programmation dynamique pour garantir une cohérence géométrique biplanaire et atteindre une erreur absolue moyenne inférieure à 1,0 mm.

Yaozhi Zhang, Shun Yu, Yugang Zhang, Yang Liu2026-03-10💻 cs

Scale-Aware UAV-to-Satellite Cross-View Geo-Localization: A Semantic Geometric Approach

Cet article propose une approche géométrique et sémantique qui améliore la géolocalisation croisée drone-satellite en récupérant l'échelle métrique absolue à partir d'images monoculaires de drones en utilisant des véhicules comme repères, permettant ainsi un alignement des caractéristiques robuste face aux ambiguïtés d'échelle réelles.

Yibin Ye, Shuo Chen, Kun Wang, Xiaokai Song, Jisheng Dang, Qifeng Yu, Xichao Teng, Zhang Li2026-03-10💻 cs

How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation

Ce papier présente UniLongGen, une stratégie d'inférence sans entraînement qui améliore la fiabilité de la génération d'images intercalées à long terme en curant dynamiquement le contexte pour éliminer les signaux visuels polluants qui dégradent la qualité de la synthèse.

Haoyu Chen, Qing Liu, Yuqian Zhou, He Zhang, Zhaowen Wang, Mengwei Ren, Jingjing Ren, Xiang Wang, Zhe Lin, Lei Zhu2026-03-10💻 cs

CONSTANT: Towards High-Quality One-Shot Handwriting Generation with Patch Contrastive Enhancement and Style-Aware Quantization

Le papier présente CONSTANT, une nouvelle méthode de génération d'écriture manuscrite en un seul coup d'essai basée sur les modèles de diffusion, qui améliore la qualité et l'adaptation aux styles grâce à une quantification consciente du style et à une amélioration par contraste de patchs.

Anh-Duy Le, Van-Linh Pham, Thanh-Nam Vo, Xuan Toan Mai, Tuan-Anh Tran2026-03-10💻 cs

ReconDrive: Fast Feed-Forward 4D Gaussian Splatting for Autonomous Driving Scene Reconstruction

Le papier présente ReconDrive, un cadre prédictif en une seule passe qui améliore la reconstruction 4D de scènes de conduite autonome en adaptant le modèle de fondation VGGT via des têtes de prédiction hybrides et une composition statique-dynamique, offrant ainsi une qualité compétitive avec les méthodes d'optimisation itérative mais avec une vitesse de traitement bien supérieure.

Haibao Yu, Kuntao Xiao, Jiahang Wang, Ruiyang Hao, Yuxin Huang, Guoran Hu, Haifang Qin, Bowen Jing, Yuntian Bo, Ping Luo2026-03-10💻 cs

Active Inference for Micro-Gesture Recognition: EFE-Guided Temporal Sampling and Adaptive Learning

Cet article propose un cadre d'inférence active pour la reconnaissance de micro-gestes, combinant un échantillonnage temporel guidé par l'énergie libre attendue et un apprentissage adaptatif incertain, afin de surmonter les défis de variabilité inter-sujet et de bruit dans des conditions à faible échantillonnage.

Weijia Feng, Jingyu Yang, Ruojia Zhang, Fengtao Sun, Qian Gao, Chenyang Wang, Tongtong Su, Jia Guo, Xiaobai Li, Minglai Shao2026-03-10💻 cs

PureCC: Pure Learning for Text-to-Image Concept Customization

Le papier présente PureCC, une méthode d'apprentissage pur pour la personnalisation de concepts text-to-image qui, grâce à un objectif d'apprentissage découplé et une pipeline d'entraînement à double branche, permet de générer des concepts personnalisés de haute fidélité tout en préservant les capacités et le comportement d'origine du modèle.

Zhichao Liao, Xiaole Xian, Qingyu Li, Wenyu Qin, Meng Wang, Weicheng Xie, Siyang Song, Pingfa Feng, Long Zeng, Liang Pan2026-03-10💻 cs

Brain-WM: Brain Glioblastoma World Model

Le papier présente Brain-WM, un modèle de monde pionnier pour le glioblastome qui unifie la prédiction des traitements et la génération d'IRM futures via une architecture novatrice à mélange de transformateurs, permettant ainsi de simuler avec précision la dynamique co-évolutive entre la tumeur et les interventions thérapeutiques pour optimiser les soins cliniques.

Chenhui Wang, Boyun Zheng, Liuxin Bao, Zhihao Peng, Peter Y. M. Woo, Hongming Shan, Yixuan Yuan2026-03-10💻 cs