FedEU: Evidential Uncertainty-Driven Federated Fine-Tuning of Vision Foundation Models for Remote Sensing Image Segmentation

Il paper presenta FedEU, un framework di ottimizzazione federata che guida il fine-tuning di modelli foundation per la segmentazione di immagini remote tramite incertezza evidenziale e adattamenti specifici per il client, migliorando così l'affidabilità e la robustezza in ambienti con dati eterogenei.

Xiaokang Zhang, Xuran Xiong, Jianzhong Huang, Lefei Zhang2026-03-10💻 cs

RobustSCI: Beyond Reconstruction to Restoration for Snapshot Compressive Imaging under Real-World Degradations

Il paper introduce RobustSCI, il primo approccio che sposta l'obiettivo della compressione imaging a scatto (SCI) video dalla semplice ricostruzione alla restaurazione, permettendo di recuperare scene originali da misurazioni degradate da motion blur e scarsa illuminazione grazie a un nuovo blocco di rete e a un benchmark realistico.

Hao Wang, Yuanfan Li, Qi Zhou, Zhankuo Xu, Jiong Ni, Xin Yuan2026-03-10💻 cs

A Unified View of Drifting and Score-Based Models

Questo articolo stabilisce un legame preciso tra i modelli di "drifting" e quelli basati sul punteggio (score-based), dimostrando che il campo di spostamento medio con kernel Gaussiano coincide con la differenza dei punteggi su distribuzioni smussate e fornendo una decomposizione esatta e limiti di errore per kernel radiali generali, incluso il kernel Laplace.

Chieh-Hsin Lai, Bac Nguyen, Naoki Murata, Yuhta Takida, Toshimitsu Uesaka, Yuki Mitsufuji, Stefano Ermon, Molei Tao2026-03-10🤖 cs.LG

EvolveReason: Self-Evolving Reasoning Paradigm for Explainable Deepfake Facial Image Identification

Il paper presenta EvolveReason, un paradigma di ragionamento auto-evolutivo che combina un dataset a catena di pensiero, la cattura di cue di falsificazione nello spazio latente e una strategia di esplorazione basata sul reinforcement learning per migliorare l'identificazione e la spiegazione delle immagini facciali deepfake riducendo le allucinazioni dei modelli.

Binjia Zhou, Dawei Luo, Shuai Chen, Feng Xu, Seow, Haoyuan Li, Jiachi Wang, Jiawen Wang, Zunlei Feng, Yijun Bei2026-03-10💻 cs

Scale-Aware UAV-to-Satellite Cross-View Geo-Localization: A Semantic Geometric Approach

Questo articolo propone un approccio geometrico-semantico che risolve il problema dell'ambiguità di scala nella geolocalizzazione incrociata tra immagini UAV e satellitari, recuperando la scala metrica assoluta tramite l'uso di veicoli come ancoraggi semantic e un modello di proiezione stereoscopica disaccoppiato per migliorare l'allineamento delle caratteristiche e la robustezza del sistema.

Yibin Ye, Shuo Chen, Kun Wang, Xiaokai Song, Jisheng Dang, Qifeng Yu, Xichao Teng, Zhang Li2026-03-10💻 cs

How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation

Il paper introduce UniLongGen, una strategia di inferenza senza addestramento che risolve il collasso della qualità nella generazione di immagini intercalate a lungo termine curando dinamicamente la memoria del modello per eliminare i segnali visivi interferenti, garantendo così stabilità e coerenza nelle narrazioni estese.

Haoyu Chen, Qing Liu, Yuqian Zhou, He Zhang, Zhaowen Wang, Mengwei Ren, Jingjing Ren, Xiang Wang, Zhe Lin, Lei Zhu2026-03-10💻 cs

CONSTANT: Towards High-Quality One-Shot Handwriting Generation with Patch Contrastive Enhancement and Style-Aware Quantization

Il paper presenta CONSTANT, un nuovo metodo basato su modelli di diffusione che utilizza l'enhancement contrastivo a patch e la quantizzazione consapevole dello stile per generare immagini di scrittura a mano di alta qualità partendo da un'unica immagine di riferimento, superando le limitazioni delle tecniche attuali nella cattura delle caratteristiche stilistiche complesse.

Anh-Duy Le, Van-Linh Pham, Thanh-Nam Vo, Xuan Toan Mai, Tuan-Anh Tran2026-03-10💻 cs

ReconDrive: Fast Feed-Forward 4D Gaussian Splatting for Autonomous Driving Scene Reconstruction

Il paper presenta ReconDrive, un framework feed-forward che estende il modello fondazionale VGGT per generare rapidamente rappresentazioni 4D Gaussian Splatting ad alta fedeltà di scene di guida autonome, superando i limiti di scalabilità dei metodi iterativi e la qualità ridotta degli approcci feed-forward esistenti.

Haibao Yu, Kuntao Xiao, Jiahang Wang, Ruiyang Hao, Yuxin Huang, Guoran Hu, Haifang Qin, Bowen Jing, Yuntian Bo, Ping Luo2026-03-10💻 cs

Active Inference for Micro-Gesture Recognition: EFE-Guided Temporal Sampling and Adaptive Learning

Questo lavoro propone un framework di inferenza attiva per il riconoscimento di micro-gesti che, combinando il campionamento temporale guidato dall'Energia Libera Attesa (EFE) e un apprendimento adattivo consapevole dell'incertezza, supera le limitazioni dei modelli esistenti in condizioni di basso campione, rumore e variabilità inter-soggetto.

Weijia Feng, Jingyu Yang, Ruojia Zhang, Fengtao Sun, Qian Gao, Chenyang Wang, Tongtong Su, Jia Guo, Xiaobai Li, Minglai Shao2026-03-10💻 cs

PureCC: Pure Learning for Text-to-Image Concept Customization

Il paper presenta PureCC, un nuovo metodo di apprendimento puro per la personalizzazione dei concetti testo-immagine che, attraverso un obiettivo di apprendimento disaccoppiato e una scala di guida adattiva, garantisce un'alta fedeltà nella generazione di nuovi concetti preservando al contempo le capacità e il comportamento originale del modello.

Zhichao Liao, Xiaole Xian, Qingyu Li, Wenyu Qin, Meng Wang, Weicheng Xie, Siyang Song, Pingfa Feng, Long Zeng, Liang Pan2026-03-10💻 cs