UrbanAlign: Post-hoc Semantic Calibration for VLM-Human Preference Alignment

Il paper presenta UrbanAlign, un framework post-hoc che allinea i modelli visione-linguaggio congelati alle preferenze umane per la valutazione degli spazi urbani, ottenendo prestazioni superiori attraverso un processo a tre stadi di estrazione concettuale e calibrazione senza modificare i pesi del modello.

Yecheng Zhang, Rong Zhao, Zhizhou Sha, Yong Li, Lei Wang, Ce Hou, Wen Ji, Hao Huang, Yunshan Wan, Jian Yu, Junhao Xia, Yuru Zhang, Chunlei Shi2026-03-09💻 cs

Probing and Bridging Geometry-Interaction Cues for Affordance Reasoning in Vision Foundation Models

Il paper dimostra che fondendo le rappresentazioni geometriche di DINO con le mappe di attenzione interattive di Flux in modo zero-shot, è possibile ottenere una stima dell'affordance competitiva, confermando che la percezione geometrica e quella interattiva sono i pilastri fondamentali della comprensione dell'affordance nei modelli visivi di base.

Qing Zhang, Xuesong Li, Jing Zhang2026-03-09💻 cs

UniVBench: Towards Unified Evaluation for Video Foundation Models

Il paper introduce UniVBench, un benchmark unificato e un sistema di valutazione agenziale (UniV-Eval) progettati per superare la frammentazione delle metriche attuali valutando in modo integrato le capacità di comprensione, generazione, editing e ricostruzione dei modelli fondazionali video su un dataset complesso di video multi-scena creati dall'uomo.

Jianhui Wei, Xiaotian Zhang, Yichen Li, Yuan Wang, Yan Zhang, Ziyi Chen, Zhihang Tang, Wei Xu, Zuozhu Liu2026-03-09💻 cs

Denoising as Path Planning: Training-Free Acceleration of Diffusion Models with DPCache

Il paper propone DPCache, un framework di accelerazione senza addestramento per i modelli di diffusione che tratta il campionamento come un problema di pianificazione globale del percorso, selezionando dinamicamente i passi chiave tramite programmazione dinamica per ridurre i costi computazionali mantenendo o migliorando la qualità visiva.

Bowen Cui, Yuanbin Wang, Huajiang Xu, Biaolong Chen, Aixi Zhang, Hao Jiang, Zhengzheng Jin, Xu Liu, Pipei Huang2026-03-09💻 cs

Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos

Il paper introduce Synthetic Visual Genome 2 (SVG2), un vasto dataset automatizzato di scene graph video spaziotemporali, e TRaSER, un modello che supera le prestazioni degli attuali baselines e di GPT-5 nel rilevamento di relazioni e oggetti, migliorando significativamente anche le capacità di risposta alle domande sui video.

Ziqi Gao, Jieyu Zhang, Wisdom Oluchi Ikezogwo, Jae Sung Park, Tario G. You, Daniel Ogbu, Chenhao Zheng, Weikai Huang, Yinuo Yang, Winson Han, Quan Kong, Rajat Saini, Ranjay Krishna2026-03-09💻 cs

Adaptive Dynamic Dehazing via Instruction-Driven and Task-Feedback Closed-Loop Optimization for Diverse Downstream Task Adaptation

Il paper propone un nuovo quadro di deoffuscamento adattivo e dinamico che utilizza un ciclo di ottimizzazione chiuso guidato da istruzioni testuali e feedback dai compiti a valle, permettendo al modello di adattare l'output in tempo reale alle esigenze specifiche di diverse applicazioni senza necessità di riaddestramento.

Yafei Zhang, Shuaitian Song, Huafeng Li, Shujuan Wang, Yu Liu2026-03-09💻 cs

CoEditor++: Instruction-based Visual Editing via Cognitive Reasoning

CoEditor++ è un framework di editing visivo basato su istruzioni e privo di addestramento che, attraverso un ragionamento cognitivo strutturato in due fasi e un meccanismo di auto-selezione riflessiva, supera le prestazioni degli attuali modelli open-source e chiusi garantendo una coerenza visiva superiore e un'interpretazione chiara delle modifiche.

Minheng Ni, Yutao Fan, Zhengyuan Yang, Yeli Shen, Yuxiang Wei, Yaowen Zhang, Lijuan Wang, Lei Zhang, Wangmeng Zuo2026-03-09💻 cs

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

Il paper presenta Omni-C, un singolo encoder denso basato su Transformer che comprime modalità eterogenee (immagini, audio e testo) in rappresentazioni condivise tramite pre-addestramento contrastivo, eliminando la necessità di architetture Mixture-of-Experts e riducendo significativamente l'uso di memoria rispetto ai modelli multimodali tradizionali.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de Gusmão2026-03-09🤖 cs.AI

Clinical-Injection Transformer with Domain-Adapted MAE for Lupus Nephritis Prognosis Prediction

Questo studio propone il primo quadro computazionale multimodale per la prognosi della nefrite lupica pediatrica, che combina dati clinici e istopatologici tramite un Transformer a iniezione clinica e un MAE adattato al dominio, ottenendo un'accuratezza del 90,1% nella previsione della risposta al trattamento utilizzando solo biopsie colorate con PAS.

Yuewen Huang, Zhitao Ye, Guangnan Feng, Fudan Zheng, Xia Gao, Yutong Lu2026-03-09🤖 cs.LG