cs.CV articoli | Gist.Science

UrbanAlign: Post-hoc Semantic Calibration for VLM-Human Preference Alignment

Il paper presenta UrbanAlign, un framework post-hoc che allinea i modelli visione-linguaggio congelati alle preferenze umane per la valutazione degli spazi urbani, ottenendo prestazioni superiori attraverso un processo a tre stadi di estrazione concettuale e calibrazione senza modificare i pesi del modello.

Yecheng Zhang, Rong Zhao, Zhizhou Sha, Yong Li, Lei Wang, Ce Hou, Wen Ji, Hao Huang, Yunshan Wan, Jian Yu, Junhao Xia, Yuru Zhang, Chunlei Shi2026-03-09💻 cs

Probing and Bridging Geometry-Interaction Cues for Affordance Reasoning in Vision Foundation Models

Il paper dimostra che fondendo le rappresentazioni geometriche di DINO con le mappe di attenzione interattive di Flux in modo zero-shot, è possibile ottenere una stima dell'affordance competitiva, confermando che la percezione geometrica e quella interattiva sono i pilastri fondamentali della comprensione dell'affordance nei modelli visivi di base.

Qing Zhang, Xuesong Li, Jing Zhang2026-03-09💻 cs

StoryTailor:A Zero-Shot Pipeline for Action-Rich Multi-Subject Visual Narratives

Il paper presenta StoryTailor, una pipeline zero-shot che genera su una singola GPU narrativa visive multi-soggetto coerenti nel tempo, preservando l'identità dei soggetti e la fedeltà delle azioni attraverso tre moduli innovativi: Gaussian-Centered Attention, Action-Boost Singular Value Reweighting e Selective Forgetting Cache.

Jinghao Hu, Yuhe Zhang, GuoHua Geng, Kang Li, Han Zhang2026-03-09💻 cs

UniVBench: Towards Unified Evaluation for Video Foundation Models

Il paper introduce UniVBench, un benchmark unificato e un sistema di valutazione agenziale (UniV-Eval) progettati per superare la frammentazione delle metriche attuali valutando in modo integrato le capacità di comprensione, generazione, editing e ricostruzione dei modelli fondazionali video su un dataset complesso di video multi-scena creati dall'uomo.

Jianhui Wei, Xiaotian Zhang, Yichen Li, Yuan Wang, Yan Zhang, Ziyi Chen, Zhihang Tang, Wei Xu, Zuozhu Liu2026-03-09💻 cs

Protein Graph Neural Networks for Heterogeneous Cryo-EM Reconstruction

Il lavoro presenta un metodo basato su reti neurali a grafo geometricamente consapevoli per la ricostruzione eterogenea di criomicroscopia elettronica a singola particella, che supera le prestazioni dei multilayer perceptron sfruttando un'induzione di bias strutturale per prevedere le conformazioni atomiche dello scheletro proteico.

Jonathan Krook, Axel Janson, Joakim Andén + 2 more2026-03-09💻 cs

Denoising as Path Planning: Training-Free Acceleration of Diffusion Models with DPCache

Il paper propone DPCache, un framework di accelerazione senza addestramento per i modelli di diffusione che tratta il campionamento come un problema di pianificazione globale del percorso, selezionando dinamicamente i passi chiave tramite programmazione dinamica per ridurre i costi computazionali mantenendo o migliorando la qualità visiva.

Bowen Cui, Yuanbin Wang, Huajiang Xu, Biaolong Chen, Aixi Zhang, Hao Jiang, Zhengzheng Jin, Xu Liu, Pipei Huang2026-03-09💻 cs

Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos

Il paper introduce Synthetic Visual Genome 2 (SVG2), un vasto dataset automatizzato di scene graph video spaziotemporali, e TRaSER, un modello che supera le prestazioni degli attuali baselines e di GPT-5 nel rilevamento di relazioni e oggetti, migliorando significativamente anche le capacità di risposta alle domande sui video.

Ziqi Gao, Jieyu Zhang, Wisdom Oluchi Ikezogwo, Jae Sung Park, Tario G. You, Daniel Ogbu, Chenhao Zheng, Weikai Huang, Yinuo Yang, Winson Han, Quan Kong, Rajat Saini, Ranjay Krishna2026-03-09💻 cs

Adaptive Dynamic Dehazing via Instruction-Driven and Task-Feedback Closed-Loop Optimization for Diverse Downstream Task Adaptation

Il paper propone un nuovo quadro di deoffuscamento adattivo e dinamico che utilizza un ciclo di ottimizzazione chiuso guidato da istruzioni testuali e feedback dai compiti a valle, permettendo al modello di adattare l'output in tempo reale alle esigenze specifiche di diverse applicazioni senza necessità di riaddestramento.

Yafei Zhang, Shuaitian Song, Huafeng Li, Shujuan Wang, Yu Liu2026-03-09💻 cs

Cross-Scale Pansharpening via ScaleFormer and the PanScale Benchmark

Il paper introduce PanScale, il primo dataset e benchmark su larga scala per la pansharpening cross-scale, e propone ScaleFormer, una nuova architettura basata su trasformatori che generalizza efficacemente tra diverse risoluzioni trattando l'immagine come una sequenza di patch variabile.

Ke Cao, Xuanhua He, Xueheng Li, Lingting Zhu, Yingying Wang, Ao Ma, Zhanjie Zhang, Man Zhou, Chengjun Xie, Jie Zhang2026-03-09💻 cs

Mobile-VTON: High-Fidelity On-Device Virtual Try-On

Il paper presenta Mobile-VTON, un framework privacy-preserving che abilita il virtual try-on ad alta fedeltà su dispositivi mobili offline, superando i limiti delle soluzioni basate su cloud grazie a un'architettura modulare ottimizzata e tecniche di distillazione avanzate.

Zhenchen Wan, Ce Chen, Runqi Lin, Jiaxin Huang, Tianxi Chen, Yanwu Xu, Tongliang Liu, Mingming Gong2026-03-09💻 cs

Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery

Questo lavoro propone una decomposizione funzionale ad anello tensoriale reparametrizzata basata su rappresentazioni neurali implicite, che supera i limiti delle decomposizioni tradizionali su griglie fisse e migliora il recupero di dati multidimensionali attraverso un'analisi spettrale e una nuova inizializzazione dei fattori.

Yangyang Xu, Junbo Ke, You-Wei Wen, Chao Wang2026-03-09🤖 cs.AI

FastLightGen: Fast and Light Video Generation with Fewer Steps and Parameters

Il paper presenta FastLightGen, un algoritmo innovativo che trasforma i modelli di generazione video pesanti in versioni veloci e leggere riducendo simultaneamente il numero di parametri e i passi di campionamento, ottenendo così risultati di qualità superiore rispetto agli stati dell'arte esistenti.

Shitong Shao, Yufei Gu, Zeke Xie2026-03-09💻 cs

VSearcher: Long-Horizon Multimodal Search Agent via Reinforcement Learning

Il paper presenta VSearcher, un agente di ricerca multimodale addestrato tramite apprendimento per rinforzo che trasforma modelli statici in sistemi capaci di eseguire ricerche complesse e multi-turno sul web, integrando testo, immagini e navigazione, e che supera le prestazioni di modelli proprietari su benchmark dedicati.

Ruiyang Zhang, Qianguo Sun, Chao Song, Yiyan Qi, Zhedong Zheng2026-03-09💻 cs

Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models

Il paper propone "Think-as-You-See" (TaYS), un framework unificato che abilita il ragionamento concorrente e in streaming per i Large Vision-Language Models, superando i limiti dei paradigmi batch e interleaved per migliorare le prestazioni di ragionamento e ridurre la latenza nell'analisi video.

Jialiang Zhang, Junlong Tong, Junyan Lin, Hao Wu, Yirong Sun, Yunpu Ma, Xiaoyu Shen2026-03-09💻 cs

CoEditor++: Instruction-based Visual Editing via Cognitive Reasoning

CoEditor++ è un framework di editing visivo basato su istruzioni e privo di addestramento che, attraverso un ragionamento cognitivo strutturato in due fasi e un meccanismo di auto-selezione riflessiva, supera le prestazioni degli attuali modelli open-source e chiusi garantendo una coerenza visiva superiore e un'interpretazione chiara delle modifiche.

Minheng Ni, Yutao Fan, Zhengyuan Yang, Yeli Shen, Yuxiang Wei, Yaowen Zhang, Lijuan Wang, Lei Zhang, Wangmeng Zuo2026-03-09💻 cs

RoboLayout: Differentiable 3D Scene Generation for Embodied Agents

Il paper introduce RoboLayout, un'estensione di LayoutVLM che genera scene 3D semanticamente coerenti e fisicamente fattibili per agenti incarnati, integrando vincoli di raggiungibilità differenziabili e una fase di raffinamento locale per ottimizzare la disposizione degli oggetti in base alle capacità fisiche specifiche dell'agente.

Ali Shamsaddinlou2026-03-09🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

Il paper presenta Omni-C, un singolo encoder denso basato su Transformer che comprime modalità eterogenee (immagini, audio e testo) in rappresentazioni condivise tramite pre-addestramento contrastivo, eliminando la necessità di architetture Mixture-of-Experts e riducendo significativamente l'uso di memoria rispetto ai modelli multimodali tradizionali.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de Gusmão2026-03-09🤖 cs.AI

Clinical-Injection Transformer with Domain-Adapted MAE for Lupus Nephritis Prognosis Prediction

Questo studio propone il primo quadro computazionale multimodale per la prognosi della nefrite lupica pediatrica, che combina dati clinici e istopatologici tramite un Transformer a iniezione clinica e un MAE adattato al dominio, ottenendo un'accuratezza del 90,1% nella previsione della risposta al trattamento utilizzando solo biopsie colorate con PAS.

Yuewen Huang, Zhitao Ye, Guangnan Feng, Fudan Zheng, Xia Gao, Yutong Lu2026-03-09🤖 cs.LG

Edges Are All You Need: Robust Gait Recognition via Label-Free Structure

Il paper propone SKETCHGAIT, un nuovo framework per il riconoscimento dell'andatura che supera i limiti delle rappresentazioni basate su silhouette e parsing introducendo una modalità visiva "sketch" estratta in modo privo di etichette dai contorni strutturali delle immagini RGB, ottenendo risultati superiori su dataset pubblici.

Chao Zhang, Zhuang Zheng, Ruixin Li, Zhanyong Mei2026-03-09💻 cs

Digital-Twin Losses for Lane-Compliant Trajectory Prediction at Urban Intersections

Questo articolo presenta una pipeline di previsione delle traiettorie guidata dal gemello digitale per incroci urbani V2X, che combina un generatore Bi-LSTM con una funzione di perdita innovativa per garantire previsioni accurate, sicure e conformi alle regole del traffico riducendo le violazioni critiche.

Kuo-Yi Chao, Erik Leo Haß, Melina Gegg, Jiajie Zhang, Ralph Raßhofer, Alois Christian Knoll2026-03-09💻 cs

← Precedente Successivo →