cs.CV articoli | Gist.Science

Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration

Questo paper introduce ICBench per diagnosticare la "cecità linguistica" nei modelli VLA, che ignorano le istruzioni contraddittorie favorendo le priorità visive, e propone IGAR, un metodo senza riaddestramento che ripristina l'attenzione alle istruzioni durante l'inferenza per prevenire azioni errate.

Ninghao Zhang, Bin Zhu, Shijie Zhou, Jingjing Chen2026-03-09🤖 cs.AI

Demystifying KAN for Vision Tasks: The RepKAN Approach

Il paper presenta RepKAN, una nuova architettura per la classificazione di immagini di telerilevamento che combina l'efficienza delle CNN con la potenza rappresentativa dei KAN per ottenere modelli ad alte prestazioni e fisicamente interpretabili, superando lo stato dell'arte su dataset come EuroSAT e NWPU-RESISC45.

Minjong Cheon2026-03-09🤖 cs.AI

EffectMaker: Unifying Reasoning and Generation for Customized Visual Effect Creation

EffectMaker è un framework unificato di ragionamento e generazione che, sfruttando un modello linguistico multimodale e un trasformatore di diffusione addestrato su un vasto dataset sintetico, permette la creazione personalizzata di effetti visivi video di alta qualità senza necessità di addestramento specifico per ogni effetto.

Shiyuan Yang, Ruihuang Li, Jiale Tao, Shuai Shao, Qinglin Lu, Jing Liao2026-03-09💻 cs

MOSIV: Multi-Object System Identification from Videos

Il paper introduce MOSIV, un nuovo framework che risolve il problema dell'identificazione di sistemi multi-oggetto dai video ottimizzando direttamente i parametri materiali continui per ogni oggetto tramite un simulatore differenziabile, superando i limiti dei metodi precedenti e offrendo un benchmark sintetico per valutare l'accuratezza e la fedeltà della simulazione a lungo termine.

Chunjiang Liu, Xiaoyuan Wang, Qingran Lin, Albert Xiao, Haoyu Chen, Shizheng Wen, Hao Zhang, Lu Qi, Ming-Hsuan Yang, Laszlo A. Jeni, Min Xu, Yizhou Zhao2026-03-09💻 cs

ViewFusion: Structured Spatial Thinking Chains for Multi-View Reasoning

Il paper presenta ViewFusion, un framework a due stadi che migliora il ragionamento spaziale multi-vista separando l'allineamento spaziale pre-attento dalla risposta alla domanda, ottenendo risultati significativamente superiori rispetto ai modelli esistenti su benchmark specifici.

Xingjian Tao, Yiwei Wang, Yujun Cai, Yifan Song, Jing Tang2026-03-09💬 cs.CL

StruVis: Enhancing Reasoning-based Text-to-Image Generation via Thinking with Structured Vision

Il paper presenta StruVis, un nuovo framework che migliora la generazione di immagini da testo basata sul ragionamento utilizzando rappresentazioni visive strutturate testuali come stati intermedi, permettendo così ai modelli linguistici multimediali di "percepire" la struttura visiva senza generare immagini intermedie e integrandosi in modo efficiente con diversi generatori.

Yuanhuiyi Lyu, Kaiyu Lei, Ziqiao Weng, Xu Zheng, Lutao Jiang, Teng Li, Yangfu Li, Ziyuan Huang, Linfeng Zhang, Xuming Hu2026-03-09💻 cs

Occlusion-Aware SORT: Observing Occlusion for Robust Multi-Object Tracking

Il paper presenta OA-SORT, un framework di tracciamento multi-oggetto plug-and-play e senza addestramento che migliora la robustezza agli ingombri parziali attraverso moduli specifici per l'analisi dell'occlusione, ottenendo risultati superiori su diversi dataset di benchmark.

Chunjiang Li, Jianbo Ma, Li Shen, Yanru Chen, Liangyin Chen2026-03-09💻 cs

Ensemble Learning with Sparse Hypercolumns

Questo lavoro affronta la complessità computazionale degli ipercolonne dense applicando il sottocampionamento stratificato e l'apprendimento di ensemble su ipercolonne sparse derivate da VGG16, dimostrando che tale approccio migliora significativamente le prestazioni nella segmentazione di tumori cerebrali in scenari a pochi esempi rispetto alla baseline UNet.

Julia Dietlmeier, Vayangi Ganepola, Oluwabukola G. Adegboro, Mayug Maniparambil, Claudia Mazo, Noel E. O'Connor2026-03-09💻 cs

FontUse: A Data-Centric Approach to Style- and Use-Case-Conditioned In-Image Typography

Il paper presenta FontUse, un approccio basato sui dati che utilizza un dataset su larga scala annotato automaticamente con stili tipografici e casi d'uso per migliorare la capacità dei modelli di generazione di immagini di rispettare le richieste tipografiche senza modifiche architetturali.

Xia Xin, Yuki Endo, Yoshihiro Kanamori2026-03-09💻 cs

Learning to Generate via Understanding: Understanding-Driven Intrinsic Rewarding for Unified Multimodal Models

Il paper propone GvU, un meccanismo di ricompensa intrinseca che sfrutta la capacità di comprensione dei modelli multimodali unificati per guidare e migliorare la generazione di immagini tramite apprendimento per rinforzo auto-supervisionato, riducendo così il divario tra comprensione visiva e generazione.

Jiadong Pan, Liang Li, Yuxin Peng, Yu-Ming Tang, Shuohuan Wang, Yu Sun, Hua Wu, Qingming Huang, Haifeng Wang2026-03-09💻 cs

GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection

Il paper presenta GenHOI, un'architettura leggera che potenzia i modelli di generazione video preaddestrati mediante un'iniezione selettiva di oggetti riferiti, bilanciata temporalmente e spazialmente, per garantire coerenza fisica e identità degli oggetti nelle interazioni mano-oggetto in scenari complessi e non controllati.

Xuan Huang, Mochu Xiang, Zhelun Shen, Jinbo Wu, Chenming Wu, Chen Zhao, Kaisiyuan Wang, Hang Zhou, Shanshan Liu, Haocheng Feng, Wei He, Jingdong Wang2026-03-09💻 cs

Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models

Il paper presenta Curious-VLA, un framework che supera i limiti delle politiche ristrette nei modelli VLA per la guida autonoma attraverso una strategia di espansione delle traiettorie fattibili e un campionamento adattivo, ottenendo risultati all'avanguardia sul benchmark Navsim.

Canyu Chen, Yuguang Yang, Zhewen Tan, Yizhi Wang, Ruiyi Zhan, Haiyan Liu, Xuanyao Mao, Jason Bao, Xinyue Tang, Linlin Yang, Bingchuan Sun, Yan Wang, Baochang Zhang2026-03-09💻 cs

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

Questo studio analizza le attivazioni intermedie dei modelli visione-linguaggio per l'automazione stradale, identificando che i fallimenti derivano sia da incapacità percettive (mancata codifica lineare di concetti visivi come l'orientamento) sia da errori cognitivi (mancato allineamento tra informazioni visive e semantica linguistica), con una ridotta separabilità dei concetti all'aumentare della distanza degli oggetti.

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy2026-03-09🤖 cs.AI

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

Il paper introduce TempoSyncDiff, un framework di diffusione latente basato su distillazione che genera volti parlanti guidati dall'audio con alta fedeltà temporale e bassa latenza, rendendo possibile il loro utilizzo su dispositivi edge.

Soumya Mazumdar, Vineet Kumar Rakesh2026-03-09🤖 cs.AI

Transforming Omnidirectional RGB-LiDAR data into 3D Gaussian Splatting

Questo lavoro presenta una pipeline innovativa che trasforma log sensoriali omnidirezionali RGB-LiDAR esistenti, spesso sottoutilizzati, in asset di inizializzazione robusti per il 3D Gaussian Splatting, superando le distorsioni e l'overhead computazionale per generare gemelli digitali di alta qualità.

Semin Bae, Hansol Lim, Jongseong Brad Choi2026-03-09💻 cs

Text-Driven Emotionally Continuous Talking Face Generation

Il paper propone un nuovo compito di generazione di volti parlanti emotivamente continui (EC-TFG) e il modello TIE-TFG associato, capaci di sintetizzare video realistici in cui le espressioni facciali cambiano dinamicamente in risposta a variazioni emotive descritte nel testo di input.

Hao Yang, Yanyan Zhao, Tian Zheng, Hongbo Zhang, Bichen Wang, Di Wu, Xing Fu, Xuda Zhi, Yongbo Huang, Hao He2026-03-09🤖 cs.AI

Lyapunov Probes for Hallucination Detection in Large Foundation Models

Il paper propone i "Lyapunov Probes", un metodo innovativo che applica la teoria della stabilità dei sistemi dinamici per rilevare le allucinazioni nei modelli linguistici e multimodali di grandi dimensioni identificando le regioni instabili dello spazio delle rappresentazioni attraverso l'analisi delle perturbazioni.

Bozhi Luan, Gen Li, Yalan Qin, Jifeng Guo, Yun Zhou, Faguo Wu, Hongwei Zheng, Wenjun Wu, Zhaoxin Fan2026-03-09💻 cs

DeepSight: Bridging Depth Maps and Language with a Depth-Driven Multimodal Model

Il paper introduce DeepSight, il primo modello linguistico multimodale dedicato che migliora la comprensione tridimensionale delle scene sfruttando le mappe di profondità come input principale, supportato da un nuovo dataset e benchmark specifici per superare i limiti dei modelli esistenti nella percezione spaziale.

Hao Yang, Hongbo Zhang, Yanyan Zhao, Bing Qin2026-03-09💬 cs.CL

Enhancing Neural Video Compression of Static Scenes with Positive-Incentive Noise

Il paper propone un metodo di compressione video neurale per scene statiche che incorpora un "rumore a incentivo positivo" per distinguere le variazioni temporali transitorie dallo sfondo persistente, permettendo di ridurre significativamente il consumo di banda mantenendo la fedeltà a livello di pixel senza introdurre dettagli allucinati.

Cheng Yuan, Zhenyu Jia, Jiawei Shao, Xuelong Li2026-03-09💻 cs

FedARKS: Federated Aggregation via Robust and Discriminative Knowledge Selection and Integration for Person Re-identification

Il paper propone FedARKS, un nuovo framework di federated learning per il re-identificazione delle persone che supera i limiti delle attuali metodologie di generalizzazione di dominio integrando due meccanismi, Robust Knowledge e Knowledge Selection, per catturare dettagli locali discriminativi e selezionare attivamente i contributi dei client più affidabili durante l'aggregazione.

Xin Xu, Binchang Ma, Zhixi Yu, Wei Liu2026-03-09💻 cs

← Precedente Successivo →