cs.CV articoli | Gist.Science

DRIFT: Dual-Representation Inter-Fusion Transformer for Automated Driving Perception with 4D Radar Point Clouds

Il paper presenta DRIFT, un modello basato su Transformer che utilizza un'architettura a doppio percorso per fondere efficacemente informazioni locali e globali dai punti cloud 4D dei radar, ottenendo prestazioni superiori nella rilevazione di oggetti e nella stima della strada libera rispetto ai metodi esistenti.

Siqi Pei, Andras Palffy, Dariu M. Gavrila2026-03-11💻 cs

TemporalDoRA: Temporal PEFT for Robust Surgical Video Question Answering

Il paper introduce TemporalDoRA, un metodo di adattamento efficiente dei parametri specifico per video che integra un'attenzione temporale nel bottleneck a basso rango per migliorare la robustezza e l'accuratezza nel rispondere a domande su video chirurgici, validando l'approccio sul nuovo dataset REAL-Colon-VQA.

Luca Carlini, Chiara Lena, Cesare Hassan, Danail Stoyanov, Elena De Momi, Sophia Bano, Mobarak I. Hoque2026-03-11💻 cs

TriFusion-SR: Joint Tri-Modal Medical Image Fusion and SR

Il paper presenta TriFusion-SR, un innovativo framework di diffusione condizionale guidato dalle ondelette che unisce fusione di immagini mediche tri-modali e super-risoluzione in un'unica fase, ottenendo prestazioni all'avanguardia attraverso una calibrazione adattiva delle caratteristiche spaziali e frequenziali.

Fayaz Ali Dharejo, Sharif S. M. A., Aiman Khalil, Nachiket Chaudhary, Rizwan Ali Naqvi, Radu Timofte2026-03-11💻 cs

ProGS: Towards Progressive Coding for 3D Gaussian Splatting

Il paper presenta ProGS, un nuovo codec di streaming che organizza i dati di Gaussian Splatting 3D in una struttura ad albero octree per abilitare la codifica progressiva, riducendo lo spazio di archiviazione di 45 volte e migliorando le prestazioni visive del 10% rispetto al formato originale.

Zhiye Tang, Lingzhuo Liu, Shengjie Jiao, Qiudan Zhang, Junhui Hou, You Yang, Xu Wang2026-03-11💻 cs

GSStream: 3D Gaussian Splatting based Volumetric Scene Streaming System

Il paper presenta GSStream, un innovativo sistema di streaming volumetrico basato su 3D Gaussian Splatting che integra la previsione collaborativa del punto di vista e l'adattamento del bitrate tramite apprendimento per rinforzo profondo per ottimizzare la distribuzione di scene in tempo reale riducendo l'uso della banda.

Zhiye Tang, Qiudan Zhang, Lei Zhang, Junhui Hou, You Yang, Xu Wang2026-03-11💻 cs

FrameDiT: Diffusion Transformer with Frame-Level Matrix Attention for Efficient Video Generation

Il paper introduce FrameDiT, un modello di generazione video basato su Diffusion Transformer che utilizza una nuova "Matrix Attention" a livello di fotogramma per bilanciare efficienza e coerenza temporale, ottenendo risultati all'avanguardia rispetto alle tecniche esistenti.

Minh Khoa Le, Kien Do, Duc Thanh Nguyen, Truyen Tran2026-03-11💻 cs

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

Il paper introduce EXPLORE-Bench, un nuovo benchmark basato su video in prima persona per valutare la capacità dei modelli linguistici multimodali di prevedere le conseguenze fisiche a lungo termine di azioni sequenziali in scenari egocentrici, evidenziando un significativo divario rispetto alle prestazioni umane e l'efficacia parziale del ragionamento passo-passo nel colmarlo.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun Zha2026-03-11🤖 cs.AI

FetalAgents: A Multi-Agent System for Fetal Ultrasound Image and Video Analysis

Il paper presenta FetalAgents, il primo sistema multi-agente progettato per orchestrare dinamicamente esperti visivi specializzati al fine di analizzare immagini e video ecografici fetali, generando report clinici strutturati con prestazioni superiori rispetto ai modelli esistenti.

Xiaotian Hu, Junwei Huang, Mingxuan Liu, Kasidit Anmahapong, Yifei Chen, Yitong Luo, Yiming Huang, Xuguang Bai, Zihan Li, Yi Liao, Haibo Qu, Qiyuan Tian2026-03-11💻 cs

$M^2$ -Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs

Il paper presenta $M^2$ -Occ, un framework innovativo per la previsione dell'occupazione semantica 3D che garantisce resilienza e coerenza strutturale in scenari di guida autonoma con input multivista incompleti, grazie a un modulo di ricostruzione mascherata e a una memoria di caratteristiche che recuperano informazioni mancanti senza compromettere le prestazioni in condizioni ottimali.

Kaixin Lin, Kunyu Peng, Di Wen, Yufan Chen, Ruiping Liu, Kailun Yang2026-03-11⚡ eess

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

Il paper introduce SACA, un nuovo framework di allineamento contrastivo step-aware che risolve le limitazioni degli attuali metodi di addestramento per la navigazione visione-linguaggio in ambienti continui, migliorando la generalizzazione e il recupero dagli errori attraverso una supervisione densa e un'analisi dettagliata dei singoli passaggi.

Haoyuan Li, Rui Liu, Hehe Fan, Yi Yang2026-03-11💻 cs

ENIGMA-360: An Ego-Exo Dataset for Human Behavior Understanding in Industrial Scenarios

Il paper presenta ENIGMA-360, un nuovo dataset sincronizzato di video ego- ed exocentrici raccolti in un ambiente industriale reale e annotati temporalmente e spazialmente per favorire la comprensione del comportamento umano e lo sviluppo di sistemi di sicurezza, evidenziando attraverso esperimenti basali le attuali limitazioni dei modelli nello scenario.

Francesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Daniele Di Mauro, Camillo Quattrocchi, Alessandro Passanisi, Irene D'Ambra, Antonino Furnari, Giovanni Maria Farinella2026-03-11💻 cs

LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

Il paper presenta LAP, un modello di pianificazione che sfrutta le descrizioni linguistiche derivate da un modello visione-linguaggio per superare l'ambiguità visiva e raggiungere prestazioni state-of-the-art nella pianificazione di procedure per video istruttivi.

Lei Shi, Victor Aregbede, Andreas Persson, Martin Längkvist, Amy Loutfi, Stephanie Lowry2026-03-11💻 cs

LogoDiffuser: Training-Free Multilingual Logo Generation and Stylization via Letter-Aware Attention Control

LogoDiffuser è un metodo senza addestramento che genera e stilizza loghi multilingue iniettando mappe di attenzione informative in un modello di diffusione multimodale, utilizzando i caratteri target come immagini per garantire un controllo strutturale preciso e coerente.

Mingyu Kang, Hyein Seo, Yuna Jeong, Junhyeong Park, Yong Suk Choi2026-03-11💻 cs

PanoAffordanceNet: Towards Holistic Affordance Grounding in 360{\deg} Indoor Environments

Il paper introduce PanoAffordanceNet, un nuovo framework end-to-end e il dataset 360-AGD per il grounding olistico delle affordance in ambienti interni a 360 gradi, superando le sfide delle distorsioni geometriche e della dispersione sematica attraverso modulatori spettrali adattivi e testine di densificazione sferica.

Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun Yang2026-03-11⚡ eess

Ego: Embedding-Guided Personalization of Vision-Language Models

Il paper propone un metodo efficiente per la personalizzazione dei modelli visione-linguaggio che, sfruttando i meccanismi di attenzione interna per estrarre token visivi come memoria concettuale, supera i limiti di scalabilità e complessità delle approcci esistenti senza richiedere fasi di addestramento aggiuntive.

Soroush Seifi, Simon Gardier, Vaggelis Dorovatas, Daniel Olmeda Reino, Rahaf Aljundi2026-03-11🤖 cs.AI

Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

Questo paper dimostra che le difese attuali contro i backdoor sono incomplete perché esistono "trigger alternativi" che attivano la stessa vulnerabilità nascosta, suggerendo che le contromisure devono mirare alle direzioni del backdoor nello spazio delle rappresentazioni anziché ai trigger specifici nello spazio degli input.

Gorka Abad, Ermes Franch, Stefanos Koffas, Stjepan Picek2026-03-11💻 cs

What is Missing? Explaining Neurons Activated by Absent Concepts

Questo lavoro evidenzia come i metodi di intelligenza artificiale spiegabile (XAI) trascurino spesso le "assenze codificate" nei neuroni, proponendo estensioni per rivelare questi concetti mancanti e migliorare sia l'interpretabilità dei modelli che le tecniche di debiasing.

Robin Hesse, Simone Schaub-Meyer, Janina Hesse, Bernt Schiele, Stefan Roth2026-03-11🤖 cs.LG

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

Questo articolo propone DCPGN, un nuovo metodo di adattamento in tempo di test che utilizza la crescita di prototipi multi-etichetta e la coerenza di indizi duali (visivi e testuali) per migliorare l'anticipazione delle azioni tra prospettive egocentriche ed esocentriche senza richiedere dati di addestramento nel dominio target.

Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang Li2026-03-11💻 cs

RA-SSU: Towards Fine-Grained Audio-Visual Learning with Region-Aware Sound Source Understanding

Questo lavoro introduce il nuovo compito di apprendimento audio-visivo "Region-Aware Sound Source Understanding" (RA-SSU), supportato dai dataset annotati f-Music e f-Lifescene e dal modello SSUFormer, che mira a ottenere una comprensione dettagliata delle sorgenti sonore a livello di regione e di fotogramma con prestazioni state-of-the-art.

Muyi Sun, Yixuan Wang, Hong Wang, Chen Su, Man Zhang, Xingqun Qi, Qi Li, Zhenan Sun2026-03-11💻 cs

ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

Il paper presenta ConfCtrl, un framework di interpolazione video consapevole della fiducia che risolve le sfide della sintesi di nuove viste da due immagini con grandi cambiamenti di prospettiva, permettendo ai modelli di diffusione di seguire traiettorie di camera precise e ricostruire regioni non visibili bilanciando proiezioni geometriche affidabili con correzioni residue apprese.

Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav Valada2026-03-11💻 cs

← Precedente Successivo →

cs.CV