LST-SLAM: A Stereo Thermal SLAM System for Kilometer-Scale Dynamic Environments

Il paper presenta LST-SLAM, un innovativo sistema di localizzazione e mappatura simultanea (SLAM) stereo termico progettato per ambienti dinamici su larga scala, che combina apprendimento auto-supervisionato delle caratteristiche termiche, tracciamento del movimento a doppio livello e vincoli ibridi semantico-geometrici per ottenere prestazioni robuste e precise in condizioni di illuminazione e meteo avverse.

Zeyu Jiang, Kuan Xu, Changhao Chen2026-02-25💻 cs

Not Just What's There: Enabling CLIP to Comprehend Negated Visual Descriptions Without Fine-tuning

Il paper presenta CLIPGlasses, un framework plug-and-play che migliora la capacità di CLIP di comprendere descrizioni visive negate senza fine-tuning, utilizzando moduli "Lens" e "Frame" per disentanglare i significati negati e penalizzare le corrispondenze errate, ottenendo così prestazioni superiori, specialmente in scenari cross-domain e con risorse limitate.

Junhao Xiao, Zhiyu Wu, Hao Lin + 5 more2026-02-25💻 cs

VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation

Il paper presenta VAUQ, un framework di quantificazione dell'incertezza consapevole della visione che, misurando quanto l'output di un modello LVLM dipenda dalle evidenze visive tramite un punteggio di informazione sull'immagine e una strategia di mascheramento non supervisionata, offre una valutazione autonoma dell'accuratezza delle risposte superiore ai metodi esistenti.

Seongheon Park, Changdae Oh, Hyeong Kyu Choi + 2 more2026-02-25💬 cs.CL

UDVideoQA: A Traffic Video Question Answering Dataset for Multi-Object Spatio-Temporal Reasoning in Urban Dynamics

Questo lavoro presenta UDVideoQA, un nuovo dataset e benchmark per il Question Answering su video del traffico urbano, progettato per valutare e migliorare la capacità dei modelli linguistici visivi di eseguire ragionamenti spaziotemporali complessi su dinamiche multi-agente in scenari reali, garantendo al contempo la privacy attraverso tecniche di offuscamento dinamico.

Joseph Raj Vishal, Nagasiri Poluri, Katha Naik + 7 more2026-02-25💻 cs

SynthRender and IRIS: Open-Source Framework and Dataset for Bidirectional Sim-Real Transfer in Industrial Object Perception

Gli autori presentano SynthRender, un framework open-source per la generazione di immagini sintetiche con randomizzazione di dominio guidata, e IRIS, un nuovo dataset industriale, dimostrando come questa combinazione superi le tecniche esistenti per il trasferimento bidirezionale Sim-Real nella percezione di oggetti industriali, raggiungendo prestazioni superiori su diversi benchmark.

Jose Moises Araya-Martinez, Thushar Tom, Adrián Sanchis Reig + 3 more2026-02-25💻 cs

LUMEN: Longitudinal Multi-Modal Radiology Model for Prognosis and Diagnosis

Il paper presenta LUMEN, un nuovo framework di addestramento per modelli visione-linguaggio ottimizzato per l'interpretazione longitudinale di radiografie toraciche che, sfruttando il fine-tuning multi-immagine e multi-task su dataset come MIMIC-CXR, migliora significativamente le prestazioni diagnostiche e dimostra un potenziale promettente per la prognosi.

Zhifan Jiang, Dong Yang, Vishwesh Nath + 7 more2026-02-25🤖 cs.LG