RobustGait: Robustness Analysis for Appearance Based Gait Recognition

Il paper presenta RobustGait, un framework di benchmark che valuta in modo sistematico la robustezza dei sistemi di riconoscimento dell'andatura basati sull'aspetto contro diverse corruzioni e variabilità, rivelando l'impatto critico dei metodi di estrazione delle silhouette e proponendo strategie di addestramento per migliorare le prestazioni in scenari reali.

Reeshoon Sayera, Akash Kumar, Sirshapan Mitra + 2 more2026-02-26💻 cs

Aerial Vision-Language Navigation with a Unified Framework for Spatial, Temporal and Embodied Reasoning

Il paper presenta un framework unificato per la navigazione visivo-linguistica aerea che, operando esclusivamente su osservazioni RGB monocolari, supera le limitazioni dei metodi esistenti integrando percezione spaziale, ragionamento temporale e pianificazione delle azioni attraverso un'apprendimento multi-task guidato da prompt e strategie di ottimizzazione dei dati.

Huilin Xu, Zhuoyang Liu, Yixiang Luomei + 1 more2026-02-26🤖 cs.AI

VULCA-Bench: A Multicultural Vision-Language Benchmark for Evaluating Cultural Understanding

Il paper introduce VULCA-Bench, un benchmark multiculturale bilingue cinese-inglese composto da 7.410 coppie immagine-critica che valuta la comprensione culturale dei modelli visione-linguaggio attraverso un framework a cinque livelli, rivelando che il ragionamento di ordine superiore (L3-L5) rappresenta una sfida maggiore rispetto all'analisi visiva di base.

Haorui Yu, Diji Yang, Hang He + 2 more2026-02-26💬 cs.CL

FigEx2: Visual-Conditioned Panel Detection and Captioning for Scientific Compound Figures

Il paper presenta FigEx2, un framework visivo-condizionato che localizza e genera didascalie a livello di pannello per figure scientifiche composte, superando le limitazioni delle descrizioni a livello di figura grazie a un modulo di fusione adattivo, una strategia di ottimizzazione ibrida supervisionata-RL e un nuovo benchmark BioSci-Fig-Cap, ottenendo prestazioni superiori e una notevole trasferibilità zero-shot.

Jifeng Song, Arun Das, Pan Wang + 3 more2026-02-26💬 cs.CL

Rectifying Geometry-Induced Similarity Distortions for Real-World Aerial-Ground Person Re-Identification

Il paper propone un nuovo framework per il riconoscimento di persone tra immagini aeree e terrestri che, superando l'assunzione errata di uno spazio di similarità invariante alla geometria, introduce un modulo di trasformazione a basso rango (GIQT) e un meccanismo di prompt condizionato alla geometria per correggere esplicitamente le distorsioni geometriche indotte dalle differenze di viewpoint e scala.

Kailash A. Hambarde, Hugo Proença2026-02-26💻 cs

HetroD: A High-Fidelity Drone Dataset and Benchmark for Autonomous Driving in Heterogeneous Traffic

Il paper presenta HetroD, un dataset e benchmark ad alta fedeltà basato su droni progettato per colmare il divario nello sviluppo di sistemi di guida autonoma in ambienti eterogenei dominati da utenti vulnerabili della strada, fornendo annotazioni precise e dimostrando che i modelli attuali faticano a gestire le complesse dinamiche di questo tipo di traffico.

Yu-Hsiang Chen, Wei-Jer Chang, Christian Kotulla + 7 more2026-02-26💻 cs

V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval

Il paper presenta V-Retrver, un framework di recupero multimodale guidato da agenti che supera i limiti dei metodi basati sul linguaggio integrando un processo di ragionamento intercalato in grado di generare ipotesi e verificarle attivamente tramite strumenti visivi esterni, ottenendo significativi miglioramenti nell'accuratezza e nell'affidabilità del ragionamento.

Dongyang Chen, Chaoyang Wang, Dezhao Su + 6 more2026-02-26💻 cs

Beyond Calibration: Confounding Pathology Limits Foundation Model Specificity in Abdominal Trauma CT

Lo studio rivela che, sebbene i modelli fondazionali per la TC del trauma addominale raggiungano una discriminazione paragonabile a quella dei modelli specifici per il compito, la loro scarsa specificità è determinata principalmente dall'eterogeneità delle classi negative (lesioni d'organo solido concomitanti) piuttosto che dalla sola prevalenza della patologia, indicando la necessità di un adattamento tramite training etichettato prima dell'implementazione clinica.

Jineel H Raythatha, Shuchang Ye, Jeremy Hsu + 1 more2026-02-26⚡ eess

Extracting and Analyzing Rail Crossing Behavior Signatures from Videos using Tensor Methods

Il paper propone un framework di decomposizione tensoriale multi-vista che, analizzando video di passaggi a livello tramite embedding TimeSformer, identifica firme comportamentali latenti rivelando che la posizione geografica è un determinante più forte dell'ora del giorno e consentendo il raggruppamento delle intersezioni per interventi di sicurezza mirati.

Dawon Ahn, Het Patel, Aemal Khattak + 2 more2026-02-26🤖 cs.LG