MedicalPatchNet: A Patch-Based Self-Explainable AI Architecture for Chest X-ray Classification

Il paper presenta MedicalPatchNet, un'architettura di intelligenza artificiale auto-spiegabile per la classificazione delle radiografie del torace che, pur mantenendo prestazioni pari agli stati dell'arte, offre una trasparenza decisionale superiore attraverso l'analisi di patch individuali, migliorando così l'interpretabilità clinica e la fiducia negli strumenti diagnostici.

Patrick Wienholt, Christiane Kuhl, Jakob Nikolas Kather + 2 more2026-02-26🤖 cs.LG

RobustGait: Robustness Analysis for Appearance Based Gait Recognition

Il paper presenta RobustGait, un framework di benchmark che valuta in modo sistematico la robustezza dei sistemi di riconoscimento dell'andatura basati sull'aspetto contro diverse corruzioni e variabilità, rivelando l'impatto critico dei metodi di estrazione delle silhouette e proponendo strategie di addestramento per migliorare le prestazioni in scenari reali.

Reeshoon Sayera, Akash Kumar, Sirshapan Mitra + 2 more2026-02-26💻 cs

Aerial Vision-Language Navigation with a Unified Framework for Spatial, Temporal and Embodied Reasoning

Il paper presenta un framework unificato per la navigazione visivo-linguistica aerea che, operando esclusivamente su osservazioni RGB monocolari, supera le limitazioni dei metodi esistenti integrando percezione spaziale, ragionamento temporale e pianificazione delle azioni attraverso un'apprendimento multi-task guidato da prompt e strategie di ottimizzazione dei dati.

Huilin Xu, Zhuoyang Liu, Yixiang Luomei + 1 more2026-02-26🤖 cs.AI

VULCA-Bench: A Multicultural Vision-Language Benchmark for Evaluating Cultural Understanding

Il paper introduce VULCA-Bench, un benchmark multiculturale bilingue cinese-inglese composto da 7.410 coppie immagine-critica che valuta la comprensione culturale dei modelli visione-linguaggio attraverso un framework a cinque livelli, rivelando che il ragionamento di ordine superiore (L3-L5) rappresenta una sfida maggiore rispetto all'analisi visiva di base.

Haorui Yu, Diji Yang, Hang He + 2 more2026-02-26💬 cs.CL

FigEx2: Visual-Conditioned Panel Detection and Captioning for Scientific Compound Figures

Il paper presenta FigEx2, un framework visivo-condizionato che localizza e genera didascalie a livello di pannello per figure scientifiche composte, superando le limitazioni delle descrizioni a livello di figura grazie a un modulo di fusione adattivo, una strategia di ottimizzazione ibrida supervisionata-RL e un nuovo benchmark BioSci-Fig-Cap, ottenendo prestazioni superiori e una notevole trasferibilità zero-shot.

Jifeng Song, Arun Das, Pan Wang + 3 more2026-02-26💬 cs.CL