Not Just What's There: Enabling CLIP to Comprehend Negated Visual Descriptions Without Fine-tuning

Il paper presenta CLIPGlasses, un framework plug-and-play che migliora la capacità di CLIP di comprendere descrizioni visive negate senza fine-tuning, utilizzando moduli "Lens" e "Frame" per disentanglare i significati negati e penalizzare le corrispondenze errate, ottenendo così prestazioni superiori, specialmente in scenari cross-domain e con risorse limitate.

Junhao Xiao, Zhiyu Wu, Hao Lin + 5 more2026-02-25💻 cs

VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation

Il paper presenta VAUQ, un framework di quantificazione dell'incertezza consapevole della visione che, misurando quanto l'output di un modello LVLM dipenda dalle evidenze visive tramite un punteggio di informazione sull'immagine e una strategia di mascheramento non supervisionata, offre una valutazione autonoma dell'accuratezza delle risposte superiore ai metodi esistenti.

Seongheon Park, Changdae Oh, Hyeong Kyu Choi + 2 more2026-02-25💬 cs.CL

UDVideoQA: A Traffic Video Question Answering Dataset for Multi-Object Spatio-Temporal Reasoning in Urban Dynamics

Questo lavoro presenta UDVideoQA, un nuovo dataset e benchmark per il Question Answering su video del traffico urbano, progettato per valutare e migliorare la capacità dei modelli linguistici visivi di eseguire ragionamenti spaziotemporali complessi su dinamiche multi-agente in scenari reali, garantendo al contempo la privacy attraverso tecniche di offuscamento dinamico.

Joseph Raj Vishal, Nagasiri Poluri, Katha Naik + 7 more2026-02-25💻 cs

SynthRender and IRIS: Open-Source Framework and Dataset for Bidirectional Sim-Real Transfer in Industrial Object Perception

Gli autori presentano SynthRender, un framework open-source per la generazione di immagini sintetiche con randomizzazione di dominio guidata, e IRIS, un nuovo dataset industriale, dimostrando come questa combinazione superi le tecniche esistenti per il trasferimento bidirezionale Sim-Real nella percezione di oggetti industriali, raggiungendo prestazioni superiori su diversi benchmark.

Jose Moises Araya-Martinez, Thushar Tom, Adrián Sanchis Reig + 3 more2026-02-25💻 cs

LUMEN: Longitudinal Multi-Modal Radiology Model for Prognosis and Diagnosis

Il paper presenta LUMEN, un nuovo framework di addestramento per modelli visione-linguaggio ottimizzato per l'interpretazione longitudinale di radiografie toraciche che, sfruttando il fine-tuning multi-immagine e multi-task su dataset come MIMIC-CXR, migliora significativamente le prestazioni diagnostiche e dimostra un potenziale promettente per la prognosi.

Zhifan Jiang, Dong Yang, Vishwesh Nath + 7 more2026-02-25🤖 cs.LG

SPRITETOMESH: Automatic Mesh Generation for 2D Skeletal Animation Using Learned Segmentation and Contour-Aware Vertex Placement

Il paper presenta SPRITETOMESH, una pipeline automatica ibrida che combina segmentazione neurale e algoritmi geometrici per convertire istantaneamente gli sprite 2D in mesh per l'animazione scheletrica, superando i limiti della predizione diretta delle posizioni dei vertici e riducendo i tempi di creazione manuale da minuti a pochi secondi.

Bastien Gimbert2026-02-25💻 cs

XMorph: Explainable Brain Tumor Analysis Via LLM-Assisted Hybrid Deep Intelligence

Il paper presenta XMorph, un framework di intelligenza artificiale spiegabile ed efficiente che combina un meccanismo di normalizzazione dei bordi pesato per l'informazione con un modulo ibrido LLM-GradCAM++ per ottenere un'accurata classificazione dei tumori cerebrali (96,0%) fornendo al contempo insight clinici interpretabili.

Sepehr Salem Ghahfarokhi, M. Moein Esfahani, Raj Sunderraman + 2 more2026-02-25🤖 cs.AI

Mask-HybridGNet: Graph-based segmentation with emergent anatomical correspondence from pixel-level supervision

Il paper introduce Mask-HybridGNet, un framework innovativo che addestra modelli di segmentazione basati su grafi utilizzando esclusivamente maschere pixel-wise standard, permettendo l'acquisizione emergente di corrispondenze anatomiche consistenti tra pazienti senza la necessità di annotazioni manuali di punti di riferimento.

Nicolás Gaggion, Maria J. Ledesma-Carbayo, Stergios Christodoulidis + 2 more2026-02-25💻 cs