DynamicGTR: Leveraging Graph Topology Representation Preferences to Boost VLM Capabilities on Graph QAs

Il paper presenta DynamicGTR, un framework che potenzia le capacità dei Modelli Linguistici Visivi nel rispondere a domande su grafi selezionando dinamicamente la rappresentazione topologica ottimale per ogni query, migliorando così accuratezza, efficienza e trasferibilità su compiti reali senza necessità di ulteriore addestramento.

Yanbin Wei, Jiangyue Yan, Chun Kang + 4 more2026-02-26💬 cs.CL

A Framework for Cross-Domain Generalization in Coronary Artery Calcium Scoring Across Gated and Non-Gated Computed Tomography

Questo studio presenta CARD-ViT, un framework basato su un Vision Transformer auto-supervisionato addestrato esclusivamente su TC cardiache sincronizzate, che permette di eseguire con successo la valutazione del calcio coronarico anche su scansioni TC non sincronizzate, facilitando così lo screening cardiovascolare su larga scala senza necessità di esami aggiuntivi.

Mahmut S. Gokmen, Moneera N. Haque, Steve W. Leung + 6 more2026-02-26🤖 cs.AI

Learning to Fuse and Reconstruct Multi-View Graphs for Diabetic Retinopathy Grading

Il paper presenta MVGFDR, un framework end-to-end basato su fusione di grafi multi-vista che migliora la classificazione della retinopatia diabetica disaccoppiando le caratteristiche visive condivise e specifiche per vista attraverso l'inizializzazione di grafi, la fusione guidata dal dominio della frequenza e la ricostruzione mascherata, superando così gli approcci esistenti sul dataset MFIDDR.

Haoran Li, Yuxin Lin, Huan Wang + 9 more2026-02-26💻 cs

MindDriver: Introducing Progressive Multimodal Reasoning for Autonomous Driving

MindDriver è un nuovo framework di ragionamento multimodale progressivo che supera le limitazioni delle attuali strategie di pensiero a catena nei modelli visione-linguaggio per la guida autonoma, integrando comprensione semantica, immaginazione spazio-fisica e pianificazione di traiettorie attraverso un'annotazione dati guidata dal feedback e un affinamento progressivo per ottenere prestazioni superiori nelle valutazioni open-loop e closed-loop.

Lingjun Zhang, Yujian Yuan, Changjie Wu + 7 more2026-02-26💻 cs

PanoEnv: Exploring 3D Spatial Intelligence in Panoramic Environments with Reinforcement Learning

Il paper introduce PanoEnv, un benchmark VQA su larga scala per ambienti panoramici 3D e un framework di apprendimento per rinforzo basato su GRPO con un curriculum a due stadi, che insieme migliorano significativamente le capacità di ragionamento spaziale dei modelli visione-linguaggio, permettendo a un modello da 7B di superare le prestazioni di modelli più grandi.

Zekai Lin, Xu Zheng2026-02-26💻 cs

RT-RMOT: A Dataset and Framework for RGB-Thermal Referring Multi-Object Tracking

Gli autori propongono RT-RMOT, un nuovo compito di tracciamento multi-oggetto referenziato che fonde dati RGB e termici, supportato dal primo dataset multimodale RefRT e dal framework RTrack basato su un modello linguistico multimodale ottimizzato con strategie di apprendimento per rinforzo per garantire prestazioni robuste in condizioni di scarsa visibilità.

Yanqiu Yu, Zhifan Jin, Sijia Chen + 4 more2026-02-26💻 cs