Learning to Fuse and Reconstruct Multi-View Graphs for Diabetic Retinopathy Grading

Il paper presenta MVGFDR, un framework end-to-end basato su fusione di grafi multi-vista che migliora la classificazione della retinopatia diabetica disaccoppiando le caratteristiche visive condivise e specifiche per vista attraverso l'inizializzazione di grafi, la fusione guidata dal dominio della frequenza e la ricostruzione mascherata, superando così gli approcci esistenti sul dataset MFIDDR.

Haoran Li, Yuxin Lin, Huan Wang + 9 more2026-02-26💻 cs

MindDriver: Introducing Progressive Multimodal Reasoning for Autonomous Driving

MindDriver è un nuovo framework di ragionamento multimodale progressivo che supera le limitazioni delle attuali strategie di pensiero a catena nei modelli visione-linguaggio per la guida autonoma, integrando comprensione semantica, immaginazione spazio-fisica e pianificazione di traiettorie attraverso un'annotazione dati guidata dal feedback e un affinamento progressivo per ottenere prestazioni superiori nelle valutazioni open-loop e closed-loop.

Lingjun Zhang, Yujian Yuan, Changjie Wu + 7 more2026-02-26💻 cs

PanoEnv: Exploring 3D Spatial Intelligence in Panoramic Environments with Reinforcement Learning

Il paper introduce PanoEnv, un benchmark VQA su larga scala per ambienti panoramici 3D e un framework di apprendimento per rinforzo basato su GRPO con un curriculum a due stadi, che insieme migliorano significativamente le capacità di ragionamento spaziale dei modelli visione-linguaggio, permettendo a un modello da 7B di superare le prestazioni di modelli più grandi.

Zekai Lin, Xu Zheng2026-02-26💻 cs

RT-RMOT: A Dataset and Framework for RGB-Thermal Referring Multi-Object Tracking

Gli autori propongono RT-RMOT, un nuovo compito di tracciamento multi-oggetto referenziato che fonde dati RGB e termici, supportato dal primo dataset multimodale RefRT e dal framework RTrack basato su un modello linguistico multimodale ottimizzato con strategie di apprendimento per rinforzo per garantire prestazioni robuste in condizioni di scarsa visibilità.

Yanqiu Yu, Zhifan Jin, Sijia Chen + 4 more2026-02-26💻 cs

Lumosaic: Hyperspectral Video via Active Illumination and Coded-Exposure Pixels

Il paper presenta Lumosaic, un sistema attivo e compatto per la cattura di video iperspettrali in tempo reale che combina un array LED a banda stretta con una fotocamera a pixel a esposizione codificata e un processo di ricostruzione basato sull'apprendimento per ottenere ricostruzioni spettralmente accurate e temporalmente coerenti anche in presenza di movimento.

Dhruv Verma, Andrew Qiu, Roberto Rangel + 8 more2026-02-26⚡ eess