LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

Il paper presenta LMOD+, un ampio dataset e benchmark multimodale per l'oftalmologia che espande significativamente le risorse precedenti per valutare le prestazioni dei modelli linguistici multimodali su diagnosi, stadiazione e rilevamento di bias, fornendo al contempo una valutazione sistematica di 24 modelli all'avanguardia.

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!

Il paper propone REVEL, un nuovo compito di manipolazione video interattiva in streaming che permette di modificare qualsiasi elemento in qualsiasi momento, e DragStream, un metodo senza addestramento che risolve i problemi di deriva latente e interferenza contestuale per garantire risultati visivamente coerenti nei modelli di diffusione video autoregressivi.

Junbao Zhou, Yuan Zhou, Kesen Zhao, Qingshan Xu, Beier Zhu, Richang Hong, Hanwang Zhang2026-03-10💻 cs

Unsupervised Deep Generative Models for Anomaly Detection in Neuroimaging: A Systematic Scoping Review

Questa revisione sistematica esamina l'applicazione dei modelli generativi profondi non supervisionati per il rilevamento di anomalie nelle neuroimmagini, evidenziando il loro potenziale per la localizzazione di patologie senza annotazioni voxel-level, pur sottolineando le sfide legate all'eterogeneità metodologica e alla validazione esterna.

Youwan Mahé, Elise Bannier, Stéphanie Leplaideur, Elisa Fromont, Francesca Galassi2026-03-10💻 cs

Taming Modality Entanglement in Continual Audio-Visual Segmentation

Questo lavoro introduce il nuovo compito di Segmentazione Audio-Visiva Continuale (CAVS) e propone il framework Collision-based Multi-modal Rehearsal (CMR) per mitigare la deriva semantica e la confusione da co-occorrenza, ottenendo risultati superiori rispetto ai metodi a modalità singola in scenari di apprendimento incrementale.

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

Il paper introduce Dream4Drive, un nuovo framework di generazione di dati sintetici che, decomponendo i video in mappe guida 3D e adattando modelli di mondo guidati, migliora significativamente le prestazioni dei modelli di percezione per la guida autonoma, specialmente nella gestione di casi limite, superando i limiti delle attuali strategie di addestramento.

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs

CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

Il paper introduce CountFormer, un framework basato su DINOv2 che, sostituendo l'encoder di immagini con rappresentazioni foundation auto-supervisionate, mira a migliorare la consistenza strutturale nel conteggio di oggetti senza esempi, ottenendo risultati competitivi su FSC-147 e riducendo gli errori di sovrastima legati a componenti simmetriche o strutture complesse.

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen2026-03-10💻 cs

Counting Through Occlusion: Framework for Open World Amodal Counting

Il paper presenta CountOCC, un framework innovativo per il conteggio amodale in scenari open world che supera i limiti delle attuali metodologie sotto occlusione ricostruendo le caratteristiche degli oggetti nascosti tramite guida multimodale gerarchica e un obiettivo di equivalenza visiva, ottenendo risultati allo stato dell'arte su dataset appositamente creati come FSC-147-OCC e CARPK-OCC.

Safaeid Hossain Arib, Rabeya Akter, Abdul Monaf Chowdhury, Md Jubair Ahmed Sourov, Md Mehedi Hasan2026-03-10💻 cs

Learning to Think Fast and Slow for Visual Language Models

Il paper presenta DualMindVLM, un modello di linguaggio visivo che implementa un meccanismo di pensiero duale adattivo, imitando la capacità umana di alternare risposte intuitive rapide a ragionamenti deliberati lenti in base alla complessità del compito, ottenendo così prestazioni di ragionamento all'avanguardia con un'efficienza dei token significativamente superiore rispetto ai modelli esistenti.

Chenyu Lin, Cheng Chi, Jinlin Wu, Sharon Li, Kaiyang Zhou2026-03-10💻 cs