RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

Il paper presenta RewardMap, un framework di apprendimento per rinforzo multi-fase che risolve il problema delle ricompense sparse nel ragionamento visivo fine-granularità introducendo il dataset ReasonMap-Plus e un meccanismo di ricompensa adattivo alla difficoltà, ottenendo significativi miglioramenti nelle capacità di ragionamento spaziale e visivo dei modelli linguistici multimodali.

Sicheng Feng, Kaiwen Tuo, Song Wang + 3 more2026-02-24🤖 cs.AI

SYNAPSE-Net: A Unified Framework with Lesion-Aware Hierarchical Gating for Robust Segmentation of Heterogeneous Brain Lesions

Il documento presenta SYNAPSE-Net, un framework unificato basato su codificatori convoluzionali multi-stream e un'attenzione incrociata modale, progettato per migliorare la robustezza e la generalizzabilità nella segmentazione automatica di lesioni cerebrali eterogenee utilizzando risonanza magnetica multimodale.

Md. Mehedi Hassan, Shafqat Alam, Shahriar Ahmed Seam + 1 more2026-02-24⚡ eess

BEAT: Visual Backdoor Attacks on VLM-based Embodied Agents via Contrastive Trigger Learning

Il paper introduce BEAT, il primo framework per iniettare backdoor visive negli agenti embodied basati su modelli visione-linguaggio tramite oggetti ambientali come trigger, utilizzando un innovativo apprendimento contrastivo per garantire un'attivazione precisa e generalizzabile mantenendo al contempo elevate prestazioni nelle attività normali.

Qiusi Zhan, Hyeonjeong Ha, Rui Yang + 7 more2026-02-24💬 cs.CL

PRISM: Diversifying Dataset Distillation by Decoupling Architectural Priors

Il paper presenta PRISM, un framework per la distillazione dei dataset che decoppia i prior architetturali utilizzando modelli insegnanti diversi per la corrispondenza dei logit e l'allineamento della normalizzazione di batch, ottenendo così dati sintetici più diversificati e prestazioni superiori rispetto ai metodi a insegnante singolo o multipli su ImageNet-1K.

Brian B. Moser, Shalini Sarode, Federico Raue + 6 more2026-02-24🤖 cs.AI

MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping

Il paper presenta MoDES, un framework senza addestramento che accelera l'inferenza dei modelli MLLM basati su Mixture-of-Experts attraverso l'elusione dinamica degli esperti, utilizzando un meccanismo di gating globale-localmente modulato e una ricerca frontiera per ottimizzare le soglie, ottenendo così significativi miglioramenti sia nelle prestazioni che nella velocità di calcolo rispetto ai metodi esistenti.

Yushi Huang, Zining Wang, Zhihang Yuan + 5 more2026-02-24💬 cs.CL

GuideFlow: Constraint-Guided Flow Matching for Planning in End-to-End Autonomous Driving

Il paper presenta GuideFlow, un innovativo framework di pianificazione per la guida autonoma end-to-end che utilizza il Flow Matching vincolato per generare traiettorie sicure, diversificate e controllabili, superando i limiti di collasso modale e di ottimizzazione post-generazione delle soluzioni precedenti e ottenendo risultati all'avanguardia sui principali benchmark.

Lin Liu, Caiyan Jia, Guanyi Yu + 6 more2026-02-24💻 cs