SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

Il paper presenta SurgFed, un framework di apprendimento federato multi-task guidato dal linguaggio che, attraverso la selezione dei canali e l'aggregazione iper-parametrica basate su input testuali, supera le sfide della diversità dei tessuti e dei compiti per migliorare la segmentazione e la stima della profondità nei video chirurgici.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming Jin2026-03-11💻 cs

Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation

Il paper presenta Context-Nav, un approccio senza addestramento specifico che risolve la navigazione di istanze tramite descrizioni testuali lunghe integrando allineamenti testo-immagine per guidare l'esplorazione globale e un ragionamento spaziale 3D consapevole del punto di vista per verificare i candidati, ottenendo prestazioni all'avanguardia su InstanceNav e CoIN-Bench.

Won Shik Jang, Ue-Hwan Kim2026-03-11💻 cs

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

Questo lavoro esamina l'affidabilità dei modelli visione-linguaggio nell'assistenza alla guida, evidenziando le loro carenze nella coerenza delle risposte e nel ragionamento temporale, e propone il benchmark FutureVQA insieme a un metodo di addestramento auto-supervisionato per migliorare tali capacità senza richiedere etichette temporali.

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain Pagani2026-03-11💻 cs

Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks

Il paper introduce RuleSafe, un nuovo benchmark di manipolazione articolata con compiti non-Markoviani a lungo termine, e propone VQ-Memory, una rappresentazione temporale strutturata basata su VQ-VAE che migliora significativamente il ragionamento e la pianificazione dei modelli robotici in scenari complessi.

Wang Honghui, Jing Zhi, Ao Jicong, Song Shiji, Li Xuelong, Huang Gao, Bai Chenjia2026-03-11💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

Il paper presenta DCAU-Net, un nuovo framework per la segmentazione di immagini mediche che combina un'attenzione incrociata differenziale (DCA) per ridurre la complessità computazionale e un'attenzione spaziale-canale (CSFF) per integrare adattivamente le informazioni semantiche e spaziali, ottenendo così una maggiore accuratezza e robustezza rispetto ai metodi esistenti.

Yanxin Li, Hui Wan, Libin Lan2026-03-11💻 cs

Dynamic Multimodal Expression Generation for LLM-Driven Pedagogical Agents: From User Experience Perspective

Questo studio propone un metodo guidato da modelli linguistici di grandi dimensioni per generare espressioni multimodali dinamiche e semanticamente coerenti in agenti pedagogici per la realtà virtuale, dimostrando che tale approccio migliora significativamente l'efficacia percepita, l'engagement e la presenza sociale degli studenti, riducendo al contempo noia e affaticamento.

Ninghao Wan, Jiarun Song, Fuzheng Yang2026-03-11💻 cs

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

Questo lavoro propone una strategia di post-addestramento basata sul reinforcement learning, che estende l'ottimizzazione della politica relativa di gruppo (GRPO) ai modelli multimodali unificati, per abilitare la generazione intercalata di testo e immagini senza dipendere da grandi dataset specifici, migliorando significativamente la coerenza e la qualità in compiti come il racconto visivo.

Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li Zhang2026-03-11💻 cs

GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision

Il paper presenta GeoSolver, un nuovo framework che migliora il ragionamento passo-passo nei modelli visione-linguaggio per il telerilevamento attraverso un dataset di supervisione processuale su larga scala, un modello di ricompensa granulare e un algoritmo di apprendimento per rinforzo, ottenendo prestazioni all'avanguardia e una scalabilità durante il test-time.

Lang Sun, Ronghao Fu, Zhuoran Duan, Haoran Liu, Xueyan Liu, Bo Yang2026-03-11💻 cs