PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation

Il paper introduce PrismAudio, un framework innovativo per la generazione audio da video che risolve l'entanglement degli obiettivi tramite un ragionamento Chain-of-Thought decomposto in quattro dimensioni e un nuovo algoritmo di apprendimento per rinforzo chiamato Fast-GRPO, ottenendo prestazioni state-of-the-art su un nuovo benchmark rigoroso denominato AudioCanvas.

Huadai Liu, Kaicheng Luo, Wen Wang + 6 more2026-03-04⚡ eess

UniDrive-WM: Unified Understanding, Planning and Generation World Model For Autonomous Driving

Il paper presenta UniDrive-WM, un modello del mondo unificato basato su vision-language models che integra comprensione della scena, pianificazione della traiettoria e generazione di immagini future in un'unica architettura, dimostrando prestazioni superiori nel benchmark Bench2Drive grazie a un ciclo di feedback che raffina iterativamente la guida autonoma.

Zhexiao Xiong, Xin Ye, Burhan Yaman + 5 more2026-03-04💻 cs

VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos

Il paper presenta VideoTemp-o3, un framework unificato di pensiero agenziale che armonizza l'individuazione temporale e la comprensione video, risolvendo le inefficienze dei metodi attuali attraverso un meccanismo di mascheramento unificato, ricompense dedicate per il reinforcement learning e un nuovo benchmark per la valutazione su video lunghi.

Wenqi Liu, Yunxiao Wang, Shijie Ma + 14 more2026-03-04🤖 cs.AI

WristMIR: Coarse-to-Fine Region-Aware Retrieval of Pediatric Wrist Radiographs with Radiology Report-Driven Learning

Il paper presenta WristMIR, un framework di recupero di radiografie del polso pediatriche che sfrutta report radiologici strutturati e localizzazione specifica delle ossa per migliorare l'accuratezza diagnostica e la rilevanza clinica attraverso un processo di recupero a due stadi, superando le prestazioni dei modelli di base senza richiedere annotazioni manuali delle immagini.

Mert Sonmezer, Serge Vasylechko, Duygu Atasoy + 2 more2026-03-04💻 cs

CRAFT-LoRA: Content-Style Personalization via Rank-Constrained Adaptation and Training-Free Fusion

Il paper presenta CRAFT-LoRA, un metodo che migliora la personalizzazione della generazione di immagini bilanciando fedeltà al contenuto e coerenza stilistica attraverso un adattamento a basso rango vincolato, un'aggregazione selettiva degli adapter guidata dal prompt e uno schema di guida senza classifier addestrato, ottenendo risultati ad alta fedeltà senza necessità di riaddestramento aggiuntivo.

Yu Li, Yujun Cai, Chi Zhang2026-03-04💻 cs

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

Il paper introduce CFE-Bench, un benchmark multimodale basato su esami universitari reali che valuta le capacità di ragionamento dei modelli linguistici in oltre 20 ambiti STEM, rivelando che, nonostante le buone prestazioni complessive, i modelli avanzati faticano a mantenere stati intermedi corretti durante soluzioni complesse e mostrano un'efficienza di passaggio inferiore rispetto alle soluzioni degli istruttori.

Chongyang Gao, Diji Yang, Shuyan Zhou + 4 more2026-03-04💬 cs.CL