CASR-Net: An Image Processing-focused Deep Learning-based Coronary Artery Segmentation and Refinement Network for X-ray Coronary Angiogram

Il paper presenta CASR-Net, una rete di deep learning innovativa basata su un'architettura UNet con encoder DenseNet121 e decoder Self-ONN, che integra una strategia di pre-elaborazione multicanale e un modulo di raffinamento per migliorare l'accurata segmentazione e il recupero delle arterie coronariche in angiografie a raggi X, superando le prestazioni degli attuali modelli avanzati.

Alvee Hassan, Rusab Sarmun, Muhammad E. H. Chowdhury + 4 more2026-03-04🤖 cs.AI

PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation

Il paper introduce PrismAudio, un framework innovativo per la generazione audio da video che risolve l'entanglement degli obiettivi tramite un ragionamento Chain-of-Thought decomposto in quattro dimensioni e un nuovo algoritmo di apprendimento per rinforzo chiamato Fast-GRPO, ottenendo prestazioni state-of-the-art su un nuovo benchmark rigoroso denominato AudioCanvas.

Huadai Liu, Kaicheng Luo, Wen Wang + 6 more2026-03-04⚡ eess

UniDrive-WM: Unified Understanding, Planning and Generation World Model For Autonomous Driving

Il paper presenta UniDrive-WM, un modello del mondo unificato basato su vision-language models che integra comprensione della scena, pianificazione della traiettoria e generazione di immagini future in un'unica architettura, dimostrando prestazioni superiori nel benchmark Bench2Drive grazie a un ciclo di feedback che raffina iterativamente la guida autonoma.

Zhexiao Xiong, Xin Ye, Burhan Yaman + 5 more2026-03-04💻 cs

VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos

Il paper presenta VideoTemp-o3, un framework unificato di pensiero agenziale che armonizza l'individuazione temporale e la comprensione video, risolvendo le inefficienze dei metodi attuali attraverso un meccanismo di mascheramento unificato, ricompense dedicate per il reinforcement learning e un nuovo benchmark per la valutazione su video lunghi.

Wenqi Liu, Yunxiao Wang, Shijie Ma + 14 more2026-03-04🤖 cs.AI

WristMIR: Coarse-to-Fine Region-Aware Retrieval of Pediatric Wrist Radiographs with Radiology Report-Driven Learning

Il paper presenta WristMIR, un framework di recupero di radiografie del polso pediatriche che sfrutta report radiologici strutturati e localizzazione specifica delle ossa per migliorare l'accuratezza diagnostica e la rilevanza clinica attraverso un processo di recupero a due stadi, superando le prestazioni dei modelli di base senza richiedere annotazioni manuali delle immagini.

Mert Sonmezer, Serge Vasylechko, Duygu Atasoy + 2 more2026-03-04💻 cs