CASR-Net: An Image Processing-focused Deep Learning-based Coronary Artery Segmentation and Refinement Network for X-ray Coronary Angiogram

Die Studie stellt CASR-Net vor, ein dreistufiges Deep-Learning-Verfahren zur präzisen Segmentierung und Verfeinerung von Koronararterien in Röntgenangiogrammen, das durch eine innovative Vorverarbeitung und ein auf Self-ONN basierendes Decoder-Design den aktuellen Stand der Technik übertrifft und damit die klinische Diagnose von koronarer Herzkrankheit unterstützt.

Alvee Hassan, Rusab Sarmun, Muhammad E. H. Chowdhury + 4 more2026-03-04🤖 cs.AI

Online Data Curation for Object Detection via Marginal Contributions to Dataset-level Average Precision

Die Arbeit stellt DetGain vor, eine Online-Datenkuratierungsmethode für die Objekterkennung, die durch die Schätzung des marginalen Beitrags einzelner Bilder zum durchschnittlichen Präzisionswert (AP) des Datensatzes informative Trainingsbeispiele dynamisch auswählt und so die Genauigkeit verschiedener Detektoren auf dem COCO-Datensatz verbessert.

Zitang Sun, Masakazu Yoshimura, Junji Otsuka + 2 more2026-03-04💻 cs

PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation

Die Arbeit stellt PrismAudio vor, ein bahnbrechendes Framework für die Video-zu-Audio-Generierung, das durch spezialisierte Chain-of-Thought-Module und Multi-dimensional-Rewards das Problem der Zielkonflikte löst, während die effiziente Fast-GRPO-Optimierung und der neue AudioCanvas-Benchmark state-of-the-art-Ergebnisse in allen vier perceptuellen Dimensionen garantieren.

Huadai Liu, Kaicheng Luo, Wen Wang + 6 more2026-03-04⚡ eess

UniDrive-WM: Unified Understanding, Planning and Generation World Model For Autonomous Driving

Das Paper stellt UniDrive-WM vor, ein einheitliches Weltmodell auf Basis von Vision-Language-Modellen, das das Verständnis von Fahrszenen, die Trajektorienplanung und die generative Vorhersage zukünftiger Bilder in einer einzigen Architektur vereint und damit die Planungsleistung sowie die Kollisionsrate im Bench2Drive-Benchmark signifikant verbessert.

Zhexiao Xiong, Xin Ye, Burhan Yaman + 5 more2026-03-04💻 cs

VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos

Das Paper stellt VideoTemp-o3 vor, ein einheitliches Framework für agentices Denken mit Videos, das durch eine gemeinsame Modellierung von zeitlicher Verankerung und Beantwortung von Fragen sowie durch optimierte Feinabstimmungs- und Verstärkungslernmechanismen die Effizienz und Genauigkeit beim Verständnis langer Videos erheblich verbessert.

Wenqi Liu, Yunxiao Wang, Shijie Ma + 14 more2026-03-04🤖 cs.AI

WristMIR: Coarse-to-Fine Region-Aware Retrieval of Pediatric Wrist Radiographs with Radiology Report-Driven Learning

Das Paper stellt WristMIR vor, ein regionenbewusstes Framework zur grob-zu-feinen Suche nach pädiatrischen Handgelenks-Röntgenbildern, das durch die Nutzung strukturierter Radiologieberichte und knochenspezifischer Lokalisierung feingranulare, klinisch relevante Repräsentationen lernt und damit sowohl die Bildwiedergewinnung als auch die Frakturdiagnose signifikant verbessert.

Mert Sonmezer, Serge Vasylechko, Duygu Atasoy + 2 more2026-03-04💻 cs