RADAR: A Multimodal Benchmark for 3D Image-Based Radiology Report Review

Dit paper introduceert RADAR, een multimodaal benchmark voor het analyseren van discrepanties in radiologierapporten door 3D-CT-beelden te koppelen aan voorlopige rapporten en voorgestelde wijzigingen, waarmee modellen worden getoetst op hun vermogen tot klinisch redeneren en beeld-taalafstemming tijdens het reviewproces.

Zhaoyi Sun, Minal Jagtiani, Wen-wai Yim, Fei Xia, Martin Gunn, Meliha Yetisgen, Asma Ben Abacha2026-03-10💻 cs

ECHO: Event-Centric Hypergraph Operations via Multi-Agent Collaboration for Multimedia Event Extraction

Het artikel introduceert ECHO, een multi-agent framework dat multimedia-evenementen extrahert door iteratief een gedeelde hypergraaf te verfijnen en een 'Link-then-Bind'-strategie toe te passen om foutpropagatie te verminderen en de prestaties aanzienlijk te verbeteren ten opzichte van de huidige stand van de techniek.

Hailong Chu, Shuo Zhang, Yunlong Chu, Shutai Huang, Xingyue Zhang, Tinghe Yan, Jinsong Zhang, Lei Li2026-03-10💻 cs

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

Deze paper introduceert TimeSpot, een benchmark met 1.455 wereldwijde beelden om de beperkte geo-temporele redeneercapaciteiten van Vision-Language-modellen te evalueren en aan te tonen dat er nieuwe methoden nodig zijn voor robuust begrip van tijd en locatie op basis van visuele data.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan Parvez2026-03-10💬 cs.CL

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

Dit paper introduceert "Narrative Weaver", een nieuw raamwerk dat door middel van een multimodaal taalmodel, een dynamisch geheugen en een progressieve trainingsstrategie langdurige visuele consistentie en narratieve coherentie in gegenereerde content mogelijk maakt, ondersteund door de introductie van het EAVSD-dataset voor e-commerce reclame.

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

HARP: HARmonizing in-vivo diffusion MRI using Phantom-only training

Deze studie introduceert HARP, een deep learning-framework dat inter-scanner variabiliteit in diffusion MRI-data effectief harmoniseert door uitsluiting op een phantom te trainen, waardoor de noodzaak voor complexe, gemaakte in-vivo multi-site cohorten wordt weggenomen.

Hwihun Jeong, Qiang Liu, Kathryn E. Keenan, Elisabeth A. Wilde, Walter Schneider, Sudhir Pathak, Anthony Zuccolotto, Lauren J. O'Donnell, Lipeng Ning, Yogesh Rathi2026-03-10💻 cs

On the Generalization Capacities of MLLMs for Spatial Intelligence

Dit paper stelt dat MLLMs die alleen RGB-gegevens verwerken fundamenteel tekortschieten in ruimtelijk inzicht door camera-parameters te negeren, en introduceert daarom een camera-bewust raamwerk dat door het integreren van camera-intrinsieke parameters en data-augmentatie zorgt voor robuustere en generaliseerbare ruimtelijke redeneerfähigheden.

Gongjie Zhang, Wenhao Li, Quanhao Qian, Jiuniu Wang, Deli Zhao, Shijian Lu, Ran Xu2026-03-10🤖 cs.LG