SJD-PV: Speculative Jacobi Decoding with Phrase Verification for Autoregressive Image Generation

Dit paper introduceert SJD-PV, een trainingsvrij versnellingsframework voor autoregressieve beeldgeneratie dat de inferentielatentie met tot 30% verlaagt door het gebruik van semantisch coherente visuele zinsdelen voor gezamenlijke verificatie in plaats van onafhankelijke token-verificatie.

Zhehao Yu, Baoquan Zhang, Bingqi Shan, Xinhao Liu, Dongliang Zhou, Guotao Liang, Guangming Ye, Yunming Ye2026-03-10💻 cs

Unmixing microinfrared spectroscopic images of cross-sections of historical oil paintings

De auteurs presenteren een onbewaakte CNN-autoencoder met een gewogen spectrale hoekafstand (WSAD) voor het automatisch ontwarren van micro-IR spectroscopische beelden van historische olieverfschilderingen, zoals de Ghentse Altaarstuk, om de interpretatie van complexe materiaalmengsels te versnellen en te objectiveren.

Shivam Pande, Nicolas Nadisic, Francisco Mederos-Henry, Aleksandra Pizurica2026-03-10🤖 cs.LG

RADAR: A Multimodal Benchmark for 3D Image-Based Radiology Report Review

Dit paper introduceert RADAR, een multimodaal benchmark voor het analyseren van discrepanties in radiologierapporten door 3D-CT-beelden te koppelen aan voorlopige rapporten en voorgestelde wijzigingen, waarmee modellen worden getoetst op hun vermogen tot klinisch redeneren en beeld-taalafstemming tijdens het reviewproces.

Zhaoyi Sun, Minal Jagtiani, Wen-wai Yim, Fei Xia, Martin Gunn, Meliha Yetisgen, Asma Ben Abacha2026-03-10💻 cs

ECHO: Event-Centric Hypergraph Operations via Multi-Agent Collaboration for Multimedia Event Extraction

Het artikel introduceert ECHO, een multi-agent framework dat multimedia-evenementen extrahert door iteratief een gedeelde hypergraaf te verfijnen en een 'Link-then-Bind'-strategie toe te passen om foutpropagatie te verminderen en de prestaties aanzienlijk te verbeteren ten opzichte van de huidige stand van de techniek.

Hailong Chu, Shuo Zhang, Yunlong Chu, Shutai Huang, Xingyue Zhang, Tinghe Yan, Jinsong Zhang, Lei Li2026-03-10💻 cs

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

Deze paper introduceert TimeSpot, een benchmark met 1.455 wereldwijde beelden om de beperkte geo-temporele redeneercapaciteiten van Vision-Language-modellen te evalueren en aan te tonen dat er nieuwe methoden nodig zijn voor robuust begrip van tijd en locatie op basis van visuele data.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan Parvez2026-03-10💬 cs.CL

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

Dit paper introduceert "Narrative Weaver", een nieuw raamwerk dat door middel van een multimodaal taalmodel, een dynamisch geheugen en een progressieve trainingsstrategie langdurige visuele consistentie en narratieve coherentie in gegenereerde content mogelijk maakt, ondersteund door de introductie van het EAVSD-dataset voor e-commerce reclame.

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs