Learning to Generate via Understanding: Understanding-Driven Intrinsic Rewarding for Unified Multimodal Models

Dit paper introduceert GvU, een zelftoezichtend versterkingsleerframework dat de generatiekwaliteit van uniforme multimodale modellen verbetert door gebruik te maken van hun eigen visuele begrijpingscapaciteit als intrinsieke beloning, waardoor de kloof tussen visueel begrijpen en genereren wordt overbrugd.

Jiadong Pan, Liang Li, Yuxin Peng, Yu-Ming Tang, Shuohuan Wang, Yu Sun, Hua Wu, Qingming Huang, Haifeng Wang2026-03-09💻 cs

GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection

GenHOI is een lichtgewicht uitbreiding voor bestaande videomodellen die door middel van tijdelijk gebalanceerde en ruimtelijk selectieve objectinjectie fysiek plausibele en object-consistente hand-object-interacties genereert, zelfs in complexe, onbekende scènes.

Xuan Huang, Mochu Xiang, Zhelun Shen, Jinbo Wu, Chenming Wu, Chen Zhao, Kaisiyuan Wang, Hang Zhou, Shanshan Liu, Haocheng Feng, Wei He, Jingdong Wang2026-03-09💻 cs

Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models

Dit paper introduceert Curious-VLA, een tweestapsframework dat de beperkende 'smalle beleid'-problematiek in autonome VLA-modellen aanpakt door middel van Feasible Trajectory Expansion en Adaptive Diversity-Aware Sampling, wat leidt tot state-of-the-art prestaties op de Navsim-benchmark door de exploratiecapaciteit te maximaliseren.

Canyu Chen, Yuguang Yang, Zhewen Tan, Yizhi Wang, Ruiyi Zhan, Haiyan Liu, Xuanyao Mao, Jason Bao, Xinyue Tang, Linlin Yang, Bingchuan Sun, Yan Wang, Baochang Zhang2026-03-09💻 cs

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

Deze studie analyseert de interne activaties van Vision-Language Models voor autonoom rijden en identificeert twee faalmodi—perceptueel en cognitief—waarbij blijkt dat hoewel objectaanwezigheid lineair gecodeerd is, ruimtelijke concepten zoals oriëntatie slechts impliciet worden vertegenwoordigd en dat prestaties snel verslechteren naarmate objecten verder weg zijn.

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy2026-03-09🤖 cs.AI

FedARKS: Federated Aggregation via Robust and Discriminative Knowledge Selection and Integration for Person Re-identification

FedARKS is een nieuw federatief leerframework voor personenheridentificatie dat de generalisatie in onbekende domeinen verbetert door lokale, domein-invariante details te benutten en via robuuste kennisselectie en -integratie bijdragen van hoogwaardige clients te maximaliseren in plaats van te vertrouwen op simpele globale middeling.

Xin Xu, Binchang Ma, Zhixi Yu, Wei Liu2026-03-09💻 cs

Longitudinal NSCLC Treatment Progression via Multimodal Generative Models

Deze studie introduceert een Virtual Treatment-framework dat gebruikmaakt van multimodale generatieve modellen, waarbij diffusiemodellen superieur blijken aan GAN's, om realistische CT-scans van NSCLC-tumoren te synthetiseren die de anatomische veranderingen door radiotherapie en dosis toewijzing nauwkeurig voorspellen.

Massimiliano Mantegna, Elena Mulero Ayllón, Alice Natalina Caragliano, Francesco Di Feola, Claudia Tacconi, Michele Fiore, Edy Ippolito, Carlo Greco, Sara Ramella, Philippe C. Cattin, Paolo Soda, Matteo Tortora, Valerio Guarrasi2026-03-09💻 cs

A Semi-Supervised Framework for Breast Ultrasound Segmentation with Training-Free Pseudo-Label Generation and Label Refinement

Deze paper presenteert een semi-supervised framework voor borst-echografie-segmentatie dat gebruikmaakt van training-vrije pseudolabels gegenereerd door vision-language modellen en verfijnde leerstrategieën om prestaties te bereiken die vergelijkbaar zijn met volledig gesuperviseerde modellen, zelfs met slechts 2,5% gelabelde data.

Ruili Li, Jiayi Ding, Ruiyu Li, Yilun Jin, Shiwen Ge, Yuwen Zeng, Xiaoyong Zhang, Eichi Takaya, Jan Vrba, Noriyasu Homma2026-03-09💻 cs