MOSIV: Multi-Object System Identification from Videos

Deze paper introduceert MOSIV, een nieuw raamwerk dat video's gebruikt om continue materiaaleigenschappen van meerdere objecten tegelijkertijd te identificeren via een differentieerbare simulator en een nieuw synthetisch benchmark, wat aanzienlijk betere resultaten oplevert dan bestaande methoden.

Chunjiang Liu, Xiaoyuan Wang, Qingran Lin, Albert Xiao, Haoyu Chen, Shizheng Wen, Hao Zhang, Lu Qi, Ming-Hsuan Yang, Laszlo A. Jeni, Min Xu, Yizhou Zhao2026-03-09💻 cs

StruVis: Enhancing Reasoning-based Text-to-Image Generation via Thinking with Structured Vision

StruVis is een nieuw framework dat de tekst-naar-beeldgeneratie verbetert door complexe prompts te analyseren via gestructureerde visuele representaties in plaats van tussenliggende afbeeldingen, waardoor het rekenvermogen van multimodale modellen wordt geoptimaliseerd zonder de hoge kosten van bestaande methoden.

Yuanhuiyi Lyu, Kaiyu Lei, Ziqiao Weng, Xu Zheng, Lutao Jiang, Teng Li, Yangfu Li, Ziyuan Huang, Linfeng Zhang, Xuming Hu2026-03-09💻 cs

Learning to Generate via Understanding: Understanding-Driven Intrinsic Rewarding for Unified Multimodal Models

Dit paper introduceert GvU, een zelftoezichtend versterkingsleerframework dat de generatiekwaliteit van uniforme multimodale modellen verbetert door gebruik te maken van hun eigen visuele begrijpingscapaciteit als intrinsieke beloning, waardoor de kloof tussen visueel begrijpen en genereren wordt overbrugd.

Jiadong Pan, Liang Li, Yuxin Peng, Yu-Ming Tang, Shuohuan Wang, Yu Sun, Hua Wu, Qingming Huang, Haifeng Wang2026-03-09💻 cs

GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection

GenHOI is een lichtgewicht uitbreiding voor bestaande videomodellen die door middel van tijdelijk gebalanceerde en ruimtelijk selectieve objectinjectie fysiek plausibele en object-consistente hand-object-interacties genereert, zelfs in complexe, onbekende scènes.

Xuan Huang, Mochu Xiang, Zhelun Shen, Jinbo Wu, Chenming Wu, Chen Zhao, Kaisiyuan Wang, Hang Zhou, Shanshan Liu, Haocheng Feng, Wei He, Jingdong Wang2026-03-09💻 cs

Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models

Dit paper introduceert Curious-VLA, een tweestapsframework dat de beperkende 'smalle beleid'-problematiek in autonome VLA-modellen aanpakt door middel van Feasible Trajectory Expansion en Adaptive Diversity-Aware Sampling, wat leidt tot state-of-the-art prestaties op de Navsim-benchmark door de exploratiecapaciteit te maximaliseren.

Canyu Chen, Yuguang Yang, Zhewen Tan, Yizhi Wang, Ruiyi Zhan, Haiyan Liu, Xuanyao Mao, Jason Bao, Xinyue Tang, Linlin Yang, Bingchuan Sun, Yan Wang, Baochang Zhang2026-03-09💻 cs

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

Deze studie analyseert de interne activaties van Vision-Language Models voor autonoom rijden en identificeert twee faalmodi—perceptueel en cognitief—waarbij blijkt dat hoewel objectaanwezigheid lineair gecodeerd is, ruimtelijke concepten zoals oriëntatie slechts impliciet worden vertegenwoordigd en dat prestaties snel verslechteren naarmate objecten verder weg zijn.

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy2026-03-09🤖 cs.AI

FedARKS: Federated Aggregation via Robust and Discriminative Knowledge Selection and Integration for Person Re-identification

FedARKS is een nieuw federatief leerframework voor personenheridentificatie dat de generalisatie in onbekende domeinen verbetert door lokale, domein-invariante details te benutten en via robuuste kennisselectie en -integratie bijdragen van hoogwaardige clients te maximaliseren in plaats van te vertrouwen op simpele globale middeling.

Xin Xu, Binchang Ma, Zhixi Yu, Wei Liu2026-03-09💻 cs