StyleVLA: Driving Style-Aware Vision Language Action Model for Autonomous Driving

Deze paper introduceert StyleVLA, een op fysica gebaseerd Vision-Language-Action-model dat, getraind op een groot instructiedataset, diverse en kinematisch haalbare rijstijlen genereert en daarmee gespecialiseerde prestaties behaalt die superieur zijn aan die van gesloten bronmodellen zoals Gemini-3-Pro.

Yuan Gao, Dengyuan Hua, Mattia Piccinini, Finn Rasmus Schäfer, Korbinian Moller, Lin Li, Johannes Betz2026-03-11💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Deze paper introduceert een componentbewust, zelfrefinerend raamwerk voor het genereren van fotorealistische afbeeldingen uit schetsen, dat via een tweestapsarchitectuur met zelfaandacht-codering en coördinatiebehoudende fusie aanzienlijk betere resultaten boekt dan bestaande GAN- en diffusiemodellen op diverse datasets.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz Qureshi2026-03-11💻 cs

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

Dit paper introduceert SurgFed, een taalgeleid multi-task federated learning-framework dat de uitdagingen van weefsel- en taakdiversiteit in chirurgische video's aanpakt via taalgestuurde kanaalselectie en hyperaggregatie, wat resulteert in superieure prestaties voor segmentatie en diepteschatten op meerdere datasets.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming Jin2026-03-11💻 cs

Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks

Deze paper introduceert RuleSafe, een nieuw benchmark voor langdurige robotmanipulatie met niet-Markoviaanse taken, en VQ-Memory, een compacte tijdsrepresentatie die bestaande Vision-Language-Action-modellen verbetert door verleden toestanden te coderen in discrete tokens voor betere langetermijnplanning en generalisatie.

Wang Honghui, Jing Zhi, Ao Jicong, Song Shiji, Li Xuelong, Huang Gao, Bai Chenjia2026-03-11💻 cs

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

Deze paper introduceert een op versterkingslering gebaseerde post-trainingstrategie, die Group Relative Policy Optimization (GRPO) uitbreidt naar multimodale contexten, om bestaande vision-language modellen te verbeteren in het genereren van samenhangende, verweven tekst-en-beeldoutput zonder afhankelijkheid van grote gespecialiseerde datasets.

Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li Zhang2026-03-11💻 cs

A comprehensive study of time-of-flight non-line-of-sight imaging

Dit paper biedt een uitgebreide studie van tijd-van-vlucht niet-zichtlijn (ToF NLOS) beeldvorming door een gemeenschappelijk wiskundig kader en hardware-opstelling te hanteren om diverse methoden te vergelijken, hun relatie met Radon-transformaties te analyseren en hun beperkingen in resolutie en ruisgevoeligheid onder gelijke omstandigheden te evalueren.

Julio Marco, Adrian Jarabo, Ji Hyun Nam, Alberto Tosi, Diego Gutierrez, Andreas Velten2026-03-11💻 cs