MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning

Dit paper introduceert MORE-R1, een nieuw model dat Large Vision-Language Models (LVLMs) via een twee-staps trainingsproces met toezicht en versterkingslearning in staat stelt om complexe multimodale object-entiteitsrelaties te extraheren door middel van expliciete stap-voor-stap redenering.

Xiang Yuan, Xu Chu, Xinrong Chen, Haochen Li, Zonghong Dai, Hongcheng Fan, Xiaoyue Yuan, Weiping Li, Tong MoWed, 11 Ma💻 cs

StyleVLA: Driving Style-Aware Vision Language Action Model for Autonomous Driving

Deze paper introduceert StyleVLA, een op fysica gebaseerd Vision-Language-Action-model dat, getraind op een groot instructiedataset, diverse en kinematisch haalbare rijstijlen genereert en daarmee gespecialiseerde prestaties behaalt die superieur zijn aan die van gesloten bronmodellen zoals Gemini-3-Pro.

Yuan Gao, Dengyuan Hua, Mattia Piccinini, Finn Rasmus Schäfer, Korbinian Moller, Lin Li, Johannes BetzWed, 11 Ma💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Deze paper introduceert een componentbewust, zelfrefinerend raamwerk voor het genereren van fotorealistische afbeeldingen uit schetsen, dat via een tweestapsarchitectuur met zelfaandacht-codering en coördinatiebehoudende fusie aanzienlijk betere resultaten boekt dan bestaande GAN- en diffusiemodellen op diverse datasets.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz QureshiWed, 11 Ma💻 cs

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

Dit paper introduceert SurgFed, een taalgeleid multi-task federated learning-framework dat de uitdagingen van weefsel- en taakdiversiteit in chirurgische video's aanpakt via taalgestuurde kanaalselectie en hyperaggregatie, wat resulteert in superieure prestaties voor segmentatie en diepteschatten op meerdere datasets.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming JinWed, 11 Ma💻 cs

Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks

Deze paper introduceert RuleSafe, een nieuw benchmark voor langdurige robotmanipulatie met niet-Markoviaanse taken, en VQ-Memory, een compacte tijdsrepresentatie die bestaande Vision-Language-Action-modellen verbetert door verleden toestanden te coderen in discrete tokens voor betere langetermijnplanning en generalisatie.

Wang Honghui, Jing Zhi, Ao Jicong, Song Shiji, Li Xuelong, Huang Gao, Bai ChenjiaWed, 11 Ma💻 cs

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

Deze paper introduceert een op versterkingslering gebaseerde post-trainingstrategie, die Group Relative Policy Optimization (GRPO) uitbreidt naar multimodale contexten, om bestaande vision-language modellen te verbeteren in het genereren van samenhangende, verweven tekst-en-beeldoutput zonder afhankelijkheid van grote gespecialiseerde datasets.

Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li ZhangWed, 11 Ma💻 cs